Transforming Unstructured Text into Actionable Cyber Intelligence

Andri Wijaya, M.T.I.

Ikhtisar artikel

Advances in digital technology have led to a massive increase in unstructured data, including cybersecurity reports, social media posts, digital documents, and various other forms of electronic communication. This has driven the need for technologies capable of automatically understanding and processing textual data. Natural Language Processing (NLP) has emerged as a key approach in supporting information extraction, text classification, contextual analysis, and the development of data-driven intelligent systems. In the field of cybersecurity, NLP is utilized to support Cyber Threat Intelligence through the process of extracting threat information from unstructured cybersecurity reports. Information such as malware, Indicators of Compromise (IoC), attack techniques, and patterns of threat actor activity can be automatically identified to generate more structured and easily analyzable intelligence. Furthermore, advancements in transformer architecture and Large Language Models (LLMs) are expanding NLP’s capabilities to understand language context in a more complex and adaptive manner. The integration of NLP, artificial intelligence, deep learning, and cybersecurity presents significant opportunities for building smarter, automated, and context-aware cyber threat analysis systems. This research discusses the development of NLP, its application in cybersecurity and cyber threat intelligence, the challenges of processing the Indonesian language, and future development directions based on Large Language Models to support digital transformation and strengthen cybersecurity.

Natural Language ProcessingCyber Threat IntelligenceCybersecurityLarge Language ModelsArtificial IntelligenceDeep LearningText MiningInformation Extraction

COMNETS View

Vol. 1 • No. 2 • 2026

Buka edisi

Transforming Unstructured Text into Actionable Cyber Intelligence

Menurut Xue and Liu [1], perkembangan teknologi digital dalam beberapa tahun terakhir telah menghasilkan pertumbuhan data tidak terstruktur dalam jumlah yang sangat besar, seperti dokumen digital, media sosial, laporan keamanan siber, artikel daring, dan komunikasi elektronik lainnya. Ferrag et al. [2] menjelaskan bahwa kebutuhan terhadap teknologi yang mampu memahami dan mengolah data teks secara otomatis menjadi semakin penting dalam mendukung pengambilan keputusan berbasis data dan sistem cerdas modern. Selain itu, perkembangan transformer architecture dan Large Language Models (LLM) juga semakin memperluas kemampuan NLP dalam memahami konteks bahasa manusia secara lebih kompleks dan adaptif.

Arazzi et al. [3] menjelaskan bahwa Natural Language Processing berkembang sebagai solusi untuk membantu proses ekstraksi informasi, klasifikasi teks, analisis konteks, dan pembentukan sistem cerdas yang mampu memahami bahasa alami manusia secara otomatis. NLP mengintegrasikan berbagai disiplin ilmu seperti linguistik, machine learning, deep learning, data mining, dan artificial intelligence untuk menghasilkan pendekatan yang mampu mengubah data teks menjadi informasi yang lebih terstruktur dan mudah dianalisis. Dengan kemampuan tersebut, NLP saat ini banyak diterapkan pada berbagai bidang seperti cybersecurity, business intelligence, analisis media sosial, healthcare, hingga sistem pendukung keputusan.

Dalam bidang keamanan siber, penelitian diarahkan pada penerapan Cyber Threat Intelligence untuk mendukung proses deteksi, mitigasi, dan analisis ancaman digital secara otomatis. Menurut Ismail [4] sebagian besar informasi ancaman siber masih tersedia dalam bentuk laporan teks tidak terstruktur seperti threat intelligence reports, incident reports, security advisories, dan malware analysis reports. Kondisi tersebut menyebabkan proses analisis ancaman siber sering kali membutuhkan waktu yang lama apabila dilakukan secara manual. Oleh karena itu, NLP dimanfaatkan untuk membantu proses ekstraksi informasi ancaman siber sehingga menghasilkan data intelligence yang lebih terstruktur dan mudah dianalisis.

Penelitian pada bidang ini difokuskan pada pengembangan metode text mining dan information extraction untuk mengidentifikasi berbagai informasi penting dari laporan ancaman siber, seperti nama malware, indikator kompromi (Indicators of Compromise/IoC), teknik serangan, target serangan, serta pola aktivitas yang dilakukan oleh aktor ancaman. Menurut penelitian yang dilakukan oleh Albarrak et al. [5] pendekatan NLP pada cyber threat intelligence mampu meningkatkan efektivitas proses identifikasi ancaman serta membantu pengembangan sistem keamanan siber yang lebih proaktif dan adaptif. Selain pada domain cybersecurity, penelitian juga diarahkan pada analisis malware Android. Raju et al. [6] menjelaskan bahwa perkembangan perangkat mobile yang sangat pesat menyebabkan sistem operasi Android menjadi salah satu target utama serangan malware. Malware Android terus berkembang dengan berbagai teknik serangan yang semakin kompleks sehingga membutuhkan pendekatan analisis yang lebih adaptif dan otomatis. Dalam konteks ini, NLP digunakan untuk membantu proses analisis laporan ancaman siber terkait malware Android guna menghasilkan dataset intelligence yang dapat digunakan dalam pengembangan model deteksi malware berbasis machine learning dan deep learning.

Pengembangan dataset berbasis threat intelligence menjadi salah satu fokus penting dalam penelitian. Menurut penelitian Rahman et al. [7] dan Xu et al. [8] integrasi antara NLP, artificial intelligence, dan cybersecurity memberikan peluang besar dalam membangun sistem keamanan siber yang lebih cerdas dan otomatis. Dataset yang dihasilkan melalui proses ekstraksi otomatis dari laporan keamanan siber diharapkan mampu memberikan konteks intelligence yang lebih kaya dibandingkan dataset malware konvensional. Data yang telah diekstraksi kemudian digunakan dalam proses klasifikasi, prediksi, maupun analisis pola ancaman menggunakan berbagai pendekatan artificial intelligence dan deep learning.

Dalam implementasinya, penelitian juga memanfaatkan berbagai pendekatan machine learning dan deep learning untuk mendukung proses analisis bahasa alami. Ainslie et al. [9] menjelaskan bahwa teknik seperti text classification, topic modeling, sentiment analysis, named entity recognition (NER), dan relation extraction memiliki peran penting dalam memahami struktur dan konteks data teks secara lebih mendalam. Selain itu, perkembangan transformer-based language models dan Large Language Models membuka peluang baru dalam pengembangan sistem analisis ancaman siber berbasis artificial intelligence yang mampu melakukan analisis secara otomatis dan real-time.

Pemanfaatan NLP juga diterapkan pada berbagai bidang lain seperti business intelligence, analisis media sosial, data analytics, dan sistem pendukung keputusan. Menurut penelitian Ismail [4] NLP dapat digunakan untuk menganalisis opini pelanggan, memahami tren pasar, serta mengidentifikasi pola perilaku pengguna dari data digital yang tersedia. Pada analisis media sosial, NLP dimanfaatkan untuk melakukan sentiment analysis, deteksi topik, dan pemetaan opini publik terhadap isu tertentu. Hal tersebut menunjukkan bahwa NLP memiliki peran penting dalam mendukung transformasi digital berbasis data pada berbagai sektor industri dan organisasi modern.

Pengembangan penelitian pada bidang NLP juga diarahkan untuk mendukung pengolahan Bahasa Indonesia yang masih memiliki berbagai tantangan dibandingkan bahasa dengan sumber daya tinggi seperti Bahasa Inggris. Tantangan tersebut meliputi keterbatasan dataset, variasi struktur bahasa, penggunaan bahasa tidak formal, serta minimnya sumber daya linguistik yang tersedia. Oleh karena itu, penelitian pada bidang NLP diharapkan dapat memberikan kontribusi dalam pengembangan teknologi pengolahan bahasa alami yang lebih adaptif terhadap karakteristik Bahasa Indonesia, khususnya pada domain keamanan siber dan analisis intelligence.

Masa depan, arah pengembangan kepakaran difokuskan pada integrasi antara NLP, artificial intelligence, cyber intelligence, dan Large Language Models untuk membangun sistem analisis ancaman siber yang lebih cerdas, otomatis, dan kontekstual. Menurut Ahi and Valizadeh [10], pemanfaatan LLM pada bidang cybersecurity memiliki potensi besar dalam meningkatkan kemampuan sistem dalam memahami konteks ancaman, melakukan reasoning terhadap data ancaman siber, serta menghasilkan informasi intelligence yang lebih akurat dan relevan. Dengan perkembangan teknologi tersebut, NLP diharapkan mampu menjadi salah satu fondasi penting dalam mendukung transformasi digital, penguatan keamanan siber, dan pengembangan sistem cerdas berbasis data di masa mendatang.

Referensi
[1] H. Xue and W. Liu, “Bibliometric Analysis of Natural Language Processing Technology in Education: Hot Topics, Frontier Evolution, and Future Prospects,” SAGE Open, vol. 15, no. 1, 2025, doi: 10.1177/21582440251319891.
[2] M. A. Ferrag et al., “Revolutionizing Cyber Threat Detection with Large Language Models: A Privacy-Preserving BERT-Based Lightweight Model for IoT/IIoT Devices,” IEEE Access, vol. 12, pp. 23733–23750, 2024, doi: 10.1109/ACCESS.2024.3363469.
[3] M. Arazzi et al., “NLP-based techniques for Cyber Threat Intelligence,” Computer Science Review, vol. 58, p. 100765, 2025, doi: 10.1016/j.cosrev.2025.100765.
[4] W. S. Ismail, “Threat Detection and Response Using AI and NLP in Cybersecurity,” Journal of Internet Services and Information Security, vol. 14, no. 1, pp. 195–205, 2024, doi: 10.58346/JISIS.2024.I1.013.
[5] M. Albarrak, K. Salonitis, and S. Jagtap, “Natural Language Processing (NLP)-Based Frameworks for Cyber Threat Intelligence and Early Prediction of Cyberattacks in Industry 4.0: A Systematic Literature Review,” Applied Sciences, vol. 16, no. 2, p. 619, 2026, doi: 10.3390/app16020619.
[6] A. D. Raju, I. Y. Abualhaol, R. S. Giagone, Y. Zhou, and S. Huang, “A Survey on Cross-Architectural IoT Malware Threat Hunting,” IEEE Access, vol. 9, pp. 91686–91708, 2021, doi: 10.1109/ACCESS.2021.3091427.
[7] M. A. Rahman et al., “A Survey of Large Language Models (LLMs) for Cybersecurity: Opportunities and Directions,” in Proc. 2025 IEEE Int. Conf. Big Data (BigData), 2025, pp. 4333–4342, doi: 10.1109/BigData66926.2025.11402639.
[8] H. Xu et al., “Large Language Models for Cyber Security: A Systematic Literature Review,” ACM Transactions on Software Engineering and Methodology, 2025, doi: 10.1145/3769676.
[9] S. Ainslie, D. Thompson, S. Maynard, and A. Ahmad, “Cyber-threat intelligence for security decision-making: A review and research agenda for practice,” Computers and Security, vol. 132, 2023, doi: 10.1016/j.cose.2023.103352.
[10] K. Ahi and S. Valizadeh, “Large Language Models (LLMs) and Generative AI in Cybersecurity and Privacy: A Survey of Dual-Use Risks, AI-Generated Malware, Explainability, and Defensive Strategies,” in 2025 Silicon Valley Cybersecurity Conference (SVCC), 2025, pp. 1–8, doi: 10.1109/SVCC65277.2025.11133642.