一个名为CyberSOCEval的开创性开源基准套件,已成为首个针对安全运营中心(SOC)环境中大型语言模型(LLMs)的综合评估框架。
作为CyberSecEval 4的一部分发布的这项创新基准,通过聚焦恶意软件分析和威胁情报推理这两个关键防御领域,解决了网络安全人工智能评估中的重大空白。
这项由Meta和CrowdStrike开展的研究表明,当前的人工智能系统在这些以安全为重点的评估中远未达到饱和状态,在恶意软件分析任务中的准确率约为15%至28%,在威胁情报推理方面的准确率为43%至53%。
这些结果凸显了人工智能网络防御能力存在显著的提升空间。
CyberSOCEval恶意软件分析
CyberSOCEval的恶意软件分析组件利用了来自CrowdStrike Falcon®沙箱的真实沙箱引爆数据,生成了609个问答对,涵盖五种恶意软件类别,包括勒索软件、远程访问木马(RATs)、信息窃取器、EDR/AV杀手以及UM脱钩技术。
该基准测试评估人工智能系统解读复杂JSON格式系统日志、处理树、网络流量以及MITRE ATT&CK框架映射的能力。
技术规格包括支持上下文窗口达128,000令牌的模型,其过滤机制可在保持性能完整性的同时减小报告大小。
评估涵盖了关键的网络安全概念,包括T1055.001(进程注入)、T1112(注册表运行键)以及诸如CreateRemoteThread、VirtualAlloc和WriteProcessMemory等API调用。
威胁情报推理基准处理588个问答对,这些问答对源自45份不同的威胁情报报告,来源包括CrowdStrike、美国网络安全与基础设施安全局、美国国家安全局和互联网犯罪投诉中心。
与CTIBench和SEvenLLM等现有框架不同,CyberSOCEval整合了多模态情报报告,将文本形式的妥协指标(IOCs)与表格和图表相结合。
该评估方法同时采用了基于类别的和基于关系的问题生成,使用的模型为Llama 3.2 90B和Llama 4 Maverick。
按恶意软件攻击分类的引爆报告分布以及按主题和难度分类的分布
这些问题需要跨威胁行为者关系、恶意软件归因以及映射到MITRE ATT&CK等框架的复杂攻击链分析进行多跳推理。
Meta表示,利用测试时缩放的推理模型并未展现出在编码和数学领域观察到的性能提升,这表明针对网络安全的特定推理训练是一个关键的发展机遇。
该基准的开源性质鼓励社区贡献,为从业者提供可靠的模型选择指标,同时为人工智能开发者提供清晰的发展路线图,以增强网络防御能力。
1. 本版块文章内容及资料部分来源于网络,不代表本站观点,不对其真实性负责,也不构成任何建议。
2. 部分内容由网友自主投稿、编辑整理上传,本站仅提供交流平台,不为该类内容的版权负责。
3. 本版块提供的信息仅作参考,不保证信息的准确性、有效性、及时性和完整性。
4. 若您发现本版块有侵犯您知识产权的内容,请及时与我们联系,我们会尽快修改或删除。
5. 使用者违规、不可抗力(如黑客攻击)或第三方擅自转载引发的争议,联盟不承担责任。
6. 联盟可修订本声明,官网发布即生效,继续使用视为接受新条款。