开源的CyberSOCEval为恶意软件分析和威胁情报领域的人工智能设定了新标准

一个名为CyberSOCEval的开创性开源基准套件，已成为首个针对安全运营中心（SOC）环境中大型语言模型（LLMs）的综合评估框架。

作为CyberSecEval 4的一部分发布的这项创新基准，通过聚焦恶意软件分析和威胁情报推理这两个关键防御领域，解决了网络安全人工智能评估中的重大空白。

这项由Meta和CrowdStrike开展的研究表明，当前的人工智能系统在这些以安全为重点的评估中远未达到饱和状态，在恶意软件分析任务中的准确率约为15%至28%，在威胁情报推理方面的准确率为43%至53%。

CyberSOCEval 是首个针对大型语言模型（LLMs）在安全运营中心（SOC）任务上表现的开源基准测试项目。

（说明：“benchmark” 指 “基准测试”，用于衡量技术或系统的性能水平；“Security Operations Center（SOC）” 即 “安全运营中心”，是企业或组织中负责监控、检测和响应网络安全事件的核心部门，此处 “SOC tasks” 指该中心日常处理的安全相关任务，如威胁检测、事件分析等。）
目前，大型语言模型（LLMs）在恶意软件分析任务中的准确率仅为 15%-28%，在威胁情报任务中的准确率为 43%-53%。

（说明：“malware analysis” 即 “恶意软件分析”，指对病毒、木马、勒索软件等恶意程序的行为、结构、危害等进行解析的过程；“threat intelligence” 即 “威胁情报”，指收集、分析与网络威胁相关的信息（如攻击源、攻击手段、攻击目标等），为安全防护提供依据的工作。）
该测试包含 609 道恶意软件相关题目和 588 道威胁情报相关题目，从 JSON 日志分析、MITRE ATT&CK 框架映射、复杂攻击链拆解三个维度对人工智能（AI）系统进行评估。

（说明：“JSON logs” 指以 JSON 格式（一种轻量级数据交换格式）记录的系统或应用日志，是安全分析中常用的数据来源；“MITRE ATT&CK” 是由 MITRE 公司制定的一套全球公认的网络攻击行为框架，定义了攻击者的战术、技术和流程，“mappings” 此处指将攻击行为与该框架中的对应条目进行匹配；“complex attack chains” 即 “复杂攻击链”，指攻击者为达成目标而实施的一系列连贯攻击步骤，评估 AI 对其的拆解能力可反映其深度分析水平。）

这些结果凸显了人工智能网络防御能力存在显著的提升空间。

CyberSOCEval恶意软件分析

CyberSOCEval的恶意软件分析组件利用了来自CrowdStrike Falcon®沙箱的真实沙箱引爆数据，生成了609个问答对，涵盖五种恶意软件类别，包括勒索软件、远程访问木马（RATs）、信息窃取器、EDR/AV杀手以及UM脱钩技术。

该基准测试评估人工智能系统解读复杂JSON格式系统日志、处理树、网络流量以及MITRE ATT&CK框架映射的能力。

技术规格包括支持上下文窗口达128,000令牌的模型，其过滤机制可在保持性能完整性的同时减小报告大小。

评估涵盖了关键的网络安全概念，包括T1055.001（进程注入）、T1112（注册表运行键）以及诸如CreateRemoteThread、VirtualAlloc和WriteProcessMemory等API调用。

威胁情报推理基准处理588个问答对，这些问答对源自45份不同的威胁情报报告，来源包括CrowdStrike、美国网络安全与基础设施安全局、美国国家安全局和互联网犯罪投诉中心。

与CTIBench和SEvenLLM等现有框架不同，CyberSOCEval整合了多模态情报报告，将文本形式的妥协指标（IOCs）与表格和图表相结合。

该评估方法同时采用了基于类别的和基于关系的问题生成，使用的模型为Llama 3.2 90B和Llama 4 Maverick。

开源的CyberSOCEval为恶意软件分析和威胁情报领域的人工智能设定了新标准

按恶意软件攻击分类的引爆报告分布以及按主题和难度分类的分布

这些问题需要跨威胁行为者关系、恶意软件归因以及映射到MITRE ATT&CK等框架的复杂攻击链分析进行多跳推理。

Meta表示，利用测试时缩放的推理模型并未展现出在编码和数学领域观察到的性能提升，这表明针对网络安全的特定推理训练是一个关键的发展机遇。

该基准的开源性质鼓励社区贡献，为从业者提供可靠的模型选择指标，同时为人工智能开发者提供清晰的发展路线图，以增强网络防御能力。

版权声明·<<<---红客联盟--->>>·免责声明
1. 本版块文章内容及资料部分来源于网络，不代表本站观点，不对其真实性负责，也不构成任何建议。
2. 部分内容由网友自主投稿、编辑整理上传，本站仅提供交流平台，不为该类内容的版权负责。
3. 本版块提供的信息仅作参考，不保证信息的准确性、有效性、及时性和完整性。
4. 若您发现本版块有侵犯您知识产权的内容，请及时与我们联系，我们会尽快修改或删除。
5. 使用者违规、不可抗力（如黑客攻击）或第三方擅自转载引发的争议，联盟不承担责任。
6. 联盟可修订本声明，官网发布即生效，继续使用视为接受新条款。

联系我们：admin@chnhonker.com

开源的CyberSOCEval为恶意软件分析和威胁情报领域的人工智能设定了新标准

CyberSOCEval恶意软件分析

新型红队工具“Red AI Range”可发现、分析并缓解人工智能漏洞

Nessus与Metasploit对比：如何使用这些强大工具利用漏洞

思科ASA零日远程代码执行漏洞在野外被积极利用

长城防火墙超过500GB的敏感数据在网上泄露

2025年十大最佳Web应用程序渗透测试公司

人工智能驱动的渗透测试工具 “Villager”实现自动化攻击

黑客利用 AI 平台 Simplified AI 实施 M365 钓鱼攻击深度分析报告【红客联盟 AI 分析】

新型恶意Rust crate仿冒fast_log窃取Solana和以太坊钱包密钥

黑客利用 Hexstrike-AI 工具在 10 分钟内自动执行零日漏洞攻击

黑客利用海康威视摄像头漏洞获取敏感信息

HexStrike AI、Citrix 漏洞武器化、AI 攻击性安全工具-红客联盟 AI 分析报告

海康威视（Hikvision）多个漏洞允许攻击者执行恶意命令