Vulnerability AnalysisVulnerability ReasoningPoc Generation

SecLLMHolmes

A Comprehensive Evaluation Framework and Benchmarks for LLMs in Security Vulnerability Identification and Reasoning

View Paper

Quick Stats

Top Score

N/A

Models Evaluated

Dataset Size

228 samples

Last Updated

December 19, 2023

Availability

Dataset ✓Code ✓

Metrics Tracked

accuracyreasoning faithfulnessrobustness

Sources

Project

Dataset Information

228 code scenarios analyzed across 8 investigative dimensions including determinism, reasoning faithfulness, and robustness to code changes

Number of Tasks

Vulnerability IdentificationSecurity ReasoningCode Analysis

Model Results

Detailed scores for each model evaluated on this benchmark

Verified metadata only

No verified public primary numeric leaderboard/result table has been extracted into the catalog yet; metadata and source links were refreshed during the 2026-05-12 audit.

Review Source