Favia: Forensischer Agent zur Identifizierung und Analyse von Sicherheitslückenbehebungen
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis
February 13, 2026
papers.authors: André Storhaug, Jiamou Sun, Jingyue Li
cs.AI
papers.abstract
Die Identifizierung von Commits, die Sicherheitslücken beheben und zu veröffentlichten CVEs gehören, ist für die sichere Softwarewartung unerlässlich, bleibt jedoch im großen Maßstab eine Herausforderung, da große Repositorys Millionen von Commits enthalten, von denen nur ein kleiner Teil Sicherheitsprobleme behandelt. Bestehende automatisierte Ansätze, einschließlich traditioneller Machine-Learning-Verfahren und neuerer Methoden auf Basis großer Sprachmodelle (LLM), leiden oft unter einem schlechten Präzisions-Recall-Verhältnis. Da sie häufig an zufällig ausgewählten Commits evaluiert werden, zeigen wir auf, dass sie die reale Schwierigkeit erheblich unterschätzen, bei der Kandidaten-Commits bereits sicherheitsrelevant und sehr ähnlich sind. Wir stellen Favia vor, ein forensisches, agentenbasiertes Framework zur Identifizierung von Sicherheitslücken-Behebungen, das skalierbare Kandidatenpriorisierung mit tiefgreifendem und iterativem semantischem Reasoning kombiniert. Favia nutzt zunächst eine effiziente Ranking-Stufe, um den Suchraum der Commits einzugrenzen. Anschließend wird jeder Commit rigoros mit einem ReAct-basierten LLM-Agenten evaluiert. Indem der Agent mit einem Pre-Commit-Repository als Umgebung sowie spezialisierten Tools ausgestattet wird, kann dieser anfällige Komponenten lokalisieren, im Codebase navigieren und eine kausale Übereinstimmung zwischen Codeänderungen und den Ursachen der Sicherheitslücke herstellen. Dieser evidenzbasierte Prozess ermöglicht eine robuste Identifizierung von indirekten, mehrdateibezogenen und nicht-trivialen Behebungen, die Einzelprüfungs- oder Ähnlichkeits-basierten Methoden entgehen. Wir evaluieren Favia auf CVEVC, einem von uns erstellten umfangreichen Datensatz mit über 8 Millionen Commits aus 3.708 realen Repositorys, und zeigen, dass es unter realistischer Kandidatenauswahl durchgängig state-of-the-art traditionelle und LLM-basierte Baseline-Methoden übertrifft und die stärksten Präzisions-Recall-Verhältnisse sowie die höchsten F1-Werte erzielt.
English
Identifying vulnerability-fixing commits corresponding to disclosed CVEs is essential for secure software maintenance but remains challenging at scale, as large repositories contain millions of commits of which only a small fraction address security issues. Existing automated approaches, including traditional machine learning techniques and recent large language model (LLM)-based methods, often suffer from poor precision-recall trade-offs. Frequently evaluated on randomly sampled commits, we uncover that they are substantially underestimating real-world difficulty, where candidate commits are already security-relevant and highly similar. We propose Favia, a forensic, agent-based framework for vulnerability-fix identification that combines scalable candidate ranking with deep and iterative semantic reasoning. Favia first employs an efficient ranking stage to narrow the search space of commits. Each commit is then rigorously evaluated using a ReAct-based LLM agent. By providing the agent with a pre-commit repository as environment, along with specialized tools, the agent tries to localize vulnerable components, navigates the codebase, and establishes causal alignment between code changes and vulnerability root causes. This evidence-driven process enables robust identification of indirect, multi-file, and non-trivial fixes that elude single-pass or similarity-based methods. We evaluate Favia on CVEVC, a large-scale dataset we made that comprises over 8 million commits from 3,708 real-world repositories, and show that it consistently outperforms state-of-the-art traditional and LLM-based baselines under realistic candidate selection, achieving the strongest precision-recall trade-offs and highest F1-scores.