Favia: Forensische Agent voor Identificatie en Analyse van Kwetsbaarheidsoplossingen
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis
February 13, 2026
Auteurs: André Storhaug, Jiamou Sun, Jingyue Li
cs.AI
Samenvatting
Het identificeren van kwetsbaarheidsoplossingen in commits die corresponderen met openbaar gemaakte CVE's is essentieel voor veilig softwareonderhoud, maar blijft op grote schaal een uitdaging, omdat grote repositories miljoenen commits bevatten waarvan slechts een klein deel beveiligingsproblemen aanpakt. Bestaande geautomatiseerde aanpakken, inclusief traditionele machine learning-technieken en recente op grote taalmodellen (LLM) gebaseerde methoden, lijden vaak onder een zwakke precisie-recall-afweging. Veelal geëvalueerd op willekeurig geselecteerde commits, tonen wij aan dat zij de real-world moeilijkheidsgraad aanzienlijk onderschatten, waarbij kandidaat-commits reeds security-relevant en zeer vergelijkbaar zijn. Wij stellen Favia voor, een forensisch, agent-gebaseerd raamwerk voor kwetsbaarheidsfix-identificatie dat schaalbare kandidaatrangschikking combineert met diepe en iteratieve semantische redenering. Favia gebruikt eerst een efficiënte rangschikkingsfase om de zoekruimte van commits te verkleinen. Vervolgens wordt elke commit rigoureus geëvalueerd met een op ReAct gebaseerde LLM-agent. Door de agent een pre-commit repository als omgeving te bieden, samen met gespecialiseerde tools, lokaliseert de agent kwetsbare componenten, navigeert deze door de codebase en stelt causale afstemming vast tussen codewijzigingen en kwetsbaarheidsbronoorzaken. Dit op bewijzen gebaseerde proces maakt robuuste identificatie mogelijk van indirecte, multi-file en niet-triviale fixes die aan eenmalige of op gelijkenis gebaseerde methoden ontsnappen. Wij evalueren Favia op CVEVC, een grootschalige dataset die wij hebben samengesteld met meer dan 8 miljoen commits uit 3.708 real-world repositories, en tonen aan dat het consistent superieure prestaties levert vergeleken met state-of-the-art traditionele en LLM-gebaseerde baseline-methoden onder realistische kandidaatselectie, waarbij het de sterkste precisie-recall-afwegingen en hoogste F1-scores behaalt.
English
Identifying vulnerability-fixing commits corresponding to disclosed CVEs is essential for secure software maintenance but remains challenging at scale, as large repositories contain millions of commits of which only a small fraction address security issues. Existing automated approaches, including traditional machine learning techniques and recent large language model (LLM)-based methods, often suffer from poor precision-recall trade-offs. Frequently evaluated on randomly sampled commits, we uncover that they are substantially underestimating real-world difficulty, where candidate commits are already security-relevant and highly similar. We propose Favia, a forensic, agent-based framework for vulnerability-fix identification that combines scalable candidate ranking with deep and iterative semantic reasoning. Favia first employs an efficient ranking stage to narrow the search space of commits. Each commit is then rigorously evaluated using a ReAct-based LLM agent. By providing the agent with a pre-commit repository as environment, along with specialized tools, the agent tries to localize vulnerable components, navigates the codebase, and establishes causal alignment between code changes and vulnerability root causes. This evidence-driven process enables robust identification of indirect, multi-file, and non-trivial fixes that elude single-pass or similarity-based methods. We evaluate Favia on CVEVC, a large-scale dataset we made that comprises over 8 million commits from 3,708 real-world repositories, and show that it consistently outperforms state-of-the-art traditional and LLM-based baselines under realistic candidate selection, achieving the strongest precision-recall trade-offs and highest F1-scores.