Favia: Agente Forense per l'Identificazione e l'Analisi di Correzioni di Vulnerabilità

Abstract

L'identificazione dei commit che correggono vulnerabilità corrispondenti a CVE divulgati è essenziale per la manutenzione sicura del software, ma rimane complessa su larga scala, poiché i grandi repository contengono milioni di commit, di cui solo una piccola frazione affronta problemi di sicurezza. Gli approcci automatizzati esistenti, incluse le tecniche di machine learning tradizionali e i recenti metodi basati su Large Language Model (LLM), soffrono spesso di compromessi imprecisi tra precisione e recall. Valutati frequentemente su commit campionati casualmente, scopriamo che sottostimano sostanzialmente la difficoltà del mondo reale, dove i commit candidati sono già rilevanti per la sicurezza e altamente simili. Proponiamo Favia, un framework forense basato su agenti per l'identificazione delle correzioni di vulnerabilità, che combina un ranking scalabile dei candidati con un ragionamento semantico profondo e iterativo. Favia impiega inizialmente una fase efficiente di ranking per restringere lo spazio di ricerca dei commit. Ogni commit viene poi valutato rigorosamente utilizzando un agente LLM basato su ReAct. Fornendo all'agente un repository pre-commit come ambiente, insieme a strumenti specializzati, l'agente tenta di localizzare i componenti vulnerabili, naviga la codebase e stabilisce un allineamento causale tra le modifiche al codice e le cause profonde delle vulnerabilità. Questo processo guidato dalle evidenze consente l'identificazione robusta di correzioni indirette, multi-file e non banali che sfuggono ai metodi a passaggio singolo o basati sulla similarità. Valutiamo Favia su CVEVC, un dataset su larga scala che abbiamo creato, comprendente oltre 8 milioni di commit da 3.708 repository del mondo reale, e dimostriamo che supera costantemente i baseline all'avanguardia tradizionali e basati su LLM in condizioni realistiche di selezione dei candidati, raggiungendo i migliori compromessi precisione-recall e i punteggi F1 più alti.

English

Identifying vulnerability-fixing commits corresponding to disclosed CVEs is essential for secure software maintenance but remains challenging at scale, as large repositories contain millions of commits of which only a small fraction address security issues. Existing automated approaches, including traditional machine learning techniques and recent large language model (LLM)-based methods, often suffer from poor precision-recall trade-offs. Frequently evaluated on randomly sampled commits, we uncover that they are substantially underestimating real-world difficulty, where candidate commits are already security-relevant and highly similar. We propose Favia, a forensic, agent-based framework for vulnerability-fix identification that combines scalable candidate ranking with deep and iterative semantic reasoning. Favia first employs an efficient ranking stage to narrow the search space of commits. Each commit is then rigorously evaluated using a ReAct-based LLM agent. By providing the agent with a pre-commit repository as environment, along with specialized tools, the agent tries to localize vulnerable components, navigates the codebase, and establishes causal alignment between code changes and vulnerability root causes. This evidence-driven process enables robust identification of indirect, multi-file, and non-trivial fixes that elude single-pass or similarity-based methods. We evaluate Favia on CVEVC, a large-scale dataset we made that comprises over 8 million commits from 3,708 real-world repositories, and show that it consistently outperforms state-of-the-art traditional and LLM-based baselines under realistic candidate selection, achieving the strongest precision-recall trade-offs and highest F1-scores.

Favia: Agente Forense per l'Identificazione e l'Analisi di Correzioni di Vulnerabilità

Favia: Forensic Agent for Vulnerability-fix Identification and Analysis

Abstract

Support