ChatPaper.aiChatPaper

Favia : Agent médico-légal pour l'identification et l'analyse des correctifs de vulnérabilités

Favia: Forensic Agent for Vulnerability-fix Identification and Analysis

February 13, 2026
papers.authors: André Storhaug, Jiamou Sun, Jingyue Li
cs.AI

papers.abstract

L'identification des commits de correction de vulnérabilités correspondant aux CVE divulgués est essentielle pour la maintenance sécurisée des logiciels, mais reste difficile à grande échelle, car les grands dépôts contiennent des millions de commits dont seule une petite fraction traite des problèmes de sécurité. Les approches automatisées existantes, incluant les techniques d'apprentissage automatique traditionnelles et les méthodes récentes basées sur les grands modèles de langage (LLM), souffrent souvent d'un compromis précision-rappel médiocre. Fréquemment évaluées sur des commits échantillonnés aléatoirement, nous révélons qu'elles sous-estiment considérablement la difficulté réelle, où les commits candidats sont déjà pertinents pour la sécurité et très similaires. Nous proposons Favia, un cadre médico-légal (forensic) et agentiel pour l'identification des corrections de vulnérabilités, qui combine un classement scalable des candidats avec un raisonnement sémantique profond et itératif. Favia emploie d'abord une étape de classement efficace pour réduire l'espace de recherche des commits. Chaque commit est ensuite rigoureusement évalué à l'aide d'un agent LLM basé sur ReAct. En fournissant à l'agent un dépôt pré-commit comme environnement, ainsi que des outils spécialisés, l'agent tente de localiser les composants vulnérables, navigue dans la base de code et établit un alignement causal entre les modifications du code et les causes racines des vulnérabilités. Ce processus fondé sur des preuves permet une identification robuste des corrections indirectes, multi-fichiers et non triviales qui échappent aux méthodes à passage unique ou basées sur la similarité. Nous évaluons Favia sur CVEVC, un jeu de données à grande échelle que nous avons constitué comprenant plus de 8 millions de commits provenant de 3 708 dépôts réels, et montrons qu'il surpasse constamment les méthodes de référence traditionnelles et basées sur les LLM dans un scénario réaliste de sélection des candidats, atteignant les compromis précision-rappel les plus solides et les scores F1 les plus élevés.
English
Identifying vulnerability-fixing commits corresponding to disclosed CVEs is essential for secure software maintenance but remains challenging at scale, as large repositories contain millions of commits of which only a small fraction address security issues. Existing automated approaches, including traditional machine learning techniques and recent large language model (LLM)-based methods, often suffer from poor precision-recall trade-offs. Frequently evaluated on randomly sampled commits, we uncover that they are substantially underestimating real-world difficulty, where candidate commits are already security-relevant and highly similar. We propose Favia, a forensic, agent-based framework for vulnerability-fix identification that combines scalable candidate ranking with deep and iterative semantic reasoning. Favia first employs an efficient ranking stage to narrow the search space of commits. Each commit is then rigorously evaluated using a ReAct-based LLM agent. By providing the agent with a pre-commit repository as environment, along with specialized tools, the agent tries to localize vulnerable components, navigates the codebase, and establishes causal alignment between code changes and vulnerability root causes. This evidence-driven process enables robust identification of indirect, multi-file, and non-trivial fixes that elude single-pass or similarity-based methods. We evaluate Favia on CVEVC, a large-scale dataset we made that comprises over 8 million commits from 3,708 real-world repositories, and show that it consistently outperforms state-of-the-art traditional and LLM-based baselines under realistic candidate selection, achieving the strongest precision-recall trade-offs and highest F1-scores.
PDF12February 17, 2026