LiveBrowseComp : Les agents de recherche cherchent-ils, ou vérifient-ils simplement ce qu'ils savent déjà ?

Résumé

Les agents de recherche basés sur les LLM effectuent-ils une véritable recherche ou utilisent-ils le web pour vérifier ce qu'ils savent déjà ? Nous étudions cette question sur BrowseComp à l'aide de trois diagnostics. Notre analyse révèle une dépendance aux connaissances intrinsèques (DCI) : même avec un accès à des outils, les agents s'appuient souvent sur des connaissances intrinsèques — informations encodées dans le modèle avant la recherche — plutôt que sur des preuves externes. Les agents répondent à jusqu'à 44,5 % des questions de BrowseComp sans outils, génèrent plus de la moitié de leurs requêtes de recherche à partir d'hypothèses produites en interne plutôt qu'à partir d'indices extraits, et obtiennent de moins bons résultats que les bases de référence en livre fermé lorsque les preuves soutenant les réponses sont supprimées. Ces résultats suggèrent que les benchmarks de recherche statiques peuvent récompenser la validation basée sur la mémoire plutôt que la découverte fondée sur des preuves, confondant ce que les agents savent déjà avec ce qu'ils peuvent trouver. Nous introduisons ensuite LiveBrowseComp, un benchmark de recherche approfondie conçu pour évaluer les agents au-delà de la couverture intrinsèque. Il contient 335 questions rédigées par des humains dont les réponses dépendent de faits publiés dans les 90 jours précédant la construction du benchmark, tirés de six sources mises à jour et filtrés pour exclure les événements mondiaux saillants. Sur LiveBrowseComp, tous les agents évalués obtiennent moins de 2 % de précision en livre fermé, les scores augmentés par la recherche chutent de 25 à 40 points par rapport à BrowseComp, et les classements antérieurs des modèles ne prédisent plus de manière fiable les performances. LiveBrowseComp est disponible à l'adresse https://huggingface.co/datasets/Forival/LiveBrowseComp.

English

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.