ChatPaper.aiChatPaper

Chasser plutôt qu'attendre : Évaluation de la recherche approfondie sur les données des grands modèles de langage

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

February 2, 2026
Auteurs: Wei Liu, Peijie Yu, Michele Orini, Yali Du, Yulan He
cs.AI

Résumé

L'agence attendue des modèles de langage de grande taille agentiques va au-delà de la simple capacité à répondre correctement, exigeant une autonomie pour définir des objectifs et décider des pistes à explorer. Nous qualifions cette capacité d'**intelligence investigatrice**, la distinguant ainsi de l'**intelligence exécutive**, qui se contente d'accomplir des tâches assignées. La science des données offre un terrain d'évaluation naturel, puisque l'analyse en conditions réelles part de données brutes plutôt que de requêtes explicites, mais peu de benchmarks s'y concentrent. Pour remédier à cela, nous présentons **Deep Data Research (DDR)**, une tâche ouverte où les LLM extraient de manière autonome des insights clés de bases de données, et **DDR-Bench**, un benchmark à grande échelle basé sur des listes de contrôle permettant une évaluation vérifiable. Les résultats montrent que si les modèles de pointe font preuve d'une agence émergente, l'exploration sur le long terme reste un défi. Notre analyse souligne qu'une intelligence investigatrice efficace dépend non seulement de l'échafaudage agentique ou d'un simple passage à l'échelle, mais aussi des stratégies intrinsèques des modèles agentiques.
English
The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.
PDF52March 12, 2026