Recherche approfondie en sciences physiques : un cadre multi-agents et un benchmark complet

Résumé

Les agents de recherche approfondie sont des systèmes basés sur de grands modèles de langage (LLM) conçus pour un raisonnement scientifique autonome et multi-étapes, et ils offrent un immense potentiel pour accélérer la recherche dans les sciences physiques. Cependant, des évaluations complètes et approfondies de leurs capacités dans ce domaine font encore défaut. Pour combler cette lacune, nous présentons PhySciBench, un benchmark hautement pertinent pour la recherche en sciences physiques, comprenant 200 questions sélectionnées par des experts, équilibrées entre la physique et la chimie, réparties en six catégories de tâches qui reflètent les flux de travail scientifiques réels. Les évaluations des modèles et systèmes d'agents de pointe sur PhySciBench révèlent des performances limitées ; même la référence la plus solide, Gemini Deep Research, n'atteint qu'une précision de 33,5 %. L'analyse des cas d'échec identifie trois lacunes récurrentes : fragilité dans les chaînes de raisonnement étendues, transfert de connaissances limité entre les étapes, et absence d'auto-vérification ancrée dans la physique. Motivés par ces résultats, nous développons DelveAgent, un cadre multi-agents modulaire doté d'une boucle de planification adaptative, d'une mémoire à double granularité et d'un mécanisme de réflexion hiérarchique ancré dans la physique. Sur quatre benchmarks scientifiques, DelveAgent améliore la précision jusqu'à 7,5 points de pourcentage tout en réduisant les coûts d'inférence à environ un tiers de la meilleure référence. Ces résultats établissent l'importance de PhySciBench en tant que benchmark critique pour évaluer les systèmes d'IA dans les sciences physiques et démontrent que la spécialisation architecturale peut améliorer efficacement la fiabilité de la recherche scientifique autonome.

English

Deep research agents are Large Language Model (LLM)-based systems designed for autonomous, multi-step scientific reasoning, and they hold immense potential for accelerating research in the physical sciences. However, comprehensive and in-depth evaluations of their capabilities within this domain remain lacking. To address this gap, we introduce PhySciBench, a benchmark highly relevant to physical science research, comprising 200 expert-curated questions, balanced between physics and chemistry, across six task categories that reflect real-world scientific workflows. Evaluations of state-of-the-art models and agent systems on PhySciBench reveal limited performance; even the strongest baseline, Gemini Deep Research, achieves an accuracy of only 33.5%. Analysis of failure cases identifies three recurrent deficiencies: fragility in extended reasoning chains, limited knowledge transfer across steps, and a lack of physics-grounded self-verification. Motivated by these findings, we develop DelveAgent, a modular multi-agent framework equipped with an adaptive planning loop, dual-granularity memory, and a hierarchical physics-grounded reflection mechanism. Across four scientific benchmarks, DelveAgent improves accuracy by up to 7.5 percentage points while reducing inference costs to approximately one-third of the strongest baseline. These results establish the significance of PhySciBench as a critical benchmark for evaluating AI systems in the physical sciences and demonstrate that architectural specialization can effectively enhance the reliability of autonomous scientific research.