Tiefgreifende Forschung in den Physikalischen Wissenschaften: Ein Multi-Agenten-Framework und ein umfassender Benchmark

Zusammenfassung

Tiefgehende Forschungsagenten sind Systeme, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren und für autonomes, mehrschrittiges wissenschaftliches Denken konzipiert sind. Sie bergen ein enormes Potenzial, um die Forschung in den Naturwissenschaften zu beschleunigen. Dennoch fehlt es bislang an umfassenden und tiefgreifenden Evaluierungen ihrer Fähigkeiten in diesem Bereich. Um diese Lücke zu schließen, stellen wir PhySciBench vor, einen Benchmark, der für die physikalische Forschung hochrelevant ist. Er umfasst 200 fachkundig kuratierte Fragen, die ausgewogen zwischen Physik und Chemie sind und sechs Aufgabenkategorien abdecken, die reale wissenschaftliche Arbeitsabläufe widerspiegeln. Evaluierungen modernster Modelle und Agentensysteme auf PhySciBench zeigen eine begrenzte Leistungsfähigkeit; selbst die stärkste Baseline, Gemini Deep Research, erreicht lediglich eine Genauigkeit von 33,5 %. Eine Analyse der Fehlerfälle deckt drei wiederkehrende Schwächen auf: Fragilität in erweiterten Argumentationsketten, eingeschränkter Wissenstransfer über Schritte hinweg und ein Mangel an physikbasierter Selbstverifikation. Motiviert durch diese Erkenntnisse entwickeln wir DelveAgent, ein modulares Multi-Agenten-Framework, das mit einer adaptiven Planungsschleife, einem Gedächtnis mit dualer Granularität und einem hierarchischen, physikfundierten Reflexionsmechanismus ausgestattet ist. In vier wissenschaftlichen Benchmarks verbessert DelveAgent die Genauigkeit um bis zu 7,5 Prozentpunkte, während die Inferenzkosten auf etwa ein Drittel der stärksten Baseline reduziert werden. Diese Ergebnisse unterstreichen die Bedeutung von PhySciBench als kritischen Benchmark für die Evaluierung von KI-Systemen in den Naturwissenschaften und zeigen, dass architektonische Spezialisierung die Zuverlässigkeit autonomer wissenschaftlicher Forschung effektiv verbessern kann.

English

Deep research agents are Large Language Model (LLM)-based systems designed for autonomous, multi-step scientific reasoning, and they hold immense potential for accelerating research in the physical sciences. However, comprehensive and in-depth evaluations of their capabilities within this domain remain lacking. To address this gap, we introduce PhySciBench, a benchmark highly relevant to physical science research, comprising 200 expert-curated questions, balanced between physics and chemistry, across six task categories that reflect real-world scientific workflows. Evaluations of state-of-the-art models and agent systems on PhySciBench reveal limited performance; even the strongest baseline, Gemini Deep Research, achieves an accuracy of only 33.5%. Analysis of failure cases identifies three recurrent deficiencies: fragility in extended reasoning chains, limited knowledge transfer across steps, and a lack of physics-grounded self-verification. Motivated by these findings, we develop DelveAgent, a modular multi-agent framework equipped with an adaptive planning loop, dual-granularity memory, and a hierarchical physics-grounded reflection mechanism. Across four scientific benchmarks, DelveAgent improves accuracy by up to 7.5 percentage points while reducing inference costs to approximately one-third of the strongest baseline. These results establish the significance of PhySciBench as a critical benchmark for evaluating AI systems in the physical sciences and demonstrate that architectural specialization can effectively enhance the reliability of autonomous scientific research.