Углубленное исследование в физических науках: многоагентный фреймворк и всесторонний бенчмарк

Аннотация

Глубокие исследовательские агенты — это системы на основе больших языковых моделей (LLM), предназначенные для автономного многошагового научного рассуждения, и они обладают огромным потенциалом для ускорения исследований в области физических наук. Однако всесторонние и углублённые оценки их возможностей в данной области остаются недостаточными. Для устранения этого пробела мы представляем PhySciBench — эталонный тест, высокорелевантный исследованиям в физических науках, включающий 200 вопросов, отобранных экспертами и сбалансированных между физикой и химией, по шести категориям задач, отражающим реальные научные рабочие процессы. Оценка современных моделей и агентных систем на PhySciBench показала ограниченную производительность; даже самый сильный базовый подход, Gemini Deep Research, достигает точности лишь 33,5%. Анализ случаев неудач выявил три повторяющихся недостатка: хрупкость в длинных цепочках рассуждений, ограниченный перенос знаний между шагами и отсутствие самопроверки, основанной на физических принципах. Руководствуясь этими результатами, мы разработали DelveAgent — модульную мультиагентную структуру, оснащённую адаптивным циклом планирования, памятью двойной гранулярности и иерархическим механизмом рефлексии, основанным на физике. На четырёх научных эталонных тестах DelveAgent повышает точность до 7,5 процентных пунктов, одновременно снижая затраты на логический вывод примерно до одной трети от самого сильного базового подхода. Эти результаты подтверждают значимость PhySciBench как критически важного эталонного теста для оценки систем ИИ в физических науках и демонстрируют, что архитектурная специализация может эффективно повысить надёжность автономных научных исследований.

English

Deep research agents are Large Language Model (LLM)-based systems designed for autonomous, multi-step scientific reasoning, and they hold immense potential for accelerating research in the physical sciences. However, comprehensive and in-depth evaluations of their capabilities within this domain remain lacking. To address this gap, we introduce PhySciBench, a benchmark highly relevant to physical science research, comprising 200 expert-curated questions, balanced between physics and chemistry, across six task categories that reflect real-world scientific workflows. Evaluations of state-of-the-art models and agent systems on PhySciBench reveal limited performance; even the strongest baseline, Gemini Deep Research, achieves an accuracy of only 33.5%. Analysis of failure cases identifies three recurrent deficiencies: fragility in extended reasoning chains, limited knowledge transfer across steps, and a lack of physics-grounded self-verification. Motivated by these findings, we develop DelveAgent, a modular multi-agent framework equipped with an adaptive planning loop, dual-granularity memory, and a hierarchical physics-grounded reflection mechanism. Across four scientific benchmarks, DelveAgent improves accuracy by up to 7.5 percentage points while reducing inference costs to approximately one-third of the strongest baseline. These results establish the significance of PhySciBench as a critical benchmark for evaluating AI systems in the physical sciences and demonstrate that architectural specialization can effectively enhance the reliability of autonomous scientific research.