Investigación Profunda en Ciencias Físicas: Un Marco Multiagente y un Benchmark Integral

Resumen

Los agentes de investigación profunda son sistemas basados en modelos de lenguaje de gran escala (LLM) diseñados para el razonamiento científico autónomo y de múltiples pasos, y poseen un inmenso potencial para acelerar la investigación en ciencias físicas. Sin embargo, aún faltan evaluaciones exhaustivas y en profundidad de sus capacidades en este ámbito. Para abordar esta carencia, presentamos PhySciBench, un punto de referencia altamente relevante para la investigación en ciencias físicas, que consta de 200 preguntas seleccionadas por expertos, equilibradas entre física y química, distribuidas en seis categorías de tareas que reflejan flujos de trabajo científicos reales. Las evaluaciones de modelos y sistemas de agentes de vanguardia en PhySciBench revelan un rendimiento limitado; incluso la línea base más sólida, Gemini Deep Research, alcanza una precisión de solo el 33,5 %. El análisis de los casos de fallo identifica tres deficiencias recurrentes: fragilidad en cadenas de razonamiento extensas, transferencia de conocimiento limitada entre pasos y falta de autoverificación fundamentada en la física. Motivados por estos hallazgos, desarrollamos DelveAgent, un marco modular de múltiples agentes equipado con un bucle de planificación adaptativa, memoria de doble granularidad y un mecanismo jerárquico de reflexión fundamentada en la física. En cuatro puntos de referencia científicos, DelveAgent mejora la precisión hasta en 7,5 puntos porcentuales, a la vez que reduce los costos de inferencia a aproximadamente un tercio de la línea base más sólida. Estos resultados establecen la importancia de PhySciBench como un punto de referencia crítico para evaluar sistemas de IA en ciencias físicas y demuestran que la especialización arquitectónica puede mejorar de manera efectiva la fiabilidad de la investigación científica autónoma.

English

Deep research agents are Large Language Model (LLM)-based systems designed for autonomous, multi-step scientific reasoning, and they hold immense potential for accelerating research in the physical sciences. However, comprehensive and in-depth evaluations of their capabilities within this domain remain lacking. To address this gap, we introduce PhySciBench, a benchmark highly relevant to physical science research, comprising 200 expert-curated questions, balanced between physics and chemistry, across six task categories that reflect real-world scientific workflows. Evaluations of state-of-the-art models and agent systems on PhySciBench reveal limited performance; even the strongest baseline, Gemini Deep Research, achieves an accuracy of only 33.5%. Analysis of failure cases identifies three recurrent deficiencies: fragility in extended reasoning chains, limited knowledge transfer across steps, and a lack of physics-grounded self-verification. Motivated by these findings, we develop DelveAgent, a modular multi-agent framework equipped with an adaptive planning loop, dual-granularity memory, and a hierarchical physics-grounded reflection mechanism. Across four scientific benchmarks, DelveAgent improves accuracy by up to 7.5 percentage points while reducing inference costs to approximately one-third of the strongest baseline. These results establish the significance of PhySciBench as a critical benchmark for evaluating AI systems in the physical sciences and demonstrate that architectural specialization can effectively enhance the reliability of autonomous scientific research.