ChatPaper.aiChatPaper

AstroReason-Bench: Evaluación de la Planificación Unificada de Agentes en Problemas Heterogéneos de Planificación Espacial

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

January 16, 2026
Autores: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu
cs.AI

Resumen

Los recientes avances en modelos de lenguaje grandes (LLM) con capacidad de agencia los han posicionado como planificadores generalistas capaces de razonar y actuar en diversas tareas. Sin embargo, los benchmarks de agentes existentes se centran principalmente en entornos simbólicos o débilmente fundamentados, dejando sin explorar su rendimiento en dominios del mundo real con restricciones físicas. Presentamos AstroReason-Bench, un benchmark integral para evaluar la planificación con agencia en Problemas de Planificación Espacial (SPP), una familia de problemas de alto riesgo con objetivos heterogéneos, restricciones físicas estrictas y toma de decisiones a largo plazo. AstroReason-Bench integra múltiples regímenes de planificación, incluyendo comunicaciones con estaciones terrestres y observación ágil de la Tierra, y proporciona un protocolo unificado de interacción orientado a agentes. Al evaluar una variedad de sistemas de LLM con agencia de última generación, tanto de código abierto como cerrado, encontramos que los agentes actuales tienen un rendimiento sustancialmente inferior al de solucionadores especializados, destacando limitaciones clave de la planificación generalista bajo restricciones realistas. AstroReason-Bench ofrece un banco de pruebas desafiante y diagnóstico para futuras investigaciones en agentes.
English
Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
PDF12January 20, 2026