AstroReason-Bench: Avaliação do Planejamento de Agentes Unificados em Problemas Heterogêneos de Planejamento Espacial

Resumo

Os recentes avanços em modelos de linguagem grandes (LLMs) agentes posicionaram-nos como planejadores generalistas capazes de raciocinar e agir em diversas tarefas. No entanto, os benchmarks de agentes existentes concentram-se largamente em ambientes simbólicos ou fracamente fundamentados, deixando o seu desempenho em domínios do mundo real com restrições físicas pouco explorado. Apresentamos o AstroReason-Bench, um benchmark abrangente para avaliar o planejamento agentivo em Problemas de Planejamento Espacial (PPE), uma família de problemas de alto risco com objetivos heterogéneos, restrições físicas rigorosas e tomada de decisão de longo horizonte. O AstroReason-Bench integra múltiplos regimes de escalonamento, incluindo comunicação com estações terrestres e observação ágil da Terra, e fornece um protocolo de interação unificado orientado a agentes. Avaliando uma variedade de sistemas de LLM agentes de última geração, de código aberto e proprietários, descobrimos que os agentes atuais têm um desempenho substancialmente inferior ao de solucionadores especializados, destacando limitações fundamentais do planejamento generalista sob restrições realistas. O AstroReason-Bench oferece um campo de testes desafiador e diagnóstico para futuras pesquisas em agentividade.

English

Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.