AlphaApollo: Orquestación de Modelos Fundacionales y Herramientas Profesionales en un Sistema Autoevolutivo para el Razonamiento Agente Profundo

Resumen

Presentamos AlphaApollo, un sistema de razonamiento agente auto-evolutivo que busca abordar dos cuellos de botella en el razonamiento de los modelos base (FM): la capacidad intrínseca limitada del modelo y la iteración poco confiable en tiempo de prueba. AlphaApollo orquesta múltiples modelos con herramientas profesionales para permitir un razonamiento deliberado y verificable. Combina (i) una herramienta de cálculo (Python con bibliotecas numéricas y simbólicas) y (ii) una herramienta de recuperación (información externa relevante para la tarea) para ejecutar cálculos exactos y fundamentar decisiones. El sistema además soporta la evolución de soluciones en múltiples rondas y con múltiples modelos mediante un mapa de estado compartido que registra candidatos, verificaciones ejecutables y retroalimentación para el refinamiento iterativo. En evaluaciones sobre AIME 2024/2025 con múltiples modelos, AlphaApollo ofrece mejoras consistentes: +5.15% Average@32 y +23.34% Pass@32 para Qwen2.5-14B-Instruct, y +8.91% Average@32 con +26.67% Pass@32 para Llama-3.3-70B-Instruct. El análisis del uso de herramientas muestra que más del 80% de las llamadas a herramientas se ejecutan con éxito, superando consistentemente a las líneas base sin herramientas, elevando así el límite de capacidad de los FM. Más resultados empíricos y detalles de implementación se actualizarán en https://github.com/tmlr-group/AlphaApollo.

English

We present AlphaApollo, a self-evolving agentic reasoning system that aims to address two bottlenecks in foundation model (FM) reasoning-limited model-intrinsic capacity and unreliable test-time iteration. AlphaApollo orchestrates multiple models with professional tools to enable deliberate, verifiable reasoning. It couples (i) a computation tool (Python with numerical and symbolic libraries) and (ii) a retrieval tool (task-relevant external information) to execute exact calculations and ground decisions. The system further supports multi-round, multi-model solution evolution via a shared state map that records candidates, executable checks, and feedback for iterative refinement. In evaluations on AIME 2024/2025 across multiple models, AlphaApollo delivers consistent gains: +5.15% Average@32 and +23.34% Pass@32 for Qwen2.5-14B-Instruct, and +8.91% Average@32 with +26.67% Pass@32 for Llama-3.3-70B-Instruct. Tool-use analysis shows that more than 80% of tool calls are successfully executed, with consistent outperformance of non-tool baselines, thereby lifting the capability ceiling of FMs. More empirical results and implementation details will be updated at https://github.com/tmlr-group/AlphaApollo.

AlphaApollo: Orquestación de Modelos Fundacionales y Herramientas Profesionales en un Sistema Autoevolutivo para el Razonamiento Agente Profundo

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

Resumen

Support