AlphaApollo: Orchestrazione di Modelli Fondamentali e Strumenti Professionali in un Sistema Auto-Evolutivo per il Ragionamento Agente Profondo

Abstract

Presentiamo AlphaApollo, un sistema di ragionamento agentico auto-evolutivo che mira a risolvere due colli di bottiglia nei modelli di base (FM): la capacità intrinseca limitata del modello e l'iterazione inaffidabile durante il test. AlphaApollo orchestra più modelli con strumenti professionali per abilitare un ragionamento deliberato e verificabile. Combina (i) uno strumento di calcolo (Python con librerie numeriche e simboliche) e (ii) uno strumento di recupero (informazioni esterne rilevanti per il compito) per eseguire calcoli esatti e fondare decisioni. Il sistema supporta ulteriormente l'evoluzione di soluzioni multi-round e multi-modello attraverso una mappa di stato condivisa che registra candidati, controlli eseguibili e feedback per un affinamento iterativo. Nelle valutazioni su AIME 2024/2025 su più modelli, AlphaApollo fornisce miglioramenti consistenti: +5,15% Average@32 e +23,34% Pass@32 per Qwen2.5-14B-Instruct, e +8,91% Average@32 con +26,67% Pass@32 per Llama-3.3-70B-Instruct. L'analisi sull'uso degli strumenti mostra che più dell'80% delle chiamate agli strumenti viene eseguito con successo, con una performance costantemente superiore rispetto ai baseline senza strumenti, elevando così il limite delle capacità dei FM. Ulteriori risultati empirici e dettagli implementativi saranno aggiornati su https://github.com/tmlr-group/AlphaApollo.

English

We present AlphaApollo, a self-evolving agentic reasoning system that aims to address two bottlenecks in foundation model (FM) reasoning-limited model-intrinsic capacity and unreliable test-time iteration. AlphaApollo orchestrates multiple models with professional tools to enable deliberate, verifiable reasoning. It couples (i) a computation tool (Python with numerical and symbolic libraries) and (ii) a retrieval tool (task-relevant external information) to execute exact calculations and ground decisions. The system further supports multi-round, multi-model solution evolution via a shared state map that records candidates, executable checks, and feedback for iterative refinement. In evaluations on AIME 2024/2025 across multiple models, AlphaApollo delivers consistent gains: +5.15% Average@32 and +23.34% Pass@32 for Qwen2.5-14B-Instruct, and +8.91% Average@32 with +26.67% Pass@32 for Llama-3.3-70B-Instruct. Tool-use analysis shows that more than 80% of tool calls are successfully executed, with consistent outperformance of non-tool baselines, thereby lifting the capability ceiling of FMs. More empirical results and implementation details will be updated at https://github.com/tmlr-group/AlphaApollo.

AlphaApollo: Orchestrazione di Modelli Fondamentali e Strumenti Professionali in un Sistema Auto-Evolutivo per il Ragionamento Agente Profondo

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

Abstract

Support