AlphaApollo: Организация взаимодействия базовых моделей и профессиональных инструментов в саморазвивающуюся систему для глубокого агентного рассуждения

Аннотация

Представляем AlphaApollo — саморазвивающуюся систему агентного рассуждения, направленную на устранение двух ключевых ограничений в рассуждениях базовых моделей (FM): ограниченной внутренней ёмкости модели и ненадёжной итерации на этапе тестирования. AlphaApollo координирует работу нескольких моделей с использованием профессиональных инструментов для обеспечения обдуманного и проверяемого рассуждения. Система объединяет (i) вычислительный инструмент (Python с численными и символьными библиотеками) и (ii) инструмент поиска (внешняя информация, релевантная задаче) для выполнения точных вычислений и обоснования решений. Кроме того, система поддерживает многораундовую эволюцию решений с участием нескольких моделей через общую карту состояний, которая фиксирует кандидатов, проверки на выполнимость и обратную связь для итеративного улучшения. В оценках на данных AIME 2024/2025 для нескольких моделей AlphaApollo демонстрирует стабильные улучшения: +5,15% Average@32 и +23,34% Pass@32 для Qwen2.5-14B-Instruct, а также +8,91% Average@32 и +26,67% Pass@32 для Llama-3.3-70B-Instruct. Анализ использования инструментов показывает, что более 80% вызовов инструментов успешно выполняются, что стабильно превосходит базовые подходы без использования инструментов, тем самым повышая пределы возможностей FM. Дополнительные эмпирические результаты и детали реализации будут обновляться на https://github.com/tmlr-group/AlphaApollo.

English

We present AlphaApollo, a self-evolving agentic reasoning system that aims to address two bottlenecks in foundation model (FM) reasoning-limited model-intrinsic capacity and unreliable test-time iteration. AlphaApollo orchestrates multiple models with professional tools to enable deliberate, verifiable reasoning. It couples (i) a computation tool (Python with numerical and symbolic libraries) and (ii) a retrieval tool (task-relevant external information) to execute exact calculations and ground decisions. The system further supports multi-round, multi-model solution evolution via a shared state map that records candidates, executable checks, and feedback for iterative refinement. In evaluations on AIME 2024/2025 across multiple models, AlphaApollo delivers consistent gains: +5.15% Average@32 and +23.34% Pass@32 for Qwen2.5-14B-Instruct, and +8.91% Average@32 with +26.67% Pass@32 for Llama-3.3-70B-Instruct. Tool-use analysis shows that more than 80% of tool calls are successfully executed, with consistent outperformance of non-tool baselines, thereby lifting the capability ceiling of FMs. More empirical results and implementation details will be updated at https://github.com/tmlr-group/AlphaApollo.