Alita: Универсальный агент, обеспечивающий масштабируемое агентное мышление с минимальной предопределённостью и максимальной самоэволюцией
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution
May 26, 2025
Авторы: Jiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) позволили агентам автономно выполнять сложные, открытые задачи. Однако многие существующие фреймворки сильно зависят от заранее определенных инструментов и рабочих процессов, что ограничивает их адаптируемость, масштабируемость и обобщаемость в различных областях. В данной работе мы представляем Alita — универсального агента, разработанного в соответствии с принципом «Простота — это высшая степень изощренности», что позволяет масштабировать агентное рассуждение за счет минимальной предопределенности и максимальной самоэволюции. Для минимальной предопределенности Alita оснащена только одним компонентом для прямого решения задач, что делает её значительно проще и лаконичнее по сравнению с предыдущими подходами, которые сильно зависели от тщательно разработанных инструментов и рабочих процессов. Такой чистый дизайн повышает её потенциал для обобщения сложных вопросов, не ограничиваясь инструментами. Для максимальной самоэволюции мы обеспечиваем креативность Alita, предоставляя набор универсальных компонентов для автономного создания, уточнения и повторного использования внешних возможностей путем генерации контекстных протоколов модели (MCP), связанных с задачами, из открытых источников, что способствует масштабируемому агентному рассуждению. Примечательно, что Alita достигает точности 75,15% для pass@1 и 87,27% для pass@3 на валидационном наборе данных GAIA, а также 74,00% и 52,00% для pass@1 на Mathvista и PathVQA соответственно, превосходя многие агентные системы с гораздо большей сложностью. Дополнительные детали будут обновляться на https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
English
Recent advances in large language models (LLMs) have enabled agents to
autonomously perform complex, open-ended tasks. However, many existing
frameworks depend heavily on manually predefined tools and workflows, which
hinder their adaptability, scalability, and generalization across domains. In
this work, we introduce Alita--a generalist agent designed with the principle
of "Simplicity is the ultimate sophistication," enabling scalable agentic
reasoning through minimal predefinition and maximal self-evolution. For minimal
predefinition, Alita is equipped with only one component for direct
problem-solving, making it much simpler and neater than previous approaches
that relied heavily on hand-crafted, elaborate tools and workflows. This clean
design enhances its potential to generalize to challenging questions, without
being limited by tools. For Maximal self-evolution, we enable the creativity of
Alita by providing a suite of general-purpose components to autonomously
construct, refine, and reuse external capabilities by generating task-related
model context protocols (MCPs) from open source, which contributes to scalable
agentic reasoning. Notably, Alita achieves 75.15% pass@1 and 87.27% pass@3
accuracy, which is top-ranking among general-purpose agents, on the GAIA
benchmark validation dataset, 74.00% and 52.00% pass@1, respectively, on
Mathvista and PathVQA, outperforming many agent systems with far greater
complexity. More details will be updated at
https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.Summary
AI-Generated Summary