Alita: Универсальный агент, обеспечивающий масштабируемое агентное мышление с минимальной предопределённостью и максимальной самоэволюцией

Аннотация

Последние достижения в области больших языковых моделей (LLM) позволили агентам автономно выполнять сложные, открытые задачи. Однако многие существующие фреймворки сильно зависят от заранее определенных инструментов и рабочих процессов, что ограничивает их адаптируемость, масштабируемость и обобщаемость в различных областях. В данной работе мы представляем Alita — универсального агента, разработанного в соответствии с принципом «Простота — это высшая степень изощренности», что позволяет масштабировать агентное рассуждение за счет минимальной предопределенности и максимальной самоэволюции. Для минимальной предопределенности Alita оснащена только одним компонентом для прямого решения задач, что делает её значительно проще и лаконичнее по сравнению с предыдущими подходами, которые сильно зависели от тщательно разработанных инструментов и рабочих процессов. Такой чистый дизайн повышает её потенциал для обобщения сложных вопросов, не ограничиваясь инструментами. Для максимальной самоэволюции мы обеспечиваем креативность Alita, предоставляя набор универсальных компонентов для автономного создания, уточнения и повторного использования внешних возможностей путем генерации контекстных протоколов модели (MCP), связанных с задачами, из открытых источников, что способствует масштабируемому агентному рассуждению. Примечательно, что Alita достигает точности 75,15% для pass@1 и 87,27% для pass@3 на валидационном наборе данных GAIA, а также 74,00% и 52,00% для pass@1 на Mathvista и PathVQA соответственно, превосходя многие агентные системы с гораздо большей сложностью. Дополнительные детали будут обновляться на https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.

English

Recent advances in large language models (LLMs) have enabled agents to autonomously perform complex, open-ended tasks. However, many existing frameworks depend heavily on manually predefined tools and workflows, which hinder their adaptability, scalability, and generalization across domains. In this work, we introduce Alita--a generalist agent designed with the principle of "Simplicity is the ultimate sophistication," enabling scalable agentic reasoning through minimal predefinition and maximal self-evolution. For minimal predefinition, Alita is equipped with only one component for direct problem-solving, making it much simpler and neater than previous approaches that relied heavily on hand-crafted, elaborate tools and workflows. This clean design enhances its potential to generalize to challenging questions, without being limited by tools. For Maximal self-evolution, we enable the creativity of Alita by providing a suite of general-purpose components to autonomously construct, refine, and reuse external capabilities by generating task-related model context protocols (MCPs) from open source, which contributes to scalable agentic reasoning. Notably, Alita achieves 75.15% pass@1 and 87.27% pass@3 accuracy, which is top-ranking among general-purpose agents, on the GAIA benchmark validation dataset, 74.00% and 52.00% pass@1, respectively, on Mathvista and PathVQA, outperforming many agent systems with far greater complexity. More details will be updated at https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.

Alita: Универсальный агент, обеспечивающий масштабируемое агентное мышление с минимальной предопределённостью и максимальной самоэволюцией

Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

Аннотация

Support