알리타: 최소한의 사전 정의와 최대의 자기 진화를 통해 확장 가능한 에이전트 추론을 가능하게 하는 범용 에이전트
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution
May 26, 2025
저자: Jiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전으로 인해 에이전트가 복잡하고 개방형 작업을 자율적으로 수행할 수 있게 되었습니다. 그러나 기존의 많은 프레임워크는 수동으로 미리 정의된 도구와 워크플로에 크게 의존하여, 도메인 간 적응성, 확장성 및 일반화 능력을 저해하고 있습니다. 본 연구에서는 "단순함이 궁극의 정교함"이라는 원칙에 따라 설계된 일반 목적 에이전트인 Alita를 소개합니다. Alita는 최소한의 사전 정의와 최대의 자기 진화를 통해 확장 가능한 에이전트 추론을 가능하게 합니다. 최소한의 사전 정의를 위해 Alita는 문제 해결을 위한 단 하나의 구성 요소만을 갖추고 있어, 이전의 수작업으로 정교하게 만든 도구와 워크플로에 크게 의존하던 접근 방식보다 훨씬 간단하고 깔끔합니다. 이 깔끔한 설계는 도구에 의해 제한되지 않고도 어려운 질문에 일반화할 수 있는 잠재력을 높입니다. 최대의 자기 진화를 위해, Alita의 창의성을 발휘할 수 있도록 일반 목적의 구성 요소 세트를 제공하여, 오픈 소스에서 작업 관련 모델 컨텍스트 프로토콜(MCP)을 생성함으로써 외부 기능을 자율적으로 구축, 개선 및 재사용할 수 있게 합니다. 이는 확장 가능한 에이전트 추론에 기여합니다. 특히, Alita는 GAIA 벤치마크 검증 데이터셋에서 75.15%의 pass@1 및 87.27%의 pass@3 정확도를 달성하여 일반 목적 에이전트 중 최상위에 랭크되었으며, Mathvista와 PathVQA에서 각각 74.00%와 52.00%의 pass@1 정확도를 기록하여 훨씬 더 복잡한 많은 에이전트 시스템을 능가했습니다. 더 자세한 내용은 https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}에서 업데이트될 예정입니다.
English
Recent advances in large language models (LLMs) have enabled agents to
autonomously perform complex, open-ended tasks. However, many existing
frameworks depend heavily on manually predefined tools and workflows, which
hinder their adaptability, scalability, and generalization across domains. In
this work, we introduce Alita--a generalist agent designed with the principle
of "Simplicity is the ultimate sophistication," enabling scalable agentic
reasoning through minimal predefinition and maximal self-evolution. For minimal
predefinition, Alita is equipped with only one component for direct
problem-solving, making it much simpler and neater than previous approaches
that relied heavily on hand-crafted, elaborate tools and workflows. This clean
design enhances its potential to generalize to challenging questions, without
being limited by tools. For Maximal self-evolution, we enable the creativity of
Alita by providing a suite of general-purpose components to autonomously
construct, refine, and reuse external capabilities by generating task-related
model context protocols (MCPs) from open source, which contributes to scalable
agentic reasoning. Notably, Alita achieves 75.15% pass@1 and 87.27% pass@3
accuracy, which is top-ranking among general-purpose agents, on the GAIA
benchmark validation dataset, 74.00% and 52.00% pass@1, respectively, on
Mathvista and PathVQA, outperforming many agent systems with far greater
complexity. More details will be updated at
https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.Summary
AI-Generated Summary