백만 단계 LLM 과업을 오류 없이 해결하기
Solving a Million-Step LLM Task with Zero Errors
November 12, 2025
저자: Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen
cs.AI
초록
대규모 언어 모델(LLM)은 추론, 통찰력, 도구 활용 분야에서 놀라운 발전을 이루었지만, 이러한 능력을 인간이나 조직, 사회가 일상적으로 수행하는 규모의 확장된 프로세스로 연계하는 것은 여전히 달성하지 못한 과제로 남아있습니다. 모델의 지속적인 오류율이 규모 확장을 방해하는데, 예를 들어 하노이의 탑 벤치마크 영역에서의 최근 실험에 따르면 프로세스가 최대 수백 단계를 넘어서면 필연적으로 탈선하는 것으로 나타났습니다. 따라서 LLM 연구가 여전히 상대적으로 적은 수의 논리적 단계로 구성된 과제를 기준으로 평가되기는 하지만, LLM의 장기간 과제 수행 능력(또는 무능력)에 대한 관심이 점차 높아지고 있습니다. 본 논문은 100만 회 이상의 LLM 단계를 오류 없이 성공적으로 수행하며, 원칙적으로는 이 수준을 훨씬 넘어서는 확장이 가능한 최초의 시스템인 MAKER를 소개합니다. 이 접근법은 과제를 하위 과제로 극단적으로 분해하고, 각 하위 과제를 전문화된 마이크로 에이전트가 처리하는 방식에 기반합니다. 분해를 통해 구현된 높은 수준의 모듈성은 효율적인 다중 에이전트 투표 방식을 통해 각 단계별 오류 수정을 가능하게 합니다. 이러한 극단적 분해와 오류 수정의 결합이 규모 확장을 실현합니다. 따라서 본 연구 결과는 기존 LLM의 지속적인 개선에 의존하기보다는 대규모 분해 에이전트 프로세스(MDAP)를 통해 조직 및 사회 수준의 문제를 효율적으로 해결할 수 있는 가능성을 시사합니다.
English
LLMs have achieved remarkable breakthroughs in reasoning, insights, and tool use, but chaining these abilities into extended processes at the scale of those routinely executed by humans, organizations, and societies has remained out of reach. The models have a persistent error rate that prevents scale-up: for instance, recent experiments in the Towers of Hanoi benchmark domain showed that the process inevitably becomes derailed after at most a few hundred steps. Thus, although LLM research is often still benchmarked on tasks with relatively few dependent logical steps, there is increasing attention on the ability (or inability) of LLMs to perform long range tasks. This paper describes MAKER, the first system that successfully solves a task with over one million LLM steps with zero errors, and, in principle, scales far beyond this level. The approach relies on an extreme decomposition of a task into subtasks, each of which can be tackled by focused microagents. The high level of modularity resulting from the decomposition allows error correction to be applied at each step through an efficient multi-agent voting scheme. This combination of extreme decomposition and error correction makes scaling possible. Thus, the results suggest that instead of relying on continual improvement of current LLMs, massively decomposed agentic processes (MDAPs) may provide a way to efficiently solve problems at the level of organizations and societies.