ChatPaper.aiChatPaper

Risolvere un'Attività LLM da un Milione di Passi con Zero Errori

Solving a Million-Step LLM Task with Zero Errors

November 12, 2025
Autori: Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto progressi straordinari nel ragionamento, nell'acume e nell'uso di strumenti, ma concatenare queste abilità in processi estesi della scala di quelli eseguiti abitualmente da esseri umani, organizzazioni e società è rimasto finora irraggiungibile. I modelli presentano un tasso di errore persistente che ne impedisce la scalabilità: ad esempio, recenti esperimenti nel dominio di benchmark della Torre di Hanoi hanno mostrato che il processo inevitabilmente deraglia dopo al massimo poche centinaia di passi. Pertanto, sebbene la ricerca sugli LLM sia spesso ancora valutata su compiti con relativamente pochi passi logici dipendenti, sta crescendo l'attenzione sulla capacità (o incapacità) degli LLM di eseguire compiti a lungo raggio. Questo articolo descrive MAKER, il primo sistema che risolve con successo un compito con oltre un milione di passi di LLM senza errori e che, in linea di principio, scala ben oltre questo livello. L'approccio si basa su una scomposizione estrema di un compito in sottocompiti, ciascuno dei quali può essere affrontato da microagenti specializzati. L'elevato livello di modularità risultante dalla scomposizione consente di applicare la correzione degli errori a ogni passo attraverso uno schema di votazione multi-agente efficiente. Questa combinazione di scomposizione estrema e correzione degli errori rende possibile la scalabilità. I risultati suggeriscono quindi che, invece di fare affidamento sul miglioramento continuo degli LLM attuali, i processi agentivi massicciamente decomposti (MDAP) possano offrire un modo per risolvere efficientemente problemi a livello di organizzazioni e società.
English
LLMs have achieved remarkable breakthroughs in reasoning, insights, and tool use, but chaining these abilities into extended processes at the scale of those routinely executed by humans, organizations, and societies has remained out of reach. The models have a persistent error rate that prevents scale-up: for instance, recent experiments in the Towers of Hanoi benchmark domain showed that the process inevitably becomes derailed after at most a few hundred steps. Thus, although LLM research is often still benchmarked on tasks with relatively few dependent logical steps, there is increasing attention on the ability (or inability) of LLMs to perform long range tasks. This paper describes MAKER, the first system that successfully solves a task with over one million LLM steps with zero errors, and, in principle, scales far beyond this level. The approach relies on an extreme decomposition of a task into subtasks, each of which can be tackled by focused microagents. The high level of modularity resulting from the decomposition allows error correction to be applied at each step through an efficient multi-agent voting scheme. This combination of extreme decomposition and error correction makes scaling possible. Thus, the results suggest that instead of relying on continual improvement of current LLMs, massively decomposed agentic processes (MDAPs) may provide a way to efficiently solve problems at the level of organizations and societies.
PDF193December 1, 2025