L'Ultima Briglia che Costruirai Mai

Abstract

Gli agenti di intelligenza artificiale vengono sempre più impiegati in flussi di lavoro complessi e specifici per dominio: navigano applicazioni web aziendali che richiedono decine di click e compilazioni di moduli, orchestrano pipeline di ricerca multi-step che abbracciano ricerca, estrazione e sintesi, automatizzano la revisione del codice su repository non familiari e gestiscono escalation di clienti che richiedono una conoscenza di dominio sfumata. Ogni nuovo dominio di attività richiede una meticolosa ingegneria di controllo guidata da esperti: progettare i prompt, gli strumenti, la logica di orchestrazione e i criteri di valutazione che rendono efficace un modello di base. Presentiamo un framework a due livelli che automatizza questo processo. Al primo livello, l'*Harness Evolution Loop* ottimizza il sistema di controllo H di un agente lavoratore per un singolo compito: un Agente Lavoratore W_{H} esegue il compito, un Agente Valutatore V diagnostica in modo avversariale gli errori e assegna un punteggio alle prestazioni, e un Agente di Evoluzione E modifica il sistema di controllo basandosi sulla cronologia completa dei tentativi precedenti. Al secondo livello, il *Meta-Evolution Loop* ottimizza il protocollo di evoluzione Λ = (W_{H}, H^{(0)}, V, E) stesso su diversi compiti, apprendendo un protocollo Λ^{(best)} che consente una rapida convergenza del sistema di controllo su qualsiasi nuovo compito – in modo che l'adattamento di un agente a un dominio nuovo non richieda alcuna ingegneria di controllo umana. Formalizziamo la corrispondenza con il meta-apprendimento e presentiamo entrambi gli algoritmi. Il framework trasforma l'ingegneria di controllo manuale in ingegneria di controllo automatizzata e fa un ulteriore passo avanti: automatizza la progettazione dell'automazione stessa.

English

AI agents are increasingly deployed on complex, domain-specific workflows -- navigating enterprise web applications that require dozens of clicks and form fills, orchestrating multi-step research pipelines that span search, extraction, and synthesis, automating code review across unfamiliar repositories, and handling customer escalations that demand nuanced domain knowledge. Each new task domain requires painstaking, expert-driven harness engineering: designing the prompts, tools, orchestration logic, and evaluation criteria that make a foundation model effective. We present a two-level framework that automates this process. At the first level, the Harness Evolution Loop optimizes a worker agent's harness H for a single task: a Worker Agent W_{H} executes the task, an Evaluator Agent V adversarially diagnoses failures and scores performance, and an Evolution Agent E modifies the harness based on the full history of prior attempts. At the second level, the Meta-Evolution Loop optimizes the evolution protocol Λ= (W_{H}, H^{(0)}, V, E) itself across diverse tasks, learning a protocol Λ^{(text{best)} that enables rapid harness convergence on any new task -- so that adapting an agent to a novel domain requires no human harness engineering at all.} We formalize the correspondence to meta-learning and present both algorithms. The framework shifts manual harness engineering into automated harness engineering, and takes one step further -- automating the design of the automation itself.

L'Ultima Briglia che Costruirai Mai

The Last Harness You'll Ever Build

Abstract

Support