CORRETTO: Riconoscimento degli Errori CONdensati tramite Trasferimento di Conoscenza nei sistemi multi-agente
CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems
September 28, 2025
Autori: Yifan Yu, Moyan Li, Shaoyuan Xu, Jinmiao Fu, Xinhai Hou, Fan Lai, Bryan Wang
cs.AI
Abstract
I sistemi multi-agente (MAS) sono sempre più capaci di affrontare compiti complessi del mondo reale, tuttavia la loro dipendenza dalla coordinazione inter-agente, dall'uso di strumenti e dal ragionamento a lungo termine rende particolarmente difficile il riconoscimento degli errori. Errori minori possono propagarsi tra gli agenti, trasformandosi in fallimenti del compito mentre producono traiettorie di esecuzione lunghe e intrecciate che impongono costi significativi sia per gli sviluppatori umani che per i sistemi automatizzati per il debug e l'analisi. La nostra intuizione chiave è che, nonostante le differenze superficiali nelle traiettorie di fallimento (ad esempio, i log), gli errori nei MAS spesso si ripetono con schemi strutturali simili. Questo articolo presenta CORRECT, il primo framework leggero e senza addestramento che sfrutta una cache online di schemi di errore distillati per riconoscere e trasferire la conoscenza delle strutture di fallimento attraverso nuove richieste. Questo riutilizzo basato su cache consente ai LLM di eseguire una localizzazione mirata degli errori al momento dell'inferenza, evitando la necessità di costosi riaddestramenti mentre si adattano a implementazioni dinamiche dei MAS in frazioni di secondo. Per supportare uno studio rigoroso in questo dominio, introduciamo anche CORRECT-Error, un dataset su larga scala di oltre 2.000 traiettorie annotate raccolte attraverso una nuova pipeline di iniezione di errori guidata da distribuzioni del mondo reale e ulteriormente validata attraverso valutazioni umane per garantire l'allineamento con i modelli di fallimento naturali. Esperimenti su sette diverse applicazioni MAS mostrano che CORRECT migliora la localizzazione degli errori a livello di passo fino al 19,8% rispetto ai progressi esistenti, con un overhead quasi nullo, riducendo sostanzialmente il divario tra il riconoscimento degli errori automatizzato e quello umano.
English
Multi-agent systems (MAS) are increasingly capable of tackling complex
real-world tasks, yet their reliance on inter-agent coordination, tool use, and
long-horizon reasoning makes error recognition particularly challenging. Minor
errors can propagate across agents, escalating into task failures while
producing long, intertwined execution trajectories that impose significant
costs for both human developers and automated systems to debug and analyze. Our
key insight is that, despite surface differences in failure trajectories (e.g.,
logs), MAS errors often recur with similar structural patterns. This paper
presents CORRECT, the first lightweight, training-free framework that leverages
an online cache of distilled error schemata to recognize and transfer knowledge
of failure structures across new requests. This cache-based reuse allows LLMs
to perform targeted error localization at inference time, avoiding the need for
expensive retraining while adapting to dynamic MAS deployments in subseconds.
To support rigorous study in this domain, we also introduce CORRECT-Error, a
large-scale dataset of over 2,000 annotated trajectories collected through a
novel error-injection pipeline guided by real-world distributions, and further
validated through human evaluation to ensure alignment with natural failure
patterns. Experiments across seven diverse MAS applications show that CORRECT
improves step-level error localization up to 19.8% over existing advances while
at near-zero overhead, substantially narrowing the gap between automated and
human-level error recognition.