CORRECT : Reconnaissance d’Erreurs Condensées via Transfert de Connaissance dans les systèmes multi-agents
CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems
September 28, 2025
papers.authors: Yifan Yu, Moyan Li, Shaoyuan Xu, Jinmiao Fu, Xinhai Hou, Fan Lai, Bryan Wang
cs.AI
papers.abstract
Les systèmes multi-agents (SMA) sont de plus en plus capables de traiter des tâches complexes du monde réel, mais leur dépendance à la coordination inter-agents, à l'utilisation d'outils et au raisonnement à long terme rend la reconnaissance des erreurs particulièrement difficile. Des erreurs mineures peuvent se propager entre les agents, s'amplifiant en échecs de tâches tout en produisant des trajectoires d'exécution longues et entrelacées, imposant des coûts significatifs aux développeurs humains et aux systèmes automatisés pour déboguer et analyser. Notre idée clé est que, malgré des différences superficielles dans les trajectoires d'échec (par exemple, les logs), les erreurs des SMA se reproduisent souvent avec des motifs structurels similaires. Cet article présente CORRECT, le premier cadre léger et sans entraînement qui exploite un cache en ligne de schémas d'erreurs distillés pour reconnaître et transférer la connaissance des structures d'échec à travers de nouvelles requêtes. Cette réutilisation basée sur le cache permet aux LLM d'effectuer une localisation ciblée des erreurs au moment de l'inférence, évitant ainsi le besoin d'un réentraînement coûteux tout en s'adaptant aux déploiements dynamiques des SMA en quelques fractions de seconde. Pour soutenir une étude rigoureuse dans ce domaine, nous introduisons également CORRECT-Error, un jeu de données à grande échelle de plus de 2 000 trajectoires annotées collectées via un pipeline innovant d'injection d'erreurs guidé par des distributions du monde réel, et validé par une évaluation humaine pour garantir l'alignement avec les modèles naturels d'échec. Les expériences menées sur sept applications diverses de SMA montrent que CORRECT améliore la localisation des erreurs au niveau des étapes jusqu'à 19,8 % par rapport aux avancées existantes, avec un surcoût quasi nul, réduisant ainsi considérablement l'écart entre la reconnaissance automatisée et humaine des erreurs.
English
Multi-agent systems (MAS) are increasingly capable of tackling complex
real-world tasks, yet their reliance on inter-agent coordination, tool use, and
long-horizon reasoning makes error recognition particularly challenging. Minor
errors can propagate across agents, escalating into task failures while
producing long, intertwined execution trajectories that impose significant
costs for both human developers and automated systems to debug and analyze. Our
key insight is that, despite surface differences in failure trajectories (e.g.,
logs), MAS errors often recur with similar structural patterns. This paper
presents CORRECT, the first lightweight, training-free framework that leverages
an online cache of distilled error schemata to recognize and transfer knowledge
of failure structures across new requests. This cache-based reuse allows LLMs
to perform targeted error localization at inference time, avoiding the need for
expensive retraining while adapting to dynamic MAS deployments in subseconds.
To support rigorous study in this domain, we also introduce CORRECT-Error, a
large-scale dataset of over 2,000 annotated trajectories collected through a
novel error-injection pipeline guided by real-world distributions, and further
validated through human evaluation to ensure alignment with natural failure
patterns. Experiments across seven diverse MAS applications show that CORRECT
improves step-level error localization up to 19.8% over existing advances while
at near-zero overhead, substantially narrowing the gap between automated and
human-level error recognition.