CORRECT: Gecondenseerde Foutherkenning via Kennisoverdracht in multi-agent systemen
CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems
September 28, 2025
Auteurs: Yifan Yu, Moyan Li, Shaoyuan Xu, Jinmiao Fu, Xinhai Hou, Fan Lai, Bryan Wang
cs.AI
Samenvatting
Multi-agent systemen (MAS) worden steeds beter in staat om complexe taken uit de echte wereld aan te pakken, maar hun afhankelijkheid van inter-agent coördinatie, gereedschapsgebruik en langetermijnredenering maakt het herkennen van fouten bijzonder uitdagend. Kleine fouten kunnen zich verspreiden over meerdere agents, wat kan escaleren tot taakfouten en lange, verweven uitvoeringstrajecten oplevert die aanzienlijke kosten met zich meebrengen voor zowel menselijke ontwikkelaars als geautomatiseerde systemen om te debuggen en te analyseren. Onze belangrijkste inzicht is dat, ondanks oppervlakkige verschillen in fouttrajecten (bijv. logs), MAS-fouten vaak terugkeren met vergelijkbare structurele patronen. Dit artikel presenteert CORRECT, het eerste lichtgewicht, trainingsvrije framework dat gebruikmaakt van een online cache van gedistilleerde foutschema's om kennis van foutstructuren te herkennen en over te dragen naar nieuwe verzoeken. Dit cache-gebaseerde hergebruik stelt LLM's in staat om gerichte foutlokalisatie uit te voeren tijdens inferentie, waardoor dure hertraining wordt vermeden en aanpassing aan dynamische MAS-implementaties in subseconden mogelijk wordt gemaakt. Om rigoureus onderzoek in dit domein te ondersteunen, introduceren we ook CORRECT-Error, een grootschalige dataset van meer dan 2.000 geannoteerde trajecten die zijn verzameld via een nieuwe foutinjectiepipeline die wordt geleid door real-world distributies, en verder gevalideerd door menselijke evaluatie om afstemming met natuurlijke foutpatronen te waarborgen. Experimenten over zeven diverse MAS-toepassingen laten zien dat CORRECT de stapgewijze foutlokalisatie met tot wel 19,8% verbetert ten opzichte van bestaande vooruitgangen, terwijl het bijna geen overhead heeft, waardoor de kloof tussen geautomatiseerde en menselijke foutherkenning aanzienlijk wordt verkleind.
English
Multi-agent systems (MAS) are increasingly capable of tackling complex
real-world tasks, yet their reliance on inter-agent coordination, tool use, and
long-horizon reasoning makes error recognition particularly challenging. Minor
errors can propagate across agents, escalating into task failures while
producing long, intertwined execution trajectories that impose significant
costs for both human developers and automated systems to debug and analyze. Our
key insight is that, despite surface differences in failure trajectories (e.g.,
logs), MAS errors often recur with similar structural patterns. This paper
presents CORRECT, the first lightweight, training-free framework that leverages
an online cache of distilled error schemata to recognize and transfer knowledge
of failure structures across new requests. This cache-based reuse allows LLMs
to perform targeted error localization at inference time, avoiding the need for
expensive retraining while adapting to dynamic MAS deployments in subseconds.
To support rigorous study in this domain, we also introduce CORRECT-Error, a
large-scale dataset of over 2,000 annotated trajectories collected through a
novel error-injection pipeline guided by real-world distributions, and further
validated through human evaluation to ensure alignment with natural failure
patterns. Experiments across seven diverse MAS applications show that CORRECT
improves step-level error localization up to 19.8% over existing advances while
at near-zero overhead, substantially narrowing the gap between automated and
human-level error recognition.