CORRECTO: Reconocimiento de Errores Condensados mediante Transferencia de Conocimiento en Sistemas Multiagente
CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems
September 28, 2025
Autores: Yifan Yu, Moyan Li, Shaoyuan Xu, Jinmiao Fu, Xinhai Hou, Fan Lai, Bryan Wang
cs.AI
Resumen
Los sistemas multiagente (MAS, por sus siglas en inglés) son cada vez más capaces de abordar tareas complejas del mundo real, aunque su dependencia de la coordinación entre agentes, el uso de herramientas y el razonamiento a largo plazo hace que el reconocimiento de errores sea particularmente desafiante. Errores menores pueden propagarse entre los agentes, escalando hasta convertirse en fallos en la tarea, mientras generan trayectorias de ejecución largas y entrelazadas que imponen costos significativos tanto para los desarrolladores humanos como para los sistemas automatizados al depurar y analizar. Nuestra idea clave es que, a pesar de las diferencias superficiales en las trayectorias de fallos (por ejemplo, registros), los errores en los MAS a menudo se repiten con patrones estructurales similares. Este artículo presenta CORRECT, el primer marco ligero y sin entrenamiento que aprovecha una caché en línea de esquemas de errores destilados para reconocer y transferir conocimiento sobre estructuras de fallos en nuevas solicitudes. Esta reutilización basada en caché permite que los LLM realicen una localización de errores dirigida en tiempo de inferencia, evitando la necesidad de un costoso reentrenamiento mientras se adapta a implementaciones dinámicas de MAS en fracciones de segundo. Para apoyar un estudio riguroso en este dominio, también presentamos CORRECT-Error, un conjunto de datos a gran escala de más de 2,000 trayectorias anotadas recopiladas a través de una novedosa canalización de inyección de errores guiada por distribuciones del mundo real, y validada adicionalmente mediante evaluación humana para garantizar la alineación con patrones de fallos naturales. Los experimentos en siete aplicaciones diversas de MAS muestran que CORRECT mejora la localización de errores a nivel de paso hasta un 19.8% en comparación con avances existentes, con un costo casi nulo, reduciendo sustancialmente la brecha entre el reconocimiento de errores automatizado y el nivel humano.
English
Multi-agent systems (MAS) are increasingly capable of tackling complex
real-world tasks, yet their reliance on inter-agent coordination, tool use, and
long-horizon reasoning makes error recognition particularly challenging. Minor
errors can propagate across agents, escalating into task failures while
producing long, intertwined execution trajectories that impose significant
costs for both human developers and automated systems to debug and analyze. Our
key insight is that, despite surface differences in failure trajectories (e.g.,
logs), MAS errors often recur with similar structural patterns. This paper
presents CORRECT, the first lightweight, training-free framework that leverages
an online cache of distilled error schemata to recognize and transfer knowledge
of failure structures across new requests. This cache-based reuse allows LLMs
to perform targeted error localization at inference time, avoiding the need for
expensive retraining while adapting to dynamic MAS deployments in subseconds.
To support rigorous study in this domain, we also introduce CORRECT-Error, a
large-scale dataset of over 2,000 annotated trajectories collected through a
novel error-injection pipeline guided by real-world distributions, and further
validated through human evaluation to ensure alignment with natural failure
patterns. Experiments across seven diverse MAS applications show that CORRECT
improves step-level error localization up to 19.8% over existing advances while
at near-zero overhead, substantially narrowing the gap between automated and
human-level error recognition.