DoVer: Depuración Automática Dirigida por Intervención para Sistemas Multiagente de LLM

Resumen

Los sistemas multiagente basados en modelos de lenguaje grande (LLM) son difíciles de depurar porque las fallas suelen surgir de trazas de interacción largas y ramificadas. La práctica predominante es aprovechar los LLM para la localización de fallas basada en registros, atribuyendo los errores a un agente y paso específicos. Sin embargo, este paradigma tiene dos limitaciones clave: (i) la depuración basada únicamente en registros carece de validación, produciendo hipótesis no verificadas, y (ii) la atribución a un solo paso o un solo agente suele estar mal planteada, ya que encontramos que múltiples intervenciones distintas pueden reparar independientemente la tarea fallida. Para abordar la primera limitación, presentamos DoVer, un marco de depuración impulsado por intervenciones, que complementa la generación de hipótesis con una verificación activa mediante intervenciones específicas (por ejemplo, editar mensajes, alterar planes). Para la segunda limitación, en lugar de evaluar la precisión de la atribución, nos centramos en medir si el sistema resuelve la falla o logra un progreso cuantificable hacia el éxito de la tarea, reflejando una visión más orientada a resultados de la depuración. Dentro del marco del agente Magnetic-One, en los conjuntos de datos derivados de GAIA y AssistantBench, DoVer convierte entre el 18% y el 28% de los intentos fallidos en éxitos, logra hasta un 16% de progreso en hitos y valida o refuta entre el 30% y el 60% de las hipótesis de falla. DoVer también funciona de manera efectiva en un conjunto de datos diferente (GSMPlus) y marco de agente (AG2), donde recupera el 49% de los intentos fallidos. Estos resultados destacan la intervención como un mecanismo práctico para mejorar la confiabilidad en sistemas agentivos y abren oportunidades para métodos de depuración más robustos y escalables para sistemas multiagente basados en LLM. El sitio web del proyecto y el código estarán disponibles en https://aka.ms/DoVer.

English

Large language model (LLM)-based multi-agent systems are challenging to debug because failures often arise from long, branching interaction traces. The prevailing practice is to leverage LLMs for log-based failure localization, attributing errors to a specific agent and step. However, this paradigm has two key limitations: (i) log-only debugging lacks validation, producing untested hypotheses, and (ii) single-step or single-agent attribution is often ill-posed, as we find that multiple distinct interventions can independently repair the failed task. To address the first limitation, we introduce DoVer, an intervention-driven debugging framework, which augments hypothesis generation with active verification through targeted interventions (e.g., editing messages, altering plans). For the second limitation, rather than evaluating on attribution accuracy, we focus on measuring whether the system resolves the failure or makes quantifiable progress toward task success, reflecting a more outcome-oriented view of debugging. Within the Magnetic-One agent framework, on the datasets derived from GAIA and AssistantBench, DoVer flips 18-28% of failed trials into successes, achieves up to 16% milestone progress, and validates or refutes 30-60% of failure hypotheses. DoVer also performs effectively on a different dataset (GSMPlus) and agent framework (AG2), where it recovers 49% of failed trials. These results highlight intervention as a practical mechanism for improving reliability in agentic systems and open opportunities for more robust, scalable debugging methods for LLM-based multi-agent systems. Project website and code will be available at https://aka.ms/DoVer.

DoVer: Depuración Automática Dirigida por Intervención para Sistemas Multiagente de LLM

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

Resumen

Support