ChatPaper.aiChatPaper

DoVer: Interventionsgesteuerte automatische Fehlerbehebung für Multi-Agenten-Systeme mit großen Sprachmodellen

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

December 7, 2025
papers.authors: Ming Ma, Jue Zhang, Fangkai Yang, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI

papers.abstract

Multi-Agenten-Systeme auf Basis großer Sprachmodelle (LLMs) sind schwierig zu debuggen, da Fehler häufig aus langen, verzweigten Interaktionsabläufen entstehen. Die gängige Praxis besteht darin, LLMs zur protokollbasierten Fehlerlokalisierung einzusetzen, um Fehler einem bestimmten Agenten und Schritt zuzuschreiben. Dieses Paradigma weist jedoch zwei wesentliche Einschränkungen auf: (i) Das reine Protokoll-Debugging erfolgt ohne Validierung und erzeugt ungeprüfte Hypothesen, und (ii) die Zuschreibung auf einen einzelnen Schritt oder einen einzelnen Agenten ist oft schlecht gestellt, da wir feststellen, dass mehrere unterschiedliche Interventionen den fehlgeschlagenen Task unabhängig voneinander beheben können. Um die erste Einschränkung zu adressieren, führen wir DoVer ein, ein interventionsgestütztes Debugging-Framework, das die Hypothesengenerierung durch aktive Verifikation mittels gezielter Interventionen (z.B. Bearbeiten von Nachrichten, Ändern von Plänen) erweitert. Für die zweite Einschränkung konzentrieren wir uns, anstatt die Attributionsgenauigkeit zu bewerten, darauf, zu messen, ob das System den Fehler behebt oder quantifizierbare Fortschritte in Richtung Task-Erfolg erzielt. Dies spiegelt eine ergebnisorientiertere Sicht auf das Debugging wider. Innerhalb des Magnetic-One-Agenten-Frameworks kehrt DoVer auf den von GAIA und AssistantBench abgeleiteten Datensätzen 18–28 % der fehlgeschlagenen Versuche in Erfolge um, erzielt bis zu 16 % Meilenstein-Fortschritt und validiert oder widerlegt 30–60 % der Fehlerhypothesen. DoVer funktioniert auch effektiv auf einem anderen Datensatz (GSMPlus) und Agenten-Framework (AG2), wo es 49 % der fehlgeschlagenen Versuche wiederherstellt. Diese Ergebnisse unterstreichen, dass Intervention ein praktischer Mechanismus zur Verbesserung der Zuverlässigkeit von agentenbasierten Systemen ist, und eröffnen Möglichkeiten für robustere, skalierbarere Debugging-Methoden für LLM-basierte Multi-Agenten-Systeme. Projekt-Website und Code werden unter https://aka.ms/DoVer verfügbar sein.
English
Large language model (LLM)-based multi-agent systems are challenging to debug because failures often arise from long, branching interaction traces. The prevailing practice is to leverage LLMs for log-based failure localization, attributing errors to a specific agent and step. However, this paradigm has two key limitations: (i) log-only debugging lacks validation, producing untested hypotheses, and (ii) single-step or single-agent attribution is often ill-posed, as we find that multiple distinct interventions can independently repair the failed task. To address the first limitation, we introduce DoVer, an intervention-driven debugging framework, which augments hypothesis generation with active verification through targeted interventions (e.g., editing messages, altering plans). For the second limitation, rather than evaluating on attribution accuracy, we focus on measuring whether the system resolves the failure or makes quantifiable progress toward task success, reflecting a more outcome-oriented view of debugging. Within the Magnetic-One agent framework, on the datasets derived from GAIA and AssistantBench, DoVer flips 18-28% of failed trials into successes, achieves up to 16% milestone progress, and validates or refutes 30-60% of failure hypotheses. DoVer also performs effectively on a different dataset (GSMPlus) and agent framework (AG2), where it recovers 49% of failed trials. These results highlight intervention as a practical mechanism for improving reliability in agentic systems and open opportunities for more robust, scalable debugging methods for LLM-based multi-agent systems. Project website and code will be available at https://aka.ms/DoVer.
PDF254December 10, 2025