Het temmen van actor-waarnemer-asymmetrie in agenten via dialectische afstemming

Samenvatting

Grote-taalmodelagenten zijn snel geëvolueerd van statische tekstgeneratoren naar dynamische systemen die complexe autonome workflows kunnen uitvoeren. Om de betrouwbaarheid te vergroten, worden steeds vaker multi-agentframeworks geadopteerd die gespecialiseerde rollen toekennen om zelfreflectie en onderlinge auditing mogelijk te maken. Hoewel dergelijk rollenspel effectief gebruikmaakt van domeinexpertkennis, ontdekken wij dat het tegelijkertijd een menselijke cognitieve bias induceert, bekend als Actor-Observer Asymmetrie (AOA). Concreet: een agent die als actor optreedt (tijdens zelfreflectie) heeft de neiging om fouten toe te schrijven aan externe factoren, terwijl een observer (tijdens onderlinge auditing) dezelfde fouten toeschrijft aan interne tekortkomingen. Wij kwantificeren dit met behulp van onze nieuwe Ambiguous Failure Benchmark, welke aantoont dat het louter wisselen van perspectief het AOA-effect activeert in meer dan 20% van de gevallen voor de meeste modellen. Om deze bias te beteugelen, introduceren wij ReTAS (Redeneren via These-Antithese-Synthese), een model dat getraind is door middel van dialectische alignering om perspectief-invariante redenering af te dwingen. Door een dialectische keten van denken te integreren met Group Relative Policy Optimization, leidt ReTAS agenten ertoe om conflicterende gezichtspunten te synthetiseren tot een objectieve consensus. Experimenten tonen aan dat ReTAS effectief attributie-inconsistentie vermindert en de foutoplossingspercentages in ambigue scenario's significant verbetert.

English

Large Language Model agents have rapidly evolved from static text generators into dynamic systems capable of executing complex autonomous workflows. To enhance reliability, multi-agent frameworks assigning specialized roles are increasingly adopted to enable self-reflection and mutual auditing. While such role-playing effectively leverages domain expert knowledge, we find it simultaneously induces a human-like cognitive bias known as Actor-Observer Asymmetry (AOA). Specifically, an agent acting as an actor (during self-reflection) tends to attribute failures to external factors, whereas an observer (during mutual auditing) attributes the same errors to internal faults. We quantify this using our new Ambiguous Failure Benchmark, which reveals that simply swapping perspectives triggers the AOA effect in over 20% of cases for most models. To tame this bias, we introduce ReTAS (Reasoning via Thesis-Antithesis-Synthesis), a model trained through dialectical alignment to enforce perspective-invariant reasoning. By integrating dialectical chain-of-thought with Group Relative Policy Optimization, ReTAS guides agents to synthesize conflicting viewpoints into an objective consensus. Experiments demonstrate that ReTAS effectively mitigates attribution inconsistency and significantly improves fault resolution rates in ambiguous scenarios.

Het temmen van actor-waarnemer-asymmetrie in agenten via dialectische afstemming

Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

Samenvatting

Support