ChatPaper.aiChatPaper

Visuelles Multi-Agenten-System: Reduzierung von Halluzinationskaskaden durch visuellen Fluss

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

September 26, 2025
papers.authors: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI

papers.abstract

Multi-Agent System (MAS), das durch Visual Language Models (VLMs) betrieben wird, ermöglicht anspruchsvolle Aufgaben, leidet jedoch unter einem neuartigen Fehlerterm, dem Multi-Agent Visual Hallucination Snowballing, bei dem Halluzinationen in einem einzelnen Agenten initiiert und durch nachfolgende Agenten verstärkt werden, da zu stark auf den Textfluss zur Übermittlung visueller Informationen vertraut wird. Durch turn-, layer- und tokenweise Aufmerksamkeitsanalysen liefern wir detaillierte Einblicke in das Wesen des Hallucination Snowballing in Bezug auf die Reduzierung der Zuweisung visueller Aufmerksamkeit. Dies führt uns zur Identifizierung einer Teilmenge von Vision-Tokens mit einem unimodalen Aufmerksamkeitspeak in mittleren Schichten, die visuelle Beweise am besten bewahren, jedoch in tieferen Agenten-Durchgängen allmählich abnehmen, was das visuelle Hallucination Snowballing in MAS verursacht. Daher schlagen wir ViF vor, ein leichtgewichtiges, Plug-and-Play-Minderungsparadigma, das interagente Nachrichten mit Visual Flow übermittelt, der durch die ausgewählten visuellen Relay-Tokens angetrieben wird, und eine Aufmerksamkeitsneuverteilung anwendet, um dieses Muster zu verstärken. Die experimentellen Ergebnisse zeigen, dass unsere Methode das Hallucination Snowballing deutlich reduziert und die Leistung über acht Benchmarks basierend auf vier gängigen MAS-Strukturen und zehn Basismodellen konsistent verbessert. Der Quellcode wird verfügbar sein unter: https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables challenging tasks but suffers from a novel failure term, multi-agent visual hallucination snowballing, where hallucinations are seeded in a single agent and amplified by following ones due to the over-reliance on textual flow to relay visual information. Through turn-, layer-, and token-wise attention analyses, we provide detailed insights into the essence of hallucination snowballing regarding the reduction of visual attention allocation. It leads us to identify a subset of vision tokens with a unimodal attention peak in middle layers that best preserve visual evidence but gradually diminish in deeper agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we propose ViF, a lightweight, plug-and-play mitigation paradigm that relays inter-agent messages with Visual Flow powered by the selected visual relay tokens and applies attention reallocation to amplify this pattern. The experiment results demonstrate that our method markedly reduces hallucination snowballing, consistently improving the performance across eight benchmarks based on four common MAS structures and ten base models. The source code will be available at: https://github.com/YU-deep/ViF.git.
PDF91October 3, 2025