ChatPaper.aiChatPaper

Visueel Multi-Agent Systeem: Het beperken van hallucinatie-opstapeling via visuele stroming

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

September 26, 2025
Auteurs: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI

Samenvatting

Multi-Agent System (MAS) aangedreven door Visual Language Models (VLMs) maakt uitdagende taken mogelijk, maar lijdt onder een nieuw falingsverschijnsel, multi-agent visuele hallucinatie-sneeuwbaleffect, waarbij hallucinaties worden geïnitieerd in een enkele agent en versterkt worden door volgende agents vanwege de overmatige afhankelijkheid van tekstuele flow om visuele informatie over te dragen. Door middel van aandachtanalyses op beurt-, laag- en tokenniveau bieden we gedetailleerde inzichten in de essentie van hallucinatie-sneeuwbaleffect met betrekking tot de vermindering van visuele aandachtstoewijzing. Dit leidt ons naar de identificatie van een subset van visuele tokens met een unimodale aandachtspiek in middelste lagen die het beste visueel bewijs behouden, maar geleidelijk afnemen in diepere agentbeurten, wat resulteert in het visuele hallucinatie-sneeuwbaleffect in MAS. Daarom stellen we ViF voor, een lichtgewicht, plug-and-play mitigatieparadigma dat inter-agent berichten overdraagt met Visual Flow aangedreven door de geselecteerde visuele relaytokens en aandachtstoewijzing toepast om dit patroon te versterken. De experimentele resultaten tonen aan dat onze methode het hallucinatie-sneeuwbaleffect aanzienlijk vermindert en consistent de prestaties verbetert over acht benchmarks gebaseerd op vier veelvoorkomende MAS-structuren en tien basismodellen. De broncode zal beschikbaar zijn op: https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables challenging tasks but suffers from a novel failure term, multi-agent visual hallucination snowballing, where hallucinations are seeded in a single agent and amplified by following ones due to the over-reliance on textual flow to relay visual information. Through turn-, layer-, and token-wise attention analyses, we provide detailed insights into the essence of hallucination snowballing regarding the reduction of visual attention allocation. It leads us to identify a subset of vision tokens with a unimodal attention peak in middle layers that best preserve visual evidence but gradually diminish in deeper agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we propose ViF, a lightweight, plug-and-play mitigation paradigm that relays inter-agent messages with Visual Flow powered by the selected visual relay tokens and applies attention reallocation to amplify this pattern. The experiment results demonstrate that our method markedly reduces hallucination snowballing, consistently improving the performance across eight benchmarks based on four common MAS structures and ten base models. The source code will be available at: https://github.com/YU-deep/ViF.git.
PDF91October 3, 2025