Système Multi-Agent Visuel : Atténuation de l'Effet Boule de Neige des Hallucinations via le Flux Visuel
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
September 26, 2025
papers.authors: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI
papers.abstract
Les systèmes multi-agents (MAS) alimentés par des modèles de langage visuel (VLMs) permettent de réaliser des tâches complexes, mais souffrent d'un nouveau type de défaillance : l'effet boule de neige des hallucinations visuelles multi-agents. Ce phénomène survient lorsqu'une hallucination est initiée par un seul agent et amplifiée par les agents suivants, en raison d'une dépendance excessive au flux textuel pour transmettre les informations visuelles. Grâce à des analyses d'attention au niveau des tours, des couches et des tokens, nous fournissons des insights détaillés sur l'essence de cet effet boule de neige, en lien avec la réduction de l'allocation d'attention visuelle. Cela nous permet d'identifier un sous-ensemble de tokens visuels présentant un pic d'attention unimodal dans les couches intermédiaires, qui préservent au mieux les preuves visuelles mais s'atténuent progressivement dans les tours d'agents plus profonds, entraînant ainsi l'effet boule de neige des hallucinations visuelles dans les MAS. Nous proposons donc ViF, un paradigme léger et plug-and-play pour atténuer ce problème, qui relaie les messages inter-agents avec un flux visuel alimenté par les tokens de relais visuels sélectionnés et applique une réallocation de l'attention pour amplifier ce schéma. Les résultats expérimentaux montrent que notre méthode réduit significativement l'effet boule de neige des hallucinations, améliorant de manière constante les performances sur huit benchmarks basés sur quatre structures MAS courantes et dix modèles de base. Le code source sera disponible à l'adresse : https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables
challenging tasks but suffers from a novel failure term, multi-agent visual
hallucination snowballing, where hallucinations are seeded in a single agent
and amplified by following ones due to the over-reliance on textual flow to
relay visual information. Through turn-, layer-, and token-wise attention
analyses, we provide detailed insights into the essence of hallucination
snowballing regarding the reduction of visual attention allocation. It leads us
to identify a subset of vision tokens with a unimodal attention peak in middle
layers that best preserve visual evidence but gradually diminish in deeper
agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we
propose ViF, a lightweight, plug-and-play mitigation paradigm that relays
inter-agent messages with Visual Flow powered by the selected visual relay
tokens and applies attention reallocation to amplify this pattern. The
experiment results demonstrate that our method markedly reduces hallucination
snowballing, consistently improving the performance across eight benchmarks
based on four common MAS structures and ten base models. The source code will
be available at: https://github.com/YU-deep/ViF.git.