Sistema Multi-Agente Visivo: Mitigazione dell'Effetto a Catena delle Allucinazioni tramite Flusso Visivo
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
September 26, 2025
Autori: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI
Abstract
I Sistemi Multi-Agente (MAS) potenziati da Modelli di Linguaggio Visivo (VLMs) abilitano compiti complessi, ma soffrono di un nuovo tipo di errore, il fenomeno di amplificazione delle allucinazioni visive multi-agente, in cui le allucinazioni vengono generate da un singolo agente e amplificate da quelli successivi a causa dell'eccessiva dipendenza dal flusso testuale per trasmettere informazioni visive. Attraverso analisi dell'attenzione a livello di turno, strato e token, forniamo approfondimenti dettagliati sull'essenza dell'amplificazione delle allucinazioni riguardo alla riduzione dell'allocazione dell'attenzione visiva. Questo ci porta a identificare un sottoinsieme di token visivi con un picco di attenzione unimodale negli strati intermedi che preservano al meglio le evidenze visive, ma che gradualmente si riducono nei turni più profondi degli agenti, causando l'amplificazione delle allucinazioni visive nei MAS. Pertanto, proponiamo ViF, un paradigma di mitigazione leggero e plug-and-play che trasmette messaggi inter-agente con un Flusso Visivo basato sui token visivi selezionati e applica una riallocazione dell'attenzione per amplificare questo schema. I risultati sperimentali dimostrano che il nostro metodo riduce significativamente l'amplificazione delle allucinazioni, migliorando costantemente le prestazioni su otto benchmark basati su quattro strutture MAS comuni e dieci modelli di base. Il codice sorgente sarà disponibile all'indirizzo: https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables
challenging tasks but suffers from a novel failure term, multi-agent visual
hallucination snowballing, where hallucinations are seeded in a single agent
and amplified by following ones due to the over-reliance on textual flow to
relay visual information. Through turn-, layer-, and token-wise attention
analyses, we provide detailed insights into the essence of hallucination
snowballing regarding the reduction of visual attention allocation. It leads us
to identify a subset of vision tokens with a unimodal attention peak in middle
layers that best preserve visual evidence but gradually diminish in deeper
agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we
propose ViF, a lightweight, plug-and-play mitigation paradigm that relays
inter-agent messages with Visual Flow powered by the selected visual relay
tokens and applies attention reallocation to amplify this pattern. The
experiment results demonstrate that our method markedly reduces hallucination
snowballing, consistently improving the performance across eight benchmarks
based on four common MAS structures and ten base models. The source code will
be available at: https://github.com/YU-deep/ViF.git.