Sistema Visual Multiagente: Mitigando o Efeito Bola de Neve de Alucinações por meio de Fluxo Visual
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
September 26, 2025
Autores: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI
Resumo
Sistemas Multiagentes (MAS) impulsionados por Modelos de Linguagem Visual (VLMs) permitem a execução de tarefas desafiadoras, mas sofrem com um novo termo de falha: o efeito bola de neve de alucinações visuais multiagentes, onde alucinações são iniciadas em um único agente e amplificadas pelos seguintes devido à excessiva dependência do fluxo textual para transmitir informações visuais. Por meio de análises de atenção em nível de turno, camada e token, fornecemos insights detalhados sobre a essência do efeito bola de neve de alucinações em relação à redução da alocação de atenção visual. Isso nos levou a identificar um subconjunto de tokens visuais com um pico de atenção unimodal nas camadas intermediárias que melhor preservam evidências visuais, mas que gradualmente diminuem em turnos mais profundos dos agentes, resultando no efeito bola de neve de alucinações visuais no MAS. Assim, propomos o ViF, um paradigma leve e plug-and-play de mitigação que transmite mensagens interagentes com Fluxo Visual, impulsionado pelos tokens de retransmissão visual selecionados, e aplica realocação de atenção para amplificar esse padrão. Os resultados dos experimentos demonstram que nosso método reduz significativamente o efeito bola de neve de alucinações, melhorando consistentemente o desempenho em oito benchmarks baseados em quatro estruturas comuns de MAS e dez modelos base. O código-fonte estará disponível em: https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables
challenging tasks but suffers from a novel failure term, multi-agent visual
hallucination snowballing, where hallucinations are seeded in a single agent
and amplified by following ones due to the over-reliance on textual flow to
relay visual information. Through turn-, layer-, and token-wise attention
analyses, we provide detailed insights into the essence of hallucination
snowballing regarding the reduction of visual attention allocation. It leads us
to identify a subset of vision tokens with a unimodal attention peak in middle
layers that best preserve visual evidence but gradually diminish in deeper
agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we
propose ViF, a lightweight, plug-and-play mitigation paradigm that relays
inter-agent messages with Visual Flow powered by the selected visual relay
tokens and applies attention reallocation to amplify this pattern. The
experiment results demonstrate that our method markedly reduces hallucination
snowballing, consistently improving the performance across eight benchmarks
based on four common MAS structures and ten base models. The source code will
be available at: https://github.com/YU-deep/ViF.git.