Sistema Multiagente Visual: Mitigación de la Propagación de Alucinaciones mediante Flujo Visual
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
September 26, 2025
Autores: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI
Resumen
Los Sistemas Multi-Agente (MAS, por sus siglas en inglés) impulsados por Modelos de Lenguaje Visual (VLMs) permiten tareas desafiantes, pero sufren de un nuevo término de fallo: la propagación de alucinaciones visuales en multi-agentes, donde las alucinaciones se originan en un solo agente y son amplificadas por los siguientes debido a la excesiva dependencia del flujo textual para transmitir información visual. Mediante análisis de atención a nivel de turno, capa y token, proporcionamos una visión detallada de la esencia de la propagación de alucinaciones en relación con la reducción de la asignación de atención visual. Esto nos lleva a identificar un subconjunto de tokens visuales con un pico de atención unimodal en las capas intermedias que mejor preservan la evidencia visual, pero que gradualmente disminuyen en los turnos más profundos de los agentes, lo que resulta en la propagación de alucinaciones visuales en los MAS. Por lo tanto, proponemos ViF, un paradigma de mitigación ligero y plug-and-play que transmite mensajes inter-agentes con Flujo Visual impulsado por los tokens de retransmisión visual seleccionados y aplica una reasignación de atención para amplificar este patrón. Los resultados experimentales demuestran que nuestro método reduce notablemente la propagación de alucinaciones, mejorando consistentemente el rendimiento en ocho benchmarks basados en cuatro estructuras comunes de MAS y diez modelos base. El código fuente estará disponible en: https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables
challenging tasks but suffers from a novel failure term, multi-agent visual
hallucination snowballing, where hallucinations are seeded in a single agent
and amplified by following ones due to the over-reliance on textual flow to
relay visual information. Through turn-, layer-, and token-wise attention
analyses, we provide detailed insights into the essence of hallucination
snowballing regarding the reduction of visual attention allocation. It leads us
to identify a subset of vision tokens with a unimodal attention peak in middle
layers that best preserve visual evidence but gradually diminish in deeper
agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we
propose ViF, a lightweight, plug-and-play mitigation paradigm that relays
inter-agent messages with Visual Flow powered by the selected visual relay
tokens and applies attention reallocation to amplify this pattern. The
experiment results demonstrate that our method markedly reduces hallucination
snowballing, consistently improving the performance across eight benchmarks
based on four common MAS structures and ten base models. The source code will
be available at: https://github.com/YU-deep/ViF.git.