Визуальная мультиагентная система: предотвращение накопления галлюцинаций с помощью визуального потока
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
September 26, 2025
Авторы: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan
cs.AI
Аннотация
Многоагентные системы (MAS), основанные на визуальных языковых моделях (VLMs), позволяют решать сложные задачи, но сталкиваются с новым типом ошибки — эффектом снежного кома визуальных галлюцинаций в многоагентной среде, когда галлюцинации, возникающие у одного агента, усиливаются последующими агентами из-за чрезмерной зависимости от текстового потока для передачи визуальной информации. С помощью анализа внимания на уровне ходов, слоев и токенов мы подробно исследуем суть эффекта снежного кома галлюцинаций, связанного с уменьшением распределения визуального внимания. Это позволяет нам выделить подмножество визуальных токенов с унимодальным пиком внимания в средних слоях, которые лучше всего сохраняют визуальные данные, но постепенно исчезают на более глубоких этапах работы агентов, что приводит к эффекту снежного кома визуальных галлюцинаций в MAS. В связи с этим мы предлагаем ViF — легковесную, подключаемую парадигму для смягчения этой проблемы, которая передает межагентные сообщения с использованием визуального потока, основанного на выбранных токенах визуальной передачи, и применяет перераспределение внимания для усиления этого паттерна. Результаты экспериментов показывают, что наш метод значительно снижает эффект снежного кома галлюцинаций, стабильно улучшая производительность на восьми тестовых наборах, основанных на четырех распространенных структурах MAS и десяти базовых моделях. Исходный код будет доступен по адресу: https://github.com/YU-deep/ViF.git.
English
Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables
challenging tasks but suffers from a novel failure term, multi-agent visual
hallucination snowballing, where hallucinations are seeded in a single agent
and amplified by following ones due to the over-reliance on textual flow to
relay visual information. Through turn-, layer-, and token-wise attention
analyses, we provide detailed insights into the essence of hallucination
snowballing regarding the reduction of visual attention allocation. It leads us
to identify a subset of vision tokens with a unimodal attention peak in middle
layers that best preserve visual evidence but gradually diminish in deeper
agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we
propose ViF, a lightweight, plug-and-play mitigation paradigm that relays
inter-agent messages with Visual Flow powered by the selected visual relay
tokens and applies attention reallocation to amplify this pattern. The
experiment results demonstrate that our method markedly reduces hallucination
snowballing, consistently improving the performance across eight benchmarks
based on four common MAS structures and ten base models. The source code will
be available at: https://github.com/YU-deep/ViF.git.