Цепочка доказательств: пиксельная визуальная атрибуция для итеративного поисково-расширенного генерирования

Аннотация

Итеративное генерирование с расширением выборки (iRAG) стало мощной парадигмой для ответов на сложные многошаговые вопросы за счёт прогрессивного поиска и логического вывода на основе внешних документов. Однако современные системы в основном работают с обработанным текстом, что создаёт два критических ограничения: (1) грубая атрибуция, когда пользователи вынуждены вручную искать доказательства в объёмных документах на основе неточных текстовых ссылок; и (2) потеря визуальной семантики, при которой преобразование визуально насыщенных документов (например, слайдов, PDF с диаграммами) в текст удаляет пространственную логику и структурные подсказки, необходимые для рассуждений. Для преодоления этого разрыва мы представляем Chain of Evidence (CoE) — визуальную фреймворк-атрибуцию, не зависящую от конкретного механизма поиска, которая использует Vision-Language модели для рассуждений напрямую над скриншотами найденных кандидатов документов. CoE устраняет необходимость в специфическом для формата парсинге и выводит точные ограничивающие рамки, визуализируя полную цепочку рассуждений в пределах найденного набора кандидатов. Мы оцениваем CoE на двух различных бенчмарках: Wiki-CoE, крупномасштабном наборе структурированных веб-страниц, созданном на основе 2WikiMultiHopQA, и SlideVQA, сложном наборе данных презентационных слайдов со сложными диаграммами и свободной компоновкой. Эксперименты показывают, что дообученная модель Qwen3-VL-8B-Instruct демонстрирует устойчивую производительность, значительно превосходя текстовые базовые линии в сценариях, требующих понимания визуального расположения, и предлагая независимое от поисковой системы решение для интерпретируемого iRAG на уровне пикселей. Наш код доступен по адресу https://github.com/PeiYangLiu/CoE.git.

English

Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) Coarse-grained attribution, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) Visual semantic loss, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present Chain of Evidence (CoE), a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: Wiki-CoE, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and SlideVQA, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.

Цепочка доказательств: пиксельная визуальная атрибуция для итеративного поисково-расширенного генерирования

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Аннотация

Support