Keten van Bewijs: Visuele Attributie op Pixelniveau voor Iteratieve Retrieval-Augmenteerde Generatie

Samenvatting

Iteratieve Retrieval-Augmented Generation (iRAG) is naar voren gekomen als een krachtig paradigma voor het beantwoorden van complexe multi-hop vragen door progressief externe documenten op te halen en deze te gebruiken voor redenering. Huidige systemen opereren echter voornamelijk op geparste tekst, wat twee kritieke knelpunten creëert: (1) Grofkorrelige attributie, waarbij gebruikers de last krijgen om handmatig bewijs te lokaliseren in lange documenten op basis van vage tekstuele citaten; en (2) Verlies van visuele semantiek, waarbij de conversie van visueel rijke documenten (bijvoorbeeld dia's, PDF's met grafieken) naar tekst de ruimtelijke logica en lay-outaanwijzingen wegvaagt die essentieel zijn voor redenering. Om deze kloof te overbruggen, presenteren wij Chain of Evidence (CoE), een retriever-agnostisch visueel attributiekader dat Vision-Language Models benut om direct te redeneren over screenshots van opgehaalde documentkandidaten. CoE elimineert formaatspecifiek parsen en produceert precieze begrenzingskaders, waardoor de volledige redeneerketen binnen de opgehaalde kandidaatset wordt gevisualiseerd. Wij evalueren CoE op twee verschillende benchmarks: Wiki-CoE, een grootschalige dataset van gestructureerde webpagina's afgeleid van 2WikiMultiHopQA, en SlideVQA, een uitdagende dataset van presentatiedia's met complexe diagrammen en vrije lay-outs. Experimenten tonen aan dat een gefinetuned Qwen3-VL-8B-Instruct model robuuste prestaties bereikt, en tekstgebaseerde baseline-modellen significant overtreft in scenario's die begrip van visuele lay-out vereisen, terwijl het een retriever-agnostische oplossing biedt voor interpreteerbare iRAG op pixelniveau. Onze code is beschikbaar op https://github.com/PeiYangLiu/CoE.git.

English

Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) Coarse-grained attribution, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) Visual semantic loss, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present Chain of Evidence (CoE), a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: Wiki-CoE, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and SlideVQA, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.

Keten van Bewijs: Visuele Attributie op Pixelniveau voor Iteratieve Retrieval-Augmenteerde Generatie

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Samenvatting

Support