Beweiskette auf Pixelebene: Visuelle Nachverfolgung für iteratives abrufverstärktes Generieren

Zusammenfassung

Iterative Retrieval-Augmented Generation (iRAG) hat sich als leistungsstarkes Paradigma zur Beantwortung komplexer Multi-Hop-Fragen etabliert, indem es schrittweise externe Dokumente abruft und über diese schlussfolgert. Aktuelle Systeme operieren jedoch überwiegend auf geparstem Text, was zwei kritische Engpässe verursacht: (1) Grobgranulare Attribuierung, bei der Nutzer die Last haben, Belege in langen Dokumenten anhand vager Textzitate manuell zu lokalisieren; und (2) Visueller Semantikverlust, bei dem die Konversion visuell reicher Dokumente (z.B. Folien, PDFs mit Diagrammen) in Text die räumliche Logik und Layout-Hinweise verwirft, die für das Schlussfolgern essenziell sind. Um diese Lücke zu schließen, stellen wir Chain of Evidence (CoE) vor, ein retriever-agnostisches Visual-Attribution-Framework, das Vision-Language-Modelle nutzt, um direkt über Screenshots der abgerufenen Dokumentkandidaten zu schlussfolgern. CoE eliminiert formatspezifisches Parsing und gibt präzise Bounding-Boxen aus, die die vollständige Schlusskette innerhalb des abgerufenen Kandidatensatzes visualisieren. Wir evaluieren CoE an zwei verschiedenen Benchmarks: Wiki-CoE, einem groß angelegten Datensatz strukturierter Webseiten, abgeleitet von 2WikiMultiHopQA, und SlideVQA, einem anspruchsvollen Datensatz von Präsentationsfolien mit komplexen Diagrammen und freien Layouts. Experimente zeigen, dass das feinabgestimmte Qwen3-VL-8B-Instruct eine robuste Leistung erzielt und textbasierte Baseline-Systeme in Szenarien, die ein Verständnis des visuellen Layouts erfordern, signifikant übertrifft, während es eine retriever-agnostische Lösung für pixel-level interpretierbare iRAG etabliert. Unser Code ist verfügbar unter https://github.com/PeiYangLiu/CoE.git.

English

Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) Coarse-grained attribution, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) Visual semantic loss, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present Chain of Evidence (CoE), a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: Wiki-CoE, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and SlideVQA, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.

Beweiskette auf Pixelebene: Visuelle Nachverfolgung für iteratives abrufverstärktes Generieren

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Zusammenfassung

Support