Chaîne de Preuve : Attribution Visuelle au Niveau Pixel pour la Génération Augmentée par Récupération Itérative

Résumé

La Génération Augmentée par Récupération Itérative (iRAG) est apparue comme un paradigme puissant pour répondre à des questions complexes à sauts multiples en récupérant et en raisonnant progressivement sur des documents externes. Cependant, les systèmes actuels fonctionnent principalement sur du texte analysé, ce qui crée deux goulots d'étranglement critiques : (1) L'attribution à granularité grossière, où les utilisateurs sont contraints de localiser manuellement les preuves dans de longs documents sur la base de citations textuelles vagues ; et (2) La perte sémantique visuelle, où la conversion de documents visuellement riches (par exemple, des diapositives, des PDF avec graphiques) en texte supprime la logique spatiale et les indices de mise en page essentiels au raisonnement. Pour combler cette lacune, nous présentons Chaîne de Preuves (CoE), un cadre d'attribution visuel agnostique au récupérateur qui exploite les Modèles Vision-Langage pour raisonner directement sur des captures d'écran des documents candidats récupérés. CoE élimine l'analyse spécifique au format et produit des boîtes englobantes précises, visualisant la chaîne de raisonnement complète au sein de l'ensemble des candidats récupérés. Nous évaluons CoE sur deux benchmarks distincts : Wiki-CoE, un jeu de données à grande échelle de pages web structurées dérivé de 2WikiMultiHopQA, et SlideVQA, un jeu de données complexe de diapositives de présentation comportant des diagrammes complexes et des mises en page libres. Les expériences démontrent que Qwen3-VL-8B-Instruct, après fine-tuning, atteint des performances robustes, surpassant significativement les modèles de base textuels dans les scénarios nécessitant une compréhension de la mise en page visuelle, tout en établissant une solution agnostique au récupérateur pour une iRAG interprétable au niveau pixel. Notre code est disponible à l'adresse https://github.com/PeiYangLiu/CoE.git.

English

Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) Coarse-grained attribution, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) Visual semantic loss, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present Chain of Evidence (CoE), a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: Wiki-CoE, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and SlideVQA, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.

Chaîne de Preuve : Attribution Visuelle au Niveau Pixel pour la Génération Augmentée par Récupération Itérative

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Résumé

Support