Cadena de Evidencia: Atribución Visual a Nivel de Píxel para la Generación Aumentada por Recuperación Iterativa

Resumen

La Generación Aumentada por Recuperación Iterativa (iRAG) ha surgido como un paradigma poderoso para responder preguntas complejas de múltiples saltos mediante la recuperación y el razonamiento progresivo sobre documentos externos. Sin embargo, los sistemas actuales operan predominantemente sobre texto analizado, lo que crea dos cuellos de botella críticos: (1) Atribución de granularidad gruesa, donde los usuarios se ven obligados a localizar manualmente la evidencia dentro de documentos extensos basándose en citas vagas a nivel de texto; y (2) Pérdida de semántica visual, donde la conversión de documentos visualmente ricos (por ejemplo, diapositivas, PDFs con gráficos) en texto descarta la lógica espacial y las pistas de diseño esenciales para el razonamiento. Para cerrar esta brecha, presentamos Chain of Evidence (CoE), un marco de atribución visual independiente del recuperador que aprovecha los Modelos de Visión y Lenguaje para razonar directamente sobre capturas de pantalla de los documentos candidatos recuperados. CoE elimina el análisis específico de formato y genera cuadros delimitadores precisos, visualizando la cadena de razonamiento completa dentro del conjunto de candidatos recuperados. Evaluamos CoE en dos puntos de referencia distintos: Wiki-CoE, un conjunto de datos a gran escala de páginas web estructuradas derivado de 2WikiMultiHopQA, y SlideVQA, un conjunto de datos desafiante de diapositivas de presentación que presenta diagramas complejos y diseños de forma libre. Los experimentos demuestran que el modelo Qwen3-VL-8B-Instruct ajustado logra un rendimiento robusto, superando significativamente a los baselines basados en texto en escenarios que requieren comprensión del diseño visual, al tiempo que establece una solución independiente del recuperador para iRAG interpretable a nivel de píxel. Nuestro código está disponible en https://github.com/PeiYangLiu/CoE.git.

English

Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) Coarse-grained attribution, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) Visual semantic loss, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present Chain of Evidence (CoE), a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: Wiki-CoE, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and SlideVQA, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.

Cadena de Evidencia: Atribución Visual a Nivel de Píxel para la Generación Aumentada por Recuperación Iterativa

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Resumen

Support