ChartWalker: Het benchmarken van de cross-chart RAG-taak

Samenvatting

Cross-Chart Retrieval-Augmented Generation (RAG) is cruciaal voor complexe multimodale analytische taken in wetenschappelijke, zakelijke en politieke domeinen. Echter, bestaande benchmarks richten zich ofwel op tabellen, die goed gestructureerd en getekstualiseerd zijn, of genereren cross-chart vragen door simpelweg kernpunten te extraheren, wat vaak leidt tot lexicale overlap tussen queries en bewijsmateriaal en logisch inconsistente redeneerketens oplevert. Om dit aan te pakken, introduceren we ChartWalker, een nieuw raamwerk voor het construeren van uitdagende cross-chart RAG-taken. ChartWalker kenmerkt zich door een hiërarchische kennisgraafconstructiemethode toegespitst op diagrammen, die entiteiten en relaties organiseert op granulariteit om de analytische structuur te behouden. Vervolgens stellen we een structuurbewust sample-algoritme voor dat semantisch coherente, multi-hop redeneerpaden synthetiseert, waardoor expliciete controle over querymoeilijkheid en granulariteit voor QA-generatie mogelijk wordt. Gebouwd met dit raamwerk, brengen we ChartWalker-Bench uit, een uitgebreide benchmark die diverse domeinen en cross-chart querytypen bestrijkt. Uitgebreide evaluaties over belangrijke RAG-paradigma's tonen aanzienlijke prestatiekloven aan, wat de moeilijkheidsgraad en het nut van de benchmark onderstreept. Bovendien bieden we ChartWalker-Agent aan, een agentische baseline om analyse te vergemakkelijken en toekomstig systeemontwerp te inspireren.

English

Cross-Chart Retrieval-Augmented Generation (RAG) is critical for complex multi-modal analytical tasks in scientific, business, and political domains. However, existing benchmarks either focus on tables, which are well-structured and textualized, or generate cross-chart questions by simply extracting key points, which often induces lexical overlap between queries and evidence and yields logically inconsistent reasoning chains. To address this, we introduce ChartWalker, a novel framework for constructing challenging cross-chart RAG tasks. ChartWalker features a hierarchical knowledge graph construction method tailored to charts, which organizes entities and relations by granularity to preserve analytical structure. We then propose a structure-aware sampling algorithm that synthesizes semantically coherent, multi-hop reasoning paths, enabling explicit control over query difficulty and granularity for QA generation. Built with this framework, we release ChartWalker-Bench, a comprehensive benchmark spanning diverse domains and cross-chart query types. Extensive evaluations across major RAG paradigms reveal significant performance gaps, underscoring the benchmark's difficulty and utility. Furthermore, we provide ChartWalker-Agent, an agentic baseline to facilitate analysis and inspire future system design.