ChatPaper.aiChatPaper

TVIR: Diepe onderzoeksagenten bouwen voor interleaved tekst-visuele rapportgeneratie

TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

June 1, 2026
Auteurs: Xinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu
cs.AI

Samenvatting

Diepe onderzoeksagenten hebben een sterke capaciteit getoond in meerstaps informatieopvraging, redeneren en het genereren van lange rapporten, maar bestaande benchmarks en systemen blijven overwegend tekstgericht, met beperkte evaluatie van of visuele elementen feitelijk betrouwbaar zijn en goed afgestemd zijn op de omringende analyse. Om deze leemte aan te pakken, introduceren we TVIR (Tekst–Visueel afgewisselde Rapportgeneratie), dat TVIR-Bench omvat, een benchmark van 100 door experts samengestelde multimodale diepe onderzoekstaken die visuele elementen vereisen om specifieke analytische subdoelen te dienen, en TVIR-Agent, een hiërarchisch multi-agent raamwerk dat dient als een sterke basislijn voor het opstellen van overzichten, het ophalen van afbeeldingen, het genereren van grafieken met traceerbare bronnen, en het samenstellen van rapporten door contextbewust sequentieel schrijven. We ontwikkelen verder een tweesporig evaluatiekader dat Tekstuele Beoordeling en Visuele Beoordeling combineert. Experimenten met negen diepe onderzoekssystemen tonen aan dat TVIR-Agent een sterke algehele prestatie behaalt, wat het belang benadrukt van expliciet multimodaal ontwerp en evaluatie voor bewijsgestuurde rapportgeneratie.
English
Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.