TVIR: Aufbau von Deep Research Agents zur Generierung text-visuell verschränkter Berichte
TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation
June 1, 2026
Autoren: Xinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu
cs.AI
Zusammenfassung
Deep Research Agents haben eine starke Fähigkeit in mehrschrittiger Informationsabfrage, logischem Schlussfolgern und der Erstellung langer Berichte gezeigt, aber bestehende Benchmarks und Systeme bleiben überwiegend textzentriert, mit begrenzter Bewertung, ob visuelle Elemente faktisch zuverlässig und gut mit der umgebenden Analyse abgestimmt sind. Um diese Lücke zu schließen, führen wir TVIR (Text–Visual Interleaved Report Generation) ein, das TVIR-Bench, einen Benchmark von 100 von Experten kuratierten multimodalen Deep-Research-Aufgaben, die erfordern, dass visuelle Elemente spezifische analytische Unterziele erfüllen, und TVIR-Agent, ein hierarchisches Multi-Agenten-Framework, das als starke Baseline für die Erstellung von Gliederungen, das Abrufen von Bildern, das Generieren von Diagrammen mit nachvollziehbaren Quellen und das Verfassen von Berichten durch kontextbewusstes sequenzielles Schreiben dient, umfasst. Wir entwickeln ferner ein duales Bewertungsframework, das textuelle Bewertung und visuelle Bewertung kombiniert. Experimente über neun Deep-Research-Systeme hinweg zeigen, dass TVIR-Agent eine starke Gesamtleistung erzielt, was die Bedeutung expliziten multimodalen Designs und der Bewertung für evidenzgesteuerte Berichtserstellung unterstreicht.
English
Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.