ChatPaper.aiChatPaper

TVIR: Создание глубоких исследовательских агентов для генерации текстово-визуальных перемежающихся отчетов

TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

June 1, 2026
Авторы: Xinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu
cs.AI

Аннотация

Агенты глубокого исследования продемонстрировали высокую эффективность в многоэтапном поиске информации, рассуждении и генерации объемных отчетов, однако существующие эталонные тесты и системы остаются преимущественно текстоцентричными, с ограниченной оценкой достоверности визуальных элементов и их согласованности с окружающим анализом. Для устранения этого пробела мы представляем TVIR (Text–Visual Interleaved Report Generation — генерация отчетов с чередованием текстовых и визуальных компонентов), включающий TVIR-Bench — эталон из 100 тщательно отобранных экспертами мультимодальных задач глубокого исследования, требующих использования визуальных элементов для достижения конкретных аналитических подцелей, и TVIR-Agent — иерархическую мультиагентную структуру, служащую сильным базовым подходом для составления планов, извлечения изображений, создания диаграмм с прослеживаемыми источниками и написания отчетов с учетом контекста. Мы также разработали двухканальную систему оценки, объединяющую текстовую и визуальную оценки. Эксперименты с девятью системами глубокого исследования показывают, что TVIR-Agent достигает высоких общих результатов, подчеркивая важность явного мультимодального проектирования и оценки для формирования отчетов на основе фактов.
English
Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.