ChatPaper.aiChatPaper

TVIR: Construyendo Agentes de Investigación Profunda para la Generación de Informes Entrelazados Texto-Visual

TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

June 1, 2026
Autores: Xinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu
cs.AI

Resumen

Los agentes de investigación profunda han demostrado una gran capacidad en la recuperación de información en múltiples pasos, el razonamiento y la generación de informes extensos, pero los puntos de referencia y sistemas existentes siguen siendo predominantemente centrados en texto, con una evaluación limitada de si los elementos visuales son confiables desde el punto de vista fáctico y están bien alineados con el análisis circundante. Para abordar esta carencia, presentamos TVIR (Generación de Informes Intercalados Texto-Visual), que incluye TVIR-Bench, un punto de referencia de 100 tareas de investigación profunda multimodal seleccionadas por expertos que requieren elementos visuales para cumplir objetivos analíticos específicos, y TVIR-Agent, un marco jerárquico multiagente que sirve como una línea base sólida para construir esquemas, recuperar imágenes, generar gráficos con fuentes rastreables y redactar informes mediante escritura secuencial consciente del contexto. Además, desarrollamos un marco de evaluación de doble vía que combina Evaluación Textual y Evaluación Visual. Los experimentos realizados en nueve sistemas de investigación profunda muestran que TVIR-Agent logra un rendimiento general sólido, subrayando la importancia de un diseño y evaluación multimodales explícitos para la generación de informes basados en evidencia.
English
Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.