TVIR: Construyendo Agentes de Investigación Profunda para la Generación de Informes Entrelazados Texto-Visual

Resumen

Los agentes de investigación profunda han demostrado una gran capacidad en la recuperación de información en múltiples pasos, el razonamiento y la generación de informes extensos, pero los puntos de referencia y sistemas existentes siguen siendo predominantemente centrados en texto, con una evaluación limitada de si los elementos visuales son confiables desde el punto de vista fáctico y están bien alineados con el análisis circundante. Para abordar esta carencia, presentamos TVIR (Generación de Informes Intercalados Texto-Visual), que incluye TVIR-Bench, un punto de referencia de 100 tareas de investigación profunda multimodal seleccionadas por expertos que requieren elementos visuales para cumplir objetivos analíticos específicos, y TVIR-Agent, un marco jerárquico multiagente que sirve como una línea base sólida para construir esquemas, recuperar imágenes, generar gráficos con fuentes rastreables y redactar informes mediante escritura secuencial consciente del contexto. Además, desarrollamos un marco de evaluación de doble vía que combina Evaluación Textual y Evaluación Visual. Los experimentos realizados en nueve sistemas de investigación profunda muestran que TVIR-Agent logra un rendimiento general sólido, subrayando la importancia de un diseño y evaluación multimodales explícitos para la generación de informes basados en evidencia.

English

Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.