ChatPaper.aiChatPaper

TVIR: Construindo Agentes de Pesquisa Profunda para Geração de Relatórios Intercalados Texto-Visuais

TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

June 1, 2026
Autores: Xinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu
cs.AI

Resumo

Agentes de Pesquisa Profunda têm demonstrado forte capacidade na recuperação de informações em múltiplas etapas, no raciocínio e na geração de relatórios longos, mas os benchmarks e sistemas existentes permanecem predominantemente centrados em texto, com avaliação limitada sobre se os elementos visuais são confiáveis factualmente e bem alinhados com a análise circundante. Para preencher essa lacuna, apresentamos o TVIR (Geração de Relatórios Intercalados Texto-Visuais), que inclui o TVIR-Bench, um benchmark composto por 100 tarefas de pesquisa profunda multimodal curadas por especialistas, que exigem elementos visuais para atender a subobjetivos analíticos específicos, e o TVIR-Agent, um framework hierárquico multiagente que serve como uma linha de base forte para a construção de esboços, recuperação de imagens, geração de gráficos com fontes rastreáveis e composição de relatórios por meio de escrita sequencial consciente do contexto. Desenvolvemos ainda um framework de avaliação de dupla via que combina Avaliação Textual e Avaliação Visual. Experimentos em nove sistemas de pesquisa profunda mostram que o TVIR-Agent alcança um desempenho geral robusto, ressaltando a importância do design multimodal explícito e da avaliação para a geração de relatórios baseada em evidências.
English
Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.