TVIR: Construindo Agentes de Pesquisa Profunda para Geração de Relatórios Intercalados Texto-Visuais

Resumo

Agentes de Pesquisa Profunda têm demonstrado forte capacidade na recuperação de informações em múltiplas etapas, no raciocínio e na geração de relatórios longos, mas os benchmarks e sistemas existentes permanecem predominantemente centrados em texto, com avaliação limitada sobre se os elementos visuais são confiáveis factualmente e bem alinhados com a análise circundante. Para preencher essa lacuna, apresentamos o TVIR (Geração de Relatórios Intercalados Texto-Visuais), que inclui o TVIR-Bench, um benchmark composto por 100 tarefas de pesquisa profunda multimodal curadas por especialistas, que exigem elementos visuais para atender a subobjetivos analíticos específicos, e o TVIR-Agent, um framework hierárquico multiagente que serve como uma linha de base forte para a construção de esboços, recuperação de imagens, geração de gráficos com fontes rastreáveis e composição de relatórios por meio de escrita sequencial consciente do contexto. Desenvolvemos ainda um framework de avaliação de dupla via que combina Avaliação Textual e Avaliação Visual. Experimentos em nove sistemas de pesquisa profunda mostram que o TVIR-Agent alcança um desempenho geral robusto, ressaltando a importância do design multimodal explícito e da avaliação para a geração de relatórios baseada em evidências.

English

Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.