ChatPaper.aiChatPaper

Multimodal DeepResearcher: Generación de Informes Intercalados de Texto y Gráficos desde Cero con un Marco Agéntico

Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

June 3, 2025
Autores: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI

Resumen

Las visualizaciones juegan un papel crucial en la comunicación efectiva de conceptos e información. Los avances recientes en razonamiento y generación aumentada por recuperación han permitido que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) realicen investigaciones profundas y generen informes exhaustivos. A pesar de su progreso, los marcos de investigación profunda existentes se centran principalmente en la generación de contenido exclusivamente textual, dejando la generación automatizada de textos y visualizaciones intercaladas poco explorada. Esta nueva tarea plantea desafíos clave en el diseño de visualizaciones informativas y su integración efectiva con informes textuales. Para abordar estos desafíos, proponemos la Descripción Formal de Visualización (FDV, por sus siglas en inglés), una representación textual estructurada de gráficos que permite a los LLMs aprender y generar visualizaciones diversas y de alta calidad. Basándonos en esta representación, presentamos Multimodal DeepResearcher, un marco agéntico que descompone la tarea en cuatro etapas: (1) investigación, (2) textualización de informes ejemplares, (3) planificación y (4) generación de informes multimodales. Para la evaluación de los informes multimodales generados, desarrollamos MultimodalReportBench, que contiene 100 temas diversos como entradas junto con 5 métricas dedicadas. Experimentos extensos en modelos y métodos de evaluación demuestran la efectividad de Multimodal DeepResearcher. Notablemente, utilizando el mismo modelo Claude 3.7 Sonnet, Multimodal DeepResearcher logra una tasa de victoria general del 82\% sobre el método de referencia.
English
Visualizations play a crucial part in effective communication of concepts and information. Recent advances in reasoning and retrieval augmented generation have enabled Large Language Models (LLMs) to perform deep research and generate comprehensive reports. Despite its progress, existing deep research frameworks primarily focus on generating text-only content, leaving the automated generation of interleaved texts and visualizations underexplored. This novel task poses key challenges in designing informative visualizations and effectively integrating them with text reports. To address these challenges, we propose Formal Description of Visualization (FDV), a structured textual representation of charts that enables LLMs to learn from and generate diverse, high-quality visualizations. Building on this representation, we introduce Multimodal DeepResearcher, an agentic framework that decomposes the task into four stages: (1) researching, (2) exemplar report textualization, (3) planning, and (4) multimodal report generation. For the evaluation of generated multimodal reports, we develop MultimodalReportBench, which contains 100 diverse topics served as inputs along with 5 dedicated metrics. Extensive experiments across models and evaluation methods demonstrate the effectiveness of Multimodal DeepResearcher. Notably, utilizing the same Claude 3.7 Sonnet model, Multimodal DeepResearcher achieves an 82\% overall win rate over the baseline method.
PDF32June 4, 2025