ChatPaper.aiChatPaper

Multimodal DeepResearcher: Het genereren van tekst-grafiek verweven rapporten Vanaf nul met een agentisch raamwerk

Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

June 3, 2025
Auteurs: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI

Samenvatting

Visualisaties spelen een cruciale rol in de effectieve communicatie van concepten en informatie. Recente vooruitgang in redeneren en retrieval-augmented generation heeft Large Language Models (LLMs) in staat gesteld om diepgaand onderzoek uit te voeren en uitgebreide rapporten te genereren. Ondanks deze vooruitgang richten bestaande frameworks voor diepgaand onderzoek zich voornamelijk op het genereren van alleen tekstuele inhoud, waardoor de geautomatiseerde generatie van gecombineerde teksten en visualisaties onderbelicht blijft. Deze nieuwe taak brengt belangrijke uitdagingen met zich mee bij het ontwerpen van informatieve visualisaties en het effectief integreren ervan met tekstrapporten. Om deze uitdagingen aan te pakken, stellen we Formal Description of Visualization (FDV) voor, een gestructureerde tekstuele representatie van grafieken die LLMs in staat stelt om te leren van en diverse, hoogwaardige visualisaties te genereren. Op basis van deze representatie introduceren we Multimodal DeepResearcher, een agentisch framework dat de taak opdeelt in vier fasen: (1) onderzoeken, (2) exemplarisch rapporteren, (3) plannen, en (4) multimodale rapportgeneratie. Voor de evaluatie van gegenereerde multimodale rapporten ontwikkelen we MultimodalReportBench, dat 100 diverse onderwerpen bevat die als input dienen, samen met 5 toegewijde metrieken. Uitgebreide experimenten over verschillende modellen en evaluatiemethoden tonen de effectiviteit van Multimodal DeepResearcher aan. Opmerkelijk is dat, met gebruik van hetzelfde Claude 3.7 Sonnet-model, Multimodal DeepResearcher een algehele winstpercentage van 82\% behaalt ten opzichte van de baseline-methode.
English
Visualizations play a crucial part in effective communication of concepts and information. Recent advances in reasoning and retrieval augmented generation have enabled Large Language Models (LLMs) to perform deep research and generate comprehensive reports. Despite its progress, existing deep research frameworks primarily focus on generating text-only content, leaving the automated generation of interleaved texts and visualizations underexplored. This novel task poses key challenges in designing informative visualizations and effectively integrating them with text reports. To address these challenges, we propose Formal Description of Visualization (FDV), a structured textual representation of charts that enables LLMs to learn from and generate diverse, high-quality visualizations. Building on this representation, we introduce Multimodal DeepResearcher, an agentic framework that decomposes the task into four stages: (1) researching, (2) exemplar report textualization, (3) planning, and (4) multimodal report generation. For the evaluation of generated multimodal reports, we develop MultimodalReportBench, which contains 100 diverse topics served as inputs along with 5 dedicated metrics. Extensive experiments across models and evaluation methods demonstrate the effectiveness of Multimodal DeepResearcher. Notably, utilizing the same Claude 3.7 Sonnet model, Multimodal DeepResearcher achieves an 82\% overall win rate over the baseline method.
PDF52June 4, 2025