TVIR : Construire des agents de recherche approfondie pour la génération de rapports entrelaçant texte et visuel

Résumé

Les agents de recherche approfondie ont démontré une forte capacité dans la récupération d'informations en plusieurs étapes, le raisonnement et la génération de rapports longs, mais les références et systèmes existants restent principalement centrés sur le texte, avec une évaluation limitée de la fiabilité factuelle des éléments visuels et de leur alignement avec l'analyse environnante. Pour combler cette lacune, nous introduisons TVIR (Text–Visual Interleaved Report Generation), qui comprend TVIR-Bench, une référence de 100 tâches de recherche approfondie multimodales organisées par des experts, exigeant que les éléments visuels servent des sous-objectifs analytiques spécifiques, et TVIR-Agent, un cadre multi-agent hiérarchique servant de base solide pour construire des plans, récupérer des images, générer des graphiques avec des sources traçables et composer des rapports par une écriture séquentielle sensible au contexte. Nous développons en outre un cadre d'évaluation à double voie combinant l'évaluation textuelle et l'évaluation visuelle. Les expériences menées sur neuf systèmes de recherche approfondie montrent que TVIR-Agent atteint une performance globale solide, soulignant l'importance d'une conception et d'une évaluation multimodales explicites pour la génération de rapports fondés sur des preuves.

English

Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.