TVIR: Создание глубоких исследовательских агентов для генерации текстово-визуальных перемежающихся отчетов

Аннотация

Агенты глубокого исследования продемонстрировали высокую эффективность в многоэтапном поиске информации, рассуждении и генерации объемных отчетов, однако существующие эталонные тесты и системы остаются преимущественно текстоцентричными, с ограниченной оценкой достоверности визуальных элементов и их согласованности с окружающим анализом. Для устранения этого пробела мы представляем TVIR (Text–Visual Interleaved Report Generation — генерация отчетов с чередованием текстовых и визуальных компонентов), включающий TVIR-Bench — эталон из 100 тщательно отобранных экспертами мультимодальных задач глубокого исследования, требующих использования визуальных элементов для достижения конкретных аналитических подцелей, и TVIR-Agent — иерархическую мультиагентную структуру, служащую сильным базовым подходом для составления планов, извлечения изображений, создания диаграмм с прослеживаемыми источниками и написания отчетов с учетом контекста. Мы также разработали двухканальную систему оценки, объединяющую текстовую и визуальную оценки. Эксперименты с девятью системами глубокого исследования показывают, что TVIR-Agent достигает высоких общих результатов, подчеркивая важность явного мультимодального проектирования и оценки для формирования отчетов на основе фактов.

English

Deep Research Agents have shown strong capability in multi-step information retrieval, reasoning, and long-form report generation, but existing benchmarks and systems remain predominantly text-centric, with limited evaluation of whether visual elements are factually reliable and well aligned with the surrounding analysis. To address this gap, we introduce TVIR (Text--Visual Interleaved Report Generation), which includes TVIR-Bench, a benchmark of 100 expert-curated multimodal deep research tasks that require visual elements to serve specific analytical sub-goals, and TVIR-Agent, a hierarchical multi-agent framework that serves as a strong baseline for constructing outlines, retrieving images, generating charts with traceable sources, and composing reports through context-aware sequential writing. We further develop a dual-path evaluation framework that combines Textual Assessment and Visual Assessment. Experiments across nine deep research systems show that TVIR-Agent achieves strong overall performance, underscoring the importance of explicit multimodal design and evaluation for evidence-driven report generation.