К верифицируемым мультимодальным глубоким исследованиям: многоагентный инструментарий для генерации чередующихся отчетов

Аннотация

Большие языковые модели (LLM) продвинули автономные агенты от глубокого поиска, который извлекает краткие фактические ответы, к глубокому исследованию, которое синтезирует разрозненные свидетельства в длинные отчеты. Однако проверяемое мультимодальное глубокое исследование остается сложной задачей из-за открытого синтеза без детерминированной истины и необходимости чередовать текстовые аргументы с визуальными свидетельствами. Мы предлагаем Ptah, мультиагентную платформу для создания перемежающихся отчетов. Ptah координирует жизненный цикл от запроса пользователя до сформированного веб-отчета через этапы планирования, исследования и написания, где специализированные агенты строят планы с учетом визуальной информации, собирают обоснованные свидетельства, поддерживают выровненные по источникам изображения в Визуальной рабочей памяти и составляют отчеты с помощью декларативного использования мультимодальных инструментов. Агент-верификатор служит функцией приемки платформы, обеспечивая фактическую обоснованность, достоверность цитирования и кроссмодальную согласованность на протяжении всего рабочего процесса. Мы также представляем PtahEval, протокол оценки, который дополняет существующие бенчмарки оценками на уровне изображений и презентаций. Эксперименты на бенчмарках глубокого исследования показывают, что Ptah создает более надежные, визуально информативные и удобные для пользователя мультимодальные отчеты по сравнению с сильными базовыми методами.

English

Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose Ptah, a multi-agent harness for interleaved report generation. Ptah orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a Visual Working Memory, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce PtahEval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that Ptah produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines.