検証可能なマルチモーダルディープリサーチに向けて:インターリーブ型レポート生成のためのマルチエージェントハーネス
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
May 28, 2026
著者: Chenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou
cs.AI
要旨
大規模言語モデル(LLM)は、自律エージェントを、簡潔な事実回答を取得する深層検索から、散在する証拠を統合して長文レポートを生成する深層研究へと進化させてきました。しかしながら、検証可能なマルチモーダル深層研究は、決定論的な真値が存在しない開かれた合成と、テキストによる議論と視覚的証拠を交互に配置する必要性から、依然として困難です。我々は、インタリーブされたレポート生成のためのマルチエージェントハーネスであるPtahを提案します。Ptahは、ユーザークエリからレンダリングされたWebレポートに至るライフサイクルを、計画、調査、作成の各段階を通じて調整します。ここでは、専門エージェントが視覚を考慮した計画を作成し、主張に基づく証拠を収集し、ソースと整合した画像を視覚的ワーキングメモリ(Visual Working Memory)に保持し、宣言的なマルチモーダルツールの使用を通じてレポートを作成します。検証エージェントはハーネスの受理関数として機能し、ワークフロー全体を通じて事実の根拠付け、引用の忠実性、クロスモーダルな一貫性を強制します。さらに、既存のベンチマークに画像レベルおよびプレゼンテーションレベルの評価を追加する評価プロトコルであるPtahEvalを導入します。深層研究ベンチマークを用いた実験により、Ptahが強力なベースライン手法よりも信頼性が高く、視覚的に情報量が豊かで、ユーザーにとって使いやすいマルチモーダルレポートを生成することが示されました。
English
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose Ptah, a multi-agent harness for interleaved report generation. Ptah orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a Visual Working Memory, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce PtahEval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that Ptah produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines.