검증 가능한 다중 모드 심층 연구를 향하여: 인터리브 보고서 생성을 위한 다중 에이전트 체계
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
May 28, 2026
저자: Chenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou
cs.AI
초록
대규모 언어 모델(LLM)은 간결한 사실적 답변을 검색하는 심층 검색에서 분산된 증거를 종합하여 장문의 보고서를 생성하는 심층 연구로 자율 에이전트를 발전시켰습니다. 그러나 결정론적 정답이 없는 개방형 종합과 텍스트 주장과 시각적 증거를 교차 배치해야 하는 필요성으로 인해 검증 가능한 다중 모달 심층 연구는 여전히 어려운 과제입니다. 우리는 교차 배치된 보고서 생성을 위한 다중 에이전트 하네스인 Ptah를 제안합니다. Ptah는 계획, 연구 및 작성 단계를 통해 사용자 질의에서 렌더링된 웹 보고서까지의 수명 주기를 조정하며, 여기서 특수 에이전트는 시각 인식 계획을 구성하고, 주장에 근거한 증거를 수집하며, 시각 작업 기억(Visual Working Memory)에 소스 정렬 이미지를 유지하고, 선언적 다중 모달 도구 사용을 통해 보고서를 작성합니다. 검증 에이전트는 하네스의 수용 함수 역할을 하여 전체 워크플로 전반에 걸쳐 사실적 근거, 인용 충실도 및 교차 모달 일관성을 강화합니다. 또한 기존 벤치마크에 이미지 수준 및 프레젠테이션 수준 평가를 추가하는 평가 프로토콜인 PtahEval을 소개합니다. 심층 연구 벤치마크에 대한 실험 결과, Ptah는 강력한 기준 모델보다 더 신뢰할 수 있고 시각적으로 유용하며 사용자 친화적인 다중 모달 보고서를 생성함을 보여줍니다.
English
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose Ptah, a multi-agent harness for interleaved report generation. Ptah orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a Visual Working Memory, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce PtahEval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that Ptah produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines.