Vers une recherche approfondie multimodale vérifiable : Une infrastructure multi-agent pour la génération entrelacée de rapports

Résumé

Les grands modèles de langage (LLMs) ont fait évoluer les agents autonomes du deep search, qui récupère des réponses factuelles concises, au deep research, qui synthétise des preuves éparses en rapports longs. Cependant, le deep research multimodal vérifiable reste difficile en raison de la synthèse ouverte sans vérité terrain déterministe et de la nécessité d'entrelacer des arguments textuels avec des preuves visuelles. Nous proposons Ptah, un harnais multi-agents pour la génération de rapports entrelacés. Ptah orchestre le cycle de vie depuis la requête utilisateur jusqu'au rapport web rendu à travers les étapes de planification, de recherche et de rédaction, où des agents spécialisés construisent des plans tenant compte des visuels, collectent des preuves fondées sur les affirmations, maintiennent des images alignées sur les sources dans une mémoire de travail visuelle (Visual Working Memory), et composent des rapports via l'utilisation déclarative d'outils multimodaux. Un agent vérificateur sert de fonction d'acceptation du harnais, garantissant l'ancrage factuel, la fidélité des citations et la cohérence intermodale tout au long du flux de travail. Nous introduisons en outre PtahEval, un protocole d'évaluation qui enrichit les benchmarks existants avec des évaluations au niveau des images et au niveau de la présentation. Les expériences sur les benchmarks de deep research montrent que Ptah produit des rapports multimodaux destinés aux humains plus fiables, plus informatifs visuellement et plus utilisables que les bases de référence fortes.

English

Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose Ptah, a multi-agent harness for interleaved report generation. Ptah orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a Visual Working Memory, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce PtahEval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that Ptah produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines.