MMDeepResearch-Bench: Un Benchmark per Agenti di Ricerca Profonda Multimodali

Abstract

Gli Agenti di Ricerca Approfondita (DRA) generano report ricchi di citazioni attraverso processi di ricerca e sintesi multi-step. Tuttavia, i benchmark esistenti si concentrano principalmente su contesti puramente testuali o su domande-risposte multimodali di breve formato, tralasciando la valutazione end-to-end dell'uso di evidenze multimodali. Presentiamo MMDeepResearch-Bench (MMDR-Bench), un benchmark composto da 140 task creati da esperti in 21 domini, in cui ogni task fornisce un bundle immagine-testo per valutare la comprensione multimodale e la generazione di report ancorati a citazioni. Rispetto alle impostazioni precedenti, MMDR-Bench enfatizza la sintesi in stile report con un uso esplicito delle evidenze, richiedendo ai modelli di collegare gli artefatti visivi alle affermazioni citate e di mantenere la coerenza tra narrazione, citazioni e riferimenti visivi. Proponiamo inoltre una pipeline di valutazione unificata e interpretabile: la Formula-LLM Adaptive Evaluation (FLAE) per la qualità del report, la Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) per l'allineamento delle evidenze alle citazioni, e il Multimodal Support-Aligned Integrity Check (MOSAIC) per l'integrità testo-visiva, ciascuna in grado di produrre segnali granulari che supportano la diagnosi degli errori oltre il singolo punteggio complessivo. Esperimenti condotti su 25 modelli all'avanguardia rivelano compromessi sistematici tra qualità della generazione, disciplina nelle citazioni e fondatezza multimodale, evidenziando come una prosa solida di per sé non garantisca un uso fedele delle evidenze e come l'integrità multimodale rimanga un collo di bottiglia cruciale per gli agenti di ricerca approfondita.

English

Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.