Spiega Prima di Rispondere: Un'Indagine sul Ragionamento Visivo Composizionale
Explain Before You Answer: A Survey on Compositional Visual Reasoning
August 24, 2025
Autori: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI
Abstract
Il ragionamento visivo compositivo è emerso come una frontiera chiave della ricerca nell'IA multimodale, con l'obiettivo di dotare le macchine della capacità umana di scomporre scene visive, ancorare concetti intermedi ed eseguire inferenze logiche multi-step. Mentre le prime rassegne si concentrano su modelli monolotici visione-linguaggio o sul ragionamento multimodale generale, manca ancora una sintesi dedicata della letteratura in rapida espansione sul ragionamento visivo compositivo. Colmiamo questa lacuna con una rassegna completa che copre il periodo dal 2023 al 2025, esaminando sistematicamente oltre 260 articoli provenienti dalle principali conferenze (CVPR, ICCV, NeurIPS, ICML, ACL, ecc.). Iniziamo formalizzando le definizioni chiave e descrivendo perché gli approcci compositivi offrono vantaggi in termini di allineamento cognitivo, fedeltà semantica, robustezza, interpretabilità ed efficienza dei dati. Successivamente, tracciamo un cambiamento paradigmatico in cinque fasi: dalle pipeline centrate sul linguaggio potenziate da prompt, passando per LLM potenziati da strumenti e VLM potenziati da strumenti, fino al recente ragionamento a catena di pensiero e ai VLM agentici unificati, evidenziandone i design architetturali, i punti di forza e le limitazioni. Cataloghiamo poi oltre 60 benchmark e le relative metriche che indagano il ragionamento visivo compositivo lungo dimensioni come l'accuratezza dell'ancoraggio, la fedeltà della catena di pensiero e la percezione ad alta risoluzione. Basandoci su queste analisi, distilliamo intuizioni chiave, identifichiamo sfide aperte (ad esempio, limitazioni del ragionamento basato su LLM, allucinazioni, un bias verso il ragionamento deduttivo, supervisione scalabile, integrazione di strumenti e limitazioni dei benchmark) e delineamo direzioni future, tra cui l'integrazione di modelli del mondo, il ragionamento collaborativo uomo-IA e protocolli di valutazione più ricchi. Offrendo una tassonomia unificata, una roadmap storica e una prospettiva critica, questa rassegna mira a servire come riferimento fondazionale e a ispirare la prossima generazione di ricerca sul ragionamento visivo compositivo.
English
Compositional visual reasoning has emerged as a key research frontier in
multimodal AI, aiming to endow machines with the human-like ability to
decompose visual scenes, ground intermediate concepts, and perform multi-step
logical inference. While early surveys focus on monolithic vision-language
models or general multimodal reasoning, a dedicated synthesis of the rapidly
expanding compositional visual reasoning literature is still missing. We fill
this gap with a comprehensive survey spanning 2023 to 2025 that systematically
reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We
first formalize core definitions and describe why compositional approaches
offer advantages in cognitive alignment, semantic fidelity, robustness,
interpretability, and data efficiency. Next, we trace a five-stage paradigm
shift: from prompt-enhanced language-centric pipelines, through tool-enhanced
LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and
unified agentic VLMs, highlighting their architectural designs, strengths, and
limitations. We then catalog 60+ benchmarks and corresponding metrics that
probe compositional visual reasoning along dimensions such as grounding
accuracy, chain-of-thought faithfulness, and high-resolution perception.
Drawing on these analyses, we distill key insights, identify open challenges
(e.g., limitations of LLM-based reasoning, hallucination, a bias toward
deductive reasoning, scalable supervision, tool integration, and benchmark
limitations), and outline future directions, including world-model integration,
human-AI collaborative reasoning, and richer evaluation protocols. By offering
a unified taxonomy, historical roadmap, and critical outlook, this survey aims
to serve as a foundational reference and inspire the next generation of
compositional visual reasoning research.