ChatPaper.aiChatPaper

Explique Antes de Responder: Uma Pesquisa sobre Raciocínio Visual Composicional

Explain Before You Answer: A Survey on Compositional Visual Reasoning

August 24, 2025
Autores: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI

Resumo

O raciocínio visual composicional emergiu como uma fronteira-chave de pesquisa na IA multimodal, visando dotar as máquinas da capacidade semelhante à humana de decompor cenas visuais, fundamentar conceitos intermediários e realizar inferências lógicas de múltiplos passos. Enquanto os primeiros estudos se concentram em modelos monolíticos de visão e linguagem ou no raciocínio multimodal geral, ainda falta uma síntese dedicada da literatura em rápida expansão sobre raciocínio visual composicional. Preenchemos essa lacuna com um estudo abrangente que abrange de 2023 a 2025, revisando sistematicamente mais de 260 artigos de principais conferências (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). Primeiro, formalizamos definições centrais e descrevemos por que as abordagens composicionais oferecem vantagens em alinhamento cognitivo, fidelidade semântica, robustez, interpretabilidade e eficiência de dados. Em seguida, traçamos uma mudança de paradigma em cinco estágios: desde pipelines centrados em linguagem aprimorados por prompts, passando por LLMs e VLMs aprimorados por ferramentas, até o recente raciocínio em cadeia de pensamento e VLMs agentes unificados, destacando seus designs arquitetônicos, pontos fortes e limitações. Depois, catalogamos mais de 60 benchmarks e métricas correspondentes que investigam o raciocínio visual composicional em dimensões como precisão de fundamentação, fidelidade da cadeia de pensamento e percepção de alta resolução. Com base nessas análises, destilamos insights-chave, identificamos desafios em aberto (por exemplo, limitações do raciocínio baseado em LLMs, alucinação, viés em direção ao raciocínio dedutivo, supervisão escalável, integração de ferramentas e limitações dos benchmarks) e delineamos direções futuras, incluindo integração de modelos de mundo, raciocínio colaborativo humano-IA e protocolos de avaliação mais ricos. Ao oferecer uma taxonomia unificada, um roteiro histórico e uma perspectiva crítica, este estudo visa servir como uma referência fundamental e inspirar a próxima geração de pesquisas em raciocínio visual composicional.
English
Compositional visual reasoning has emerged as a key research frontier in multimodal AI, aiming to endow machines with the human-like ability to decompose visual scenes, ground intermediate concepts, and perform multi-step logical inference. While early surveys focus on monolithic vision-language models or general multimodal reasoning, a dedicated synthesis of the rapidly expanding compositional visual reasoning literature is still missing. We fill this gap with a comprehensive survey spanning 2023 to 2025 that systematically reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We first formalize core definitions and describe why compositional approaches offer advantages in cognitive alignment, semantic fidelity, robustness, interpretability, and data efficiency. Next, we trace a five-stage paradigm shift: from prompt-enhanced language-centric pipelines, through tool-enhanced LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and unified agentic VLMs, highlighting their architectural designs, strengths, and limitations. We then catalog 60+ benchmarks and corresponding metrics that probe compositional visual reasoning along dimensions such as grounding accuracy, chain-of-thought faithfulness, and high-resolution perception. Drawing on these analyses, we distill key insights, identify open challenges (e.g., limitations of LLM-based reasoning, hallucination, a bias toward deductive reasoning, scalable supervision, tool integration, and benchmark limitations), and outline future directions, including world-model integration, human-AI collaborative reasoning, and richer evaluation protocols. By offering a unified taxonomy, historical roadmap, and critical outlook, this survey aims to serve as a foundational reference and inspire the next generation of compositional visual reasoning research.
PDF42August 26, 2025