Explicar Antes de Responder: Una Encuesta sobre Razonamiento Visual Composicional
Explain Before You Answer: A Survey on Compositional Visual Reasoning
August 24, 2025
Autores: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI
Resumen
El razonamiento visual composicional ha surgido como una frontera clave de investigación en la IA multimodal, con el objetivo de dotar a las máquinas de la capacidad humana para descomponer escenas visuales, fundamentar conceptos intermedios y realizar inferencias lógicas de múltiples pasos. Mientras que las primeras revisiones se centran en modelos monolíticos de visión y lenguaje o en el razonamiento multimodal general, aún falta una síntesis dedicada de la literatura en rápida expansión sobre el razonamiento visual composicional. Llenamos este vacío con una revisión exhaustiva que abarca de 2023 a 2025 y que revisa sistemáticamente más de 260 artículos de los principales eventos (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). Primero formalizamos las definiciones centrales y describimos por qué los enfoques composicionales ofrecen ventajas en alineación cognitiva, fidelidad semántica, robustez, interpretabilidad y eficiencia de datos. A continuación, trazamos un cambio de paradigma en cinco etapas: desde pipelines centrados en el lenguaje mejorados con indicaciones, pasando por LLMs mejorados con herramientas y VLMs mejorados con herramientas, hasta el razonamiento de cadena de pensamiento recientemente acuñado y los VLMs agentes unificados, destacando sus diseños arquitectónicos, fortalezas y limitaciones. Luego, catalogamos más de 60 benchmarks y las métricas correspondientes que exploran el razonamiento visual composicional en dimensiones como la precisión de fundamentación, la fidelidad de la cadena de pensamiento y la percepción de alta resolución. Basándonos en estos análisis, destilamos ideas clave, identificamos desafíos abiertos (por ejemplo, limitaciones del razonamiento basado en LLM, alucinaciones, un sesgo hacia el razonamiento deductivo, supervisión escalable, integración de herramientas y limitaciones de los benchmarks) y esbozamos direcciones futuras, incluyendo la integración de modelos del mundo, el razonamiento colaborativo humano-IA y protocolos de evaluación más ricos. Al ofrecer una taxonomía unificada, una hoja de ruta histórica y una perspectiva crítica, esta revisión pretende servir como una referencia fundamental e inspirar la próxima generación de investigación en razonamiento visual composicional.
English
Compositional visual reasoning has emerged as a key research frontier in
multimodal AI, aiming to endow machines with the human-like ability to
decompose visual scenes, ground intermediate concepts, and perform multi-step
logical inference. While early surveys focus on monolithic vision-language
models or general multimodal reasoning, a dedicated synthesis of the rapidly
expanding compositional visual reasoning literature is still missing. We fill
this gap with a comprehensive survey spanning 2023 to 2025 that systematically
reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We
first formalize core definitions and describe why compositional approaches
offer advantages in cognitive alignment, semantic fidelity, robustness,
interpretability, and data efficiency. Next, we trace a five-stage paradigm
shift: from prompt-enhanced language-centric pipelines, through tool-enhanced
LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and
unified agentic VLMs, highlighting their architectural designs, strengths, and
limitations. We then catalog 60+ benchmarks and corresponding metrics that
probe compositional visual reasoning along dimensions such as grounding
accuracy, chain-of-thought faithfulness, and high-resolution perception.
Drawing on these analyses, we distill key insights, identify open challenges
(e.g., limitations of LLM-based reasoning, hallucination, a bias toward
deductive reasoning, scalable supervision, tool integration, and benchmark
limitations), and outline future directions, including world-model integration,
human-AI collaborative reasoning, and richer evaluation protocols. By offering
a unified taxonomy, historical roadmap, and critical outlook, this survey aims
to serve as a foundational reference and inspire the next generation of
compositional visual reasoning research.