Объясни перед ответом: обзор композиционного визуального анализа
Explain Before You Answer: A Survey on Compositional Visual Reasoning
August 24, 2025
Авторы: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI
Аннотация
Композиционное визуальное рассуждение стало ключевым направлением исследований в области мультимодального искусственного интеллекта, стремясь наделить машины способностью, подобной человеческой, декомпозировать визуальные сцены, закреплять промежуточные концепции и выполнять многошаговые логические выводы. В то время как ранние обзоры сосредоточены на монолитных моделях, объединяющих зрение и язык, или на общем мультимодальном рассуждении, систематический синтез быстро расширяющейся литературы по композиционному визуальному рассуждению до сих пор отсутствует. Мы заполняем этот пробел всеобъемлющим обзором, охватывающим период с 2023 по 2025 год, в котором систематически анализируется более 260 статей из ведущих конференций (CVPR, ICCV, NeurIPS, ICML, ACL и др.). Сначала мы формализуем ключевые определения и объясняем, почему композиционные подходы предлагают преимущества в когнитивном согласовании, семантической точности, устойчивости, интерпретируемости и эффективности использования данных. Затем мы прослеживаем пятиэтапный сдвиг парадигмы: от конвейеров, усиленных подсказками и ориентированных на язык, через инструментально расширенные LLM и инструментально расширенные VLM, к недавно появившимся цепочкам рассуждений (chain-of-thought) и унифицированным агентным VLM, выделяя их архитектурные решения, сильные стороны и ограничения. Далее мы каталогизируем более 60 бенчмарков и соответствующих метрик, которые исследуют композиционное визуальное рассуждение по таким аспектам, как точность закрепления, достоверность цепочек рассуждений и восприятие высокого разрешения. На основе этих анализов мы выделяем ключевые идеи, определяем открытые проблемы (например, ограничения рассуждений на основе LLM, галлюцинации, склонность к дедуктивным рассуждениям, масштабируемость надзора, интеграция инструментов и ограничения бенчмарков) и намечаем будущие направления, включая интеграцию мировых моделей, совместное рассуждение человека и ИИ и более богатые протоколы оценки. Предлагая унифицированную таксономию, историческую карту и критический взгляд, этот обзор стремится стать фундаментальным справочником и вдохновить следующее поколение исследований в области композиционного визуального рассуждения.
English
Compositional visual reasoning has emerged as a key research frontier in
multimodal AI, aiming to endow machines with the human-like ability to
decompose visual scenes, ground intermediate concepts, and perform multi-step
logical inference. While early surveys focus on monolithic vision-language
models or general multimodal reasoning, a dedicated synthesis of the rapidly
expanding compositional visual reasoning literature is still missing. We fill
this gap with a comprehensive survey spanning 2023 to 2025 that systematically
reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We
first formalize core definitions and describe why compositional approaches
offer advantages in cognitive alignment, semantic fidelity, robustness,
interpretability, and data efficiency. Next, we trace a five-stage paradigm
shift: from prompt-enhanced language-centric pipelines, through tool-enhanced
LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and
unified agentic VLMs, highlighting their architectural designs, strengths, and
limitations. We then catalog 60+ benchmarks and corresponding metrics that
probe compositional visual reasoning along dimensions such as grounding
accuracy, chain-of-thought faithfulness, and high-resolution perception.
Drawing on these analyses, we distill key insights, identify open challenges
(e.g., limitations of LLM-based reasoning, hallucination, a bias toward
deductive reasoning, scalable supervision, tool integration, and benchmark
limitations), and outline future directions, including world-model integration,
human-AI collaborative reasoning, and richer evaluation protocols. By offering
a unified taxonomy, historical roadmap, and critical outlook, this survey aims
to serve as a foundational reference and inspire the next generation of
compositional visual reasoning research.