説明してから回答する:構成視覚的推論に関する調査
Explain Before You Answer: A Survey on Compositional Visual Reasoning
August 24, 2025
著者: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi
cs.AI
要旨
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして浮上しており、機械に視覚シーンを分解し、中間概念をグラウンディングし、多段階の論理的推論を行う人間のような能力を付与することを目指している。初期のサーベイはモノリシックな視覚言語モデルや一般的なマルチモーダル推論に焦点を当てているが、急速に拡大する構成的視覚推論文献を網羅した専用の総説はまだ存在しない。我々は、2023年から2025年にかけてトップカンファレンス(CVPR、ICCV、NeurIPS、ICML、ACLなど)で発表された260以上の論文を体系的にレビューする包括的なサーベイを通じてこのギャップを埋める。まず、中核的な定義を形式化し、構成的アプローチが認知整合性、意味的忠実性、頑健性、解釈可能性、データ効率性において優位性を提供する理由を説明する。次に、プロンプト強化型の言語中心パイプラインから、ツール強化型LLM、ツール強化型VLMを経て、最近登場した連鎖的思考推論や統一エージェント型VLMまでの5段階のパラダイムシフトを追跡し、それらのアーキテクチャ設計、強み、限界を強調する。さらに、グラウンディング精度、連鎖的思考の忠実性、高解像度知覚などの次元に沿って構成的視覚推論を探る60以上のベンチマークと対応する指標をカタログ化する。これらの分析に基づいて、主要な洞察を抽出し、未解決の課題(例:LLMベースの推論の限界、幻覚、演繹的推論へのバイアス、スケーラブルな監督、ツール統合、ベンチマークの限界)を特定し、世界モデルの統合、人間-AI協調推論、より豊富な評価プロトコルを含む将来の方向性を概説する。統一された分類体系、歴史的ロードマップ、批判的展望を提供することで、本サーベイは基礎的なリファレンスとして機能し、次世代の構成的視覚推論研究を刺激することを目指している。
English
Compositional visual reasoning has emerged as a key research frontier in
multimodal AI, aiming to endow machines with the human-like ability to
decompose visual scenes, ground intermediate concepts, and perform multi-step
logical inference. While early surveys focus on monolithic vision-language
models or general multimodal reasoning, a dedicated synthesis of the rapidly
expanding compositional visual reasoning literature is still missing. We fill
this gap with a comprehensive survey spanning 2023 to 2025 that systematically
reviews 260+ papers from top venues (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). We
first formalize core definitions and describe why compositional approaches
offer advantages in cognitive alignment, semantic fidelity, robustness,
interpretability, and data efficiency. Next, we trace a five-stage paradigm
shift: from prompt-enhanced language-centric pipelines, through tool-enhanced
LLMs and tool-enhanced VLMs, to recently minted chain-of-thought reasoning and
unified agentic VLMs, highlighting their architectural designs, strengths, and
limitations. We then catalog 60+ benchmarks and corresponding metrics that
probe compositional visual reasoning along dimensions such as grounding
accuracy, chain-of-thought faithfulness, and high-resolution perception.
Drawing on these analyses, we distill key insights, identify open challenges
(e.g., limitations of LLM-based reasoning, hallucination, a bias toward
deductive reasoning, scalable supervision, tool integration, and benchmark
limitations), and outline future directions, including world-model integration,
human-AI collaborative reasoning, and richer evaluation protocols. By offering
a unified taxonomy, historical roadmap, and critical outlook, this survey aims
to serve as a foundational reference and inspire the next generation of
compositional visual reasoning research.