ExoViP:外骨格モジュールを用いた段階的検証と探索による構成視覚推論
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
August 5, 2024
著者: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI
要旨
複雑なクエリを実行可能な視覚タスクの構造化された組み合わせに変換するコンポジショナル視覚推論手法は、複雑なマルチモーダルタスクにおいて強い可能性を示してきました。大規模言語モデル(LLM)の最近の進展により、このマルチモーダルの課題は、LLMを少数ショット/ゼロショットプランナー、すなわち視覚言語(VL)プログラミングとして扱うことで新たな段階に進みました。しかし、このような手法は、LLMの計画ミスや視覚実行モジュールの不正確さによる課題に直面し、非コンポジショナルモデルに遅れを取っています。本研究では、プランニングと実行の両段階でのエラーを内省的検証を通じて修正する「プラグアンドプレイ」手法、ExoViPを考案しました。我々は、検証モジュールを「外骨格」として活用し、現在のVLプログラミングスキームを強化します。具体的には、提案する検証モジュールは、3つのサブ検証器の混合を利用して各推論ステップ後の予測を検証し、視覚モジュールの予測を較正し、LLMによって計画された推論トレースを洗練します。2つの代表的なVLプログラミング手法を用いた実験結果は、標準ベンチマークにおける5つのコンポジショナル推論タスクで一貫した改善を示しています。これにより、ExoViPがオープンドメインのマルチモーダル課題において、より優れた性能と汎化を促進できると確信しています。
English
Compositional visual reasoning methods, which translate a complex query into
a structured composition of feasible visual tasks, have exhibited a strong
potential in complicated multi-modal tasks. Empowered by recent advances in
large language models (LLMs), this multi-modal challenge has been brought to a
new stage by treating LLMs as few-shot/zero-shot planners, i.e.,
vision-language (VL) programming. Such methods, despite their numerous merits,
suffer from challenges due to LLM planning mistakes or inaccuracy of visual
execution modules, lagging behind the non-compositional models. In this work,
we devise a "plug-and-play" method, ExoViP, to correct errors in both the
planning and execution stages through introspective verification. We employ
verification modules as "exoskeletons" to enhance current VL programming
schemes. Specifically, our proposed verification module utilizes a mixture of
three sub-verifiers to validate predictions after each reasoning step,
subsequently calibrating the visual module predictions and refining the
reasoning trace planned by LLMs. Experimental results on two representative VL
programming methods showcase consistent improvements on five compositional
reasoning tasks on standard benchmarks. In light of this, we believe that
ExoViP can foster better performance and generalization on open-domain
multi-modal challenges.Summary
AI-Generated Summary