ExoViP: Stapsgewijze Verificatie en Exploratie met Exoskeletmodules voor Compositioneel Visueel Redeneren
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
August 5, 2024
Auteurs: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI
Samenvatting
Compositionele visuele redeneermethoden, die een complexe vraag vertalen naar een gestructureerde samenstelling van uitvoerbare visuele taken, hebben een sterk potentieel getoond in ingewikkelde multimodale taken. Dankzij recente vooruitgang in grote taalmodellen (LLM's) is deze multimodale uitdaging naar een nieuw niveau gebracht door LLM's te behandelen als few-shot/zero-shot planners, oftewel vision-language (VL) programmering. Hoewel dergelijke methoden talrijke voordelen bieden, kampen ze met uitdagingen door fouten in de planning van LLM's of onnauwkeurigheid van visuele uitvoeringsmodules, waardoor ze achterblijven bij niet-compositionele modellen. In dit werk ontwikkelen we een "plug-and-play"-methode, ExoViP, om fouten in zowel de plannings- als uitvoeringsfasen te corrigeren via introspectieve verificatie. We gebruiken verificatiemodules als "exoskeletten" om bestaande VL-programmeringsschema's te versterken. Specifiek maakt onze voorgestelde verificatiemodule gebruik van een mix van drie sub-verifiers om voorspellingen na elke redeneerstap te valideren, waarna de voorspellingen van de visuele module worden gekalibreerd en de door LLM's geplande redeneerspoor wordt verfijnd. Experimentele resultaten op twee representatieve VL-programmeringsmethoden laten consistente verbeteringen zien op vijf compositionele redeneertaken op standaard benchmarks. Gezien dit geloven we dat ExoViP betere prestaties en generalisatie kan bevorderen op open-domein multimodale uitdagingen.
English
Compositional visual reasoning methods, which translate a complex query into
a structured composition of feasible visual tasks, have exhibited a strong
potential in complicated multi-modal tasks. Empowered by recent advances in
large language models (LLMs), this multi-modal challenge has been brought to a
new stage by treating LLMs as few-shot/zero-shot planners, i.e.,
vision-language (VL) programming. Such methods, despite their numerous merits,
suffer from challenges due to LLM planning mistakes or inaccuracy of visual
execution modules, lagging behind the non-compositional models. In this work,
we devise a "plug-and-play" method, ExoViP, to correct errors in both the
planning and execution stages through introspective verification. We employ
verification modules as "exoskeletons" to enhance current VL programming
schemes. Specifically, our proposed verification module utilizes a mixture of
three sub-verifiers to validate predictions after each reasoning step,
subsequently calibrating the visual module predictions and refining the
reasoning trace planned by LLMs. Experimental results on two representative VL
programming methods showcase consistent improvements on five compositional
reasoning tasks on standard benchmarks. In light of this, we believe that
ExoViP can foster better performance and generalization on open-domain
multi-modal challenges.