ExoViP : Vérification et exploration pas à pas avec des modules d'exosquelette pour le raisonnement visuel compositionnel
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
August 5, 2024
Auteurs: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI
Résumé
Les méthodes de raisonnement visuel compositionnel, qui traduisent une requête complexe en une composition structurée de tâches visuelles réalisables, ont démontré un fort potentiel dans les tâches multimodales complexes. Grâce aux récents progrès des grands modèles de langage (LLMs), ce défi multimodal a atteint un nouveau stade en utilisant les LLMs comme planificateurs en few-shot/zero-shot, c'est-à-dire en programmation vision-langage (VL). Bien que ces méthodes présentent de nombreux avantages, elles sont confrontées à des défis liés aux erreurs de planification des LLMs ou à l'imprécision des modules d'exécution visuelle, les laissant à la traîne des modèles non compositionnels. Dans ce travail, nous concevons une méthode "plug-and-play", ExoViP, pour corriger les erreurs à la fois lors des étapes de planification et d'exécution grâce à une vérification introspective. Nous utilisons des modules de vérification comme des "exosquelettes" pour améliorer les schémas actuels de programmation VL. Plus précisément, notre module de vérification proposé utilise un mélange de trois sous-vérificateurs pour valider les prédictions après chaque étape de raisonnement, calibrant ainsi les prédictions du module visuel et affinant la trace de raisonnement planifiée par les LLMs. Les résultats expérimentaux sur deux méthodes représentatives de programmation VL montrent des améliorations constantes sur cinq tâches de raisonnement compositionnel sur des benchmarks standards. À la lumière de ces résultats, nous croyons qu'ExoViP peut favoriser de meilleures performances et une meilleure généralisation sur les défis multimodaux en domaine ouvert.
English
Compositional visual reasoning methods, which translate a complex query into
a structured composition of feasible visual tasks, have exhibited a strong
potential in complicated multi-modal tasks. Empowered by recent advances in
large language models (LLMs), this multi-modal challenge has been brought to a
new stage by treating LLMs as few-shot/zero-shot planners, i.e.,
vision-language (VL) programming. Such methods, despite their numerous merits,
suffer from challenges due to LLM planning mistakes or inaccuracy of visual
execution modules, lagging behind the non-compositional models. In this work,
we devise a "plug-and-play" method, ExoViP, to correct errors in both the
planning and execution stages through introspective verification. We employ
verification modules as "exoskeletons" to enhance current VL programming
schemes. Specifically, our proposed verification module utilizes a mixture of
three sub-verifiers to validate predictions after each reasoning step,
subsequently calibrating the visual module predictions and refining the
reasoning trace planned by LLMs. Experimental results on two representative VL
programming methods showcase consistent improvements on five compositional
reasoning tasks on standard benchmarks. In light of this, we believe that
ExoViP can foster better performance and generalization on open-domain
multi-modal challenges.Summary
AI-Generated Summary