ExoViP : Vérification et exploration pas à pas avec des modules d'exosquelette pour le raisonnement visuel compositionnel

papers.abstract

Les méthodes de raisonnement visuel compositionnel, qui traduisent une requête complexe en une composition structurée de tâches visuelles réalisables, ont démontré un fort potentiel dans les tâches multimodales complexes. Grâce aux récents progrès des grands modèles de langage (LLMs), ce défi multimodal a atteint un nouveau stade en utilisant les LLMs comme planificateurs en few-shot/zero-shot, c'est-à-dire en programmation vision-langage (VL). Bien que ces méthodes présentent de nombreux avantages, elles sont confrontées à des défis liés aux erreurs de planification des LLMs ou à l'imprécision des modules d'exécution visuelle, les laissant à la traîne des modèles non compositionnels. Dans ce travail, nous concevons une méthode "plug-and-play", ExoViP, pour corriger les erreurs à la fois lors des étapes de planification et d'exécution grâce à une vérification introspective. Nous utilisons des modules de vérification comme des "exosquelettes" pour améliorer les schémas actuels de programmation VL. Plus précisément, notre module de vérification proposé utilise un mélange de trois sous-vérificateurs pour valider les prédictions après chaque étape de raisonnement, calibrant ainsi les prédictions du module visuel et affinant la trace de raisonnement planifiée par les LLMs. Les résultats expérimentaux sur deux méthodes représentatives de programmation VL montrent des améliorations constantes sur cinq tâches de raisonnement compositionnel sur des benchmarks standards. À la lumière de ces résultats, nous croyons qu'ExoViP peut favoriser de meilleures performances et une meilleure généralisation sur les défis multimodaux en domaine ouvert.

English

Compositional visual reasoning methods, which translate a complex query into a structured composition of feasible visual tasks, have exhibited a strong potential in complicated multi-modal tasks. Empowered by recent advances in large language models (LLMs), this multi-modal challenge has been brought to a new stage by treating LLMs as few-shot/zero-shot planners, i.e., vision-language (VL) programming. Such methods, despite their numerous merits, suffer from challenges due to LLM planning mistakes or inaccuracy of visual execution modules, lagging behind the non-compositional models. In this work, we devise a "plug-and-play" method, ExoViP, to correct errors in both the planning and execution stages through introspective verification. We employ verification modules as "exoskeletons" to enhance current VL programming schemes. Specifically, our proposed verification module utilizes a mixture of three sub-verifiers to validate predictions after each reasoning step, subsequently calibrating the visual module predictions and refining the reasoning trace planned by LLMs. Experimental results on two representative VL programming methods showcase consistent improvements on five compositional reasoning tasks on standard benchmarks. In light of this, we believe that ExoViP can foster better performance and generalization on open-domain multi-modal challenges.

ExoViP : Vérification et exploration pas à pas avec des modules d'exosquelette pour le raisonnement visuel compositionnel

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

papers.abstract

Support