ExoViP: Schrittweise Verifizierung und Exploration mit Exoskelettmodulen für kompositionales visuelles Schlussfolgern.
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
August 5, 2024
Autoren: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI
Zusammenfassung
Kompositionelle visuelle Denkmethoden, die eine komplexe Abfrage in eine strukturierte Zusammensetzung machbarer visueller Aufgaben übersetzen, haben ein starkes Potenzial bei komplizierten multimodalen Aufgaben gezeigt. Belebt durch jüngste Fortschritte in großen Sprachmodellen (LLMs) wurde diese multimodale Herausforderung durch die Behandlung von LLMs als Few-Shot/Zero-Shot-Planer, d.h. Vision-Language (VL)-Programmierung, auf eine neue Stufe gehoben. Solche Methoden leiden trotz ihrer zahlreichen Vorzüge unter Herausforderungen aufgrund von Planungsfehlern von LLMs oder Ungenauigkeiten der visuellen Ausführungsmodule und hinken den nicht-kompositionellen Modellen hinterher. In dieser Arbeit entwickeln wir eine "Plug-and-Play"-Methode, ExoViP, um Fehler sowohl in den Planungs- als auch in den Ausführungsphasen durch introspektive Überprüfung zu korrigieren. Wir verwenden Überprüfungsmodule als "Exoskelette", um aktuelle VL-Programmierschemata zu verbessern. Speziell nutzt unser vorgeschlagenes Überprüfungsmodul eine Mischung aus drei Teilüberprüfern, um Vorhersagen nach jedem Denkschritt zu validieren, anschließend die Vorhersagen des visuellen Moduls zu kalibrieren und die von LLMs geplante Denkspur zu verfeinern. Experimentelle Ergebnisse zu zwei repräsentativen VL-Programmierungsmethoden zeigen konsistente Verbesserungen bei fünf kompositionellen Denkaufgaben auf Standard-Benchmarks. In Anbetracht dessen sind wir der Überzeugung, dass ExoViP eine bessere Leistung und Verallgemeinerung bei offenen multimodalen Herausforderungen fördern kann.
English
Compositional visual reasoning methods, which translate a complex query into
a structured composition of feasible visual tasks, have exhibited a strong
potential in complicated multi-modal tasks. Empowered by recent advances in
large language models (LLMs), this multi-modal challenge has been brought to a
new stage by treating LLMs as few-shot/zero-shot planners, i.e.,
vision-language (VL) programming. Such methods, despite their numerous merits,
suffer from challenges due to LLM planning mistakes or inaccuracy of visual
execution modules, lagging behind the non-compositional models. In this work,
we devise a "plug-and-play" method, ExoViP, to correct errors in both the
planning and execution stages through introspective verification. We employ
verification modules as "exoskeletons" to enhance current VL programming
schemes. Specifically, our proposed verification module utilizes a mixture of
three sub-verifiers to validate predictions after each reasoning step,
subsequently calibrating the visual module predictions and refining the
reasoning trace planned by LLMs. Experimental results on two representative VL
programming methods showcase consistent improvements on five compositional
reasoning tasks on standard benchmarks. In light of this, we believe that
ExoViP can foster better performance and generalization on open-domain
multi-modal challenges.Summary
AI-Generated Summary