ExoViP: Verifica ed Esplorazione Passo-passo con Moduli Exoskeleton per il Ragionamento Visivo Composizionale
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
August 5, 2024
Autori: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI
Abstract
I metodi di ragionamento visivo composizionale, che traducono una query complessa in una struttura composita di compiti visivi fattibili, hanno dimostrato un forte potenziale in compiti multimodali complessi. Grazie ai recenti progressi nei modelli linguistici di grandi dimensioni (LLM), questa sfida multimodale è stata portata a un nuovo livello trattando gli LLM come pianificatori few-shot/zero-shot, ovvero programmazione visione-linguaggio (VL). Tali metodi, nonostante i loro numerosi pregi, affrontano sfide dovute a errori di pianificazione degli LLM o all'inesattezza dei moduli di esecuzione visiva, rimanendo indietro rispetto ai modelli non composizionali. In questo lavoro, proponiamo un metodo "plug-and-play", ExoViP, per correggere gli errori sia nella fase di pianificazione che in quella di esecuzione attraverso una verifica introspettiva. Utilizziamo moduli di verifica come "esoscheletri" per migliorare gli attuali schemi di programmazione VL. Nello specifico, il nostro modulo di verifica proposto utilizza una combinazione di tre sotto-verificatori per convalidare le previsioni dopo ogni passo di ragionamento, calibrando successivamente le previsioni del modulo visivo e affinando la traccia di ragionamento pianificata dagli LLM. I risultati sperimentali su due metodi rappresentativi di programmazione VL mostrano miglioramenti consistenti in cinque compiti di ragionamento composizionale su benchmark standard. Alla luce di ciò, riteniamo che ExoViP possa favorire prestazioni e generalizzazione migliori nelle sfide multimodali in dominio aperto.
English
Compositional visual reasoning methods, which translate a complex query into
a structured composition of feasible visual tasks, have exhibited a strong
potential in complicated multi-modal tasks. Empowered by recent advances in
large language models (LLMs), this multi-modal challenge has been brought to a
new stage by treating LLMs as few-shot/zero-shot planners, i.e.,
vision-language (VL) programming. Such methods, despite their numerous merits,
suffer from challenges due to LLM planning mistakes or inaccuracy of visual
execution modules, lagging behind the non-compositional models. In this work,
we devise a "plug-and-play" method, ExoViP, to correct errors in both the
planning and execution stages through introspective verification. We employ
verification modules as "exoskeletons" to enhance current VL programming
schemes. Specifically, our proposed verification module utilizes a mixture of
three sub-verifiers to validate predictions after each reasoning step,
subsequently calibrating the visual module predictions and refining the
reasoning trace planned by LLMs. Experimental results on two representative VL
programming methods showcase consistent improvements on five compositional
reasoning tasks on standard benchmarks. In light of this, we believe that
ExoViP can foster better performance and generalization on open-domain
multi-modal challenges.