ExoViP: Verifica ed Esplorazione Passo-passo con Moduli Exoskeleton per il Ragionamento Visivo Composizionale

Abstract

I metodi di ragionamento visivo composizionale, che traducono una query complessa in una struttura composita di compiti visivi fattibili, hanno dimostrato un forte potenziale in compiti multimodali complessi. Grazie ai recenti progressi nei modelli linguistici di grandi dimensioni (LLM), questa sfida multimodale è stata portata a un nuovo livello trattando gli LLM come pianificatori few-shot/zero-shot, ovvero programmazione visione-linguaggio (VL). Tali metodi, nonostante i loro numerosi pregi, affrontano sfide dovute a errori di pianificazione degli LLM o all'inesattezza dei moduli di esecuzione visiva, rimanendo indietro rispetto ai modelli non composizionali. In questo lavoro, proponiamo un metodo "plug-and-play", ExoViP, per correggere gli errori sia nella fase di pianificazione che in quella di esecuzione attraverso una verifica introspettiva. Utilizziamo moduli di verifica come "esoscheletri" per migliorare gli attuali schemi di programmazione VL. Nello specifico, il nostro modulo di verifica proposto utilizza una combinazione di tre sotto-verificatori per convalidare le previsioni dopo ogni passo di ragionamento, calibrando successivamente le previsioni del modulo visivo e affinando la traccia di ragionamento pianificata dagli LLM. I risultati sperimentali su due metodi rappresentativi di programmazione VL mostrano miglioramenti consistenti in cinque compiti di ragionamento composizionale su benchmark standard. Alla luce di ciò, riteniamo che ExoViP possa favorire prestazioni e generalizzazione migliori nelle sfide multimodali in dominio aperto.

English

Compositional visual reasoning methods, which translate a complex query into a structured composition of feasible visual tasks, have exhibited a strong potential in complicated multi-modal tasks. Empowered by recent advances in large language models (LLMs), this multi-modal challenge has been brought to a new stage by treating LLMs as few-shot/zero-shot planners, i.e., vision-language (VL) programming. Such methods, despite their numerous merits, suffer from challenges due to LLM planning mistakes or inaccuracy of visual execution modules, lagging behind the non-compositional models. In this work, we devise a "plug-and-play" method, ExoViP, to correct errors in both the planning and execution stages through introspective verification. We employ verification modules as "exoskeletons" to enhance current VL programming schemes. Specifically, our proposed verification module utilizes a mixture of three sub-verifiers to validate predictions after each reasoning step, subsequently calibrating the visual module predictions and refining the reasoning trace planned by LLMs. Experimental results on two representative VL programming methods showcase consistent improvements on five compositional reasoning tasks on standard benchmarks. In light of this, we believe that ExoViP can foster better performance and generalization on open-domain multi-modal challenges.

ExoViP: Verifica ed Esplorazione Passo-passo con Moduli Exoskeleton per il Ragionamento Visivo Composizionale

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

Abstract

Support