Verso un ragionamento visivo composizionale veramente zero-shot con LLM come programmatori
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
Autori: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
Abstract
Il ragionamento visivo è dominato da reti neurali end-to-end scalate a miliardi di parametri del modello e esempi di addestramento. Tuttavia, anche i modelli più grandi faticano con il ragionamento compositivo, la generalizzazione, il ragionamento spaziale e temporale fine e il conteggio. Il ragionamento visivo con modelli linguistici di grandi dimensioni (LLM) come controller può, in linea di principio, affrontare queste limitazioni scomponendo il compito e risolvendo i sottocompiti orchestrando un insieme di strumenti (visivi). Recentemente, questi modelli hanno ottenuto ottime prestazioni in compiti come il question answering visivo compositivo, il grounding visivo e il ragionamento temporale nei video. Tuttavia, nella loro forma attuale, questi modelli si basano fortemente sull'ingegnerizzazione umana di esempi in-context nel prompt, che sono spesso specifici per dataset e compiti e richiedono un lavoro significativo da parte di programmatori altamente qualificati. In questo lavoro, presentiamo un framework che mitiga questi problemi introducendo routine spazialmente e temporalmente astratte e sfruttando un piccolo numero di esempi etichettati per generare automaticamente esempi in-context, evitando così la creazione umana di esempi in-context. Su una serie di compiti di ragionamento visivo, dimostriamo che il nostro framework porta a guadagni consistenti nelle prestazioni, rende più robusta la configurazione degli LLM come controller e elimina la necessità di ingegnerizzazione umana degli esempi in-context.
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.