Naar echt zero-shot compositioneel visueel redeneren met LLM's als programmeurs
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
Auteurs: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
Samenvatting
Visueel redeneren wordt gedomineerd door end-to-end neurale netwerken die geschaald zijn naar
miljarden modelparameters en trainingsvoorbeelden. Echter, zelfs de grootste
modellen hebben moeite met compositioneel redeneren, generalisatie, fijnmazig
ruimtelijk en temporeel redeneren, en tellen. Visueel redeneren met grote
taalmodellen (LLMs) als controllers kan in principe deze beperkingen aanpakken
door de taak te decomponeren en subtaken op te lossen door een set van (visuele)
tools te orkestreren. Recentelijk hebben deze modellen uitstekende prestaties
behaald bij taken zoals compositionele visuele vraagbeantwoording, visuele
verankering, en temporeel redeneren in video's. Desalniettemin vertrouwen deze
modellen in hun huidige vorm sterk op menselijk ontworpen in-context voorbeelden
in de prompt, die vaak datasetspecifiek en taakspecifiek zijn en aanzienlijke
inspanning vereisen van zeer bekwame programmeurs. In dit werk presenteren we
een framework dat deze problemen verlicht door ruimtelijk en temporeel abstracte
routines te introduceren en door gebruik te maken van een klein aantal
gelabelde voorbeelden om automatisch in-context voorbeelden te genereren,
waardoor menselijk gemaakte in-context voorbeelden overbodig worden. Op een
aantal visuele redeneertaken laten we zien dat ons framework leidt tot
consistente prestatieverbeteringen, de LLM als controller setup robuuster maakt,
en de noodzaak voor menselijk ontworpen in-context voorbeelden wegneemt.
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.