Naar echt zero-shot compositioneel visueel redeneren met LLM's als programmeurs

Samenvatting

Visueel redeneren wordt gedomineerd door end-to-end neurale netwerken die geschaald zijn naar miljarden modelparameters en trainingsvoorbeelden. Echter, zelfs de grootste modellen hebben moeite met compositioneel redeneren, generalisatie, fijnmazig ruimtelijk en temporeel redeneren, en tellen. Visueel redeneren met grote taalmodellen (LLMs) als controllers kan in principe deze beperkingen aanpakken door de taak te decomponeren en subtaken op te lossen door een set van (visuele) tools te orkestreren. Recentelijk hebben deze modellen uitstekende prestaties behaald bij taken zoals compositionele visuele vraagbeantwoording, visuele verankering, en temporeel redeneren in video's. Desalniettemin vertrouwen deze modellen in hun huidige vorm sterk op menselijk ontworpen in-context voorbeelden in de prompt, die vaak datasetspecifiek en taakspecifiek zijn en aanzienlijke inspanning vereisen van zeer bekwame programmeurs. In dit werk presenteren we een framework dat deze problemen verlicht door ruimtelijk en temporeel abstracte routines te introduceren en door gebruik te maken van een klein aantal gelabelde voorbeelden om automatisch in-context voorbeelden te genereren, waardoor menselijk gemaakte in-context voorbeelden overbodig worden. Op een aantal visuele redeneertaken laten we zien dat ons framework leidt tot consistente prestatieverbeteringen, de LLM als controller setup robuuster maakt, en de noodzaak voor menselijk ontworpen in-context voorbeelden wegneemt.

English

Visual reasoning is dominated by end-to-end neural networks scaled to billions of model parameters and training examples. However, even the largest models struggle with compositional reasoning, generalization, fine-grained spatial and temporal reasoning, and counting. Visual reasoning with large language models (LLMs) as controllers can, in principle, address these limitations by decomposing the task and solving subtasks by orchestrating a set of (visual) tools. Recently, these models achieved great performance on tasks such as compositional visual question answering, visual grounding, and video temporal reasoning. Nevertheless, in their current form, these models heavily rely on human engineering of in-context examples in the prompt, which are often dataset- and task-specific and require significant labor by highly skilled programmers. In this work, we present a framework that mitigates these issues by introducing spatially and temporally abstract routines and by leveraging a small number of labeled examples to automatically generate in-context examples, thereby avoiding human-created in-context examples. On a number of visual reasoning tasks, we show that our framework leads to consistent gains in performance, makes LLMs as controllers setup more robust, and removes the need for human engineering of in-context examples.

Naar echt zero-shot compositioneel visueel redeneren met LLM's als programmeurs

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

Samenvatting

Support