Hin zu wirklich nullschüssigem kompositionellem visuellem Denken mit LLMs als Programmierern
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
Autoren: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
Zusammenfassung
Visuelles Denken wird derzeit von end-to-end neuronalen Netzen dominiert, die auf Milliarden von Modellparametern und Trainingsbeispielen skaliert sind. Allerdings haben selbst die größten Modelle Schwierigkeiten mit kompositionellem Denken, Generalisierung, feinkörnigem räumlichem und zeitlichem Denken sowie Zählen. Visuelles Denken mit großen Sprachmodellen (LLMs) als Steuerungseinheiten kann diese Einschränkungen prinzipiell überwinden, indem die Aufgabe zerlegt und Teilaufgaben durch die Orchestrierung einer Reihe von (visuellen) Werkzeugen gelöst werden. Kürzlich erzielten diese Modelle hervorragende Leistungen bei Aufgaben wie kompositionellem visuellem Frage-Antworten, visueller Verankerung und zeitlichem Denken in Videos. Dennoch sind diese Modelle in ihrer aktuellen Form stark auf die menschliche Gestaltung von In-Context-Beispielen im Prompt angewiesen, die oft datensatz- und aufgabenspezifisch sind und erhebliche Arbeit von hochqualifizierten Programmierern erfordern. In dieser Arbeit präsentieren wir ein Framework, das diese Probleme durch die Einführung räumlich und zeitlich abstrakter Routinen sowie durch die Nutzung einer kleinen Anzahl von gelabelten Beispielen zur automatischen Generierung von In-Context-Beispielen mildert, wodurch die Notwendigkeit menschlich erstellter In-Context-Beispiele entfällt. Bei einer Reihe von visuellen Denkaufgaben zeigen wir, dass unser Framework zu konsistenten Leistungssteigerungen führt, die LLM-basierte Steuerung robuster macht und den Bedarf an menschlicher Gestaltung von In-Context-Beispielen beseitigt.
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.