Hacia un razonamiento visual composicional verdaderamente de cero disparos con LLMs como programadores
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
Autores: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
Resumen
El razonamiento visual está dominado por redes neuronales de extremo a extremo escaladas a miles de millones de parámetros y ejemplos de entrenamiento. Sin embargo, incluso los modelos más grandes tienen dificultades con el razonamiento composicional, la generalización, el razonamiento espacial y temporal de gran detalle, y el conteo. El razonamiento visual utilizando modelos de lenguaje grandes (LLMs) como controladores puede, en principio, abordar estas limitaciones al descomponer la tarea y resolver subtareas mediante la orquestación de un conjunto de herramientas (visuales). Recientemente, estos modelos han logrado un gran rendimiento en tareas como la respuesta a preguntas visuales composicionales, la localización visual y el razonamiento temporal en videos. No obstante, en su forma actual, estos modelos dependen en gran medida de la ingeniería humana de ejemplos en contexto en el prompt, que suelen ser específicos del conjunto de datos y la tarea, y requieren un esfuerzo significativo por parte de programadores altamente capacitados. En este trabajo, presentamos un marco que mitiga estos problemas al introducir rutinas abstractas espaciales y temporales, y al aprovechar un pequeño número de ejemplos etiquetados para generar automáticamente ejemplos en contexto, evitando así la creación manual de estos. En varias tareas de razonamiento visual, demostramos que nuestro marco conduce a mejoras consistentes en el rendimiento, hace que la configuración de LLMs como controladores sea más robusta, y elimina la necesidad de ingeniería humana en la creación de ejemplos en contexto.
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.