Vers un raisonnement visuel compositionnel véritablement zero-shot avec les LLM en tant que programmeurs

papers.abstract

Le raisonnement visuel est dominé par des réseaux de neurones de bout en bout mis à l'échelle avec des milliards de paramètres et d'exemples d'entraînement. Cependant, même les plus grands modèles peinent avec le raisonnement compositionnel, la généralisation, le raisonnement spatial et temporel fin, ainsi que le dénombrement. Le raisonnement visuel utilisant des modèles de langage de grande taille (LLMs) comme contrôleurs peut, en principe, surmonter ces limitations en décomposant la tâche et en résolvant des sous-tâches en orchestrant un ensemble d'outils (visuels). Récemment, ces modèles ont obtenu d'excellentes performances sur des tâches telles que la réponse à des questions visuelles compositionnelles, l'ancrage visuel et le raisonnement temporel sur des vidéos. Néanmoins, dans leur forme actuelle, ces modèles dépendent fortement de l'ingénierie humaine pour créer des exemples contextuels dans l'invite, qui sont souvent spécifiques à un ensemble de données et à une tâche, et nécessitent un travail important de la part de programmeurs hautement qualifiés. Dans ce travail, nous présentons un cadre qui atténue ces problèmes en introduisant des routines spatialement et temporellement abstraites, et en exploitant un petit nombre d'exemples étiquetés pour générer automatiquement des exemples contextuels, évitant ainsi les exemples contextuels créés par l'homme. Sur plusieurs tâches de raisonnement visuel, nous montrons que notre cadre conduit à des gains de performance constants, rend la configuration des LLMs comme contrôleurs plus robuste, et supprime le besoin d'ingénierie humaine pour les exemples contextuels.

English

Visual reasoning is dominated by end-to-end neural networks scaled to billions of model parameters and training examples. However, even the largest models struggle with compositional reasoning, generalization, fine-grained spatial and temporal reasoning, and counting. Visual reasoning with large language models (LLMs) as controllers can, in principle, address these limitations by decomposing the task and solving subtasks by orchestrating a set of (visual) tools. Recently, these models achieved great performance on tasks such as compositional visual question answering, visual grounding, and video temporal reasoning. Nevertheless, in their current form, these models heavily rely on human engineering of in-context examples in the prompt, which are often dataset- and task-specific and require significant labor by highly skilled programmers. In this work, we present a framework that mitigates these issues by introducing spatially and temporally abstract routines and by leveraging a small number of labeled examples to automatically generate in-context examples, thereby avoiding human-created in-context examples. On a number of visual reasoning tasks, we show that our framework leads to consistent gains in performance, makes LLMs as controllers setup more robust, and removes the need for human engineering of in-context examples.

Vers un raisonnement visuel compositionnel véritablement zero-shot avec les LLM en tant que programmeurs

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

papers.abstract

Support