Em Direção ao Raciocínio Visual Composicional Verdadeiramente Zero-shot com LLMs como Programadores
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
Autores: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
Resumo
O raciocínio visual é dominado por redes neurais de ponta a ponta escaladas para bilhões de parâmetros de modelo e exemplos de treinamento. No entanto, mesmo os maiores modelos enfrentam dificuldades com raciocínio composicional, generalização, raciocínio espacial e temporal de alta granularidade, e contagem. O raciocínio visual com grandes modelos de linguagem (LLMs) como controladores pode, em princípio, abordar essas limitações ao decompor a tarefa e resolver subtarefas orquestrando um conjunto de ferramentas (visuais). Recentemente, esses modelos alcançaram grande desempenho em tarefas como resposta a perguntas visuais composicionais, fundamentação visual e raciocínio temporal em vídeos. No entanto, em sua forma atual, esses modelos dependem fortemente da engenharia humana de exemplos em contexto no prompt, que são frequentemente específicos para conjuntos de dados e tarefas, exigindo um trabalho significativo de programadores altamente qualificados. Neste trabalho, apresentamos uma estrutura que mitiga esses problemas ao introduzir rotinas abstratas espacial e temporalmente e ao aproveitar um pequeno número de exemplos rotulados para gerar automaticamente exemplos em contexto, evitando assim exemplos em contexto criados por humanos. Em várias tarefas de raciocínio visual, mostramos que nossa estrutura leva a ganhos consistentes de desempenho, torna a configuração de LLMs como controladores mais robusta e elimina a necessidade de engenharia humana de exemplos em contexto.
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.