К подлинно нулевому композиционному визуальному рассуждению с использованием крупных языковых моделей в качестве программистов
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
Авторы: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
Аннотация
Визуальное рассуждение в основном осуществляется с помощью сквозных нейронных сетей, масштабируемых до миллиардов параметров модели и обучающих примеров. Однако даже самые крупные модели испытывают трудности с композиционным рассуждением, обобщением, детальным пространственным и временным анализом, а также подсчетом. Визуальное рассуждение с использованием крупных языковых моделей (LLM) в качестве контроллеров, в принципе, может устранить эти ограничения путем декомпозиции задачи и решения подзадач с помощью оркестрации набора (визуальных) инструментов. Недавно эти модели достигли высоких результатов в таких задачах, как композиционное визуальное ответы на вопросы, визуальное закрепление и временной анализ видео. Тем не менее, в их текущей форме эти модели сильно зависят от ручного создания примеров в контексте (in-context examples) в запросе, которые часто специфичны для набора данных и задачи и требуют значительных усилий со стороны высококвалифицированных программистов. В данной работе мы представляем фреймворк, который смягчает эти проблемы, вводя пространственно и временно абстрактные процедуры и используя небольшое количество размеченных примеров для автоматической генерации in-context examples, тем самым устраняя необходимость в ручном создании таких примеров. На ряде задач визуального рассуждения мы показываем, что наш фреймворк приводит к устойчивому улучшению производительности, делает настройку LLM в качестве контроллеров более надежной и устраняет необходимость в ручном создании in-context examples.
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.