Токены восприятия улучшают визуальное мышление в мультимодельных языковых моделях.
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
December 4, 2024
Авторы: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI
Аннотация
Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с вызовами в фундаментальных задачах визуального восприятия, где специализированные модели проявляют себя наилучшим образом. Задачи, требующие рассуждений о трехмерных структурах, выигрывают от оценки глубины, а рассуждения о двумерных объектах выигрывают от детектирования объектов. Тем не менее, MLM не способны создавать промежуточные данные о глубине или рамках для рассмотрения. Донастройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам зрения требует слишком много вычислительных ресурсов и неэффективна с точки зрения памяти. Для решения этой проблемы мы представляем Перцептивные Токены, внутренние представления изображений, разработанные для помощи в задачах рассуждения, где язык недостаточен. Перцептивные токены действуют как вспомогательные токены для рассуждений, аналогично подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная перцептивными токенами, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM перцептивными токенами для улучшения рассуждений над визуальными данными. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многофункциональной системе обучения. AURORA достигает значительных улучшений на бенчмарках по подсчету: +10.8% на BLINK, +11.3% на CVBench и +8.3% на SEED-Bench, превосходя подходы донастройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С перцептивными токенами AURORA расширяет область применения MLM за пределы рассуждений на основе языка, укладывая дорогу для более эффективных возможностей визуального рассуждения.
English
Multimodal language models (MLMs) still face challenges in fundamental visual
perception tasks where specialized models excel. Tasks requiring reasoning
about 3D structures benefit from depth estimation, and reasoning about 2D
object instances benefits from object detection. Yet, MLMs can not produce
intermediate depth or boxes to reason over. Finetuning MLMs on relevant data
doesn't generalize well and outsourcing computation to specialized vision tools
is too compute-intensive and memory-inefficient. To address this, we introduce
Perception Tokens, intrinsic image representations designed to assist reasoning
tasks where language is insufficient. Perception tokens act as auxiliary
reasoning tokens, akin to chain-of-thought prompts in language models. For
example, in a depth-related task, an MLM augmented with perception tokens can
reason by generating a depth map as tokens, enabling it to solve the problem
effectively. We propose AURORA, a training method that augments MLMs with
perception tokens for improved reasoning over visual inputs. AURORA leverages a
VQVAE to transform intermediate image representations, such as depth maps into
a tokenized format and bounding box tokens, which is then used in a multi-task
training framework. AURORA achieves notable improvements across counting
benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench,
outperforming finetuning approaches in generalization across datasets. It also
improves on relative depth: over +6% on BLINK. With perception tokens, AURORA
expands the scope of MLMs beyond language-based reasoning, paving the way for
more effective visual reasoning capabilities.Summary
AI-Generated Summary