DRIFT: Адаптер остаточного потока для декодирования непрерывных выходов в визуально-языковых моделях

Аннотация

Многие современные модели «зрение-язык» (VLM) основаны на авторегрессионном декодировании дискретных токенов. Хотя текстовые интерфейсы вывода позволяют осуществлять масштабируемое предварительное обучение и обобщение zero-shot для разнообразных задач, они плохо подходят для задач, требующих точных непрерывных выходных данных, таких как локализация временных границ событий или генерация управляющих действий для роботов. Для решения этой проблемы мы предлагаем DRIFT — общую структуру для адаптации предварительно обученных VLM к задачам непрерывного декодирования. DRIFT объединяет базовый предсказатель, дающий грубую оценку целевого выхода, с генеративным модулем уточнения на основе потока (flow matching), который итеративно улучшает предсказание. Эта остаточная формулировка преобразует задачу генеративного моделирования из обучения глобальному распределению выходов в моделирование локализованного остаточного распределения вокруг сильного априорного распределения, что существенно упрощает оптимизацию. Мы оцениваем DRIFT на задачах восприятия и планирования, включая визуальное привязывание и управление роботами. На нескольких задачах и архитектурах, охватывающих MLLM, VLA и WAM, DRIFT последовательно превосходит сильные решения на основе регрессии и генеративного моделирования.

English

Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.