DRIFT: Um Adaptador de Fluxo Residual para Decodificação de Saídas Contínuas em Modelos de Visão e Linguagem

Resumo

Muitos modelos modernos de visão-linguagem (VLMs) baseiam-se na decodificação autorregressiva de tokens discretos. Embora as interfaces de saída baseadas em texto possibilitem pré-treinamento escalável e forte generalização zero-shot em diversas tarefas, elas são inadequadas para problemas que exigem saídas contínuas precisas, como localizar limites temporais de eventos ou gerar ações de controle robótico. Para enfrentar esse desafio, propomos o DRIFT, um framework geral para adaptar VLMs pré-treinados a tarefas de decodificação contínua. O DRIFT combina um preditor base, que fornece uma estimativa grosseira da saída alvo, com um módulo de refinamento generativo baseado em flow matching que melhora iterativamente a predição. Essa formulação residual transforma o problema de modelagem generativa de aprender uma distribuição global de saída para modelar uma distribuição residual localizada em torno de um prior forte, simplificando substancialmente a otimização. Avaliamos o DRIFT em tarefas de percepção e planejamento, incluindo fundamentação visual e controle robótico. Em múltiplas tarefas e arquiteturas abrangendo MLLMs, VLAs e WAMs, o DRIFT supera consistentemente um conjunto robusto de soluções baseadas em regressão e geração.

English

Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.