DRIFT: Un Adaptador de Flujo Residual para Decodificar Salidas Continuas en Modelos de Visión-Lenguaje

Resumen

Muchos modelos modernos de visión-lenguaje (VLM) se basan en la decodificación autorregresiva de tokens discretos. Si bien las interfaces de salida basadas en texto permiten un preentrenamiento escalable y una fuerte generalización cero disparo en diversas tareas, no son adecuadas para problemas que requieren salidas continuas precisas, como la localización de límites temporales de eventos o la generación de acciones de control robótico. Para abordar este desafío, proponemos DRIFT, un marco general para adaptar VLM preentrenados a tareas de decodificación continua. DRIFT combina un predictor base, que proporciona una estimación aproximada de la salida objetivo, con un módulo de refinamiento generativo basado en emparejamiento de flujo que mejora iterativamente la predicción. Esta formulación residual transforma el problema de modelado generativo de aprender una distribución global de salida a modelar una distribución residual localizada alrededor de un prior fuerte, simplificando sustancialmente la optimización. Evaluamos DRIFT en tareas tanto de percepción como de planificación, incluyendo el anclaje visual y el control robótico. A través de múltiples tareas y arquitecturas que abarcan MLLM, VLA y WAM, DRIFT supera consistentemente a un conjunto sólido de soluciones basadas en regresión y generativas.

English

Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.