ChatPaper.aiChatPaper

Transformador Vision Bridge a Escala

Vision Bridge Transformer at Scale

November 28, 2025
Autores: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
cs.AI

Resumen

Presentamos Vision Bridge Transformer (ViBT), una implementación a gran escala de los Modelos de Puente Browniano diseñada para generación condicional. A diferencia de los modelos de difusión tradicionales que transforman ruido en datos, los Modelos de Puente modelan directamente la trayectoria entre entradas y salidas, creando un paradigma eficiente de traducción de datos a datos. Al escalar estos modelos a 20.000 y 1.300 millones de parámetros, demostramos su eficacia para tareas de traducción de imágenes y vídeo. Para soportar esta escala, adoptamos una arquitectura Transformer y proponemos un objetivo de correspondencia de velocidad con varianza estabilizada para un entrenamiento robusto. En conjunto, estos avances destacan el poder del escalado de Modelos de Puente para la edición de imágenes basada en instrucciones y la traducción compleja de vídeo.
English
We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.
PDF314December 2, 2025