Vision Bridge Transformer op Schaal
Vision Bridge Transformer at Scale
November 28, 2025
Auteurs: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
cs.AI
Samenvatting
Wij introduceren Vision Bridge Transformer (ViBT), een grootschalige implementatie van Brownian Bridge-modellen ontworpen voor conditionele generatie. In tegenstelling tot traditionele diffusiemodellen die ruis omzetten in data, modelleren Bridge-modellen direct de trajectorie tussen invoer en uitvoer, wat een efficiënt data-naar-data-vertaalparadigma creëert. Door deze modellen op te schalen naar 20B en 1,3B parameters, demonstreren we hun effectiviteit voor beeld- en videovertaaltaken. Om deze schaal te ondersteunen, adopteren we een Transformer-architectuur en introduceren we een variantie-gestabiliseerd snelheidsmatcheidingsdoel voor robuuste training. Gezamenlijk belichten deze vooruitgangen de kracht van het opschalen van Bridge-modellen voor op instructie gebaseerde beeldbewerking en complexe videotransformatie.
English
We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.