ChatPaper.aiChatPaper

Vision Bridge Transformer à Grande Échelle

Vision Bridge Transformer at Scale

November 28, 2025
papers.authors: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
cs.AI

papers.abstract

Nous présentons Vision Bridge Transformer (ViBT), une implémentation à grande échelle des modèles de pont brownien conçue pour la génération conditionnelle. Contrairement aux modèles de diffusion traditionnels qui transforment du bruit en données, les modèles de pont modélisent directement la trajectoire entre les entrées et les sorties, créant un paradigme efficace de traduction de données à données. En mettant ces modèles à l'échelle avec 20 et 1,3 milliard de paramètres, nous démontrons leur efficacité pour les tâches de traduction d'images et de vidéos. Pour supporter cette échelle, nous adoptons une architecture Transformer et proposons un objectif d'appariement de vitesse à variance stabilisée pour un apprentissage robuste. Ensemble, ces avancées soulignent la puissance de la mise à l'échelle des modèles de pont pour l'édition d'images basée sur des instructions et la traduction vidéo complexe.
English
We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.
PDF314December 2, 2025