ChatPaper.aiChatPaper

Vision Bridge Transformer su Larga Scala

Vision Bridge Transformer at Scale

November 28, 2025
Autori: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
cs.AI

Abstract

Introduciamo Vision Bridge Transformer (ViBT), un'implementazione su larga scala dei Modelli a Ponte Browniano progettata per la generazione condizionata. A differenza dei tradizionali modelli di diffusione che trasformano il rumore in dati, i Modelli a Ponte modellano direttamente la traiettoria tra input e output, creando un paradigma efficiente di traduzione dato-a-dato. Scalando questi modelli a 20 e 1,3 miliardi di parametri, ne dimostriamo l'efficacia per compiti di traduzione di immagini e video. Per supportare questa scala, adottiamo un'architettura Transformer e proponiamo un obiettivo di corrispondenza della velocità con varianza stabilizzata per un addestramento robusto. Nel complesso, questi progressi evidenziano la potenza della scalabilità dei Modelli a Ponte per l'editing di immagini basato su istruzioni e la traduzione di video complessi.
English
We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.
PDF314December 2, 2025