ChatPaper.aiChatPaper

大規模におけるVision Bridge Transformer

Vision Bridge Transformer at Scale

November 28, 2025
著者: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
cs.AI

要旨

本論文では、条件付き生成向けに設計されたBrownian Bridge Modelsの大規模実装であるVision Bridge Transformer(ViBT)を提案する。従来の拡散モデルがノイズをデータに変換するのに対し、Bridge Modelsは入力と出力の間の軌道を直接モデル化し、効率的なデータ間変換パラダイムを構築する。本モデルを200億パラメータ及び13億パラメータ規模にスケーリングし、画像・動画変換タスクにおける有効性を実証する。この規模を支えるため、Transformerアーキテクチャを採用し、ロバストな訓練のための分散安定化速度マッチング目的関数を提案する。これらの進歩により、指示ベース画像編集や複雑な動画変換におけるBridge Modelsのスケーリング効果が明らかとなった。
English
We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.
PDF314December 2, 2025