대규모 Vision Bridge Transformer
Vision Bridge Transformer at Scale
November 28, 2025
저자: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
cs.AI
초록
비전 브리지 트랜스포머(ViBT)를 소개합니다. ViBT는 조건부 생성을 위해 설계된 브라운 브리지 모델의 대규모 구현체입니다. 노이즈를 데이터로 변환하는 기존 확산 모델과 달리, 브리지 모델은 입력과 출력 간의 궤적을 직접 모델링하여 효율적인 데이터-대-데이터 변환 패러다임을 생성합니다. 이러한 모델을 200억 개 및 13억 개 매개변수 규모로 확장하여 이미지 및 비디오 변환 작업에서의 효과를 입증합니다. 이러한 규모를 지원하기 위해 트랜스포머 아키텍처를 채택하고 강력한 학습을 위한 분산 안정화 속도 일치 목적 함수를 제안합니다. 이러한 발전들은 지시 기반 이미지 편집 및 복잡한 비디오 변환을 위해 브리지 모델을 확장하는 것의 힘을 부각시킵니다.
English
We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.