Ponte de Visão Transformer em Escala

Resumo

Apresentamos o Vision Bridge Transformer (ViBT), uma instanciação em larga escala dos Modelos de Ponte Browniana projetada para geração condicional. Diferente dos modelos de difusão tradicionais que transformam ruído em dados, os Modelos de Ponte modelam diretamente a trajetória entre entradas e saídas, criando um paradigma eficiente de tradução de dados para dados. Ao dimensionar esses modelos para 20 bilhões e 1,3 bilhão de parâmetros, demonstramos sua eficácia para tarefas de tradução de imagem e vídeo. Para suportar essa escala, adotamos uma arquitetura Transformer e propomos um objetivo de correspondência de velocidade com variância estabilizada para treinamento robusto. Juntos, esses avanços destacam o poder do dimensionamento de Modelos de Ponte para edição de imagens baseada em instruções e tradução complexa de vídeo.

English

We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.

Ponte de Visão Transformer em Escala

Vision Bridge Transformer at Scale

Resumo

Support