Transfusão: Prever o Próximo Token e Difundir Imagens com um Modelo Multi-ModalTransfusion: Predict the Next Token and Diffuse Images with One
Multi-Modal Model
Apresentamos o Transfusion, uma receita para treinar um modelo multimodal sobre dados discretos e contínuos. O Transfusion combina a função de perda de modelagem de linguagem (previsão do próximo token) com difusão para treinar um único transformador sobre sequências de multimodalidade mista. Pré-treinamos vários modelos de Transfusion com até 7B de parâmetros a partir do zero em uma mistura de dados de texto e imagem, estabelecendo leis de escalonamento em relação a uma variedade de benchmarks unimodais e multimodais. Nossos experimentos mostram que o Transfusion escala significativamente melhor do que quantizar imagens e treinar um modelo de linguagem sobre tokens de imagem discretos. Ao introduzir camadas de codificação e decodificação específicas para cada modalidade, podemos melhorar ainda mais o desempenho dos modelos de Transfusion e até mesmo comprimir cada imagem para apenas 16 patches. Demonstramos ainda que escalando nossa receita de Transfusion para 7B de parâmetros e 2T de tokens multimodais produz um modelo capaz de gerar imagens e texto em pé de igualdade com modelos de difusão de escala semelhante e modelos de linguagem, colhendo os benefícios de ambos os mundos.