Трансфузия: предсказание следующего токена и диффузия изображений с помощью одной мультимодальной моделиTransfusion: Predict the Next Token and Diffuse Images with One
Multi-Modal Model
Мы представляем Transfusion, рецепт для обучения мультимодельной модели на дискретных и непрерывных данных. Transfusion объединяет функцию потерь моделирования языка (предсказание следующего токена) с диффузией для обучения одного трансформера на смешанных последовательностях модальностей. Мы предварительно обучаем несколько моделей Transfusion до 7 миллиардов параметров с нуля на смеси текстовых и изображений, устанавливая законы масштабирования относительно различных уни- и кросс-модальных бенчмарков. Наши эксперименты показывают, что Transfusion значительно лучше масштабируется, чем квантование изображений и обучение языковой модели на дискретных изображенных токенах. Введя модальностно-специфические слои кодирования и декодирования, мы можем дополнительно улучшить производительность моделей Transfusion и даже сжать каждое изображение всего до 16 патчей. Мы также демонстрируем, что масштабирование нашего рецепта Transfusion до 7 миллиардов параметров и 2 триллионов мультимодальных токенов производит модель, способную генерировать изображения и текст на уровне с аналогичными моделями диффузии и языка масштаба, получая преимущества обоих миров.