Transfusion: Voorspel de Volgende Token en Diffuseer Afbeeldingen met Eén Multi-Modaal ModelTransfusion: Predict the Next Token and Diffuse Images with One
Multi-Modal Model
We introduceren Transfusion, een methode voor het trainen van een multimodaal model op discrete en continue data. Transfusion combineert de taalmodelleringsverliesfunctie (voorspelling van het volgende token) met diffusie om een enkele transformer te trainen op gemengde-modaliteitsequenties. We pretrainen meerdere Transfusion-modellen tot 7B parameters vanaf nul op een mix van tekst- en beelddata, waarbij we schaalwetten vaststellen ten opzichte van verschillende uni- en cross-modale benchmarks. Onze experimenten tonen aan dat Transfusion aanzienlijk beter schaalt dan het kwantiseren van afbeeldingen en het trainen van een taalmodel op discrete beeldtokens. Door het introduceren van modaliteit-specifieke encoder- en decoderlagen kunnen we de prestaties van Transfusion-modellen verder verbeteren, en zelfs elke afbeelding comprimeren tot slechts 16 patches. We demonstreren verder dat het opschalen van onze Transfusion-methode naar 7B parameters en 2T multimodale tokens een model oplevert dat afbeeldingen en tekst kan genereren op hetzelfde niveau als vergelijkbare schaaldiffusiemodellen en taalmodel, waardoor de voordelen van beide werelden worden benut.