Show-o: Één enkele Transformer voor het verenigen van multimodale interpretatie en generatie

Samenvatting

We presenteren een geünificeerde transformer, genaamd Show-o, die multimodale begripsvorming en generatie verenigt. In tegenstelling tot volledig autoregressieve modellen, combineert Show-o autoregressieve en (discrete) diffusiemodellering om adaptief om te gaan met invoer en uitvoer van diverse en gemengde modaliteiten. Het geünificeerde model ondersteunt flexibel een breed scala aan visueel-taalkundige taken, waaronder visuele vraagbeantwoording, tekst-naar-beeldgeneratie, tekstgeleide inpainting/extrapolatie en gemengde-modaliteitengeneratie. Over verschillende benchmarks heen toont het vergelijkbare of superieure prestaties ten opzichte van bestaande individuele modellen met een gelijkwaardig of groter aantal parameters, specifiek ontworpen voor begripsvorming of generatie. Dit benadrukt aanzienlijk het potentieel als een next-generation foundation model. Code en modellen zijn vrijgegeven op https://github.com/showlab/Show-o.

English

We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o.

Show-o: Één enkele Transformer voor het verenigen van multimodale interpretatie en generatie

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Samenvatting

Support