Show-o: Één enkele Transformer voor het verenigen van multimodale interpretatie en generatie
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
August 22, 2024
Auteurs: Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI
Samenvatting
We presenteren een geünificeerde transformer, genaamd Show-o, die multimodale begripsvorming en generatie verenigt. In tegenstelling tot volledig autoregressieve modellen, combineert Show-o autoregressieve en (discrete) diffusiemodellering om adaptief om te gaan met invoer en uitvoer van diverse en gemengde modaliteiten. Het geünificeerde model ondersteunt flexibel een breed scala aan visueel-taalkundige taken, waaronder visuele vraagbeantwoording, tekst-naar-beeldgeneratie, tekstgeleide inpainting/extrapolatie en gemengde-modaliteitengeneratie. Over verschillende benchmarks heen toont het vergelijkbare of superieure prestaties ten opzichte van bestaande individuele modellen met een gelijkwaardig of groter aantal parameters, specifiek ontworpen voor begripsvorming of generatie. Dit benadrukt aanzienlijk het potentieel als een next-generation foundation model. Code en modellen zijn vrijgegeven op https://github.com/showlab/Show-o.
English
We present a unified transformer, i.e., Show-o, that unifies multimodal
understanding and generation. Unlike fully autoregressive models, Show-o
unifies autoregressive and (discrete) diffusion modeling to adaptively handle
inputs and outputs of various and mixed modalities. The unified model flexibly
supports a wide range of vision-language tasks including visual
question-answering, text-to-image generation, text-guided
inpainting/extrapolation, and mixed-modality generation. Across various
benchmarks, it demonstrates comparable or superior performance to existing
individual models with an equivalent or larger number of parameters tailored
for understanding or generation. This significantly highlights its potential as
a next-generation foundation model. Code and models are released at
https://github.com/showlab/Show-o.Summary
AI-Generated Summary