Escalonamento de Modelos Multimodais Autoregressivos: Pré-treinamento e Ajuste por Instrução
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
September 5, 2023
Autores: Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan
cs.AI
Resumo
Apresentamos o CM3Leon (pronunciado "Camaleão"), um modelo de linguagem multimodal baseado em tokens, apenas decodificador e aumentado por recuperação, capaz de gerar e preencher tanto texto quanto imagens. O CM3Leon utiliza a arquitetura multimodal CM3, mas também demonstra os benefícios extremos de escalonar e ajustar com dados mais diversos no estilo de instruções. É o primeiro modelo multimodal treinado com uma receita adaptada de modelos de linguagem exclusivamente textuais, incluindo uma etapa de pré-treinamento em grande escala aumentada por recuperação e uma segunda etapa de ajuste fino supervisionado (SFT) multitarefa. Também é um modelo de propósito geral que pode realizar tanto geração de texto para imagem quanto geração de imagem para texto, permitindo-nos introduzir métodos de decodificação contrastiva autossuficientes que produzem saídas de alta qualidade. Experimentos extensivos demonstram que essa receita é altamente eficaz para modelos multimodais. O CM3Leon alcança desempenho de ponta em geração de texto para imagem com 5 vezes menos computação de treinamento do que métodos comparáveis (FID zero-shot no MS-COCO de 4,88). Após o SFT, o CM3Leon também pode demonstrar níveis sem precedentes de controlabilidade em tarefas que variam desde edição de imagens guiada por linguagem até geração e segmentação controlada por imagem.
English
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented,
token-based, decoder-only multi-modal language model capable of generating and
infilling both text and images. CM3Leon uses the CM3 multi-modal architecture
but additionally shows the extreme benefits of scaling up and tuning on more
diverse instruction-style data. It is the first multi-modal model trained with
a recipe adapted from text-only language models, including a large-scale
retrieval-augmented pre-training stage and a second multi-task supervised
fine-tuning (SFT) stage. It is also a general-purpose model that can do both
text-to-image and image-to-text generation, allowing us to introduce
self-contained contrastive decoding methods that produce high-quality outputs.
Extensive experiments demonstrate that this recipe is highly effective for
multi-modal models. CM3Leon achieves state-of-the-art performance in
text-to-image generation with 5x less training compute than comparable methods
(zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate
unprecedented levels of controllability in tasks ranging from language-guided
image editing to image-controlled generation and segmentation.