Modelos Generativos Multimodais são Aprendizes em Contexto.
Generative Multimodal Models are In-Context Learners
December 20, 2023
Autores: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Resumo
A capacidade humana de resolver facilmente tarefas multimodais em contexto (ou seja, com apenas algumas demonstrações ou instruções simples) é algo que os sistemas multimodais atuais têm lutado para imitar. Neste trabalho, demonstramos que as capacidades de aprendizado em contexto, independente de tarefa, de modelos multimodais grandes podem ser significativamente aprimoradas por meio de um escalonamento eficaz. Apresentamos o Emu2, um modelo generativo multimodal com 37 bilhões de parâmetros, treinado em sequências multimodais em grande escala com um objetivo autoregressivo unificado. O Emu2 exibe fortes habilidades de aprendizado em contexto multimodal, chegando até mesmo a resolver tarefas que exigem raciocínio imediato, como prompt visual e geração baseada em objetos. O modelo estabelece um novo recorde em várias tarefas de compreensão multimodal em configurações de poucos exemplos. Quando ajustado por instrução para seguir comandos específicos, o Emu2 alcança ainda novos estados da arte em tarefas desafiadoras, como benchmarks de resposta a perguntas para grandes modelos multimodais e geração aberta orientada por assunto. Essas conquistas demonstram que o Emu2 pode servir como um modelo base e interface de propósito geral para uma ampla gama de tarefas multimodais. Códigos e modelos estão disponíveis publicamente para facilitar pesquisas futuras.
English
The human ability to easily solve multimodal tasks in context (i.e., with
only a few demonstrations or simple instructions), is what current multimodal
systems have largely struggled to imitate. In this work, we demonstrate that
the task-agnostic in-context learning capabilities of large multimodal models
can be significantly enhanced by effective scaling-up. We introduce Emu2, a
generative multimodal model with 37 billion parameters, trained on large-scale
multimodal sequences with a unified autoregressive objective. Emu2 exhibits
strong multimodal in-context learning abilities, even emerging to solve tasks
that require on-the-fly reasoning, such as visual prompting and object-grounded
generation. The model sets a new record on multiple multimodal understanding
tasks in few-shot settings. When instruction-tuned to follow specific
instructions, Emu2 further achieves new state-of-the-art on challenging tasks
such as question answering benchmarks for large multimodal models and
open-ended subject-driven generation. These achievements demonstrate that Emu2
can serve as a base model and general-purpose interface for a wide range of
multimodal tasks. Code and models are publicly available to facilitate future
research.