Emu3: Предсказание следующего токена - все, что вам нужно
Emu3: Next-Token Prediction is All You Need
September 27, 2024
Авторы: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
Аннотация
Хотя предсказание следующего токена считается многообещающим путем к искусственному общему интеллекту, оно испытывает затруднения в превосходстве в мультимодальных задачах, которые до сих пор контролируются моделями диффузии (например, Устойчивая Диффузия) и композиционными подходами (например, CLIP в сочетании с LLM). В данной статье мы представляем Emu3, новый набор передовых мультимодальных моделей, обученных исключительно предсказанием следующего токена. Путем токенизации изображений, текста и видео в дискретное пространство мы обучаем один трансформер с нуля на смеси мультимодальных последовательностей. Emu3 превосходит несколько хорошо установленных моделей, специфичных для задач, как в задачах генерации, так и в задачах восприятия, превзойдя флагманские модели, такие как SDXL и LLaVA-1.6, и при этом устраняя необходимость в диффузионных или композиционных архитектурах. Emu3 также способен генерировать видео высокой точности путем предсказания следующего токена в последовательности видео. Мы упрощаем сложные конструкции мультимодальных моделей, сосредотачиваясь на одной цели: токенах, разблокируя большой потенциал для масштабирования как во время обучения, так и во время вывода. Наши результаты демонстрируют, что предсказание следующего токена является многообещающим путем к созданию общего мультимодального интеллекта за пределами языка. Мы открываем ключевые техники и модели с открытым исходным кодом для поддержки дальнейших исследований в этом направлении.
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary