Emu3: Предсказание следующего токена - все, что вам нужноEmu3: Next-Token Prediction is All You Need
Хотя предсказание следующего токена считается многообещающим путем к искусственному общему интеллекту, оно испытывает затруднения в превосходстве в мультимодальных задачах, которые до сих пор контролируются моделями диффузии (например, Устойчивая Диффузия) и композиционными подходами (например, CLIP в сочетании с LLM). В данной статье мы представляем Emu3, новый набор передовых мультимодальных моделей, обученных исключительно предсказанием следующего токена. Путем токенизации изображений, текста и видео в дискретное пространство мы обучаем один трансформер с нуля на смеси мультимодальных последовательностей. Emu3 превосходит несколько хорошо установленных моделей, специфичных для задач, как в задачах генерации, так и в задачах восприятия, превзойдя флагманские модели, такие как SDXL и LLaVA-1.6, и при этом устраняя необходимость в диффузионных или композиционных архитектурах. Emu3 также способен генерировать видео высокой точности путем предсказания следующего токена в последовательности видео. Мы упрощаем сложные конструкции мультимодальных моделей, сосредотачиваясь на одной цели: токенах, разблокируя большой потенциал для масштабирования как во время обучения, так и во время вывода. Наши результаты демонстрируют, что предсказание следующего токена является многообещающим путем к созданию общего мультимодального интеллекта за пределами языка. Мы открываем ключевые техники и модели с открытым исходным кодом для поддержки дальнейших исследований в этом направлении.