Emu3: 다음 토큰 예측이 필요한 모든 것입니다.Emu3: Next-Token Prediction is All You Need
다음 토큰 예측은 인공 일반 지능으로의 유망한 길로 간주되지만, 다중 모달 작업에서 뛰어나기 어려웠으며, 여전히 확산 모델 (예: Stable Diffusion) 및 구성적 접근 (예: CLIP과 LLMs를 결합한)에 의해 주도되고 있습니다. 본 논문에서는 Emu3를 소개합니다. 이는 다음 토큰 예측만을 사용하여 훈련된 최첨단 다중 모달 모델 스위트입니다. 이미지, 텍스트 및 비디오를 토큰화하여 이산 공간으로 변환한 후, 다중 모달 시퀀스의 혼합물을 통해 단일 트랜스포머를 처음부터 훈련합니다. Emu3는 생성 및 인식 작업 모두에서 몇 가지 잘 알려진 작업별 모델을 능가하며, SDXL 및 LLaVA-1.6과 같은 주요 모델을 뛰어넘으면서 확산 또는 구성적 아키텍처의 필요성을 제거합니다. Emu3는 또한 비디오 시퀀스에서 다음 토큰을 예측함으로써 고품질 비디오를 생성할 수 있습니다. 우리는 훈련 및 추론 중에 확장 가능성을 높이기 위해 토큰에 중점을 두는 것으로 복잡한 다중 모달 모델 설계를 간소화합니다. 우리의 결과는 다음 토큰 예측이 언어를 넘어 일반적인 다중 모달 지능을 구축하는 유망한 길임을 보여줍니다. 우리는 이 방향으로의 추가 연구를 지원하기 위해 주요 기술과 모델을 오픈 소스로 제공합니다.