ChatPaper.aiChatPaper

ARM: 통합된 이산 표현을 갖춘 자기회귀 대규모 다중 모달 모델

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

June 9, 2026
저자: Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang
cs.AI

초록

본 논문은 ARM(자기회귀 모델)을 소개한다. ARM은 이산 표현 기반의 자기회귀 모델로, 다음 토큰 예측 프레임워크 내에서 이미지 이해, 생성 및 편집을 통합한다. ARM은 세 가지 노력을 기반으로 구축되었다: 첫째, 이미지를 압축된 토큰 시퀀스로 매핑하는 이산 의미 시각적 토크나이저를 훈련한다. 이 토크나이저는 의미 식별성, 언어 정렬 및 충실한 재구성을 공동으로 촉진하는 다중 목표로 지도 학습되며, 이를 통해 공유 잠재 공간에서 다양한 작업을 지원한다. 이를 바탕으로 대규모 텍스트 및 이미지 토큰 시퀀스에 대해 70억 개의 매개변수를 가진 자기회귀 모델을 훈련하여 비전-언어 인식 및 생성 능력을 원활하게 개발한다. 마지막으로, 텍스트-이미지 생성 및 지시 기반 편집에 대한 선호도 정렬 동작을 더욱 개선하기 위해 ARM은 강화 학습(RL)을 적용하여 시각적 품질, 지시 준수 및 편집 일관성과 같은 작업 수준 목표를 최적화한다. 놀랍게도 결과는 RL이 대상 작업의 성능을 크게 향상시킬 뿐만 아니라(예: WISE 전체 0.50에서 0.56으로, GEdit-Bench-EN G_O 5.75에서 6.68로 상승) 텍스트-이미지 생성과 편집 간의 교차 작업 시너지를 유도함을 보여준다. 종합적으로, 이러한 발견은 강력한 표현 및 선호도 최적화와 결합된 자기회귀 모델링이 다중 모달 지능을 위한 확장 가능한 기반이 될 수 있음을 강조한다. 코드: https://github.com/wdrink/ARM.
English
This paper introduces ARM, a discrete representation-based AutoRegressive Model that unifies image understanding, generation, and editing within a next-token prediction framework. ARM is built on three efforts: first, we train a discrete semantic visual tokenizer that maps images into compact token sequences. Our tokenizer is supervised with multiple objectives that jointly promote semantic discriminability, language alignment and faithful reconstruction, thereby supporting diverse tasks in a shared latent space. With this, we train a 7B autoregressive model over large-scale text and image token sequences, seamlessly developing vision-language perception and generation capabilities. Finally, to further improve preference-aligned behavior for text-to-image generation and instruction-guided editing, ARM applies reinforcement learning (RL) to optimize task-level objectives such as visual quality, instruction adherence, and edit consistency. Surprisingly, the results show that RL not only substantially improves performance on the target tasks (e.g., raising WISE overall from 0.50 to 0.56, GEdit-Bench-EN G_O from 5.75 to 6.68), but also induces cross-task synergy between text-to-image generation and editing. Collectively, these findings highlight autoregressive modeling, when paired with strong representations and preference optimization, as a scalable foundation for multimodal intelligence. Code: https://github.com/wdrink/ARM.