ARM : Un grand modèle multimodal autorégressif avec des représentations discrètes unifiées

Résumé

Cet article présente ARM, un modèle autorégressif basé sur une représentation discrète qui unifie la compréhension, la génération et l'édition d'images dans un cadre de prédiction du prochain jeton. ARM repose sur trois volets : premièrement, nous entraînons un tokenizer visuel sémantique discret qui transforme les images en séquences de jetons compactes. Notre tokenizer est supervisé par plusieurs objectifs qui favorisent conjointement la discriminabilité sémantique, l'alignement linguistique et une reconstruction fidèle, permettant ainsi de prendre en charge diverses tâches dans un espace latent partagé. Grâce à cela, nous entraînons un modèle autorégressif de 7 milliards de paramètres sur de vastes séquences de jetons textuels et d'images, développant harmonieusement des capacités de perception et de génération vision-langage. Enfin, pour améliorer davantage le comportement aligné sur les préférences pour la génération texte-à-image et l'édition guidée par instructions, ARM applique l'apprentissage par renforcement (RL) afin d'optimiser des objectifs au niveau des tâches, tels que la qualité visuelle, le respect des instructions et la cohérence de l'édition. De manière surprenante, les résultats montrent que le RL améliore non seulement substantiellement les performances sur les tâches cibles (par exemple, en faisant passer le score WISE global de 0,50 à 0,56, et le G_O de GEdit-Bench-EN de 5,75 à 6,68), mais induit également une synergie entre les tâches de génération texte-à-image et d'édition. Collectivement, ces résultats soulignent que la modélisation autorégressive, lorsqu'elle est associée à des représentations solides et à une optimisation des préférences, constitue une base scalable pour l'intelligence multimodale. Code : https://github.com/wdrink/ARM.

English

This paper introduces ARM, a discrete representation-based AutoRegressive Model that unifies image understanding, generation, and editing within a next-token prediction framework. ARM is built on three efforts: first, we train a discrete semantic visual tokenizer that maps images into compact token sequences. Our tokenizer is supervised with multiple objectives that jointly promote semantic discriminability, language alignment and faithful reconstruction, thereby supporting diverse tasks in a shared latent space. With this, we train a 7B autoregressive model over large-scale text and image token sequences, seamlessly developing vision-language perception and generation capabilities. Finally, to further improve preference-aligned behavior for text-to-image generation and instruction-guided editing, ARM applies reinforcement learning (RL) to optimize task-level objectives such as visual quality, instruction adherence, and edit consistency. Surprisingly, the results show that RL not only substantially improves performance on the target tasks (e.g., raising WISE overall from 0.50 to 0.56, GEdit-Bench-EN G_O from 5.75 to 6.68), but also induces cross-task synergy between text-to-image generation and editing. Collectively, these findings highlight autoregressive modeling, when paired with strong representations and preference optimization, as a scalable foundation for multimodal intelligence. Code: https://github.com/wdrink/ARM.