ARM: een autoregressief groot multimodaal model met geïntegreerde discrete representaties

Samenvatting

Dit artikel introduceert ARM, een op discrete representatie gebaseerd autoregressief model dat beeldbegrip, -generatie en -bewerking verenigt binnen een raamwerk van volgende-tokenvoorspelling. ARM is gebaseerd op drie inspanningen: ten eerste trainen we een discrete semantische visuele tokenizer die afbeeldingen omzet in compacte tokenreeksen. Onze tokenizer wordt gesuperviseerd met meerdere doelstellingen die gezamenlijk semantische onderscheidbaarheid, taalkundige afstemming en getrouwe reconstructie bevorderen, waardoor diverse taken in een gedeelde latente ruimte worden ondersteund. Hiermee trainen we een 7B autoregressief model op grootschalige tekst- en beeldtokenreeksen, waardoor naadloos visie-taalperceptie en -generatiecapaciteiten worden ontwikkeld. Ten slotte past ARM, om preferentie-afgestemd gedrag voor tekst-naar-beeldgeneratie en instructiegestuurde bewerking verder te verbeteren, reinforcement learning (RL) toe om taakniveau-doelstellingen zoals visuele kwaliteit, instructietrouw en bewerkingsconsistentie te optimaliseren. Verrassend genoeg tonen de resultaten aan dat RL niet alleen de prestaties op de doeltaken aanzienlijk verbetert (bijv. WISE overall van 0,50 naar 0,56, GEdit-Bench-EN G_O van 5,75 naar 6,68), maar ook cross-task synergie induceert tussen tekst-naar-beeldgeneratie en bewerking. Gezamenlijk benadrukken deze bevindingen dat autoregressieve modellering, in combinatie met sterke representaties en preferentie-optimalisatie, een schaalbare basis vormt voor multimodale intelligentie. Code: https://github.com/wdrink/ARM.

English

This paper introduces ARM, a discrete representation-based AutoRegressive Model that unifies image understanding, generation, and editing within a next-token prediction framework. ARM is built on three efforts: first, we train a discrete semantic visual tokenizer that maps images into compact token sequences. Our tokenizer is supervised with multiple objectives that jointly promote semantic discriminability, language alignment and faithful reconstruction, thereby supporting diverse tasks in a shared latent space. With this, we train a 7B autoregressive model over large-scale text and image token sequences, seamlessly developing vision-language perception and generation capabilities. Finally, to further improve preference-aligned behavior for text-to-image generation and instruction-guided editing, ARM applies reinforcement learning (RL) to optimize task-level objectives such as visual quality, instruction adherence, and edit consistency. Surprisingly, the results show that RL not only substantially improves performance on the target tasks (e.g., raising WISE overall from 0.50 to 0.56, GEdit-Bench-EN G_O from 5.75 to 6.68), but also induces cross-task synergy between text-to-image generation and editing. Collectively, these findings highlight autoregressive modeling, when paired with strong representations and preference optimization, as a scalable foundation for multimodal intelligence. Code: https://github.com/wdrink/ARM.