ARM: Um grande modelo multimodal autorregressivo com representações discretas unificadas

Resumo

Este artigo apresenta o ARM, um Modelo Autorregressivo baseado em representações discretas que unifica compreensão, geração e edição de imagens em uma estrutura de previsão do próximo token. O ARM baseia-se em três esforços: primeiro, treinamos um tokenizador visual semântico discreto que mapeia imagens em sequências compactas de tokens. Nosso tokenizador é supervisionado com múltiplos objetivos que promovem conjuntamente discriminabilidade semântica, alinhamento linguístico e reconstrução fiel, suportando assim diversas tarefas em um espaço latente compartilhado. Com isso, treinamos um modelo autorregressivo de 7B em sequências de tokens de texto e imagem em grande escala, desenvolvendo naturalmente capacidades de percepção e geração visão-linguagem. Finalmente, para melhorar ainda mais o comportamento alinhado a preferências para geração de texto para imagem e edição guiada por instruções, o ARM aplica aprendizado por reforço (RL) para otimizar objetivos em nível de tarefa, como qualidade visual, adesão a instruções e consistência de edição. Surpreendentemente, os resultados mostram que o RL não apenas melhora substancialmente o desempenho nas tarefas-alvo (por exemplo, elevando o WISE geral de 0,50 para 0,56, e o G_O do GEdit-Bench-EN de 5,75 para 6,68), mas também induz sinergia entre tarefas de geração de texto para imagem e edição. Coletivamente, essas descobertas destacam a modelagem autorregressiva, quando combinada com representações fortes e otimização de preferências, como uma base escalável para inteligência multimodal. Código: https://github.com/wdrink/ARM.

English

This paper introduces ARM, a discrete representation-based AutoRegressive Model that unifies image understanding, generation, and editing within a next-token prediction framework. ARM is built on three efforts: first, we train a discrete semantic visual tokenizer that maps images into compact token sequences. Our tokenizer is supervised with multiple objectives that jointly promote semantic discriminability, language alignment and faithful reconstruction, thereby supporting diverse tasks in a shared latent space. With this, we train a 7B autoregressive model over large-scale text and image token sequences, seamlessly developing vision-language perception and generation capabilities. Finally, to further improve preference-aligned behavior for text-to-image generation and instruction-guided editing, ARM applies reinforcement learning (RL) to optimize task-level objectives such as visual quality, instruction adherence, and edit consistency. Surprisingly, the results show that RL not only substantially improves performance on the target tasks (e.g., raising WISE overall from 0.50 to 0.56, GEdit-Bench-EN G_O from 5.75 to 6.68), but also induces cross-task synergy between text-to-image generation and editing. Collectively, these findings highlight autoregressive modeling, when paired with strong representations and preference optimization, as a scalable foundation for multimodal intelligence. Code: https://github.com/wdrink/ARM.