VARGPT-v1.1 : Amélioration du modèle unifié visuel autoregressif à grande échelle via un réglage itératif des instructions et un apprentissage par renforcement
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning
April 3, 2025
Auteurs: Xianwei Zhuang, Yuxin Xie, Yufan Deng, Dongchao Yang, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou
cs.AI
Résumé
Dans ce travail, nous présentons VARGPT-v1.1, un modèle visuel autorégressif unifié avancé qui s'appuie sur notre précédent cadre VARGPT. Le modèle conserve le double paradigme de prédiction du token suivant pour la compréhension visuelle et de génération à l'échelle suivante pour la synthèse d'images. Plus précisément, VARGPT-v1.1 intègre : (1) une nouvelle stratégie d'entraînement combinant un réglage itératif d'instructions visuelles avec un apprentissage par renforcement via l'Optimisation Directe des Préférences (DPO), (2) un corpus d'entraînement élargi contenant 8,3 millions de paires d'instructions visuelles-génératives, (3) une architecture de modèle de langage améliorée utilisant Qwen2, (4) une résolution de génération d'images accrue, et (5) des capacités émergentes d'édition d'images sans modifications architecturales. Ces avancées permettent à VARGPT-v1.1 d'atteindre des performances de pointe dans les tâches de compréhension multimodale et de suivi d'instructions texte-à-image, démontrant des améliorations significatives à la fois dans les métriques de compréhension et de génération. Notamment, grâce au réglage d'instructions visuelles, le modèle acquiert des fonctionnalités d'édition d'images tout en maintenant une cohérence architecturale avec son prédécesseur, révélant le potentiel pour une compréhension, génération et édition visuelles unifiées. Nos résultats suggèrent que des modèles visuels autorégressifs unifiés bien conçus peuvent adopter efficacement des stratégies d'entraînement flexibles issues des grands modèles de langage (LLM), montrant une scalabilité prometteuse. Le code source et les poids du modèle sont disponibles publiquement à l'adresse https://github.com/VARGPT-family/VARGPT-v1.1.
English
In this work, we present VARGPT-v1.1, an advanced unified visual
autoregressive model that builds upon our previous framework VARGPT. The model
preserves the dual paradigm of next-token prediction for visual understanding
and next-scale generation for image synthesis. Specifically, VARGPT-v1.1
integrates: (1) a novel training strategy combining iterative visual
instruction tuning with reinforcement learning through Direct Preference
Optimization (DPO), (2) an expanded training corpus containing 8.3M
visual-generative instruction pairs, (3) an upgraded language model backbone
using Qwen2, (4) enhanced image generation resolution, and (5) emergent image
editing capabilities without architectural modifications. These advancements
enable VARGPT-v1.1 to achieve state-of-the-art performance in multimodal
understanding and text-to-image instruction-following tasks, demonstrating
significant improvements in both comprehension and generation metrics. Notably,
through visual instruction tuning, the model acquires image editing
functionality while maintaining architectural consistency with its predecessor,
revealing the potential for unified visual understanding, generation, and
editing. Our findings suggest that well-designed unified visual autoregressive
models can effectively adopt flexible training strategies from large language
models (LLMs), exhibiting promising scalability. The codebase and model weights
are publicly available at https://github.com/VARGPT-family/VARGPT-v1.1.Summary
AI-Generated Summary