VARGPT-v1.1: 반복적 명령어 튜닝과 강화 학습을 통한 시각적 자기회귀 대형 통합 모델 개선
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning
April 3, 2025
저자: Xianwei Zhuang, Yuxin Xie, Yufan Deng, Dongchao Yang, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou
cs.AI
초록
본 연구에서는 기존 VARGPT 프레임워크를 기반으로 한 고급 통합 시각적 자기회귀 모델인 VARGPT-v1.1을 소개한다. 이 모델은 시각적 이해를 위한 다음 토큰 예측과 이미지 합성을 위한 다음 스케일 생성이라는 이중 패러다임을 유지한다. 구체적으로, VARGPT-v1.1은 다음과 같은 요소를 통합하였다: (1) 반복적 시각적 지시 튜닝과 Direct Preference Optimization(DPO)을 통한 강화 학습을 결합한 새로운 훈련 전략, (2) 830만 개의 시각-생성 지시 쌍을 포함한 확장된 훈련 코퍼스, (3) Qwen2를 사용한 업그레이드된 언어 모델 백본, (4) 향상된 이미지 생성 해상도, (5) 아키텍처 변경 없이 구현된 이미지 편집 기능. 이러한 개선 사항들은 VARGPT-v1.1이 다중모달 이해 및 텍스트-이미지 지시 수행 작업에서 최첨단 성능을 달성하도록 하여, 이해와 생성 지표 모두에서 상당한 향상을 보여준다. 특히, 시각적 지시 튜닝을 통해 이 모델은 이전 버전과의 아키텍처 일관성을 유지하면서 이미지 편집 기능을 획득하며, 통합된 시각적 이해, 생성, 편집의 잠재력을 보여준다. 우리의 연구 결과는 잘 설계된 통합 시각적 자기회귀 모델이 대형 언어 모델(LLM)의 유연한 훈련 전략을 효과적으로 채택할 수 있으며, 유망한 확장성을 보인다는 것을 시사한다. 코드베이스와 모델 가중치는 https://github.com/VARGPT-family/VARGPT-v1.1에서 공개되어 있다.
English
In this work, we present VARGPT-v1.1, an advanced unified visual
autoregressive model that builds upon our previous framework VARGPT. The model
preserves the dual paradigm of next-token prediction for visual understanding
and next-scale generation for image synthesis. Specifically, VARGPT-v1.1
integrates: (1) a novel training strategy combining iterative visual
instruction tuning with reinforcement learning through Direct Preference
Optimization (DPO), (2) an expanded training corpus containing 8.3M
visual-generative instruction pairs, (3) an upgraded language model backbone
using Qwen2, (4) enhanced image generation resolution, and (5) emergent image
editing capabilities without architectural modifications. These advancements
enable VARGPT-v1.1 to achieve state-of-the-art performance in multimodal
understanding and text-to-image instruction-following tasks, demonstrating
significant improvements in both comprehension and generation metrics. Notably,
through visual instruction tuning, the model acquires image editing
functionality while maintaining architectural consistency with its predecessor,
revealing the potential for unified visual understanding, generation, and
editing. Our findings suggest that well-designed unified visual autoregressive
models can effectively adopt flexible training strategies from large language
models (LLMs), exhibiting promising scalability. The codebase and model weights
are publicly available at https://github.com/VARGPT-family/VARGPT-v1.1.Summary
AI-Generated Summary