ChatPaper.aiChatPaper

VARGPT-v1.1: 반복적 명령어 튜닝과 강화 학습을 통한 시각적 자기회귀 대형 통합 모델 개선

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

April 3, 2025
저자: Xianwei Zhuang, Yuxin Xie, Yufan Deng, Dongchao Yang, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou
cs.AI

초록

본 연구에서는 기존 VARGPT 프레임워크를 기반으로 한 고급 통합 시각적 자기회귀 모델인 VARGPT-v1.1을 소개한다. 이 모델은 시각적 이해를 위한 다음 토큰 예측과 이미지 합성을 위한 다음 스케일 생성이라는 이중 패러다임을 유지한다. 구체적으로, VARGPT-v1.1은 다음과 같은 요소를 통합하였다: (1) 반복적 시각적 지시 튜닝과 Direct Preference Optimization(DPO)을 통한 강화 학습을 결합한 새로운 훈련 전략, (2) 830만 개의 시각-생성 지시 쌍을 포함한 확장된 훈련 코퍼스, (3) Qwen2를 사용한 업그레이드된 언어 모델 백본, (4) 향상된 이미지 생성 해상도, (5) 아키텍처 변경 없이 구현된 이미지 편집 기능. 이러한 개선 사항들은 VARGPT-v1.1이 다중모달 이해 및 텍스트-이미지 지시 수행 작업에서 최첨단 성능을 달성하도록 하여, 이해와 생성 지표 모두에서 상당한 향상을 보여준다. 특히, 시각적 지시 튜닝을 통해 이 모델은 이전 버전과의 아키텍처 일관성을 유지하면서 이미지 편집 기능을 획득하며, 통합된 시각적 이해, 생성, 편집의 잠재력을 보여준다. 우리의 연구 결과는 잘 설계된 통합 시각적 자기회귀 모델이 대형 언어 모델(LLM)의 유연한 훈련 전략을 효과적으로 채택할 수 있으며, 유망한 확장성을 보인다는 것을 시사한다. 코드베이스와 모델 가중치는 https://github.com/VARGPT-family/VARGPT-v1.1에서 공개되어 있다.
English
In this work, we present VARGPT-v1.1, an advanced unified visual autoregressive model that builds upon our previous framework VARGPT. The model preserves the dual paradigm of next-token prediction for visual understanding and next-scale generation for image synthesis. Specifically, VARGPT-v1.1 integrates: (1) a novel training strategy combining iterative visual instruction tuning with reinforcement learning through Direct Preference Optimization (DPO), (2) an expanded training corpus containing 8.3M visual-generative instruction pairs, (3) an upgraded language model backbone using Qwen2, (4) enhanced image generation resolution, and (5) emergent image editing capabilities without architectural modifications. These advancements enable VARGPT-v1.1 to achieve state-of-the-art performance in multimodal understanding and text-to-image instruction-following tasks, demonstrating significant improvements in both comprehension and generation metrics. Notably, through visual instruction tuning, the model acquires image editing functionality while maintaining architectural consistency with its predecessor, revealing the potential for unified visual understanding, generation, and editing. Our findings suggest that well-designed unified visual autoregressive models can effectively adopt flexible training strategies from large language models (LLMs), exhibiting promising scalability. The codebase and model weights are publicly available at https://github.com/VARGPT-family/VARGPT-v1.1.

Summary

AI-Generated Summary

PDF202April 7, 2025