ChatPaper.aiChatPaper

SimpleAR: Avanzando la frontera de la generación visual autoregresiva mediante preentrenamiento, ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL)

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

April 15, 2025
Autores: Junke Wang, Zhi Tian, Xun Wang, Xinyu Zhang, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Resumen

Este trabajo presenta SimpleAR, un marco de generación visual autorregresivo básico sin modificaciones arquitectónicas complejas. A través de una exploración cuidadosa de la optimización en el entrenamiento y la inferencia, demostramos que: 1) con solo 0.5 mil millones de parámetros, nuestro modelo puede generar imágenes de resolución 1024x1024 con alta fidelidad y lograr resultados competitivos en benchmarks desafiantes de texto a imagen, por ejemplo, 0.59 en GenEval y 79.66 en DPG; 2) tanto el ajuste fino supervisado (SFT) como el entrenamiento con Optimización de Política Relativa de Grupo (GRPO) pueden conducir a mejoras significativas en la estética de la generación y la alineación con el prompt; y 3) cuando se optimiza con técnicas de aceleración de inferencia como vLLM, el tiempo que tarda SimpleAR en generar una imagen de 1024x1024 puede reducirse a alrededor de 14 segundos. Al compartir estos hallazgos y hacer el código de código abierto, esperamos revelar el potencial de la generación visual autorregresiva y fomentar una mayor participación en este campo de investigación. El código está disponible en https://github.com/wdrink/SimpleAR.
English
This work presents SimpleAR, a vanilla autoregressive visual generation framework without complex architecure modifications. Through careful exploration of training and inference optimization, we demonstrate that: 1) with only 0.5B parameters, our model can generate 1024x1024 resolution images with high fidelity, and achieve competitive results on challenging text-to-image benchmarks, e.g., 0.59 on GenEval and 79.66 on DPG; 2) both supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) training could lead to significant improvements on generation aesthectics and prompt alignment; and 3) when optimized with inference acceleraton techniques like vLLM, the time for SimpleAR to generate an 1024x1024 image could be reduced to around 14 seconds. By sharing these findings and open-sourcing the code, we hope to reveal the potential of autoregressive visual generation and encourage more participation in this research field. Code is available at https://github.com/wdrink/SimpleAR.

Summary

AI-Generated Summary

PDF121April 16, 2025