ChatPaper.aiChatPaper

빠른 포토리얼리즘 텍스트-이미지 생성을 위한 보상만으로 충분하다

Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

March 17, 2025
저자: Yihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang
cs.AI

초록

복잡한 텍스트 프롬프트와 인간의 선호도에 맞춰 생성된 이미지를 정렬하는 것은 인공지능 생성 콘텐츠(AIGC) 분야의 핵심 과제입니다. 보상 강화 확산 증류(reward-enhanced diffusion distillation)가 텍스트-이미지 모델의 제어 가능성과 충실도를 향상시키는 유망한 접근법으로 부상함에 따라, 우리는 근본적인 패러다임 전환을 확인했습니다: 조건이 더 구체적이고 보상 신호가 강해질수록, 보상 자체가 생성 과정에서 지배적인 힘으로 작용하게 됩니다. 이와 대조적으로, 확산 손실은 지나치게 비용이 많이 드는 정규화 형태로 작용합니다. 우리의 가설을 철저히 검증하기 위해, 우리는 정규화된 보상 최대화를 통한 새로운 조건부 생성 접근법인 R0를 소개합니다. R0는 까다로운 확산 증류 손실에 의존하는 대신, 이미지 생성을 데이터 공간에서의 최적화 문제로 간주하는 새로운 관점을 제안합니다. 이는 높은 구성적 보상을 가지는 유효한 이미지를 탐색하는 것을 목표로 합니다. 생성기 매개변수화의 혁신적인 설계와 적절한 정규화 기술을 통해, 우리는 R0를 사용하여 최첨단의 소수 단계 텍스트-이미지 생성 모델을 대규모로 학습시켰습니다. 우리의 결과는 복잡한 조건이 있는 시나리오에서 보상이 지배적인 역할을 한다는 것을 입증함으로써, 확산 사후 학습과 조건부 생성에 대한 기존의 통념에 도전합니다. 우리는 이러한 발견이 AIGC 전반에 걸친 인간 중심 및 보상 중심 생성 패러다임에 대한 추가 연구에 기여할 수 있기를 바랍니다. 코드는 https://github.com/Luo-Yihong/R0에서 확인할 수 있습니다.
English
Aligning generated images to complicated text prompts and human preferences is a central challenge in Artificial Intelligence-Generated Content (AIGC). With reward-enhanced diffusion distillation emerging as a promising approach that boosts controllability and fidelity of text-to-image models, we identify a fundamental paradigm shift: as conditions become more specific and reward signals stronger, the rewards themselves become the dominant force in generation. In contrast, the diffusion losses serve as an overly expensive form of regularization. To thoroughly validate our hypothesis, we introduce R0, a novel conditional generation approach via regularized reward maximization. Instead of relying on tricky diffusion distillation losses, R0 proposes a new perspective that treats image generations as an optimization problem in data space which aims to search for valid images that have high compositional rewards. By innovative designs of the generator parameterization and proper regularization techniques, we train state-of-the-art few-step text-to-image generative models with R0 at scales. Our results challenge the conventional wisdom of diffusion post-training and conditional generation by demonstrating that rewards play a dominant role in scenarios with complex conditions. We hope our findings can contribute to further research into human-centric and reward-centric generation paradigms across the broader field of AIGC. Code is available at https://github.com/Luo-Yihong/R0.

Summary

AI-Generated Summary

PDF92March 18, 2025