ChatPaper.aiChatPaper

전이 모델: 생성적 학습 목표 재고하기

Transition Models: Rethinking the Generative Learning Objective

September 4, 2025
저자: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI

초록

생성 모델링에서 근본적인 딜레마가 지속되고 있습니다: 반복적 확산 모델은 뛰어난 정확도를 달성하지만 상당한 계산 비용이 발생하며, 효율적인 소수 단계 대안은 엄격한 품질 상한에 제약을 받습니다. 생성 단계와 출력 품질 간의 이러한 갈등은 극소 역학(PF-ODEs)이나 직접적인 종단점 예측에만 초점을 맞춘 제한적인 훈련 목표에서 비롯됩니다. 우리는 이 문제를 해결하기 위해 임의의 유한 시간 간격에 걸쳐 상태 전이를 분석적으로 정의하는 정확한 연속 시간 역학 방정식을 도입합니다. 이는 새로운 생성 패러다임인 전이 모델(Transition Models, TiM)로 이어지며, TiM은 임의의 단계 전이에 적응하여 단일 도약부터 더 많은 단계를 통한 세밀한 정제까지 생성 궤적을 원활하게 탐색합니다. 865M 매개변수만을 가지고도 TiM은 모든 평가된 단계 수에서 SD3.5(8B 매개변수) 및 FLUX.1(12B 매개변수)과 같은 선두 모델을 능가하는 최첨단 성능을 달성합니다. 중요한 것은, 이전의 소수 단계 생성기와 달리 TiM은 샘플링 예산이 증가함에 따라 단조로운 품질 개선을 보여줍니다. 또한, 우리의 기본 해상도 전략을 사용할 때 TiM은 최대 4096x4096 해상도에서도 탁월한 정확도를 제공합니다.
English
A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.
PDF142September 5, 2025