ChatPaper.aiChatPaper

자기 평가를 통한 임의 단계 텍스트-이미지 생성 구현

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

December 26, 2025
저자: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI

초록

우리는 텍스트-이미지 생성을 위한 단계 제약 없는(any-step) 추론을 지원하는 새로운 순수 학습(from-scratch) 접근법인 자체 평가 모델(Self-E)을 소개한다. Self-E는 Flow Matching 모델과 유사하게 데이터로부터 학습하는 동시에, 현재의 점수 추정치를 사용하여 자신이 생성한 샘플을 평가하는 새로운 자체 평가 메커니즘을 활용한다. 이는 효과적으로 동적 자체 교사(dynamic self-teacher) 역할을 수행한다. 기존의 확산(diffusion) 또는 플로우 모델과 달리, 많은 추론 단계를 필요로 하는 국소적 감독(local supervision)에만 의존하지 않는다. 증류(distillation) 기반 접근법과 달리, 사전 학습된 교사 모델이 필요하지 않다. 이러한 순간적 국소 학습과 자체 주도적 전역 매칭의 결합은 두 패러다임 간의 간극을 메우며, 매우 적은 단계에서도 뛰어난 성능을 발휘하는 고품질 텍스트-이미지 모델의 순수 학습을 가능하게 한다. 대규모 텍스트-이미지 벤치마크에서의 광범위한 실험을 통해 Self-E가 적은 단계 생성에서 뛰어날 뿐만 아니라, 50단계에서 최신 Flow Matching 모델들과도 경쟁력을 갖춘다는 것을 확인했다. 더 나아가 추론 단계가 증가함에 따라 성능이 단조롭게(monotonically) 향상되어, 단일 통합 모델 내에서 초고속 적은 단계 생성과 고품질 장주기(long-trajectory) 샘플링을 모두 가능하게 함을 발견했다. 우리가 아는 한, Self-E는 효율적이고 확장 가능한 생성을 위한 통합 프레임워크를 제공하는 최초의 순수 학습 기반 단계 제약 없는 텍스트-이미지 모델이다.
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.
PDF11December 31, 2025