ChatPaper.aiChatPaper

Zelfevaluatie ontsluit tekst-naar-beeldgeneratie in elke stap

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

December 26, 2025
Auteurs: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan
cs.AI

Samenvatting

Wij introduceren het Self-Evaluating Model (Self-E), een nieuwe, from-scratch trainingsaanpak voor tekst-naar-beeld generatie die inferentie met een willekeurig aantal stappen ondersteunt. Self-E leert van data op een vergelijkbare manier als een Flow Matching-model, maar gebruikt tegelijkertijd een nieuw zelfevaluatiemechanisme: het evalueert zijn eigen gegenereerde samples met behulp van zijn huidige score-schattingen, en fungeert zo effectief als een dynamische zelf-leraar. In tegenstelling tot traditionele diffusie- of flowmodellen, vertrouwt het niet uitsluitend op lokale supervisie, wat typisch veel inferentiestappen vereist. In tegenstelling tot op distillatie gebaseerde benaderingen, vereist het geen voorgetrainde leraar. Deze combinatie van onmiddellijk lokaal leren en zelfgestuurd globaal matchen overbrugt de kloof tussen de twee paradigma's, waardoor het mogelijk wordt een hoogwaardig tekst-naar-beeld model from scratch te trainen dat uitblinkt, zelfs bij een zeer laag aantal stappen. Uitgebreide experimenten op grootschalige tekst-naar-beeld benchmarks tonen aan dat Self-E niet alleen uitmunt in generatie met weinig stappen, maar ook concurrerend is met state-of-the-art Flow Matching-modellen bij 50 stappen. Wij stellen verder vast dat de prestaties monotoon verbeteren naarmate het aantal inferentiestappen toeneemt, wat zowel ultra-snelle generatie met weinig stappen als hoogwaardige sampling met lange trajecten binnen één verenigd model mogelijk maakt. Voor zover wij weten, is Self-E het eerste from-scratch, any-step tekst-naar-beeld model, dat een verenigd raamwerk biedt voor efficiënte en schaalbare generatie.
English
We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.
PDF11December 31, 2025