RAISE: Anforderungsadaptive evolutionäre Verfeinerung für trainingsfreie Text-zu-Bild-Ausrichtung
RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment
February 28, 2026
Autoren: Liyao Jiang, Ruichen Chen, Chao Gao, Di Niu
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild (T2I) Diffusionsmodelle erreichen eine bemerkenswerte Realismus, dennoch bleibt eine zuverlässige Prompt-Bild-Übereinstimmung eine Herausforderung, insbesondere für komplexe Prompts mit mehreren Objekten, Relationen und feingranularen Attributen. Bestehende trainierungsfreie Inferenzzeit-Skalierungsmethoden verlassen sich auf feste Iterationsbudgets, die sich nicht an die Prompt-Schwierigkeit anpassen können, während reflektionsoptimierte Modelle sorgfältig kuratierte Reflektionsdatensätze und umfangreiche gemeinsame Feinabstimmung von Diffusions- und Vision-Language-Modellen erfordern, was oft zu einer Überanpassung an Reflektionspfaddaten führt und die Übertragbarkeit zwischen Modellen beeinträchtigt. Wir stellen RAISE (Requirement-Adaptive Self-Improving Evolution) vor, ein trainierungsfreies, anforderungsgetriebenes evolutionäres Framework für adaptive T2I-Generierung. RAISE formuliert Bildgenerierung als einen anforderungsgetriebenen adaptiven Skalierungsprozess, der einen Kandidatenpool zur Inferenzzeit durch eine Vielzahl von Verfeinerungsaktionen entwickelt – einschließlich Prompt-Rewriting, Rausch-Resampling und instruktionsbasiertem Editieren. Jede Generation wird anhand einer strukturierten Checkliste von Anforderungen verifiziert, was es dem System ermöglicht, dynamisch unerfüllte Punkte zu identifizieren und weitere Berechnungen nur dort zuzuteilen, wo sie benötigt werden. Dies erreicht eine adaptive Testzeit-Skalierung, die den Rechenaufwand mit der semantischen Abfragekomplexität in Einklang bringt. Auf GenEval und DrawBench erzielt RAISE state-of-the-art Alignment (0,94 insgesamt auf GenEval) bei gleichzeitig weniger generierten Samples (reduziert um 30-40 %) und VLM-Aufrufen (reduziert um 80 %) im Vergleich zu früheren Skalierungs- und reflektionsoptimierten Baselines, was effiziente, generalisierbare und modell-agnostische mehrstufige Selbstverbesserung demonstriert. Code ist verfügbar unter https://github.com/LiyaoJiang1998/RAISE.
English
Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.