RAISE: Affinamento Evolutivo Adattivo ai Requisiti per l'Allineamento Testo-Immagine Senza Addestramento

Abstract

I recenti modelli di diffusione text-to-image (T2I) raggiungono un realismo notevole, ma un allineamento fedele tra prompt e immagine rimane una sfida, specialmente per prompt complessi con oggetti multipli, relazioni e attributi granulari. I metodi di scaling inference-time esistenti, privi di addestramento, si basano su budget di iterazione fissi che non possono adattarsi alla difficoltà del prompt, mentre i modelli ottimizzati con reflection richiedono dataset di reflection accuratamente curati e un'estesa messa a punto congiunta di modelli di diffusione e modelli visione-linguaggio, spesso sovradattandosi ai dati dei percorsi di reflection e mancando di trasferibilità tra modelli. Introduciamo RAISE (Requirement-Adaptive Self-Improving Evolution), un framework evolutivo, privo di addestramento e guidato dai requisiti, per la generazione T2I adattiva. RAISE formula la generazione di immagini come un processo di scaling adattivo guidato dai requisiti, facendo evolvere una popolazione di candidati al momento dell'inferenza attraverso un insieme diversificato di azioni di raffinamento, incluse riscrittura del prompt, ricampionamento del rumore e editing istruzionale. Ogni generazione viene verificata rispetto a una lista di controllo strutturata dei requisiti, consentendo al sistema di identificare dinamicamente gli elementi non soddisfatti e allocare ulteriore calcolo solo dove necessario. Ciò realizza uno scaling adattivo al test-time che allinea lo sforzo computazionale con la complessità semantica della query. Su GenEval e DrawBench, RAISE raggiunge un allineamento allo stato dell'arte (0.94 complessivo su GenEval) comportando meno campioni generati (ridotti del 30-40%) e chiamate VLM (ridotte dell'80%) rispetto ai baseline precedenti di scaling e modelli ottimizzati con reflection, dimostrando un auto-miglioramento multi-round efficiente, generalizzabile e modello-agnostico. Il codice è disponibile all'indirizzo https://github.com/LiyaoJiang1998/RAISE.

English

Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.

RAISE: Affinamento Evolutivo Adattivo ai Requisiti per l'Allineamento Testo-Immagine Senza Addestramento

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Abstract

Support