RAISE : Raffinement Évolutif Adaptatif aux Exigences pour l'Alignement Texte-Image sans Entraînement

Résumé

Les modèles de diffusion récents pour la génération d'images à partir de texte (T2I) atteignent un réalisme remarquable, mais l'alignement fidèle entre l'invite et l'image reste difficile, particulièrement pour les invites complexes comportant de multiples objets, relations et attributs granulaires. Les méthodes d'échelle à l'inférence sans entraînement existantes reposent sur des budgets d'itération fixes qui ne peuvent pas s'adapter à la difficulté de l'invite, tandis que les modèles ajustés par réflexion nécessitent des jeux de données de réflexion soigneusement constitués et un réglage fin conjoint extensif des modèles de diffusion et vision-langage, sujets au surapprentissage des données de chemins de réflexion et manquant de transférabilité entre modèles. Nous présentons RAISE (Requirement-Adaptive Self-Improving Evolution), un cadre évolutif sans entraînement et piloté par les exigences pour une génération d'images T2I adaptative. RAISE formule la génération d'image comme un processus d'échelle adaptatif piloté par les exigences, faisant évoluer une population de candidats au moment de l'inférence grâce à un ensemble diversifié d'actions de raffinement - incluant la réécriture de l'invite, le rééchantillonnage du bruit et l'édition instructionnelle. Chaque génération est vérifiée par rapport à une liste de contrôle structurée des exigences, permettant au système d'identifier dynamiquement les éléments non satisfaits et d'allouer des calculs supplémentaires uniquement là où c'est nécessaire. Cela permet une mise à l'échelle adaptative au moment du test qui aligne l'effort computationnel sur la complexité sémantique de la requête. Sur GenEval et DrawBench, RAISE atteint un alignement de pointe (0,94 global sur GenEval) tout en générant moins d'échantillons (réduits de 30 à 40 %) et moins d'appels aux modèles vision-langage (réduits de 80 %) que les méthodes d'échelle et les modèles ajustés par réflexion précédents, démontrant une auto-amélioration multi-tours efficace, généralisable et agnostique au modèle. Le code est disponible à l'adresse https://github.com/LiyaoJiang1998/RAISE.

English

Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.

RAISE : Raffinement Évolutif Adaptatif aux Exigences pour l'Alignement Texte-Image sans Entraînement

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Résumé

Support