RAISE: Vereiste-Adaptieve Evolutionaire Verfijning voor Trainingsvrije Tekst-naar-Beeld Afstemming

Samenvatting

Recente tekst-naar-beeld (T2I) diffusiemodellen bereiken opmerkelijke realisme, maar getrouwe prompt-beeld-afstemming blijft een uitdaging, vooral voor complexe prompts met meerdere objecten, relaties en fijnmazige attributen. Bestaande trainingsvrije inferentie-tijd schalingsmethoden vertrouwen op vaste iteratiebudgetten die zich niet kunnen aanpassen aan de moeilijkheidsgraad van de prompt, terwijl reflectie-afgestemde modellen zorgvuldig samengestelde reflectiedatasets en uitgebreide gezamenlijke fine-tuning van diffusie- en vision-language modellen vereisen, wat vaak leidt tot overfitting op reflectiepaddata en gebrek aan overdraagbaarheid tussen modellen. Wij introduceren RAISE (Requirement-Adaptive Self-Improving Evolution), een trainingsvrij, eis-gestuurd evolutionair raamwerk voor adaptieve T2I-generatie. RAISE formuleert beeldgeneratie als een eis-gestuurd adaptief schalingsproces, waarbij een populatie van kandidaten tijdens inferentie wordt geëvolueerd via een diverse set van verfijningsacties - inclusief promptherschrijving, ruisherbemonstering en instructionele bewerking. Elke generatie wordt geverifieerd aan de hand van een gestructureerde checklist van eisen, waardoor het systeem dynamisch onbevredigde items kan identificeren en verdere berekening alleen toewijst waar nodig. Dit resulteert in adaptieve testtijd-schaling die de rekeninspanning afstemt op de semantische querycomplexiteit. Op GenEval en DrawBench behaalt RAISE state-of-the-art afstemming (0.94 overall GenEval) met minder gegenereerde samples (30-40% reductie) en VLM-aanroepen (80% reductie) dan eerdere schalings- en reflectie-afgestemde baseline-methoden, wat efficiënte, generaliseerbare en model-agnostische multi-round zelfverbetering aantoont. Code is beschikbaar op https://github.com/LiyaoJiang1998/RAISE.

English

Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.

RAISE: Vereiste-Adaptieve Evolutionaire Verfijning voor Trainingsvrije Tekst-naar-Beeld Afstemming

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Samenvatting

Support