RAISE: Refinamento Evolutivo Adaptativo de Requisitos para Alinhamento Texto-Imagem sem Treinamento
RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment
February 28, 2026
Autores: Liyao Jiang, Ruichen Chen, Chao Gao, Di Niu
cs.AI
Resumo
Os recentes modelos de difusão texto-imagem (T2I) alcançam um realismo notável, mas o alinhamento fiel entre prompt e imagem continua a ser um desafio, particularmente para prompts complexos com múltiplos objetos, relações e atributos de granularidade fina. Os métodos de escala *free-training* existentes no momento da inferência dependem de orçamentos de iteração fixos que não se adaptam à dificuldade do prompt, enquanto os modelos sintonizados por reflexão exigem conjuntos de dados de reflexão cuidadosamente curados e um extenso ajuste fino conjunto de modelos de difusão e de visão e linguagem, muitas vezes sobreajustando-se aos dados de caminhos de reflexão e carecendo de transferibilidade entre modelos. Apresentamos o RAISE (*Requirement-Adaptive Self-Improving Evolution*), um quadro evolutivo de autoaperfeiçoamento, *training-free* e orientado por requisitos para geração adaptativa de T2I. O RAISE formula a geração de imagens como um processo de escalonamento adaptativo orientado por requisitos, evoluindo uma população de candidatos no momento da inferência através de um conjunto diversificado de ações de refinamento — incluindo reescrita de prompt, reamostragem de ruído e edição instrucional. Cada geração é verificada em relação a uma lista de verificação estruturada de requisitos, permitindo que o sistema identifique dinamicamente itens não satisfeitos e aloque mais computação apenas onde necessário. Isto alcança um escalonamento adaptativo no tempo de teste que alinha o esforço computacional com a complexidade semântica da consulta. No GenEval e no DrawBench, o RAISE atinge um alinhamento de última geração (0,94 no GenEval geral) enquanto incorre em menos amostras geradas (reduzidas em 30-40%) e chamadas VLM (reduzidas em 80%) do que as linhas de base anteriores de escalonamento e sintonizadas por reflexão, demonstrando um autoaperfeiçoamento multi-round eficiente, generalizável e agnóstico ao modelo. O código está disponível em https://github.com/LiyaoJiang1998/RAISE.
English
Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.