ChatPaper.aiChatPaper

RAISE: Refinamiento Evolutivo Adaptativo de Requisitos para la Alineación Texto-Imagen sin Entrenamiento

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

February 28, 2026
Autores: Liyao Jiang, Ruichen Chen, Chao Gao, Di Niu
cs.AI

Resumen

Los modelos de difusión texto-imagen (T2I) recientes logran un realismo notable, pero la alineación fiel entre la instrucción y la imagen sigue siendo un desafío, particularmente para instrucciones complejas con múltiples objetos, relaciones y atributos detallados. Los métodos de escalado en tiempo de inferencia existentes, que no requieren entrenamiento, dependen de presupuestos de iteración fijos que no pueden adaptarse a la dificultad de la instrucción, mientras que los modelos ajustados por reflexión requieren conjuntos de datos de reflexión cuidadosamente seleccionados y un ajuste fino extensivo conjunto de modelos de difusión y modelos de visión y lenguaje, lo que a menudo genera sobreajuste a los datos de rutas de reflexión y carece de transferibilidad entre modelos. Presentamos RAISE (Evolución Automejoradora y Adaptativa a Requisitos), un marco evolutivo impulsado por requisitos y que no requiere entrenamiento para la generación T2I adaptativa. RAISE formula la generación de imágenes como un proceso de escalado adaptativo impulsado por requisitos, evolucionando una población de candidatos en tiempo de inferencia a través de un conjunto diverso de acciones de refinamiento, que incluyen reescritura de instrucciones, remuestreo de ruido y edición instructiva. Cada generación se verifica frente a una lista de verificación estructurada de requisitos, lo que permite al sistema identificar dinámicamente los elementos no satisfechos y asignar más cálculo solo donde sea necesario. Esto logra un escalado adaptativo en tiempo de prueba que alinea el esfuerzo computacional con la complejidad semántica de la consulta. En GenEval y DrawBench, RAISE alcanza una alineación de vanguardia (0.94 general en GenEval) mientras incurre en menos muestras generadas (reducidas en un 30-40%) y llamadas al Modelo de Visión y Lenguaje (reducidas en un 80%) que los métodos base anteriores de escalado y ajuste por reflexión, demostrando una automejora multirronda eficiente, generalizable y agnóstica al modelo. El código está disponible en https://github.com/LiyaoJiang1998/RAISE.
English
Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.
PDF31March 4, 2026