RAISE: Эволюционная адаптивная доработка требований для обучения без тренировки в согласовании текст-изображение

Аннотация

Современные диффузионные модели для генерации изображений по тексту (text-to-image, T2I) демонстрируют впечатляющий реализм, однако точное соответствие между текстовым запросом и изображением остается сложной задачей, особенно для комплексных промптов с множеством объектов, связей и детализированных атрибутов. Существующие методы масштабирования на этапе вывода, не требующие обучения, опираются на фиксированный бюджет итераций, не способный адаптироваться к сложности запроса, в то время как модели с настройкой через рефлексию требуют тщательно отобранных наборов данных для рефлексии и масштабной совместной дообучки диффузионных и визуально-языковых моделей, что часто приводит к переобучению на путях рефлексии и недостаточной переносимости между моделями. Мы представляем RAISE (Requirement-Adaptive Self-Improving Evolution) — не требующую обучения эволюционную систему для адаптивной генерации T2I, управляемую требованиями. RAISE формулирует генерацию изображения как процесс адаптивного масштабирования, направляемый требованиями, развивая на этапе вывода популяцию кандидатов с помощью разнообразных действий по улучшению, включая переформулирование промпта, повторную выборку шума и редактирование по инструкциям. Каждое поколение проверяется по структурированному контрольному списку требований, что позволяет системе динамически выявлять неудовлетворенные пункты и выделять дополнительные вычислительные ресурсы только там, где это необходимо. Это обеспечивает адаптивное масштабирование на этапе тестирования, согласующее вычислительные затраты со смысловой сложностью запроса. На наборах данных GenEval и DrawBench RAISE достигает наилучших показателей соответствия (0.94 по GenEval в целом), при этом генерируя меньше образцов (сокращение на 30–40%) и совершая меньше вызовов визуально-языковой модели (сокращение на 80%) по сравнению с предыдущими методами масштабирования и моделями с настройкой через рефлексию, демонстрируя эффективное, обобщаемое и модельно-агностическое самосовершенствование в несколько раундов. Код доступен по адресу https://github.com/LiyaoJiang1998/RAISE.

English

Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.

RAISE: Эволюционная адаптивная доработка требований для обучения без тренировки в согласовании текст-изображение

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Аннотация

Support