ChatPaper.aiChatPaper

Переосмысление разработки промптов для масштабирования на этапе вывода в задачах генерации изображений по тексту

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

December 3, 2025
Авторы: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI

Аннотация

Достижение точного соответствия между намерением пользователя и генерируемыми визуальными данными остается ключевой проблемой в генерации изображений и видео по текстовому описанию, поскольку единичная попытка часто не позволяет получить желаемый результат. Для решения этой проблемы предыдущие подходы в основном масштабировали процесс визуальной генерации (например, увеличивая количество шагов семплинга или сиды), но это быстро приводит к выходу на плато качества. Это ограничение возникает из-за того, что промпт, критически важный для управления генерацией, остается неизменным. Чтобы устранить это, мы предлагаем метод Prompt Redesign for Inference-time Scaling (PRIS) — фреймворк, который адаптивно пересматривает промпт во время инференса в ответ на масштабированные визуальные поколения. Основная идея PRIS заключается в анализе сгенерированных визуальных данных, выявлении повторяющихся паттернов ошибок и соответствующем изменении промпта перед повторной генерацией с пересмотренным промптом. Для обеспечения точной обратной связи по соответствию при пересмотре промпта мы вводим новый верификатор — фактологическую коррекцию на уровне элементов, который оценивает соответствие между атрибутами промпта и сгенерированными визуальными данными на детальном уровне, обеспечивая более точные и интерпретируемые оценки по сравнению с холистическими метриками. Многочисленные эксперименты на бенчмарках для генерации изображений и видео по тексту демонстрируют эффективность нашего подхода, включая улучшение на 15% на VBench 2.0. Эти результаты подчеркивают, что совместное масштабирование промптов и визуальных данных является ключом к полному использованию законов масштабирования во время инференса. Визуализации доступны на сайте: https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.
PDF151December 5, 2025