ChatPaper.aiChatPaper

Replanteamiento del Diseño de Indicaciones para la Escalabilidad en Tiempo de Inferencia en la Generación de Texto a Visual

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

December 3, 2025
Autores: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI

Resumen

Lograr una alineación precisa entre la intención del usuario y los elementos visuales generados sigue siendo un desafío central en la generación de texto a visual, ya que un único intento a menudo no produce el resultado deseado. Para manejar esto, los enfoques anteriores principalmente escalan el proceso de generación visual (por ejemplo, aumentando los pasos de muestreo o las semillas), pero esto rápidamente conduce a una meseta de calidad. Esta limitación surge porque el *prompt*, crucial para guiar la generación, se mantiene fijo. Para abordar esto, proponemos el Rediseño de *Prompts* para el Escalado en Tiempo de Inferencia, denominado PRIS, un marco que revisa adaptativamente el *prompt* durante la inferencia en respuesta a las generaciones visuales escaladas. La idea central de PRIS es revisar los elementos visuales generados, identificar patrones de fallo recurrentes en ellos y rediseñar el *prompt* en consecuencia antes de regenerar los elementos visuales con el *prompt* revisado. Para proporcionar una retroalimentación de alineación precisa para la revisión del *prompt*, introducimos un nuevo verificador, la *corrección factual a nivel de elemento*, que evalúa la alineación entre los atributos del *prompt* y los elementos visuales generados a un nivel granular, logrando evaluaciones más precisas e interpretables que las medidas holísticas. Experimentos exhaustivos en benchmarks de texto-a-imagen y texto-a-vídeo demuestran la efectividad de nuestro enfoque, incluyendo una mejora del 15% en VBench 2.0. Estos resultados destacan que escalar conjuntamente los *prompts* y los elementos visuales es clave para aprovechar plenamente las leyes de escalado en tiempo de inferencia. Las visualizaciones están disponibles en el sitio web: https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.
PDF151December 5, 2025