Repensando o Design de Prompts para a Escalabilidade em Tempo de Inferência na Geração Texto-Visual
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
December 3, 2025
Autores: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI
Resumo
A obtenção de um alinhamento preciso entre a intenção do utilizador e os visuais gerados continua a ser um desafio central na geração de texto para visual, uma vez que uma única tentativa frequentemente falha em produzir o resultado desejado. Para lidar com isto, as abordagens anteriores escalonam principalmente o processo de geração visual (por exemplo, aumentando os passos de amostragem ou as sementes), mas isso rapidamente leva a um platô de qualidade. Esta limitação surge porque o *prompt*, crucial para orientar a geração, é mantido fixo. Para resolver isto, propomos o Redesenho de *Prompt* para Escalonamento no Momento da Inferência, denominado PRIS, um quadro que revê adaptativamente o *prompt* durante a inferência em resposta aos visuais gerados em escala. A ideia central do PRIS é rever os visuais gerados, identificar padrões de falha recorrentes entre os visuais e redesenhar o *prompt* em conformidade antes de regenerar os visuais com o *prompt* revisto. Para fornecer um *feedback* de alinhamento preciso para a revisão do *prompt*, introduzimos um novo verificador, a correção factual a nível de elemento, que avalia o alinhamento entre os atributos do *prompt* e os visuais gerados a um nível granular, alcançando avaliações mais precisas e interpretáveis do que as medidas holísticas. Experiências extensas em benchmarks de texto para imagem e texto para vídeo demonstram a eficácia da nossa abordagem, incluindo um ganho de 15% no VBench 2.0. Estes resultados destacam que escalonar conjuntamente os *prompts* e os visuais é a chave para aproveitar totalmente as leis de escalonamento no momento da inferência. As visualizações estão disponíveis no site: https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.