Repenser la conception des prompts pour la mise à l'échelle lors de l'inférence dans la génération texte-visuel
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
December 3, 2025
papers.authors: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI
papers.abstract
L'alignement précis entre l'intention de l'utilisateur et les visuels générés reste un défi central dans la génération texte-visuel, car une seule tentative échoue souvent à produire le résultat souhaité. Pour y remédier, les approches antérieures consistent principalement à mettre à l'échelle le processus de génération visuelle (par exemple, en augmentant les étapes d'échantillonnage ou les germes aléatoires), mais cela atteint rapidement un plateau de qualité. Cette limitation provient du fait que l'instruction (prompt), cruciale pour guider la génération, reste fixe. Pour résoudre ce problème, nous proposons le Reparamétrage des Instructions pour la Mise à l'Échelle à l'Inférence (PRIS), un cadre qui révise adaptativement l'instruction pendant l'inférence en réponse aux générations visuelles mises à l'échelle. L'idée centrale de PRIS est d'examiner les visuels générés, d'identifier les motifs d'échec récurrents parmi eux, et de repenser l'instruction en conséquence avant de régénérer les visuels avec l'instruction révisée. Pour fournir un retour d'alignement précis destiné à la révision des instructions, nous introduisons un nouveau vérificateur, la correction factuelle au niveau élémentaire, qui évalue l'alignement entre les attributs de l'instruction et les visuels générés à un niveau granulaire, obtenant des évaluations plus précises et interprétables que les mesures holistiques. Des expériences approfondies sur des benchmarks de génération texte-image et texte-vidéo démontrent l'efficacité de notre approche, incluant un gain de 15% sur VBench 2.0. Ces résultats soulignent que la mise à l'échelle conjointe des instructions et des visuels est essentielle pour tirer pleinement parti des lois d'échelle lors de l'inférence. Les visualisations sont disponibles sur le site : https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.