Heroverdenken van Promptontwerp voor Schaling tijdens Inferentie in Tekst-naar-Visuele Generatie
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
December 3, 2025
Auteurs: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI
Samenvatting
Het bereiken van een precieze afstemming tussen gebruikersintentie en gegenereerde beelden blijft een centrale uitdaging in tekst-naar-visuele generatie, aangezien een enkele poging vaak niet het gewenste resultaat oplevert. Om dit aan te pakken, schalen eerdere methoden voornamelijk het visuele generatieproces op (bijvoorbeeld door meer samplingstappen of seeds te gebruiken), maar dit leidt snel tot een kwaliteitsplateau. Deze beperking ontstaat omdat de prompt, die cruciaal is voor het sturen van de generatie, ongewijzigd blijft. Om dit op te lossen, stellen we Prompt Redesign for Inference-time Scaling voor, genaamd PRIS, een framework dat de prompt tijdens inference adaptief herziet in reactie op de opgeschaalde visuele generaties. De kern van PRIS is het beoordelen van de gegenereerde beelden, het identificeren van terugkerende foutpatronen in de beelden, en het dienovereenkomstig herontwerpen van de prompt voordat de beelden opnieuw worden gegenereerd met de herziene prompt. Om precieze afstemmingsfeedback te geven voor promptrevisie, introduceren we een nieuwe verificatiemethode, element-level factual correction, die de afstemming tussen promptattributen en gegenereerde beelden op een fijnmazig niveau evalueert, waardoor nauwkeurigere en beter interpreteerbare beoordelingen worden verkregen dan met holistische maatstaven. Uitgebreide experimenten op zowel tekst-naar-beeld als tekst-naar-video benchmarks tonen de effectiviteit van onze aanpak aan, inclusief een verbetering van 15% op VBench 2.0. Deze resultaten benadrukken dat het gezamenlijk opschalen van prompts en beelden essentieel is om schaalwetten tijdens inference volledig te benutten. Visualisaties zijn beschikbaar op de website: https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.