ChatPaper.aiChatPaper

Ripensare la Progettazione dei Prompt per il Ridimensionamento al Momento dell'Inferenza nella Generazione Testo-Visuale

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

December 3, 2025
Autori: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI

Abstract

Il raggiungimento di un allineamento preciso tra l'intento dell'utente e le immagini generate rimane una sfida centrale nella generazione di contenuti visivi da testo, poiché un singolo tentativo spesso non produce il risultato desiderato. Per gestire questo problema, gli approcci precedenti si concentrano principalmente sul ridimensionamento del processo di generazione visiva (ad esempio, aumentando i passaggi di campionamento o i seed), ma questo porta rapidamente a un plateau qualitativo. Questa limitazione sorge perché il prompt, cruciale per guidare la generazione, viene mantenuto fisso. Per affrontare la questione, proponiamo il Ridisegno del Prompt per il Ridimensionamento al momento dell'Inferenza, denominato PRIS, un framework che rivede adattivamente il prompt durante l'inferenza in risposta alle generazioni visive scalate. L'idea centrale di PRIS è esaminare le immagini generate, identificare modelli di errore ricorrenti tra di esse e ridisegnare di conseguenza il prompt prima di rigenerare le immagini con il prompt rivisto. Per fornire un feedback di allineamento preciso per la revisione del prompt, introduciamo un nuovo verificatore, la correzione fattuale a livello di elemento, che valuta l'allineamento tra gli attributi del prompt e le immagini generate a un livello di granularità fine, ottenendo valutazioni più accurate e interpretabili rispetto alle misure olistiche. Esperimenti estesi su benchmark di generazione testo-immagine e testo-video dimostrano l'efficacia del nostro approccio, incluso un miglioramento del 15% su VBench 2.0. Questi risultati evidenziano che il ridimensionamento congiunto dei prompt e dei contenuti visivi è la chiave per sfruttare appieno le leggi di scaling al momento dell'inferenza. Le visualizzazioni sono disponibili sul sito web: https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.
PDF151December 5, 2025