Neugestaltung des Prompt-Designs für Skalierung zur Inferenzzeit in der Text-zu-Bild-Generierung
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
December 3, 2025
papers.authors: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI
papers.abstract
Die präzise Ausrichtung zwischen Nutzerabsicht und generierten visuellen Inhalten bleibt eine zentrale Herausforderung in der Text-zu-Bild-Generierung, da ein einzelner Generierungsversuch oft nicht das gewünschte Ergebnis liefert. Bisherige Ansätze skalieren hauptsächlich den visuellen Generierungsprozess (z.B. durch Erhöhung der Sampling-Schritte oder Seeds), was jedoch schnell zu einem Qualitätsplateau führt. Diese Einschränkung entsteht, weil der für die Steuerung der Generierung entscheidende Prompt unverändert bleibt. Um dieses Problem zu lösen, schlagen wir Prompt Redesign for Inference-time Scaling (PRIS) vor – ein Framework, das den Prompt während der Inferenzphase adaptiv an die skalierten visuellen Generierungen anpasst. Der Kernansatz von PRIS besteht darin, die generierten visuellen Inhalte zu analysieren, wiederkehrende Fehlermuster zu identifizieren und den Prompt entsprechend zu überarbeiten, bevor die visuellen Inhalte mit dem überarbeiteten Prompt neu generiert werden. Um präzise Rückmeldungen für die Prompt-Überarbeitung zu erhalten, führen wir einen neuen Verifizierungsansatz ein: die elementbezogene faktische Korrektur. Diese bewertet die Übereinstimmung zwischen Prompt-Attributen und generierten visuellen Inhalten auf feingranularer Ebene und erreicht damit präzisere und interpretierbare Bewertungen als holistische Maßstäbe. Umfangreiche Experimente mit Text-zu-Bild- und Text-zu-Video-Benchmarks belegen die Wirksamkeit unseres Ansatzes, einschließlich einer 15%igen Verbesserung auf VBench 2.0. Diese Ergebnisse unterstreichen, dass die gemeinsame Skalierung von Prompts und visuellen Inhalten entscheidend ist, um Skalierungsgesetze während der Inferenzphase vollständig auszuschöpfen. Visualisierungen sind auf der Website verfügbar: https://subin-kim-cv.github.io/PRIS.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.