ChatPaper.aiChatPaper

텍스트-비주얼 생성에서 추론 시간 확장을 위한 프롬프트 설계 재고

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

December 3, 2025
저자: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI

초록

사용자 의도와 생성된 시각적 결과물 간의 정확한 정렬을 달성하는 것은 텍스트-시각적 생성 분야의 핵심 과제로 남아 있으며, 단일 시도로는 종종 원하는 출력을 생성하지 못합니다. 이를 해결하기 위해 기존 접근법은 주로 시각적 생성 과정의 규모를 확장하지만(예: 샘플링 단계나 시드 수 증가), 이는 빠르게 품질 정체에 도달합니다. 이러한 한계는 생성 과정을 안내하는 핵심 요소인 프롬프트가 고정된 상태로 유지되기 때문에 발생합니다. 이를 해결하기 위해 우리는 추론 시점 규모 확장을 위한 프롬프트 재설계, 즉 PRIS라는 프레임워크를 제안합니다. PRIS는 확장된 시각적 생성물에 대응하여 추론 과정 중에 프롬프트를 적응적으로 수정합니다. PRIS의 핵심 아이디어는 생성된 시각적 결과물을 검토하고, 여러 결과물에서 반복적으로 나타나는 실패 패턴을 식별한 후, 수정된 프롬프트로 시각적 결과물을 재생성하기 전에 그에 맞게 프롬프트를 재설계하는 것입니다. 프롬프트 수정을 위한 정확한 정렬 피드백을 제공하기 위해 우리는 요소 수준 사실 보정이라는 새로운 검증기를 도입했습니다. 이는 프롬프트 속성과 생성된 시각적 결과물 간의 정렬을 세부 수준에서 평가하여 전체론적 측정보다 더 정확하고 해석 가능한 평가를 달성합니다. 텍스트-이미지 및 텍스트-비디오 벤치마크에서 진행한 폭넓은 실험을 통해 우리 접근법의 효과를 입증하였으며, VBench 2.0에서 15% 향상된 결과를 포함합니다. 이러한 결과는 추론 시점에서 규모의 법칙을 완전히 활용하기 위해서는 프롬프트와 시각적 요소를 함께 확장하는 것이 핵심임을 보여줍니다. 시각화 자료는 웹사이트(https://subin-kim-cv.github.io/PRIS)에서 확인할 수 있습니다.
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.
PDF151December 5, 2025