Ψ-Sampler: Initiële deeltjesbemonstering voor SMC-gebaseerde inferentietijd Beloningsafstemming in scoringsmodellen
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models
June 2, 2025
Auteurs: Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung
cs.AI
Samenvatting
We introduceren Psi-Sampler, een SMC-gebaseerd framework dat pCNL-gebaseerde initiële deeltjesbemonstering incorporeert voor effectieve inferentie-tijd beloningsafstemming met een score-gebaseerd generatief model. Inferentie-tijd beloningsafstemming met score-gebaseerde generatieve modellen heeft recentelijk aanzienlijke aandacht gekregen, in navolging van een bredere paradigmaverschuiving van pre-training naar post-training optimalisatie. Centraal in deze trend staat de toepassing van Sequential Monte Carlo (SMC) op het denoising-proces. Bestaande methoden initialiseren echter typisch deeltjes vanuit de Gaussiaanse prior, wat beloningsrelevante regio's onvoldoende vastlegt en resulteert in verminderde bemonsteringsefficiëntie. We tonen aan dat initialisatie vanuit de beloningsbewuste posterior de afstemmingsprestaties aanzienlijk verbetert. Om posterior-bemonstering in hoogdimensionale latente ruimtes mogelijk te maken, introduceren we het preconditioned Crank-Nicolson Langevin (pCNL) algoritme, dat dimensie-robuste voorstellen combineert met gradient-geïnformeerde dynamiek. Deze aanpak maakt efficiënte en schaalbare posterior-bemonstering mogelijk en verbetert consistent de prestaties bij diverse beloningsafstemmingstaken, waaronder layout-naar-beeldgeneratie, hoeveelheidsbewuste generatie en esthetische-voorkeurgeneratie, zoals aangetoond in onze experimenten.
English
We introduce Psi-Sampler, an SMC-based framework incorporating pCNL-based
initial particle sampling for effective inference-time reward alignment with a
score-based generative model. Inference-time reward alignment with score-based
generative models has recently gained significant traction, following a broader
paradigm shift from pre-training to post-training optimization. At the core of
this trend is the application of Sequential Monte Carlo (SMC) to the denoising
process. However, existing methods typically initialize particles from the
Gaussian prior, which inadequately captures reward-relevant regions and results
in reduced sampling efficiency. We demonstrate that initializing from the
reward-aware posterior significantly improves alignment performance. To enable
posterior sampling in high-dimensional latent spaces, we introduce the
preconditioned Crank-Nicolson Langevin (pCNL) algorithm, which combines
dimension-robust proposals with gradient-informed dynamics. This approach
enables efficient and scalable posterior sampling and consistently improves
performance across various reward alignment tasks, including layout-to-image
generation, quantity-aware generation, and aesthetic-preference generation, as
demonstrated in our experiments.