Ψ-Sampler: Initiële deeltjesbemonstering voor SMC-gebaseerde inferentietijd Beloningsafstemming in scoringsmodellen

Samenvatting

We introduceren Psi-Sampler, een SMC-gebaseerd framework dat pCNL-gebaseerde initiële deeltjesbemonstering incorporeert voor effectieve inferentie-tijd beloningsafstemming met een score-gebaseerd generatief model. Inferentie-tijd beloningsafstemming met score-gebaseerde generatieve modellen heeft recentelijk aanzienlijke aandacht gekregen, in navolging van een bredere paradigmaverschuiving van pre-training naar post-training optimalisatie. Centraal in deze trend staat de toepassing van Sequential Monte Carlo (SMC) op het denoising-proces. Bestaande methoden initialiseren echter typisch deeltjes vanuit de Gaussiaanse prior, wat beloningsrelevante regio's onvoldoende vastlegt en resulteert in verminderde bemonsteringsefficiëntie. We tonen aan dat initialisatie vanuit de beloningsbewuste posterior de afstemmingsprestaties aanzienlijk verbetert. Om posterior-bemonstering in hoogdimensionale latente ruimtes mogelijk te maken, introduceren we het preconditioned Crank-Nicolson Langevin (pCNL) algoritme, dat dimensie-robuste voorstellen combineert met gradient-geïnformeerde dynamiek. Deze aanpak maakt efficiënte en schaalbare posterior-bemonstering mogelijk en verbetert consistent de prestaties bij diverse beloningsafstemmingstaken, waaronder layout-naar-beeldgeneratie, hoeveelheidsbewuste generatie en esthetische-voorkeurgeneratie, zoals aangetoond in onze experimenten.

English

We introduce Psi-Sampler, an SMC-based framework incorporating pCNL-based initial particle sampling for effective inference-time reward alignment with a score-based generative model. Inference-time reward alignment with score-based generative models has recently gained significant traction, following a broader paradigm shift from pre-training to post-training optimization. At the core of this trend is the application of Sequential Monte Carlo (SMC) to the denoising process. However, existing methods typically initialize particles from the Gaussian prior, which inadequately captures reward-relevant regions and results in reduced sampling efficiency. We demonstrate that initializing from the reward-aware posterior significantly improves alignment performance. To enable posterior sampling in high-dimensional latent spaces, we introduce the preconditioned Crank-Nicolson Langevin (pCNL) algorithm, which combines dimension-robust proposals with gradient-informed dynamics. This approach enables efficient and scalable posterior sampling and consistently improves performance across various reward alignment tasks, including layout-to-image generation, quantity-aware generation, and aesthetic-preference generation, as demonstrated in our experiments.

Ψ-Sampler: Initiële deeltjesbemonstering voor SMC-gebaseerde inferentietijd Beloningsafstemming in scoringsmodellen

Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

Samenvatting

Support