ChatPaper.aiChatPaper

Ψ-Muestreador: Muestreo Inicial de Partículas para Alineación de Recompensas en Tiempo de Inferencia Basada en SMC en Modelos de Puntuación

Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

June 2, 2025
Autores: Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung
cs.AI

Resumen

Presentamos Psi-Sampler, un marco basado en SMC que incorpora muestreo inicial de partículas basado en pCNL para una alineación efectiva de recompensas en tiempo de inferencia con un modelo generativo basado en puntuaciones. La alineación de recompensas en tiempo de inferencia con modelos generativos basados en puntuaciones ha ganado recientemente un importante impulso, siguiendo un cambio de paradigma más amplio desde la optimización previa al entrenamiento hacia la optimización posterior al entrenamiento. En el núcleo de esta tendencia se encuentra la aplicación de Monte Carlo Secuencial (SMC) al proceso de eliminación de ruido. Sin embargo, los métodos existentes suelen inicializar las partículas desde una distribución gaussiana previa, lo que no captura adecuadamente las regiones relevantes para la recompensa y resulta en una eficiencia de muestreo reducida. Demostramos que inicializar desde la posterior consciente de la recompensa mejora significativamente el rendimiento de la alineación. Para permitir el muestreo posterior en espacios latentes de alta dimensionalidad, introducimos el algoritmo de Langevin Crank-Nicolson precondicionado (pCNL), que combina propuestas robustas en dimensión con dinámicas informadas por gradientes. Este enfoque permite un muestreo posterior eficiente y escalable y mejora consistentemente el rendimiento en diversas tareas de alineación de recompensas, incluyendo generación de imágenes a partir de diseños, generación consciente de cantidades y generación basada en preferencias estéticas, como se demuestra en nuestros experimentos.
English
We introduce Psi-Sampler, an SMC-based framework incorporating pCNL-based initial particle sampling for effective inference-time reward alignment with a score-based generative model. Inference-time reward alignment with score-based generative models has recently gained significant traction, following a broader paradigm shift from pre-training to post-training optimization. At the core of this trend is the application of Sequential Monte Carlo (SMC) to the denoising process. However, existing methods typically initialize particles from the Gaussian prior, which inadequately captures reward-relevant regions and results in reduced sampling efficiency. We demonstrate that initializing from the reward-aware posterior significantly improves alignment performance. To enable posterior sampling in high-dimensional latent spaces, we introduce the preconditioned Crank-Nicolson Langevin (pCNL) algorithm, which combines dimension-robust proposals with gradient-informed dynamics. This approach enables efficient and scalable posterior sampling and consistently improves performance across various reward alignment tasks, including layout-to-image generation, quantity-aware generation, and aesthetic-preference generation, as demonstrated in our experiments.
PDF162June 5, 2025