ChatPaper.aiChatPaper

Ψ-Amostrador: Amostragem Inicial de Partículas para Alinhamento de Recompensa em Tempo de Inferência Baseado em SMC em Modelos de Pontuação

Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

June 2, 2025
Autores: Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung
cs.AI

Resumo

Apresentamos o Psi-Sampler, uma estrutura baseada em SMC que incorpora amostragem inicial de partículas baseada em pCNL para alinhamento eficaz de recompensas durante a inferência com um modelo generativo baseado em pontuação. O alinhamento de recompensas durante a inferência com modelos generativos baseados em pontuação tem ganhado tração significativa recentemente, seguindo uma mudança de paradigma mais ampla da otimização pré-treinamento para pós-treinamento. No centro dessa tendência está a aplicação do Método de Monte Carlo Sequencial (SMC) ao processo de remoção de ruído. No entanto, os métodos existentes normalmente inicializam as partículas a partir de uma distribuição gaussiana prévia, que não captura adequadamente as regiões relevantes para a recompensa e resulta em eficiência reduzida de amostragem. Demonstramos que a inicialização a partir da posteriori consciente da recompensa melhora significativamente o desempenho do alinhamento. Para permitir a amostragem da posteriori em espaços latentes de alta dimensionalidade, introduzimos o algoritmo de Langevin de Crank-Nicolson pré-condicionado (pCNL), que combina propostas robustas à dimensionalidade com dinâmicas informadas por gradiente. Essa abordagem permite uma amostragem posteriori eficiente e escalável e melhora consistentemente o desempenho em várias tarefas de alinhamento de recompensas, incluindo geração de layout para imagem, geração consciente de quantidade e geração de preferências estéticas, conforme demonstrado em nossos experimentos.
English
We introduce Psi-Sampler, an SMC-based framework incorporating pCNL-based initial particle sampling for effective inference-time reward alignment with a score-based generative model. Inference-time reward alignment with score-based generative models has recently gained significant traction, following a broader paradigm shift from pre-training to post-training optimization. At the core of this trend is the application of Sequential Monte Carlo (SMC) to the denoising process. However, existing methods typically initialize particles from the Gaussian prior, which inadequately captures reward-relevant regions and results in reduced sampling efficiency. We demonstrate that initializing from the reward-aware posterior significantly improves alignment performance. To enable posterior sampling in high-dimensional latent spaces, we introduce the preconditioned Crank-Nicolson Langevin (pCNL) algorithm, which combines dimension-robust proposals with gradient-informed dynamics. This approach enables efficient and scalable posterior sampling and consistently improves performance across various reward alignment tasks, including layout-to-image generation, quantity-aware generation, and aesthetic-preference generation, as demonstrated in our experiments.
PDF162June 5, 2025