ChatPaper.aiChatPaper

Otimização de Preferência em Tempo de Teste: Alinhamento On-the-Fly via Feedback Textual Iterativo

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

January 22, 2025
Autores: Yafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) demonstram um desempenho impressionante, mas carecem da flexibilidade para se adaptar rapidamente às preferências humanas sem a necessidade de reentrenamento. Neste trabalho, apresentamos a Otimização de Preferência em Tempo de Teste (TPO), um framework que alinha as saídas do LLM com as preferências humanas durante a inferência, eliminando a necessidade de atualizar os parâmetros do modelo. Em vez de depender apenas de recompensas numéricas, o TPO traduz sinais de recompensa em críticas textuais e as utiliza como recompensas textuais para refinar iterativamente sua resposta. Avaliações em benchmarks que abrangem o seguimento de instruções, alinhamento de preferências, segurança e matemática revelam que o TPO melhora progressivamente o alinhamento com as preferências humanas. Notavelmente, após apenas alguns passos de TPO, o modelo inicialmente desalinhado Llama-3.1-70B-SFT pode superar o modelo alinhado correspondente, Llama-3.1-70B-Instruct. Além disso, o TPO escala eficientemente tanto com a largura quanto com a profundidade da busca durante a inferência. Através de estudos de caso, ilustramos como o TPO explora a capacidade inata do LLM de interpretar e agir com base nos sinais de recompensa. Nossas descobertas estabelecem o TPO como uma alternativa prática e leve para a otimização de preferências em tempo de teste, alcançando alinhamento em tempo real. Nosso código está disponível publicamente em https://github.com/yafuly/TPO.
English
Large language models (LLMs) demonstrate impressive performance but lack the flexibility to adapt to human preferences quickly without retraining. In this work, we introduce Test-time Preference Optimization (TPO), a framework that aligns LLM outputs with human preferences during inference, removing the need to update model parameters. Rather than relying on purely numerical rewards, TPO translates reward signals into textual critiques and uses them as textual rewards to iteratively refine its response. Evaluations on benchmarks covering instruction following, preference alignment, safety, and mathematics reveal that TPO progressively improves alignment with human preferences. Notably, after only a few TPO steps, the initially unaligned Llama-3.1-70B-SFT model can surpass the aligned counterpart, Llama-3.1-70B-Instruct. Furthermore, TPO scales efficiently with both the search width and depth during inference. Through case studies, we illustrate how TPO exploits the innate capacity of LLM to interpret and act upon reward signals. Our findings establish TPO as a practical, lightweight alternative for test-time preference optimization, achieving alignment on the fly. Our code is publicly available at https://github.com/yafuly/TPO.

Summary

AI-Generated Summary

PDF612January 23, 2025