Optimización de Preferencias en Tiempo de Prueba: Alineación sobre la marcha a través de Retroalimentación Textual Iterativa
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
January 22, 2025
Autores: Yafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) demuestran un rendimiento impresionante pero carecen de la flexibilidad para adaptarse rápidamente a las preferencias humanas sin necesidad de volver a entrenar. En este trabajo, presentamos la Optimización de Preferencias en Tiempo de Prueba (TPO), un marco que alinea las salidas de LLM con las preferencias humanas durante la inferencia, eliminando la necesidad de actualizar los parámetros del modelo. En lugar de depender únicamente de recompensas numéricas, TPO traduce las señales de recompensa en críticas textuales y las utiliza como recompensas textuales para refinar iterativamente su respuesta. Las evaluaciones en bancos de pruebas que abarcan el seguimiento de instrucciones, la alineación de preferencias, la seguridad y las matemáticas revelan que TPO mejora progresivamente la alineación con las preferencias humanas. Es notable que, después de solo unos pocos pasos de TPO, el modelo inicialmente desalineado Llama-3.1-70B-SFT puede superar al contraparte alineado, Llama-3.1-70B-Instruct. Además, TPO escala eficientemente tanto con el ancho como con la profundidad de la búsqueda durante la inferencia. A través de estudios de caso, ilustramos cómo TPO explota la capacidad innata de los LLM para interpretar y actuar sobre las señales de recompensa. Nuestros hallazgos establecen a TPO como una alternativa práctica y liviana para la optimización de preferencias en tiempo de prueba, logrando la alineación sobre la marcha. Nuestro código está disponible públicamente en https://github.com/yafuly/TPO.
English
Large language models (LLMs) demonstrate impressive performance but lack the
flexibility to adapt to human preferences quickly without retraining. In this
work, we introduce Test-time Preference Optimization (TPO), a framework that
aligns LLM outputs with human preferences during inference, removing the need
to update model parameters. Rather than relying on purely numerical rewards,
TPO translates reward signals into textual critiques and uses them as textual
rewards to iteratively refine its response. Evaluations on benchmarks covering
instruction following, preference alignment, safety, and mathematics reveal
that TPO progressively improves alignment with human preferences. Notably,
after only a few TPO steps, the initially unaligned Llama-3.1-70B-SFT model can
surpass the aligned counterpart, Llama-3.1-70B-Instruct. Furthermore, TPO
scales efficiently with both the search width and depth during inference.
Through case studies, we illustrate how TPO exploits the innate capacity of LLM
to interpret and act upon reward signals. Our findings establish TPO as a
practical, lightweight alternative for test-time preference optimization,
achieving alignment on the fly. Our code is publicly available at
https://github.com/yafuly/TPO.Summary
AI-Generated Summary