Optimización de la Preferencia de Autoconsistencia
Self-Consistency Preference Optimization
November 6, 2024
Autores: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu
cs.AI
Resumen
La autoalineación, mediante la cual los modelos aprenden a mejorarse a sí mismos sin anotaciones humanas, es un área de investigación en rápido crecimiento. Sin embargo, las técnicas existentes a menudo no logran mejorar tareas de razonamiento complejas debido a la dificultad de asignar recompensas correctas. Un enfoque ortogonal que se sabe que mejora la corrección es la autoconsistencia, un método aplicado en el momento de la inferencia basado en múltiples muestreos para encontrar la respuesta más consistente. En este trabajo, extendemos el concepto de autoconsistencia para ayudar a entrenar modelos. Por lo tanto, introducimos la optimización de preferencia de autoconsistencia (ScPO), que entrena de forma iterativa para que se prefieran respuestas consistentes sobre las inconsistentes en problemas nuevos no supervisados. Mostramos que ScPO conduce a mejoras significativas sobre el entrenamiento convencional del modelo de recompensa en tareas de razonamiento como GSM8K y MATH, reduciendo la brecha con el entrenamiento supervisado con respuestas o preferencias correctas, y que combinar ScPO con el aprendizaje supervisado estándar mejora aún más los resultados. En ZebraLogic, ScPO ajusta finamente a Llama-3 8B para que sea superior a Llama-3 70B, Gemma-2 27B y Claude-3 Haiku.
English
Self-alignment, whereby models learn to improve themselves without human
annotation, is a rapidly growing research area. However, existing techniques
often fail to improve complex reasoning tasks due to the difficulty of
assigning correct rewards. An orthogonal approach that is known to improve
correctness is self-consistency, a method applied at inference time based on
multiple sampling in order to find the most consistent answer. In this work, we
extend the self-consistency concept to help train models. We thus introduce
self-consistency preference optimization (ScPO), which iteratively trains
consistent answers to be preferred over inconsistent ones on unsupervised new
problems. We show ScPO leads to large improvements over conventional reward
model training on reasoning tasks such as GSM8K and MATH, closing the gap with
supervised training with gold answers or preferences, and that combining ScPO
with standard supervised learning improves results even further. On ZebraLogic,
ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and
Claude-3 Haiku.Summary
AI-Generated Summary