ChatPaper.aiChatPaper

Optimización de la Preferencia de Autoconsistencia

Self-Consistency Preference Optimization

November 6, 2024
Autores: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu
cs.AI

Resumen

La autoalineación, mediante la cual los modelos aprenden a mejorarse a sí mismos sin anotaciones humanas, es un área de investigación en rápido crecimiento. Sin embargo, las técnicas existentes a menudo no logran mejorar tareas de razonamiento complejas debido a la dificultad de asignar recompensas correctas. Un enfoque ortogonal que se sabe que mejora la corrección es la autoconsistencia, un método aplicado en el momento de la inferencia basado en múltiples muestreos para encontrar la respuesta más consistente. En este trabajo, extendemos el concepto de autoconsistencia para ayudar a entrenar modelos. Por lo tanto, introducimos la optimización de preferencia de autoconsistencia (ScPO), que entrena de forma iterativa para que se prefieran respuestas consistentes sobre las inconsistentes en problemas nuevos no supervisados. Mostramos que ScPO conduce a mejoras significativas sobre el entrenamiento convencional del modelo de recompensa en tareas de razonamiento como GSM8K y MATH, reduciendo la brecha con el entrenamiento supervisado con respuestas o preferencias correctas, y que combinar ScPO con el aprendizaje supervisado estándar mejora aún más los resultados. En ZebraLogic, ScPO ajusta finamente a Llama-3 8B para que sea superior a Llama-3 70B, Gemma-2 27B y Claude-3 Haiku.
English
Self-alignment, whereby models learn to improve themselves without human annotation, is a rapidly growing research area. However, existing techniques often fail to improve complex reasoning tasks due to the difficulty of assigning correct rewards. An orthogonal approach that is known to improve correctness is self-consistency, a method applied at inference time based on multiple sampling in order to find the most consistent answer. In this work, we extend the self-consistency concept to help train models. We thus introduce self-consistency preference optimization (ScPO), which iteratively trains consistent answers to be preferred over inconsistent ones on unsupervised new problems. We show ScPO leads to large improvements over conventional reward model training on reasoning tasks such as GSM8K and MATH, closing the gap with supervised training with gold answers or preferences, and that combining ScPO with standard supervised learning improves results even further. On ZebraLogic, ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and Claude-3 Haiku.

Summary

AI-Generated Summary

PDF191November 13, 2024