Modelos de LLM reflexivos: Seguimiento de instrucciones generales con generación de pensamientos

Resumen

Los LLMs suelen entrenarse para responder preguntas de usuarios o seguir instrucciones de manera similar a como lo hacen los expertos humanos. Sin embargo, en el marco de alineación estándar, carecen de la habilidad básica de pensar explícitamente antes de responder. El pensamiento es crucial para preguntas complejas que requieren razonamiento y planificación, pero puede aplicarse a cualquier tarea. Proponemos un método de entrenamiento para dotar a los LLMs existentes con estas habilidades de pensamiento para seguir instrucciones generales sin necesidad de datos humanos adicionales. Logramos esto mediante un procedimiento iterativo de búsqueda y optimización que explora el espacio de posibles generaciones de pensamiento, permitiendo que el modelo aprenda a pensar sin supervisión directa. Para cada instrucción, los candidatos de pensamiento se puntúan utilizando un modelo evaluador que evalúa únicamente sus respuestas, y luego se optimizan mediante preferencia de optimización. Mostramos que este procedimiento conduce a un rendimiento superior en AlpacaEval y Arena-Hard, y muestra mejoras al pensar en categorías no relacionadas con el razonamiento, como marketing, salud y conocimiento general, además de tareas más tradicionales de razonamiento y resolución de problemas.

English

LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.

Modelos de LLM reflexivos: Seguimiento de instrucciones generales con generación de pensamientos

Thinking LLMs: General Instruction Following with Thought Generation

Resumen

Support