Modelos de LLM reflexivos: Seguimiento de instrucciones generales con generación de pensamientos
Thinking LLMs: General Instruction Following with Thought Generation
October 14, 2024
Autores: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Resumen
Los LLMs suelen entrenarse para responder preguntas de usuarios o seguir instrucciones de manera similar a como lo hacen los expertos humanos. Sin embargo, en el marco de alineación estándar, carecen de la habilidad básica de pensar explícitamente antes de responder. El pensamiento es crucial para preguntas complejas que requieren razonamiento y planificación, pero puede aplicarse a cualquier tarea. Proponemos un método de entrenamiento para dotar a los LLMs existentes con estas habilidades de pensamiento para seguir instrucciones generales sin necesidad de datos humanos adicionales. Logramos esto mediante un procedimiento iterativo de búsqueda y optimización que explora el espacio de posibles generaciones de pensamiento, permitiendo que el modelo aprenda a pensar sin supervisión directa. Para cada instrucción, los candidatos de pensamiento se puntúan utilizando un modelo evaluador que evalúa únicamente sus respuestas, y luego se optimizan mediante preferencia de optimización. Mostramos que este procedimiento conduce a un rendimiento superior en AlpacaEval y Arena-Hard, y muestra mejoras al pensar en categorías no relacionadas con el razonamiento, como marketing, salud y conocimiento general, además de tareas más tradicionales de razonamiento y resolución de problemas.
English
LLMs are typically trained to answer user questions or follow instructions
similarly to how human experts respond. However, in the standard alignment
framework they lack the basic ability of explicit thinking before answering.
Thinking is important for complex questions that require reasoning and planning
-- but can be applied to any task. We propose a training method for equipping
existing LLMs with such thinking abilities for general instruction following
without use of additional human data. We achieve this by an iterative search
and optimization procedure that explores the space of possible thought
generations, allowing the model to learn how to think without direct
supervision. For each instruction, the thought candidates are scored using a
judge model to evaluate their responses only, and then optimized via preference
optimization. We show that this procedure leads to superior performance on
AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning
categories such as marketing, health and general knowledge, in addition to more
traditional reasoning & problem-solving tasks.Summary
AI-Generated Summary