Pensando em LLMs: Seguimento de Instruções Gerais com Geração de Pensamentos

Resumo

LLMs são tipicamente treinados para responder perguntas de usuários ou seguir instruções de forma semelhante à resposta de especialistas humanos. No entanto, no framework de alinhamento padrão, eles carecem da habilidade básica de pensar explicitamente antes de responder. O pensamento é importante para perguntas complexas que exigem raciocínio e planejamento - mas pode ser aplicado a qualquer tarefa. Propomos um método de treinamento para equipar LLMs existentes com tais habilidades de pensamento para seguir instruções gerais sem o uso de dados humanos adicionais. Conseguimos isso por meio de um procedimento de busca e otimização iterativos que exploram o espaço de gerações de pensamento possíveis, permitindo que o modelo aprenda a pensar sem supervisão direta. Para cada instrução, os candidatos a pensamento são pontuados usando um modelo de juiz para avaliar suas respostas apenas, e então otimizados por meio de otimização de preferência. Mostramos que esse procedimento leva a um desempenho superior no AlpacaEval e Arena-Hard, e demonstra ganhos a partir do pensamento em categorias não relacionadas ao raciocínio, como marketing, saúde e conhecimento geral, além de tarefas mais tradicionais de raciocínio e resolução de problemas.

English

LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.

Pensando em LLMs: Seguimento de Instruções Gerais com Geração de Pensamentos

Thinking LLMs: General Instruction Following with Thought Generation

Resumo

Support