Pensando em LLMs: Seguimento de Instruções Gerais com Geração de Pensamentos
Thinking LLMs: General Instruction Following with Thought Generation
October 14, 2024
Autores: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Resumo
LLMs são tipicamente treinados para responder perguntas de usuários ou seguir instruções de forma semelhante à resposta de especialistas humanos. No entanto, no framework de alinhamento padrão, eles carecem da habilidade básica de pensar explicitamente antes de responder. O pensamento é importante para perguntas complexas que exigem raciocínio e planejamento - mas pode ser aplicado a qualquer tarefa. Propomos um método de treinamento para equipar LLMs existentes com tais habilidades de pensamento para seguir instruções gerais sem o uso de dados humanos adicionais. Conseguimos isso por meio de um procedimento de busca e otimização iterativos que exploram o espaço de gerações de pensamento possíveis, permitindo que o modelo aprenda a pensar sem supervisão direta. Para cada instrução, os candidatos a pensamento são pontuados usando um modelo de juiz para avaliar suas respostas apenas, e então otimizados por meio de otimização de preferência. Mostramos que esse procedimento leva a um desempenho superior no AlpacaEval e Arena-Hard, e demonstra ganhos a partir do pensamento em categorias não relacionadas ao raciocínio, como marketing, saúde e conhecimento geral, além de tarefas mais tradicionais de raciocínio e resolução de problemas.
English
LLMs are typically trained to answer user questions or follow instructions
similarly to how human experts respond. However, in the standard alignment
framework they lack the basic ability of explicit thinking before answering.
Thinking is important for complex questions that require reasoning and planning
-- but can be applied to any task. We propose a training method for equipping
existing LLMs with such thinking abilities for general instruction following
without use of additional human data. We achieve this by an iterative search
and optimization procedure that explores the space of possible thought
generations, allowing the model to learn how to think without direct
supervision. For each instruction, the thought candidates are scored using a
judge model to evaluate their responses only, and then optimized via preference
optimization. We show that this procedure leads to superior performance on
AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning
categories such as marketing, health and general knowledge, in addition to more
traditional reasoning & problem-solving tasks.Summary
AI-Generated Summary