A Paciência é a Chave para o Raciocínio de Modelos de Linguagem de Grande Escala
Patience Is The Key to Large Language Model Reasoning
November 20, 2024
Autores: Yijiong Yu
cs.AI
Resumo
Os avanços recentes no campo dos grandes modelos de linguagem, particularmente por meio da abordagem Chain of Thought (CoT), têm demonstrado melhorias significativas na resolução de problemas complexos. No entanto, os modelos existentes tendem a sacrificar o raciocínio detalhado em prol da brevidade devido às preferências do usuário, ou exigem dados extensos e caros de treinamento para aprender habilidades de raciocínio complicadas, limitando seu potencial na resolução de tarefas complexas. Para preencher essa lacuna, seguindo o conceito de escalonamento no tempo de teste, propomos um método simples incentivando os modelos a adotar um estilo de raciocínio mais paciente sem a necessidade de introduzir novos conhecimentos ou habilidades. Para empregar uma abordagem de otimização de preferência, geramos processos de raciocínio detalhados como exemplos positivos e respostas simples como exemplos negativos, treinando assim o modelo a favorecer a minúcia em suas respostas. Nossos resultados demonstram um aumento de desempenho de até 6,7% no GSM8k com treinamento apenas em um conjunto de dados leve.
English
Recent advancements in the field of large language models, particularly
through the Chain of Thought (CoT) approach, have demonstrated significant
improvements in solving complex problems. However, existing models either tend
to sacrifice detailed reasoning for brevity due to user preferences, or require
extensive and expensive training data to learn complicated reasoning ability,
limiting their potential in solving complex tasks. To bridge this gap,
following the concept of scaling test-time, we propose a simple method by
encouraging models to adopt a more patient reasoning style without the need of
introducing new knowledge or skills. To employ a preference optimization
approach, we generate detailed reasoning processes as positive examples and
simple answers as negative examples, thereby training the model to favor
thoroughness in its responses. Our results demonstrate a performance increase
of up to 6.7% on GSM8k with training just on a lightweight dataset.Summary
AI-Generated Summary