Orca 2: Ensinando Modelos de Linguagem Pequenos a Raciocinar

Resumo

A Orca 1 aprende a partir de sinais ricos, como traços de explicação, permitindo que ela supere modelos convencionais ajustados por instrução em benchmarks como BigBench Hard e AGIEval. Na Orca 2, continuamos explorando como sinais de treinamento aprimorados podem melhorar as habilidades de raciocínio de modelos de linguagem (LMs) menores. Pesquisas sobre o treinamento de LMs menores frequentemente dependem de aprendizado por imitação para replicar a saída de modelos mais capazes. Argumentamos que uma ênfase excessiva na imitação pode limitar o potencial dos modelos menores. Buscamos ensinar LMs menores a empregar diferentes estratégias de solução para diferentes tarefas, potencialmente distintas daquelas usadas pelo modelo maior. Por exemplo, enquanto modelos maiores podem fornecer uma resposta direta para uma tarefa complexa, modelos menores podem não ter a mesma capacidade. Na Orca 2, ensinamos o modelo várias técnicas de raciocínio (passo a passo, lembrar e depois gerar, lembrar-raciocinar-gerar, resposta direta, etc.). Mais crucialmente, buscamos ajudar o modelo a aprender a determinar a estratégia de solução mais eficaz para cada tarefa. Avaliamos a Orca 2 usando um conjunto abrangente de 15 benchmarks diversos (correspondendo a aproximadamente 100 tarefas e mais de 36.000 prompts únicos). A Orca 2 supera significativamente modelos de tamanho similar e atinge níveis de desempenho semelhantes ou melhores aos de modelos 5-10 vezes maiores, conforme avaliado em tarefas complexas que testam habilidades avançadas de raciocínio em configurações zero-shot. Disponibilizamos a Orca 2 em código aberto para incentivar mais pesquisas sobre o desenvolvimento, avaliação e alinhamento de LMs menores.

English

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. We open-source Orca 2 to encourage further research on the development, evaluation, and alignment of smaller LMs.

Orca 2: Ensinando Modelos de Linguagem Pequenos a Raciocinar

Orca 2: Teaching Small Language Models How to Reason

Resumo

Support