Orca 2: Enseñando a los modelos de lenguaje pequeños cómo razonar
Orca 2: Teaching Small Language Models How to Reason
November 18, 2023
Autores: Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah
cs.AI
Resumen
Orca 1 aprende a partir de señales enriquecidas, como trazas de explicación, lo que le permite superar a los modelos convencionales ajustados por instrucciones en benchmarks como BigBench Hard y AGIEval. En Orca 2, continuamos explorando cómo las señales de entrenamiento mejoradas pueden potenciar las habilidades de razonamiento de modelos de lenguaje (LM) más pequeños. La investigación sobre el entrenamiento de LM pequeños a menudo se ha basado en el aprendizaje por imitación para replicar la salida de modelos más capaces. Sostenemos que un énfasis excesivo en la imitación puede limitar el potencial de los modelos más pequeños. Buscamos enseñar a los LM pequeños a emplear diferentes estrategias de solución para distintas tareas, potencialmente diferentes a las utilizadas por el modelo más grande. Por ejemplo, mientras que los modelos más grandes podrían proporcionar una respuesta directa a una tarea compleja, los modelos más pequeños podrían no tener la misma capacidad. En Orca 2, enseñamos al modelo diversas técnicas de razonamiento (paso a paso, recordar y luego generar, recordar-razonar-generar, respuesta directa, etc.). Más crucialmente, buscamos ayudar al modelo a aprender a determinar la estrategia de solución más efectiva para cada tarea. Evaluamos Orca 2 utilizando un conjunto integral de 15 benchmarks diversos (correspondientes a aproximadamente 100 tareas y más de 36,000 prompts únicos). Orca 2 supera significativamente a modelos de tamaño similar y alcanza niveles de rendimiento similares o mejores a los de modelos 5-10 veces más grandes, según se evalúa en tareas complejas que prueban habilidades avanzadas de razonamiento en entornos de zero-shot. Hemos liberado el código de Orca 2 para fomentar más investigación sobre el desarrollo, evaluación y alineación de LM más pequeños.
English
Orca 1 learns from rich signals, such as explanation traces, allowing it to
outperform conventional instruction-tuned models on benchmarks like BigBench
Hard and AGIEval. In Orca 2, we continue exploring how improved training
signals can enhance smaller LMs' reasoning abilities. Research on training
small LMs has often relied on imitation learning to replicate the output of
more capable models. We contend that excessive emphasis on imitation may
restrict the potential of smaller models. We seek to teach small LMs to employ
different solution strategies for different tasks, potentially different from
the one used by the larger model. For example, while larger models might
provide a direct answer to a complex task, smaller models may not have the same
capacity. In Orca 2, we teach the model various reasoning techniques
(step-by-step, recall then generate, recall-reason-generate, direct answer,
etc.). More crucially, we aim to help the model learn to determine the most
effective solution strategy for each task. We evaluate Orca 2 using a
comprehensive set of 15 diverse benchmarks (corresponding to approximately 100
tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of
similar size and attains performance levels similar or better to those of
models 5-10x larger, as assessed on complex tasks that test advanced reasoning
abilities in zero-shot settings. We open-source Orca 2 to encourage further
research on the development, evaluation, and alignment of smaller LMs.