ChatPaper.aiChatPaper

Orca: Aprendizaje Progresivo a partir de Trazas Explicativas Complejas de GPT-4

Orca: Progressive Learning from Complex Explanation Traces of GPT-4

June 5, 2023
Autores: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
cs.AI

Resumen

Investigaciones recientes se han centrado en mejorar la capacidad de modelos más pequeños mediante el aprendizaje por imitación, basándose en los resultados generados por modelos fundacionales grandes (LFMs, por sus siglas en inglés). Varios factores afectan la calidad de estos modelos, que van desde señales de imitación limitadas debido a salidas superficiales de los LFMs; datos de entrenamiento homogéneos y de pequeña escala; y, más notablemente, la falta de una evaluación rigurosa que resulta en una sobreestimación de la capacidad del modelo pequeño, ya que tienden a aprender a imitar el estilo, pero no el proceso de razonamiento de los LFMs. Para abordar estos desafíos, desarrollamos Orca (estamos trabajando con nuestro equipo legal para liberar públicamente un diff de los pesos del modelo de acuerdo con la política de liberación de LLaMA, que se publicará en https://aka.ms/orca-lm), un modelo de 13 mil millones de parámetros que aprende a imitar el proceso de razonamiento de los LFMs. Orca aprende de señales enriquecidas de GPT-4, incluyendo trazas de explicaciones; procesos de pensamiento paso a paso; y otras instrucciones complejas, guiadas por la asistencia de ChatGPT como profesor. Para fomentar este aprendizaje progresivo, aprovechamos datos de imitación a gran escala y diversos, con un muestreo y selección juiciosos. Orca supera a modelos convencionales ajustados por instrucciones de última generación, como Vicuna-13B, en más del 100% en benchmarks complejos de razonamiento zero-shot como Big-Bench Hard (BBH) y en un 42% en AGIEval. Además, Orca alcanza paridad con ChatGPT en el benchmark BBH y muestra un rendimiento competitivo (con una brecha de 4 puntos con un mensaje de sistema optimizado) en exámenes profesionales y académicos como el SAT, LSAT, GRE y GMAT, tanto en configuraciones zero-shot sin CoT; mientras que se sitúa por detrás de GPT-4. Nuestra investigación indica que aprender a partir de explicaciones paso a paso, ya sean generadas por humanos o por modelos de IA más avanzados, es una dirección prometedora para mejorar las capacidades y habilidades de los modelos.
English
Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model's capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA's release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.
PDF4618December 15, 2024