ChatPaper.aiChatPaper

Orca 2: Kleinen Sprachmodellen das Denken beibringen

Orca 2: Teaching Small Language Models How to Reason

November 18, 2023
Autoren: Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah
cs.AI

Zusammenfassung

Orca 1 lernt aus umfangreichen Signalen, wie Erklärungsspuren, was es ihm ermöglicht, konventionelle, instruktionsoptimierte Modelle in Benchmarks wie BigBench Hard und AGIEval zu übertreffen. In Orca 2 untersuchen wir weiterhin, wie verbesserte Trainingssignale die Fähigkeiten kleinerer Sprachmodelle (LMs) zur logischen Schlussfolgerung verbessern können. Die Forschung zum Training kleinerer LMs hat sich oft auf Imitationslernen verlassen, um die Ausgaben leistungsfähigerer Modelle nachzuahmen. Wir vertreten die Ansicht, dass ein übermäßiger Fokus auf Imitation das Potenzial kleinerer Modelle einschränken kann. Unser Ziel ist es, kleinen LMs beizubringen, unterschiedliche Lösungsstrategien für verschiedene Aufgaben einzusetzen, die möglicherweise von denen größerer Modelle abweichen. Beispielsweise könnten größere Modelle eine direkte Antwort auf eine komplexe Aufgabe geben, während kleinere Modelle diese Fähigkeit möglicherweise nicht besitzen. In Orca 2 bringen wir dem Modell verschiedene Denktechniken bei (Schritt-für-Schritt, Erinnern und dann Generieren, Erinnern-Schlussfolgern-Generieren, direkte Antwort usw.). Noch entscheidender ist, dass wir dem Modell helfen möchten, die effektivste Lösungsstrategie für jede Aufgabe zu bestimmen. Wir evaluieren Orca 2 anhand eines umfassenden Satzes von 15 diversen Benchmarks (entsprechend etwa 100 Aufgaben und über 36.000 einzigartigen Prompts). Orca 2 übertrifft Modelle ähnlicher Größe deutlich und erreicht Leistungsniveaus, die vergleichbar oder besser sind als die von Modellen, die 5-10 Mal größer sind, wie an komplexen Aufgaben gemessen, die fortgeschrittene Denkfähigkeiten in Zero-Shot-Szenarien testen. Wir stellen Orca 2 als Open Source zur Verfügung, um weitere Forschung zur Entwicklung, Bewertung und Ausrichtung kleinerer LMs zu fördern.
English
Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. We open-source Orca 2 to encourage further research on the development, evaluation, and alignment of smaller LMs.
PDF756December 15, 2024