Das Erlernen der latenten Regeln eines Spiels aus Daten: Eine Schachgeschichte

papers.abstract

Wir zeigen, dass kleine vortrainierte grundlegende generative Sprachmodelle mit Millionen von Parametern die latenten Regeln eines Prozesses aus den mit dem Prozess verbundenen Daten erlernen können. Inspiriert von Stefan Zweigs Novelle "Schachnovelle", auch bekannt als "The Royal Game" auf Englisch, zeigen wir, dass 28M und 125M Parameter vortrainierte grundlegende kleine Sprachmodelle (SLMs) mit 1.000 bis 1.000.000 Beispielen zur Anweisungsfeinanpassung lernen können, die Regeln des Schachs vorzuschlagen, legale Züge vorzuschlagen und Schachprobleme genau zu lösen. Wir untersuchen auch die Auswirkungen auf verbesserte Ergebnisse durch aufeinanderfolgende Feinanpassungsepochen des Sprachmodells und zeigen Reduzierungen bei Modellhalluzinationen durch Erhöhung der Anzahl von Beispielen zur Anweisungsfeinanpassung.

English

We demonstrate that small pretrained foundational generative language models with millions of parameters can learn the latent rules of a process from data associated with the process. Inspired by Stefan Zweig's novella "Schachnovelle," also known as "The Royal Game" in English, we show that 28M and 125M parameter pretrained foundational small language models (SLMs) can be instruction fine-tuned with 1,000-to-1,000,000 examples to learn the rules of chess, propose legal moves, and accurately solve chess problems. We also explore the impact of successive language model fine-tuning epochs on improved outcomes and demonstrate reductions in model hallucinations by increasing the number of instruction fine-tuning examples.

Das Erlernen der latenten Regeln eines Spiels aus Daten: Eine Schachgeschichte

Learning the Latent Rules of a Game from Data: A Chess Story

papers.abstract

Support