Libri di testo sono tutto ciò che ti serve II: rapporto tecnico di phi-1.5

Abstract

Continuiamo l'indagine sul potenziale dei modelli linguistici basati su Transformer di dimensioni ridotte, iniziata con TinyStories -- un modello da 10 milioni di parametri in grado di generare testi coerenti in inglese -- e proseguita con il lavoro su phi-1, un modello da 1,3 miliardi di parametri con prestazioni di codifica Python vicine allo stato dell'arte. Quest'ultimo lavoro ha proposto di utilizzare i modelli linguistici di grandi dimensioni (LLM) esistenti per generare dati di "qualità da manuale" come metodo per migliorare il processo di apprendimento rispetto ai tradizionali dati web. Seguiamo l'approccio "Textbooks Are All You Need", concentrandoci questa volta sul ragionamento di senso comune in linguaggio naturale, e creiamo un nuovo modello da 1,3 miliardi di parametri denominato phi-1.5, con prestazioni su compiti di linguaggio naturale paragonabili a modelli 5 volte più grandi, e che supera la maggior parte dei LLM non di frontiera su compiti di ragionamento più complessi come la matematica di livello scolastico e la codifica di base. Più in generale, phi-1.5 mostra molte delle caratteristiche dei LLM molto più grandi, sia positive -- come la capacità di "pensare passo dopo passo" o eseguire un apprendimento contestuale rudimentale -- sia negative, tra cui allucinazioni e il potenziale per generazioni tossiche e distorte -- sebbene, incoraggiantemente, stiamo osservando miglioramenti su questo fronte grazie all'assenza di dati web. Rilasciamo phi-1.5 come open-source per promuovere ulteriori ricerche su questi temi urgenti.

English

We continue the investigation into the power of smaller Transformer-based language models as initiated by TinyStories -- a 10 million parameter model that can produce coherent English -- and the follow-up work on phi-1, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named phi-1.5, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, phi-1.5 exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source phi-1.5 to promote further research on these urgent topics.

Libri di testo sono tutto ciò che ti serve II: rapporto tecnico di phi-1.5

Textbooks Are All You Need II: phi-1.5 technical report

Abstract

Support