Phi-3 Technischer Bericht: Ein hochleistungsfähiges Sprachmodell lokal auf Ihrem TelefonPhi-3 Technical Report: A Highly Capable Language Model Locally on Your
Phone
Wir stellen phi-3-mini vor, ein Sprachmodell mit 3,8 Milliarden Parametern, das auf 3,3 Billionen Tokens trainiert wurde. Seine Gesamtleistung, gemessen an akademischen Benchmarks und internen Tests, steht in Konkurrenz zu Modellen wie Mixtral 8x7B und GPT-3.5 (zum Beispiel erreicht phi-3-mini 69% bei MMLU und 8,38 bei MT-bench), obwohl es klein genug ist, um auf einem Telefon eingesetzt zu werden. Die Innovation liegt ausschließlich in unserem Datensatz für das Training, einer hochskalierten Version des für phi-2 verwendeten Datensatzes, der aus stark gefilterten Webdaten und synthetischen Daten besteht. Das Modell ist auch weiterhin auf Robustheit, Sicherheit und Chat-Format ausgerichtet. Wir präsentieren auch einige erste Ergebnisse zur Skalierung der Parameter mit Modellen von 7B und 14B, die auf 4,8 Billionen Tokens trainiert wurden, genannt phi-3-small und phi-3-medium, die beide deutlich leistungsfähiger sind als phi-3-mini (zum Beispiel jeweils 75% und 78% bei MMLU und 8,7 und 8,9 bei MT-bench).