Informe Técnico de Tele-FLM

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades profundas en comprensión y generación de lenguaje, facilitando una amplia gama de aplicaciones. Sin embargo, existe una notable escasez de metodologías detalladas y de código abierto sobre cómo escalar eficientemente LLMs más allá de los 50 mil millones de parámetros con un mínimo costo de prueba y error y recursos computacionales. En este informe, presentamos Tele-FLM (también conocido como FLM-2), un modelo de lenguaje multilingüe de 52 mil millones de parámetros de código abierto que cuenta con un paradigma de preentrenamiento estable y eficiente, además de capacidades mejoradas de juicio factual. Tele-FLM demuestra habilidades superiores en modelado de lenguaje multilingüe, medido por BPB en corpus textuales. Además, en evaluaciones de modelos base tanto en inglés como en chino, es comparable a modelos de código abierto fuertes que involucran un mayor número de FLOPs de preentrenamiento, como Llama2-70B y DeepSeek-67B. Además de los pesos del modelo, compartimos los diseños centrales, prácticas de ingeniería y detalles de entrenamiento, lo que esperamos beneficie tanto a la comunidad académica como a la industrial.

English

Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.

Informe Técnico de Tele-FLM

Tele-FLM Technical Report

Resumen

Support