Piense: Menos datos, mejor razonamiento -- Replanteando los LLM en francés

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas de procesamiento del lenguaje natural. Sin embargo, lograr un rendimiento sólido en dominios especializados, como el razonamiento matemático y los idiomas no ingleses, a menudo requiere un entrenamiento extensivo en conjuntos de datos masivos. Este artículo investiga un enfoque contrastante: el ajuste fino estratégico en un conjunto de datos pequeño, de alta calidad y bilingüe (inglés-francés) para mejorar tanto las capacidades de razonamiento como la competencia en francés de un modelo de lenguaje de gran escala. En lugar de depender de la escala, exploramos la hipótesis de que la curación de datos dirigida y el entrenamiento optimizado pueden lograr un rendimiento competitivo, o incluso superior. Demostramos, mediante un ajuste fino supervisado (SFT) dirigido en solo 2,000 muestras cuidadosamente seleccionadas, mejoras significativas en el razonamiento matemático. Específicamente, Pensez 7B exhibe un aumento en la precisión del modelo base de hasta un 20% en AIME25 y un incremento del 12% en un punto de referencia de nivel 5 de MATH en francés. Estos resultados desafían la suposición predominante de que los conjuntos de datos masivos son un requisito previo para un rendimiento sólido en el razonamiento de los LLMs, destacando el potencial de la curación de datos estratégica y el ajuste fino optimizado para mejorar tanto habilidades especializadas como capacidades multilingües. Nuestros hallazgos tienen implicaciones para el desarrollo eficiente de LLMs multilingües de alto rendimiento, especialmente en escenarios con recursos limitados.

English

Large language models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks. However, achieving strong performance in specialized domains like mathematical reasoning and non-English languages often requires extensive training on massive datasets. This paper investigates a contrasting approach: strategic fine-tuning on a small, high-quality, bilingual (English-French) dataset to enhance both the reasoning capabilities and French language proficiency of a large language model. Rather than relying on scale, we explore the hypothesis that targeted data curation and optimized training can achieve competitive, or even superior, performance. We demonstrate, through targeted supervised fine-tuning (SFT) on only 2,000 carefully selected samples, significant improvements in mathematical reasoning. Specifically, Pensez 7B exhibits an increase in accuracy of the base model up to 20% on the AIME25 and a 12% increase on a French MATH level 5 benchmark. These results challenge the prevailing assumption that massive datasets are aprerequisite for strong reasoning performance in LLMs, highlighting the potential of strategic data curation and optimized fine-tuning for enhancing both specialized skills and multilingual capabilities. Our findings have implications for the efficient development of high-performing, multilingual LLMs, especially in resource-constrained scenarios.

Piense: Menos datos, mejor razonamiento -- Replanteando los LLM en francés

Pensez: Less Data, Better Reasoning -- Rethinking French LLM

Resumen

Support