Piense: Menos datos, mejor razonamiento -- Replanteando los LLM en francés
Pensez: Less Data, Better Reasoning -- Rethinking French LLM
March 17, 2025
Autores: Huy Hoang Ha
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas de procesamiento del lenguaje natural. Sin embargo, lograr un rendimiento sólido en dominios especializados, como el razonamiento matemático y los idiomas no ingleses, a menudo requiere un entrenamiento extensivo en conjuntos de datos masivos. Este artículo investiga un enfoque contrastante: el ajuste fino estratégico en un conjunto de datos pequeño, de alta calidad y bilingüe (inglés-francés) para mejorar tanto las capacidades de razonamiento como la competencia en francés de un modelo de lenguaje de gran escala. En lugar de depender de la escala, exploramos la hipótesis de que la curación de datos dirigida y el entrenamiento optimizado pueden lograr un rendimiento competitivo, o incluso superior. Demostramos, mediante un ajuste fino supervisado (SFT) dirigido en solo 2,000 muestras cuidadosamente seleccionadas, mejoras significativas en el razonamiento matemático. Específicamente, Pensez 7B exhibe un aumento en la precisión del modelo base de hasta un 20% en AIME25 y un incremento del 12% en un punto de referencia de nivel 5 de MATH en francés. Estos resultados desafían la suposición predominante de que los conjuntos de datos masivos son un requisito previo para un rendimiento sólido en el razonamiento de los LLMs, destacando el potencial de la curación de datos estratégica y el ajuste fino optimizado para mejorar tanto habilidades especializadas como capacidades multilingües. Nuestros hallazgos tienen implicaciones para el desarrollo eficiente de LLMs multilingües de alto rendimiento, especialmente en escenarios con recursos limitados.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
various natural language processing tasks. However, achieving strong
performance in specialized domains like mathematical reasoning and non-English
languages often requires extensive training on massive datasets. This paper
investigates a contrasting approach: strategic fine-tuning on a small,
high-quality, bilingual (English-French) dataset to enhance both the reasoning
capabilities and French language proficiency of a large language model. Rather
than relying on scale, we explore the hypothesis that targeted data curation
and optimized training can achieve competitive, or even superior, performance.
We demonstrate, through targeted supervised fine-tuning (SFT) on only 2,000
carefully selected samples, significant improvements in mathematical reasoning.
Specifically, Pensez 7B exhibits an increase in accuracy of the base model up
to 20% on the AIME25 and a 12% increase on a French MATH level 5 benchmark.
These results challenge the prevailing assumption that massive datasets are
aprerequisite for strong reasoning performance in LLMs, highlighting the
potential of strategic data curation and optimized fine-tuning for enhancing
both specialized skills and multilingual capabilities. Our findings have
implications for the efficient development of high-performing, multilingual
LLMs, especially in resource-constrained scenarios.Summary
AI-Generated Summary