Denk na: Minder Data, Betere Redenering -- Een Herbezinning op Franse LLM's
Pensez: Less Data, Better Reasoning -- Rethinking French LLM
March 17, 2025
Auteurs: Huy Hoang Ha
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond in
verschillende taken op het gebied van natuurlijke taalverwerking. Het bereiken
van sterke prestaties in gespecialiseerde domeinen zoals wiskundig redeneren en
niet-Engelse talen vereist echter vaak uitgebreide training op enorme datasets.
Dit artikel onderzoekt een contrasterende aanpak: strategisch fine-tuning op een
kleine, hoogwaardige, tweetalige (Engels-Frans) dataset om zowel de
redeneervaardigheden als de Franse taalvaardigheid van een groot taalmodel te
verbeteren. In plaats van te vertrouwen op schaal, onderzoeken we de hypothese
dat gerichte datacuratie en geoptimaliseerde training competitieve, of zelfs
superieure, prestaties kunnen bereiken. We demonstreren, door gerichte
supervised fine-tuning (SFT) op slechts 2.000 zorgvuldig geselecteerde
voorbeelden, significante verbeteringen in wiskundig redeneren. Specifiek
toont Pensez 7B een nauwkeurigheidsverbetering van het basismodel tot 20% op de
AIME25 en een stijging van 12% op een Frans MATH niveau 5 benchmark. Deze
resultaten dagen de heersende aanname uit dat enorme datasets een
voorwaarde zijn voor sterke redeneerprestaties in LLMs, en benadrukken het
potentieel van strategische datacuratie en geoptimaliseerd fine-tuning voor het
verbeteren van zowel gespecialiseerde vaardigheden als meertalige
mogelijkheden. Onze bevindingen hebben implicaties voor de efficiënte ontwikkeling
van hoogpresterende, meertalige LLMs, vooral in scenario's met beperkte middelen.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
various natural language processing tasks. However, achieving strong
performance in specialized domains like mathematical reasoning and non-English
languages often requires extensive training on massive datasets. This paper
investigates a contrasting approach: strategic fine-tuning on a small,
high-quality, bilingual (English-French) dataset to enhance both the reasoning
capabilities and French language proficiency of a large language model. Rather
than relying on scale, we explore the hypothesis that targeted data curation
and optimized training can achieve competitive, or even superior, performance.
We demonstrate, through targeted supervised fine-tuning (SFT) on only 2,000
carefully selected samples, significant improvements in mathematical reasoning.
Specifically, Pensez 7B exhibits an increase in accuracy of the base model up
to 20% on the AIME25 and a 12% increase on a French MATH level 5 benchmark.
These results challenge the prevailing assumption that massive datasets are
aprerequisite for strong reasoning performance in LLMs, highlighting the
potential of strategic data curation and optimized fine-tuning for enhancing
both specialized skills and multilingual capabilities. Our findings have
implications for the efficient development of high-performing, multilingual
LLMs, especially in resource-constrained scenarios.Summary
AI-Generated Summary