Vergelijking: IA: De Franse overheid lanceert een LLM-arena om Franstalige menselijke prompts en voorkeursdata te verzamelen.

Samenvatting

Grote Taalmodellen (GTM's) vertonen vaak verminderde prestaties, culturele afstemming en veiligheidsrobuustheid in niet-Engelse talen, deels omdat Engels zowel de voor-trainingsdata als de datasets voor afstemming op menselijke voorkeuren domineert. Trainingsmethoden zoals Reinforcement Learning from Human Feedback (RLHF) en Direct Preference Optimization (DPO) vereisen gegevens over menselijke voorkeuren, die voor veel talen buiten het Engels schaars blijven en grotendeels niet-openbaar zijn. Om dit gat te dichten, introduceren wij compar:IA, een open-source digitale overheidsdienst ontwikkeld binnen de Franse overheid en ontworpen om grootschalige gegevens over menselijke voorkeuren te verzamelen van een overwegend Franstalig algemeen publiek. Het platform gebruikt een blinde paarsgewijze vergelijkingsinterface om onbeperkte, real-world prompts en gebruikersbeoordelingen over een diverse reeks taalmodelen vast te leggen, met behoud van een lage drempel voor deelname en privacy-beschermende automatische filtering. Per 7 februari 2026 heeft compar:IA meer dan 600.000 vrij-vorm prompts en 250.000 voorkeursstemmen verzameld, waarvan ongeveer 89% van de gegevens in het Frans. Wij geven drie complementaire datasets vrij — gesprekken, stemmen en reacties — onder open licenties, en presenteren eerste analyses, inclusief een Franstalige model-ranglijst en patronen van gebruikersinteractie. Naast de Franse context evolueert compar:IA naar een internationale digitale publieke voorziening, die herbruikbare infrastructuur biedt voor meertalige modeltraining, evaluatie en de studie van mens-AI-interactie.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

Vergelijking: IA: De Franse overheid lanceert een LLM-arena om Franstalige menselijke prompts en voorkeursdata te verzamelen.

compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Samenvatting

Support