Comparaison : IA : L'arène de modèles de langage du gouvernement français pour collecter des prompts humains et des données de préférence en langue française

Résumé

Les grands modèles de langage (LLM) présentent souvent des performances réduites, un alignement culturel et une robustesse sécuritaire moindres dans les langues non anglophones, en partie parce que l'anglais domine à la fois les données de pré-entraînement et les ensembles de données pour l'alignement sur les préférences humaines. Les méthodes d'entraînement comme l'apprentissage par renforcement à partir de retours humains (RLHF) et l'optimisation directe des préférences (DPO) nécessitent des données de préférences humaines, qui restent rares et largement non publiques pour de nombreuses langues autres que l'anglais. Pour combler cette lacune, nous présentons compar:IA, un service public numérique open-source développé au sein du gouvernement français et conçu pour collecter des données de préférences humaines à grande éprise auprès d'un public majoritairement francophone. La plateforme utilise une interface de comparaison par paires en aveugle pour capturer des prompts non contraints issus du monde réel et les jugements des utilisateurs sur un ensemble diversifié de modèles de langage, tout en maintenant une faible friction de participation et un filtrage automatisé respectueux de la vie privée. Au 07-02-2026, compar:IA a collecté plus de 600 000 prompts librement formulés et 250 000 votes de préférence, environ 89 % des données étant en français. Nous publions trois ensembles de données complémentaires — conversations, votes et réactions — sous licences libres, et présentons des analyses initiales, incluant un classement de modèles pour la langue française et les schémas d'interaction des utilisateurs. Au-delà du contexte français, compar:IA évolue vers un bien public numérique international, offrant une infrastructure réutilisable pour l'entraînement multilingue de modèles, l'évaluation et l'étude de l'interaction humain-IA.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

Comparaison : IA : L'arène de modèles de langage du gouvernement français pour collecter des prompts humains et des données de préférence en langue française

compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Résumé

Support