IA: L'Arena LLM del Governo francese per raccogliere prompt umani e dati di preferenza in lingua francese

Abstract

I modelli linguistici di grandi dimensioni (LLM) mostrano spesso prestazioni ridotte, un allineamento culturale e una robustezza della sicurezza inferiori nelle lingue diverse dall'inglese, in parte perché l'inglese domina sia i dati di pre-addestramento che i dataset di allineamento delle preferenze umane. Metodi di addestramento come l'Apprendimento per Rinforzo da Feedback Umano (RLHF) e l'Ottimizzazione Diretta delle Preferenze (DPO) richiedono dati sulle preferenze umane, che rimangono scarsi e in gran parte non pubblici per molte lingue oltre all'inglese. Per colmare questa lacuna, presentiamo compar:IA, un servizio pubblico digitale open-source sviluppato all'interno del governo francese e progettato per raccogliere dati su larga scala sulle preferenze umane da un pubblico generale prevalentemente francofono. La piattaforma utilizza un'interfaccia di confronto a coppie in cieco per catturare prompt non vincolati e realistici, nonché i giudizi degli utenti su una varietà di modelli linguistici, mantenendo al contempo un basso attrito di partecipazione e un filtraggio automatico che preserva la privacy. Al 07-02-2026, compar:IA ha raccolto oltre 600.000 prompt a forma libera e 250.000 voti di preferenza, con circa l'89% dei dati in francese. Rilasciamo tre dataset complementari – conversazioni, voti e reazioni – con licenze open e presentiamo analisi iniziali, inclusa una classifica di modelli in lingua francese e i modelli di interazione degli utenti. Oltre al contesto francese, compar:IA si sta evolvendo verso un bene pubblico digitale internazionale, offrendo un'infrastruttura riutilizzabile per l'addestramento multilingue di modelli, la valutazione e lo studio dell'interazione uomo-IA.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

IA: L'Arena LLM del Governo francese per raccogliere prompt umani e dati di preferenza in lingua francese

compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Abstract

Support