ComparIA: A arena de LLM do Governo Francês para coletar prompts humanos e dados de preferência em língua francesa.

Resumo

Os Grandes Modelos de Linguagem (LLMs) frequentemente apresentam desempenho reduzido, alinhamento cultural e robustez de segurança inferiores em idiomas não ingleses, em parte porque o inglês domina tanto os dados de pré-treinamento quanto os conjuntos de dados de alinhamento de preferências humanas. Métodos de treinamento como Aprendizado por Reforço com Feedback Humano (RLHF) e Otimização Direta de Preferências (DPO) exigem dados de preferência humana, que permanecem escassos e em grande parte não públicos para muitos idiomas além do inglês. Para preencher esta lacuna, apresentamos o compar:IA, um serviço público digital de código aberto desenvolvido no interior do governo francês e projetado para coletar dados de preferência humana em larga escala de um público geral predominantemente francófono. A plataforma utiliza uma interface de comparação pareada cega para capturar instruções (prompts) do mundo real, sem restrições, e os julgamentos dos usuários em uma variedade de modelos de linguagem, mantendo baixo atrito de participação e filtragem automática que preserva a privacidade. Em 07 de fevereiro de 2026, o compar:IA coletou mais de 600.000 instruções de forma livre e 250.000 votos de preferência, com aproximadamente 89% dos dados em francês. Disponibilizamos três conjuntos de dados complementares — conversas, votos e reações — sob licenças abertas e apresentamos análises iniciais, incluindo um ranking (leaderboard) de modelos para a língua francesa e padrões de interação do usuário. Para além do contexto francês, o compar:IA está a evoluir para um bem público digital internacional, oferecendo infraestrutura reutilizável para o treinamento e avaliação de modelos multilingues e para o estudo da interação humano-IA.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

ComparIA: A arena de LLM do Governo Francês para coletar prompts humanos e dados de preferência em língua francesa.

compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Resumo

Support