IA: La arena de modelos de lenguaje grandes del Gobierno francés para recopilar instrucciones humanas y datos de preferencia en francés

Resumen

Los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) suelen mostrar un rendimiento reducido, una alineación cultural y una solidez en materia de seguridad inferiores en idiomas distintos del inglés, en parte porque el inglés domina tanto los datos de preentrenamiento como los conjuntos de datos de alineación de preferencias humanas. Métodos de entrenamiento como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y la Optimización Directa de Preferencias (DPO) requieren datos de preferencias humanas, que siguen siendo escasos y en gran medida no públicos para muchos idiomas aparte del inglés. Para abordar esta brecha, presentamos compar:IA, un servicio público digital de código abierto desarrollado dentro del gobierno francés y diseñado para recopilar datos de preferencias humanas a gran escala de una audiencia general predominantemente francófona. La plataforma utiliza una interfaz de comparación por pares ciega para capturar instrucciones (prompts) del mundo real sin restricciones y juicios de usuarios sobre un conjunto diverso de modelos de lenguaje, manteniendo una baja fricción de participación y un filtrado automático que preserva la privacidad. A fecha de 07-02-2026, compar:IA ha recopilado más de 600,000 instrucciones de forma libre y 250,000 votos de preferencia, siendo aproximadamente el 89% de los datos en francés. Publicamos tres conjuntos de datos complementarios —conversaciones, votos y reacciones— bajo licencias abiertas, y presentamos análisis iniciales, que incluyen una clasificación (leaderboard) de modelos para el idioma francés y patrones de interacción del usuario. Más allá del contexto francés, compar:IA está evolucionando hacia un bien público digital internacional, ofreciendo una infraestructura reutilizable para el entrenamiento y evaluación de modelos multilingües, y para el estudio de la interacción humano-IA.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.