Сравнение: ИИ: Арена языковых моделей правительства Франции для сбора французских промптов и данных о предпочтениях пользователей

Аннотация

Крупные языковые модели (LLM) часто демонстрируют снижение производительности, культурного соответствия и надежности в вопросах безопасности при работе с неанглийскими языками. Это частично объясняется доминированием английского языка как в данных предварительного обучения, так и в наборах данных для согласования с человеческими предпочтениями. Методы обучения, такие как обучение с подкреплением на основе человеческой обратной связи (RLHF) и прямая оптимизация предпочтений (DPO), требуют данных о человеческих предпочтениях, которые для многих языков, кроме английского, остаются дефицитными и в основном не являются публично доступными. Для решения этой проблемы мы представляем compar:IA — открытый цифровой общественный сервис, разработанный внутри французского правительства и предназначенный для сбора масштабных данных о человеческих предпочтениях от широкой аудитории, преимущественно франкоговорящей. Платформа использует интерфейс парного сравнения вслепую для сбора неограниченных реалистичных промптов и пользовательских оценок для разнообразных языковых моделей, сохраняя низкий порог участия и применяя автоматическую фильтрацию с защитой приватности. По состоянию на 07.02.2026 compar:IA собрала более 600 000 свободных промптов и 250 000 предпочтений (голосов), причем примерно 89% данных представлено на французском языке. Мы публикуем три взаимодополняющих набора данных — диалоги, голоса и реакции — под открытыми лицензиями и представляем первоначальный анализ, включая рейтинг франкоязычных моделей и шаблоны пользовательского взаимодействия. Помимо французского контекста, compar:IA развивается в направлении международного цифрового общественного блага, предлагая повторно используемую инфраструктуру для многоязычного обучения моделей, их оценки и изучения взаимодействия человека и ИИ.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

Сравнение: ИИ: Арена языковых моделей правительства Франции для сбора французских промптов и данных о предпочтениях пользователей

compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Аннотация

Support