Vergleich: KI: Die französische Regierung schuf eine LLM-Arena, um französischsprachige menschliche Prompts und Präferenzdaten zu sammeln.

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen häufig eine geringere Leistungsfähigkeit, kulturelle Anpassung und Sicherheitsrobustheit in nicht-englischen Sprachen, was teilweise darauf zurückzuführen ist, dass Englisch sowohl die Vorab-Trainingsdaten als auch die Datensätze für die Abstimmung menschlicher Präferenzen dominiert. Trainingsmethoden wie Reinforcement Learning from Human Feedback (RLHF) und Direct Preference Optimization (DPO) erfordern Daten zu menschlichen Präferenzen, die für viele Sprachen außer Englisch nach wie vor knapp und weitgehend nicht öffentlich zugänglich sind. Um diese Lücke zu schließen, stellen wir compar:IA vor, einen Open-Source-Digitaldienst, der innerhalb der französischen Regierung entwickelt wurde und darauf ausgelegt ist, groß angelegte Daten zu menschlichen Präferenzen von einem überwiegend französischsprachigen Publikum zu sammeln. Die Plattform nutzt eine blinde paarweise Vergleichsoberfläche, um uneingeschränkte, praxisnahe Prompts und Nutzerbewertungen über eine Vielzahl von Sprachmodellen hinweg zu erfassen, wobei eine niedrige Teilnahmeschwelle und eine datenschutzschonende automatische Filterung gewahrt bleiben. Stand 07.02.2026 hat compar:IA über 600.000 frei formulierte Prompts und 250.000 Präferenzabstimmungen gesammelt, wobei etwa 89 % der Daten auf Französisch vorliegen. Wir veröffentlichen drei komplementäre Datensätze – Konversationen, Abstimmungen und Reaktionen – unter offenen Lizenzen und präsentieren erste Analysen, einschließlich einer Bestenliste für französischsprachige Modelle und Nutzerinteraktionsmuster. Über den französischen Kontext hinaus entwickelt sich compar:IA zu einem internationalen digitalen öffentlichen Gut, das wiederverwendbare Infrastruktur für mehrsprachiges Modelltraining, -evaluierung und die Erforschung der Mensch-KI-Interaktion bietet.

English

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

Vergleich: KI: Die französische Regierung schuf eine LLM-Arena, um französischsprachige menschliche Prompts und Präferenzdaten zu sammeln.

compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Zusammenfassung

Support