Cartographie de la collaboration ouverte dans l'IA open source : Pratiques, motivations et gouvernance dans 14 projets de grands modèles de langage ouverts
A Cartography of Open Collaboration in Open Source AI: Mapping Practices, Motivations, and Governance in 14 Open Large Language Model Projects
September 29, 2025
papers.authors: Johan Linåker, Cailean Osborne, Jennifer Ding, Ben Burtenshaw
cs.AI
papers.abstract
La prolifération des grands modèles de langage (LLM) ouverts favorise un écosystème dynamique de recherche et d'innovation en intelligence artificielle (IA). Cependant, les méthodes de collaboration utilisées pour développer ces LLM ouverts, avant et après leur publication publique, n'ont pas encore été étudiées de manière exhaustive, limitant notre compréhension de la manière dont les projets de LLM ouverts sont initiés, organisés et gouvernés, ainsi que des opportunités pour renforcer davantage cet écosystème. Nous comblons cette lacune par une analyse exploratoire de la collaboration ouverte tout au long du cycle de vie du développement et de la réutilisation des LLM ouverts, en nous appuyant sur des entretiens semi-structurés avec les développeurs de 14 LLM ouverts issus de projets communautaires, d'instituts de recherche, de startups et de grandes entreprises technologiques en Amérique du Nord, en Europe, en Afrique et en Asie. Nous apportons trois contributions clés à la recherche et à la pratique. Premièrement, la collaboration dans les projets de LLM ouverts s'étend bien au-delà des LLM eux-mêmes, englobant des ensembles de données, des benchmarks, des frameworks open source, des classements, des forums de partage de connaissances et de discussion, ainsi que des partenariats de calcul, entre autres. Deuxièmement, les développeurs de LLM ouverts ont des motivations sociales, économiques et technologiques variées, allant de la démocratisation de l'accès à l'IA et de la promotion de la science ouverte à la construction d'écosystèmes régionaux et à l'élargissement de la représentation linguistique. Troisièmement, les projets de LLM ouverts échantillonnés présentent cinq modèles organisationnels distincts, allant des projets d'une seule entreprise aux projets communautaires soutenus par des organisations à but non lucratif, qui varient dans leur centralisation du contrôle et leurs stratégies d'engagement communautaire utilisées tout au long du cycle de vie des LLM ouverts. Nous concluons par des recommandations pratiques pour les parties prenantes cherchant à soutenir la communauté mondiale qui construit un avenir plus ouvert pour l'IA.
English
The proliferation of open large language models (LLMs) is fostering a vibrant
ecosystem of research and innovation in artificial intelligence (AI). However,
the methods of collaboration used to develop open LLMs both before and after
their public release have not yet been comprehensively studied, limiting our
understanding of how open LLM projects are initiated, organized, and governed
as well as what opportunities there are to foster this ecosystem even further.
We address this gap through an exploratory analysis of open collaboration
throughout the development and reuse lifecycle of open LLMs, drawing on
semi-structured interviews with the developers of 14 open LLMs from grassroots
projects, research institutes, startups, and Big Tech companies in North
America, Europe, Africa, and Asia. We make three key contributions to research
and practice. First, collaboration in open LLM projects extends far beyond the
LLMs themselves, encompassing datasets, benchmarks, open source frameworks,
leaderboards, knowledge sharing and discussion forums, and compute
partnerships, among others. Second, open LLM developers have a variety of
social, economic, and technological motivations, from democratizing AI access
and promoting open science to building regional ecosystems and expanding
language representation. Third, the sampled open LLM projects exhibit five
distinct organizational models, ranging from single company projects to
non-profit-sponsored grassroots projects, which vary in their centralization of
control and community engagement strategies used throughout the open LLM
lifecycle. We conclude with practical recommendations for stakeholders seeking
to support the global community building a more open future for AI.