Een cartografie van open samenwerking in open-source AI: het in kaart brengen van praktijken, motivaties en governance in 14 open grote-taalmodelprojecten
A Cartography of Open Collaboration in Open Source AI: Mapping Practices, Motivations, and Governance in 14 Open Large Language Model Projects
September 29, 2025
Auteurs: Johan Linåker, Cailean Osborne, Jennifer Ding, Ben Burtenshaw
cs.AI
Samenvatting
De opkomst van open grote taalmodellen (LLMs) stimuleert een levendig ecosysteem van onderzoek en innovatie in kunstmatige intelligentie (AI). Echter, de samenwerkingsmethoden die worden gebruikt om open LLMs te ontwikkelen, zowel voor als na hun openbare release, zijn nog niet uitgebreid bestudeerd, wat ons begrip beperkt van hoe open LLM-projecten worden geïnitieerd, georganiseerd en bestuurd, evenals van de mogelijkheden om dit ecosysteem verder te bevorderen. Wij vullen deze leemte aan door middel van een verkennende analyse van open samenwerking gedurende de ontwikkelings- en hergebruikscyclus van open LLMs, waarbij we putten uit semi-gestructureerde interviews met de ontwikkelaars van 14 open LLMs uit grassrootsprojecten, onderzoeksinstituten, startups en grote techbedrijven in Noord-Amerika, Europa, Afrika en Azië. Wij leveren drie belangrijke bijdragen aan onderzoek en praktijk. Ten eerste strekt samenwerking in open LLM-projecten zich ver uit buiten de LLMs zelf, en omvat datasets, benchmarks, open-source frameworks, leaderboards, kennisuitwisseling en discussieforums, en rekenpartnerschappen, onder andere. Ten tweede hebben ontwikkelaars van open LLMs diverse sociale, economische en technologische motivaties, variërend van het democratiseren van AI-toegang en het bevorderen van open wetenschap tot het opbouwen van regionale ecosystemen en het uitbreiden van taalrepresentatie. Ten derde vertonen de bemonsterde open LLM-projecten vijf verschillende organisatiemodellen, variërend van projecten van één bedrijf tot door non-profits gesponsorde grassrootsprojecten, die verschillen in hun centralisatie van controle en gemeenschapsbetrokkenheidsstrategieën die worden gebruikt gedurende de levenscyclus van open LLMs. We sluiten af met praktische aanbevelingen voor belanghebbenden die de wereldwijde gemeenschap willen ondersteunen bij het bouwen van een meer open toekomst voor AI.
English
The proliferation of open large language models (LLMs) is fostering a vibrant
ecosystem of research and innovation in artificial intelligence (AI). However,
the methods of collaboration used to develop open LLMs both before and after
their public release have not yet been comprehensively studied, limiting our
understanding of how open LLM projects are initiated, organized, and governed
as well as what opportunities there are to foster this ecosystem even further.
We address this gap through an exploratory analysis of open collaboration
throughout the development and reuse lifecycle of open LLMs, drawing on
semi-structured interviews with the developers of 14 open LLMs from grassroots
projects, research institutes, startups, and Big Tech companies in North
America, Europe, Africa, and Asia. We make three key contributions to research
and practice. First, collaboration in open LLM projects extends far beyond the
LLMs themselves, encompassing datasets, benchmarks, open source frameworks,
leaderboards, knowledge sharing and discussion forums, and compute
partnerships, among others. Second, open LLM developers have a variety of
social, economic, and technological motivations, from democratizing AI access
and promoting open science to building regional ecosystems and expanding
language representation. Third, the sampled open LLM projects exhibit five
distinct organizational models, ranging from single company projects to
non-profit-sponsored grassroots projects, which vary in their centralization of
control and community engagement strategies used throughout the open LLM
lifecycle. We conclude with practical recommendations for stakeholders seeking
to support the global community building a more open future for AI.