Cartographie de la collaboration ouverte dans l'IA open source : Pratiques, motivations et gouvernance dans 14 projets de grands modèles de langage ouverts

papers.abstract

La prolifération des grands modèles de langage (LLM) ouverts favorise un écosystème dynamique de recherche et d'innovation en intelligence artificielle (IA). Cependant, les méthodes de collaboration utilisées pour développer ces LLM ouverts, avant et après leur publication publique, n'ont pas encore été étudiées de manière exhaustive, limitant notre compréhension de la manière dont les projets de LLM ouverts sont initiés, organisés et gouvernés, ainsi que des opportunités pour renforcer davantage cet écosystème. Nous comblons cette lacune par une analyse exploratoire de la collaboration ouverte tout au long du cycle de vie du développement et de la réutilisation des LLM ouverts, en nous appuyant sur des entretiens semi-structurés avec les développeurs de 14 LLM ouverts issus de projets communautaires, d'instituts de recherche, de startups et de grandes entreprises technologiques en Amérique du Nord, en Europe, en Afrique et en Asie. Nous apportons trois contributions clés à la recherche et à la pratique. Premièrement, la collaboration dans les projets de LLM ouverts s'étend bien au-delà des LLM eux-mêmes, englobant des ensembles de données, des benchmarks, des frameworks open source, des classements, des forums de partage de connaissances et de discussion, ainsi que des partenariats de calcul, entre autres. Deuxièmement, les développeurs de LLM ouverts ont des motivations sociales, économiques et technologiques variées, allant de la démocratisation de l'accès à l'IA et de la promotion de la science ouverte à la construction d'écosystèmes régionaux et à l'élargissement de la représentation linguistique. Troisièmement, les projets de LLM ouverts échantillonnés présentent cinq modèles organisationnels distincts, allant des projets d'une seule entreprise aux projets communautaires soutenus par des organisations à but non lucratif, qui varient dans leur centralisation du contrôle et leurs stratégies d'engagement communautaire utilisées tout au long du cycle de vie des LLM ouverts. Nous concluons par des recommandations pratiques pour les parties prenantes cherchant à soutenir la communauté mondiale qui construit un avenir plus ouvert pour l'IA.

English

The proliferation of open large language models (LLMs) is fostering a vibrant ecosystem of research and innovation in artificial intelligence (AI). However, the methods of collaboration used to develop open LLMs both before and after their public release have not yet been comprehensively studied, limiting our understanding of how open LLM projects are initiated, organized, and governed as well as what opportunities there are to foster this ecosystem even further. We address this gap through an exploratory analysis of open collaboration throughout the development and reuse lifecycle of open LLMs, drawing on semi-structured interviews with the developers of 14 open LLMs from grassroots projects, research institutes, startups, and Big Tech companies in North America, Europe, Africa, and Asia. We make three key contributions to research and practice. First, collaboration in open LLM projects extends far beyond the LLMs themselves, encompassing datasets, benchmarks, open source frameworks, leaderboards, knowledge sharing and discussion forums, and compute partnerships, among others. Second, open LLM developers have a variety of social, economic, and technological motivations, from democratizing AI access and promoting open science to building regional ecosystems and expanding language representation. Third, the sampled open LLM projects exhibit five distinct organizational models, ranging from single company projects to non-profit-sponsored grassroots projects, which vary in their centralization of control and community engagement strategies used throughout the open LLM lifecycle. We conclude with practical recommendations for stakeholders seeking to support the global community building a more open future for AI.

Cartographie de la collaboration ouverte dans l'IA open source : Pratiques, motivations et gouvernance dans 14 projets de grands modèles de langage ouverts

A Cartography of Open Collaboration in Open Source AI: Mapping Practices, Motivations, and Governance in 14 Open Large Language Model Projects

papers.abstract

Support