Una Cartografía de la Colaboración Abierta en IA de Código Abierto: Mapeo de Prácticas, Motivaciones y Gobernanza en 14 Proyectos de Modelos de Lenguaje Grande Abiertos

Resumen

La proliferación de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) de código abierto está fomentando un ecosistema vibrante de investigación e innovación en inteligencia artificial (IA). Sin embargo, los métodos de colaboración utilizados para desarrollar LLMs de código abierto, tanto antes como después de su lanzamiento público, aún no han sido estudiados de manera exhaustiva, lo que limita nuestra comprensión de cómo se inician, organizan y gobiernan los proyectos de LLMs de código abierto, así como las oportunidades existentes para fomentar aún más este ecosistema. Abordamos esta brecha mediante un análisis exploratorio de la colaboración abierta a lo largo del ciclo de vida de desarrollo y reutilización de los LLMs de código abierto, basándonos en entrevistas semiestructuradas con los desarrolladores de 14 LLMs de código abierto provenientes de proyectos comunitarios, institutos de investigación, startups y grandes empresas tecnológicas en América del Norte, Europa, África y Asia. Realizamos tres contribuciones clave para la investigación y la práctica. En primer lugar, la colaboración en los proyectos de LLMs de código abierto se extiende mucho más allá de los propios LLMs, abarcando conjuntos de datos, puntos de referencia, marcos de código abierto, tablas de clasificación, foros de discusión y compartición de conocimiento, y asociaciones de computación, entre otros. En segundo lugar, los desarrolladores de LLMs de código abierto tienen una variedad de motivaciones sociales, económicas y tecnológicas, desde democratizar el acceso a la IA y promover la ciencia abierta hasta construir ecosistemas regionales y ampliar la representación lingüística. En tercer lugar, los proyectos de LLMs de código abierto analizados exhiben cinco modelos organizativos distintos, que van desde proyectos de una sola empresa hasta proyectos comunitarios patrocinados por organizaciones sin fines de lucro, los cuales varían en su centralización del control y las estrategias de participación comunitaria utilizadas a lo largo del ciclo de vida de los LLMs de código abierto. Concluimos con recomendaciones prácticas para las partes interesadas que buscan apoyar a la comunidad global en la construcción de un futuro más abierto para la IA.

English

The proliferation of open large language models (LLMs) is fostering a vibrant ecosystem of research and innovation in artificial intelligence (AI). However, the methods of collaboration used to develop open LLMs both before and after their public release have not yet been comprehensively studied, limiting our understanding of how open LLM projects are initiated, organized, and governed as well as what opportunities there are to foster this ecosystem even further. We address this gap through an exploratory analysis of open collaboration throughout the development and reuse lifecycle of open LLMs, drawing on semi-structured interviews with the developers of 14 open LLMs from grassroots projects, research institutes, startups, and Big Tech companies in North America, Europe, Africa, and Asia. We make three key contributions to research and practice. First, collaboration in open LLM projects extends far beyond the LLMs themselves, encompassing datasets, benchmarks, open source frameworks, leaderboards, knowledge sharing and discussion forums, and compute partnerships, among others. Second, open LLM developers have a variety of social, economic, and technological motivations, from democratizing AI access and promoting open science to building regional ecosystems and expanding language representation. Third, the sampled open LLM projects exhibit five distinct organizational models, ranging from single company projects to non-profit-sponsored grassroots projects, which vary in their centralization of control and community engagement strategies used throughout the open LLM lifecycle. We conclude with practical recommendations for stakeholders seeking to support the global community building a more open future for AI.

Una Cartografía de la Colaboración Abierta en IA de Código Abierto: Mapeo de Prácticas, Motivaciones y Gobernanza en 14 Proyectos de Modelos de Lenguaje Grande Abiertos

A Cartography of Open Collaboration in Open Source AI: Mapping Practices, Motivations, and Governance in 14 Open Large Language Model Projects

Resumen

Support