Cartografia da Colaboração Aberta em IA de Código Aberto: Mapeando Práticas, Motivações e Governança em 14 Projetos de Modelos de Linguagem de Grande Escala
A Cartography of Open Collaboration in Open Source AI: Mapping Practices, Motivations, and Governance in 14 Open Large Language Model Projects
September 29, 2025
Autores: Johan Linåker, Cailean Osborne, Jennifer Ding, Ben Burtenshaw
cs.AI
Resumo
A proliferação de grandes modelos de linguagem (LLMs) abertos está fomentando um ecossistema vibrante de pesquisa e inovação em inteligência artificial (IA). No entanto, os métodos de colaboração utilizados para desenvolver LLMs abertos, tanto antes quanto após seu lançamento público, ainda não foram estudados de forma abrangente, limitando nossa compreensão de como os projetos de LLMs abertos são iniciados, organizados e governados, bem como as oportunidades existentes para promover ainda mais esse ecossistema. Abordamos essa lacuna por meio de uma análise exploratória da colaboração aberta ao longo do ciclo de vida de desenvolvimento e reutilização de LLMs abertos, baseando-nos em entrevistas semiestruturadas com os desenvolvedores de 14 LLMs abertos provenientes de projetos comunitários, institutos de pesquisa, startups e grandes empresas de tecnologia na América do Norte, Europa, África e Ásia. Fazemos três contribuições principais para a pesquisa e a prática. Primeiro, a colaboração em projetos de LLMs abertos vai muito além dos próprios LLMs, abrangendo conjuntos de dados, benchmarks, frameworks de código aberto, rankings, fóruns de compartilhamento de conhecimento e discussão, e parcerias de computação, entre outros. Segundo, os desenvolvedores de LLMs abertos têm uma variedade de motivações sociais, econômicas e tecnológicas, desde democratizar o acesso à IA e promover a ciência aberta até construir ecossistemas regionais e expandir a representação linguística. Terceiro, os projetos de LLMs abertos analisados exibem cinco modelos organizacionais distintos, variando de projetos de uma única empresa a projetos comunitários patrocinados por organizações sem fins lucrativos, que diferem em sua centralização de controle e estratégias de engajamento comunitário utilizadas ao longo do ciclo de vida dos LLMs abertos. Concluímos com recomendações práticas para as partes interessadas que buscam apoiar a comunidade global na construção de um futuro mais aberto para a IA.
English
The proliferation of open large language models (LLMs) is fostering a vibrant
ecosystem of research and innovation in artificial intelligence (AI). However,
the methods of collaboration used to develop open LLMs both before and after
their public release have not yet been comprehensively studied, limiting our
understanding of how open LLM projects are initiated, organized, and governed
as well as what opportunities there are to foster this ecosystem even further.
We address this gap through an exploratory analysis of open collaboration
throughout the development and reuse lifecycle of open LLMs, drawing on
semi-structured interviews with the developers of 14 open LLMs from grassroots
projects, research institutes, startups, and Big Tech companies in North
America, Europe, Africa, and Asia. We make three key contributions to research
and practice. First, collaboration in open LLM projects extends far beyond the
LLMs themselves, encompassing datasets, benchmarks, open source frameworks,
leaderboards, knowledge sharing and discussion forums, and compute
partnerships, among others. Second, open LLM developers have a variety of
social, economic, and technological motivations, from democratizing AI access
and promoting open science to building regional ecosystems and expanding
language representation. Third, the sampled open LLM projects exhibit five
distinct organizational models, ranging from single company projects to
non-profit-sponsored grassroots projects, which vary in their centralization of
control and community engagement strategies used throughout the open LLM
lifecycle. We conclude with practical recommendations for stakeholders seeking
to support the global community building a more open future for AI.