OpenCoder: O Livro de Receitas Aberto para Modelos de Linguagem de Grande Porte de Código de Primeira LinhaOpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
Os modelos de linguagem de grande escala (LLMs) para código tornaram-se indispensáveis em vários domínios, incluindo geração de código, tarefas de raciocínio e sistemas de agentes. Embora os LLMs de código de acesso aberto estejam cada vez mais se aproximando dos níveis de desempenho dos modelos proprietários, LLMs de código de alta qualidade adequados para investigação científica rigorosa, particularmente aqueles com pipelines de processamento de dados reproduzíveis e protocolos de treinamento transparentes, permanecem limitados. A escassez deve-se a vários desafios, incluindo restrições de recursos, considerações éticas e as vantagens competitivas de manter modelos avançados. Para preencher esta lacuna, apresentamos o OpenCoder, um LLM de código de primeira linha que não apenas atinge desempenho comparável aos modelos líderes, mas também serve como um "livro de receitas aberto" para a comunidade de pesquisa. Diferente da maioria dos esforços anteriores, liberamos não apenas os pesos do modelo e o código de inferência, mas também os dados de treinamento reproduzíveis, o pipeline completo de processamento de dados, resultados rigorosos de ablação experimental e protocolos de treinamento detalhados para pesquisa científica aberta. Através deste lançamento abrangente, identificamos os ingredientes-chave para construir um LLM de código de primeira linha: (1) regras heurísticas otimizadas para código para limpeza de dados e métodos para desduplicação de dados, (2) recuperação de corpus de texto relacionado a código e (3) dados sintéticos de alta qualidade tanto nas fases de *annealing* quanto de ajuste fino supervisionado. Ao oferecer este nível de abertura, visamos ampliar o acesso a todos os aspectos de um LLM de código de primeira linha, com o OpenCoder servindo tanto como um modelo poderoso quanto como uma base aberta para acelerar a pesquisa e permitir avanços reproduzíveis em IA para código.