InverseCoder: Liberando o Poder dos LLMs de Código Ajustados por Instrução com Inverse-Instruct

Resumo

Os avanços recentes em modelos de linguagem de código aberto de grande escala (LLMs) têm demonstrado habilidades de codificação notáveis ao ajustar fino nos dados gerados a partir de poderosos LLMs de código fechado, como GPT-3.5 e GPT-4 para ajuste de instruções. Este artigo explora como melhorar ainda mais um LLM de código ajustado por instrução gerando dados a partir dele mesmo, em vez de consultar LLMs de código fechado. Nossa observação chave é o desalinhamento entre a tradução de linguagens formais e informais: traduzir linguagem formal (ou seja, código) para linguagem informal (ou seja, linguagem natural) é mais direto do que o contrário. Com base nessa observação, propomos o INVERSE-INSTRUCT, que resume instruções a partir de trechos de código em vez do contrário. Especificamente, dado um corpus de ajuste de instruções para código e o LLM de código ajustado resultante, solicitamos ao LLM de código que gere instruções adicionais de alta qualidade para o corpus original por meio de sumarização de código e autoavaliação. Em seguida, ajustamos fino o LLM base na combinação do corpus original e do auto-gerado, o que resulta em um LLM de código ajustado por instrução mais robusto. Apresentamos uma série de LLMs de código chamados InverseCoder, que superam o desempenho dos LLMs de código originais em uma ampla gama de benchmarks, incluindo geração de código de texto para Python, codificação multilíngue e geração de código de ciência de dados.

English

Recent advancements in open-source code large language models (LLMs) have demonstrated remarkable coding abilities by fine-tuning on the data generated from powerful closed-source LLMs such as GPT-3.5 and GPT-4 for instruction tuning. This paper explores how to further improve an instruction-tuned code LLM by generating data from itself rather than querying closed-source LLMs. Our key observation is the misalignment between the translation of formal and informal languages: translating formal language (i.e., code) to informal language (i.e., natural language) is more straightforward than the reverse. Based on this observation, we propose INVERSE-INSTRUCT, which summarizes instructions from code snippets instead of the reverse. Specifically, given an instruction tuning corpus for code and the resulting instruction-tuned code LLM, we ask the code LLM to generate additional high-quality instructions for the original corpus through code summarization and self-evaluation. Then, we fine-tune the base LLM on the combination of the original corpus and the self-generated one, which yields a stronger instruction-tuned LLM. We present a series of code LLMs named InverseCoder, which surpasses the performance of the original code LLMs on a wide range of benchmarks, including Python text-to-code generation, multilingual coding, and data-science code generation.

InverseCoder: Liberando o Poder dos LLMs de Código Ajustados por Instrução com Inverse-Instruct

InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Resumo

Support