InverseCoder: Liberando el poder de los LLMs de código ajustados a instrucciones con Inverse-Instruct.

Resumen

Los recientes avances en modelos de lenguaje de código abierto de gran tamaño (LLMs) han demostrado habilidades de codificación notables al ajustarse mediante el uso de datos generados a partir de potentes LLMs de código cerrado como GPT-3.5 y GPT-4 para el ajuste de instrucciones. Este artículo explora cómo mejorar aún más un LLM de código ajustado a instrucciones generando datos a partir de sí mismo en lugar de consultar LLMs de código cerrado. Nuestra observación clave es el desajuste entre la traducción de lenguajes formales e informales: traducir un lenguaje formal (es decir, código) a un lenguaje informal (es decir, lenguaje natural) es más sencillo que a la inversa. Basándonos en esta observación, proponemos INVERSE-INSTRUCT, que resume instrucciones a partir de fragmentos de código en lugar de lo contrario. Específicamente, dado un corpus de ajuste de instrucciones para código y el LLM de código ajustado resultante, pedimos al LLM de código que genere instrucciones adicionales de alta calidad para el corpus original mediante la sumarización de código y la autoevaluación. Luego, ajustamos finamente el LLM base con la combinación del corpus original y el autogenerado, lo que produce un LLM de código ajustado a instrucciones más sólido. Presentamos una serie de LLMs de código llamados InverseCoder, que superan el rendimiento de los LLMs de código originales en una amplia gama de pruebas, incluida la generación de código de texto a código en Python, codificación multilingüe y generación de código para ciencia de datos.

English

Recent advancements in open-source code large language models (LLMs) have demonstrated remarkable coding abilities by fine-tuning on the data generated from powerful closed-source LLMs such as GPT-3.5 and GPT-4 for instruction tuning. This paper explores how to further improve an instruction-tuned code LLM by generating data from itself rather than querying closed-source LLMs. Our key observation is the misalignment between the translation of formal and informal languages: translating formal language (i.e., code) to informal language (i.e., natural language) is more straightforward than the reverse. Based on this observation, we propose INVERSE-INSTRUCT, which summarizes instructions from code snippets instead of the reverse. Specifically, given an instruction tuning corpus for code and the resulting instruction-tuned code LLM, we ask the code LLM to generate additional high-quality instructions for the original corpus through code summarization and self-evaluation. Then, we fine-tune the base LLM on the combination of the original corpus and the self-generated one, which yields a stronger instruction-tuned LLM. We present a series of code LLMs named InverseCoder, which surpasses the performance of the original code LLMs on a wide range of benchmarks, including Python text-to-code generation, multilingual coding, and data-science code generation.

InverseCoder: Liberando el poder de los LLMs de código ajustados a instrucciones con Inverse-Instruct.

InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Resumen

Support