Flacuna: Liberando el Poder de Resolución de Problemas de Vicuna mediante Ajuste Fino con FLAN
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
July 5, 2023
Autores: Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria
cs.AI
Resumen
Recientemente, el lanzamiento de INSTRUCTEVAL ha proporcionado información valiosa sobre el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) que utilizan arquitecturas de codificador-decodificador o solo decodificador. Curiosamente, a pesar de haber sido introducidos hace cuatro años, los LLMs basados en T5, como FLAN-T5, continúan superando a los últimos LLMs basados en decodificador, como LLAMA y VICUNA, en tareas que requieren habilidades generales de resolución de problemas. Esta discrepancia en el rendimiento puede atribuirse a tres factores clave: (1) Datos de preentrenamiento, (2) Arquitectura de la red principal y (3) Conjunto de datos de instrucciones. En este informe técnico, nuestro enfoque principal es investigar el impacto del tercer factor utilizando VICUNA, un modelo de lenguaje grande basado en LLAMA, que ha sido ajustado mediante conversaciones de ChatGPT. Para lograr este objetivo, ajustamos VICUNA utilizando una colección personalizada de conjuntos de datos de instrucciones llamada FLANMINI. Esta colección incluye un subconjunto del conjunto de datos de instrucciones a gran escala conocido como FLAN, así como varios conjuntos de datos relacionados con código y conjuntos de datos conversacionales derivados de ChatGPT/GPT-4. Este conjunto de datos comprende una gran cantidad de tareas que exigen habilidades de resolución de problemas. Nuestros hallazgos experimentales indican firmemente que las habilidades mejoradas de resolución de problemas de nuestro modelo, FLACUNA, se obtienen mediante el ajuste fino de VICUNA en el conjunto de datos FLAN, lo que conduce a mejoras significativas en numerosos conjuntos de datos de referencia en INSTRUCTEVAL. FLACUNA está disponible públicamente en https://huggingface.co/declare-lab/flacuna-13b-v1.0.
English
Recently, the release of INSTRUCTEVAL has provided valuable insights into the
performance of large language models (LLMs) that utilize encoder-decoder or
decoder-only architecture. Interestingly, despite being introduced four years
ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest
decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general
problem-solving skills. This performance discrepancy can be attributed to three
key factors: (1) Pre-training data, (2) Backbone architecture, and (3)
Instruction dataset. In this technical report, our main focus is on
investigating the impact of the third factor by leveraging VICUNA, a large
language model based on LLAMA, which has undergone fine-tuning on ChatGPT
conversations. To achieve this objective, we fine-tuned VICUNA using a
customized instruction dataset collection called FLANMINI. This collection
includes a subset of the large-scale instruction dataset known as FLAN, as well
as various code-related datasets and conversational datasets derived from
ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand
problem-solving skills. Our experimental findings strongly indicate that the
enhanced problem-solving abilities of our model, FLACUNA, are obtained through
fine-tuning VICUNA on the FLAN dataset, leading to significant improvements
across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly
available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.