Struc-Bench: ¿Son realmente buenos los modelos de lenguaje de gran escala en la generación de datos estructurados complejos?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
Autores: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Resumen
A pesar del poder de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como GPT-4, estos aún enfrentan dificultades en tareas que requieren la generación de salidas complejas y estructuradas. En este estudio, evaluamos la capacidad de los LLMs actuales para generar datos estructurados complejos y proponemos un enfoque de ajuste fino consciente de la estructura como solución para mejorar esta habilidad. Para realizar una evaluación exhaustiva, proponemos Struc-Bench, que incluye cinco LLMs representativos (es decir, GPT-NeoX 20B, GPT-3.5, GPT-4 y Vicuna) y los evaluamos en nuestros conjuntos de datos cuidadosamente construidos que abarcan texto sin formato, HTML y tablas en LaTeX. Basándonos en nuestro análisis del rendimiento actual de los modelos, identificamos errores comunes de formato específicos y áreas de mejora potencial. Para abordar los requisitos de formato complejos, utilizamos FormatCoT (Cadena de Pensamiento) para generar instrucciones de formato a partir de salidas objetivo. Nuestros experimentos muestran que nuestro método de ajuste fino consciente de la estructura, cuando se aplica a LLaMA-7B, mejora significativamente la adherencia a las restricciones del lenguaje natural, superando a otros LLMs evaluados. Con base en estos resultados, presentamos un mapa de capacidades de los modelos desde seis dimensiones (es decir, cobertura, formato, razonamiento, comprensión, pragmática y alucinación). Este mapa resalta las debilidades de los LLMs en el manejo de salidas estructuradas complejas y sugiere direcciones prometedoras para trabajos futuros. Nuestro código y modelos se pueden encontrar en https://github.com/gersteinlab/Struc-Bench.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.