Struc-Bench : Les grands modèles de langage sont-ils vraiment performants dans la génération de données structurées complexes ?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
Auteurs: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Résumé
Malgré la puissance des modèles de langage de grande taille (LLMs) comme GPT-4, ceux-ci rencontrent encore des difficultés pour les tâches nécessitant la génération de sorties complexes et structurées. Dans cette étude, nous évaluons la capacité des LLMs actuels à générer des données structurées complexes et proposons une approche de fine-tuning prenant en compte la structure comme solution pour améliorer cette capacité. Pour réaliser une évaluation complète, nous proposons Struc-Bench, incluant cinq LLMs représentatifs (à savoir GPT-NeoX 20B, GPT-3.5, GPT-4 et Vicuna) et les évaluons sur nos ensembles de données soigneusement construits, couvrant du texte brut, des tableaux HTML et LaTeX. Sur la base de notre analyse des performances actuelles des modèles, nous identifions des erreurs de formatage spécifiques et communes ainsi que des domaines d'amélioration potentiels. Pour répondre aux exigences de formatage complexes, nous utilisons FormatCoT (Chain-of-Thought) pour générer des instructions de formatage à partir des sorties cibles. Nos expériences montrent que notre méthode de fine-tuning prenant en compte la structure, appliquée à LLaMA-7B, améliore significativement le respect des contraintes de langage naturel, surpassant les autres LLMs évalués. Sur la base de ces résultats, nous présentons une carte des capacités des modèles selon six dimensions (à savoir la couverture, le formatage, le raisonnement, la compréhension, la pragmatique et l'hallucination). Cette carte met en lumière les faiblesses des LLMs dans la gestion des sorties structurées complexes et suggère des directions prometteuses pour les travaux futurs. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/gersteinlab/Struc-Bench.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.