Struc-Bench: Zijn grote taalmodellen echt goed in het genereren van complexe gestructureerde data?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
Auteurs: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Samenvatting
Ondanks de kracht van grote taalmodellen (LLMs) zoals GPT-4, hebben ze nog steeds moeite met taken die het genereren van complexe, gestructureerde uitvoer vereisen. In deze studie evalueren we de capaciteit van huidige LLMs om complexe gestructureerde data te genereren en stellen we een structuurbewuste fine-tuning benadering voor als oplossing om deze vaardigheid te verbeteren. Om een uitgebreide evaluatie uit te voeren, introduceren we Struc-Bench, waarbij we vijf representatieve LLMs (namelijk GPT-NeoX 20B, GPT-3.5, GPT-4 en Vicuna) opnemen en evalueren op onze zorgvuldig samengestelde datasets die ruwe tekst, HTML en LaTeX-tabellen omvatten. Op basis van onze analyse van de huidige modelprestaties identificeren we specifieke veelvoorkomende opmaakfouten en gebieden met potentieel voor verbetering. Om aan complexe opmaakvereisten te voldoen, maken we gebruik van FormatCoT (Chain-of-Thought) om opmaakinstructies te genereren vanuit doeluitvoer. Onze experimenten tonen aan dat onze structuurbewuste fine-tuning methode, wanneer toegepast op LLaMA-7B, de naleving van natuurlijke taalbeperkingen aanzienlijk verbetert en daarmee andere geëvalueerde LLMs overtreft. Op basis van deze resultaten presenteren we een vaardigheidskaart van modelcapaciteiten vanuit zes dimensies (namelijk dekking, opmaak, redenering, begrip, pragmatiek en hallucinatie). Deze kaart benadrukt de zwaktes van LLMs in het omgaan met complexe gestructureerde uitvoer en suggereert veelbelovende richtingen voor toekomstig werk. Onze code en modellen zijn te vinden op https://github.com/gersteinlab/Struc-Bench.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.