ChatPaper.aiChatPaper

Struc-Bench: Sind große Sprachmodelle wirklich gut darin, komplexe strukturierte Daten zu generieren?

Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

September 16, 2023
Autoren: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI

Zusammenfassung

Trotz der Leistungsfähigkeit von Large Language Models (LLMs) wie GPT-4 haben sie immer noch Schwierigkeiten mit Aufgaben, die die Erzeugung komplexer, strukturierter Ausgaben erfordern. In dieser Studie bewerten wir die Fähigkeit aktueller LLMs, komplexe strukturierte Daten zu generieren, und schlagen einen strukturorientierten Feinabstimmungsansatz als Lösung zur Verbesserung dieser Fähigkeit vor. Um eine umfassende Bewertung durchzuführen, schlagen wir Struc-Bench vor, das fünf repräsentative LLMs (d. h. GPT-NeoX 20B, GPT-3.5, GPT-4 und Vicuna) umfasst und sie auf unseren sorgfältig konstruierten Datensätzen, die Rohtext, HTML und LaTeX-Tabellen abdecken, evaluiert. Basierend auf unserer Analyse der aktuellen Modellleistung identifizieren wir spezifische häufige Formatierungsfehler und Bereiche mit Verbesserungspotenzial. Um komplexe Formatierungsanforderungen zu bewältigen, nutzen wir FormatCoT (Chain-of-Thought), um Formatierungsanweisungen aus Zielausgaben zu generieren. Unsere Experimente zeigen, dass unsere strukturorientierte Feinabstimmungsmethode, wenn sie auf LLaMA-7B angewendet wird, die Einhaltung natürlicher Sprachbeschränkungen signifikant verbessert und andere evaluierte LLMs übertrifft. Basierend auf diesen Ergebnissen präsentieren wir eine Fähigkeitskarte der Modellfähigkeiten aus sechs Dimensionen (d. h. Abdeckung, Formatierung, Schlussfolgerung, Verständnis, Pragmatik und Halluzination). Diese Karte hebt die Schwächen von LLMs bei der Handhabung komplexer strukturierter Ausgaben hervor und weist auf vielversprechende Richtungen für zukünftige Arbeiten hin. Unser Code und unsere Modelle sind unter https://github.com/gersteinlab/Struc-Bench zu finden.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still struggle with tasks that require generating complex, structured outputs. In this study, we assess the capability of Current LLMs in generating complex structured data and propose a structure-aware fine-tuning approach as a solution to improve this ability. To perform a comprehensive evaluation, we propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B, GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of current model performance, we identify specific common formatting errors and areas of potential improvement. To address complex formatting requirements, we utilize FormatCoT (Chain-of-Thought) to generate format instructions from target outputs. Our experiments show that our structure-aware fine-tuning method, when applied to LLaMA-7B, significantly improves adherence to natural language constraints, outperforming other evaluated LLMs. Based on these results, we present an ability map of model capabilities from six dimensions (i.e., coverage, formatting, reasoning, comprehension, pragmatics, and hallucination). This map highlights the weaknesses of LLMs in handling complex structured outputs and suggests promising directions for future work. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
PDF111December 15, 2024