Struc-Bench: 大規模言語モデルは複雑な構造化データの生成において本当に優れているのか?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
著者: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
要旨
GPT-4のような大規模言語モデル(LLM)の能力にもかかわらず、複雑で構造化された出力を生成するタスクにおいては依然として課題が残っています。本研究では、現在のLLMが複雑な構造化データを生成する能力を評価し、この能力を向上させるための解決策として、構造を意識したファインチューニング手法を提案します。包括的な評価を行うために、Struc-Benchを提案し、GPT-NeoX 20B、GPT-3.5、GPT-4、Vicunaといった5つの代表的なLLMを含め、慎重に構築されたデータセット(生テキスト、HTML、LaTeX表)で評価を行いました。現在のモデル性能の分析に基づき、特定の共通するフォーマットエラーと改善の可能性がある領域を特定しました。複雑なフォーマット要件に対処するため、FormatCoT(Chain-of-Thought)を活用してターゲット出力からフォーマット指示を生成します。実験結果から、LLaMA-7Bに適用した構造を意識したファインチューニング手法は、自然言語の制約に従う能力を大幅に向上させ、他の評価対象LLMを上回ることが示されました。これらの結果に基づき、モデルの能力を6つの次元(カバレッジ、フォーマット、推論、理解、語用論、幻覚)からマッピングした能力マップを提示します。このマップは、LLMが複雑な構造化出力を扱う際の弱点を浮き彫りにし、今後の研究の有望な方向性を示唆しています。コードとモデルはhttps://github.com/gersteinlab/Struc-Benchで公開されています。
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.