Struc-Bench: 대규모 언어 모델은 정말로 복잡한 구조화된 데이터 생성에 능숙한가?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
저자: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
초록
GPT-4와 같은 대형 언어 모델(LLMs)의 강력한 성능에도 불구하고, 복잡하고 구조화된 출력을 생성해야 하는 작업에서는 여전히 어려움을 겪고 있습니다. 본 연구에서는 현재의 LLMs가 복잡한 구조화된 데이터를 생성하는 능력을 평가하고, 이러한 능력을 향상시키기 위한 구조 인식 미세 조정 접근법을 제안합니다. 포괄적인 평가를 수행하기 위해, 우리는 Struc-Bench를 제안하고, GPT-NeoX 20B, GPT-3.5, GPT-4, Vicuna 등 5가지 대표적인 LLMs를 포함하여 원시 텍스트, HTML, LaTeX 테이블로 구성된 데이터셋에서 평가를 진행했습니다. 현재 모델 성능에 대한 분석을 바탕으로, 우리는 특정한 일반적인 형식 오류와 개선 가능한 영역을 식별했습니다. 복잡한 형식 요구 사항을 해결하기 위해, 우리는 FormatCoT(Chain-of-Thought)를 활용하여 목표 출력에서 형식 지침을 생성했습니다. 실험 결과, LLaMA-7B에 적용된 구조 인식 미세 조정 방법은 자연어 제약 조건을 더 잘 준수하며, 평가된 다른 LLMs를 능가하는 것으로 나타났습니다. 이러한 결과를 바탕으로, 우리는 모델의 능력을 6가지 차원(즉, 범위, 형식, 추론, 이해, 실용성, 환각)에서 매핑한 능력 지도를 제시합니다. 이 지도는 복잡한 구조화된 출력을 처리하는 데 있어 LLMs의 약점을 강조하고, 향후 연구를 위한 유망한 방향을 제시합니다. 우리의 코드와 모델은 https://github.com/gersteinlab/Struc-Bench에서 확인할 수 있습니다.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.