Struc-Bench: Действительно ли крупные языковые модели хорошо справляются с генерацией сложных структурированных данных?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
Авторы: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Аннотация
Несмотря на мощь крупных языковых моделей (LLM), таких как GPT-4, они всё ещё испытывают трудности с задачами, требующими генерации сложных структурированных выходных данных. В данном исследовании мы оцениваем способность современных LLM генерировать сложные структурированные данные и предлагаем подход тонкой настройки с учётом структуры в качестве решения для улучшения этой способности. Для проведения всесторонней оценки мы представляем Struc-Bench, включающий пять репрезентативных LLM (таких как GPT-NeoX 20B, GPT-3.5, GPT-4 и Vicuna), и оцениваем их на тщательно созданных наборах данных, охватывающих необработанный текст, HTML и таблицы LaTeX. На основе анализа текущей производительности моделей мы выявляем типичные ошибки форматирования и области для потенциального улучшения. Для решения сложных требований к форматированию мы используем FormatCoT (цепочку рассуждений) для генерации инструкций по форматированию из целевых выходных данных. Наши эксперименты показывают, что наш метод тонкой настройки с учётом структуры, применённый к LLaMA-7B, значительно улучшает соблюдение ограничений естественного языка, превосходя другие оцениваемые LLM. На основе этих результатов мы представляем карту способностей моделей по шести измерениям (таким как охват, форматирование, рассуждение, понимание, прагматика и галлюцинации). Эта карта подчёркивает слабости LLM в обработке сложных структурированных выходных данных и предлагает перспективные направления для будущих исследований. Наш код и модели доступны по адресу https://github.com/gersteinlab/Struc-Bench.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.