Struc-Bench: I Modelli Linguistici di Grandi Dimensioni Sono Davvero Efficaci nella Generazione di Dati Strutturati Complessi?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
September 16, 2023
Autori: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI
Abstract
Nonostante la potenza dei Large Language Models (LLM) come GPT-4, questi continuano a incontrare difficoltà nei compiti che richiedono la generazione di output complessi e strutturati. In questo studio, valutiamo la capacità degli attuali LLM di generare dati strutturati complessi e proponiamo un approccio di fine-tuning consapevole della struttura come soluzione per migliorare questa abilità. Per eseguire una valutazione completa, proponiamo Struc-Bench, includendo cinque LLM rappresentativi (ovvero GPT-NeoX 20B, GPT-3.5, GPT-4 e Vicuna) e li valutiamo sui nostri dataset accuratamente costruiti, che spaziano da testo grezzo a tabelle HTML e LaTeX. Sulla base della nostra analisi delle prestazioni attuali dei modelli, identifichiamo errori di formattazione comuni e specifiche aree di potenziale miglioramento. Per affrontare i requisiti di formattazione complessi, utilizziamo FormatCoT (Chain-of-Thought) per generare istruzioni di formattazione a partire dagli output target. I nostri esperimenti dimostrano che il nostro metodo di fine-tuning consapevole della struttura, applicato a LLaMA-7B, migliora significativamente l'aderenza ai vincoli del linguaggio naturale, superando gli altri LLM valutati. Sulla base di questi risultati, presentiamo una mappa delle capacità dei modelli da sei dimensioni (ovvero copertura, formattazione, ragionamento, comprensione, pragmatica e allucinazione). Questa mappa evidenzia le debolezze degli LLM nella gestione di output strutturati complessi e suggerisce direzioni promettenti per futuri lavori. Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://github.com/gersteinlab/Struc-Bench.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.