ChatPaper.aiChatPaper

Struc-Bench: Os Modelos de Linguagem de Grande Escala São Realmente Bons em Gerar Dados Estruturados Complexos?

Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

September 16, 2023
Autores: Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
cs.AI

Resumo

Apesar do poder dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), como o GPT-4, eles ainda enfrentam dificuldades em tarefas que exigem a geração de saídas complexas e estruturadas. Neste estudo, avaliamos a capacidade dos LLMs atuais em gerar dados estruturados complexos e propomos uma abordagem de ajuste fino (fine-tuning) consciente da estrutura como solução para melhorar essa habilidade. Para realizar uma avaliação abrangente, propomos o Struc-Bench, incluindo cinco LLMs representativos (ou seja, GPT-NeoX 20B, GPT-3.5, GPT-4 e Vicuna) e os avaliamos em nossos conjuntos de dados cuidadosamente construídos, abrangendo texto bruto, HTML e tabelas em LaTeX. Com base em nossa análise do desempenho atual dos modelos, identificamos erros comuns de formatação e áreas de potencial melhoria. Para atender a requisitos complexos de formatação, utilizamos o FormatCoT (Chain-of-Thought) para gerar instruções de formatação a partir de saídas desejadas. Nossos experimentos mostram que nosso método de ajuste fino consciente da estrutura, quando aplicado ao LLaMA-7B, melhora significativamente a adesão às restrições de linguagem natural, superando outros LLMs avaliados. Com base nesses resultados, apresentamos um mapa de habilidades dos modelos em seis dimensões (ou seja, cobertura, formatação, raciocínio, compreensão, pragmática e alucinação). Esse mapa destaca as fraquezas dos LLMs no tratamento de saídas estruturadas complexas e sugere direções promissoras para trabalhos futuros. Nosso código e modelos estão disponíveis em https://github.com/gersteinlab/Struc-Bench.
English
Despite the power of Large Language Models (LLMs) like GPT-4, they still struggle with tasks that require generating complex, structured outputs. In this study, we assess the capability of Current LLMs in generating complex structured data and propose a structure-aware fine-tuning approach as a solution to improve this ability. To perform a comprehensive evaluation, we propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B, GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of current model performance, we identify specific common formatting errors and areas of potential improvement. To address complex formatting requirements, we utilize FormatCoT (Chain-of-Thought) to generate format instructions from target outputs. Our experiments show that our structure-aware fine-tuning method, when applied to LLaMA-7B, significantly improves adherence to natural language constraints, outperforming other evaluated LLMs. Based on these results, we present an ability map of model capabilities from six dimensions (i.e., coverage, formatting, reasoning, comprehension, pragmatics, and hallucination). This map highlights the weaknesses of LLMs in handling complex structured outputs and suggests promising directions for future work. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
PDF111February 6, 2026