BOE-XSUM: Sumarização Extrema em Linguagem Clara de Decretos e Notificações Legais Espanhóis
BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications
September 29, 2025
Autores: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido
cs.AI
Resumo
A capacidade de resumir documentos extensos de forma sucinta é cada vez mais importante na vida cotidiana devido à sobrecarga de informações, mas há uma notável escassez de tais resumos para documentos em espanhol em geral, e no domínio jurídico em particular. Neste trabalho, apresentamos o BOE-XSUM, um conjunto de dados curado que compreende 3.648 resumos concisos e em linguagem simples de documentos extraídos do ``Boletín Oficial del Estado'' (BOE), o Diário Oficial do Estado da Espanha. Cada entrada no conjunto de dados inclui um breve resumo, o texto original e o rótulo do tipo de documento. Avaliamos o desempenho de modelos de linguagem de grande porte (LLMs) de tamanho médio ajustados no BOE-XSUM, comparando-os com modelos genericos de propósito geral em um cenário de zero-shot. Os resultados mostram que os modelos ajustados superam significativamente suas contrapartes não especializadas. Notavelmente, o modelo de melhor desempenho -- BERTIN GPT-J 6B (precisão de 32 bits) -- alcança um ganho de desempenho de 24% em relação ao melhor modelo zero-shot, DeepSeek-R1 (acurácias de 41,6% vs. 33,5%).
English
The ability to summarize long documents succinctly is increasingly important
in daily life due to information overload, yet there is a notable lack of such
summaries for Spanish documents in general, and in the legal domain in
particular. In this work, we present BOE-XSUM, a curated dataset comprising
3,648 concise, plain-language summaries of documents sourced from Spain's
``Bolet\'{\i}n Oficial del Estado'' (BOE), the State Official Gazette. Each
entry in the dataset includes a short summary, the original text, and its
document type label. We evaluate the performance of medium-sized large language
models (LLMs) fine-tuned on BOE-XSUM, comparing them to general-purpose
generative models in a zero-shot setting. Results show that fine-tuned models
significantly outperform their non-specialized counterparts. Notably, the
best-performing model -- BERTIN GPT-J 6B (32-bit precision) -- achieves a 24\%
performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of
41.6\% vs.\ 33.5\%).