BOE-XSUM: Sintesi Estrema in Linguaggio Chiaro di Decreti e Notifiche Legali Spagnoli
BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications
September 29, 2025
Autori: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido
cs.AI
Abstract
La capacità di riassumere documenti lunghi in modo conciso è sempre più importante nella vita quotidiana a causa del sovraccarico informativo, eppure si riscontra una notevole carenza di tali riassunti per i documenti in spagnolo in generale, e nel dominio legale in particolare. In questo lavoro, presentiamo BOE-XSUM, un dataset curato composto da 3.648 riassunti concisi e in linguaggio semplice di documenti tratti dal ``Boletín Oficial del Estado'' (BOE), la Gazzetta Ufficiale spagnola. Ogni voce del dataset include un breve riassunto, il testo originale e l'etichetta del tipo di documento. Valutiamo le prestazioni di modelli linguistici di grandi dimensioni (LLM) di medie dimensioni addestrati su BOE-XSUM, confrontandoli con modelli generici in uno scenario zero-shot. I risultati mostrano che i modelli addestrati superano significativamente le loro controparti non specializzate. In particolare, il modello con le migliori prestazioni -- BERTIN GPT-J 6B (precisione a 32 bit) -- ottiene un miglioramento del 24% rispetto al miglior modello zero-shot, DeepSeek-R1 (precisioni del 41,6% contro il 33,5%).
English
The ability to summarize long documents succinctly is increasingly important
in daily life due to information overload, yet there is a notable lack of such
summaries for Spanish documents in general, and in the legal domain in
particular. In this work, we present BOE-XSUM, a curated dataset comprising
3,648 concise, plain-language summaries of documents sourced from Spain's
``Bolet\'{\i}n Oficial del Estado'' (BOE), the State Official Gazette. Each
entry in the dataset includes a short summary, the original text, and its
document type label. We evaluate the performance of medium-sized large language
models (LLMs) fine-tuned on BOE-XSUM, comparing them to general-purpose
generative models in a zero-shot setting. Results show that fine-tuned models
significantly outperform their non-specialized counterparts. Notably, the
best-performing model -- BERTIN GPT-J 6B (32-bit precision) -- achieves a 24\%
performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of
41.6\% vs.\ 33.5\%).