ChatPaper.aiChatPaper

BOE-XSUM: Resumen Extremo en Lenguaje Claro de Decretos y Notificaciones Legales Españolas

BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications

September 29, 2025
Autores: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido
cs.AI

Resumen

La capacidad de resumir documentos extensos de manera concisa es cada vez más importante en la vida diaria debido a la sobrecarga de información, sin embargo, existe una notable falta de este tipo de resúmenes para documentos en español en general, y en el ámbito legal en particular. En este trabajo, presentamos BOE-XSUM, un conjunto de datos curado que comprende 3.648 resúmenes breves y en lenguaje sencillo de documentos extraídos del ``Boletín Oficial del Estado'' (BOE) de España. Cada entrada en el conjunto de datos incluye un resumen corto, el texto original y su etiqueta de tipo de documento. Evaluamos el rendimiento de modelos de lenguaje grandes (LLMs) de tamaño medio ajustados en BOE-XSUM, comparándolos con modelos generativos de propósito general en un escenario de cero disparos. Los resultados muestran que los modelos ajustados superan significativamente a sus contrapartes no especializadas. En particular, el modelo con mejor rendimiento -- BERTIN GPT-J 6B (precisión de 32 bits) -- logra una mejora del 24\% en comparación con el mejor modelo de cero disparos, DeepSeek-R1 (precisión del 41.6\% frente al 33.5\%).
English
The ability to summarize long documents succinctly is increasingly important in daily life due to information overload, yet there is a notable lack of such summaries for Spanish documents in general, and in the legal domain in particular. In this work, we present BOE-XSUM, a curated dataset comprising 3,648 concise, plain-language summaries of documents sourced from Spain's ``Bolet\'{\i}n Oficial del Estado'' (BOE), the State Official Gazette. Each entry in the dataset includes a short summary, the original text, and its document type label. We evaluate the performance of medium-sized large language models (LLMs) fine-tuned on BOE-XSUM, comparing them to general-purpose generative models in a zero-shot setting. Results show that fine-tuned models significantly outperform their non-specialized counterparts. Notably, the best-performing model -- BERTIN GPT-J 6B (32-bit precision) -- achieves a 24\% performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of 41.6\% vs.\ 33.5\%).
PDF12September 30, 2025