BOE-XSUM: Экстремальное суммаризация в понятной форме испанских юридических указов и уведомлений
BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications
September 29, 2025
Авторы: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido
cs.AI
Аннотация
Способность кратко излагать длинные документы становится все более важной в повседневной жизни из-за переизбытка информации, однако наблюдается заметный недостаток таких кратких изложений для документов на испанском языке в целом и в юридической сфере в частности. В данной работе мы представляем BOE-XSUM — тщательно отобранный набор данных, содержащий 3 648 кратких, написанных простым языком изложений документов, взятых из «Boletín Oficial del Estado» (BOE), Официального государственного бюллетеня Испании. Каждая запись в наборе данных включает краткое изложение, оригинальный текст и метку типа документа. Мы оцениваем производительность средних по размеру больших языковых моделей (LLM), дообученных на BOE-XSUM, сравнивая их с универсальными генеративными моделями в условиях нулевого сценария. Результаты показывают, что дообученные модели значительно превосходят свои неспециализированные аналоги. В частности, лучшая модель — BERTIN GPT-J 6B (32-битная точность) — демонстрирует улучшение производительности на 24% по сравнению с лучшей моделью в нулевом сценарии, DeepSeek-R1 (точность 41,6% против 33,5%).
English
The ability to summarize long documents succinctly is increasingly important
in daily life due to information overload, yet there is a notable lack of such
summaries for Spanish documents in general, and in the legal domain in
particular. In this work, we present BOE-XSUM, a curated dataset comprising
3,648 concise, plain-language summaries of documents sourced from Spain's
``Bolet\'{\i}n Oficial del Estado'' (BOE), the State Official Gazette. Each
entry in the dataset includes a short summary, the original text, and its
document type label. We evaluate the performance of medium-sized large language
models (LLMs) fine-tuned on BOE-XSUM, comparing them to general-purpose
generative models in a zero-shot setting. Results show that fine-tuned models
significantly outperform their non-specialized counterparts. Notably, the
best-performing model -- BERTIN GPT-J 6B (32-bit precision) -- achieves a 24\%
performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of
41.6\% vs.\ 33.5\%).