ChatPaper.aiChatPaper

LegalSearchLM: Ripensare il Recupero di Casi Legali come Generazione di Elementi Legali

LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation

May 28, 2025
Autori: Chaeeun Kim, Jinu Lee, Wonseok Hwang
cs.AI

Abstract

Il Recupero di Casi Legali (Legal Case Retrieval, LCR), che consiste nel recuperare casi rilevanti a partire da un caso query, è un compito fondamentale per i professionisti del diritto nella ricerca e nel processo decisionale. Tuttavia, gli studi esistenti sull’LCR presentano due principali limitazioni. In primo luogo, vengono valutati su corpora di recupero relativamente piccoli (ad esempio, 100-55K casi) e utilizzano un numero limitato di tipologie di query penali, il che non riflette adeguatamente la complessità degli scenari reali di recupero legale. In secondo luogo, la loro dipendenza da metodi basati su embedding o corrispondenza lessicale spesso porta a rappresentazioni limitate e corrispondenze legalmente irrilevanti. Per affrontare questi problemi, presentiamo: (1) LEGAR BENCH, il primo benchmark su larga scala per l’LCR coreano, che copre 411 tipologie di reato nelle query su 1,2 milioni di casi legali; e (2) LegalSearchLM, un modello di recupero che esegue un ragionamento sugli elementi legali del caso query e genera direttamente contenuti basati sui casi target attraverso un decoding vincolato. I risultati sperimentali mostrano che LegalSearchLM supera i modelli di riferimento del 6-20% su LEGAR BENCH, raggiungendo prestazioni all’avanguardia. Dimostra inoltre una forte generalizzazione su casi fuori dominio, superando i modelli generativi semplici addestrati su dati in dominio del 15%.
English
Legal Case Retrieval (LCR), which retrieves relevant cases from a query case, is a fundamental task for legal professionals in research and decision-making. However, existing studies on LCR face two major limitations. First, they are evaluated on relatively small-scale retrieval corpora (e.g., 100-55K cases) and use a narrow range of criminal query types, which cannot sufficiently reflect the complexity of real-world legal retrieval scenarios. Second, their reliance on embedding-based or lexical matching methods often results in limited representations and legally irrelevant matches. To address these issues, we present: (1) LEGAR BENCH, the first large-scale Korean LCR benchmark, covering 411 diverse crime types in queries over 1.2M legal cases; and (2) LegalSearchLM, a retrieval model that performs legal element reasoning over the query case and directly generates content grounded in the target cases through constrained decoding. Experimental results show that LegalSearchLM outperforms baselines by 6-20% on LEGAR BENCH, achieving state-of-the-art performance. It also demonstrates strong generalization to out-of-domain cases, outperforming naive generative models trained on in-domain data by 15%.
PDF21June 2, 2025