LegalSearchLM: 법적 사례 검색을 법적 요소 생성으로 재고하기
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation
May 28, 2025
저자: Chaeeun Kim, Jinu Lee, Wonseok Hwang
cs.AI
초록
법률 사례 검색(Legal Case Retrieval, LCR)은 질의 사례와 관련된 사례를 검색하는 작업으로, 법률 전문가들이 연구와 의사결정을 수행하는 데 있어 기본적인 과제이다. 그러나 기존의 LCR 연구는 두 가지 주요 한계에 직면해 있다. 첫째, 상대적으로 소규모의 검색 코퍼스(예: 100-55K 사례)를 기반으로 평가되며, 좁은 범위의 형사 질의 유형만을 사용함으로써 실제 법률 검색 시나리오의 복잡성을 충분히 반영하지 못한다. 둘째, 임베딩 기반 또는 어휘 매칭 방법에 의존함으로써 제한된 표현과 법적으로 관련 없는 매칭 결과를 초래하는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구는 다음과 같은 내용을 제안한다: (1) 120만 건 이상의 법률 사례를 포함하고 411가지 다양한 범죄 유형을 질의로 다루는 최초의 대규모 한국어 LCR 벤치마크인 LEGAR BENCH; (2) 질의 사례에 대한 법적 요소 추론을 수행하고 제약된 디코딩을 통해 대상 사례에 기반한 내용을 직접 생성하는 검색 모델인 LegalSearchLM. 실험 결과, LegalSearchLM은 LEGAR BENCH에서 기준 모델 대비 6-20%의 성능 향상을 보이며 최신 기술 수준의 성능을 달성했다. 또한, 도메인 내 데이터로 훈련된 단순 생성 모델 대비 15% 더 우수한 성능을 보이며 도메인 외 사례에 대한 강력한 일반화 능력을 입증했다.
English
Legal Case Retrieval (LCR), which retrieves relevant cases from a query case,
is a fundamental task for legal professionals in research and decision-making.
However, existing studies on LCR face two major limitations. First, they are
evaluated on relatively small-scale retrieval corpora (e.g., 100-55K cases) and
use a narrow range of criminal query types, which cannot sufficiently reflect
the complexity of real-world legal retrieval scenarios. Second, their reliance
on embedding-based or lexical matching methods often results in limited
representations and legally irrelevant matches. To address these issues, we
present: (1) LEGAR BENCH, the first large-scale Korean LCR benchmark, covering
411 diverse crime types in queries over 1.2M legal cases; and (2)
LegalSearchLM, a retrieval model that performs legal element reasoning over the
query case and directly generates content grounded in the target cases through
constrained decoding. Experimental results show that LegalSearchLM outperforms
baselines by 6-20% on LEGAR BENCH, achieving state-of-the-art performance. It
also demonstrates strong generalization to out-of-domain cases, outperforming
naive generative models trained on in-domain data by 15%.