ChatPaper.aiChatPaper

ClaimGen-CN: 법률 청구문 생성용 대규모 중국어 데이터셋

ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

August 24, 2025
저자: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu
cs.AI

초록

법적 청구는 소송에서 원고의 요구를 의미하며, 사법적 추론과 사건 해결을 안내하는 데 필수적입니다. 많은 연구가 법률 전문가의 효율성 향상에 초점을 맞추고 있지만, 비전문가(예: 원고)를 돕는 연구는 아직 미개척 분야로 남아 있습니다. 본 논문은 주어진 사건 사실을 기반으로 법적 청구를 생성하는 문제를 탐구합니다. 먼저, 우리는 다양한 실제 법적 분쟁에서 중국어 법적 청구 생성을 위한 첫 번째 데이터셋인 ClaimGen-CN을 구축했습니다. 또한, 생성된 청구를 평가하기 위해 사실성과 명확성이라는 두 가지 필수 차원을 포괄하는 평가 지표를 설계했습니다. 이를 바탕으로, 우리는 최신의 일반 및 법률 도메인 대규모 언어 모델에 대한 포괄적인 제로샷 평가를 수행했습니다. 우리의 연구 결과는 현재 모델들이 사실적 정확성과 표현적 명확성에서 한계를 보임을 강조하며, 이 분야에서 더욱 표적화된 개발의 필요성을 지적합니다. 이 중요한 과제에 대한 추가 탐구를 장려하기 위해, 우리는 데이터셋을 공개할 예정입니다.
English
Legal claims refer to the plaintiff's demands in a case and are essential to guiding judicial reasoning and case resolution. While many works have focused on improving the efficiency of legal professionals, the research on helping non-professionals (e.g., plaintiffs) remains unexplored. This paper explores the problem of legal claim generation based on the given case's facts. First, we construct ClaimGen-CN, the first dataset for Chinese legal claim generation task, from various real-world legal disputes. Additionally, we design an evaluation metric tailored for assessing the generated claims, which encompasses two essential dimensions: factuality and clarity. Building on this, we conduct a comprehensive zero-shot evaluation of state-of-the-art general and legal-domain large language models. Our findings highlight the limitations of the current models in factual precision and expressive clarity, pointing to the need for more targeted development in this domain. To encourage further exploration of this important task, we will make the dataset publicly available.
PDF02August 27, 2025