ChatPaper.aiChatPaper

ClaimGen-CN: 法的クレーム生成のための大規模中国語データセット

ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

August 24, 2025
著者: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu
cs.AI

要旨

法的請求とは、訴訟における原告の主張を指し、司法判断や事件解決を導く上で重要な要素です。これまで多くの研究が法律専門家の効率向上に焦点を当ててきましたが、非専門家(例:原告)を支援する研究は未開拓のままです。本論文では、与えられた事件事実に基づく法的請求生成の問題を探求します。まず、様々な実世界の法的紛争から、中国語の法的請求生成タスク向け初のデータセットであるClaimGen-CNを構築しました。さらに、生成された請求を評価するために、事実性と明確性という2つの重要な次元を包含する評価指標を設計しました。これを基盤として、最先端の汎用および法律分野特化の大規模言語モデルに対する包括的なゼロショット評価を実施しました。その結果、現在のモデルが事実の正確性と表現の明確性において限界があることが明らかになり、この領域におけるよりターゲットを絞った開発の必要性が示唆されました。この重要なタスクのさらなる探求を促進するため、本データセットを公開する予定です。
English
Legal claims refer to the plaintiff's demands in a case and are essential to guiding judicial reasoning and case resolution. While many works have focused on improving the efficiency of legal professionals, the research on helping non-professionals (e.g., plaintiffs) remains unexplored. This paper explores the problem of legal claim generation based on the given case's facts. First, we construct ClaimGen-CN, the first dataset for Chinese legal claim generation task, from various real-world legal disputes. Additionally, we design an evaluation metric tailored for assessing the generated claims, which encompasses two essential dimensions: factuality and clarity. Building on this, we conduct a comprehensive zero-shot evaluation of state-of-the-art general and legal-domain large language models. Our findings highlight the limitations of the current models in factual precision and expressive clarity, pointing to the need for more targeted development in this domain. To encourage further exploration of this important task, we will make the dataset publicly available.
PDF02August 27, 2025