ChatPaper.aiChatPaper

ClaimGen-CN : Un vaste ensemble de données en chinois pour la génération de revendications juridiques

ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

August 24, 2025
papers.authors: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu
cs.AI

papers.abstract

Les revendications juridiques désignent les demandes du plaignant dans une affaire et sont essentielles pour orienter le raisonnement judiciaire et la résolution des cas. Bien que de nombreux travaux se soient concentrés sur l'amélioration de l'efficacité des professionnels du droit, la recherche visant à aider les non-professionnels (par exemple, les plaignants) reste inexplorée. Cet article explore le problème de la génération de revendications juridiques à partir des faits d'un cas donné. Tout d'abord, nous construisons ClaimGen-CN, le premier ensemble de données dédié à la génération de revendications juridiques en chinois, à partir de divers litiges juridiques réels. En outre, nous concevons une métrique d'évaluation adaptée pour juger les revendications générées, qui englobe deux dimensions essentielles : la factualité et la clarté. Sur cette base, nous menons une évaluation en zero-shot exhaustive des modèles de langage généralistes et spécialisés dans le domaine juridique les plus avancés. Nos résultats mettent en lumière les limites des modèles actuels en termes de précision factuelle et de clarté expressive, soulignant la nécessité d'un développement plus ciblé dans ce domaine. Pour encourager l'exploration approfondie de cette tâche importante, nous rendrons l'ensemble de données accessible au public.
English
Legal claims refer to the plaintiff's demands in a case and are essential to guiding judicial reasoning and case resolution. While many works have focused on improving the efficiency of legal professionals, the research on helping non-professionals (e.g., plaintiffs) remains unexplored. This paper explores the problem of legal claim generation based on the given case's facts. First, we construct ClaimGen-CN, the first dataset for Chinese legal claim generation task, from various real-world legal disputes. Additionally, we design an evaluation metric tailored for assessing the generated claims, which encompasses two essential dimensions: factuality and clarity. Building on this, we conduct a comprehensive zero-shot evaluation of state-of-the-art general and legal-domain large language models. Our findings highlight the limitations of the current models in factual precision and expressive clarity, pointing to the need for more targeted development in this domain. To encourage further exploration of this important task, we will make the dataset publicly available.
PDF02August 27, 2025