ClaimGen-CN: Um Grande Conjunto de Dados em Chinês para Geração de Reivindicações Legais
ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation
August 24, 2025
Autores: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu
cs.AI
Resumo
Reivindicações legais referem-se às demandas do autor em um caso e são essenciais para orientar o raciocínio judicial e a resolução do caso. Embora muitos trabalhos tenham se concentrado em melhorar a eficiência dos profissionais do direito, a pesquisa sobre como ajudar não profissionais (por exemplo, autores) permanece inexplorada. Este artigo explora o problema da geração de reivindicações legais com base nos fatos de um caso. Primeiro, construímos o ClaimGen-CN, o primeiro conjunto de dados para a tarefa de geração de reivindicações legais em chinês, a partir de diversas disputas legais do mundo real. Além disso, projetamos uma métrica de avaliação personalizada para avaliar as reivindicações geradas, que abrange duas dimensões essenciais: factualidade e clareza. Com base nisso, realizamos uma avaliação abrangente de modelos de linguagem de grande escala, tanto gerais quanto específicos para o domínio jurídico, em cenário de zero-shot. Nossos resultados destacam as limitações dos modelos atuais em precisão factual e clareza expressiva, apontando para a necessidade de um desenvolvimento mais direcionado nesse domínio. Para incentivar a exploração adicional dessa tarefa importante, disponibilizaremos o conjunto de dados publicamente.
English
Legal claims refer to the plaintiff's demands in a case and are essential to
guiding judicial reasoning and case resolution. While many works have focused
on improving the efficiency of legal professionals, the research on helping
non-professionals (e.g., plaintiffs) remains unexplored. This paper explores
the problem of legal claim generation based on the given case's facts. First,
we construct ClaimGen-CN, the first dataset for Chinese legal claim generation
task, from various real-world legal disputes. Additionally, we design an
evaluation metric tailored for assessing the generated claims, which
encompasses two essential dimensions: factuality and clarity. Building on this,
we conduct a comprehensive zero-shot evaluation of state-of-the-art general and
legal-domain large language models. Our findings highlight the limitations of
the current models in factual precision and expressive clarity, pointing to the
need for more targeted development in this domain. To encourage further
exploration of this important task, we will make the dataset publicly
available.