ChatPaper.aiChatPaper

ClaimGen-CN: Масштабный китайский набор данных для генерации юридических претензий

ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

August 24, 2025
Авторы: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu
cs.AI

Аннотация

Юридические требования относятся к требованиям истца по делу и имеют ключевое значение для направления судебного рассуждения и разрешения дела. Хотя многие работы были сосредоточены на повышении эффективности работы юридических специалистов, исследования, направленные на помощь непрофессионалам (например, истцам), остаются малоизученными. В данной статье исследуется проблема генерации юридических требований на основе фактов конкретного дела. Во-первых, мы создаем ClaimGen-CN — первый набор данных для задачи генерации юридических требований на китайском языке, собранный из различных реальных юридических споров. Кроме того, мы разрабатываем метрику оценки, адаптированную для анализа сгенерированных требований, которая охватывает два ключевых аспекта: фактическую точность и ясность изложения. На основе этого мы проводим всестороннюю оценку в режиме zero-shot современных общих и специализированных на юридической тематике больших языковых моделей. Наши результаты подчеркивают ограничения текущих моделей в точности передачи фактов и ясности выражения, указывая на необходимость более целенаправленной разработки в этой области. Чтобы стимулировать дальнейшее исследование этой важной задачи, мы сделаем набор данных общедоступным.
English
Legal claims refer to the plaintiff's demands in a case and are essential to guiding judicial reasoning and case resolution. While many works have focused on improving the efficiency of legal professionals, the research on helping non-professionals (e.g., plaintiffs) remains unexplored. This paper explores the problem of legal claim generation based on the given case's facts. First, we construct ClaimGen-CN, the first dataset for Chinese legal claim generation task, from various real-world legal disputes. Additionally, we design an evaluation metric tailored for assessing the generated claims, which encompasses two essential dimensions: factuality and clarity. Building on this, we conduct a comprehensive zero-shot evaluation of state-of-the-art general and legal-domain large language models. Our findings highlight the limitations of the current models in factual precision and expressive clarity, pointing to the need for more targeted development in this domain. To encourage further exploration of this important task, we will make the dataset publicly available.
PDF02August 27, 2025