ClaimGen-CN: Een grootschalige Chinese dataset voor het genereren van juridische claims
ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation
August 24, 2025
Auteurs: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu
cs.AI
Samenvatting
Juridische vorderingen verwijzen naar de eisen van de eiser in een zaak en zijn essentieel voor het begeleiden van juridische redenering en zaakafhandeling. Hoewel veel onderzoek zich heeft gericht op het verbeteren van de efficiëntie van juridische professionals, blijft het onderzoek naar het helpen van niet-professionals (bijv. eisers) onderbelicht. Dit artikel onderzoekt het probleem van het genereren van juridische vorderingen op basis van de feiten van een gegeven zaak. Ten eerste construeren we ClaimGen-CN, de eerste dataset voor de taak van het genereren van Chinese juridische vorderingen, gebaseerd op diverse real-world juridische geschillen. Daarnaast ontwerpen we een evaluatiemetric die specifiek is toegesneden op het beoordelen van de gegenereerde vorderingen, waarbij twee essentiële dimensies worden meegenomen: feitelijkheid en duidelijkheid. Hierop voortbouwend voeren we een uitgebreide zero-shot evaluatie uit van state-of-the-art algemene en juridisch gespecialiseerde grote taalmodellen. Onze bevindingen benadrukken de beperkingen van de huidige modellen op het gebied van feitelijke precisie en uitdrukkingskracht, wat wijst op de noodzaak van meer gerichte ontwikkeling in dit domein. Om verder onderzoek naar deze belangrijke taak aan te moedigen, zullen we de dataset openbaar beschikbaar stellen.
English
Legal claims refer to the plaintiff's demands in a case and are essential to
guiding judicial reasoning and case resolution. While many works have focused
on improving the efficiency of legal professionals, the research on helping
non-professionals (e.g., plaintiffs) remains unexplored. This paper explores
the problem of legal claim generation based on the given case's facts. First,
we construct ClaimGen-CN, the first dataset for Chinese legal claim generation
task, from various real-world legal disputes. Additionally, we design an
evaluation metric tailored for assessing the generated claims, which
encompasses two essential dimensions: factuality and clarity. Building on this,
we conduct a comprehensive zero-shot evaluation of state-of-the-art general and
legal-domain large language models. Our findings highlight the limitations of
the current models in factual precision and expressive clarity, pointing to the
need for more targeted development in this domain. To encourage further
exploration of this important task, we will make the dataset publicly
available.