ChatPaper.aiChatPaper

R1-RE: Domänenübergreifende Beziehungsextraktion mit RLVR

R1-RE: Cross-Domain Relationship Extraction with RLVR

July 7, 2025
papers.authors: Runpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu
cs.AI

papers.abstract

Beziehungsextraktion (RE) ist eine Kernaufgabe in der natürlichen Sprachverarbeitung. Traditionelle Ansätze betrachten RE typischerweise als ein überwachtes Lernproblem, bei dem Kontexte direkt auf Labels abgebildet werden – ein Ansatz, der oft unter einer schlechten Generalisierung außerhalb der Trainingsdomäne (Out-of-Domain, OOD) leidet. Inspiriert durch den Arbeitsablauf menschlicher Annotatoren, reformulieren wir RE als eine auf Annotationsrichtlinien basierende Denkaufgabe und führen R1-RE ein, das erste Reinforcement-Learning-Framework mit verifizierbarer Belohnung (RLVR) für RE-Aufgaben. Unser Ansatz aktiviert die Denkfähigkeiten kleiner Sprachmodelle für Annotationsaufgaben, was zu einer signifikant verbesserten OOD-Robustheit führt. Wir evaluieren unseren Ansatz auf dem öffentlichen Sem-2010-Datensatz und einem privaten MDKG-Datensatz. Das R1-RE-7B-Modell erreicht eine durchschnittliche OOD-Genauigkeit von etwa 70 %, was mit führenden proprietären Modellen wie GPT-4o vergleichbar ist. Darüber hinaus liefert unsere umfassende Analyse neue Einblicke in die Trainingsdynamik und die emergenten Denkverhaltensweisen des RLVR-Paradigmas für RE.
English
Relationship extraction (RE) is a core task in natural language processing. Traditional approaches typically frame RE as a supervised learning problem, directly mapping context to labels-an approach that often suffers from poor out-of-domain (OOD) generalization. Inspired by the workflow of human annotators, we reframe RE as a reasoning task guided by annotation guidelines and introduce R1-RE, the first reinforcement learning with verifiable reward (RLVR) framework for RE tasks. Our method elicits the reasoning abilities of small language models for annotation tasks, resulting in significantly improved OOD robustness. We evaluate our approach on the public Sem-2010 dataset and a private MDKG dataset. The R1-RE-7B model attains an average OOD accuracy of approximately 70%, on par with leading proprietary models such as GPT-4o. Additionally, our comprehensive analysis provides novel insights into the training dynamics and emergent reasoning behaviors of the RLVR paradigm for RE.
PDF61July 8, 2025