R1-RE : Extraction de relations interdomaines avec RLVR
R1-RE: Cross-Domain Relationship Extraction with RLVR
July 7, 2025
papers.authors: Runpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu
cs.AI
papers.abstract
L'extraction de relations (RE) est une tâche fondamentale en traitement automatique du langage naturel. Les approches traditionnelles considèrent généralement la RE comme un problème d'apprentissage supervisé, en établissant une correspondance directe entre le contexte et les étiquettes—une méthode qui souffre souvent d'une faible généralisation hors domaine (OOD). Inspirés par le processus de travail des annotateurs humains, nous reformulons la RE comme une tâche de raisonnement guidée par des directives d'annotation et introduisons R1-RE, le premier cadre d'apprentissage par renforcement avec récompense vérifiable (RLVR) pour les tâches de RE. Notre méthode exploite les capacités de raisonnement des petits modèles de langage pour les tâches d'annotation, ce qui améliore significativement la robustesse OOD. Nous évaluons notre approche sur le jeu de données public Sem-2010 et sur un jeu de données privé MDKG. Le modèle R1-RE-7B atteint une précision OOD moyenne d'environ 70 %, comparable à celle des modèles propriétaires leaders tels que GPT-4o. De plus, notre analyse approfondie offre de nouvelles perspectives sur la dynamique d'apprentissage et les comportements de raisonnement émergents du paradigme RLVR pour la RE.
English
Relationship extraction (RE) is a core task in natural language processing.
Traditional approaches typically frame RE as a supervised learning problem,
directly mapping context to labels-an approach that often suffers from poor
out-of-domain (OOD) generalization. Inspired by the workflow of human
annotators, we reframe RE as a reasoning task guided by annotation guidelines
and introduce R1-RE, the first reinforcement learning with verifiable reward
(RLVR) framework for RE tasks. Our method elicits the reasoning abilities of
small language models for annotation tasks, resulting in significantly improved
OOD robustness. We evaluate our approach on the public Sem-2010 dataset and a
private MDKG dataset. The R1-RE-7B model attains an average OOD accuracy of
approximately 70%, on par with leading proprietary models such as GPT-4o.
Additionally, our comprehensive analysis provides novel insights into the
training dynamics and emergent reasoning behaviors of the RLVR paradigm for RE.