ChatPaper.aiChatPaper

R1-RE: Extracción de Relaciones Transdominio con RLVR

R1-RE: Cross-Domain Relationship Extraction with RLVR

July 7, 2025
Autores: Runpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu
cs.AI

Resumen

La extracción de relaciones (RE, por sus siglas en inglés) es una tarea fundamental en el procesamiento del lenguaje natural. Los enfoques tradicionales suelen plantear la RE como un problema de aprendizaje supervisado, mapeando directamente el contexto a etiquetas, un enfoque que a menudo presenta una generalización deficiente fuera del dominio (OOD, por sus siglas en inglés). Inspirados por el flujo de trabajo de los anotadores humanos, reformulamos la RE como una tarea de razonamiento guiada por pautas de anotación e introducimos R1-RE, el primer marco de aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés) para tareas de RE. Nuestro método aprovecha las capacidades de razonamiento de modelos de lenguaje pequeños para tareas de anotación, lo que resulta en una robustez OOD significativamente mejorada. Evaluamos nuestro enfoque en el conjunto de datos público Sem-2010 y en un conjunto de datos privado MDKG. El modelo R1-RE-7B alcanza una precisión OOD promedio de aproximadamente el 70%, comparable con modelos propietarios líderes como GPT-4o. Además, nuestro análisis exhaustivo proporciona nuevas perspectivas sobre la dinámica de entrenamiento y los comportamientos emergentes de razonamiento del paradigma RLVR para la RE.
English
Relationship extraction (RE) is a core task in natural language processing. Traditional approaches typically frame RE as a supervised learning problem, directly mapping context to labels-an approach that often suffers from poor out-of-domain (OOD) generalization. Inspired by the workflow of human annotators, we reframe RE as a reasoning task guided by annotation guidelines and introduce R1-RE, the first reinforcement learning with verifiable reward (RLVR) framework for RE tasks. Our method elicits the reasoning abilities of small language models for annotation tasks, resulting in significantly improved OOD robustness. We evaluate our approach on the public Sem-2010 dataset and a private MDKG dataset. The R1-RE-7B model attains an average OOD accuracy of approximately 70%, on par with leading proprietary models such as GPT-4o. Additionally, our comprehensive analysis provides novel insights into the training dynamics and emergent reasoning behaviors of the RLVR paradigm for RE.
PDF61July 8, 2025