R1-RE: Извлечение междоменных отношений с использованием RLVR
R1-RE: Cross-Domain Relationship Extraction with RLVR
July 7, 2025
Авторы: Runpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu
cs.AI
Аннотация
Извлечение отношений (RE) является ключевой задачей в обработке естественного языка. Традиционные подходы обычно формулируют RE как задачу обучения с учителем, напрямую отображая контекст на метки — подход, который часто страдает от слабой обобщающей способности вне домена (OOD). Вдохновленные рабочим процессом аннотаторов-людей, мы переосмысливаем RE как задачу рассуждений, направляемую руководствами по аннотации, и представляем R1-RE — первую структуру обучения с подкреплением с верифицируемой наградой (RLVR) для задач RE. Наш метод активирует способности к рассуждению у небольших языковых моделей для задач аннотации, что приводит к значительному улучшению устойчивости к OOD. Мы оцениваем наш подход на публичном наборе данных Sem-2010 и частном наборе данных MDKG. Модель R1-RE-7B достигает средней точности OOD около 70%, что сопоставимо с ведущими проприетарными моделями, такими как GPT-4o. Кроме того, наш всесторонний анализ предоставляет новые инсайты в динамику обучения и возникающие поведенческие паттерны рассуждений в рамках парадигмы RLVR для RE.
English
Relationship extraction (RE) is a core task in natural language processing.
Traditional approaches typically frame RE as a supervised learning problem,
directly mapping context to labels-an approach that often suffers from poor
out-of-domain (OOD) generalization. Inspired by the workflow of human
annotators, we reframe RE as a reasoning task guided by annotation guidelines
and introduce R1-RE, the first reinforcement learning with verifiable reward
(RLVR) framework for RE tasks. Our method elicits the reasoning abilities of
small language models for annotation tasks, resulting in significantly improved
OOD robustness. We evaluate our approach on the public Sem-2010 dataset and a
private MDKG dataset. The R1-RE-7B model attains an average OOD accuracy of
approximately 70%, on par with leading proprietary models such as GPT-4o.
Additionally, our comprehensive analysis provides novel insights into the
training dynamics and emergent reasoning behaviors of the RLVR paradigm for RE.