ChatPaper.aiChatPaper

InfiMed-ORBIT: 루브릭 기반 점진적 학습을 통해 개방형 복잡 과제에 대형 언어 모델 정렬하기

InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

October 17, 2025
저자: Pengkai Wang, Qi Zuo, Pengwei Liu, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI

초록

대규모 언어 모델(LLMs)은 강화 학습(RL)을 통해 상당한 발전을 이루었으며, 특히 수학 및 코드와 같이 보상을 프로그램적으로 검증할 수 있는 분야에서 두드러진 성과를 보여주었습니다. 이러한 영역에서는 명시적인 규칙 기반 목표에 의해 안내되는 잘 정의된 운영 기반을 통해 모델이 이점을 얻습니다. 그러나 이러한 진전은 중요한 한계를 드러내기도 합니다. 창의적 글쓰기, 과학적 추론, 그리고 특히 의료 상담과 같이 보상이 모호하거나 주관적이며 상황에 따라 달라지는 개방형 분야에서는 견고한 보상 함수가 부족하여 현재의 RL 전략이 적용되기 어려운 상황입니다. 이러한 격차를 해소하기 위해, 우리는 고위험 의료 대화를 위해 특별히 설계된 개방형 루브릭 기반 점진적 학습 프레임워크인 ORBIT을 소개합니다. ORBIT은 합성 대화 생성과 루브릭의 동적 생성을 통합하며, 이러한 루브릭을 활용하여 점진적인 RL 프로세스를 지도합니다. 특히, 이 접근 방식은 외부 의학 지식이나 수동 규칙에 의존하지 않고, 루브릭 기반 피드백을 통해 학습을 형성합니다. Qwen3-4B-Instruct 모델에 구현했을 때, 우리의 방법은 단 2,000개의 샘플만으로 HealthBench-Hard 벤치마크에서의 성능을 7.0에서 27.2로 크게 향상시켜, 이 규모의 모델 중 최고 수준의 결과를 달성했습니다. 우리의 분석은 루브릭 기반 RL이 단순한 수치적 개선을 넘어 다양한 상담 시나리오에서 일관된 성능 향상을 촉진한다는 것을 확인합니다. 이러한 발견들은 복잡하고 개방형 작업에서 LLMs를 발전시키기 위한 확장 가능한 전략으로서 루브릭 기반 피드백의 중요성을 강조합니다.
English
Large Language Models (LLMs) have shown substantial advances through reinforcement learning (RL), particularly in domains where rewards can be programmatically verified, such as mathematics and code. In these areas, models benefit from a well-defined operational base guided by explicit rule-based objectives. However, this progress reveals a significant limitation: in open-ended domains where rewards are ambiguous, subjective, or context-dependent, such as creative writing, scientific reasoning, and notably medical consultation, robust reward functions are lacking, making these areas challenging for current RL strategies. To bridge this gap, we introduce ORBIT, an open-ended rubric-based incremental training framework specifically designed for high-stakes medical dialogue. ORBIT integrates syn- thetic dialogue generation with the dynamic creation of rubrics, employing these rubrics to direct an incremental RL process. In particular, this approach does not depend on external medical knowledge or manual rules, instead utilizing rubric-guided feedback to shape learning. When implemented on the Qwen3-4B-Instruct model, our method can greatly enhance its performance on the HealthBench-Hard benchmark from 7.0 to 27.2 using only 2k samples, thus achieving state-of-the-art results for models of this scale. Our analysis confirms that rubric-driven RL fos-ters consistent performance gains across diverse consultation scenarios, going beyond simple numerical improvements. These findings underscore rubric-based feedback as a scalable strategy for advancing LLMs in intricate, open-ended tasks.
PDF102October 20, 2025