InfiMed-ORBIT: Ausrichtung von LLMs auf offene komplexe Aufgaben durch rubrikbasierte inkrementelle Schulung
InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training
October 17, 2025
papers.authors: Pengkai Wang, Qi Zuo, Pengwei Liu, Zhijie Sang, Congkai Xie, Hongxia Yang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben durch Reinforcement Learning (RL) erhebliche Fortschritte gezeigt, insbesondere in Bereichen, in denen Belohnungen programmatisch überprüft werden können, wie in der Mathematik und bei Code. In diesen Bereichen profitieren Modelle von einer klar definierten operativen Basis, die durch explizite regelbasierte Ziele geleitet wird. Dieser Fortschritt offenbart jedoch eine bedeutende Einschränkung: In offenen Domänen, in denen Belohnungen mehrdeutig, subjektiv oder kontextabhängig sind, wie kreatives Schreiben, wissenschaftliches Denken und insbesondere medizinische Beratung, fehlen robuste Belohnungsfunktionen, was diese Bereiche für aktuelle RL-Strategien herausfordernd macht. Um diese Lücke zu schließen, führen wir ORBIT ein, ein offenes, rubrikbasiertes inkrementelles Trainingsframework, das speziell für hochriskante medizinische Dialoge entwickelt wurde. ORBIT integriert die synthetische Dialoggeneration mit der dynamischen Erstellung von Rubriken und nutzt diese Rubriken, um einen inkrementellen RL-Prozess zu steuern. Insbesondere ist dieser Ansatz nicht auf externes medizinisches Wissen oder manuelle Regeln angewiesen, sondern verwendet rubrikgeleitetes Feedback, um das Lernen zu formen. Bei der Implementierung auf dem Qwen3-4B-Instruct-Modell kann unsere Methode dessen Leistung auf dem HealthBench-Hard-Benchmark von 7,0 auf 27,2 mit nur 2k Proben deutlich verbessern und somit state-of-the-art Ergebnisse für Modelle dieser Größenordnung erzielen. Unsere Analyse bestätigt, dass rubrikgetriebenes RL konsistente Leistungssteigerungen über verschiedene Beratungsszenarien hinweg fördert, die über einfache numerische Verbesserungen hinausgehen. Diese Ergebnisse unterstreichen rubrikbasiertes Feedback als eine skalierbare Strategie zur Weiterentwicklung von LLMs in komplexen, offenen Aufgaben.
English
Large Language Models (LLMs) have shown substantial advances through
reinforcement learning (RL), particularly in domains where rewards can be
programmatically verified, such as mathematics and code. In these areas, models
benefit from a well-defined operational base guided by explicit rule-based
objectives. However, this progress reveals a significant limitation: in
open-ended domains where rewards are ambiguous, subjective, or
context-dependent, such as creative writing, scientific reasoning, and notably
medical consultation, robust reward functions are lacking, making these areas
challenging for current RL strategies. To bridge this gap, we introduce ORBIT,
an open-ended rubric-based incremental training framework specifically designed
for high-stakes medical dialogue. ORBIT integrates syn- thetic dialogue
generation with the dynamic creation of rubrics, employing these rubrics to
direct an incremental RL process. In particular, this approach does not depend
on external medical knowledge or manual rules, instead utilizing rubric-guided
feedback to shape learning. When implemented on the Qwen3-4B-Instruct model,
our method can greatly enhance its performance on the HealthBench-Hard
benchmark from 7.0 to 27.2 using only 2k samples, thus achieving
state-of-the-art results for models of this scale. Our analysis confirms that
rubric-driven RL fos-ters consistent performance gains across diverse
consultation scenarios, going beyond simple numerical improvements. These
findings underscore rubric-based feedback as a scalable strategy for advancing
LLMs in intricate, open-ended tasks.