InfiMed-ORBIT: Ausrichtung von LLMs auf offene komplexe Aufgaben durch rubrikbasierte inkrementelle Schulung

papers.abstract

Große Sprachmodelle (LLMs) haben durch Reinforcement Learning (RL) erhebliche Fortschritte gezeigt, insbesondere in Bereichen, in denen Belohnungen programmatisch überprüft werden können, wie in der Mathematik und bei Code. In diesen Bereichen profitieren Modelle von einer klar definierten operativen Basis, die durch explizite regelbasierte Ziele geleitet wird. Dieser Fortschritt offenbart jedoch eine bedeutende Einschränkung: In offenen Domänen, in denen Belohnungen mehrdeutig, subjektiv oder kontextabhängig sind, wie kreatives Schreiben, wissenschaftliches Denken und insbesondere medizinische Beratung, fehlen robuste Belohnungsfunktionen, was diese Bereiche für aktuelle RL-Strategien herausfordernd macht. Um diese Lücke zu schließen, führen wir ORBIT ein, ein offenes, rubrikbasiertes inkrementelles Trainingsframework, das speziell für hochriskante medizinische Dialoge entwickelt wurde. ORBIT integriert die synthetische Dialoggeneration mit der dynamischen Erstellung von Rubriken und nutzt diese Rubriken, um einen inkrementellen RL-Prozess zu steuern. Insbesondere ist dieser Ansatz nicht auf externes medizinisches Wissen oder manuelle Regeln angewiesen, sondern verwendet rubrikgeleitetes Feedback, um das Lernen zu formen. Bei der Implementierung auf dem Qwen3-4B-Instruct-Modell kann unsere Methode dessen Leistung auf dem HealthBench-Hard-Benchmark von 7,0 auf 27,2 mit nur 2k Proben deutlich verbessern und somit state-of-the-art Ergebnisse für Modelle dieser Größenordnung erzielen. Unsere Analyse bestätigt, dass rubrikgetriebenes RL konsistente Leistungssteigerungen über verschiedene Beratungsszenarien hinweg fördert, die über einfache numerische Verbesserungen hinausgehen. Diese Ergebnisse unterstreichen rubrikbasiertes Feedback als eine skalierbare Strategie zur Weiterentwicklung von LLMs in komplexen, offenen Aufgaben.

English

Large Language Models (LLMs) have shown substantial advances through reinforcement learning (RL), particularly in domains where rewards can be programmatically verified, such as mathematics and code. In these areas, models benefit from a well-defined operational base guided by explicit rule-based objectives. However, this progress reveals a significant limitation: in open-ended domains where rewards are ambiguous, subjective, or context-dependent, such as creative writing, scientific reasoning, and notably medical consultation, robust reward functions are lacking, making these areas challenging for current RL strategies. To bridge this gap, we introduce ORBIT, an open-ended rubric-based incremental training framework specifically designed for high-stakes medical dialogue. ORBIT integrates syn- thetic dialogue generation with the dynamic creation of rubrics, employing these rubrics to direct an incremental RL process. In particular, this approach does not depend on external medical knowledge or manual rules, instead utilizing rubric-guided feedback to shape learning. When implemented on the Qwen3-4B-Instruct model, our method can greatly enhance its performance on the HealthBench-Hard benchmark from 7.0 to 27.2 using only 2k samples, thus achieving state-of-the-art results for models of this scale. Our analysis confirms that rubric-driven RL fos-ters consistent performance gains across diverse consultation scenarios, going beyond simple numerical improvements. These findings underscore rubric-based feedback as a scalable strategy for advancing LLMs in intricate, open-ended tasks.

InfiMed-ORBIT: Ausrichtung von LLMs auf offene komplexe Aufgaben durch rubrikbasierte inkrementelle Schulung

InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

papers.abstract

Support