HuatuoGPT-o1, Auf dem Weg zu medizinischem komplexem Schlussfolgern mit LLMs
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
December 25, 2024
Autoren: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI
Zusammenfassung
Der Durchbruch von OpenAI o1 hebt das Potenzial hervor, die Argumentation zur Verbesserung von LLM zu stärken. Dennoch hat sich die meiste Forschung zur Argumentation auf mathematische Aufgaben konzentriert, wodurch Bereiche wie die Medizin untererforscht geblieben sind. Der medizinische Bereich, obwohl von der Mathematik verschieden, erfordert ebenfalls robuste Argumentation, um zuverlässige Antworten zu liefern, angesichts hoher Gesundheitsstandards. Die Überprüfung medizinischer Argumentation ist jedoch herausfordernd im Gegensatz zu jener in der Mathematik. Um dem entgegenzuwirken, schlagen wir vor, überprüfbare medizinische Probleme mit einem medizinischen Verifizierer vorzulegen, um die Korrektheit der Modellausgaben zu überprüfen. Diese überprüfbare Natur ermöglicht Fortschritte in der medizinischen Argumentation durch einen zweistufigen Ansatz: (1) Verwendung des Verifizierers, um die Suche nach einer komplexen Argumentationstrajectorie zur Feinabstimmung von LLMs zu lenken, (2) Anwendung von Verstärkendem Lernen (RL) mit verifiziererbasierten Belohnungen, um die komplexe Argumentation weiter zu verbessern. Schließlich stellen wir HuatuoGPT-o1 vor, ein medizinisches LLM, das zu komplexer Argumentation fähig ist und allgemeine sowie medizinisch-spezifische Baselines mit nur 40.000 überprüfbaren Problemen übertrifft. Experimente zeigen, dass komplexe Argumentation die Lösung medizinischer Probleme verbessert und stärker von RL profitiert. Wir hoffen, dass unser Ansatz Fortschritte in der Argumentation in medizinischen und anderen spezialisierten Bereichen inspiriert.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning
to improve LLM. Yet, most research in reasoning has focused on mathematical
tasks, leaving domains like medicine underexplored. The medical domain, though
distinct from mathematics, also demands robust reasoning to provide reliable
answers, given the high standards of healthcare. However, verifying medical
reasoning is challenging, unlike those in mathematics. To address this, we
propose verifiable medical problems with a medical verifier to check the
correctness of model outputs. This verifiable nature enables advancements in
medical reasoning through a two-stage approach: (1) using the verifier to guide
the search for a complex reasoning trajectory for fine-tuning LLMs, (2)
applying reinforcement learning (RL) with verifier-based rewards to enhance
complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM
capable of complex reasoning, which outperforms general and medical-specific
baselines using only 40K verifiable problems. Experiments show complex
reasoning improves medical problem-solving and benefits more from RL. We hope
our approach inspires advancements in reasoning across medical and other
specialized domains.Summary
AI-Generated Summary