ChatPaper.aiChatPaper

HuatuoGPT-o1, Auf dem Weg zu medizinischem komplexem Schlussfolgern mit LLMs

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

December 25, 2024
Autoren: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI

Zusammenfassung

Der Durchbruch von OpenAI o1 hebt das Potenzial hervor, die Argumentation zur Verbesserung von LLM zu stärken. Dennoch hat sich die meiste Forschung zur Argumentation auf mathematische Aufgaben konzentriert, wodurch Bereiche wie die Medizin untererforscht geblieben sind. Der medizinische Bereich, obwohl von der Mathematik verschieden, erfordert ebenfalls robuste Argumentation, um zuverlässige Antworten zu liefern, angesichts hoher Gesundheitsstandards. Die Überprüfung medizinischer Argumentation ist jedoch herausfordernd im Gegensatz zu jener in der Mathematik. Um dem entgegenzuwirken, schlagen wir vor, überprüfbare medizinische Probleme mit einem medizinischen Verifizierer vorzulegen, um die Korrektheit der Modellausgaben zu überprüfen. Diese überprüfbare Natur ermöglicht Fortschritte in der medizinischen Argumentation durch einen zweistufigen Ansatz: (1) Verwendung des Verifizierers, um die Suche nach einer komplexen Argumentationstrajectorie zur Feinabstimmung von LLMs zu lenken, (2) Anwendung von Verstärkendem Lernen (RL) mit verifiziererbasierten Belohnungen, um die komplexe Argumentation weiter zu verbessern. Schließlich stellen wir HuatuoGPT-o1 vor, ein medizinisches LLM, das zu komplexer Argumentation fähig ist und allgemeine sowie medizinisch-spezifische Baselines mit nur 40.000 überprüfbaren Problemen übertrifft. Experimente zeigen, dass komplexe Argumentation die Lösung medizinischer Probleme verbessert und stärker von RL profitiert. Wir hoffen, dass unser Ansatz Fortschritte in der Argumentation in medizinischen und anderen spezialisierten Bereichen inspiriert.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.

Summary

AI-Generated Summary

PDF1026December 30, 2024