HuatuoGPT-o1、LLMを用いた医療複雑推論に向けて
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
December 25, 2024
著者: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI
要旨
OpenAI o1のブレークスルーは、推論を強化する可能性を示しており、LLMの改善が期待されます。しかし、推論に関するほとんどの研究は数学的なタスクに焦点を当てており、医学のような領域は未開拓のままです。医学の領域は数学とは異なりますが、医療の高い基準を考慮すると信頼性のある回答を提供するために堅牢な推論が求められます。ただし、数学とは異なり、医学的な推論の検証は困難です。この課題に対処するために、モデルの出力の正確性を確認する医学的な検証者を用いた検証可能な医学問題を提案します。この検証可能な性質により、医学的な推論の進歩が可能となります。具体的には、(1)検証者を使用してLLMの微調整のための複雑な推論経路の検索をガイドし、(2)検証者ベースの報酬を用いた強化学習(RL)を適用して複雑な推論をさらに強化します。最後に、40Kの検証可能な問題のみを使用して、一般的なベースラインおよび医学特化型のベースラインを上回る複雑な推論が可能な医学LLMであるHuatuoGPT-o1を紹介します。実験結果は、複雑な推論が医学的な問題解決を改善し、RLからより多くの利益を得ることを示しています。私たちのアプローチが医学および他の専門領域全般で推論の進歩を促すことを願っています。
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning
to improve LLM. Yet, most research in reasoning has focused on mathematical
tasks, leaving domains like medicine underexplored. The medical domain, though
distinct from mathematics, also demands robust reasoning to provide reliable
answers, given the high standards of healthcare. However, verifying medical
reasoning is challenging, unlike those in mathematics. To address this, we
propose verifiable medical problems with a medical verifier to check the
correctness of model outputs. This verifiable nature enables advancements in
medical reasoning through a two-stage approach: (1) using the verifier to guide
the search for a complex reasoning trajectory for fine-tuning LLMs, (2)
applying reinforcement learning (RL) with verifier-based rewards to enhance
complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM
capable of complex reasoning, which outperforms general and medical-specific
baselines using only 40K verifiable problems. Experiments show complex
reasoning improves medical problem-solving and benefits more from RL. We hope
our approach inspires advancements in reasoning across medical and other
specialized domains.Summary
AI-Generated Summary