HuatuoGPT-o1、LLMを用いた医療複雑推論に向けてHuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
OpenAI o1のブレークスルーは、推論を強化する可能性を示しており、LLMの改善が期待されます。しかし、推論に関するほとんどの研究は数学的なタスクに焦点を当てており、医学のような領域は未開拓のままです。医学の領域は数学とは異なりますが、医療の高い基準を考慮すると信頼性のある回答を提供するために堅牢な推論が求められます。ただし、数学とは異なり、医学的な推論の検証は困難です。この課題に対処するために、モデルの出力の正確性を確認する医学的な検証者を用いた検証可能な医学問題を提案します。この検証可能な性質により、医学的な推論の進歩が可能となります。具体的には、(1)検証者を使用してLLMの微調整のための複雑な推論経路の検索をガイドし、(2)検証者ベースの報酬を用いた強化学習(RL)を適用して複雑な推論をさらに強化します。最後に、40Kの検証可能な問題のみを使用して、一般的なベースラインおよび医学特化型のベースラインを上回る複雑な推論が可能な医学LLMであるHuatuoGPT-o1を紹介します。実験結果は、複雑な推論が医学的な問題解決を改善し、RLからより多くの利益を得ることを示しています。私たちのアプローチが医学および他の専門領域全般で推論の進歩を促すことを願っています。