ChatPaper.aiChatPaper

HuatuoGPT-o1, Vers un raisonnement complexe en médecine avec LLMs

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

December 25, 2024
Auteurs: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI

Résumé

La percée d'OpenAI o1 met en lumière le potentiel d'améliorer le raisonnement pour améliorer les LLM. Cependant, la plupart des recherches en raisonnement se sont concentrées sur des tâches mathématiques, laissant des domaines tels que la médecine sous-explorés. Le domaine médical, bien qu'étant distinct des mathématiques, exige également un raisonnement robuste pour fournir des réponses fiables, compte tenu des normes élevées des soins de santé. Cependant, la vérification du raisonnement médical est difficile, contrairement à celle des mathématiques. Pour remédier à cela, nous proposons des problèmes médicaux vérifiables avec un vérificateur médical pour vérifier la justesse des sorties du modèle. Cette nature vérifiable permet des avancées dans le raisonnement médical grâce à une approche en deux étapes : (1) utiliser le vérificateur pour guider la recherche d'une trajectoire de raisonnement complexe pour affiner les LLM, (2) appliquer l'apprentissage par renforcement (RL) avec des récompenses basées sur le vérificateur pour améliorer davantage le raisonnement complexe. Enfin, nous présentons HuatuoGPT-o1, un LLM médical capable de raisonnement complexe, qui surpasse les références générales et spécifiques à la médecine en n'utilisant que 40 000 problèmes vérifiables. Les expériences montrent que le raisonnement complexe améliore la résolution de problèmes médicaux et bénéficie davantage de l'apprentissage par renforcement. Nous espérons que notre approche inspirera des avancées dans le raisonnement à travers les domaines médicaux et autres spécialisés.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.

Summary

AI-Generated Summary

PDF1026December 30, 2024