HuatuoGPT-o1, Naar Medische Complex Redenering met LLM's
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
December 25, 2024
Auteurs: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI
Samenvatting
De doorbraak van OpenAI o1 benadrukt het potentieel van het verbeteren van redenering om LLM te verbeteren. Toch heeft het merendeel van het onderzoek naar redenering zich gericht op wiskundige taken, waardoor domeinen zoals geneeskunde onderbelicht zijn gebleven. Het medische domein, hoewel verschillend van wiskunde, vereist ook robuuste redenering om betrouwbare antwoorden te bieden, gezien de hoge normen in de gezondheidszorg. Het verifiëren van medische redeneringen is echter uitdagend, in tegenstelling tot die in de wiskunde. Om dit aan te pakken, stellen we verifieerbare medische problemen voor met een medische verifier om de juistheid van modeluitvoer te controleren. Deze verifieerbare aard maakt vooruitgang mogelijk in medische redenering via een tweestappenbenadering: (1) het gebruik van de verifier om de zoektocht naar een complex redeneertraject te begeleiden voor het verfijnen van LLM's, (2) het toepassen van reinforcement learning (RL) met verifier-gebaseerde beloningen om complexe redenering verder te verbeteren. Tot slot introduceren we HuatuoGPT-o1, een medische LLM die in staat is tot complexe redenering, die beter presteert dan algemene en medisch-specifieke baselines met slechts 40K verifieerbare problemen. Experimenten tonen aan dat complexe redenering de oplossing van medische problemen verbetert en meer profiteert van RL. We hopen dat onze benadering inspiratie biedt voor vooruitgang in redenering over medische en andere gespecialiseerde domeinen.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning
to improve LLM. Yet, most research in reasoning has focused on mathematical
tasks, leaving domains like medicine underexplored. The medical domain, though
distinct from mathematics, also demands robust reasoning to provide reliable
answers, given the high standards of healthcare. However, verifying medical
reasoning is challenging, unlike those in mathematics. To address this, we
propose verifiable medical problems with a medical verifier to check the
correctness of model outputs. This verifiable nature enables advancements in
medical reasoning through a two-stage approach: (1) using the verifier to guide
the search for a complex reasoning trajectory for fine-tuning LLMs, (2)
applying reinforcement learning (RL) with verifier-based rewards to enhance
complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM
capable of complex reasoning, which outperforms general and medical-specific
baselines using only 40K verifiable problems. Experiments show complex
reasoning improves medical problem-solving and benefits more from RL. We hope
our approach inspires advancements in reasoning across medical and other
specialized domains.