HuatuoGPT-o1, К медицинскому сложному рассуждению с LLMs
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
December 25, 2024
Авторы: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI
Аннотация
Прорыв OpenAI o1 подчеркивает потенциал улучшения рассуждений для повышения производительности LLM. Тем не менее, большинство исследований в области рассуждений сосредоточены на математических задачах, оставляя области, такие как медицина, недостаточно исследованными. Медицинская область, хотя и отличается от математики, также требует надежных рассуждений для предоставления достоверных ответов, учитывая высокие стандарты здравоохранения. Однако проверка медицинских рассуждений представляет собой сложную задачу, в отличие от математических. Для решения этой проблемы мы предлагаем верифицируемые медицинские задачи с медицинским верификатором для проверки корректности выходных данных модели. Этот верифицируемый характер позволяет продвигаться в области медицинских рассуждений через двухэтапный подход: (1) использование верификатора для направления поиска сложной траектории рассуждений для настройки LLM, (2) применение обучения с подкреплением (RL) с наградами на основе верификатора для дальнейшего улучшения сложных рассуждений. Наконец, мы представляем HuatuoGPT-o1, медицинский LLM, способный к сложным рассуждениям, который превосходит общие и медицинские базовые уровни, используя всего 40 тыс. верифицируемых задач. Эксперименты показывают, что сложные рассуждения улучшают решение медицинских проблем и более эффективно используют RL. Мы надеемся, что наш подход вдохновит прогресс в области рассуждений в медицинских и других специализированных областях.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning
to improve LLM. Yet, most research in reasoning has focused on mathematical
tasks, leaving domains like medicine underexplored. The medical domain, though
distinct from mathematics, also demands robust reasoning to provide reliable
answers, given the high standards of healthcare. However, verifying medical
reasoning is challenging, unlike those in mathematics. To address this, we
propose verifiable medical problems with a medical verifier to check the
correctness of model outputs. This verifiable nature enables advancements in
medical reasoning through a two-stage approach: (1) using the verifier to guide
the search for a complex reasoning trajectory for fine-tuning LLMs, (2)
applying reinforcement learning (RL) with verifier-based rewards to enhance
complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM
capable of complex reasoning, which outperforms general and medical-specific
baselines using only 40K verifiable problems. Experiments show complex
reasoning improves medical problem-solving and benefits more from RL. We hope
our approach inspires advancements in reasoning across medical and other
specialized domains.Summary
AI-Generated Summary