HuatuoGPT-o1, К медицинскому сложному рассуждению с LLMsHuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
Прорыв OpenAI o1 подчеркивает потенциал улучшения рассуждений для повышения производительности LLM. Тем не менее, большинство исследований в области рассуждений сосредоточены на математических задачах, оставляя области, такие как медицина, недостаточно исследованными. Медицинская область, хотя и отличается от математики, также требует надежных рассуждений для предоставления достоверных ответов, учитывая высокие стандарты здравоохранения. Однако проверка медицинских рассуждений представляет собой сложную задачу, в отличие от математических. Для решения этой проблемы мы предлагаем верифицируемые медицинские задачи с медицинским верификатором для проверки корректности выходных данных модели. Этот верифицируемый характер позволяет продвигаться в области медицинских рассуждений через двухэтапный подход: (1) использование верификатора для направления поиска сложной траектории рассуждений для настройки LLM, (2) применение обучения с подкреплением (RL) с наградами на основе верификатора для дальнейшего улучшения сложных рассуждений. Наконец, мы представляем HuatuoGPT-o1, медицинский LLM, способный к сложным рассуждениям, который превосходит общие и медицинские базовые уровни, используя всего 40 тыс. верифицируемых задач. Эксперименты показывают, что сложные рассуждения улучшают решение медицинских проблем и более эффективно используют RL. Мы надеемся, что наш подход вдохновит прогресс в области рассуждений в медицинских и других специализированных областях.