HuatuoGPT-o1, LLMs를 활용한 의료 복잡한 추론 방향으로HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
OpenAI o1의 중요한 발전은 추론 능력을 향상시킴으로써 LLM을 개선할 수 있는 잠재력을 강조합니다. 그러나 대부분의 추론 연구는 수학적 작업에 초점을 맞추어 의학과 같은 영역은 미개척 상태입니다. 의학 영역은 수학과는 다르지만, 높은 의료 기준을 충족하기 위해 신뢰할 수 있는 답변을 제공하기 위해 견고한 추론을 요구합니다. 그러나 의학적 추론을 확인하는 것은 수학과는 다르게 어려운 일입니다. 이를 해결하기 위해 우리는 의료 검증기를 사용하여 모델 출력의 정확성을 확인하는 검증 가능한 의료 문제를 제안합니다. 이러한 검증 가능한 특성은 의료 추론의 발전을 가능하게 하며 다음과 같은 이차 접근법을 통해 구현됩니다: (1) 복잡한 추론 궤적을 찾기 위해 검증기를 사용하여 LLM을 미세 조정하고, (2) 검증기 기반 보상을 사용하여 강화 학습(RL)을 적용하여 더욱 복잡한 추론을 강화합니다. 마지막으로, 복잡한 추론이 의료 문제 해결을 개선하고 RL에서 더 많은 이점을 얻는 것을 실험을 통해 입증한 의료 LLM인 HuatuoGPT-o1을 소개합니다. 우리의 접근 방식이 의료 및 다른 전문 분야 전반에 걸쳐 추론의 발전을 영감으로 삼기를 희망합니다.