HuatuoGPT-o1, Hacia el Razonamiento Complejo Médico con LLMs
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
December 25, 2024
Autores: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang
cs.AI
Resumen
El avance de OpenAI o1 destaca el potencial de mejorar el razonamiento para mejorar LLM. Sin embargo, la mayoría de la investigación en razonamiento se ha centrado en tareas matemáticas, dejando dominios como la medicina poco explorados. Aunque el dominio médico es diferente de las matemáticas, también requiere un razonamiento sólido para ofrecer respuestas confiables, dadas las altas exigencias de la atención médica. Sin embargo, verificar el razonamiento médico es desafiante, a diferencia de las matemáticas. Para abordar esto, proponemos problemas médicos verificables con un verificador médico para comprobar la corrección de las salidas del modelo. Esta naturaleza verificable permite avances en el razonamiento médico a través de un enfoque de dos etapas: (1) utilizar el verificador para guiar la búsqueda de una trayectoria de razonamiento compleja para el ajuste fino de LLMs, (2) aplicar aprendizaje por refuerzo (RL) con recompensas basadas en el verificador para mejorar aún más el razonamiento complejo. Finalmente, presentamos HuatuoGPT-o1, un LLM médico capaz de razonamiento complejo, que supera a líneas de base generales y específicas de medicina utilizando solo 40K problemas verificables. Los experimentos muestran que el razonamiento complejo mejora la resolución de problemas médicos y se beneficia más del RL. Esperamos que nuestro enfoque inspire avances en el razonamiento en los dominios médico y otros especializados.
English
The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning
to improve LLM. Yet, most research in reasoning has focused on mathematical
tasks, leaving domains like medicine underexplored. The medical domain, though
distinct from mathematics, also demands robust reasoning to provide reliable
answers, given the high standards of healthcare. However, verifying medical
reasoning is challenging, unlike those in mathematics. To address this, we
propose verifiable medical problems with a medical verifier to check the
correctness of model outputs. This verifiable nature enables advancements in
medical reasoning through a two-stage approach: (1) using the verifier to guide
the search for a complex reasoning trajectory for fine-tuning LLMs, (2)
applying reinforcement learning (RL) with verifier-based rewards to enhance
complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM
capable of complex reasoning, which outperforms general and medical-specific
baselines using only 40K verifiable problems. Experiments show complex
reasoning improves medical problem-solving and benefits more from RL. We hope
our approach inspires advancements in reasoning across medical and other
specialized domains.Summary
AI-Generated Summary