HuatuoGPT-o1, Hacia el Razonamiento Complejo Médico con LLMs

Resumen

El avance de OpenAI o1 destaca el potencial de mejorar el razonamiento para mejorar LLM. Sin embargo, la mayoría de la investigación en razonamiento se ha centrado en tareas matemáticas, dejando dominios como la medicina poco explorados. Aunque el dominio médico es diferente de las matemáticas, también requiere un razonamiento sólido para ofrecer respuestas confiables, dadas las altas exigencias de la atención médica. Sin embargo, verificar el razonamiento médico es desafiante, a diferencia de las matemáticas. Para abordar esto, proponemos problemas médicos verificables con un verificador médico para comprobar la corrección de las salidas del modelo. Esta naturaleza verificable permite avances en el razonamiento médico a través de un enfoque de dos etapas: (1) utilizar el verificador para guiar la búsqueda de una trayectoria de razonamiento compleja para el ajuste fino de LLMs, (2) aplicar aprendizaje por refuerzo (RL) con recompensas basadas en el verificador para mejorar aún más el razonamiento complejo. Finalmente, presentamos HuatuoGPT-o1, un LLM médico capaz de razonamiento complejo, que supera a líneas de base generales y específicas de medicina utilizando solo 40K problemas verificables. Los experimentos muestran que el razonamiento complejo mejora la resolución de problemas médicos y se beneficia más del RL. Esperamos que nuestro enfoque inspire avances en el razonamiento en los dominios médico y otros especializados.

English

The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.

HuatuoGPT-o1, Hacia el Razonamiento Complejo Médico con LLMs

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Resumen

Support