HuatuoGPT-o1, Hacia el Razonamiento Complejo Médico con LLMsHuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
El avance de OpenAI o1 destaca el potencial de mejorar el razonamiento para mejorar LLM. Sin embargo, la mayoría de la investigación en razonamiento se ha centrado en tareas matemáticas, dejando dominios como la medicina poco explorados. Aunque el dominio médico es diferente de las matemáticas, también requiere un razonamiento sólido para ofrecer respuestas confiables, dadas las altas exigencias de la atención médica. Sin embargo, verificar el razonamiento médico es desafiante, a diferencia de las matemáticas. Para abordar esto, proponemos problemas médicos verificables con un verificador médico para comprobar la corrección de las salidas del modelo. Esta naturaleza verificable permite avances en el razonamiento médico a través de un enfoque de dos etapas: (1) utilizar el verificador para guiar la búsqueda de una trayectoria de razonamiento compleja para el ajuste fino de LLMs, (2) aplicar aprendizaje por refuerzo (RL) con recompensas basadas en el verificador para mejorar aún más el razonamiento complejo. Finalmente, presentamos HuatuoGPT-o1, un LLM médico capaz de razonamiento complejo, que supera a líneas de base generales y específicas de medicina utilizando solo 40K problemas verificables. Los experimentos muestran que el razonamiento complejo mejora la resolución de problemas médicos y se beneficia más del RL. Esperamos que nuestro enfoque inspire avances en el razonamiento en los dominios médico y otros especializados.