HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

10 papers found

DeepSeek-R1: Incentivizando la Capacidad de Razonamiento en LLMs a través del Aprendizaje por Refuerzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

420

Presentamos nuestros modelos de razonamiento de primera generación, DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, un modelo entrenado a través de aprendizaje por refuerzo a gran escala (RL) sin ajuste supervisado fino (SFT) como paso preliminar, demuestra notables capacidades de razonamiento. Mediante RL, DeepSeek-R1-Zero emerge naturalmente con numerosos comportamientos de razonamiento poderosos e intrigantes. Sin embargo, se enfrenta a desafíos como baja legibilidad y mezcla de lenguajes. Para abordar estos problemas y mejorar aún más el rendimiento de razonamiento, presentamos DeepSeek-R1, que incorpora entrenamiento en múltiples etapas y datos de inicio en frío antes de RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1-1217 en tareas de razonamiento. Para apoyar a la comunidad investigadora, hacemos de código abierto DeepSeek-R1-Zero, DeepSeek-R1 y seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados de DeepSeek-R1 basados en Qwen y Llama.

Kimi k1.5: Escalando el Aprendizaje por Refuerzo con LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

123

El preentrenamiento del modelo de lenguaje con predicción del siguiente token ha demostrado ser efectivo para escalar el cálculo, pero está limitado por la cantidad de datos de entrenamiento disponibles. La escalabilidad del aprendizaje por refuerzo (RL) desbloquea un nuevo eje para la mejora continua de la inteligencia artificial, con la promesa de que los grandes modelos de lenguaje (LLMs) pueden ampliar sus datos de entrenamiento aprendiendo a explorar con recompensas. Sin embargo, trabajos previamente publicados no han producido resultados competitivos. En vista de esto, informamos sobre la práctica de entrenamiento de Kimi k1.5, nuestro último LLM multimodal entrenado con RL, incluyendo sus técnicas de entrenamiento de RL, recetas de datos multimodales y optimización de infraestructura. La ampliación del contexto largo y los métodos mejorados de optimización de políticas son ingredientes clave de nuestro enfoque, que establece un marco de RL simplista y efectivo sin depender de técnicas más complejas como la búsqueda de árboles de Monte Carlo, funciones de valor y modelos de recompensa de proceso. Notablemente, nuestro sistema logra un rendimiento de razonamiento de vanguardia en múltiples benchmarks y modalidades, por ejemplo, 77.5 en AIME, 96.2 en MATH 500, percentil 94 en Codeforces, 74.9 en MathVista, igualando al o1 de OpenAI. Además, presentamos métodos efectivos de largo a corto que utilizan técnicas de largo-CoT para mejorar modelos de corto-CoT, produciendo resultados de razonamiento de corto-CoT de vanguardia, por ejemplo, 60.8 en AIME, 94.6 en MATH500, 47.3 en LiveCodeBench, superando a modelos de corto-CoT existentes como GPT-4o y Claude Sonnet 3.5 por un amplio margen (hasta +550%).

VideoLLaMA 3: Modelos Fundamentales Multimodales de Vanguardia para la Comprensión de Imágenes y Videos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

En este documento, proponemos VideoLLaMA3, un modelo de base multimodal más avanzado para la comprensión de imágenes y videos. La filosofía de diseño central de VideoLLaMA3 es centrada en la visión. El significado de "centrado en la visión" es doble: el paradigma de entrenamiento centrado en la visión y el diseño del marco centrado en la visión. La idea clave de nuestro paradigma de entrenamiento centrado en la visión es que los datos de alta calidad imagen-texto son cruciales tanto para la comprensión de imágenes como de videos. En lugar de preparar conjuntos de datos masivos de video-texto, nos enfocamos en la construcción de conjuntos de datos imagen-texto a gran escala y de alta calidad. VideoLLaMA3 consta de cuatro etapas de entrenamiento: 1) etapa de alineación centrada en la visión, que prepara el codificador y proyector de visión; 2) etapa de preentrenamiento visión-lenguaje, que ajusta conjuntamente el codificador de visión, proyector y LLM con datos imagen-texto a gran escala que cubren varios tipos (incluyendo imágenes de escenas, documentos, gráficos) así como datos solo de texto; 3) etapa de ajuste fino multi-tarea, que incorpora datos SFT imagen-texto para tareas posteriores y datos video-texto para establecer una base para la comprensión de videos; 4) ajuste fino centrado en video, que mejora aún más la capacidad del modelo en la comprensión de videos. En cuanto al diseño del marco, para capturar mejor detalles detallados en las imágenes, el codificador de visión preentrenado se adapta para codificar imágenes de tamaños variables en tokens de visión con números correspondientes, en lugar de un número fijo de tokens. Para las entradas de video, reducimos el número de tokens de visión según su similitud para que la representación de los videos sea más precisa y compacta. Gracias a los diseños centrados en la visión, VideoLLaMA3 logra un rendimiento convincente en los puntos de referencia de comprensión de imágenes y videos.

FilmAgent: Un marco de trabajo multiagente para la automatización integral de películas en espacios virtuales 3D.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

La producción de cine virtual requiere procesos de toma de decisiones intrincados, que incluyen la escritura de guiones, la cinematografía virtual y la precisa posición y acciones de los actores. Motivado por los avances recientes en la toma automatizada de decisiones con sociedades basadas en agentes de lenguaje, este documento presenta FilmAgent, un novedoso marco colaborativo multiagente basado en LLM para la automatización de películas de principio a fin en nuestros espacios virtuales 3D construidos. FilmAgent simula varios roles de equipo, incluidos directores, guionistas, actores y directores de fotografía, y abarca etapas clave de un flujo de trabajo de producción de películas: (1) el desarrollo de ideas transforma ideas generadas en tormenta en esquemas de historias estructuradas; (2) la escritura de guiones elabora diálogos y acciones de personajes para cada escena; (3) la cinematografía determina las configuraciones de cámara para cada toma. Un equipo de agentes colabora a través de retroalimentación iterativa y revisiones, verificando así guiones intermedios y reduciendo alucinaciones. Evaluamos los videos generados en 15 ideas y 4 aspectos clave. La evaluación humana muestra que FilmAgent supera a todos los baselines en todos los aspectos y obtiene un promedio de 3.98 sobre 5, demostrando la viabilidad de la colaboración multiagente en la realización de películas. Un análisis adicional revela que FilmAgent, a pesar de utilizar el modelo GPT-4o menos avanzado, supera al agente único o1, mostrando la ventaja de un sistema multiagente bien coordinado. Por último, discutimos las fortalezas y debilidades complementarias del modelo de texto a video de OpenAI, Sora, y nuestro FilmAgent en la realización de películas.

Optimización de Preferencias en Tiempo de Prueba: Alineación sobre la marcha a través de Retroalimentación Textual Iterativa
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Los modelos de lenguaje grandes (LLMs) demuestran un rendimiento impresionante pero carecen de la flexibilidad para adaptarse rápidamente a las preferencias humanas sin necesidad de volver a entrenar. En este trabajo, presentamos la Optimización de Preferencias en Tiempo de Prueba (TPO), un marco que alinea las salidas de LLM con las preferencias humanas durante la inferencia, eliminando la necesidad de actualizar los parámetros del modelo. En lugar de depender únicamente de recompensas numéricas, TPO traduce las señales de recompensa en críticas textuales y las utiliza como recompensas textuales para refinar iterativamente su respuesta. Las evaluaciones en bancos de pruebas que abarcan el seguimiento de instrucciones, la alineación de preferencias, la seguridad y las matemáticas revelan que TPO mejora progresivamente la alineación con las preferencias humanas. Es notable que, después de solo unos pocos pasos de TPO, el modelo inicialmente desalineado Llama-3.1-70B-SFT puede superar al contraparte alineado, Llama-3.1-70B-Instruct. Además, TPO escala eficientemente tanto con el ancho como con la profundidad de la búsqueda durante la inferencia. A través de estudios de caso, ilustramos cómo TPO explota la capacidad innata de los LLM para interpretar y actuar sobre las señales de recompensa. Nuestros hallazgos establecen a TPO como una alternativa práctica y liviana para la optimización de preferencias en tiempo de prueba, logrando la alineación sobre la marcha. Nuestro código está disponible públicamente en https://github.com/yafuly/TPO.

Modelos de Autonomía de Expertos
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

Los modelos de Mezcla de Expertos (MoE) generalmente utilizan un enrutador para asignar tokens a módulos expertos específicos, activando solo parámetros parciales y superando a menudo a los modelos densos. Sostenemos que la separación entre la toma de decisiones del enrutador y la ejecución de los expertos es un problema crítico pero pasado por alto, lo que conduce a una selección subóptima de expertos y un aprendizaje ineficaz. Para abordar esto, proponemos Autonomía de Expertos (AoE), un nuevo paradigma de MoE en el que los expertos se seleccionan autónomamente para procesar entradas. AoE se basa en la idea de que un experto es consciente de su capacidad para procesar efectivamente un token, una conciencia reflejada en la escala de sus activaciones internas. En AoE, se eliminan los enrutadores; en su lugar, los expertos precalculan activaciones internas para las entradas y se clasifican según sus normas de activación. Solo los expertos mejor clasificados continúan con el pase hacia adelante, mientras que los demás se detienen. El costo de precalcular activaciones se reduce mediante una factorización de pesos de rango bajo. Este enfoque de autoevaluación y comparación con socios garantiza una mejor selección de expertos y un aprendizaje efectivo. Pre-entrenamos modelos de lenguaje con 700M hasta 4B parámetros, demostrando que AoE supera a los modelos MoE tradicionales con eficiencia comparable.

O1-Pruner: Ajuste Fino de Armonización de Longitud para la Poda de Razonamiento Similar a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Recientemente, los LLMs de razonamiento prolongado, como el O1 de OpenAI, adoptan procesos de razonamiento extendidos similares a cómo los humanos reflexionan sobre problemas complejos. Este paradigma de razonamiento mejora significativamente las habilidades del modelo para resolver problemas y ha logrado resultados prometedores. Sin embargo, el proceso de razonamiento prolongado conlleva un aumento sustancial en el tiempo de inferencia. Un desafío apremiante es reducir la sobrecarga de inferencia de los LLMs de razonamiento prolongado mientras se garantiza la precisión. En este documento, demostramos experimentalmente que los modelos de razonamiento prolongado tienen dificultades para asignar eficazmente presupuestos de tokens basados en la dificultad del problema y las redundancias de razonamiento. Para abordar esto, proponemos el Ajuste Fino de Armonización de Longitud (O1-Pruner), con el objetivo de minimizar la sobrecarga de razonamiento manteniendo la precisión. Este método efectivo de ajuste fino primero estima el rendimiento base del LLM mediante pre-muestreo y luego utiliza un ajuste fino de estilo RL para alentar al modelo a generar procesos de razonamiento más cortos bajo restricciones de precisión. Esto permite que el modelo logre un razonamiento eficiente con una menor redundancia manteniendo la precisión. Experimentos en varios bancos de pruebas de razonamiento matemático muestran que O1-Pruner no solo reduce significativamente la sobrecarga de inferencia, sino que también logra una mayor precisión, ofreciendo una solución novedosa y prometedora a este desafío. Nuestro código estará disponible próximamente en https://github.com/StarDewXXX/O1-Pruner

RM por pares: Realizar muestreo de Mejor-de-N con Torneo de Eliminación.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

El muestreo de Mejor-de-N (BoN), una estrategia común para la escalabilidad en tiempo de prueba de Modelos de Lenguaje Grandes (LLMs), se basa en modelos de recompensa para seleccionar la mejor solución candidata de múltiples generaciones. Sin embargo, los modelos de recompensa tradicionales a menudo asignan puntuaciones arbitrarias e inconsistentes, limitando su efectividad. Para abordar esto, proponemos un Modelo de Recompensa por Pares (Pairwise RM) combinado con un torneo de eliminación para el muestreo BoN. En lugar de asignar puntuaciones absolutas, dado un problema matemático, Pairwise RM evalúa simultáneamente la corrección de dos soluciones candidatas. Este enfoque elimina la necesidad de puntuaciones arbitrarias y permite la validación cruzada de soluciones a través de comparaciones paralelas. En el torneo de eliminación, Pairwise RM realiza comparaciones por pares entre soluciones candidatas y elimina las incorrectas de forma iterativa. Construimos nuestro conjunto de datos, un conjunto de datos a gran escala de 443K comparaciones por pares derivadas de NumiaMath y anotadas utilizando gemini-1.5-flash, y entrenamos el Modelo de Recompensa por Pares mediante un ajuste fino supervisado. Los experimentos en MATH-500 y el Banco de Pruebas de la Olimpiada demuestran mejoras significativas sobre los modelos de recompensa discriminativos tradicionales. Se logra una mejora relativa del 40\% al 60\% en los problemas desafiantes del 50\% superior.

Fast3R: Hacia la Reconstrucción 3D de más de 1000 Imágenes en un Paso hacia Adelante
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

La reconstrucción 3D multi-vista sigue siendo un desafío fundamental en visión por computadora, especialmente en aplicaciones que requieren representaciones precisas y escalables a través de perspectivas diversas. Los métodos líderes actuales como DUSt3R emplean un enfoque fundamentalmente por pares, procesando imágenes de a dos y requiriendo costosos procedimientos de alineación global para reconstruir desde múltiples vistas. En este trabajo, proponemos Reconstrucción 3D Rápida (Fast3R), una generalización multi-vista novedosa de DUSt3R que logra una reconstrucción 3D eficiente y escalable al procesar muchas vistas en paralelo. La arquitectura basada en Transformadores de Fast3R avanza N imágenes en un solo pase hacia adelante, evitando la necesidad de alineación iterativa. A través de experimentos extensos en estimación de posición de cámara y reconstrucción 3D, Fast3R demuestra un rendimiento de vanguardia, con mejoras significativas en velocidad de inferencia y reducción de acumulación de errores. Estos resultados establecen a Fast3R como una alternativa robusta para aplicaciones multi-vista, ofreciendo una escalabilidad mejorada sin comprometer la precisión de la reconstrucción.

IntellAgent: Un marco de trabajo multiagente para evaluar sistemas de IA conversacional.
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

Los Modelos de Lenguaje de Gran Tamaño (LLMs) están transformando la inteligencia artificial, evolucionando hacia sistemas orientados a tareas capaces de planificación y ejecución autónomas. Una de las aplicaciones principales de los LLMs es en sistemas de inteligencia artificial conversacional, los cuales deben navegar diálogos de múltiples turnos, integrar APIs específicas de dominio y cumplir con estrictas restricciones de políticas. Sin embargo, evaluar estos agentes sigue siendo un desafío significativo, ya que los métodos tradicionales no logran capturar la complejidad y variabilidad de las interacciones del mundo real. Presentamos IntellAgent, un marco de trabajo multiagente escalable y de código abierto diseñado para evaluar de manera integral los sistemas de inteligencia artificial conversacional. IntellAgent automatiza la creación de diversos bancos de pruebas sintéticos combinando modelado de gráficos basado en políticas, generación realista de eventos y simulaciones interactivas de agentes de usuario. Este enfoque innovador proporciona diagnósticos detallados, abordando las limitaciones de los bancos de pruebas estáticos y curados manualmente con métricas de grano grueso. IntellAgent representa un cambio de paradigma en la evaluación de la inteligencia artificial conversacional. Al simular escenarios realistas con múltiples políticas a través de diferentes niveles de complejidad, IntellAgent captura la interacción matizada de las capacidades de los agentes y las restricciones de las políticas. A diferencia de los métodos tradicionales, emplea un modelo de políticas basado en gráficos para representar relaciones, probabilidades y complejidades de las interacciones de políticas, permitiendo diagnósticos altamente detallados. IntellAgent también identifica brechas críticas de rendimiento, ofreciendo ideas accionables para optimización específica. Su diseño modular y de código abierto respalda la integración fluida de nuevos dominios, políticas y APIs, fomentando la reproducibilidad y la colaboración comunitaria. Nuestros hallazgos demuestran que IntellAgent sirve como un marco efectivo para avanzar en la inteligencia artificial conversacional al abordar los desafíos en la conexión entre la investigación y la implementación. El marco está disponible en https://github.com/plurai-ai/intellagent

DeepSeek-R1: Incentivizando la Capacidad de Razonamiento en LLMs a través del Aprendizaje por Refuerzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

420