HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

10 papers found

DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcement
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

420

Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle entraîné via un apprentissage par renforcement à grande échelle (RL) sans ajustement fin supervisé (SFT) en tant qu'étape préliminaire, démontre des capacités de raisonnement remarquables. Grâce au RL, DeepSeek-R1-Zero émerge naturellement avec de nombreux comportements de raisonnement puissants et intrigants. Cependant, il rencontre des défis tels que la faible lisibilité et le mélange de langues. Pour résoudre ces problèmes et améliorer davantage les performances de raisonnement, nous introduisons DeepSeek-R1, qui intègre un entraînement multi-étapes et des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à OpenAI-o1-1217 sur des tâches de raisonnement. Pour soutenir la communauté de recherche, nous mettons en open source DeepSeek-R1-Zero, DeepSeek-R1, et six modèles denses (1.5B, 7B, 8B, 14B, 32B, 70B) distillés de DeepSeek-R1 basés sur Qwen et Llama.

Kimi k1.5 : Mise à l'échelle de l'apprentissage par renforcement avec les LLM
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

123

Le pré-entraînement des modèles de langage avec la prédiction du jeton suivant s'est avéré efficace pour augmenter la puissance de calcul, mais est limité par la quantité de données d'entraînement disponibles. Le passage à l'échelle de l'apprentissage par renforcement (RL) ouvre une nouvelle dimension pour l'amélioration continue de l'intelligence artificielle, avec la promesse que les grands modèles de langage (LLM) peuvent augmenter la quantité de leurs données d'entraînement en apprenant à explorer avec des récompenses. Cependant, les travaux publiés précédemment n'ont pas donné des résultats compétitifs. Dans ce contexte, nous présentons la pratique d'entraînement de Kimi k1.5, notre dernier LLM multimodal entraîné avec RL, y compris ses techniques d'entraînement RL, ses recettes de données multimodales et son optimisation de l'infrastructure. Le passage à l'échelle du contexte long et l'amélioration des méthodes d'optimisation des politiques sont des éléments clés de notre approche, qui établit un cadre RL simple et efficace sans recourir à des techniques plus complexes telles que la recherche arborescente Monte Carlo, les fonctions de valeur et les modèles de récompense de processus. Notamment, notre système atteint des performances de raisonnement de pointe sur plusieurs référentiels et modalités - par exemple, 77,5 sur AIME, 96,2 sur MATH 500, 94e percentile sur Codeforces, 74,9 sur MathVista - correspondant à l'approche o1 d'OpenAI. De plus, nous présentons des méthodes efficaces long2short qui utilisent des techniques long-CoT pour améliorer les modèles short-CoT, produisant des résultats de raisonnement short-CoT de pointe - par exemple, 60,8 sur AIME, 94,6 sur MATH500, 47,3 sur LiveCodeBench - surpassant largement les modèles short-CoT existants tels que GPT-4o et Claude Sonnet 3.5 de manière significative (jusqu'à +550%).

VideoLLaMA 3 : Modèles Fondamentaux Multimodaux de Pointe pour la Compréhension d'Images et de Vidéos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

Dans cet article, nous proposons VideoLLaMA3, un modèle fondamental multimodal plus avancé pour la compréhension des images et des vidéos. La philosophie de conception centrale de VideoLLaMA3 est centrée sur la vision. La signification de "centrée sur la vision" est double : le paradigme d'entraînement centré sur la vision et la conception du cadre centré sur la vision. L'observation clé de notre paradigme d'entraînement centré sur la vision est que des données image-texte de haute qualité sont cruciales pour la compréhension des images et des vidéos. Au lieu de préparer d'énormes ensembles de données vidéo-texte, nous nous concentrons sur la construction d'ensembles de données image-texte à grande échelle et de haute qualité. VideoLLaMA3 comporte quatre étapes d'entraînement : 1) étape d'alignement centrée sur la vision, qui prépare l'encodeur et le projecteur de vision ; 2) étape de pré-entraînement vision-langage, qui ajuste conjointement l'encodeur de vision, le projecteur et le LLM avec des données image-texte à grande échelle couvrant plusieurs types (y compris des images de scènes, des documents, des graphiques) ainsi que des données texte uniquement. 3) étape de fine-tuning multi-tâches, qui intègre des données SFT image-texte pour des tâches ultérieures et des données vidéo-texte pour établir une base pour la compréhension des vidéos. 4) fine-tuning centré sur la vidéo, qui améliore davantage la capacité du modèle en matière de compréhension des vidéos. En ce qui concerne la conception du cadre, pour capturer de manière plus précise les détails fins des images, l'encodeur de vision pré-entraîné est adapté pour encoder des images de tailles variables en jetons de vision avec des nombres correspondants, plutôt qu'un nombre fixe de jetons. Pour les entrées vidéo, nous réduisons le nombre de jetons de vision en fonction de leur similarité afin que la représentation des vidéos soit plus précise et compacte. Grâce aux conceptions centrées sur la vision, VideoLLaMA3 obtient des performances convaincantes dans les référentiels de compréhension des images et des vidéos.

FilmAgent : Un cadre multi-agent pour l'automatisation cinématographique de bout en bout dans des espaces virtuels en 3D
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

La production cinématographique virtuelle nécessite des processus décisionnels complexes, comprenant la rédaction de scénarios, la cinématographie virtuelle, et le positionnement précis des acteurs et de leurs actions. Inspiré par les récents progrès en matière de prise de décision automatisée avec des sociétés basées sur des agents linguistiques, cet article présente FilmAgent, un nouveau cadre collaboratif multi-agent basé sur LLM pour l'automatisation cinématographique de bout en bout dans nos espaces virtuels 3D construits. FilmAgent simule divers rôles d'équipe, incluant des réalisateurs, des scénaristes, des acteurs et des directeurs de la photographie, et couvre les étapes clés d'un flux de production cinématographique : (1) le développement de l'idée transforme les idées issues de séances de remue-méninges en des trames d'histoire structurées ; (2) la rédaction du scénario développe les dialogues et les actions des personnages pour chaque scène ; (3) la cinématographie détermine les configurations de caméra pour chaque plan. Une équipe d'agents collabore à travers des retours itératifs et des révisions, vérifiant ainsi les scénarios intermédiaires et réduisant les hallucinations. Nous évaluons les vidéos générées sur 15 idées et 4 aspects clés. L'évaluation humaine montre que FilmAgent surpasse toutes les références sur tous les aspects et obtient une note moyenne de 3,98 sur 5, démontrant la faisabilité de la collaboration multi-agent dans la réalisation cinématographique. Une analyse plus approfondie révèle que FilmAgent, malgré l'utilisation du modèle moins avancé GPT-4o, dépasse le modèle mono-agent o1, mettant en avant l'avantage d'un système multi-agent bien coordonné. Enfin, nous discutons des forces et faiblesses complémentaires du modèle texte-vidéo de OpenAI, Sora, et de notre FilmAgent dans la réalisation cinématographique.

Optimisation de la préférence au moment du test : Alignement en temps réel via des retours textuels itératifs
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Les grands modèles de langage (LLM) démontrent des performances impressionnantes mais manquent de flexibilité pour s'adapter rapidement aux préférences humaines sans réentraînement. Dans ce travail, nous introduisons l'Optimisation des Préférences au Moment du Test (TPO), un cadre qui aligne les sorties des LLM avec les préférences humaines pendant l'inférence, éliminant ainsi le besoin de mettre à jour les paramètres du modèle. Plutôt que de se fier uniquement à des récompenses numériques, TPO traduit les signaux de récompense en critiques textuelles et les utilise comme récompenses textuelles pour affiner de manière itérative sa réponse. Les évaluations sur des benchmarks couvrant le suivi des instructions, l'alignement des préférences, la sécurité et les mathématiques révèlent que TPO améliore progressivement l'alignement avec les préférences humaines. Notamment, après seulement quelques étapes de TPO, le modèle initialement non aligné Llama-3.1-70B-SFT peut surpasser son homologue aligné, Llama-3.1-70B-Instruct. De plus, TPO s'échelonne efficacement avec à la fois la largeur et la profondeur de la recherche pendant l'inférence. À travers des études de cas, nous illustrons comment TPO exploite la capacité innée des LLM à interpréter et agir sur les signaux de récompense. Nos résultats établissent TPO comme une alternative pratique et légère pour l'optimisation des préférences au moment du test, atteignant un alignement en temps réel. Notre code est publiquement disponible sur https://github.com/yafuly/TPO.

Modèles d'autonomie des experts
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

Les modèles de Mélange d'Experts (MoE) utilisent principalement un routeur pour attribuer des jetons à des modules experts spécifiques, activant ainsi uniquement des paramètres partiels et dépassant souvent les performances des modèles denses. Nous soutenons que la séparation entre la prise de décision du routeur et l'exécution des experts est une question critique mais souvent négligée, entraînant une sélection d'experts sous-optimale et un apprentissage inefficace. Pour remédier à cela, nous proposons l'Autonomie des Experts (AoE), un nouveau paradigme MoE dans lequel les experts se sélectionnent autonomement pour traiter les entrées. AoE repose sur l'idée qu'un expert est conscient de sa capacité à traiter efficacement un jeton, une conscience reflétée dans l'ampleur de ses activations internes. Dans AoE, les routeurs sont supprimés ; à la place, les experts pré-calculent les activations internes pour les entrées et sont classés en fonction de leurs normes d'activation. Seuls les experts les mieux classés poursuivent le passage en avant, tandis que les autres abandonnent. Le surcoût du pré-calcul des activations est réduit grâce à une factorisation des poids de rang faible. Cette approche d'auto-évaluation-puis-comparaison-avec-le-partenaire garantit une meilleure sélection d'experts et un apprentissage efficace. Nous pré-entraînons des modèles de langage ayant de 700M à 4B de paramètres, démontrant qu'AoE surpasse les modèles MoE traditionnels avec une efficacité comparable.

O1-Pruner : Ajustement fin d'harmonisation de longueur pour l'élagage du raisonnement de type O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Récemment, des LLM de raisonnement à longue réflexion, tels que l'O1 d'OpenAI, adoptent des processus de raisonnement étendus similaires à la façon dont les humains réfléchissent sur des problèmes complexes. Ce paradigme de raisonnement améliore significativement les capacités de résolution de problèmes du modèle et a obtenu des résultats prometteurs. Cependant, le processus de raisonnement à longue réflexion entraîne une augmentation substantielle du temps d'inférence. Un défi pressant est de réduire la surcharge d'inférence des LLM à longue réflexion tout en garantissant la précision. Dans cet article, nous démontrons expérimentalement que les modèles de raisonnement à longue réflexion ont du mal à allouer efficacement des budgets de jetons en fonction de la difficulté du problème et des redondances de raisonnement. Pour remédier à cela, nous proposons un Ajustement Harmonisant de la Longueur (O1-Pruner), visant à minimiser la surcharge de raisonnement tout en maintenant la précision. Cette méthode efficace d'ajustement commence par estimer les performances de base du LLM par pré-échantillonnage, puis utilise un ajustement de style RL pour encourager le modèle à générer des processus de raisonnement plus courts sous contraintes de précision. Cela permet au modèle d'atteindre un raisonnement efficace avec moins de redondance tout en maintenant la précision. Les expériences menées sur divers bancs d'essai de raisonnement mathématique montrent que l'O1-Pruner réduit non seulement considérablement la surcharge d'inférence, mais atteint également une précision plus élevée, offrant ainsi une solution nouvelle et prometteuse à ce défi. Notre code sera bientôt disponible sur https://github.com/StarDewXXX/O1-Pruner

RM par paires : Effectuer un échantillonnage Meilleur-de-N avec un tournoi à élimination directe
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

L'échantillonnage Best-of-N (BoN), une stratégie courante pour l'ajustement à l'échelle des grands modèles de langage (LLM) au moment des tests, repose sur des modèles de récompense pour sélectionner la meilleure solution parmi plusieurs générations. Cependant, les modèles de récompense traditionnels attribuent souvent des scores arbitraires et incohérents, limitant leur efficacité. Pour remédier à cela, nous proposons un Modèle de Récompense par Paires (Pairwise RM) combiné à un tournoi à élimination pour l'échantillonnage BoN. Au lieu d'attribuer des scores absolus, le Pairwise RM évalue simultanément la justesse de deux solutions candidates pour un problème mathématique donné. Cette approche élimine le besoin de notation arbitraire et permet la validation croisée des solutions par comparaison parallèle. Dans le tournoi à élimination, le Pairwise RM effectue des comparaisons par paires entre les solutions candidates et élimine itérativement celles qui sont incorrectes. Nous construisons \ourdataset, un ensemble de données à grande échelle de 443 000 comparaisons par paires dérivées de NumiaMath et annotées à l'aide de gemini-1.5-flash, et entraînons le Pairwise RM via un affinage supervisé. Les expériences sur MATH-500 et le Banc Olympique démontrent des améliorations significatives par rapport aux modèles de récompense discriminatifs traditionnels. Une amélioration relative de 40\% à 60\% est obtenue sur les 50\% des problèmes les plus difficiles.

Fast3R : Vers la Reconstruction 3D de plus de 1000 Images en une Seule Passe en Avant
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

La reconstruction 3D multi-vues reste un défi majeur en vision par ordinateur, en particulier dans les applications nécessitant des représentations précises et évolutives à travers des perspectives diverses. Les méthodes actuelles de pointe telles que DUSt3R utilisent une approche fondamentalement par paires, traitant les images par paires et nécessitant des procédures coûteuses d'alignement global pour reconstruire à partir de vues multiples. Dans ce travail, nous proposons Fast 3D Reconstruction (Fast3R), une nouvelle généralisation multi-vues de DUSt3R qui permet une reconstruction 3D efficace et évolutive en traitant de nombreuses vues en parallèle. L'architecture basée sur les Transformers de Fast3R transmet N images en une seule passe avant, contournant ainsi le besoin d'alignement itératif. À travers des expériences approfondies sur l'estimation de la pose de la caméra et la reconstruction 3D, Fast3R démontre des performances de pointe, avec des améliorations significatives en termes de vitesse d'inférence et de réduction de l'accumulation d'erreurs. Ces résultats établissent Fast3R comme une alternative robuste pour les applications multi-vues, offrant une évolutivité améliorée sans compromettre la précision de la reconstruction.

IntellAgent : Un cadre multi-agent pour évaluer les systèmes d'IA conversationnelle
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

Les grands modèles de langage (LLM) transforment l'intelligence artificielle, évoluant en systèmes orientés tâches capables de planification et d'exécution autonomes. L'une des principales applications des LLM est les systèmes d'IA conversationnelle, qui doivent naviguer dans des dialogues multi-tours, intégrer des API spécifiques au domaine et respecter des contraintes de politique strictes. Cependant, l'évaluation de ces agents reste un défi majeur, car les méthodes traditionnelles échouent à capturer la complexité et la variabilité des interactions réelles. Nous présentons IntellAgent, un cadre multi-agent évolutif et open-source conçu pour évaluer de manière exhaustive les systèmes d'IA conversationnelle. IntellAgent automatise la création de divers bancs d'essai synthétiques en combinant la modélisation de graphes pilotée par des politiques, la génération réaliste d'événements et les simulations interactives utilisateur-agent. Cette approche innovante fournit des diagnostics détaillés, abordant les limitations des bancs d'essai statiques et manuellement élaborés avec des métriques grossières. IntellAgent représente un changement de paradigme dans l'évaluation de l'IA conversationnelle. En simulant des scénarios multi-politiques réalistes à travers différents niveaux de complexité, IntellAgent capture l'interaction nuancée des capacités des agents et des contraintes de politique. Contrairement aux méthodes traditionnelles, il utilise un modèle de politique basé sur des graphes pour représenter les relations, les probabilités et les complexités des interactions de politique, permettant des diagnostics très détaillés. IntellAgent identifie également les écarts de performance critiques, offrant des aperçus exploitables pour une optimisation ciblée. Sa conception modulaire et open-source prend en charge une intégration transparente de nouveaux domaines, politiques et APIs, favorisant la reproductibilité et la collaboration communautaire. Nos résultats démontrent qu'IntellAgent constitue un cadre efficace pour faire progresser l'IA conversationnelle en relevant les défis de la transition entre la recherche et le déploiement. Le cadre est disponible sur https://github.com/plurai-ai/intellagent.

DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcement
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

420