Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle entraîné via un apprentissage par renforcement à grande échelle (RL) sans ajustement fin supervisé (SFT) en tant qu'étape préliminaire, démontre des capacités de raisonnement remarquables. Grâce au RL, DeepSeek-R1-Zero émerge naturellement avec de nombreux comportements de raisonnement puissants et intrigants. Cependant, il rencontre des défis tels que la faible lisibilité et le mélange de langues. Pour résoudre ces problèmes et améliorer davantage les performances de raisonnement, nous introduisons DeepSeek-R1, qui intègre un entraînement multi-étapes et des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à OpenAI-o1-1217 sur des tâches de raisonnement. Pour soutenir la communauté de recherche, nous mettons en open source DeepSeek-R1-Zero, DeepSeek-R1, et six modèles denses (1.5B, 7B, 8B, 14B, 32B, 70B) distillés de DeepSeek-R1 basés sur Qwen et Llama.
Le pré-entraînement des modèles de langage avec la prédiction du jeton suivant s'est avéré efficace pour augmenter la puissance de calcul, mais est limité par la quantité de données d'entraînement disponibles. Le passage à l'échelle de l'apprentissage par renforcement (RL) ouvre une nouvelle dimension pour l'amélioration continue de l'intelligence artificielle, avec la promesse que les grands modèles de langage (LLM) peuvent augmenter la quantité de leurs données d'entraînement en apprenant à explorer avec des récompenses. Cependant, les travaux publiés précédemment n'ont pas donné des résultats compétitifs. Dans ce contexte, nous présentons la pratique d'entraînement de Kimi k1.5, notre dernier LLM multimodal entraîné avec RL, y compris ses techniques d'entraînement RL, ses recettes de données multimodales et son optimisation de l'infrastructure. Le passage à l'échelle du contexte long et l'amélioration des méthodes d'optimisation des politiques sont des éléments clés de notre approche, qui établit un cadre RL simple et efficace sans recourir à des techniques plus complexes telles que la recherche arborescente Monte Carlo, les fonctions de valeur et les modèles de récompense de processus. Notamment, notre système atteint des performances de raisonnement de pointe sur plusieurs référentiels et modalités - par exemple, 77,5 sur AIME, 96,2 sur MATH 500, 94e percentile sur Codeforces, 74,9 sur MathVista - correspondant à l'approche o1 d'OpenAI. De plus, nous présentons des méthodes efficaces long2short qui utilisent des techniques long-CoT pour améliorer les modèles short-CoT, produisant des résultats de raisonnement short-CoT de pointe - par exemple, 60,8 sur AIME, 94,6 sur MATH500, 47,3 sur LiveCodeBench - surpassant largement les modèles short-CoT existants tels que GPT-4o et Claude Sonnet 3.5 de manière significative (jusqu'à +550%).
Dans cet article, nous proposons VideoLLaMA3, un modèle fondamental multimodal plus avancé pour la compréhension des images et des vidéos. La philosophie de conception centrale de VideoLLaMA3 est centrée sur la vision. La signification de "centrée sur la vision" est double : le paradigme d'entraînement centré sur la vision et la conception du cadre centré sur la vision. L'observation clé de notre paradigme d'entraînement centré sur la vision est que des données image-texte de haute qualité sont cruciales pour la compréhension des images et des vidéos. Au lieu de préparer d'énormes ensembles de données vidéo-texte, nous nous concentrons sur la construction d'ensembles de données image-texte à grande échelle et de haute qualité. VideoLLaMA3 comporte quatre étapes d'entraînement : 1) étape d'alignement centrée sur la vision, qui prépare l'encodeur et le projecteur de vision ; 2) étape de pré-entraînement vision-langage, qui ajuste conjointement l'encodeur de vision, le projecteur et le LLM avec des données image-texte à grande échelle couvrant plusieurs types (y compris des images de scènes, des documents, des graphiques) ainsi que des données texte uniquement. 3) étape de fine-tuning multi-tâches, qui intègre des données SFT image-texte pour des tâches ultérieures et des données vidéo-texte pour établir une base pour la compréhension des vidéos. 4) fine-tuning centré sur la vidéo, qui améliore davantage la capacité du modèle en matière de compréhension des vidéos. En ce qui concerne la conception du cadre, pour capturer de manière plus précise les détails fins des images, l'encodeur de vision pré-entraîné est adapté pour encoder des images de tailles variables en jetons de vision avec des nombres correspondants, plutôt qu'un nombre fixe de jetons. Pour les entrées vidéo, nous réduisons le nombre de jetons de vision en fonction de leur similarité afin que la représentation des vidéos soit plus précise et compacte. Grâce aux conceptions centrées sur la vision, VideoLLaMA3 obtient des performances convaincantes dans les référentiels de compréhension des images et des vidéos.
La production cinématographique virtuelle nécessite des processus décisionnels complexes, comprenant la rédaction de scénarios, la cinématographie virtuelle, et le positionnement précis des acteurs et de leurs actions. Inspiré par les récents progrès en matière de prise de décision automatisée avec des sociétés basées sur des agents linguistiques, cet article présente FilmAgent, un nouveau cadre collaboratif multi-agent basé sur LLM pour l'automatisation cinématographique de bout en bout dans nos espaces virtuels 3D construits. FilmAgent simule divers rôles d'équipe, incluant des réalisateurs, des scénaristes, des acteurs et des directeurs de la photographie, et couvre les étapes clés d'un flux de production cinématographique : (1) le développement de l'idée transforme les idées issues de séances de remue-méninges en des trames d'histoire structurées ; (2) la rédaction du scénario développe les dialogues et les actions des personnages pour chaque scène ; (3) la cinématographie détermine les configurations de caméra pour chaque plan. Une équipe d'agents collabore à travers des retours itératifs et des révisions, vérifiant ainsi les scénarios intermédiaires et réduisant les hallucinations. Nous évaluons les vidéos générées sur 15 idées et 4 aspects clés. L'évaluation humaine montre que FilmAgent surpasse toutes les références sur tous les aspects et obtient une note moyenne de 3,98 sur 5, démontrant la faisabilité de la collaboration multi-agent dans la réalisation cinématographique. Une analyse plus approfondie révèle que FilmAgent, malgré l'utilisation du modèle moins avancé GPT-4o, dépasse le modèle mono-agent o1, mettant en avant l'avantage d'un système multi-agent bien coordonné. Enfin, nous discutons des forces et faiblesses complémentaires du modèle texte-vidéo de OpenAI, Sora, et de notre FilmAgent dans la réalisation cinématographique.
Les grands modèles de langage (LLM) démontrent des performances impressionnantes mais manquent de flexibilité pour s'adapter rapidement aux préférences humaines sans réentraînement. Dans ce travail, nous introduisons l'Optimisation des Préférences au Moment du Test (TPO), un cadre qui aligne les sorties des LLM avec les préférences humaines pendant l'inférence, éliminant ainsi le besoin de mettre à jour les paramètres du modèle. Plutôt que de se fier uniquement à des récompenses numériques, TPO traduit les signaux de récompense en critiques textuelles et les utilise comme récompenses textuelles pour affiner de manière itérative sa réponse. Les évaluations sur des benchmarks couvrant le suivi des instructions, l'alignement des préférences, la sécurité et les mathématiques révèlent que TPO améliore progressivement l'alignement avec les préférences humaines. Notamment, après seulement quelques étapes de TPO, le modèle initialement non aligné Llama-3.1-70B-SFT peut surpasser son homologue aligné, Llama-3.1-70B-Instruct. De plus, TPO s'échelonne efficacement avec à la fois la largeur et la profondeur de la recherche pendant l'inférence. À travers des études de cas, nous illustrons comment TPO exploite la capacité innée des LLM à interpréter et agir sur les signaux de récompense. Nos résultats établissent TPO comme une alternative pratique et légère pour l'optimisation des préférences au moment du test, atteignant un alignement en temps réel. Notre code est publiquement disponible sur https://github.com/yafuly/TPO.
Les modèles de Mélange d'Experts (MoE) utilisent principalement un routeur pour attribuer des jetons à des modules experts spécifiques, activant ainsi uniquement des paramètres partiels et dépassant souvent les performances des modèles denses. Nous soutenons que la séparation entre la prise de décision du routeur et l'exécution des experts est une question critique mais souvent négligée, entraînant une sélection d'experts sous-optimale et un apprentissage inefficace. Pour remédier à cela, nous proposons l'Autonomie des Experts (AoE), un nouveau paradigme MoE dans lequel les experts se sélectionnent autonomement pour traiter les entrées. AoE repose sur l'idée qu'un expert est conscient de sa capacité à traiter efficacement un jeton, une conscience reflétée dans l'ampleur de ses activations internes. Dans AoE, les routeurs sont supprimés ; à la place, les experts pré-calculent les activations internes pour les entrées et sont classés en fonction de leurs normes d'activation. Seuls les experts les mieux classés poursuivent le passage en avant, tandis que les autres abandonnent. Le surcoût du pré-calcul des activations est réduit grâce à une factorisation des poids de rang faible. Cette approche d'auto-évaluation-puis-comparaison-avec-le-partenaire garantit une meilleure sélection d'experts et un apprentissage efficace. Nous pré-entraînons des modèles de langage ayant de 700M à 4B de paramètres, démontrant qu'AoE surpasse les modèles MoE traditionnels avec une efficacité comparable.
Récemment, des LLM de raisonnement à longue réflexion, tels que l'O1 d'OpenAI, adoptent des processus de raisonnement étendus similaires à la façon dont les humains réfléchissent sur des problèmes complexes. Ce paradigme de raisonnement améliore significativement les capacités de résolution de problèmes du modèle et a obtenu des résultats prometteurs. Cependant, le processus de raisonnement à longue réflexion entraîne une augmentation substantielle du temps d'inférence. Un défi pressant est de réduire la surcharge d'inférence des LLM à longue réflexion tout en garantissant la précision. Dans cet article, nous démontrons expérimentalement que les modèles de raisonnement à longue réflexion ont du mal à allouer efficacement des budgets de jetons en fonction de la difficulté du problème et des redondances de raisonnement. Pour remédier à cela, nous proposons un Ajustement Harmonisant de la Longueur (O1-Pruner), visant à minimiser la surcharge de raisonnement tout en maintenant la précision. Cette méthode efficace d'ajustement commence par estimer les performances de base du LLM par pré-échantillonnage, puis utilise un ajustement de style RL pour encourager le modèle à générer des processus de raisonnement plus courts sous contraintes de précision. Cela permet au modèle d'atteindre un raisonnement efficace avec moins de redondance tout en maintenant la précision. Les expériences menées sur divers bancs d'essai de raisonnement mathématique montrent que l'O1-Pruner réduit non seulement considérablement la surcharge d'inférence, mais atteint également une précision plus élevée, offrant ainsi une solution nouvelle et prometteuse à ce défi. Notre code sera bientôt disponible sur https://github.com/StarDewXXX/O1-Pruner
L'échantillonnage Best-of-N (BoN), une stratégie courante pour l'ajustement à l'échelle des grands modèles de langage (LLM) au moment des tests, repose sur des modèles de récompense pour sélectionner la meilleure solution parmi plusieurs générations. Cependant, les modèles de récompense traditionnels attribuent souvent des scores arbitraires et incohérents, limitant leur efficacité. Pour remédier à cela, nous proposons un Modèle de Récompense par Paires (Pairwise RM) combiné à un tournoi à élimination pour l'échantillonnage BoN. Au lieu d'attribuer des scores absolus, le Pairwise RM évalue simultanément la justesse de deux solutions candidates pour un problème mathématique donné. Cette approche élimine le besoin de notation arbitraire et permet la validation croisée des solutions par comparaison parallèle. Dans le tournoi à élimination, le Pairwise RM effectue des comparaisons par paires entre les solutions candidates et élimine itérativement celles qui sont incorrectes. Nous construisons \ourdataset, un ensemble de données à grande échelle de 443 000 comparaisons par paires dérivées de NumiaMath et annotées à l'aide de gemini-1.5-flash, et entraînons le Pairwise RM via un affinage supervisé. Les expériences sur MATH-500 et le Banc Olympique démontrent des améliorations significatives par rapport aux modèles de récompense discriminatifs traditionnels. Une amélioration relative de 40\% à 60\% est obtenue sur les 50\% des problèmes les plus difficiles.
La reconstruction 3D multi-vues reste un défi majeur en vision par ordinateur, en particulier dans les applications nécessitant des représentations précises et évolutives à travers des perspectives diverses. Les méthodes actuelles de pointe telles que DUSt3R utilisent une approche fondamentalement par paires, traitant les images par paires et nécessitant des procédures coûteuses d'alignement global pour reconstruire à partir de vues multiples. Dans ce travail, nous proposons Fast 3D Reconstruction (Fast3R), une nouvelle généralisation multi-vues de DUSt3R qui permet une reconstruction 3D efficace et évolutive en traitant de nombreuses vues en parallèle. L'architecture basée sur les Transformers de Fast3R transmet N images en une seule passe avant, contournant ainsi le besoin d'alignement itératif. À travers des expériences approfondies sur l'estimation de la pose de la caméra et la reconstruction 3D, Fast3R démontre des performances de pointe, avec des améliorations significatives en termes de vitesse d'inférence et de réduction de l'accumulation d'erreurs. Ces résultats établissent Fast3R comme une alternative robuste pour les applications multi-vues, offrant une évolutivité améliorée sans compromettre la précision de la reconstruction.
Les grands modèles de langage (LLM) transforment l'intelligence artificielle, évoluant en systèmes orientés tâches capables de planification et d'exécution autonomes. L'une des principales applications des LLM est les systèmes d'IA conversationnelle, qui doivent naviguer dans des dialogues multi-tours, intégrer des API spécifiques au domaine et respecter des contraintes de politique strictes. Cependant, l'évaluation de ces agents reste un défi majeur, car les méthodes traditionnelles échouent à capturer la complexité et la variabilité des interactions réelles. Nous présentons IntellAgent, un cadre multi-agent évolutif et open-source conçu pour évaluer de manière exhaustive les systèmes d'IA conversationnelle. IntellAgent automatise la création de divers bancs d'essai synthétiques en combinant la modélisation de graphes pilotée par des politiques, la génération réaliste d'événements et les simulations interactives utilisateur-agent. Cette approche innovante fournit des diagnostics détaillés, abordant les limitations des bancs d'essai statiques et manuellement élaborés avec des métriques grossières. IntellAgent représente un changement de paradigme dans l'évaluation de l'IA conversationnelle. En simulant des scénarios multi-politiques réalistes à travers différents niveaux de complexité, IntellAgent capture l'interaction nuancée des capacités des agents et des contraintes de politique. Contrairement aux méthodes traditionnelles, il utilise un modèle de politique basé sur des graphes pour représenter les relations, les probabilités et les complexités des interactions de politique, permettant des diagnostics très détaillés. IntellAgent identifie également les écarts de performance critiques, offrant des aperçus exploitables pour une optimisation ciblée. Sa conception modulaire et open-source prend en charge une intégration transparente de nouveaux domaines, politiques et APIs, favorisant la reproductibilité et la collaboration communautaire. Nos résultats démontrent qu'IntellAgent constitue un cadre efficace pour faire progresser l'IA conversationnelle en relevant les défis de la transition entre la recherche et le déploiement. Le cadre est disponible sur https://github.com/plurai-ai/intellagent.