Articles de recherche en IA sélectionnés quotidiennement avec traductions
La diacritisation des textes arabes demeure un défi persistant en traitement automatique des langues, en raison de la richesse morphologique de cette langue. Dans cet article, nous présentons Sadeed, une approche novatrice basée sur un modèle de langage à décodeur unique, affiné à partir de Kuwain 1.5B Hennara et al. [2025], un modèle compact initialement entraîné sur des corpus arabes variés. Sadeed est affiné sur des ensembles de données diacritisées de haute qualité, soigneusement sélectionnés et construits grâce à un pipeline rigoureux de nettoyage et de normalisation des données. Malgré l'utilisation de ressources computationnelles modestes, Sadeed obtient des résultats compétitifs par rapport aux grands modèles de langage propriétaires et surpasse les modèles traditionnels entraînés sur des domaines similaires. Par ailleurs, nous mettons en lumière les principales limites des pratiques actuelles d'évaluation pour la diacritisation arabe. Pour remédier à ces problèmes, nous introduisons SadeedDiac-25, un nouveau benchmark conçu pour permettre une évaluation plus équitable et plus exhaustive à travers divers genres textuels et niveaux de complexité. Ensemble, Sadeed et SadeedDiac-25 offrent une base solide pour faire progresser les applications du traitement automatique de la langue arabe, notamment la traduction automatique, la synthèse vocale et les outils d'apprentissage des langues.
Les grands modèles de raisonnement (Large Reasoning Models, LRMs), tels qu'OpenAI-o1 et DeepSeek-R1, démontrent des capacités impressionnantes de raisonnement à long terme. Cependant, leur dépendance à des connaissances internes statiques limite leurs performances sur des tâches complexes et riches en connaissances, et entrave leur capacité à produire des rapports de recherche complets nécessitant la synthèse d'informations variées provenant du web. Pour remédier à cela, nous proposons WebThinker, un agent de recherche approfondi qui permet aux LRMs de rechercher de manière autonome sur le web, de naviguer sur les pages web et de rédiger des rapports de recherche pendant le processus de raisonnement. WebThinker intègre un module Deep Web Explorer, permettant aux LRMs de rechercher, naviguer et extraire dynamiquement des informations du web lorsqu'ils rencontrent des lacunes de connaissances. Il utilise également une stratégie autonome de réflexion, recherche et rédaction (Autonomous Think-Search-and-Draft), permettant au modèle d'alterner de manière fluide le raisonnement, la collecte d'informations et la rédaction de rapports en temps réel. Pour améliorer davantage l'utilisation des outils de recherche, nous introduisons une stratégie d'entraînement basée sur l'apprentissage par renforcement (RL) via une optimisation directe des préférences (Direct Preference Optimization, DPO) itérative en ligne. Des expériences approfondies sur des benchmarks de raisonnement complexe (GPQA, GAIA, WebWalkerQA, HLE) et des tâches de génération de rapports scientifiques (Glaive) démontrent que WebThinker surpasse significativement les méthodes existantes et les systèmes propriétaires robustes. Notre approche améliore la fiabilité et l'applicabilité des LRMs dans des scénarios complexes, ouvrant la voie à des systèmes de recherche approfondie plus performants et polyvalents. Le code est disponible à l'adresse https://github.com/RUC-NLPIR/WebThinker.
Nous présentons Phi-4-reasoning, un modèle de raisonnement de 14 milliards de paramètres qui obtient des performances solides sur des tâches de raisonnement complexes. Entraîné par affinage supervisé de Phi-4 sur un ensemble soigneusement sélectionné d'invites "pédagogiques" - choisies pour leur niveau de complexité et de diversité approprié - et de démonstrations de raisonnement générées à l'aide de o3-mini, Phi-4-reasoning produit des chaînes de raisonnement détaillées qui exploitent efficacement les ressources de calcul au moment de l'inférence. Nous développons également Phi-4-reasoning-plus, une variante améliorée grâce à une courte phase d'apprentissage par renforcement basé sur les résultats, offrant des performances supérieures en générant des traces de raisonnement plus longues. Sur un large éventail de tâches de raisonnement, les deux modèles surpassent de manière significative des modèles à poids ouverts beaucoup plus grands, tels que le modèle DeepSeek-R1-Distill-Llama-70B, et approchent les niveaux de performance du modèle complet DeepSeek-R1. Nos évaluations approfondies couvrent des benchmarks en raisonnement mathématique et scientifique, codage, résolution de problèmes algorithmiques, planification et compréhension spatiale. Fait intéressant, nous observons un transfert non négligeable des améliorations vers des benchmarks à usage général également. Dans ce rapport, nous fournissons des insights sur nos données d'entraînement, nos méthodologies d'entraînement et nos évaluations. Nous montrons que l'avantage d'une curation minutieuse des données pour l'affinage supervisé (SFT) s'étend aux modèles de langage de raisonnement, et peut être encore amplifié par l'apprentissage par renforcement (RL). Enfin, notre évaluation met en lumière des opportunités pour améliorer la manière dont nous évaluons la performance et la robustesse des modèles de raisonnement.
La méthode Chain-of-Thought (CoT) améliore significativement les capacités de raisonnement formel des grands modèles de langage (LLMs) en les entraînant à générer explicitement des étapes de raisonnement intermédiaires. Bien que les LLMs bénéficient facilement de telles techniques, améliorer le raisonnement des petits modèles de langage (SLMs) reste un défi en raison de leur capacité limitée. Les travaux récents de Deepseek-R1 montrent que la distillation à partir de données synthétiques générées par des LLMs peut considérablement améliorer les capacités de raisonnement des SLMs. Cependant, la recette de modélisation détaillée n'est pas divulguée. Dans ce travail, nous présentons une recette d'entraînement systématique pour les SLMs, composée de quatre étapes : (1) un pré-entraînement à grande échelle sur des données long-CoT distillées et diversifiées, (2) un fine-tuning supervisé sur des données long-CoT de haute qualité, (3) un Rollout DPO exploitant un ensemble de données de préférences soigneusement sélectionné, et (4) un apprentissage par renforcement (RL) avec récompense vérifiable. Nous appliquons notre méthode à Phi-4-Mini, un modèle compact de 3,8 milliards de paramètres. Le modèle résultant, Phi-4-Mini-Reasoning, surpasse, sur des tâches de raisonnement mathématique, des modèles de raisonnement beaucoup plus grands, par exemple en surpassant DeepSeek-R1-Distill-Qwen-7B de 3,2 points et DeepSeek-R1-Distill-Llama-8B de 7,7 points sur Math-500. Nos résultats valident qu'une recette d'entraînement soigneusement conçue, avec des données CoT de haute qualité à grande échelle, est efficace pour débloquer de solides capacités de raisonnement même dans des petits modèles aux ressources limitées.
Le développement récent des modèles de langage à raisonnement (RLMs) représente une nouvelle évolution dans le domaine des grands modèles de langage. En particulier, la récente sortie de DeepSeek-R1 a eu un impact social considérable et suscité un enthousiasme marqué dans la communauté de recherche pour explorer le paradigme de raisonnement explicite des modèles de langage. Cependant, les détails d'implémentation des modèles publiés, y compris DeepSeek-R1-Zero, DeepSeek-R1 et les petits modèles distillés, n'ont pas été entièrement open-sourcés par DeepSeek. Par conséquent, de nombreuses études de réplication ont émergé, visant à reproduire les performances impressionnantes de DeepSeek-R1 en atteignant des résultats comparables grâce à des procédures d'entraînement similaires et à des ressources de données entièrement open-source. Ces travaux ont exploré des stratégies réalisables pour le fine-tuning supervisé (SFT) et l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR), en se concentrant sur la préparation des données et la conception des méthodes, ce qui a permis d'obtenir diverses insights précieuses. Dans ce rapport, nous résumons les études de réplication récentes afin d'inspirer de futures recherches. Nous nous concentrons principalement sur le SFT et le RLVR comme deux axes majeurs, en détaillant la construction des données, la conception des méthodes et les procédures d'entraînement des études de réplication actuelles. De plus, nous synthétisons les principaux enseignements tirés des détails d'implémentation et des résultats expérimentaux rapportés par ces études, dans l'espoir de stimuler de nouvelles recherches. Nous discutons également des techniques supplémentaires pour améliorer les RLMs, en mettant en lumière le potentiel d'élargir leur champ d'application et en abordant les défis liés à leur développement. Grâce à cette étude, nous visons à aider les chercheurs et développeurs de RLMs à rester informés des dernières avancées et à susciter de nouvelles idées pour améliorer davantage ces modèles.
Nous présentons softpick, un remplacement direct et rectifié, non sommé à un, pour le softmax dans les mécanismes d'attention des transformers, qui élimine les puits d'attention et les activations massives. Nos expériences avec des modèles de 340 millions de paramètres démontrent que softpick maintient une performance équivalente à celle du softmax sur des benchmarks standards tout en atteignant un taux de puits de 0 %. Le transformer utilisant softpick produit des états cachés avec une kurtosis significativement plus faible (340 contre 33 510) et génère des cartes d'attention éparses (46,97 % de sparsité). Les modèles utilisant softpick surpassent systématiquement ceux utilisant softmax lorsqu'ils sont quantifiés, avec des avantages particulièrement marqués aux précisions de bits plus faibles. Notre analyse et discussion montrent comment softpick a le potentiel d'ouvrir de nouvelles possibilités pour la quantification, l'entraînement en basse précision, l'optimisation de la sparsité, l'élagage et l'interprétabilité. Notre code est disponible à l'adresse https://github.com/zaydzuhri/softpick-attention.
Les modèles de langage multimodaux de grande taille (MLLMs) excellent dans les tâches simples combinant vision et langage, mais rencontrent des difficultés face à des tâches complexes nécessitant plusieurs capacités simultanées, telles que la reconnaissance d'objets, leur décompte et la compréhension de leurs relations spatiales. Cela pourrait s'expliquer en partie par le fait que l'ajustement par instruction visuelle (VIT), une étape cruciale de l'entraînement des MLLMs, s'est traditionnellement concentré sur l'augmentation du volume de données, plutôt que sur la complexité compositionnelle des exemples d'entraînement. Nous proposons COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), qui génère un ensemble de données d'entraînement contrôlant explicitement la complexité compositionnelle des exemples. Les données issues de COMPACT permettent aux MLLMs de s'entraîner sur des combinaisons de capacités atomiques pour apprendre des capacités complexes de manière plus efficace. Sur tous les benchmarks, COMPACT atteint des performances comparables à celles du VIT LLaVA-665k tout en utilisant moins de 10 % de son budget de données, et les dépasse même sur plusieurs, en particulier ceux impliquant des tâches complexes nécessitant plusieurs capacités. Par exemple, COMPACT obtient une amélioration substantielle de 83,3 % sur MMStar et de 94,0 % sur MM-Vet par rapport au VIT à grande échelle pour des questions particulièrement complexes nécessitant quatre capacités atomiques ou plus. COMPACT propose une méthode d'ajustement visuel compositionnel évolutive et économe en données pour améliorer les performances sur les tâches complexes combinant vision et langage.
Les modèles de langage de grande taille (LLMs) exploitent un raisonnement étape par étape pour résoudre des problèmes complexes. La pratique d'évaluation standard consiste à générer une trace de raisonnement complète et à évaluer l'exactitude de la réponse finale présentée à son terme. Dans cet article, nous remettons en question la dépendance à la réponse finale en posant les deux questions suivantes : La réponse finale représente-t-elle de manière fiable la conclusion optimale du modèle ? Des chemins de raisonnement alternatifs peuvent-ils produire des résultats différents ? Pour répondre à ces questions, nous analysons les étapes intermédiaires de raisonnement, appelées sous-pensées, et proposons une méthode basée sur nos découvertes. Notre approche consiste à segmenter une trace de raisonnement en sous-pensées séquentielles basées sur des indices linguistiques. Nous commençons par inciter le modèle à générer des continuations à partir du point final de chaque sous-pensée intermédiaire. Nous extrayons une réponse potentielle de chaque continuation complète provenant de différentes sous-pensées. Nous constatons que l'agrégation de ces réponses en sélectionnant la plus fréquente (le mode) offre souvent une précision significativement plus élevée par rapport à la simple utilisation de la réponse dérivée de la trace complète originale. L'analyse de la cohérence entre les réponses dérivées de différentes sous-pensées révèle des caractéristiques qui corrèlent avec la confiance et l'exactitude du modèle, suggérant un potentiel pour identifier les réponses moins fiables. Nos expériences sur divers LLMs et des ensembles de données complexes de raisonnement mathématique (AIME2024 et AIME2025) montrent des améliorations constantes de la précision, avec des gains atteignant respectivement 13 % et 10 %. L'implémentation est disponible à l'adresse : https://github.com/hammoudhasan/SubthoughtReasoner.
L'IA générative est en train de transformer l'art, le jeu vidéo et, plus particulièrement, l'animation. Les récentes avancées dans les modèles de base et les modèles de diffusion ont réduit le temps et le coût de production de contenus animés. Les personnages sont des éléments centraux de l'animation, impliquant le mouvement, les émotions, les gestes et les expressions faciales. Le rythme et l'ampleur des progrès réalisés ces derniers mois rendent difficile le maintien d'une vision cohérente du domaine, ce qui motive la nécessité d'une revue intégrative. Contrairement aux précédentes synthèses qui traitent les avatars, les gestes ou l'animation faciale de manière isolée, cette étude offre une perspective unique et complète sur toutes les principales applications de l'IA générative pour l'animation de personnages. Nous commençons par examiner l'état de l'art en matière d'animation faciale, de rendu des expressions, de synthèse d'images, de création d'avatars, de modélisation des gestes, de synthèse de mouvements, de génération d'objets et de synthèse de textures. Nous mettons en lumière les recherches de pointe, les déploiements pratiques, les ensembles de données couramment utilisés et les tendances émergentes pour chaque domaine. Pour soutenir les nouveaux arrivants, nous proposons également une section de fond complète qui introduit les modèles de base et les métriques d'évaluation, dotant ainsi les lecteurs des connaissances nécessaires pour entrer dans le domaine. Nous discutons des défis ouverts et cartographions les futures directions de recherche, fournissant une feuille de route pour faire progresser les technologies d'animation de personnages pilotées par l'IA. Cette étude est conçue comme une ressource pour les chercheurs et les développeurs entrant dans le domaine de l'animation générative par IA ou dans des domaines connexes. Les ressources sont disponibles à l'adresse suivante : https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.
Alors que les grands modèles de langage (LLM) basés sur des architectures de type transformer s'intègrent de plus en plus dans la société, ils ont révolutionné des domaines tels que l'ingénierie logicielle, l'écriture créative et les arts numériques. Cependant, leur adoption dans le domaine de la cybersécurité reste limitée en raison de défis tels que la rareté des données d'entraînement spécialisées et la complexité de la représentation des connaissances spécifiques à la cybersécurité. Pour combler ces lacunes, nous présentons Foundation-Sec-8B, un LLM axé sur la cybersécurité, construit sur l'architecture Llama 3.1 et amélioré grâce à un pré-entraînement continu sur un corpus de cybersécurité soigneusement sélectionné. Nous évaluons Foundation-Sec-8B à la fois sur des benchmarks établis et nouveaux en cybersécurité, démontrant qu'il rivalise avec Llama 3.1-70B et GPT-4o-mini dans certaines tâches spécifiques à la cybersécurité. En rendant notre modèle accessible au public, nous visons à accélérer les progrès et l'adoption d'outils pilotés par l'IA dans les contextes de cybersécurité publics et privés.
Ces dernières années, la génération vidéo a connu des avancées significatives. Cependant, des défis persistent dans la génération de mouvements et d'interactions complexes. Pour relever ces défis, nous présentons ReVision, un framework plug-and-play qui intègre explicitement des connaissances physiques 3D paramétriques dans un modèle de génération vidéo conditionnelle pré-entraîné, améliorant ainsi considérablement sa capacité à générer des vidéos de haute qualité avec des mouvements et des interactions complexes. Plus précisément, ReVision se compose de trois étapes. Tout d'abord, un modèle de diffusion vidéo est utilisé pour générer une vidéo brute. Ensuite, nous extrayons un ensemble de caractéristiques 2D et 3D de cette vidéo brute pour construire une représentation 3D centrée sur les objets, qui est ensuite affinée par notre modèle de priorité physique paramétrique proposé pour produire une séquence de mouvement 3D précise. Enfin, cette séquence de mouvement affinée est réinjectée dans le même modèle de diffusion vidéo comme conditionnement supplémentaire, permettant la génération de vidéos cohérentes en termes de mouvement, même dans des scénarios impliquant des actions et des interactions complexes. Nous validons l'efficacité de notre approche sur Stable Video Diffusion, où ReVision améliore significativement la fidélité et la cohérence des mouvements. Fait remarquable, avec seulement 1,5 milliard de paramètres, il surpasse même un modèle de génération vidéo de pointe avec plus de 13 milliards de paramètres dans la génération de vidéos complexes par une marge substantielle. Nos résultats suggèrent qu'en incorporant des connaissances physiques 3D, même un modèle de diffusion vidéo relativement petit peut générer des mouvements et des interactions complexes avec un plus grand réalisme et une meilleure contrôlabilité, offrant ainsi une solution prometteuse pour la génération de vidéos physiquement plausibles.
Les modèles de langage de grande taille (LLMs) pour l'IA générative ont réalisé des progrès remarquables, évoluant en des outils sophistiqués et polyvalents largement adoptés dans divers domaines et applications. Cependant, la surcharge mémoire substantielle causée par leur grand nombre de paramètres, combinée aux exigences computationnelles élevées du mécanisme d'attention, pose des défis importants pour atteindre une faible latence et un haut débit dans les services d'inférence des LLMs. Les avancées récentes, motivées par des recherches innovantes, ont considérablement accéléré les progrès dans ce domaine. Cet article propose une revue exhaustive de ces méthodes, couvrant les approches fondamentales au niveau des instances, les stratégies approfondies au niveau des clusters, les directions émergentes de scénarios, ainsi que d'autres domaines divers mais importants. Au niveau des instances, nous examinons le placement des modèles, l'ordonnancement des requêtes, la prédiction de la longueur de décodage, la gestion du stockage et le paradigme de désagrégation. Au niveau des clusters, nous explorons le déploiement de clusters GPU, l'équilibrage de charge multi-instances et les solutions de services cloud. Pour les scénarios émergents, nous organisons la discussion autour de tâches spécifiques, de modules et de méthodes auxiliaires. Pour garantir une vue d'ensemble holistique, nous mettons également en lumière plusieurs domaines de niche mais critiques. Enfin, nous esquissons des directions de recherche potentielles pour faire progresser davantage le domaine de l'inférence des LLMs.
La mise à l'échelle des données et les benchmarks d'évaluation standardisés ont permis des avancées significatives dans le traitement du langage naturel et la vision par ordinateur. Cependant, la robotique fait face à des défis uniques en matière de mise à l'échelle des données et d'établissement de protocoles d'évaluation. La collecte de données dans le monde réel est coûteuse en ressources et inefficace, tandis que l'évaluation dans des scénarios réels reste extrêmement complexe. Les données synthétiques et la simulation offrent des alternatives prometteuses, mais les efforts existants manquent souvent en termes de qualité des données, de diversité et de standardisation des benchmarks. Pour relever ces défis, nous présentons RoboVerse, un cadre complet comprenant une plateforme de simulation, un ensemble de données synthétiques et des benchmarks unifiés. Notre plateforme de simulation prend en charge plusieurs simulateurs et incarnations robotiques, permettant des transitions fluides entre différents environnements. L'ensemble de données synthétiques, caractérisé par une physique haute fidélité et un rendu photoréaliste, est construit à travers plusieurs approches. De plus, nous proposons des benchmarks unifiés pour l'apprentissage par imitation et l'apprentissage par renforcement, permettant une évaluation à différents niveaux de généralisation. Au cœur de la plateforme de simulation se trouve MetaSim, une infrastructure qui abstrait divers environnements de simulation en une interface universelle. Il restructure les environnements de simulation existants en un système de configuration indépendant du simulateur, ainsi qu'une API alignant les fonctionnalités de différents simulateurs, telles que le lancement d'environnements de simulation, le chargement d'actifs avec des états initiaux, l'avancement du moteur physique, etc. Cette abstraction garantit l'interopérabilité et l'extensibilité. Des expériences approfondies démontrent que RoboVerse améliore les performances de l'apprentissage par imitation, de l'apprentissage par renforcement, de l'apprentissage de modèles du monde et du transfert simulation-réel. Ces résultats valident la fiabilité de notre ensemble de données et de nos benchmarks, établissant RoboVerse comme une solution robuste pour faire progresser l'apprentissage robotique.
L'interprétation multimodale des images biomédicales ouvre de nouvelles opportunités dans l'analyse d'images biomédicales. Les approches conventionnelles de l'IA reposent généralement sur un apprentissage disjoint, c'est-à-dire des modèles de langage de grande envergure (LLMs) pour la génération de textes cliniques et des modèles de segmentation pour l'extraction de cibles, ce qui entraîne un déploiement peu flexible dans le monde réel et une incapacité à exploiter les informations biomédicales holistiques. À cette fin, nous introduisons UniBiomed, le premier modèle de fondation universel pour l'interprétation ancrée des images biomédicales. UniBiomed est basé sur une intégration novatrice d'un modèle de langage multimodale de grande envergure (MLLM) et d'un modèle de segmentation universel (SAM), qui unifie efficacement la génération de textes cliniques et la segmentation des objets biomédicales correspondants pour une interprétation ancrée. De cette manière, UniBiomed est capable de traiter une large gamme de tâches biomédicales à travers dix modalités d'imagerie biomédicale diverses. Pour développer UniBiomed, nous avons constitué un ensemble de données à grande échelle comprenant plus de 27 millions de triplets d'images, d'annotations et de descriptions textuelles à travers dix modalités d'imagerie. Une validation approfondie sur 84 ensembles de données internes et externes a démontré qu'UniBiomed atteint des performances de pointe en segmentation, reconnaissance de maladies, diagnostic basé sur les régions, réponse à des questions visuelles et génération de rapports. De plus, contrairement aux modèles précédents qui reposent sur des experts cliniques pour pré-diagnostiquer les images et créer manuellement des invites textuelles ou visuelles précises, UniBiomed peut fournir une interprétation ancrée automatisée et de bout en bout pour l'analyse d'images biomédicales. Cela représente un nouveau changement de paradigme dans les workflows cliniques, qui améliorera considérablement l'efficacité diagnostique. En résumé, UniBiomed représente une percée novatrice dans l'IA biomédicale, débloquant des capacités puissantes d'interprétation ancrée pour une analyse d'images biomédicales plus précise et plus efficace.
L'analyse conjointe, une application de la conception expérimentale factorielle, est un outil populaire dans la recherche en sciences sociales pour étudier les préférences multidimensionnelles. Dans de telles expériences dans le contexte de l'analyse politique, les répondants sont invités à choisir entre deux candidats politiques hypothétiques dotés de caractéristiques sélectionnées aléatoirement, qui peuvent inclure l'appartenance partisane, les positions politiques, le genre et l'origine ethnique. Nous examinons le problème de l'identification des profils de candidats optimaux. Étant donné que le nombre de combinaisons uniques de caractéristiques dépasse largement le nombre total d'observations dans une expérience conjointe typique, il est impossible de déterminer exactement le profil optimal. Pour relever ce défi d'identification, nous dérivons une intervention stochastique optimale qui représente une distribution de probabilité de divers attributs visant à obtenir le résultat moyen le plus favorable. Nous considérons d'abord un environnement où un parti politique optimise sa sélection de candidats. Nous passons ensuite au cas plus réaliste où deux partis politiques optimisent simultanément et en opposition leur propre sélection de candidats. Nous appliquons la méthodologie proposée à une expérience conjointe existante sur le choix de candidats concernant le vote pour la présidence des États-Unis. Nous constatons que, contrairement à l'approche non-adversariale, les résultats attendus dans le régime adversarial se situent dans la fourchette des résultats électoraux historiques, les stratégies optimales suggérées par la méthode étant plus susceptibles de correspondre aux candidats réellement observés par rapport aux stratégies dérivées d'une approche non-adversariale. Ces résultats indiquent que l'intégration de dynamiques adversariales dans l'analyse conjointe peut apporter un éclairage unique sur les données des expériences en sciences sociales.