Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons MiniMax-Speech, un modèle de synthèse vocale (Text-to-Speech, TTS) basé sur un Transformer autorégressif, capable de générer une parole de haute qualité. Une innovation clé réside dans notre encodeur de locuteur apprenable, qui extrait les caractéristiques de timbre à partir d'un audio de référence sans nécessiter sa transcription. Cela permet à MiniMax-Speech de produire une parole hautement expressive avec un timbre cohérent avec la référence de manière zero-shot, tout en supportant également le clonage vocal one-shot avec une similarité exceptionnellement élevée par rapport à la voix de référence. De plus, la qualité globale de l'audio synthétisé est améliorée grâce au Flow-VAE proposé. Notre modèle supporte 32 langues et démontre d'excellentes performances sur plusieurs métriques d'évaluation objectives et subjectives. Notamment, il atteint des résultats de pointe (state-of-the-art, SOTA) sur les métriques objectives de clonage vocal (taux d'erreur de mots et similarité de locuteur) et a obtenu la première place sur le classement public TTS Arena. Une autre force majeure de MiniMax-Speech, rendue possible par les représentations robustes et désentrelacées de l'encodeur de locuteur, est son extensibilité sans modification du modèle de base, permettant diverses applications telles que : le contrôle arbitraire des émotions vocales via LoRA ; la synthèse de voix à partir de texte (Text to Voice, T2V) en générant directement les caractéristiques de timbre à partir d'une description textuelle ; et le clonage vocal professionnel (Professional Voice Cloning, PVC) en affinant les caractéristiques de timbre avec des données supplémentaires. Nous encourageons les lecteurs à visiter https://minimax-ai.github.io/tts_tech_report pour plus d'exemples.
Les systèmes de synthèse audio à partir de texte, bien que de plus en plus performants, sont lents au moment de l'inférence, rendant leur latence peu pratique pour de nombreuses applications créatives. Nous présentons l'entraînement postérieur Adversarial Relativistic-Contrastive (ARC), le premier algorithme d'accélération adversarial pour les modèles de diffusion/flux qui ne repose pas sur la distillation. Alors que les méthodes précédentes d'entraînement postérieur adversarial ont eu du mal à rivaliser avec leurs homologues coûteux basés sur la distillation, l'entraînement postérieur ARC est une procédure simple qui (1) étend une formulation adversarial relativiste récente à l'entraînement postérieur des modèles de diffusion/flux et (2) la combine avec un nouvel objectif de discriminateur contrastif pour encourager une meilleure adhérence aux prompts. Nous associons l'entraînement postérieur ARC à plusieurs optimisations de Stable Audio Open et construisons un modèle capable de générer environ 12 secondes d'audio stéréo à 44,1 kHz en environ 75 ms sur un H100, et environ 7 secondes sur un appareil mobile de périphérie, ce qui en fait le modèle de synthèse audio à partir de texte le plus rapide à notre connaissance.
Nous présentons AM-Thinking-v1, un modèle de langage dense de 32 milliards de paramètres qui repousse les frontières du raisonnement, incarnant l'esprit collaboratif de l'innovation open source. Surpassant DeepSeek-R1 et rivalisant avec les meilleurs modèles Mixture-of-Experts (MoE) tels que Qwen3-235B-A22B et Seed1.5-Thinking, AM-Thinking-v1 obtient des scores impressionnants de 85,3 sur AIME 2024, 74,4 sur AIME 2025 et 70,3 sur LiveCodeBench, démontrant des capacités mathématiques et de programmation de pointe parmi les modèles open source de taille similaire. Entièrement construit à partir du modèle de base open source Qwen2.5-32B et de requêtes publiquement disponibles, AM-Thinking-v1 s'appuie sur un pipeline de post-entraînement méticuleusement conçu - combinant un ajustement fin supervisé et un apprentissage par renforcement - pour offrir des capacités de raisonnement exceptionnelles. Ce travail démontre que la communauté open source peut atteindre des performances élevées à l'échelle des 32 milliards de paramètres, un point optimal pour le déploiement et l'ajustement fin. En trouvant un équilibre entre des performances de premier ordre et une utilité pratique, nous espérons qu'AM-Thinking-v1 inspirera de nouveaux efforts collaboratifs pour exploiter des modèles de taille intermédiaire, repoussant les limites du raisonnement tout en plaçant l'accessibilité au cœur de l'innovation. Nous avons rendu notre modèle open source sur https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
La construction de modèles de langage multimodaux est fondamentalement complexe : elle nécessite d'aligner les modalités visuelles et linguistiques, de constituer des données d'instructions de haute qualité, et d'éviter la dégradation des capacités existantes en texte seul une fois que la vision est introduite. Ces difficultés sont encore amplifiées dans un contexte multilingue, où le besoin de données multimodales dans différentes langues exacerbe la pénurie de données existante, la traduction automatique déforme souvent le sens, et l'oubli catastrophique est plus prononcé. Pour relever ces défis, nous introduisons des techniques novatrices couvrant à la fois les données et la modélisation. Tout d'abord, nous développons un cadre d'annotation synthétique qui constitue des données d'instructions multimodales multilingues de haute qualité et diversifiées, permettant aux modèles Aya Vision de produire des réponses naturelles et préférées par les humains pour des entrées multimodales dans de nombreuses langues. En complément, nous proposons une technique de fusion de modèles intermodaux qui atténue l'oubli catastrophique, préservant efficacement les capacités en texte seul tout en améliorant simultanément les performances génératives multimodales. Aya-Vision-8B obtient des performances de premier plan par rapport à des modèles multimodaux solides tels que Qwen-2.5-VL-7B, Pixtral-12B, et même des modèles beaucoup plus grands comme Llama-3.2-90B-Vision. Nous poussons cette approche plus loin avec Aya-Vision-32B, qui surpasse des modèles plus de deux fois plus grands, tels que Molmo-72B et LLaMA-3.2-90B-Vision. Notre travail fait progresser le front multilingue dans le domaine multimodal et offre des insights sur des techniques qui réduisent efficacement le besoin en calcul tout en offrant des performances extrêmement élevées.
L'évaluation de la compréhension des instructions mesure la capacité des grands modèles de langage (LLMs) à générer des sorties qui respectent les contraintes définies par l'utilisateur. Cependant, les benchmarks existants reposent souvent sur des invites de contraintes prédéfinies, qui manquent de la diversité des usages réels et limitent une évaluation fine des performances. Pour combler cette lacune, nous proposons un cadre de contraintes multidimensionnel englobant trois motifs de contraintes, quatre catégories de contraintes et quatre niveaux de difficulté. En nous appuyant sur ce cadre, nous développons un pipeline automatisé de génération d'instructions qui effectue l'expansion des contraintes, la détection de conflits et la réécriture des instructions, produisant ainsi 1 200 échantillons de tests vérifiables par code pour l'évaluation de la compréhension des instructions. Nous évaluons 19 LLMs issus de sept familles de modèles et révélons des variations substantielles de performance selon les formes de contraintes. Par exemple, la performance moyenne chute de 77,67 % au niveau I à 32,96 % au niveau IV. De plus, nous démontrons l'utilité de notre approche en l'utilisant pour générer des données pour l'apprentissage par renforcement, obtenant des gains significatifs dans la compréhension des instructions sans dégrader les performances générales. Une analyse approfondie indique que ces gains proviennent principalement de modifications des paramètres des modules d'attention du modèle, qui améliorent la reconnaissance et le respect des contraintes. Le code et les données sont disponibles sur https://github.com/Junjie-Ye/MulDimIF.
Nous présentons gg-bench, une collection d'environnements de jeu conçus pour évaluer les capacités de raisonnement général des modèles de langage. Contrairement à la plupart des benchmarks statiques, gg-bench est un processus de génération de données où de nouvelles instances d'évaluation peuvent être générées à volonté. Plus précisément, gg-bench est généré de manière synthétique en (1) utilisant un grand modèle de langage (LLM) pour produire des descriptions en langage naturel de jeux inédits, (2) utilisant le LLM pour implémenter chaque jeu en code sous forme d'environnement Gym, et (3) entraînant des agents d'apprentissage par renforcement (RL) via l'auto-joueur sur les jeux générés. Nous évaluons les modèles de langage en fonction de leur taux de victoire contre ces agents RL en fournissant aux modèles la description du jeu, l'état actuel du plateau et une liste de mouvements valides, après quoi les modèles produisent les mouvements qu'ils souhaitent effectuer. gg-bench est exigeant : les LLM de pointe tels que GPT-4o et Claude 3.7 Sonnet atteignent des taux de victoire de 7 à 9 % sur gg-bench en utilisant l'apprentissage en contexte, tandis que les modèles de raisonnement tels que o1, o3-mini et DeepSeek-R1 atteignent des taux de victoire moyens de 31 à 36 %. Nous publions les jeux générés, le processus de génération de données et le code d'évaluation afin de soutenir les travaux futurs de modélisation et l'expansion de notre benchmark.
Les modèles vision-langage (VLMs) combinent la perception visuelle avec les capacités générales, telles que le raisonnement, des grands modèles de langage (LLMs). Cependant, les mécanismes par lesquels ces deux aptitudes peuvent être combinées et contribuer restent mal compris. Dans ce travail, nous explorons la composition de la perception et du raisonnement par le biais de la fusion de modèles qui connecte les paramètres de différents modèles. Contrairement aux travaux précédents qui se concentrent souvent sur la fusion de modèles de même nature, nous proposons de fusionner des modèles à travers les modalités, permettant ainsi l'intégration des capacités de raisonnement des LLMs dans les VLMs. À travers des expériences approfondies, nous démontrons que la fusion de modèles offre une voie prometteuse pour transférer les capacités de raisonnement des LLMs aux VLMs sans nécessiter d'entraînement supplémentaire. De plus, nous utilisons les modèles fusionnés pour comprendre le mécanisme interne de la perception et du raisonnement, ainsi que l'impact de la fusion sur celui-ci. Nous constatons que les capacités de perception sont principalement encodées dans les premières couches du modèle, tandis que le raisonnement est largement facilité par les couches intermédiaires à tardives. Après la fusion, nous observons que toutes les couches commencent à contribuer au raisonnement, tandis que la répartition des capacités de perception à travers les couches reste largement inchangée. Ces observations mettent en lumière le potentiel de la fusion de modèles comme outil d'intégration et d'interprétation multimodale.
Cette étude aborde une lacune critique dans le traitement automatique de la langue arabe en développant un système efficace de dictionnaire inversé (RD) en arabe, permettant aux utilisateurs de trouver des mots à partir de leurs descriptions ou significations. Nous présentons une approche novatrice basée sur les transformateurs, avec une architecture de réseau neuronal semi-encodeur comportant des couches à décroissance géométrique, qui atteint des résultats de pointe pour les tâches de RD en arabe. Notre méthodologie intègre un processus complet de construction de jeux de données et établit des normes de qualité formelles pour les définitions lexicographiques arabes. Les expériences menées avec divers modèles pré-entraînés démontrent que les modèles spécifiques à l'arabe surpassent significativement les embeddings multilingues généraux, avec ARBERTv2 obtenant le meilleur score de classement (0,0644). De plus, nous proposons une abstraction formelle de la tâche de dictionnaire inversé qui améliore la compréhension théorique et développons une bibliothèque Python modulaire et extensible (RDTL) avec des pipelines d'entraînement configurables. Notre analyse de la qualité des jeux de données révèle des insights importants pour améliorer la construction des définitions arabes, aboutissant à huit normes spécifiques pour la création de ressources de dictionnaire inversé de haute qualité. Ce travail contribue de manière significative à la linguistique computationnelle arabe et fournit des outils précieux pour l'apprentissage des langues, la rédaction académique et la communication professionnelle en arabe.
L'apprentissage de la navigation dans des environnements ouverts et dynamiques représente une compétence cruciale mais complexe pour les robots. La plupart des méthodes existantes s'appuient sur une localisation et une cartographie précises ou sur des démonstrations coûteuses dans le monde réel. Dans cet article, nous proposons la Navigation Diffusion Policy (NavDP), un cadre de bout en bout entraîné uniquement en simulation et capable de transférer sans adaptation (zero-shot) à différentes incarnations dans divers environnements réels. L'élément clé du réseau de NavDP est la combinaison d'une génération de trajectoires basée sur la diffusion et d'une fonction critique pour la sélection de trajectoires, toutes deux conditionnées par des tokens d'observation locaux encodés à partir d'un transformateur de politique partagé. Grâce aux informations privilégiées de l'environnement global en simulation, nous augmentons la production de démonstrations de haute qualité pour entraîner la politique de diffusion et formulons les cibles de la fonction de valeur critique avec des échantillons négatifs contrastifs. Notre approche de génération de démonstrations permet d'obtenir environ 2 500 trajectoires par GPU par jour, soit 20 fois plus efficace que la collecte de données dans le monde réel, et aboutit à un jeu de données de navigation à grande échelle comprenant 363,2 km de trajectoires réparties sur 1 244 scènes. Entraîné avec ce jeu de données de simulation, NavDP atteint des performances de pointe et démontre une capacité de généralisation exceptionnelle sur des robots quadrupèdes, à roues et humanoïdes dans divers environnements intérieurs et extérieurs. De plus, nous présentons une tentative préliminaire d'utilisation du Gaussian Splatting pour effectuer un ajustement fin (fine-tuning) en domaine réel vers simulation afin de réduire davantage l'écart entre simulation et réalité. Les expériences montrent que l'ajout de telles données réel-vers-simulation peut améliorer le taux de réussite de 30 % sans compromettre la capacité de généralisation.
L'adoption croissante des workflows agentiques dans divers domaines soulève un besoin critique d'évaluer de manière scalable et systématique les traces complexes générées par ces systèmes. Les méthodes d'évaluation actuelles reposent sur une analyse humaine manuelle et spécifique au domaine de traces de workflows souvent longues - une approche qui ne s'adapte pas à la complexité et au volume croissants des sorties agentiques. L'analyse des erreurs dans ces contextes est encore compliquée par l'interaction entre les sorties d'outils externes et le raisonnement des modèles de langage, rendant cette tâche plus difficile que le débogage logiciel traditionnel. Dans ce travail, nous (1) exposons la nécessité de méthodes d'évaluation robustes et dynamiques pour les traces de workflows agentiques, (2) introduisons une taxonomie formelle des types d'erreurs rencontrées dans les systèmes agentiques, et (3) présentons un ensemble de 148 traces annotées manuellement (TRAIL) construites à l'aide de cette taxonomie et ancrées dans des benchmarks agentiques établis. Pour garantir la validité écologique, nous avons sélectionné des traces provenant de systèmes mono-agent et multi-agents, en nous concentrant sur des applications réelles telles que l'ingénierie logicielle et la recherche d'information en monde ouvert. Nos évaluations révèlent que les modèles de langage à contexte long modernes obtiennent de faibles performances en débogage de traces, avec le meilleur modèle Gemini-2.5-pro atteignant seulement 11% sur TRAIL. Notre jeu de données et notre code sont rendus publics pour soutenir et accélérer les recherches futures sur l'évaluation scalable des workflows agentiques.
Nous démontrons théoriquement que la généralisation s'améliore non seulement par la mise à l'échelle des données, mais également par la compression des représentations internes. Pour opérationnaliser cette intuition, nous introduisons l'objectif de modélisation du langage par goulot d'information (Information Bottleneck Language Modeling, IBLM), qui reformule la modélisation du langage comme un problème d'optimisation contraint : minimiser l'entropie des représentations tout en maintenant une performance prédictive optimale. Empiriquement, nous observons un cycle émergent de mémorisation-compression lors du pré-entraînement des modèles de langage de grande taille (LLM), mis en évidence par une oscillation dans l'alignement des gradients positifs/négatifs entre l'entropie croisée et l'entropie basée sur les matrices (Matrix-Based Entropy, MBE), une mesure de l'entropie des représentations. Ce motif reflète étroitement le compromis prédictif-compressif prescrit par l'IBLM et fait également écho à l'alternance biologique entre l'apprentissage en état d'éveil et la consolidation pendant le sommeil. Motivés par cette observation, nous proposons la Transition de Phase à Porte (Gated Phase Transition, GAPT), un algorithme d'entraînement qui commute de manière adaptative entre les phases de mémorisation et de compression. Appliqué au pré-entraînement de GPT-2 sur le jeu de données FineWeb, GAPT réduit l'MBE de 50 % et améliore l'entropie croisée de 4,8 %. GAPT améliore la généralisation hors distribution (OOD) de 35 % dans une tâche de pré-entraînement sur la multiplication arithmétique. Dans un scénario conçu pour simuler l'oubli catastrophique, GAPT réduit l'interférence en compressant et en séparant les représentations, obtenant une amélioration de 97 % dans la séparation – parallèle au rôle fonctionnel de la consolidation pendant le sommeil.
Évaluer les niveaux de compétence humaine dans des activités complexes constitue un problème difficile avec des applications dans le sport, la rééducation et la formation. Dans ce travail, nous présentons SkillFormer, une architecture paramétriquement efficace pour l'estimation unifiée de la maîtrise multi-vues à partir de vidéos égocentriques et exocentriques. S'appuyant sur l'architecture TimeSformer, SkillFormer introduit un module CrossViewFusion qui fusionne les caractéristiques spécifiques à chaque vue en utilisant une attention croisée multi-têtes, un mécanisme de gating apprenable et une auto-calibration adaptative. Nous exploitons l'Adaptation à Faible Rang pour affiner uniquement un petit sous-ensemble de paramètres, réduisant ainsi considérablement les coûts d'entraînement. En effet, lorsqu'il est évalué sur le jeu de données EgoExo4D, SkillFormer atteint une précision de pointe dans des configurations multi-vues tout en démontrant une efficacité computationnelle remarquable, utilisant 4,5 fois moins de paramètres et nécessitant 3,75 fois moins d'époques d'entraînement que les approches précédentes. Il excelle dans plusieurs tâches structurées, confirmant la valeur de l'intégration multi-vues pour l'évaluation fine des compétences.
Les grands modèles de langage atteignent des performances élevées sur les tâches, mais produisent souvent des hallucinations ou s'appuient sur des connaissances obsolètes. La génération augmentée par recherche (RAG) comble ces lacunes en couplant la génération avec une recherche externe. Nous analysons comment les hyperparamètres influencent la vitesse et la qualité dans les systèmes RAG, en couvrant les bases de données vectorielles Chroma et Faiss, les politiques de découpage, le réordonnancement par cross-encoder, et la température, et nous évaluons six métriques : la fidélité, la justesse de la réponse, la pertinence de la réponse, la précision du contexte, le rappel du contexte, et la similarité des réponses. Chroma traite les requêtes 13 % plus rapidement, tandis que Faiss offre une précision de récupération plus élevée, révélant un compromis clair entre vitesse et précision. Le découpage naïf à longueur fixe avec de petites fenêtres et un chevauchement minimal surpasse la segmentation sémantique tout en restant l'option la plus rapide. Le réordonnancement apporte des gains modestes en qualité de récupération mais augmente le temps d'exécution d'un facteur d'environ 5, son utilité dépend donc des contraintes de latence. Ces résultats aident les praticiens à équilibrer le coût computationnel et la précision lors du réglage des systèmes RAG pour obtenir des réponses transparentes et à jour. Enfin, nous réévaluons les configurations optimales avec un workflow RAG correctif et montrons que leurs avantages persistent lorsque le modèle peut demander itérativement des preuves supplémentaires. Nous obtenons une précision du contexte quasi parfaite (99 %), ce qui démontre que les systèmes RAG peuvent atteindre une précision de récupération extrêmement élevée avec la bonne combinaison d'hyperparamètres, avec des implications significatives pour les applications où la qualité de récupération impacte directement la performance des tâches en aval, comme le support aux décisions cliniques dans le domaine de la santé.
La prédiction de l'utilité des avis multimodaux (Multimodal Review Helpfulness Prediction, MRHP) est une tâche essentielle dans les systèmes de recommandation, en particulier sur les plateformes de commerce électronique. Déterminer l'utilité des avis générés par les utilisateurs améliore l'expérience utilisateur et facilite la prise de décision des consommateurs. Cependant, les ensembles de données existants se concentrent principalement sur l'anglais et l'indonésien, ce qui entraîne un manque de diversité linguistique, notamment pour les langues à ressources limitées comme le vietnamien. Dans cet article, nous présentons ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), un ensemble de données de référence à grande échelle pour la tâche de MRHP en vietnamien. Cet ensemble de données couvre quatre domaines, incluant 2 000 produits et 46 000 avis. Par ailleurs, la création d'un ensemble de données à grande échelle nécessite un temps et des coûts considérables. Pour optimiser le processus d'annotation, nous utilisons l'intelligence artificielle (IA) pour assister les annotateurs dans la construction de l'ensemble de données ViMRHP. Avec l'assistance de l'IA, le temps d'annotation est réduit (de 90 à 120 secondes par tâche à 20 à 40 secondes par tâche) tout en maintenant la qualité des données et en réduisant les coûts globaux d'environ 65 %. Cependant, les annotations générées par l'IA présentent encore des limites dans les tâches d'annotation complexes, que nous examinons plus en détail à travers une analyse de performance approfondie. Dans notre expérience sur ViMRHP, nous évaluons les modèles de base sur des annotations vérifiées par des humains et générées par l'IA pour mesurer les différences de qualité. L'ensemble de données ViMRHP est disponible publiquement à l'adresse suivante : https://github.com/trng28/ViMRHP.
Nous présentons WebApp1K, un nouveau benchmark pour évaluer les grands modèles de langage (LLM) dans des tâches de développement piloté par les tests (TDD), où les cas de test servent à la fois de prompt et de vérification pour la génération de code. Contrairement aux approches traditionnelles reposant sur des prompts en langage naturel, notre benchmark met l'accent sur la capacité des LLM à interpréter et implémenter des fonctionnalités directement à partir des cas de test, reflétant ainsi les pratiques réelles de développement logiciel. Composé de 1000 défis variés répartis sur 20 domaines d'application, le benchmark évalue les LLM sur leur capacité à générer un code compact et fonctionnel sous les contraintes de longueur de contexte et de complexité multi-fonctionnelle. Nos résultats mettent en évidence le suivi des instructions et l'apprentissage en contexte comme des capacités critiques pour le succès en TDD, surpassant l'importance de la compétence générale en codage ou des connaissances préalables. À travers une évaluation approfondie de 19 modèles de pointe, nous révélons des goulots d'étranglement de performance, tels que la perte d'instructions dans les prompts longs, et fournissons une analyse détaillée des erreurs couvrant de multiples causes racines. Ce travail souligne la valeur pratique des benchmarks spécifiques au TDD et pose les bases pour faire progresser les capacités des LLM dans des scénarios de codage rigoureux et axés sur les applications.