Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons BlenderFusion, un cadre de composition visuelle générative qui synthétise de nouvelles scènes en recomposant les objets, la caméra et l'arrière-plan. Il suit un pipeline de superposition-édition-composition : (i) segmentation et conversion des entrées visuelles en entités 3D modifiables (superposition), (ii) édition de ces entités dans Blender avec un contrôle ancré en 3D (édition), et (iii) fusion en une scène cohérente à l'aide d'un compositeur génératif (composition). Notre compositeur génératif étend un modèle de diffusion pré-entraîné pour traiter à la fois les scènes originales (source) et éditées (cible) en parallèle. Il est affiné sur des images vidéo avec deux stratégies d'entraînement clés : (i) masquage de la source, permettant des modifications flexibles comme le remplacement de l'arrière-plan ; (ii) simulation de tremblement d'objets, facilitant un contrôle dissocié sur les objets et la caméra. BlenderFusion surpasse significativement les méthodes antérieures dans les tâches complexes d'édition de scènes compositionnelles.
Dans cet article, nous présentons LLaVA-Scissor, une stratégie de compression de tokens sans apprentissage conçue pour les modèles de langage multimodaux de grande taille appliqués aux vidéos. Les méthodes précédentes tentent principalement de compresser les tokens en se basant sur les scores d'attention, mais échouent à capturer efficacement toutes les régions sémantiques et conduisent souvent à une redondance des tokens. À l'inverse, nous proposons d'exploiter l'approche des Composants Connexes Sémantiques (SCC) qui attribue les tokens à des régions sémantiques distinctes au sein de l'ensemble des tokens, garantissant ainsi une couverture sémantique exhaustive. Le résultat est une stratégie de compression spatio-temporelle des tokens en deux étapes qui utilise les SCC à la fois dans les domaines spatial et temporel. Cette stratégie permet de compresser efficacement les tokens en représentant l'intégralité de la vidéo par un ensemble de tokens sémantiques non superposés. Nous menons des évaluations approfondies des capacités de compression de tokens de LLaVA-Scissor sur divers benchmarks de compréhension vidéo, incluant la réponse à des questions sur des vidéos, la compréhension de vidéos longues et des benchmarks complets à choix multiples. Les résultats expérimentaux montrent que LLaVA-Scissor surpasse les autres méthodes de compression de tokens, obtenant des performances supérieures dans divers benchmarks de compréhension vidéo, en particulier à des ratios de rétention de tokens faibles. Page du projet : https://github.com/HumanMLLM/LLaVA-Scissor.
Atteindre un contrôle précis de l'identité du sujet et des attributs sémantiques (pose, style, éclairage) dans la génération d'images à partir de texte, en particulier pour plusieurs sujets, compromet souvent l'éditabilité et la cohérence des Transformers de Diffusion (DiTs). De nombreuses approches introduisent des artefacts ou souffrent d'un enchevêtrement des attributs. Pour surmonter ces défis, nous proposons un nouveau modèle de génération contrôlée multi-sujets appelé XVerse. En transformant des images de référence en décalages pour la modulation spécifique des tokens dans le flux textuel, XVerse permet un contrôle précis et indépendant pour un sujet spécifique sans perturber les latents ou les caractéristiques de l'image. Par conséquent, XVerse offre une synthèse d'images multi-sujets de haute fidélité et éditable avec un contrôle robuste des caractéristiques individuelles des sujets et des attributs sémantiques. Cette avancée améliore significativement les capacités de génération de scènes personnalisées et complexes.
La cinématographie, langage visuel fondamental du cinéma, est essentielle pour transmettre la narration, l'émotion et la qualité esthétique. Bien que les modèles vision-langage (VLMs) récents démontrent une compréhension visuelle générale robuste, leur capacité à saisir la grammaire cinématographique nuancée intégrée dans des plans individuels reste largement inexplorée et manque d'une évaluation solide. Cette lacune critique limite à la fois la compréhension visuelle fine et la précision de la génération vidéo assistée par l'IA. Pour y remédier, nous introduisons ShotBench, un benchmark complet spécialement conçu pour la compréhension du langage cinématographique. Il comprend plus de 3 500 paires de questions-réponses annotées par des experts, issues d'images et de clips vidéo soigneusement sélectionnés parmi plus de 200 films acclamés (principalement nominés aux Oscars) et couvrant huit dimensions clés de la cinématographie. Notre évaluation de 24 VLMs de pointe sur ShotBench révèle leurs limitations substantielles : même le modèle le plus performant atteint moins de 60 % de précision moyenne, peinant particulièrement avec les indices visuels fins et le raisonnement spatial complexe. Pour catalyser les avancées dans ce domaine, nous construisons ShotQA, un ensemble de données multimodal à grande échelle comprenant environ 70 000 paires de questions-réponses cinématographiques. En exploitant ShotQA, nous développons ShotVL grâce à un réglage fin supervisé et à l'optimisation de politique relative par groupe. ShotVL surpasse significativement tous les modèles open-source et propriétaires existants sur ShotBench, établissant de nouvelles performances de pointe. Nous rendons publics nos modèles, données et code pour favoriser des progrès rapides dans ce domaine crucial de la compréhension et de la génération cinématographique pilotée par l'IA.
Les modèles internes du monde (WMs) permettent aux agents de comprendre l'état du monde et de prédire les transitions, servant de base à un raisonnement délibératif avancé. Les récents grands modèles vision-langage (VLMs), tels qu'OpenAI o3, GPT-4o et Gemini, montrent un potentiel en tant que WMs à usage général. Bien que les dernières études aient évalué et révélé des limitations dans des capacités spécifiques telles que la compréhension visuelle, une évaluation systématique des capacités fondamentales des VLMs en tant que WMs fait encore défaut. S'inspirant de la psychologie comparative et des sciences cognitives, nous proposons un cadre en deux étapes qui évalue la Perception (visuelle, spatiale, temporelle, quantitative et du mouvement) et la Prédiction (simulation mécaniste, inférence transitive, inférence compositionnelle) pour fournir une évaluation atomique des VLMs en tant que WMs. Guidés par ce cadre, nous introduisons WM-ABench, un benchmark à grande échelle comprenant 23 dimensions d'évaluation fines réparties dans 6 environnements simulés diversifiés avec des simulations contrefactuelles contrôlées. À travers 660 expériences sur 15 VLMs commerciaux et open-source les plus récents, nous constatons que ces modèles présentent des limitations frappantes dans les capacités de modélisation du monde de base. Par exemple, presque tous les modèles obtiennent une précision proche du hasard lorsqu'il s'agit de distinguer des trajectoires de mouvement. De plus, ils manquent de compréhension désentrelacée -- par exemple, certains modèles ont tendance à croire que les objets bleus se déplacent plus vite que les objets verts. Des résultats et analyses plus riches révèlent des écarts significatifs entre les VLMs et la modélisation du monde au niveau humain.
Les tâches de prédiction dense revêtent une importance majeure en vision par ordinateur, visant à apprendre des annotations au niveau des pixels pour une image d'entrée. Malgré les avancées dans ce domaine, les méthodes existantes se concentrent principalement sur des conditions idéalisées, avec une généralisation limitée aux scénarios réels et faisant face à la pénurie problématique de données du monde réel. Pour étudier systématiquement ce problème, nous introduisons d'abord DenseWorld, un benchmark couvrant un large ensemble de 25 tâches de prédiction dense correspondant à des applications urgentes du monde réel, avec une évaluation unifiée entre les tâches. Ensuite, nous proposons DenseDiT, qui exploite au maximum les préalables visuels des modèles génératifs pour effectuer diverses tâches de prédiction dense du monde réel à travers une stratégie unifiée. DenseDiT combine un mécanisme de réutilisation des paramètres et deux branches légères qui intègrent de manière adaptative le contexte multi-échelle, fonctionnant avec moins de 0,1 % de paramètres supplémentaires. Les évaluations sur DenseWorld révèlent des baisses significatives de performance des bases de référence générales et spécialisées existantes, mettant en évidence leur généralisation limitée au monde réel. En revanche, DenseDiT obtient des résultats supérieurs en utilisant moins de 0,01 % des données d'entraînement des bases de référence, soulignant sa valeur pratique pour un déploiement dans le monde réel. Nos données, ainsi que les points de contrôle et les codes, sont disponibles à l'adresse suivante : https://xcltql666.github.io/DenseDiTProj.
La robotique a réalisé des avancées matérielles remarquables, des défis urbains et robotiques de la DARPA au premier tournoi de kickboxing entre robots humanoïdes. Pourtant, l'autonomie commerciale reste à la traîne par rapport aux progrès de l'apprentissage automatique. Un goulot d'étranglement majeur réside dans les logiciels : les piles logicielles actuelles pour robots exigent des courbes d'apprentissage abruptes, une expertise en C/C++ de bas niveau, des outils fragmentés et une intégration matérielle complexe, en contraste flagrant avec les écosystèmes centrés sur Python et bien documentés qui ont propulsé l'IA moderne. Nous présentons ARK, un framework robotique open-source axé sur Python, conçu pour combler cet écart. ARK propose une interface d'environnement de type Gym qui permet aux utilisateurs de collecter des données, de les prétraiter et d'entraîner des politiques à l'aide d'algorithmes d'apprentissage par imitation de pointe (par exemple, ACT, Diffusion Policy), tout en basculant de manière transparente entre une simulation haute fidélité et des robots physiques. Une architecture client-serveur légère assure une communication réseau de type éditeur-abonné, et des liaisons optionnelles en C/C++ garantissent des performances en temps réel lorsque nécessaire. ARK est livré avec des modules réutilisables pour le contrôle, la SLAM, la planification de mouvement, l'identification de systèmes et la visualisation, ainsi qu'une interopérabilité native avec ROS. Une documentation complète et des études de cas, allant de la manipulation à la navigation mobile, démontrent un prototypage rapide, un échange de matériel sans effort et des pipelines de bout en bout qui rivalisent avec la commodité des workflows d'apprentissage automatique grand public. En unifiant les pratiques de la robotique et de l'IA sous un même parapluie Python, ARK réduit les barrières à l'entrée et accélère la recherche et le déploiement commercial de robots autonomes.
L'émergence des Mixtures of Experts (MoE) dans les grands modèles de langage promet un faible coût d'exécution pour un nombre de paramètres et une capacité d'apprentissage bien plus importants, car seule une petite fraction des paramètres est activée pour chaque token d'entrée. Cependant, il est fréquemment observé que certains experts sont activés beaucoup plus souvent que d'autres, ce qui entraîne une inefficacité du système lors de l'exécution parallèle des experts sur différents dispositifs. Par conséquent, nous introduisons la Mixture of Grouped Experts (MoGE), qui regroupe les experts lors de la sélection et équilibre naturellement mieux la charge de travail des experts que le MoE. Elle contraint les tokens à activer un nombre égal d'experts au sein de chaque groupe d'experts prédéfini. Lorsque l'exécution d'un modèle est distribuée sur plusieurs dispositifs, cette conception architecturale garantit une charge de calcul équilibrée entre les dispositifs, améliorant significativement le débit, en particulier pour la phase d'inférence. De plus, nous avons développé Pangu Pro MoE sur les NPU Ascend, un modèle sparse basé sur MoGE avec 72 milliards de paramètres au total, dont 16 milliards sont activés pour chaque token. La configuration de Pangu Pro MoE est optimisée pour les Ascend 300I Duo et 800I A2 grâce à des études approfondies de simulation système. Nos expériences indiquent que MoGE conduit effectivement à un meilleur équilibrage de la charge des experts et à une exécution plus efficace, tant pour l'entraînement que pour l'inférence du modèle sur les NPU Ascend. Les performances d'inférence de Pangu Pro MoE atteignent 1148 tokens/s par carte et peuvent être encore améliorées à 1528 tokens/s par carte grâce à l'accélération spéculative, surpassant les modèles Dense comparables de 32B et 72B. De plus, nous obtenons un excellent rapport coût-performance pour l'inférence du modèle sur l'Ascend 300I Duo. Nos études montrent que les NPU Ascend sont capables d'entraîner Pangu Pro MoE avec une parallélisation massive, en faisant un modèle de premier plan dans la classe des modèles à moins de 100 milliards de paramètres, surpassant des modèles open-source renommés comme GLM-Z1-32B et Qwen3-32B.
Les récents progrès dans le domaine de la modélisation générative profonde ont ouvert des opportunités sans précédent pour la synthèse vidéo. Cependant, dans les applications réelles, les utilisateurs recherchent souvent des outils pour réaliser fidèlement leurs intentions créatives d'édition avec un contrôle précis et cohérent. Malgré les avancées réalisées par les méthodes existantes, garantir un alignement fin avec les intentions des utilisateurs reste un problème ouvert et complexe. Dans ce travail, nous présentons Shape-for-Motion, un nouveau cadre qui intègre un proxy 3D pour une édition vidéo précise et cohérente. Shape-for-Motion y parvient en convertissant l'objet cible dans la vidéo d'entrée en un maillage temporellement cohérent, c'est-à-dire un proxy 3D, permettant ainsi d'effectuer des modifications directement sur le proxy, puis de les inférer sur les images vidéo. Pour simplifier le processus d'édition, nous concevons une nouvelle Stratégie de Double Propagation qui permet aux utilisateurs d'effectuer des modifications sur le maillage 3D d'une seule image, ces modifications étant ensuite automatiquement propagées aux maillages 3D des autres images. Les maillages 3D pour différentes images sont ensuite projetés dans l'espace 2D pour produire les rendus de géométrie et de texture édités, qui servent d'entrées à un modèle de diffusion vidéo découplé pour générer les résultats édités. Notre cadre prend en charge diverses manipulations précises et physiquement cohérentes à travers les images vidéo, y compris l'édition de pose, la rotation, la mise à l'échelle, la translation, la modification de texture et la composition d'objets. Notre approche marque une étape clé vers des workflows d'édition vidéo de haute qualité et contrôlables. Des expériences approfondies démontrent la supériorité et l'efficacité de notre approche. Page du projet : https://shapeformotion.github.io/
Les modèles actuels de vision et langage (VLMs) rencontrent des difficultés dans le raisonnement spatial à granularité fine, en particulier lorsque des étapes logiques multiples et un alignement spatial précis sont nécessaires. Dans ce travail, nous présentons SpatialReasoner-R1, un modèle de raisonnement vision-langage conçu pour surmonter ces limitations. Pour construire une supervision de haute qualité pour le raisonnement spatial, nous concevons une méthode de recherche arborescente Monte Carlo multi-modèle (M3CTS) qui génère des trajectoires de raisonnement Long Chain-of-Thought (LongCoT) diversifiées et logiquement cohérentes. De plus, nous proposons une optimisation fine des préférences directes (fDPO), qui introduit une granularité spécifique aux segments pour l'ancrage descriptif et le raisonnement logique, guidée par un mécanisme de récompense spatiale qui évalue les réponses candidates en fonction de la cohérence visuelle, de l'ancrage spatial et de la cohérence logique. Les résultats expérimentaux montrent que fDPO améliore en moyenne de 4,1 % par rapport à la DPO standard dans les tâches de qualité spatiale, et de 9,0 % dans les tâches de quantité spatiale. SpatialReasoner-R1, entraîné avec fDPO, établit un nouveau record sur SPATIALRGPT-Bench, surpassant le meilleur modèle de référence de 9,8 % en précision moyenne, tout en maintenant des performances compétitives dans les tâches générales de vision et langage.
Ce travail explore l'activation du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) pour relier des indices visuels à travers plusieurs images. Une solution directe consiste à adapter l'apprentissage par renforcement basé sur des règles pour les modèles vision-langage (Vision-Language Models, VLMs). Cependant, ces méthodes reposent généralement sur des paires question-réponse soigneusement sélectionnées manuellement, ce qui peut s'avérer particulièrement difficile lorsqu'il s'agit de détails visuels fins et de logiques complexes entre images. Inspirés par l'apprentissage auto-supervisé de représentations visuelles, nous observons que les images contiennent des contraintes intrinsèques pouvant servir de supervision. Sur la base de cette observation, nous construisons des triplets d'images comprenant deux vues augmentées de la même image et une troisième image similaire mais distincte. Pendant l'entraînement, le modèle est incité à générer un processus de raisonnement pour comparer ces images (c'est-à-dire déterminer si elles sont identiques ou différentes). Ensuite, nous optimisons le modèle avec un apprentissage par renforcement basé sur des règles. En raison de la forte similarité visuelle et de la présence d'augmentations, le modèle doit prêter attention à des changements visuels subtils et effectuer un raisonnement logique pour réussir. Les expériences montrent que, bien qu'entraîné uniquement sur des tâches de comparaison visuelle, la capacité de raisonnement apprise se généralise efficacement à une large gamme de questions. Sans s'appuyer sur aucune paire question-réponse annotée par des humains, notre méthode obtient des améliorations significatives sur des benchmarks de raisonnement multi-images et démontre de solides performances sur des tâches de vision générale.
Les avancées rapides des grands modèles de langage (LLMs) ont le potentiel de contribuer au progrès scientifique. Une capacité essentielle pour cet objectif est la possibilité de reproduire des travaux existants. Pour évaluer la capacité des agents d'IA à reproduire des résultats dans un domaine de recherche actif, nous introduisons le benchmark Automatisé de Speedrunning pour LLM, en exploitant les contributions de la communauté de recherche sur le speedrun NanoGPT, une compétition visant à entraîner un modèle GPT-2 dans le temps le plus court. Chacune des 19 tâches de speedrun fournit à l'agent le script d'entraînement des records précédents, éventuellement accompagné de l'un des trois formats d'indices, allant du pseudocode à des descriptions détaillées des améliorations des nouveaux records. Les records sont conçus pour s'exécuter rapidement, et les améliorations de speedrun englobent divers changements au niveau du code, allant des avancées algorithmiques de haut niveau aux optimisations tenant compte du matériel. Ces caractéristiques rendent le benchmark à la fois accessible et réaliste pour le problème de pointe qu'est l'amélioration de l'entraînement des LLMs. Nous constatons que les LLMs récents combinés avec des échafaudages de pointe peinent à réimplémenter des innovations déjà connues dans notre benchmark, même lorsqu'ils reçoivent des indices détaillés. Notre benchmark fournit ainsi une mesure simple et non saturée de la capacité d'un LLM à automatiser la reproduction scientifique, une compétence nécessaire (mais non suffisante) pour un agent de recherche autonome.
Les modèles de vision et langage (VLMs) peuvent-ils imaginer une scène complète à partir de quelques vues seulement, comme le font les humains ? Les humains forment des modèles mentaux spatiaux, des représentations internes de l'espace non visible, pour raisonner sur la disposition, la perspective et le mouvement. Notre nouveau benchmark MindCube, avec 21 154 questions réparties sur 3 268 images, met en lumière cette lacune critique, où les VLMs existants affichent des performances quasi aléatoires. En utilisant MindCube, nous évaluons systématiquement dans quelle mesure les VLMs construisent des modèles mentaux spatiaux robustes en représentant les positions (cartographie cognitive), les orientations (prise de perspective) et les dynamiques (simulation mentale pour les mouvements "et si"). Nous explorons ensuite trois approches pour aider les VLMs à approximer des modèles mentaux spatiaux, incluant des vues intermédiaires non visibles, des chaînes de raisonnement en langage naturel et des cartes cognitives. L'amélioration significative provient d'une approche synergique, "cartographier puis raisonner", qui entraîne conjointement le modèle à générer d'abord une carte cognitive puis à raisonner sur celle-ci. En entraînant les modèles à raisonner sur ces cartes internes, nous avons augmenté la précision de 37,8 % à 60,8 % (+23,0 %). L'ajout de l'apprentissage par renforcement a encore poussé les performances à 70,7 % (+32,9 %). Notre idée clé est qu'un tel échafaudage de modèles mentaux spatiaux, construisant et utilisant activement des représentations spatiales structurées internes avec des processus de raisonnement flexibles, améliore significativement la compréhension de l'espace non observable.
L'apprentissage multimodal en contexte (ICL) reste sous-exploré malgré un potentiel significatif pour des domaines tels que la médecine. Les cliniciens sont régulièrement confrontés à des tâches diversifiées et spécialisées nécessitant une adaptation à partir d'exemples limités, comme tirer des enseignements de quelques cas antérieurs pertinents ou considérer un ensemble restreint de diagnostics différentiels. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) aient montré des avancées dans les tâches de question-réponse visuelle (VQA) en médecine, leur capacité à apprendre des tâches multimodales à partir du contexte reste largement inconnue. Nous présentons SMMILE, le premier benchmark expertisé d'ICL multimodal pour des tâches médicales. Onze experts médicaux ont sélectionné des problèmes, chacun incluant une requête multimodale et des exemples multimodaux en contexte comme démonstrations de tâches. SMMILE englobe 111 problèmes (517 triplets question-image-réponse) couvrant 6 spécialités médicales et 13 modalités d'imagerie. Nous introduisons également SMMILE++, une variante augmentée avec 1038 problèmes permutés. Une évaluation approfondie de 15 MLLMs démontre que la plupart des modèles présentent une capacité d'ICL multimodale modérée à faible dans les tâches médicales. Dans les évaluations à réponse ouverte, l'ICL ne contribue qu'à une amélioration moyenne de 8 % par rapport au zero-shot sur SMMILE et de 9,4 % sur SMMILE++. Nous observons une sensibilité aux exemples en contexte non pertinents : même un seul exemple bruité ou non pertinent peut dégrader les performances jusqu'à 9,5 %. De plus, l'ordre des exemples montre un biais de récence, c'est-à-dire que placer l'exemple le plus pertinent en dernier peut entraîner des améliorations substantielles des performances jusqu'à 71 %. Nos résultats mettent en lumière des limitations et des biais critiques des MLLMs actuels dans l'apprentissage de tâches médicales multimodales à partir du contexte.
Les travaux récents analysant l'apprentissage en contexte (ICL) ont identifié un ensemble varié de stratégies décrivant le comportement des modèles dans différentes conditions expérimentales. Nous cherchons à unifier ces résultats en nous demandant pourquoi un modèle apprend ces stratégies disparates en premier lieu. Plus précisément, nous partons de l'observation que, lorsqu'il est entraîné à apprendre un mélange de tâches, comme c'est courant dans la littérature, les stratégies apprises par un modèle pour réaliser l'ICL peuvent être capturées par une famille de prédicteurs bayésiens : un prédicteur mémorisant, qui suppose un a priori discret sur l'ensemble des tâches vues, et un prédicteur généralisant, où l'a priori correspond à la distribution sous-jacente des tâches. En adoptant la perspective normative de l'analyse rationnelle, où le comportement d'un apprenant est expliqué comme une adaptation optimale aux données compte tenu des contraintes computationnelles, nous développons un cadre bayésien hiérarchique qui prédit presque parfaitement les prédictions de token suivant des Transformers tout au long de l'entraînement — sans supposer l'accès à leurs poids. Dans ce cadre, le pré-entraînement est vu comme un processus de mise à jour de la probabilité a posteriori de différentes stratégies, et le comportement au moment de l'inférence comme une moyenne pondérée par l'a posteriori des prédictions de ces stratégies. Notre cadre s'appuie sur des hypothèses communes concernant la dynamique d'apprentissage des réseaux de neurones, qui rendent explicite un compromis entre la perte et la complexité parmi les stratégies candidates : au-delà de sa capacité à expliquer les données, la préférence d'un modèle pour implémenter une stratégie est dictée par sa complexité. Cela aide à expliquer des phénomènes bien connus de l'ICL, tout en offrant de nouvelles prédictions : par exemple, nous montrons une tendance superlinéaire dans l'échelle de temps pour la transition de la généralisation à la mémorisation à mesure que la diversité des tâches augmente. Globalement, notre travail propose une explication et une prédiction de l'ICL ancrées dans des compromis entre la perte et la complexité des stratégies.
Nous présentons Gazal-R1, un modèle de langage de 32 milliards de paramètres qui atteint des performances de pointe en raisonnement médical tout en fournissant des explications transparentes et étape par étape pour la prise de décision clinique. Basé sur Qwen3 32B, notre modèle démontre qu'un entraînement stratégique peut permettre à des modèles de taille moyenne de surpasser des modèles nettement plus grands dans des domaines spécialisés. Nous avons développé un pipeline d'entraînement innovant en deux étapes : premièrement, un fine-tuning supervisé sur un ensemble de données soigneusement sélectionné de 107 033 exemples synthétiques de raisonnement médical qui enseigne une pensée clinique structurée, renforcée par des techniques avancées d'adaptation efficace des paramètres, notamment la Weight-Decomposed Low-Rank Adaptation (DoRA) et la Rank-Stabilized LoRA (rsLoRA) ; deuxièmement, un apprentissage par renforcement utilisant la Group Relative Policy Optimization (GRPO) avec un système de récompense multicomposant sophistiqué qui affine la précision, le respect du format et la qualité du raisonnement. Gazal-R1 obtient des performances exceptionnelles sur les benchmarks médicaux, avec des scores de 87,1 % sur MedQA, 81,6 % sur MMLU Pro (Medical) et 79,6 % sur PubMedQA, surpassant des modèles jusqu'à 12 fois plus grands. Au-delà de ses solides résultats empiriques, ce travail offre des insights détaillés sur les défis de l'entraînement de modèles capables de raisonner dans des domaines spécialisés, notamment les problèmes de récompense abusive, d'instabilité de l'entraînement et la tension fondamentale entre la mémorisation des faits et le raisonnement détaillé. Notre méthodologie propose un cadre reproductible pour développer des modèles de langage à haute capacité, spécifiques à un domaine, qui équilibrent performance, efficacité et explicabilité.
La plupart des modèles de langage sont confrontés à un compromis fondamental : des capacités puissantes nécessitent des ressources computationnelles substantielles. Nous brisons cette contrainte avec Jan-nano, un modèle de langage de 4 milliards de paramètres qui redéfinit l'efficacité grâce à une spécialisation radicale : au lieu de chercher à tout savoir, il maîtrise l'art de trouver instantanément n'importe quoi. Affiné à partir de Qwen3-4B en utilisant notre système RLVR multi-étapes innovant, qui élimine complètement la dépendance à l'entraînement par prédiction du token suivant (SFT), Jan-nano atteint 83,2 % sur le benchmark SimpleQA avec l'intégration MCP tout en fonctionnant sur du matériel grand public. Avec une longueur de contexte de 128K, Jan-nano démontre que l'intelligence ne réside pas dans l'échelle, mais dans la stratégie.
La quête d'une génération de contenu de haute qualité, efficace et contrôlable demeure un défi central dans le domaine du contenu généré par l'intelligence artificielle (AIGC). Bien que les générateurs en une seule étape, rendus possibles par les techniques de distillation de diffusion, offrent une excellente qualité de génération et une efficacité computationnelle, leur adaptation à de nouvelles conditions de contrôle—telles que des contraintes structurelles, des directives sémantiques ou des entrées externes—représente un défi majeur. Les approches conventionnelles nécessitent souvent des modifications coûteuses en termes de calculs au modèle de base, suivies d'une distillation de diffusion. Cet article présente le Noise Consistency Training (NCT), une approche novatrice et légère pour intégrer directement de nouveaux signaux de contrôle dans des générateurs pré-entraînés en une seule étape, sans nécessiter l'accès aux images d'entraînement originales ni le réentraînement du modèle de diffusion de base. NCT fonctionne en introduisant un module d'adaptation et en utilisant une perte de cohérence du bruit dans l'espace de bruit du générateur. Cette perte aligne le comportement de génération du modèle adapté sur des bruits qui sont conditionnellement dépendants à des degrés variés, guidant implicitement le modèle à respecter le nouveau contrôle. Théoriquement, cet objectif d'entraînement peut être compris comme la minimisation de la distance distributionnelle entre le générateur adapté et la distribution conditionnelle induite par les nouvelles conditions. NCT est modulaire, économe en données et facilement déployable, reposant uniquement sur le générateur pré-entraîné en une seule étape et un modèle de signal de contrôle. Des expériences approfondies démontrent que NCT atteint un état de l'art en génération contrôlable en une seule passe avant, surpassant les méthodes existantes basées sur plusieurs étapes et la distillation, tant en qualité de génération qu'en efficacité computationnelle. Le code est disponible à l'adresse suivante : https://github.com/Luo-Yihong/NCT.
Nous présentons Confucius3-Math, un modèle de langage open-source de grande envergure avec 14 milliards de paramètres qui (1) fonctionne efficacement sur un seul GPU grand public ; (2) atteint des performances de pointe sur une gamme de tâches de raisonnement mathématique, surpassant de nombreux modèles de taille nettement plus importante. Dans le cadre de notre mission visant à améliorer l'éducation et la diffusion des connaissances grâce à l'IA, Confucius3-Math est spécifiquement dédié à l'apprentissage des mathématiques pour les élèves et éducateurs chinois du primaire et du secondaire (K-12). Développé via un post-entraînement avec un apprentissage par renforcement (RL) à grande échelle, Confucius3-Math s'aligne sur le programme national et excelle dans la résolution des problèmes mathématiques courants du K-12 chinois à faible coût. Dans ce rapport, nous partageons notre méthode de développement, les défis rencontrés et les techniques développées pour les surmonter. Nous introduisons en particulier trois innovations techniques : la Régularisation d'Entropie Ciblée, la Récupération d'Échantillons Récents et la Pondération de Difficulté Spécifique à la Politique. Ces innovations incluent une nouvelle régularisation d'entropie, une politique de planification des données inédite et un estimateur d'avantage relatif par groupe amélioré. Ensemble, elles stabilisent significativement l'entraînement RL, améliorent l'efficacité des données et boostent les performances. Notre travail démontre la faisabilité de construire des modèles de raisonnement puissants dans un domaine spécifique à faible coût. Nous mettons à disposition notre modèle et notre code à l'adresse suivante : https://github.com/netease-youdao/Confucius3-Math.
Dans de nombreuses industries, la prédiction des résultats métriques de grands systèmes constitue un problème fondamental, principalement abordé par la régression tabulaire traditionnelle. Cependant, ces méthodes peinent à traiter les données complexes des systèmes en conditions réelles, telles que les fichiers de configuration ou les journaux système, où l'ingénierie des caractéristiques est souvent irréalisable. Nous proposons la régression texte-à-texte comme alternative générale et évolutive. Pour prédire l'efficacité des ressources sur Borg, le système massif de planification de clusters de calcul de Google, un modèle encodeur-décodeur de 60 millions de paramètres, entraîné à partir d'une initialisation aléatoire, atteint une corrélation de rang quasi parfaite de 0,99 (0,9 en moyenne) sur l'ensemble de la flotte, et une erreur quadratique moyenne 100 fois inférieure à celle des approches tabulaires. Le modèle s'adapte également facilement à de nouvelles tâches avec seulement 500 exemples en apprentissage peu supervisé et capture les densités des distributions complexes des résultats. Les études d'ablation mettent en évidence l'importance de l'utilisation des encodeurs, de l'augmentation de la longueur des séquences et de la quantification intrinsèque de l'incertitude du modèle. Ces découvertes ouvrent la voie à des simulateurs universels des résultats du monde réel.
Les modèles de langage modernes de grande taille, tels que les séries LLaMA, Qwen et DeepSeek, adoptent principalement l'architecture Transformer avec Pre-LayerNorm (Pre-LN). Bien que stable lors du pré-entraînement et adaptable à des tailles de modèles importantes, Pre-LN souffre d'une croissance exponentielle de la variance des activations à travers les couches, ce qui entraîne une domination du chemin résiduel sur les sorties des sous-couches et limite la capacité d'apprentissage des couches plus profondes. Pour atténuer ce problème, nous proposons le Gradient-Preserving Activation Scaling (GPAS), une technique simple pouvant être combinée avec des approches existantes. GPAS fonctionne en réduisant l'échelle des activations intermédiaires tout en conservant leurs gradients inchangés. Cela préserve l'information contenue dans les activations et évite le problème de disparition des gradients associé à la réduction d'échelle des gradients. Des expériences approfondies sur diverses tailles de modèles, allant de 71M à 1B, montrent que GPAS permet des gains de performance constants. Au-delà de l'amélioration des Transformers Pre-LN, GPAS montre également un potentiel pour améliorer des architectures alternatives telles que Sandwich-LN et DeepNorm, démontrant ainsi sa polyvalence et son potentiel pour optimiser la dynamique d'entraînement dans un large éventail de configurations.
L'essor des techniques d'imagerie telles que la tomographie par cohérence optique (OCT) et les avancées en apprentissage profond (DL) ont permis aux cliniciens et aux chercheurs de rationaliser la stadification des maladies rétiniennes. Une approche DL populaire est l'apprentissage auto-supervisé (SSL), où les modèles apprennent à partir de vastes quantités de données non étiquetées, évitant ainsi l'annotation coûteuse. Le SSL a permis le développement de modèles de base (FMs), des modèles de grande taille qui peuvent être utilisés pour diverses tâches en aval. Cependant, les FMs existants pour l'OCT, entraînés uniquement sur des données d'images, manquent d'une compréhension sémantique complète et robuste des images, comme en témoigne leur performance en aval (en particulier pour les tâches complexes), et nécessitent donc un ajustement supervisé (qui peut être irréalisable) pour mieux s'adapter à des applications et populations spécifiques. Pour remédier à cela, nous proposons RetFiner, un schéma de raffinement SSL vision-langage qui améliore les représentations des FMs existants et permet leur adaptation efficace et directe à des populations spécifiques pour une meilleure performance en aval. Notre méthode utilise un ensemble diversifié d'objectifs d'entraînement qui tirent parti du riche signal de supervision trouvé dans les données textuelles. Nous avons testé RetFiner sur les FMs rétiniens RETFound, UrFound et VisionFM, montrant des améliorations significatives dans la performance de sondage linéaire sur sept tâches de classification OCT très diversifiées, avec une augmentation moyenne de 5,8, 3,9 et 2,1 points de pourcentage par rapport à leurs lignes de base, respectivement. Notre code et les poids des modèles sont disponibles publiquement à l'adresse https://github.com/ronnief1/RetFiner.
L'apprentissage de la structure hiérarchique des données dans les modèles vision-langage représente un défi majeur. Les travaux précédents ont tenté de relever ce défi en utilisant l'apprentissage par implication. Cependant, ces approches ne parviennent pas à modéliser explicitement la nature transitive de l'implication, qui établit la relation entre l'ordre et la sémantique dans un espace de représentation. Dans ce travail, nous introduisons Radial Cross-Modal Embeddings (RCME), un cadre permettant la modélisation explicite de l'implication renforcée par transitivité. Notre cadre proposé optimise l'ordre partiel des concepts au sein des modèles vision-langage. En exploitant notre cadre, nous développons un modèle de base vision-langage hiérarchique capable de représenter la hiérarchie dans l'Arbre de la Vie. Nos expériences sur des tâches de classification hiérarchique des espèces et de récupération hiérarchique démontrent la performance accrue de nos modèles par rapport aux modèles de pointe existants. Notre code et nos modèles sont open-source à l'adresse https://vishu26.github.io/RCME/index.html.
Nous présentons TAPAS (Task-based Adaptation and Planning using AgentS), un cadre multi-agent qui intègre des modèles de langage de grande taille (LLMs) à la planification symbolique pour résoudre des tâches complexes sans nécessiter de modèles d'environnement définis manuellement. TAPAS utilise des agents spécialisés basés sur des LLMs qui collaborent pour générer et adapter des modèles de domaine, des états initiaux et des spécifications d'objectifs au besoin, en utilisant des mécanismes structurés d'appel d'outils. Grâce à cette interaction basée sur des outils, les agents en aval peuvent demander des modifications aux agents en amont, permettant ainsi une adaptation à de nouveaux attributs et contraintes sans re-définition manuelle du domaine. Un agent d'exécution de style ReAct (Reason+Act), couplé à une traduction de plans en langage naturel, comble l'écart entre les plans générés dynamiquement et les capacités réelles des robots. TAPAS démontre des performances solides dans des domaines de planification de référence ainsi que dans l'environnement simulé VirtualHome.
Le calcul au moment du test est apparu comme un paradigme puissant pour améliorer les performances des grands modèles de langage (LLMs), où la génération de multiples sorties ou l'affinement de chaînes de raisonnement individuelles peut considérablement augmenter la précision des réponses. Cependant, les méthodes existantes comme Best-of-N, le vote majoritaire et l'auto-réflexion appliquent généralement un raisonnement de manière uniforme à travers les entrées, négligeant le fait que différents problèmes peuvent nécessiter des niveaux de profondeur de raisonnement variés. Dans ce travail, nous proposons le Raisonnement Fractionnel, un cadre sans apprentissage et indépendant du modèle qui permet un contrôle continu de l'intensité du raisonnement au moment de l'inférence, dépassant les limites des instructions fixes. Notre méthode fonctionne en extrayant le vecteur de pilotage latent associé à un raisonnement plus profond et en le réappliquant avec un facteur d'échelle ajustable, permettant au modèle d'adapter son processus de raisonnement à la complexité de chaque entrée. Cela soutient deux modes clés de mise à l'échelle au moment du test : (1) améliorer la qualité des sorties dans les stratégies basées sur la largeur (par exemple, Best-of-N, vote majoritaire), et (2) renforcer la justesse des chaînes de raisonnement individuelles dans les stratégies basées sur la profondeur (par exemple, l'auto-réflexion). Les expériences sur GSM8K, MATH500 et GPQA démontrent que le Raisonnement Fractionnel améliore systématiquement les performances à travers diverses tâches de raisonnement et modèles.