Articles de recherche IA sélectionnés quotidiennement avec traductions
Bien que les grands modèles de langage (LLM) montrent un potentiel prometteur pour la découverte scientifique, les recherches existantes se concentrent sur l'inférence ou l'apprentissage par rétroaction, laissant la modélisation directe du processus de raisonnement génératif, P(hypothèse|contexte) (P(h|c)), inexplorée. Nous démontrons qu'entraîner directement P(h|c) est mathématement intraitable en raison de la complexité combinatoire (O(N^k)) inhérente à la récupération et à la composition d'inspirations à partir d'une vaste base de connaissances. Pour franchir cette barrière, nous présentons MOOSE-Star, un cadre unifié permettant un apprentissage traitable et une inférence scalable. Dans le meilleur des cas, MOOSE-Star réduit la complexité d'exponentielle à logarithmique (O(log N)) en (1) s'entraînant sur des sous-tâches décomposées dérivées de l'équation probabiliste de la découverte, (2) employant une recherche hiérarchique guidée par la motivation pour permettre une récupération logarithmique et élaguer les sous-espaces non pertinents, et (3) utilisant une composition bornée pour la robustesse face au bruit de récupération. Pour faciliter cela, nous publions TOMATO-Star, un jeu de données de 108 717 articles décomposés (38 400 heures GPU) pour l'entraînement. De plus, nous montrons que si l'échantillonnage par force brute atteint un « mur de complexité », MOOSE-Star présente une scalabilité continue au moment du test.
Les agents d'IA actuels peuvent invoquer des outils avec flexibilité et exécuter des tâches complexes, mais leur progression à long terme est entravée par l'absence d'accumulation et de transfert systématiques des compétences. Sans mécanisme unifié de consolidation des compétences, les agents « réinventent fréquemment la roue », redécouvrant des solutions dans des contextes isolés sans tirer parti des stratégies antérieures. Pour surmonter cette limitation, nous présentons SkillNet, une infrastructure ouverte conçue pour créer, évaluer et organiser des compétences d'IA à grande échelle. SkillNet structure les compétences au sein d'une ontologie unifiée qui prend en charge la création de compétences à partir de sources hétérogènes, établit des relations riches et effectue une évaluation multidimensionnelle couvrant la Sécurité, l'Exhaustivité, l'Exécutabilité, la Maintenabilité et la Conscience des coûts. Notre infrastructure intègre un référentiel de plus de 200 000 compétences, une plateforme interactive et une boîte à outils Python polyvalente. Les évaluations expérimentales sur ALFWorld, WebShop et ScienceWorld démontrent que SkillNet améliore significativement les performances des agents, augmentant les récompenses moyennes de 40 % et réduisant les étapes d'exécution de 30 % sur plusieurs modèles de base. En formalisant les compétences comme des actifs évolutifs et composables, SkillNet fournit une base robuste permettant aux agents de passer d'une expérience transitoire à une maîtrise durable.
Les agents de grands modèles de langage (LLM) peuvent automatiser les flux de travail de science des données, mais de nombreuses méthodes statistiques rigoureuses implémentées en R restent sous-utilisées car les LLM peinent avec les connaissances statistiques et la recherche d'outils. Les approches existantes à base de retrieval se concentrent sur la sémantique au niveau fonctionnel et ignorent la distribution des données, produisant des correspondances sous-optimales. Nous proposons DARE (Distribution-Aware Retrieval Embedding), un modèle de recherche léger et plug-and-play qui intègre des informations sur la distribution des données dans les représentations des fonctions pour la recherche de packages R. Nos principales contributions sont : (i) RPKB, une base de connaissances de packages R soigneusement constituée à partir de 8 191 packages CRAN de haute qualité ; (ii) DARE, un modèle d'embedding qui fusionne les caractéristiques distributionnelles avec les métadonnées des fonctions pour améliorer la pertinence de la recherche ; et (iii) RCodingAgent, un agent LLM orienté R pour la génération fiable de code R et une suite de tâches d'analyse statistique pour évaluer systématiquement les agents LLM dans des scénarios analytiques réalistes. Empiriquement, DARE atteint un NDCG à 10 de 93,47 %, surpassant les modèles d'embedding open-source de pointe jusqu'à 17 % sur la recherche de packages tout en utilisant beaucoup moins de paramètres. L'intégration de DARE dans RCodingAgent entraîne des gains significatifs sur les tâches d'analyse en aval. Ce travail contribue à réduire l'écart entre l'automatisation par LLM et l'écosystème statistique mature de R.
Les agents multimodaux en conditions réelles résolvent des workflows multi-étapes fondés sur des preuves visuelles. Par exemple, un agent peut diagnostiquer un appareil en reliant une photo de câblage à un schéma et valider la réparation avec une documentation en ligne, ou planifier un voyage en interprétant un plan de transport et en vérifiant les horaires sous contraintes d'itinéraire. Cependant, les benchmarks multimodaux existants évaluent principalement le raisonnement visuel en un seul tour ou des compétences spécifiques d'utilisation d'outils, sans capturer pleinement le réalisme, la subtilité visuelle et l'utilisation d'outils à long horizon que requièrent les agents pratiques. Nous présentons AgentVista, un benchmark pour agents multimodaux généralistes couvrant 25 sous-domaines répartis en 7 catégories, associant des scénarios visuels réalistes et riches en détails à une utilisation hybride naturelle d'outils. Les tâches nécessitent des interactions prolongées avec des outils multimodaux, incluant la recherche web, la recherche d'images, la navigation de pages et des opérations basées sur le code pour le traitement d'images et la programmation générale. L'évaluation exhaustive des modèles les plus avancés révèle des lacunes importantes dans leur capacité à réaliser une utilisation multimodale d'outils sur le long terme. Même le meilleur modèle de notre évaluation, Gemini-3-Pro avec outils, n'atteint que 27,3 % de précision globale, et les instances difficiles peuvent nécessiter plus de 25 appels d'outils. Nous estimons qu'AgentVista accélérera le développement d'agents multimodaux plus compétents et fiables pour une résolution de problèmes réaliste et ultra-complexe.
L'expansion de l'apprentissage par imitation est fondamentalement limitée par l'efficacité de la collecte des données. Bien que les interfaces portables soient apparues comme une solution évolutive pour l'acquisition de données en conditions réelles, elles fonctionnent principalement en boucle ouverte : les opérateurs collectent des démonstrations de manière aveugle sans connaître les faiblesses de la politique sous-jacente, ce qui entraîne une couverture inefficace des distributions d'états critiques. À l'inverse, des méthodes interactives comme DAgger abordent efficacement le décalage covariable mais reposent sur l'exécution physique du robot, ce qui est coûteux et difficile à mettre à l'échelle. Pour concilier ce compromis, nous présentons RoboPocket, un système portable qui permet une Itération de Politique Instantanée Sans Robot en utilisant un simple smartphone grand public. Son innovation principale est un cadre d'Inférence à Distance qui visualise la trajectoire prédite par la politique via une Prévision Visuelle en Réalité Augmentée (RA). Ce retour immersif permet aux collecteurs d'identifier proactivement les défaillances potentielles et de concentrer la collecte de données sur les zones de faiblesse de la politique, sans nécessiter de robot physique. De plus, nous mettons en œuvre un pipeline de Mise à Jour Asynchrone en Ligne qui met continuellement à jour la politique avec les données entrantes, refermant efficacement la boucle d'apprentissage en quelques minutes. Des expériences approfondies démontrent que RoboPocket respecte les lois d'échelle des données et double l'efficacité de celles-ci par rapport aux stratégies d'expansion hors ligne, surmontant leur goulot d'étranglement d'efficacité de longue date. Par ailleurs, notre boucle d'itération instantanée améliore également l'efficacité de l'échantillonnage jusqu'à 2 fois dans des environnements distribués avec un petit nombre de corrections interactives par personne. Page du projet et vidéos : https://robo-pocket.github.io.
Les images humain-produit, qui mettent en valeur l'intégration entre les personnes et les produits, jouent un rôle essentiel dans la publicité, le commerce électronique et le marketing digital. Le principal défi de la génération de telles images réside dans la préservation haute fidélité des détails du produit. Parmi les paradigmes existants, l'inpainting par référence offre une solution ciblée en utilisant des images de référence du produit pour guider le processus. Cependant, des limitations subsistent dans trois aspects clés : le manque de données d'entraînement à grande échelle et diversifiées, la difficulté des modèles actuels à se concentrer sur la préservation des détails du produit, et l'incapacité d'une supervision grossière à fournir un guidage précis. Pour résoudre ces problèmes, nous proposons HiFi-Inpaint, un nouveau cadre d'inpainting par référence haute fidélité spécialement conçu pour générer des images humain-produit. HiFi-Inpaint introduit un mécanisme d'attention partagée améliorée (SEA) pour affiner les caractéristiques fines du produit et une fonction de perte sensible aux détails (DAL) pour imposer une supervision précise au niveau pixel à l'aide de cartes haute fréquence. De plus, nous avons constitué un nouveau jeu de données, HP-Image-40K, avec des échantillons créés à partir de données auto-synthétisées et traités par filtrage automatique. Les résultats expérimentaux montrent que HiFi-Inpaint obtient des performances à l'état de l'art, produisant des images humain-produit qui préservent excellemment les détails.
Quel modèle multimodal devrions-nous utiliser pour la classification ? Les études précédentes suggèrent que la réponse se trouve dans les modèles vision-langage (VLM) contrastifs de type CLIP, en raison de leurs performances remarquables en classification zero-shot. En revanche, les grands modèles multimodaux (LMM) sont plus adaptés aux tâches complexes. Dans ce travail, nous soutenons que cette réponse néglige une capacité importante des LMM : l'apprentissage en contexte. Nous évaluons des LMM de pointe sur divers ensembles de données pour la classification en monde fermé et constatons que, bien que leurs performances en zero-shot soient inférieures à celles de CLIP, les LMM avec quelques exemples en contexte peuvent égaler ou même surpasser les VLM contrastifs équipés d'adaptateurs par cache, leur équivalent "en contexte". Nous étendons cette analyse au cadre du monde ouvert, où la nature générative des LMM les rend plus adaptés à la tâche. Dans ce scénario difficile, les LMM rencontrent des problèmes dès qu'ils reçoivent des informations contextuelles imparfaites. Pour résoudre ce problème, nous proposons CIRCLE, une méthode simple, sans entraînement, qui attribue des pseudo-étiquettes aux exemples en contexte, en les affinant itérativement avec le contexte disponible lui-même. Par des expériences approfondies, nous montrons que CIRCLE établit une base de référence robuste pour la classification en monde ouvert, surpassant les contreparties VLM et mettant en lumière le potentiel des LMM à servir de classificateurs unifiés, et une alternative flexible aux modèles spécialisés.
Les benchmarks standards sont devenus de plus en plus peu fiables en raison de la saturation, de la subjectivité et d'une mauvaise généralisation. Nous soutenons qu'évaluer la capacité d'un modèle à acquérir activement des informations est essentiel pour mesurer son intelligence. Nous proposons Interactive Benchmarks, un paradigme d'évaluation unifié qui juge la capacité de raisonnement d'un modèle dans un processus interactif sous contraintes budgétaires. Nous instancions ce cadre dans deux contextes : les Preuves Interactives, où les modèles interagissent avec un juge pour déduire des vérités objectives ou des réponses en logique et en mathématiques ; et les Jeux Interactifs, où les modèles raisonnent stratégiquement pour maximiser des utilités à long terme. Nos résultats montrent que les benchmarks interactifs fournissent une évaluation robuste et fidèle de l'intelligence des modèles, révélant qu'il existe encore une marge d'amélioration substantielle dans les scénarios interactifs. Page du projet : https://github.com/interactivebench/interactivebench
Malgré des progrès impressionnants en génération vidéo, les modèles existants se limitent à une plausibilité superficielle, sans compréhension cohérente et unifiée du monde. Les approches antérieures intègrent généralement une seule forme de connaissance du monde ou reposent sur des stratégies d'alignement rigides pour introduire des connaissances supplémentaires. Cependant, aligner une seule connaissance mondiale est insuffisant pour constituer un modèle du monde, qui nécessite de modéliser conjointement plusieurs dimensions hétérogènes (par exemple, le bon sens physique, la cohérence 3D et temporelle). Pour remédier à cette limitation, nous présentons DreamWorld, un cadre unifié qui intègre des connaissances mondiales complémentaires dans les générateurs vidéo via un paradigme de modélisation conjointe du monde, prédisant conjointement les pixels vidéo et les caractéristiques des modèles de fondation pour capturer la dynamique temporelle, la géométrie spatiale et la cohérence sémantique. Cependant, optimiser naïvement ces objectifs hétérogènes peut entraîner une instabilité visuelle et un scintillement temporel. Pour atténuer ce problème, nous proposons un recuit de contraintes cohérent (CCA) pour réguler progressivement les contraintes au niveau mondial pendant l'entraînement, et un guidage interne multi-sources pour imposer les préalables mondiaux appris lors de l'inférence. Des évaluations approfondies montrent que DreamWorld améliore la cohérence mondiale, surpassant Wan2.1 de 2,26 points sur VBench. Le code sera rendu public à l'adresse https://github.com/ABU121111/DreamWorld.
L'attention en faible précision, telle que SageAttention, est apparue comme une approche efficace pour accélérer l'inférence des modèles, mais son applicabilité à l'entraînement reste mal comprise. Dans des travaux antérieurs, nous avons introduit SageBwd, une attention entraînable en INT8 qui quantifie six des sept multiplications matricielles de l'attention tout en préservant les performances du fine-tuning. Cependant, SageBwd présentait un écart de performance persistant par rapport à l'attention en pleine précision (FPA) lors du pré-entraînement. Dans ce travail, nous étudions pourquoi cet écart se produit et démontrons que SageBwd atteint les performances de l'attention en pleine précision durant le pré-entraînement. Par des expériences et une analyse théorique, nous obtenons plusieurs insights et conclusions importants : (i) la QK-norm est nécessaire pour un entraînement stable avec un grand nombre de tokens par étape, (ii) les erreurs de quantification proviennent principalement du gradient des scores dS lors de la rétropropagation, (iii) réduire le nombre de tokens par étape permet à SageBwd d'égaler les performances de la FPA en pré-entraînement, et (iv) le lissage de K reste essentiel pour la stabilité de l'entraînement, tandis que le lissage de Q offre un bénéfice limité durant le pré-entraînement.
Nous présentons Timer-S1, un modèle de fondation robuste de type « mixture-of-experts » (MoE) pour séries temporelles, totalisant 8,3 milliards de paramètres, avec 0,75 milliard de paramètres activés par token et une longueur de contexte de 11,5 k. Pour surmonter le goulot d'étranglement de l'extensibilité dans les modèles de fondation pré-entraînés existants pour séries temporelles, nous réalisons une mise à l'échelle en série selon trois dimensions : l'architecture du modèle, le jeu de données et le pipeline d'entraînement. Timer-S1 intègre des blocs TimeMoE épars et des blocs TimeSTP génériques pour la prédiction séquentielle de tokens (STP), un objectif d'entraînement générique qui respecte la nature séquentielle de la prévision. Le paradigme proposé introduit des calculs séquentiels pour améliorer les prédictions à long terme tout en évitant l'inférence coûteuse de type « rolling » et l'accumulation prononcée d'erreurs dans la prédiction standard du token suivant. Dans la quête d'un jeu de données d'entraînement de haute qualité et non biaisé, nous constituons TimeBench, un corpus contenant mille milliards de points temporels, et appliquons une augmentation méticuleuse des données pour atténuer le biais prédictif. Nous introduisons en outre une étape de post-entraînement, comprenant un pré-entraînement continu et une extension à long contexte, pour améliorer les performances à court terme et en contexte étendu. Évalué sur le leaderboard GIFT-Eval à grande échelle, Timer-S1 atteint des performances de prévision à la pointe de l'état de l'art, obtenant les meilleurs scores MASE et CRPS en tant que modèle pré-entraîné. Timer-S1 sera publié pour favoriser les recherches ultérieures.
Les modèles actuels de génération vidéo ne peuvent simuler les conséquences physiques d'actions en 3D comme les forces et les manipulations robotiques, car ils manquent d'une compréhension structurelle de la façon dont les actions affectent les scènes 3D. Nous présentons RealWonder, le premier système temps réel de génération vidéo conditionnée par l'action à partir d'une seule image. Notre idée clé est d'utiliser la simulation physique comme pont intermédiaire : au lieu d'encoder directement les actions continues, nous les traduisons via la simulation physique en représentations visuelles (flux optique et RVB) que les modèles vidéo peuvent traiter. RealWonder intègre trois composants : la reconstruction 3D à partir d'images uniques, la simulation physique, et un générateur vidéo distillé nécessitant seulement 4 étapes de diffusion. Notre système atteint 13,2 IPS à une résolution de 480x832, permettant l'exploration interactive des forces, des actions robotiques et des contrôles caméra sur des objets rigides, des corps déformables, des fluides et des matériaux granulaires. Nous envisageons que RealWonder ouvre de nouvelles opportunités pour appliquer les modèles vidéo dans les expériences immersives, la RA/RV et l'apprentissage robotique. Notre code et nos poids de modèle sont disponibles publiquement sur notre site web : https://liuwei283.github.io/RealWonder/
La quantification post-entraînement (PTQ) avec invariance computationnelle pour les grands modèles de langage (LLM) a démontré des progrès remarquables, mais son application aux modèles de langage multimodaux (MLLM) présente des défis substantiels. Dans cet article, nous analysons SmoothQuant comme étude de cas et identifions deux problèmes critiques : le désalignement du lissage et l'invariance computationnelle intermodale. Pour résoudre ces problèmes, nous proposons MASQuant (Modality-Aware Smoothing Quantization), un nouveau cadre qui introduit (1) le lissage adapté aux modalités (MAS), qui apprend des facteurs de lissage distincts et spécifiques à chaque modalité pour prévenir le désalignement, et (2) la compensation intermodale (CMC), qui traite l'invariance computationnelle intermodale en utilisant le blanchiment SVD pour transformer les différences d'activation multimodales en formes de faible rang, permettant une quantification unifiée across modalities. MASQuant démontre des performances de quantification stables pour les MLLM à la fois bimodaux et trimodaux. Les résultats expérimentaux montrent que MASQuant est compétitif parmi les algorithmes PTQ de pointe. Code source : https://github.com/alibaba/EfficientAI.
La préhension est une capacité fondamentale permettant aux robots d'interagir avec le monde physique. Les humains, équipés de deux mains, sélectionnent de manière autonome des stratégies de préhension appropriées en fonction de la forme, de la taille et du poids des objets, permettant une saisie robuste et une manipulation ultérieure. En revanche, la préhension robotique actuelle reste limitée, particulièrement dans des configurations multi-stratégies. Bien que des efforts substantiels aient ciblé la préhension par pinces parallèles et à une seule main, la préhension habile pour les robots bimanuels reste peu explorée, les données constituant un goulot d'édition majeur. Atteindre des prises physiquement plausibles et géométriquement conformes pouvant résister à des efforts externes pose des défis significatifs. Pour résoudre ces problèmes, nous présentons UltraDexGrasp, un cadre pour la préhension habile universelle avec des robots bimanuels. Le pipeline de génération de données proposé intègre une synthèse de préhension basée sur l'optimisation avec une génération de démonstrations basée sur la planification, produisant des trajectoires de haute qualité et diversifiées couvrant multiples stratégies de préhension. Avec ce cadre, nous constituons UltraDexGrasp-20M, un jeu de données de préhension multi-stratégies à grande échelle comprenant 20 millions d'images sur 1 000 objets. Sur la base d'UltraDexGrasp-20M, nous développons ensuite une politique de préhension simple mais efficace qui prend des nuages de points en entrée, agrège les caractéristiques de la scène via une attention unidirectionnelle et prédit les commandes de contrôle. Entraînée exclusivement sur des données synthétiques, cette politique atteint un transfert robuste zéro-shot du simulateur au réel et réussit systématiquement sur des objets nouveaux aux formes, tailles et poids variés, atteignant un taux de réussite moyen de 81,2 % dans la préhension habile universelle en conditions réelles. Pour faciliter les futures recherches sur la préhension avec des robots bimanuels, nous ouvrons le pipeline de génération de données à l'adresse https://github.com/InternRobotics/UltraDexGrasp.
Les transformateurs de vision ont démontré un succès remarquable en classification en exploitant l'auto-attention globale pour capturer les dépendances à longue portée. Cependant, ce même mécanisme peut occulter les détails spatiaux fins cruciaux pour des tâches telles que la segmentation. Dans ce travail, nous cherchons à améliorer les performances de segmentation des transformateurs de vision après un entraînement standard en classification au niveau de l'image. Plus spécifiquement, nous présentons un module additionnel simple mais efficace qui améliore les performances sur les tâches de segmentation tout en préservant les capacités de reconnaissance au niveau de l'image des transformateurs de vision. Dans notre approche, nous modulons l'auto-attention avec un noyau gaussien apprenable qui biaise l'attention vers les patches voisins. Nous affinons en outre les représentations des patches pour apprendre de meilleurs plongements aux positions des patches. Ces modifications encouragent les tokens à se concentrer sur l'environnement local et garantissent des représentations significatives aux positions spatiales, tout en préservant la capacité du modèle à intégrer des informations globales. Les expériences démontrent l'efficacité de nos modifications, attestée par des gains substantiels en segmentation sur trois benchmarks (par exemple, plus de 6 % et 4 % sur ADE20K pour ViT Tiny et Base), sans modifier le régime d'entraînement ni sacrifier les performances de classification. Le code est disponible à l'adresse https://github.com/sinahmr/LocAtViT/.
Les modèles de raisonnement raisonnent à haute voix, mais une grande partie de leurs productions est du bruit. Nous présentons OPSDC (Auto-distillation sur politique pour la compression du raisonnement), une méthode qui apprend aux modèles à raisonner de manière plus concise en distillant leur propre comportement concis en eux-mêmes. L'approche entière se résume à une idée : conditionner le même modèle avec une instruction "sois concis" pour obtenir des logits d'enseignant, et minimiser la divergence KL inverse par token sur les déploiements autonomes de l'élève. Pas de réponses de référence, pas de budgets de tokens, pas d'estimateurs de difficulté. Juste de l'auto-distillation. Pourtant, cette simplicité cache une sophistication surprenante : OPSDC compresse automatiquement les problèmes faciles de manière agressive tout en préservant la délibération nécessaire pour les problèmes difficiles. Sur Qwen3-8B et Qwen3-14B, nous obtenons une réduction de 57 à 59 % des tokens sur MATH-500 tout en améliorant la précision de 9 à 16 points absolus. Sur AIME 2024, le modèle 14B gagne 10 points avec une compression de 41 %. Le secret ? Une grande partie de ce que produisent les modèles de raisonnement n'est pas seulement redondante – elle est activement nuisible, amplifiant les erreurs à chaque token superflu.
Nous présentons un système d'entraînement d'agents de recherche d'entreprise par apprentissage par renforcement qui atteint des performances de pointe sur une suite diversifiée de tâches de recherche agentique difficiles à vérifier. Notre travail apporte quatre contributions fondamentales. Premièrement, nous introduisons KARLBench, une suite d'évaluation multi-capacités couvrant six régimes de recherche distincts, incluant la recherche d'entités sous contraintes, la synthèse de rapports multi-documents, le raisonnement numérique tabulaire, la récupération exhaustive d'entités, le raisonnement procédural sur la documentation technique et l'agrégation de faits à partir de notes internes d'entreprise. Deuxièmement, nous montrons que les modèles entraînés sur des comportements de recherche hétérogènes généralisent nettement mieux que ceux optimisés pour un benchmark unique. Troisièmement, nous développons un pipeline de synthèse agentique utilisant un raisonnement à long terme et l'utilisation d'outils pour générer des données d'entraînement diversifiées, ancrées et de haute qualité, avec un amorçage itératif à partir de modèles de plus en plus performants. Quatrièmement, nous proposons un nouveau paradigme de post-entraînement basé sur l'apprentissage par renforcement hors politique par grands lots itératifs, efficace en échantillons, robuste aux écarts entre moteur d'entraînement et d'inférence, et s'étendant naturellement à l'entraînement multi-tâches avec généralisation hors distribution. Comparé à Claude 4.6 et GPT 5.2, KARL est Pareto-optimal sur KARLBench pour les compromis coût-qualité et latence-qualité, y compris sur des tâches hors distribution durant l'entraînement. Avec une puissance de calcul suffisante au moment du test, il surpasse les modèles fermés les plus performants. Ces résultats démontrent que des données synthétiques sur mesure combinées à l'apprentissage par renforcement multi-tâches permettent de créer des agents de connaissance efficaces et performants pour le raisonnement ancré.
Alors que les ensembles de données pour la compréhension vidéo ont atteint des durées de plusieurs heures, ils consistent généralement en des clips densément concaténés qui diffèrent de la vie quotidienne non scénarisée et naturelle. Pour combler cette lacune, nous présentons MM-Lifelong, un ensemble de données conçu pour la Compréhension Multimodale Continue. Comprenant 181,1 heures de séquences, il est structuré selon des échelles Journalière, Hebdomadaire et Mensuelle pour capturer différentes densités temporelles. Des évaluations approfondies révèlent deux modes d'échec critiques dans les paradigmes actuels : les MLLM de bout en bout souffrent d'un Goulot d'étranglement de la Mémoire de Travail dû à la saturation du contexte, tandis que les bases de référence agentielles représentatives subissent un Effondrement de la Localisation Globale lors de la navigation dans des chronologies éparses s'étalant sur un mois. Pour résoudre ce problème, nous proposons l'Agent Multimodal Récurrent (ReMA), qui utilise une gestion dynamique de la mémoire pour mettre à jour itérativement un état de croyance récursif, surpassant significativement les méthodes existantes. Enfin, nous établissons des partitions de l'ensemble de données conçues pour isoler les biais temporels et domainaux, fournissant une base rigoureuse pour les futures recherches en apprentissage supervisé et en généralisation hors distribution.
La ré-identification d'objets multi-modale (ReID) vise à exploiter l'information complémentaire de différentes modalités pour retrouver des objets spécifiques. Cependant, les méthodes existantes reposent souvent sur un filtrage rigide de tokens ou des stratégies de fusion simples, ce qui peut entraîner la perte d'indices discriminants et accroître les interférences de l'arrière-plan. Pour relever ces défis, nous proposons STMI, une nouvelle architecture d'apprentissage multi-modal composée de trois éléments clés : (1) le module de Modulation de Caractéristiques Guidée par Segmentation (SFM) utilise des masques générés par SAM pour améliorer les représentations de premier plan et supprimer le bruit de fond via une modulation d'attention apprenable ; (2) le module de Réallocation de Tokens Sémantiques (STR) emploie des tokens requêtes apprenables et un mécanisme de réallocation adaptatif pour extraire des représentations compactes et informatives sans éliminer aucun token ; (3) le module d'Interaction Hypergraphe Inter-Modale (CHI) construit un hypergraphe unifié entre les modalités pour capturer des relations sémantiques d'ordre élevé. Des expériences approfondies sur des benchmarks publics (RGBNT201, RGBNT100 et MSVR310) démontrent l'efficacité et la robustesse de notre architecture STMI dans les scénarios de ReID multi-modale.
Nous présentons le Modèle de Monde à Particules Latentes (LPWM), un modèle de monde centré sur les objets et auto-supervisé, mis à l'échelle pour des ensembles de données multi-objets du monde réel et applicable à la prise de décision. LPWM découvre de manière autonome des points clés, des boîtes englobantes et des masques d'objets directement à partir de données vidéo, lui permettant d'apprendre des décompositions de scènes riches sans supervision. Notre architecture est entraînée de bout en bout uniquement à partir de vidéos et permet un conditionnement flexible sur les actions, le langage et les objectifs image. LPWM modélise la dynamique stochastique des particules via un nouveau module d'action latente et obtient des résultats à la pointe de l'état de l'art sur divers ensembles de données réels et synthétiques. Au-delà de la modélisation stochastique vidéo, LPWM est directement applicable à la prise de décision, y compris l'apprentissage par imitation conditionné par un but, comme nous le démontrons dans l'article. Le code, les données, les modèles pré-entraînés et les séquences vidéo sont disponibles : https://taldatech.github.io/lpwm-web
L'entraînement des grands modèles de langage à raisonner avec des moteurs de recherche par apprentissage par renforcement est entravé par un problème fondamental de crédit des actions : les méthodes existantes, telles que Search-R1, ne fournissent qu'une récompense finale éparse après une trajectoire multi-étapes complète, ce qui rend impossible d'attribuer le succès ou l'échec à des décisions individuelles de raisonnement et de recherche. Les méthodes à récompense de processus comme StepSearch atténuent ce problème en introduisant une supervision au niveau de l'étape, mais elles reposent sur des récompenses heuristiques telles que le chevauchement TF-IDF avec des documents de référence, et échantillonnent toujours k trajectoires complètes par exemple, conservant une variance de gradient élevée. Nous proposons SLATE, un cadre fondé sur deux idées complémentaires : (1) un échantillonnage tronqué au niveau de l'étape, qui génère k trajectoires partageant un préfixe commun et ne différant qu'à l'étape suivante, et (2) des récompenses denses de type "LLM-comme-juge", qui remplacent le score heuristique par un évaluateur LLM capable d'évaluer la qualité de chaque étape de raisonnement, chaque requête de recherche et chaque réponse, fournissant ainsi une supervision plus riche et plus fiable. Nous prouvons théoriquement que, sous la même structure de récompense dense, l'échantillonnage tronqué réduit la variance des estimations de l'avantage jusqu'à un facteur T par rapport à l'échantillonnage de trajectoires complètes pour des trajectoires de T étapes, produisant des gradients de politique à variance plus faible et mieux ciblés. Les expériences sur sept benchmarks de question-réponse confirment que SLATE surpasse constamment les lignes de base à récompense éparse et à récompense de processus, avec les gains les plus importants sur les tâches multi-sauts plus difficiles et pour les modèles plus petits.
Les agents de grands modèles de langage (LLM) assistés par outils promettent d'unifier le raisonnement scientifique avec le calcul, mais leur déploiement dans des domaines à haut risque comme la découverte de médicaments est freiné par deux obstacles critiques : une gouvernance non contrainte de l'utilisation des outils et une faible fiabilité sur le long terme. Dans les processus pharmaceutiques fortement interdépendants, les agents autonomes dérivent souvent vers des trajectoires non reproductibles, où les hallucinations des premières étapes s'amplifient de manière multiplicative en échecs en aval. Pour surmonter cela, nous présentons Mozi, une architecture à double couche qui relie la flexibilité de l'IA générative à la rigueur déterministe de la biologie computationnelle. La couche A (Plan de Contrôle) établit une hiérarchie supervisée gouvernée qui impose un isolement des outils basé sur les rôles, limite l'exécution à des espaces d'action contraints et pilote une replanification par réflexion. La couche B (Plan des Flux de Travail) opérationnalise les étapes canoniques de la découverte de médicaments – de l'Identification de Cible à l'Optimisation des Candidates – sous forme de graphes de compétences composables avec état. Cette couche intègre des contrats de données stricts et des points de contrôle stratégiques humain-dans-la-boucle (HITL) pour préserver la validité scientifique aux frontières décisionnelles de forte incertitude. Fonctionnant sur le principe de conception « raisonnement libre pour les tâches sûres, exécution structurée pour les processus longs », Mozi intègre des mécanismes de robustesse et une auditabilité au niveau de la trace pour atténuer complètement l'accumulation d'erreurs. Nous évaluons Mozi sur PharmaBench, un benchmark organisé pour les agents biomédicaux, démontrant une précision d'orchestration supérieure aux solutions de référence existantes. De plus, via des études de cas thérapeutiques de bout en bout, nous démontrons la capacité de Mozi à naviguer dans d'immenses espaces chimiques, à appliquer des filtres de toxicité stricts et à générer des candidats in silico hautement compétitifs, transformant ainsi efficacement le LLM d'un interlocuteur fragile en un co-scientifique fiable et gouverné.
L’apprentissage d’un modèle de transport qui associe une distribution source à une distribution cible est un problème classique en apprentissage automatique. Cependant, les applications scientifiques exigent de plus en plus des modèles capables de généraliser à des distributions sources et cibles non observées pendant l’entraînement. Nous présentons le transport conditionné par les distributions (DCT), un cadre qui conditionne les applications de transport sur des représentations apprises des distributions source et cible, permettant ainsi une généralisation à des paires de distributions non vues. DCT permet également un apprentissage semi-supervisé pour les problèmes de prévision distributionnelle : en apprenant à partir de paires de distributions arbitraires, il peut exploiter des distributions observées sous une seule condition pour améliorer la prédiction du transport. DCT est agnostique au mécanisme de transport sous-jacent, prenant en charge des modèles allant de l’appariement de flux aux modèles basés sur des divergences distributionnelles (par exemple, Wasserstein, MMD). Nous démontrons les avantages pratiques de DCT sur des benchmarks synthétiques et quatre applications en biologie : le transfert d’effets de lot en génomique monocellulaire, la prédiction de perturbations à partir de données de cytométrie de masse, l’apprentissage de la dynamique transcriptionnelle clonale dans l’hématopoïèse, et la modélisation de l’évolution des séquences de récepteurs des lymphocytes T.
Les robots évoluant dans des environnements partagés avec les humains doivent non seulement naviguer, interagir et détecter leur environnement, mais aussi interpréter et répondre à des comportements humains dynamiques et souvent imprévisibles. Bien que des avancées récentes aient montré un potentiel pour améliorer la perception robotique et le suivi d'instructions grâce aux modèles vision-langage (VLM), elles restent limitées face aux complexités des interactions humain-robot (HRI) multimodales. Motivés par ce défi, nous introduisons un module de rétroaction langage-vers-vision léger qui ferme la boucle entre un LLM et l'encodeur visuel des VLM. Le module projette les états cachés des tokens d'image via un Perceptron Multicouche (MLP) à porteuse vers l'entrée de l'encodeur, déclenchant une seconde passe qui réinterprète la scène dans un contexte textuel. Nous évaluons cette approche sur trois tâches centrées sur la robotique : la navigation dans un environnement simulé (Habitat), la description séquentielle de scènes (Mementos-Robotics) et la reconnaissance de l'intention humaine (notre jeu de données HRI). Les résultats montrent que notre méthode améliore Qwen 2.5 (7B) de 3,3 % (distance réduite), +0,057 de score de description et +2,93 % de précision, avec moins de 3 % de paramètres supplémentaires ; Gemma 3 (4B) et LLaVA OV 1.5 (4B) présentent des résultats de navigation mitigés mais des gains de +0,111, +0,055 et +10,81 %, +4,79 % sur les deux dernières tâches. Le code est disponible à l'adresse https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.