Articles de recherche IA sélectionnés quotidiennement avec traductions
Les progrès rapides des modèles vidéo se sont largement concentrés sur la qualité visuelle, laissant leurs capacités de raisonnement sous-explorées. Le raisonnement vidéo ancre l'intelligence dans des environnements visuels spatio-temporellement cohérents qui vont au-delà de ce que le texte peut capturer naturellement, permettant un raisonnement intuitif sur la structure spatio-temporelle telle que la continuité, l'interaction et la causalité. Cependant, l'étude systématique du raisonnement vidéo et de son comportement à l'échelle est entravée par le manque de données d'entraînement à grande échelle. Pour combler cette lacune, nous présentons le jeu de données Very Big Video Reasoning (VBVR), une ressource à grande échelle sans précédent couvrant 200 tâches de raisonnement sélectionnées selon une taxonomie raisonnée et plus d'un million de clips vidéo, soit environ trois ordres de grandeur de plus que les jeux de données existants. Nous présentons en outre VBVR-Bench, un cadre d'évaluation vérifiable qui va au-delà du jugement basé sur des modèles en intégrant des systèmes de notation alignés sur l'humain et basés sur des règles, permettant un diagnostic reproductible et interprétable des capacités de raisonnement vidéo. En tirant parti de la suite VBVR, nous menons l'une des premières études à grande échelle sur le passage à l'échelle du raisonnement vidéo et observons des signes précoces de généralisation émergente à des tâches de raisonnement non vues. Ensemble, VBVR jette les bases de la prochaine étape de la recherche sur le raisonnement vidéo généralisable. Les données, la boîte à outils de référence et les modèles sont disponibles publiquement à l'adresse https://video-reason.com/.
Les systèmes d'IA composés promettent des capacités dépassant celles des modèles individuels, mais leur succès dépend crucialement d'une orchestration efficace. Les approches de routage existantes présentent deux limitations : (1) les routeurs au niveau des entrées prennent des décisions grossières au niveau de la requête, ignorant l'évolution des besoins de la tâche ; (2) les orchestrateurs entraînés par apprentissage par renforcement sont coûteux à adapter et souffrent souvent d'un effondrement du routage, invoquant de manière répétée une option puissante mais coûteuse dans des scénarios multi-tours. Nous présentons SkillOrchestra, un cadre pour l'orchestration consciente des compétences. Au lieu d'apprendre directement une politique de routage de bout en bout, SkillOrchestra apprend des compétences fines à partir de l'expérience d'exécution et modélise la compétence et le coût spécifiques aux agents sous ces compétences. Au déploiement, l'orchestrateur infère les besoins en compétences de l'interaction en cours et sélectionne les agents qui les satisfont le mieux sous un compromis explicite performance-coût. Des expériences approfondies sur dix benchmarks démontrent que SkillOrchestra surpasse les orchestrateurs état de l'art basés sur l'apprentissage par renforcement jusqu'à 22,5 %, avec une réduction du coût d'apprentissage de 700x et 300x respectivement par rapport à Router-R1 et ToolOrchestra. Ces résultats montrent que la modélisation explicite des compétences permet une orchestration évolutive, interprétable et économe en échantillons, offrant une alternative rigoureuse aux approches basées sur l'apprentissage par renforcement intensives en données. Le code est disponible à l'adresse : https://github.com/jiayuww/SkillOrchestra.
Suite à l'essor des grands modèles de fondation, les modèles Vision-Langage-Action (VLA) ont émergé, exploitant une compréhension visuelle et linguistique robuste pour l'apprentissage de politiques généralistes. Cependant, le paysage actuel des VLA reste fragmenté et exploratoire. Bien que de nombreuses équipes aient proposé leurs propres modèles VLA, les incohérences dans les protocoles d'entraînement et les cadres d'évaluation rendent difficile l'identification des choix de conception réellement déterminants. Pour structurer cet espace en évolution, nous réexaminons l'espace de conception des VLA dans le cadre d'un framework et d'un protocole d'évaluation unifiés. En partant d'un modèle VLA de base similaire à RT-2 et OpenVLA, nous disséquons systématiquement les choix de conception selon trois dimensions : les composants fondamentaux, les éléments essentiels de la perception et les perspectives de modélisation de l'action. De cette étude, nous tirons 12 conclusions clés qui forment ensemble une recette pratique pour construire des modèles VLA performants. Le résultat de cette exploration est un modèle simple mais efficace, VLANeXt. VLANeXt surpasse les méthodes état de l'art précédentes sur les benchmarks LIBERO et LIBERO-plus et démontre une forte généralisation dans des expériences en conditions réelles. Nous publierons une base de code unifiée et facile à utiliser qui servira de plateforme commune à la communauté pour reproduire nos résultats, explorer l'espace de conception et développer de nouvelles variantes de VLA sur une fondation partagée.
Nous présentons une étude exploratoire de type "red teaming" sur des agents autonomes alimentés par des modèles de langage déployés dans un environnement de laboratoire en temps réel avec mémoire persistante, comptes courriel, accès à Discord, systèmes de fichiers et exécution de shell. Sur une période de deux semaines, vingt chercheurs en IA ont interagi avec les agents dans des conditions bénignes et adverses. En nous concentrant sur les défaillances émergeant de l'intégration des modèles de langage avec l'autonomie, l'utilisation d'outils et la communication multi-parties, nous documentons onze études de cas représentatives. Les comportements observés incluent la conformité non autorisée à des non-propriétaires, la divulgation d'informations sensibles, l'exécution d'actions destructrices au niveau système, des conditions de déni de service, une consommation incontrôlée de ressources, des vulnérabilités d'usurpation d'identité, la propagation de pratiques non sécurisées entre agents et une prise de contrôle partielle du système. Dans plusieurs cas, les agents ont signalé l'accomplissement de tâches alors que l'état sous-jacent du système contredisait ces rapports. Nous rapportons également certaines tentatives infructueuses. Nos résultats établissent l'existence de vulnérabilités pertinentes pour la sécurité, la vie privée et la gouvernance dans des conditions de déploiement réalistes. Ces comportements soulèvent des questions non résolues concernant la responsabilité, l'autorité déléguée et la imputabilité des préjudices en aval, et méritent une attention urgente de la part des juristes, décideurs politiques et chercheurs de diverses disciplines. Ce rapport constitue une contribution empirique initiale à cette conversation plus large.
La recommandation séquentielle utilise de plus en plus le raisonnement latent multi-étapes pour améliorer les calculs au moment du test. Malgré des gains empiriques, les approches existantes pilotent largement les états de raisonnement intermédiaires via des objectifs dominés par la cible sans imposer de contraintes de faisabilité explicites. Cela entraîne une dérive latente, où les trajectoires de raisonnement dévient vers des régions peu plausibles. Nous soutenons qu'un raisonnement efficace pour la recommandation devrait plutôt être considéré comme une navigation sur une variété collaborative plutôt que comme un raffinement latent libre. À cette fin, nous proposons ManCAR (Manifold-Constrained Adaptive Reasoning), un cadre principiel qui ancre le raisonnement dans la topologie d'un graphe d'interaction global. ManCAR construit un a priori d'intention locale à partir du voisinage collaboratif des actions récentes d'un utilisateur, représenté comme une distribution sur le simplexe des items. Pendant l'entraînement, le modèle aligne progressivement sa distribution prédictive latente avec cet a priori, forçant la trajectoire de raisonnement à rester dans la variété valide. Au moment du test, le raisonnement procède de manière adaptative jusqu'à ce que la distribution prédictive se stabilise, évitant ainsi un sur-raffinement. Nous fournissons une interprétation variationnelle de ManCAR pour valider théoriquement ses mécanismes de prévention de la dérive et d'arrêt adaptatif au moment du test. Les expériences sur sept benchmarks démontrent que ManCAR surpasse constamment les méthodes de l'état de l'art, atteignant une amélioration relative allant jusqu'à 46,88 % par rapport au NDCG@10. Notre code est disponible à l'adresse https://github.com/FuCongResearchSquad/ManCAR.
Si les modèles Vision-Langage-Action (VLA) ont connu des progrès rapides en pré-entraînement, leur avancée en Apprentissage par Renforcement (RL) reste entravée par une faible efficacité d'échantillonnage et des récompenses rares dans des environnements réels. Le développement de modèles de récompense de processus généralisables est essentiel pour fournir le retour granulaire nécessaire afin de combler cet écart. Pourtant, les fonctions de valeur temporelles existantes échouent souvent à généraliser au-delà de leurs domaines d'entraînement. Nous présentons TOPReward, une nouvelle fonction de valeur temporelle fondée sur des probabilités, qui exploite les connaissances latentes du monde des modèles Vision-Langage (VLM) pré-entraînés sur la vidéo pour estimer la progression des tâches robotiques. Contrairement aux méthodes antérieures qui incitent les VLM à produire directement des valeurs de progression, une approche sujette aux erreurs de représentation numérique, TOPReward extrait la progression de la tâche directement des logits des tokens internes du VLM. Dans des évaluations zero-shot sur plus de 130 tâches distinctes du monde réel et sur plusieurs plates-formes robotiques (par exemple, Franka, YAM, SO-100/101), TOPReward atteint une Corrélation d'Ordre de Valeur (VOC) moyenne de 0,947 sur Qwen3-VL, surpassant considérablement l'état de l'art, la baseline GVL, qui obtient une corrélation proche de zéro sur le même modèle open-source. Nous démontrons en outre que TOPReward constitue un outil polyvalent pour des applications en aval, notamment la détection de succès et le clonage de comportement aligné sur la récompense.
Les modèles multimodaux unifiés peuvent à la fois comprendre et générer du contenu visuel au sein d'une architecture unique. Cependant, les modèles existants restent gourmands en données et trop lourds pour être déployés sur des appareils périphériques. Nous présentons Mobile-O, un modèle compact de diffusion vision-langage qui apporte une intelligence multimodale unifiée sur un appareil mobile. Son module central, le Mobile Conditioning Projector (MCP), fusionne les caractéristiques vision-langage avec un générateur de diffusion en utilisant des convolutions séparables en profondeur et un alignement par couches. Cette conception permet un conditionnement intermodal efficace avec un coût computationnel minimal. Entraîné sur seulement quelques millions d'échantillons et post-entraîné dans un nouveau format quadruplet (prompte de génération, image, question, réponse), Mobile-O améliore conjointement les capacités de compréhension et de génération visuelles. Malgré son efficacité, Mobile-O obtient des performances compétitives ou supérieures par rapport aux autres modèles unifiés, atteignant 74% sur GenEval et surpassant Show-O et JanusFlow de 5% et 11%, tout en fonctionnant respectivement 6 et 11 fois plus vite. Pour la compréhension visuelle, Mobile-O les dépasse de 15,3% et 5,1% en moyenne sur sept benchmarks. Fonctionnant en seulement ~3s par image 512x512 sur un iPhone, Mobile-O établit le premier cadre pratique pour la compréhension et la génération multimodales unifiées en temps réel sur les appareils périphériques. Nous espérons que Mobile-O facilitera les futures recherches sur l'intelligence multimodale unifiée en temps réel fonctionnant entièrement sur appareil sans dépendance au cloud. Notre code, modèles, jeux de données et application mobile sont disponibles publiquement à l'adresse https://amshaker.github.io/Mobile-O/
La capacité à manipuler des outils élargit considérablement l'éventail des tâches qu'un robot peut accomplir. Pourtant, la manipulation d'outils représente une classe exigeante de dextérité, nécessitant la préhension d'objets minces, des rotations d'objets en main et des interactions avec application de force. Étant donné que la collecte de données par téléopération pour ces comportements est difficile, l'apprentissage par renforcement (RL) de la simulation à la réalité (sim-to-real) constitue une alternative prometteuse. Cependant, les approches antérieures nécessitent généralement un effort d'ingénierie substantiel pour modéliser les objets et ajuster les fonctions de récompense pour chaque tâche. Dans ce travail, nous proposons SimToolReal, faisant un pas vers la généralisation des politiques RL sim-to-real pour la manipulation d'outils. Au lieu de se concentrer sur un seul objet et une seule tâche, nous générons de manière procédurale une grande variété de primitives d'objets de type outil en simulation et entraînons une politique RL unique avec l'objectif universel de manipuler chaque objet vers des poses cibles aléatoires. Cette approche permet à SimToolReal d'effectuer une manipulation dextre générale d'outils lors des tests sans aucun entraînement spécifique à un objet ou à une tâche. Nous démontrons que SimToolReal surpasse de 37 % les méthodes antérieures de retargeting et de préhension fixe, tout en égalant les performances des politiques RL spécialisées entraînées sur des objets cibles et des tâches spécifiques. Enfin, nous montrons que SimToolReal généralise ses capacités à un ensemble varié d'outils du quotidien, obtenant de solides performances zero-shot sur plus de 120 déploiements en conditions réelles couvrant 24 tâches, 12 instances d'objets et 6 catégories d'outils.
Nous étudions la tâche d'établissement de correspondances visuelles au niveau objet entre différentes perspectives dans des vidéos, en nous concentrant sur les scénarios difficiles de correspondance égocentrique-à-exocentrique et exocentrique-à-égocentrique. Nous proposons un cadre simple mais efficace basé sur la segmentation binaire conditionnelle, où un masque de requête objet est encodé en une représentation latente pour guider la localisation de l'objet correspondant dans une vidéo cible. Pour favoriser des représentations robustes et invariantes à la vue, nous introduisons un objectif d'entraînement par cohérence cyclique : le masque prédit dans la vue cible est projeté vers la vue source pour reconstruire le masque de requête original. Cette contrainte bidirectionnelle fournit un signal d'auto-supervision puissant sans nécessiter d'annotations de vérité terrain et permet un entraînement au moment de l'inférence (test-time training, TTT). Les expériences sur les benchmarks Ego-Exo4D et HANDAL-X démontrent l'efficacité de notre objectif d'optimisation et de notre stratégie TTT, atteignant des performances à l'état de l'art. Le code est disponible à l'adresse https://github.com/shannany0606/CCMP.
L'apprentissage par renforcement avec vérificateurs (RLVR) est un paradigme central pour améliorer le raisonnement des grands modèles de langage (LLM), mais les méthodes existantes souffrent souvent d'une exploration limitée. Les politiques ont tendance à s'effondrer sur quelques schémas de raisonnement et à arrêter prématurément l'exploration profonde, tandis que la régularisation par entropie conventionnelle n'introduit qu'une stochasticité locale et échoue à induire une diversité significative au niveau des chemins, conduisant à des signaux d'apprentissage faibles et instables dans l'optimisation de politique par groupes. Nous proposons DSDR, un cadre d'apprentissage par renforcement à Régularisation de la Diversité Double Échelle qui décompose la diversité du raisonnement des LLM en composantes globale et couplée. Globalement, DSDR favorise la diversité parmi les trajectoires de raisonnement correctes pour explorer des modes de solution distincts. Localement, il applique une régularisation par entropie au niveau des tokens, invariante à la longueur et restreinte aux trajectoires correctes, empêchant l'effondrement de l'entropie au sein de chaque mode tout en préservant l'exactitude. Les deux échelles sont couplées via un mécanisme d'allocation global-vers-local qui accentue la régularisation locale pour les trajectoires correctes plus distinctives. Nous fournissons un support théorique montrant que DSDR préserve l'exactitude optimale sous régularisation bornée, maintient des signaux d'apprentissage informatifs dans l'optimisation par groupes, et produit une règle de couplage global-vers-local principée. Les expériences sur plusieurs benchmarks de raisonnement démontrent des améliorations constantes en précision et pass@k, soulignant l'importance de la diversité double échelle pour l'exploration profonde en RLVR. Le code est disponible à l'adresse https://github.com/SUSTechBruce/DSDR.
Les données synthétiques générées par les modèles génératifs vidéo ont montré un potentiel pour l'apprentissage robotique en tant que pipeline évolutif, mais elles souffrent souvent d'une qualité d'action incohérente en raison de vidéos générées imparfaitement. Récemment, les modèles vision-langage (VLM) ont été utilisés pour valider la qualité vidéo, mais ils présentent des limitations pour distinguer les vidéos physiquement précises et, même dans ce cas, ne peuvent pas évaluer directement les actions générées elles-mêmes. Pour résoudre ce problème, nous présentons RoboCurate, un nouveau cadre de génération de données robotiques synthétiques qui évalue et filtre la qualité des actions annotées en les comparant avec une relecture en simulation. Plus précisément, RoboCurate rejoue les actions prédites dans un simulateur et évalue la qualité de l'action en mesurant la cohérence du mouvement entre la simulation et la vidéo générée. De plus, nous déverrouillons une diversité d'observations au-delà du jeu de données disponible via l'édition d'image-à-image et appliquons un transfert vidéo-à-vidéo préservant l'action pour augmenter davantage l'apparence. Nous observons que les données générées par RoboCurate produisent des améliorations relatives substantielles des taux de réussite par rapport à l'utilisation de données réelles uniquement, atteignant +70,1 % sur GR-1 Tabletop (300 démos), +16,1 % sur DexMimicGen en configuration de pré-entraînement, et +179,9 % dans le cadre exigeant de manipulation dextre humanoïde ALLEX en conditions réelles.
Nous proposons tttLRM, un nouveau modèle de reconstruction 3D à grande échelle qui exploite une couche d'apprentissage au moment du test (TTT) pour permettre une reconstruction 3D autoregressive à contexte long avec une complexité computationnelle linéaire, augmentant ainsi les capacités du modèle. Notre cadre compresse efficacement de multiples observations d'images dans les poids rapides de la couche TTT, formant une représentation 3D implicite dans l'espace latent qui peut être décodée en différents formats explicites, tels que les *Gaussian Splats* (GS) pour des applications en aval. La variante à apprentissage en ligne de notre modèle prend en charge la reconstruction et le raffinement progressifs de la scène 3D à partir d'observations en flux continu. Nous démontrons qu'un pré-entraînement sur des tâches de synthèse de nouvelles vues se transfère efficacement à la modélisation 3D explicite, améliorant la qualité de reconstruction et accélérant la convergence. Des expériences approfondies montrent que notre méthode obtient des performances supérieures en reconstruction feedforward de Gaussiennes 3D par rapport aux approches de l'état de l'art, que ce soit pour des objets ou des scènes.
La reconnaissance optique de caractères (OCR) est une tâche fondamentale pour la numérisation de l'information, servant de pont critique entre les données visuelles et la compréhension textuelle. Bien que les modèles vision-langage (VLM) modernes aient atteint une grande précision dans ce domaine, ils reposent principalement sur un décodage autorégressif, qui devient coûteux en calculs et lent pour les documents longs car il nécessite un passage séquentiel pour chaque token généré. Nous identifions une opportunité clé pour surmonter ce goulot d'étranglement : contrairement à la génération ouverte, l'OCR est une tâche hautement déterministe où l'entrée visuelle dicte strictement une séquence de sortie unique, permettant théoriquement un décodage parallèle efficace via les modèles de diffusion. Cependant, nous montrons que les modèles de diffusion masqués existants ne parviennent pas à exploiter ce potentiel ; ils introduisent des instabilités structurelles bénignes pour des tâches flexibles comme la légende d'images, mais catastrophiques pour les exigences rigides de correspondance exacte de l'OCR. Pour combler cette lacune, nous présentons DODO, le premier VLM à utiliser la diffusion discrète par blocs et à libérer son potentiel d'accélération pour l'OCR. En décomposant la génération en blocs, DODO atténue les erreurs de synchronisation de la diffusion globale. Empiriquement, notre méthode atteint une précision proche de l'état de l'art tout en permettant une inférence jusqu'à 3 fois plus rapide que les modèles de référence autorégressifs.
Les systèmes de mémoire agentielle permettent aux agents basés sur des grands modèles de langage (LLM) de maintenir un état au cours d'interactions longues, supportant ainsi un raisonnement à long terme et une personnalisation au-delà des fenêtres de contexte fixes. Malgré un développement architectural rapide, les fondements empiriques de ces systèmes restent fragiles : les benchmarks existants sont souvent sous-dimensionnés, les métriques d'évaluation sont mal alignées avec l'utilité sémantique, les performances varient significativement selon les modèles de base, et les coûts au niveau système sont fréquemment négligés. Cette étude présente une analyse structurée de la mémoire agentielle sous les angles architecturaux et systémiques. Nous introduisons d'abord une taxonomie concise des systèmes MAG basée sur quatre structures de mémoire. Ensuite, nous analysons les points problématiques principaux limitant les systèmes actuels, incluant les effets de saturation des benchmarks, la validité des métriques et la sensibilité des juges, la précision dépendante du modèle de base, ainsi que les surcharges de latence et de débit introduites par la maintenance de la mémoire. En reliant la structure mémoire aux limitations empiriques, cette étude clarifie pourquoi les systèmes de mémoire agentielle actuels performent souvent en deçà de leur potentiel théorique et esquisse des pistes pour une évaluation plus fiable et une conception de systèmes plus évolutive.
Les systèmes de classement modernes à grande échelle évoluent dans un paysage complexe d'objectifs concurrents, de contraintes opérationnelles et d'exigences produits en constante évolution. Les progrès dans ce domaine sont de plus en plus limités par la contrainte du contexte d'ingénierie : le processus ardu de traduction d'une intention produit ambiguë en hypothèses raisonnables, exécutables et vérifiables, plutôt que par les seules techniques de modélisation. Nous présentons GEARS (Generative Engine for Agentic Ranking Systems), un cadre qui reformule l'optimisation du classement comme un processus de découverte autonome au sein d'un environnement d'expérimentation programmable. Au lieu de traiter l'optimisation comme une sélection de modèles statique, GEARS exploite des Compétences Agentiques Spécialisées pour encapsuler l'expertise en matière de classement en capacités de raisonnement réutilisables, permettant aux opérateurs de piloter les systèmes via une personnalisation de haut niveau reflétant l'intention. De plus, pour garantir la fiabilité en production, le cadre intègre des mécanismes de validation pour imposer une robustesse statistique et filtrer les politiques fragiles qui surajustent les signaux à court terme. La validation expérimentale sur diverses interfaces produits démontre que GEARS identifie systématiquement des politiques supérieures, quasi Pareto-optimales, en synergisant les signaux algorithmiques avec un contexte profond de classement, tout en maintenant une stabilité de déploiement rigoureuse.
L'optimisation des noyaux GPU est cruciale pour l'efficacité des systèmes modernes d'apprentissage automatique, mais reste difficile en raison de l'interaction complexe des facteurs de conception et de l'évolution rapide du matériel. Les approches automatisées existantes traitent généralement les grands modèles de langage (LLM) comme de simples générateurs de code stochastiques dans des boucles évolutives guidées par des heuristiques. Ces méthodes peinent souvent avec les noyaux complexes nécessitant des transformations structurelles multi-étapes coordonnées, car elles manquent de capacités de planification explicite et rejettent fréquemment des stratégies prometteuses en raison d'implémentations intermédiaires inefficaces ou incorrectes. Pour résoudre ce problème, nous proposons la recherche par co-évolution d'un modèle du monde et développons K-Search sur cette base. En remplaçant les heuristiques de recherche statiques par un modèle du monde co-évolutif, notre cadre exploite les connaissances préalables du domaine des LLM pour guider la recherche, en explorant activement l'espace d'optimisation. Cette approche découple explicitement la planification algorithmique de haut niveau de l'instanciation de programme de bas niveau, permettant au système de naviguer sur des chemins d'optimisation non monotones tout en restant résilient aux défauts d'implémentation temporaires. Nous évaluons K-Search sur divers noyaux complexes de FlashInfer, incluant les noyaux GQA, MLA et MoE. Nos résultats montrent que K-Search surpasse significativement les méthodes de recherche évolutive de pointe, obtenant une amélioration moyenne de 2,10x et jusqu'à un gain de 14,3x sur les noyaux MoE complexes. Sur la tâche GPUMode TriMul, K-Search atteint des performances de pointe sur H100, parvenant à 1030us et surpassant à la fois les solutions évolutives antérieures et celles conçues par l'homme.
Les modèles vision-langage-action (VLA) sont apparus comme un paradigme prometteur pour la manipulation robotique universelle, exploitant l'apprentissage préalable à grande échelle pour atteindre des performances élevées. Ce domaine a rapidement évolué avec l'ajout de prérequis spatiaux et diverses innovations architecturales. Cependant, ces avancées s'accompagnent souvent de protocoles d'entraînement et de détails d'implémentation variables, ce qui peut rendre difficile l'identification précise de la source des gains empiriques. Dans ce travail, nous présentons SimVLA, une base de référence rationalisée conçue pour établir un point de repère transparent pour la recherche VLA. En découplant strictement la perception du contrôle, en utilisant une architecture standard vision-langage et une tête d'action légère, et en standardisant les dynamiques d'entraînement critiques, nous démontrons qu'une conception minimale peut atteindre des performances de pointe. Bien que ne comptant que 0,5 milliard de paramètres, SimVLA surpasse des modèles de plusieurs milliards de paramètres sur des benchmarks de simulation standard sans pré-entraînement robotique. SimVLA atteint également des performances équivalentes sur robot réel par rapport à pi0.5. Nos résultats établissent SimVLA comme une base de référence robuste et reproductible qui permet une attribution claire des gains empiriques aux futures innovations architecturales. Site web : https://frontierrobo.github.io/SimVLA
Malgré le succès pratique remarquable des modèles de langage basés sur les transformateurs, des travaux récents ont soulevé des inquiétudes quant à leur capacité à effectuer un suivi d'état. En particulier, une littérature croissante a mis en évidence cette limitation principalement à travers des échecs en généralisation hors-distribution (OOD), comme l'extrapolation en longueur. Dans ce travail, nous portons notre attention sur les implications de ces limitations en distribution. Nous menons une étude expérimentale à grande échelle sur l'efficacité des données des transformateurs et des réseaux neuronaux récurrents (RNN) dans plusieurs régimes de supervision. Nous constatons que la quantité de données d'entraînement requise par les transformateurs croît beaucoup plus rapidement avec la taille de l'espace d'état et la longueur des séquences que pour les RNN. De plus, nous analysons dans quelle mesure les mécanismes appris de suivi d'état sont partagés entre différentes longueurs de séquence. Nous montrons que les transformateurs présentent un partage de poids négligeable, voire préjudiciable, entre les longueurs, ce qui indiquent qu'ils apprennent des solutions spécifiques à chaque longueur de manière isolée. En revanche, les modèles récurrents présentent un apprentissage amorti efficace en partageant les poids entre les longueurs, permettant aux données d'une longueur de séquence d'améliorer les performances sur d'autres. Ensemble, ces résultats démontrent que le suivi d'état reste un défi fondamental pour les transformateurs, même lorsque les distributions d'entraînement et d'évaluation correspondent.
Nous présentons Nacrith, un système de compression sans perte qui combine un modèle de langage transformeur de 135 millions de paramètres (SmolLM2-135M) avec un ensemble de prédicteurs légers en ligne et un codeur arithmétique 32 bits. Au-delà du paradigme de base LLM-plus-codage-arithmétique, Nacrith introduit plusieurs contributions : (1) une augmentation de la précision de la FCD de 2^16 à 2^24 qui élimine ~75 % de la surcharge de quantification causée par les planchers de probabilité minimale dans les grands vocabulaires ; (2) un modèle N-gramme au niveau des tokens pour des prédictions locales rapides ; (3) une tête de biais adaptative dans l'espace logarithmique corrigeant les erreurs du LLM par document via une descente de gradient en ligne ; (4) un saut conditionnel du LLM basé sur la confiance pour accélérer les tokens hautement prévisibles ; (5) un format binaire hybride (NC06) étendant la compression neuronale à des fichiers binaires arbitraires – à notre connaissance, une première parmi les compresseurs basés sur LLM ; (6) un backend d'inférence llama.cpp permettant une décodage environ 7x plus rapide par token que PyTorch ; (7) une compression parallèle multi-GPU sur jusqu'à 8 workers ; et (8) une fenêtre glissante native du cache KV réduisant le coût par glissement d'environ 37x. Le système ne nécessite qu'environ 500 Mo de poids GGUF et ~1,2 Go de VRAM par worker, fonctionnant sur des GPU grand public. Sur alice29.txt (Corpus de Canterbury, 152 Ko), Nacrith atteint 0,918 bit par octet (bpb) – surpassant gzip par un facteur de 3,1, bzip2 par 2,5, CMIX v21 de 44 % et ts_zip de 20 %, tout en compressant en dessous des bornes d'entropie de Shannon au niveau de l'octet d'ordre 0, 1 et 2. Sur enwik8 (100 Mo), Nacrith atteint 0,9389 bpb (11,74 %), dépassant ts_zip (~1,11 bpb) de 15 % et FineZip (1,024 bpb) de 8 %, malgré l'utilisation d'un modèle 60x plus petit et sans ajustement fin. Une évaluation hors distribution sur un document publié après la date de coupure d'entraînement du modèle confirme que ces gains ne sont pas des artéfacts de mémorisation, atteignant 0,723 bpb sur un texte non vu.
L'industrie numérique exige des actifs 3D modulaires de haute qualité et diversifiés, en particulier pour le contenu généré par les utilisateurs (CGU). Dans ce travail, nous présentons AssetFormer, un modèle autoregressif basé sur un Transformer conçu pour générer des actifs 3D modulaires à partir de descriptions textuelles. Notre étude pilote exploite des actifs modulaires réels collectés sur des plateformes en ligne. AssetFormer relève le défi de créer des actifs composés de primitives qui adhèrent à des paramètres de conception contraints pour diverses applications. En adaptant de manière innovante des techniques de séquençage et de décodage de modules inspirées des modèles de langage, notre approche améliore la qualité de la génération d'actifs via la modélisation autoregressive. Les résultats initiaux indiquent l'efficacité d'AssetFormer pour rationaliser la création d'actifs dans les scénarios de développement professionnel et de CGU. Ce travail présente un cadre flexible extensible à divers types d'actifs 3D modulaires, contribuant ainsi au domaine plus large de la génération de contenu 3D. Le code est disponible à l'adresse https://github.com/Advocate99/AssetFormer.
Les méthodes actuelles d'animation humaine 3D peinent à atteindre le photoréalisme : les approches basées sur la cinématique manquent de dynamique non rigide (par exemple, la dynamique des vêtements), tandis que les méthodes exploitant des pré-entraînements par diffusion vidéo peuvent synthétiser des mouvements non rigides mais souffrent d'artefacts de qualité et de perte d'identité. Pour surmonter ces limitations, nous présentons Ani3DHuman, un cadre qui associe l'animation basée sur la cinématique à des pré-entraînements par diffusion vidéo. Nous introduisons d'abord une représentation motionnelle en couches qui sépare le mouvement rigide du mouvement non rigide résiduel. Le mouvement rigide est généré par une méthode cinématique, qui produit ensuite un rendu grossier pour guider le modèle de diffusion vidéo dans la génération de séquences vidéo restaurant le mouvement non rigide résiduel. Cependant, cette tâche de restauration, basée sur l'échantillonnage par diffusion, est très difficile car les rendus initiaux sont hors distribution, ce qui fait échouer les échantillonneurs ODE déterministes standards. Par conséquent, nous proposons une nouvelle méthode d'échantillonnage stochastique auto-guidée, qui résout efficacement le problème du hors distribution en combinant l'échantillonnage stochastique (pour la qualité photoréaliste) avec l'auto-guidage (pour la fidélité de l'identité). Ces vidéos restaurées fournissent un supervision de haute qualité, permettant l'optimisation du champ de mouvement non rigide résiduel. Des expériences approfondies démontrent qu'Ani3DHuman peut générer une animation humaine 3D photoréaliste, surpassant les méthodes existantes. Le code est disponible sur https://github.com/qiisun/ani3dhuman.
Les adénovirus associés (AAV) sont des vecteurs prometteurs pour la thérapie génique, mais leurs sérotypes natifs présentent des limitations concernant le tropisme tissulaire, l'évasion immunitaire et l'efficacité de production. L'ingénierie des capside pour surmonter ces obstacles est difficile en raison de l'immensité de l'espace séquentiel et de la complexité d'optimiser simultanément plusieurs propriétés fonctionnelles. La complexité s'accroît pour le rein, qui présente des barrières anatomiques uniques et des cibles cellulaires nécessitant une ingénierie vectorielle précise et efficace. Nous présentons ici AAVGen, un cadre d'intelligence artificielle générative pour la conception de novo de capsides AAV avec des profils multi-caractères améliorés. AAVGen intègre un modèle de langage protéique (PLM) avec un fine-tuning supervisé (SFT) et une technique d'apprentissage par renforcement appelée Optimisation de Politique de Séquences par Groupe (GSPO). Le modèle est guidé par un signal de récompense composite dérivé de trois prédicteurs de régression basés sur ESM-2, chacun entraîné pour prédire une propriété clé : l'aptitude à la production, le tropisme rénal et la thermostabilité. Nos résultats démontrent qu'AAVGen produit une bibliothèque diversifiée de nouvelles séquences protéiques VP1. Les validations in silico ont révélé que la majorité des variants générés présentent des performances supérieures sur les trois indices utilisés, indiquant une optimisation multi-objectif réussie. De plus, l'analyse structurelle via AlphaFold3 confirme que les séquences générées préservent le repliement canonique de la capside malgré la diversification des séquences. AAVGen établit une base pour l'ingénierie de vecteurs viraux pilotée par les données, accélérant le développement de vecteurs AAV de nouvelle génération avec des caractéristiques fonctionnelles sur mesure.
L'odométrie fiable pour les robots à pattes sans caméras ni LiDAR reste difficile en raison de la dérive des IMU et du bruit des capteurs de vitesse articulaire. Cet article présente un estimateur d'état purement proprioceptif utilisant uniquement les mesures de l'IMU et des moteurs pour estimer conjointement la pose et la vitesse du corps, avec une formulation unifiée applicable aux robots bipèdes, quadrupèdes et à pattes roues. L'idée clé est de traiter chaque patte en contact comme une ancre cinématique : l'estimation des efforts au pied basée sur le couple articulaire sélectionne les contacts fiables, et les positions d'appui correspondantes fournissent des contraintes intermittentes dans le repère monde qui suppriment la dérive à long terme. Pour éviter la dérive en altitude lors de traversées prolongées, nous introduisons un regroupement de hauteurs léger et une correction à décroissance temporelle qui aligne les hauteurs d'appui nouvellement enregistrées sur les plans de support précédemment observés. Pour améliorer les observations de vitesse du pied sous quantification des encodeurs, nous appliquons un filtre de Kalman cubature à cinématique inverse qui filtre directement les vitesses de l'extrémité du pied à partir des angles et vitesses articulaires. L'implémentation atténue en outre la dérive de lacet grâce à la cohérence géométrique multi-contacts et dégrade gracieusement vers une référence de cap dérivée de la cinématique lorsque les contraintes de lacet de l'IMU sont indisponibles ou non fiables. Nous évaluons la méthode sur quatre plateformes quadrupèdes (trois robots Astrall et un Unitree Go2 EDU) en utilisant des trajectoires en boucle fermée. Sur le robot Astrall à pieds ponctuels A, une boucle horizontale de ~200 m et une boucle verticale de ~15 m reviennent avec des erreurs de 0,1638 m et 0,219 m respectivement ; sur le robot à pattes roues B, les erreurs correspondantes sont de 0,2264 m et 0,199 m. Sur le robot à pattes roues C, une boucle horizontale de ~700 m donne une erreur de 7,68 m et une boucle verticale de ~20 m donne une erreur de 0,540 m. Le Unitree Go2 EDU referme une boucle horizontale de ~120 m avec une erreur de 2,2138 m et une boucle verticale de ~8 m avec une erreur verticale inférieure à 0,1 m. github.com/ShineMinxing/Ros2Go2Estimator.git
La découverte causale pour les données transversales et temporelles a traditionnellement suivi un paradigme spécifique aux jeux de données, où un nouveau modèle est ajusté pour chaque jeu de données individuel. Cette approche limite le potentiel du pré-entraînement multi-jeux de données. Le concept de grands modèles causaux (LCM) envisage une classe d'architectures neuronales pré-entraînées spécialement conçues pour la découverte causale temporelle. Les approches antérieures sont limitées à de petits nombres de variables, se dégradent avec des entrées plus importantes et reposent fortement sur des données synthétiques, limitant la généralisation. Nous proposons un cadre méthodologique pour les LCM, combinant des générateurs synthétiques diversifiés avec des ensembles de données temporelles réalistes, permettant un apprentissage à grande échelle. Des expériences approfondies sur des benchmarks synthétiques, semi-synthétiques et réalistes montrent que les LCM s'adaptent efficacement à des nombres de variables plus élevés et à des architectures plus profondes tout en maintenant de solides performances. Les modèles entraînés atteignent une précision compétitive ou supérieure par rapport aux méthodes classiques et aux bases de référence neuronales, particulièrement dans des contextes hors-distribution, tout en permettant une inférence rapide en une seule passe. Les résultats démontrent que les LCM constituent un paradigme prometteur de modèle de fondation pour la découverte causale temporelle. Les expériences et les poids des modèles sont disponibles à l'adresse https://github.com/kougioulis/LCM-paper/.
Le raisonnement diagnostique des séries temporelles est essentiel pour de nombreuses applications, mais les solutions existantes font face à un écart persistant : les modèles de langage généraux à capacités de raisonnement (GRLM) possèdent de solides compétences déductives mais manquent de connaissances spécifiques pour comprendre les motifs complexes des séries temporelles. À l'inverse, les modèles de langage spécialisés en séries temporelles (TSLM) comprennent ces motifs mais manquent de capacité à généraliser leur raisonnement pour des questions plus complexes. Pour combler cet écart, nous proposons un cadre hybride d'injection de connaissances qui intègre directement les insights générés par les TSLM dans la trace de raisonnement des GRLM, permettant ainsi un raisonnement temporel solide avec des connaissances du domaine. Comme la collecte de données pour l'affinage par injection de connaissances est coûteuse, nous exploitons une approche par apprentissage par renforcement avec récompenses vérifiables (RLVR) pour produire des traces riches en connaissances sans supervision humaine, puis transférons cette trace de réflexion spécialisée dans les GRLM pour une injection de connaissances efficace. Nous publions également SenTSR-Bench, un benchmark de raisonnement diagnostique basé sur des séries temporelles multivariées collectées lors d'opérations industrielles réelles. Sur SenTSR-Bench et d'autres jeux de données publics, notre méthode surpasse constamment les TSLM de 9,1 % à 26,1 % et les GRLM de 7,9 % à 22,4 %, fournissant des insights diagnostiques robustes et contextuels pour les séries temporelles.