Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands réseaux neuronaux consacrent la majeure partie de leurs calculs aux multiplications de tenseurs en virgule flottante. Dans ce travail, nous avons découvert qu'un multiplicateur en virgule flottante peut être approximé par un simple additionneur entier avec une grande précision. Nous proposons l'algorithme de multiplication à complexité linéaire L-Mul qui approxime la multiplication de nombres en virgule flottante avec des opérations d'addition entière. Le nouvel algorithme nécessite considérablement moins de ressources de calcul que la multiplication en virgule flottante sur 8 bits tout en atteignant une précision plus élevée. Comparé aux multiplications en virgule flottante sur 8 bits, la méthode proposée atteint une précision supérieure tout en consommant significativement moins de calcul au niveau des bits. Étant donné que la multiplication de nombres en virgule flottante nécessite une énergie nettement plus élevée que les opérations d'addition entière, l'application de l'opération L-Mul dans le matériel de traitement de tenseurs peut potentiellement réduire de 95 % le coût énergétique des multiplications de tenseurs en virgule flottante élément par élément et de 80 % le coût énergétique des produits scalaires. Nous avons calculé l'attente d'erreur théorique de L-Mul, et évalué l'algorithme sur une large gamme de tâches textuelles, visuelles et symboliques, y compris la compréhension du langage naturel, le raisonnement structurel, les mathématiques et la réponse à des questions de bon sens. Nos expériences d'analyse numérique confirment l'estimation d'erreur théorique, ce qui indique que L-Mul avec une mantisse sur 4 bits atteint une précision comparable aux multiplications float8_e4m3, et que L-Mul avec une mantisse sur 3 bits surpasse float8_e5m2. Les résultats d'évaluation sur des benchmarks populaires montrent que l'application directe de L-Mul au mécanisme d'attention est presque sans perte. Nous montrons en outre que le remplacement de toutes les multiplications en virgule flottante par L-Mul avec une mantisse sur 3 bits dans un modèle de transformateur atteint une précision équivalente à celle de l'utilisation de float8_e4m3 en tant que précision d'accumulation à la fois en affinage et en inférence.
Les récents progrès à la fois dans l'apprentissage de représentation et l'apprentissage de fonction ont démontré un potentiel substantiel à travers divers domaines de l'intelligence artificielle. Cependant, l'intégration efficace de ces paradigmes pose un défi significatif, en particulier dans les cas où les utilisateurs doivent décider manuellement s'il convient d'appliquer un modèle d'apprentissage de représentation ou d'apprentissage de fonction en fonction des caractéristiques de l'ensemble de données. Pour résoudre ce problème, nous présentons MLP-KAN, une méthode unifiée conçue pour éliminer le besoin de sélection manuelle de modèle. En intégrant des Perceptrons Multi-Couches (MLP) pour l'apprentissage de représentation et des Réseaux Kolmogorov-Arnold (KAN) pour l'apprentissage de fonction au sein d'une architecture Mélange d'Experts (MoE), MLP-KAN s'adapte dynamiquement aux caractéristiques spécifiques de la tâche en cours, garantissant des performances optimales. Intégré dans un cadre basé sur les transformers, notre travail obtient des résultats remarquables sur quatre ensembles de données largement utilisés à travers divers domaines. Une évaluation expérimentale approfondie démontre sa polyvalence supérieure, offrant des performances compétitives dans les tâches d'apprentissage de représentation profonde et de fonction. Ces résultats mettent en lumière le potentiel de MLP-KAN pour simplifier le processus de sélection de modèle, offrant une solution complète et adaptable à travers divers domaines. Notre code et nos poids sont disponibles sur https://github.com/DLYuanGod/MLP-KAN.
L'intelligence artificielle générative, en particulier les Modèles de Langage (LMs), a le potentiel de transformer des domaines du monde réel avec un impact sociétal, en particulier là où l'accès à des experts est limité. Par exemple, dans le domaine de l'éducation, former de nouveaux éducateurs avec un encadrement d'experts est important pour l'efficacité mais coûteux, créant ainsi des obstacles significatifs à l'amélioration de la qualité de l'éducation à grande échelle. Ce défi nuit de manière disproportionnée aux étudiants des communautés défavorisées, qui ont le plus à gagner d'une éducation de haute qualité. Nous présentons Tutor CoPilot, une nouvelle approche Humain-IA qui exploite un modèle de pensée experte pour fournir un encadrement de type expert aux tuteurs pendant leurs séances de tutorat. Cette étude est le premier essai contrôlé randomisé d'un système Humain-IA en tutorat en direct, impliquant 900 tuteurs et 1 800 élèves de la maternelle à la 12e année issus de communautés historiquement défavorisées. Suivant un plan d'analyse préenregistré, nous constatons que les élèves travaillant avec des tuteurs ayant accès à Tutor CoPilot ont 4 points de pourcentage (p.p.) de plus de chances de maîtriser les sujets (p<0,01). Notamment, les élèves des tuteurs moins bien notés ont bénéficié le plus, améliorant leur maîtrise de 9 p.p. Nous constatons que Tutor CoPilot ne coûte que 20 $ par tuteur par an. Nous analysons plus de 550 000 messages à l'aide de classificateurs pour identifier les stratégies pédagogiques, et constatons que les tuteurs ayant accès à Tutor CoPilot sont plus susceptibles d'utiliser des stratégies de haute qualité pour favoriser la compréhension des élèves (par exemple, poser des questions guidantes) et moins susceptibles de donner la réponse à l'élève. Les entretiens avec les tuteurs soulignent comment l'encadrement de Tutor CoPilot aide les tuteurs à répondre aux besoins des élèves, bien qu'ils signalent des problèmes dans Tutor CoPilot, tels que la génération de suggestions qui ne sont pas adaptées au niveau de classe. Dans l'ensemble, notre étude sur Tutor CoPilot démontre comment les systèmes Humain-IA peuvent étendre l'expertise dans des domaines du monde réel, combler les lacunes en compétences et créer un avenir où une éducation de haute qualité est accessible à tous les élèves.
Les éléments inutiles dans le contexte de l'attention dégradent les performances. Nous introduisons l'Attention Sélective, une modification simple et sans paramètre du mécanisme d'attention standard qui réduit l'attention portée aux éléments inutiles. L'Attention Sélective améliore les performances de modélisation linguistique pour diverses tailles de modèles et longueurs de contexte. Par exemple, une gamme de transformers entraînés avec l'objectif de modélisation linguistique sur C4 avec une attention sélective se comportent de manière équivalente aux transformers standard avec environ 2 fois plus de têtes et de paramètres dans leurs modules d'attention. L'Attention Sélective permet également de réduire la taille du tampon de contexte de l'attention, entraînant des réductions significatives des besoins en mémoire et en calcul lors de l'inférence. Par exemple, les transformers avec 100 millions de paramètres entraînés sur C4 avec des tailles de contexte de 512, 1 024 et 2 048 nécessitent respectivement 16 fois, 25 fois et 47 fois moins de mémoire pour leur module d'attention lorsqu'ils sont équipés d'une attention sélective, par rapport à ceux sans attention sélective, avec la même perplexité de validation.
Un bot basé sur un Modèle de Langage Visuel (VLM) nous avertira-t-il en cas de glissade s'il détecte un sol mouillé ? Les récents VLM ont démontré des capacités impressionnantes, cependant, leur aptitude à inférer des résultats et des causes reste peu explorée. Pour remédier à cela, nous présentons NL-Eye, une référence conçue pour évaluer les compétences de raisonnement abductif visuel des VLM. NL-Eye adapte la tâche d'Inférence de Langage Naturel (NLI) abductif au domaine visuel, obligeant les modèles à évaluer la plausibilité des images hypothétiques en se basant sur une image de prémisse et à expliquer leurs décisions. NL-Eye se compose de 350 exemples triplés soigneusement sélectionnés (1 050 images) couvrant diverses catégories de raisonnement : physique, fonctionnel, logique, émotionnel, culturel et social. Le processus de curation des données impliquait deux étapes - rédiger des descriptions textuelles et générer des images à l'aide de modèles texte-image, nécessitant toutes deux une implication humaine substantielle pour garantir des scènes de haute qualité et stimulantes. Nos expériences montrent que les VLM rencontrent des difficultés significatives sur NL-Eye, souvent se situant à des niveaux de base aléatoires, tandis que les humains excellent à la fois dans la prédiction de plausibilité et la qualité des explications. Cela démontre une lacune dans les capacités de raisonnement abductif des VLM modernes. NL-Eye représente une étape cruciale vers le développement de VLM capables de raisonnement multimodal robuste pour des applications du monde réel, y compris des bots de prévention des accidents et la vérification vidéo générée.
Mamba, un cas particulier du Modèle d'Espace d'États, gagne en popularité en tant qu'alternative aux approches d'apprentissage profond basées sur des modèles dans l'analyse d'images médicales. Bien que les transformeurs soient des architectures puissantes, ils présentent des inconvénients, notamment une complexité computationnelle quadratique et une incapacité à traiter efficacement les dépendances à longue distance. Cette limitation affecte l'analyse de grands ensembles de données complexes en imagerie médicale, où de nombreuses relations spatiales et temporelles existent. En revanche, Mamba offre des avantages qui le rendent bien adapté à l'analyse d'images médicales. Il a une complexité temporelle linéaire, ce qui constitue une amélioration significative par rapport aux transformeurs. Mamba traite des séquences plus longues sans mécanismes d'attention, permettant une inférence plus rapide et nécessitant moins de mémoire. Mamba démontre également de bonnes performances dans la fusion de données multimodales, améliorant la précision du diagnostic et les résultats des patients. L'organisation de cet article permet aux lecteurs d'apprécier les capacités de Mamba dans l'imagerie médicale étape par étape. Nous commençons par définir les concepts fondamentaux des Modèles d'Espace d'États et des modèles, y compris S4, S5 et S6, suivi d'une exploration des architectures de Mamba telles que Mamba pur, les variantes U-Net et les modèles hybrides avec des réseaux neuronaux convolutionnels, des transformeurs et des Réseaux Neuronaux Graphiques. Nous abordons également les optimisations, techniques et adaptations de Mamba, la numérisation, les ensembles de données, les applications, les résultats expérimentaux, et concluons par ses défis et orientations futures en imagerie médicale. Cette revue vise à démontrer le potentiel transformateur de Mamba pour surmonter les barrières existantes en imagerie médicale tout en ouvrant la voie à des avancées innovantes dans le domaine. Une liste complète des architectures de Mamba appliquées dans le domaine médical, examinée dans ce travail, est disponible sur Github.
Les modèles auto-régressifs actuels peuvent générer des images de haute qualité et haute résolution, mais ces modèles nécessitent des centaines, voire des milliers d'étapes de prédiction du prochain token lors de l'inférence, ce qui entraîne une consommation de temps substantielle. Dans les études existantes, le décodage de Jacobi, un algorithme de décodage parallèle itératif, a été utilisé pour accélérer la génération auto-régressive et peut être exécuté sans entraînement. Cependant, le décodage de Jacobi repose sur un critère déterministe pour déterminer la convergence des itérations. Ainsi, il fonctionne pour le décodage glouton mais est incompatible avec le décodage basé sur l'échantillonnage, qui est crucial pour la qualité visuelle et la diversité dans la génération actuelle de texte en image auto-régressive. Dans cet article, nous proposons un algorithme de décodage parallèle probabiliste sans entraînement, le décodage spéculatif de Jacobi (SJD), pour accélérer la génération de texte en image auto-régressive. En introduisant un critère de convergence probabiliste, notre SJD accélère l'inférence de la génération de texte en image auto-régressive tout en maintenant le caractère aléatoire dans le décodage de token basé sur l'échantillonnage et en permettant au modèle de générer des images diverses. Plus précisément, le SJD permet au modèle de prédire plusieurs tokens à chaque étape et d'accepter les tokens en fonction du critère probabiliste, permettant au modèle de générer des images avec moins d'étapes que le paradigme conventionnel de prédiction du prochain token. Nous examinons également les stratégies d'initialisation de token qui exploitent la localité spatiale des données visuelles pour améliorer davantage le taux d'accélération dans des scénarios spécifiques. Nous menons des expériences pour notre SJD proposé sur plusieurs modèles de génération de texte en image auto-régressive, montrant l'efficacité de l'accélération du modèle sans sacrifier la qualité visuelle.
La génération de texture à partir de texte a récemment suscité un intérêt croissant, mais les méthodes existantes souffrent souvent de problèmes d'incohérences de vue, de coutures apparentes et de désalignement entre les textures et le maillage sous-jacent. Dans cet article, nous proposons une méthode robuste de génération de texture à partir de texte pour produire des textures cohérentes et sans couture, bien alignées avec le maillage. Notre méthode exploite des modèles de diffusion 2D de pointe, notamment SDXL et plusieurs ControlNets, pour capturer les caractéristiques structurelles et les détails complexes des textures générées. La méthode utilise également une stratégie de synthèse de vue symétrique combinée à des incitations régionales pour améliorer la cohérence des vues. De plus, elle introduit des techniques novatrices de fusion de textures et d'inpainting doux, qui réduisent significativement les régions de couture. Des expériences approfondies démontrent que notre méthode surpasse les méthodes existantes de pointe.
La suppression de concepts dans les modèles de langage a traditionnellement manqué d'un cadre d'évaluation complet, entraînant des évaluations incomplètes de l'efficacité des méthodes de suppression. Nous proposons un paradigme d'évaluation centré sur trois critères essentiels : l'innocence (suppression complète des connaissances), la fluidité (maintien d'une génération conditionnelle fluide) et la spécificité (préservation des performances de tâches non liées). Nos métriques d'évaluation motivent naturellement le développement de l'Effacement de la Mémoire du Langage (ELM), une nouvelle méthode conçue pour aborder ces trois dimensions. L'ELM utilise des mises à jour ciblées de faible rang pour modifier les distributions de sortie des concepts effacés tout en préservant les capacités globales du modèle, y compris la fluidité lorsqu'il est sollicité pour un concept effacé. Nous démontrons l'efficacité de l'ELM dans les tâches d'effacement liées à la biosécurité, à la cybersécurité et au domaine littéraire. L'analyse comparative montre que l'ELM atteint des performances supérieures selon nos métriques proposées, y compris des scores proches de l'aléatoire sur les évaluations de sujets effacés, la fluidité de génération, la précision maintenue sur des références non liées, et la robustesse face aux attaques adverses. Notre code, nos données et nos modèles entraînés sont disponibles sur https://elm.baulab.info
Les récents progrès dans les Modèles de Langage de Code Large (CodeLLMs) se sont principalement concentrés sur des tâches de génération de code ouvertes, négligeant souvent l'aspect critique de la compréhension et de la compréhension du code. Pour combler cette lacune, nous présentons CodeMMLU, un banc d'essai complet de questions à choix multiples conçu pour évaluer la profondeur de la compréhension du logiciel et du code dans les LLMs. CodeMMLU comprend plus de 10 000 questions provenant de domaines divers, englobant des tâches telles que l'analyse de code, la détection de défauts et les principes de génie logiciel dans plusieurs langages de programmation. Contrairement aux bancs d'essai traditionnels, CodeMMLU évalue la capacité des modèles à raisonner sur le code plutôt qu'à le générer simplement, offrant des perspectives plus approfondies sur leur compréhension des concepts et des systèmes logiciels complexes. Notre évaluation approfondie révèle que même les modèles de pointe sont confrontés à des défis significatifs avec CodeMMLU, mettant en lumière des lacunes dans la compréhension au-delà de la génération de code. En soulignant la relation cruciale entre la compréhension du code et la génération efficace, CodeMMLU constitue une ressource essentielle pour faire progresser le développement de logiciels assisté par l'IA, visant en fin de compte à créer des assistants de codage plus fiables et capables.
La navigation de robots en situation réelle implique plus que simplement atteindre une destination ; elle nécessite d'optimiser les déplacements tout en tenant compte des objectifs spécifiques à chaque scénario. Une manière intuitive pour les humains d'exprimer ces objectifs est à travers des indices abstraits tels que des commandes verbales ou des croquis approximatifs. Une telle guidance humaine peut manquer de détails ou être bruyante. Néanmoins, nous attendons des robots qu'ils naviguent comme prévu. Pour que les robots interprètent et exécutent ces instructions abstraites conformément aux attentes humaines, ils doivent partager une compréhension commune des concepts de base de navigation avec les humains. À cette fin, nous introduisons CANVAS, un nouveau cadre qui combine des instructions visuelles et linguistiques pour une navigation consciente du bon sens. Son succès est basé sur l'apprentissage par imitation, permettant au robot d'apprendre du comportement de navigation humain. Nous présentons COMMAND, un ensemble de données complet avec des résultats de navigation annotés par des humains, couvrant plus de 48 heures et 219 km, conçu pour entraîner des systèmes de navigation conscients du bon sens dans des environnements simulés. Nos expériences montrent que CANVAS surpasse le système basé sur des règles solides ROS NavStack dans tous les environnements, démontrant des performances supérieures avec des instructions bruyantes. Notamment, dans l'environnement de verger, où ROS NavStack enregistre un taux de réussite total de 0 %, CANVAS atteint un taux de réussite total de 67 %. CANVAS est également étroitement aligné avec les démonstrations humaines et les contraintes du bon sens, même dans des environnements inconnus. De plus, le déploiement réel de CANVAS met en avant une impressionnante transférabilité de Sim2Real avec un taux de réussite total de 69 %, soulignant le potentiel de l'apprentissage à partir des démonstrations humaines dans des environnements simulés pour des applications réelles.
Le Fill-in-the-Middle (FIM) est devenu essentiel pour les modèles de langage de code, permettant la génération de code manquant en tenant compte à la fois des contextes gauche et droit. Cependant, le paradigme actuel d'entraînement FIM, qui réordonne les séquences d'entraînement originales puis effectue une prédiction régulière du jeton suivant (NTP), conduit souvent à des modèles ayant du mal à générer du contenu qui s'aligne harmonieusement avec le contexte environnant. De manière cruciale, alors que les travaux existants reposent sur un post-traitement basé sur des règles pour contourner cette faiblesse, de telles méthodes ne sont pas praticables dans les tâches d'achèvement de code en domaine ouvert car elles dépendent d'hypothèses restrictives et spécifiques au jeu de données (par exemple, générer le même nombre de lignes que dans la vérité terrain). De plus, les performances du modèle sur les tâches FIM se détériorent significativement sans ces hypothèses irréalistes. Nous émettons l'hypothèse que NTP seul est insuffisant pour que les modèles apprennent une planification efficace conditionnée par le contexte droit éloigné, un facteur critique pour un remplissage de code réussi. Pour surmonter cela, nous proposons la Prédiction de Longueur d'Horizon (HLP), un nouvel objectif d'entraînement qui enseigne aux modèles à prédire le nombre de jetons de milieu restants (c'est-à-dire la longueur de l'horizon) à chaque étape. HLP fait progresser FIM avec une planification à long terme, permettant aux modèles d'apprendre de manière inhérente les limites de remplissage pour des contextes gauche et droit arbitraires sans dépendre d'un post-traitement spécifique au jeu de données. Notre évaluation sur différents modèles et tailles montre que HLP améliore significativement les performances de FIM jusqu'à 24% relativement sur divers benchmarks, au niveau des fichiers et des dépôts, et sans recourir à des méthodes de post-traitement irréalistes. De plus, la capacité de planification améliorée acquise grâce à HLP renforce les performances du modèle en matière de raisonnement sur le code. Importamment, HLP n'entraîne qu'une surcharge d'entraînement négligeable et aucun coût d'inférence supplémentaire, garantissant sa praticité pour les scénarios réels.
La prédiction du marché boursier est restée un problème extrêmement difficile depuis de nombreuses décennies en raison de sa haute volatilité inhérente et de son faible ratio bruit/information. Les solutions existantes basées sur l'apprentissage automatique ou l'apprentissage profond démontrent des performances supérieures en utilisant un seul modèle entraîné sur l'ensemble des données boursières pour générer des prédictions pour tous types d'actions. Cependant, en raison des variations significatives dans les styles d'actions et les tendances du marché, un seul modèle de bout en bout peine à capturer pleinement les différences dans ces caractéristiques stylisées des actions, entraînant des prédictions relativement inexactes pour tous types d'actions. Dans cet article, nous présentons MIGA, un nouveau cadre Mélange d'Experts avec Agrégation de Groupes conçu pour générer des prédictions spécialisées pour des actions avec différents styles en basculant dynamiquement entre des experts de styles distincts. Pour promouvoir la collaboration entre les différents experts dans MIGA, nous proposons une nouvelle architecture d'attention de groupe interne, permettant aux experts du même groupe de partager des informations et ainsi améliorer les performances globales de tous les experts. En conséquence, MIGA surpasse significativement les autres modèles de bout en bout sur trois indices boursiers chinois, y compris CSI300, CSI500 et CSI1000. Notamment, MIGA-Conv atteint un excédent de rendement annuel de 24 % sur l'indice CSI300, dépassant le modèle précédent de pointe de 8 % en absolu. De plus, nous menons une analyse approfondie du mélange d'experts pour la prédiction du marché boursier, fournissant des perspectives précieuses pour les futures recherches.
Malgré la montée en puissance de l'apprentissage profond dans les domaines de données non structurées, les méthodes basées sur les arbres telles que les Forêts Aléatoires (Random Forests - RF) et les Arbres de Décision Boostés par Gradient (Gradient Boosted Decision Trees - GBDT) restent les outils principaux pour traiter les tâches discriminatives sur les données tabulaires. Nous explorons des extensions génératives de ces algorithmes populaires en mettant l'accent sur la modélisation explicite de la densité des données (jusqu'à une constante de normalisation), permettant ainsi d'autres applications en plus de l'échantillonnage. En tant que principale contribution, nous proposons un algorithme de boosting génératif basé sur l'énergie qui est analogue au boosting du second ordre implémenté dans des packages populaires comme XGBoost. Nous montrons que, malgré la production d'un modèle génératif capable de gérer des tâches d'inférence sur n'importe quelle variable d'entrée, notre algorithme proposé peut atteindre des performances discriminatives similaires à GBDT sur plusieurs ensembles de données tabulaires du monde réel, surpassant les approches génératives alternatives. En même temps, nous montrons qu'il est également compétitif avec les modèles basés sur les réseaux neuronaux pour l'échantillonnage.
La légende détaillée des vidéos est une tâche clé visant à générer des descriptions textuelles complètes et cohérentes du contenu vidéo, bénéficiant à la fois à la compréhension et à la génération de vidéos. Dans cet article, nous proposons AuroraCap, un légendeur vidéo basé sur un grand modèle multimodal. Nous suivons la conception architecturale la plus simple sans paramètres supplémentaires pour la modélisation temporelle. Pour résoudre la surcharge causée par de longues séquences vidéo, nous mettons en œuvre la stratégie de fusion de jetons, réduisant le nombre de jetons visuels en entrée. Étonnamment, nous avons constaté que cette stratégie entraîne peu de perte de performances. AuroraCap montre des performances supérieures sur divers bancs d'essai de légendage vidéo et d'image, obtenant par exemple un CIDEr de 88,9 sur Flickr30k, surpassant GPT-4V (55,3) et Gemini-1.5 Pro (82,2). Cependant, les bancs d'essai de légendage vidéo existants incluent uniquement des descriptions simples, composées de quelques dizaines de mots, ce qui limite la recherche dans ce domaine. Par conséquent, nous développons VDC, un banc d'essai de légendage vidéo détaillé avec plus d'un millier de légendes structurées soigneusement annotées. De plus, nous proposons une nouvelle métrique assistée par LLM, le VDCscore, pour améliorer l'évaluation, qui adopte une stratégie de diviser pour régner pour transformer l'évaluation de légendes longues en plusieurs paires de questions-réponses courtes. Avec l'aide du classement Elo humain, nos expériences montrent que ce banc d'essai est mieux corrélé avec les jugements humains de la qualité du légendage vidéo détaillé.
La simulation robotique reste aujourd'hui difficile à mettre à l'échelle en raison des efforts humains nécessaires pour créer des tâches et des scènes de simulation diverses. Les politiques entraînées par simulation rencontrent également des problèmes de scalabilité car de nombreuses méthodes de simulation vers le réel se concentrent sur une seule tâche. Pour relever ces défis, ce travail propose GenSim2, un cadre évolutif qui exploite les LLMs de codage avec des capacités multimodales et de raisonnement pour la création de tâches de simulation complexes et réalistes, y compris des tâches à longue horizon avec des objets articulés. Pour générer automatiquement des données de démonstration pour ces tâches à grande échelle, nous proposons des solveurs de planification et de RL qui généralisent au sein de catégories d'objets. Le pipeline peut générer des données pour jusqu'à 100 tâches articulées avec 200 objets et réduire les efforts humains nécessaires. Pour utiliser de telles données, nous proposons une architecture de politique multi-tâches efficace conditionnée par le langage, appelée transformateur de nuage de points proprioceptif (PPT), qui apprend des démonstrations générées et présente un fort transfert zéro-shot de la simulation vers le réel. En combinant le pipeline proposé et l'architecture de politique, nous montrons une utilisation prometteuse de GenSim2 selon laquelle les données générées peuvent être utilisées pour un transfert zéro-shot ou pour un co-entraînement avec des données collectées dans le monde réel, ce qui améliore les performances de la politique de 20% par rapport à un entraînement exclusif sur des données réelles limitées.