Articles de recherche en IA sélectionnés quotidiennement avec traductions
GPT-4o est un modèle omni autoregressif qui accepte en entrée toute combinaison de texte, audio, image et vidéo, et génère toute combinaison de sorties texte, audio et image. Il est entraîné de bout en bout à travers le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o peut répondre à des entrées audio en aussi peu que 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation. Il égale les performances de GPT-4 Turbo sur le texte en anglais et le code, avec une amélioration significative sur le texte dans les langues autres que l'anglais, tout en étant beaucoup plus rapide et 50\% moins cher dans l'API. GPT-4o est particulièrement meilleur dans la compréhension de la vision et de l'audio par rapport aux modèles existants. Conformément à notre engagement à construire une IA de manière sûre et en accord avec nos engagements volontaires envers la Maison Blanche, nous partageons la Fiche Système de GPT-4o, qui inclut nos évaluations du Cadre de Préparation. Dans cette Fiche Système, nous examinons en détail les capacités, les limitations et les évaluations de sécurité de GPT-4o dans plusieurs catégories, en mettant l'accent sur la traduction vocale, tout en évaluant les capacités de texte et d'image, ainsi que les mesures que nous avons mises en place pour garantir que le modèle est sûr et aligné. Nous incluons également des évaluations de tiers sur les capacités dangereuses, ainsi qu'une discussion sur les impacts sociétaux potentiels des capacités de texte et de vision de GPT-4o.
Nous présentons Bielik 7B v0.1, un modèle de texte génératif de 7 milliards de paramètres pour le traitement de la langue polonaise. Entraîné sur des corpus polonais sélectionnés, ce modèle aborde les défis clés du développement de modèles de langue grâce à des techniques innovantes. Celles-ci incluent la Perte d'Entropie Croisée Pondérée par Instruction, qui équilibre l'apprentissage de différents types d'instructions, et le Taux d'Apprentissage Adaptatif, qui ajuste dynamiquement le taux d'apprentissage en fonction de la progression de l'entraînement. Pour évaluer les performances, nous avons créé le Open PL LLM Leaderboard et Polish MT-Bench, de nouveaux cadres évaluant diverses tâches de TAL et capacités conversationnelles. Bielik 7B v0.1 démontre des améliorations significatives, atteignant une augmentation de 9 points de pourcentage en score moyen par rapport à Mistral-7B-v0.1 sur la tâche de lecture RAG. Il excelle également dans le Polish MT-Bench, notamment dans les catégories Raisonnement (6,15/10) et Jeu de rôle (7,83/10). Ce modèle représente une avancée substantielle dans l'IA de la langue polonaise, offrant un outil puissant pour diverses applications linguistiques et établissant de nouveaux benchmarks dans le domaine.
Les petits modèles de langage (SLM) sont devenus de plus en plus importants en raison de leur efficacité et de leurs performances pour effectuer diverses tâches linguistiques avec des ressources computationnelles minimales, ce qui les rend idéaux pour divers environnements, y compris sur des appareils, des appareils mobiles, des appareils périphériques, entre autres. Dans cet article, nous présentons une enquête approfondie sur les SLM, en mettant l'accent sur leurs architectures, leurs techniques d'entraînement et leurs techniques de compression de modèle. Nous proposons une nouvelle taxonomie pour classer les méthodes utilisées pour optimiser les SLM, y compris la compression de modèle, l'élagage et les techniques de quantification. Nous résumons les ensembles de données de référence utiles pour évaluer les SLM ainsi que les métriques d'évaluation couramment utilisées. De plus, nous mettons en lumière les principaux défis ouverts qui restent à relever. Notre enquête vise à servir de ressource précieuse pour les chercheurs et les praticiens intéressés par le développement et le déploiement de petits modèles de langage efficaces.
Les agents numériques capables d'automatiser des tâches informatiques complexes ont attiré une attention considérable en raison de leur immense potentiel pour améliorer l'interaction homme-machine. Cependant, les méthodes d'agents existantes présentent des lacunes dans leurs capacités de généralisation et de spécialisation, notamment dans le traitement de tâches informatiques ouvertes dans des environnements du monde réel. Inspiré par la riche fonctionnalité de l'App Store, nous présentons AgentStore, une plateforme évolutive conçue pour intégrer dynamiquement des agents hétérogènes pour automatiser des tâches informatiques. AgentStore permet aux utilisateurs d'intégrer des agents tiers, permettant au système d'enrichir continuellement ses capacités et de s'adapter aux systèmes d'exploitation en évolution rapide. De plus, nous proposons un nouveau MetaAgent central avec la stratégie AgentToken pour gérer efficacement des agents divers et utiliser leurs capacités spécialisées et généralistes pour des tâches spécifiques au domaine et à l'ensemble du système. Des expériences approfondies sur trois benchmarks difficiles démontrent qu'AgentStore surpasse les limitations des systèmes précédents avec des capacités limitées, réalisant en particulier une amélioration significative de 11,21\% à 23,85\% sur le benchmark OSWorld, plus que doublant les résultats précédents. Des résultats quantitatifs et qualitatifs complets démontrent en outre la capacité d'AgentStore à améliorer les systèmes d'agents à la fois en termes de généralisation et de spécialisation, soulignant son potentiel pour développer l'assistant informatique généraliste spécialisé. Tous nos codes seront rendus publics à l'adresse https://chengyou-jia.github.io/AgentStore-Home.
L'analyse de documents est essentielle pour convertir des documents non structurés et semi-structurés - tels que des contrats, des articles académiques et des factures - en données structurées et exploitables par les machines. L'analyse de documents extrait des données structurées fiables à partir d'entrées non structurées, offrant une grande commodité pour de nombreuses applications. Surtout avec les récentes avancées dans les Grands Modèles de Langage, l'analyse de documents joue un rôle indispensable à la fois dans la construction de bases de connaissances et la génération de données d'entraînement. Cette étude présente une revue complète de l'état actuel de l'analyse de documents, couvrant les méthodologies clés, des systèmes de pipeline modulaires aux modèles de bout en bout pilotés par de grands modèles de vision-langage. Les composants essentiels tels que la détection de mise en page, l'extraction de contenu (y compris le texte, les tableaux et les expressions mathématiques) et l'intégration de données multimodales sont examinés en détail. De plus, cet article discute des défis auxquels sont confrontés les systèmes modulaires d'analyse de documents et les modèles de vision-langage dans la gestion de mises en page complexes, l'intégration de modules multiples et la reconnaissance de textes à haute densité. Il met l'accent sur l'importance du développement de jeux de données plus vastes et plus diversifiés et esquisse les orientations de recherche futures.
Nous présentons MarDini, une nouvelle famille de modèles de diffusion vidéo qui intègrent les avantages de l'autorégression masquée (MAR) dans un cadre de modèle de diffusion unifié (DM). Ici, MAR gère la planification temporelle, tandis que DM se concentre sur la génération spatiale dans une conception de réseau asymétrique : i) un modèle de planification basé sur MAR contenant la plupart des paramètres génère des signaux de planification pour chaque trame masquée en utilisant une entrée de basse résolution ; ii) un modèle de génération léger utilise ces signaux pour produire des trames haute résolution via un processus de débruitage par diffusion. Le MAR de MarDini permet la génération de vidéos conditionnée par n'importe quel nombre de trames masquées à n'importe quelle position de trame : un seul modèle peut gérer l'interpolation vidéo (par exemple, le masquage des trames intermédiaires), la génération d'images en vidéo (par exemple, le masquage à partir de la deuxième trame) et l'expansion vidéo (par exemple, le masquage de la moitié des trames). La conception efficace alloue la plupart des ressources informatiques au modèle de planification de basse résolution, rendant ainsi possible à grande échelle une attention spatio-temporelle coûteuse mais importante. MarDini établit un nouvel état de l'art pour l'interpolation vidéo ; en même temps, en quelques étapes d'inférence, il génère efficacement des vidéos comparables à celles de modèles image-vidéo avancés beaucoup plus coûteux.
La formation en FP8 s'est imposée comme une méthode prometteuse pour améliorer l'efficacité de l'entraînement. Les cadres existants accélèrent l'entraînement en appliquant le calcul en FP8 aux couches linéaires tout en laissant les états de l'optimiseur et les activations dans une précision plus élevée, ce qui ne permet pas d'optimiser pleinement l'utilisation de la mémoire. Cet article présente COAT (Compression des États de l'Optimiseur et des Activations pour la Formation en FP8), un nouveau cadre de formation en FP8 conçu pour réduire de manière significative l'empreinte mémoire lors de l'entraînement de grands modèles. COAT aborde les limitations actuelles à travers deux innovations clés : (1) l'Expansion de la Plage Dynamique, qui aligne plus étroitement les distributions des états de l'optimiseur avec la plage de représentation en FP8, réduisant ainsi l'erreur de quantification, et (2) la Quantification des Activations à Granularité Mixte, qui optimise la mémoire d'activation en utilisant une combinaison de stratégies de quantification par tenseur et par groupe. Les expériences montrent que COAT réduit efficacement l'empreinte mémoire d'entraînement de bout en bout de 1,54x par rapport au BF16 tout en atteignant des performances presque sans perte sur diverses tâches, telles que la préformation et le fine-tuning de grands modèles de langage et la formation de modèles de langage visuel. COAT réalise également un gain de vitesse d'entraînement de bout en bout de 1,43x par rapport au BF16, se situant au niveau ou dépassant le gain de vitesse de TransformerEngine. COAT permet un entraînement efficace de tous les paramètres de grands modèles sur moins de GPU, et facilite le doublement de la taille du lot dans des paramètres d'entraînement distribué, offrant une solution pratique pour mettre à l'échelle l'entraînement de modèles à grande échelle. Le code est disponible sur https://github.com/NVlabs/COAT.
La restauration d'images (IR) dans des scénarios réels présente des défis significatifs en raison du manque de modèles à haute capacité et de jeux de données complets. Pour relever ces défis, nous présentons une stratégie double : GenIR, un pipeline innovant de curation de données, et DreamClear, un modèle de restauration d'images de pointe basé sur le Transformer de Diffusion (DiT). GenIR, notre contribution pionnière, est un pipeline d'apprentissage à double incitation qui surmonte les limitations des jeux de données existants, qui comprennent généralement seulement quelques milliers d'images et offrent donc une généralisabilité limitée pour les modèles plus grands. GenIR rationalise le processus en trois étapes : construction de paires image-texte, ajustement fin basé sur une double incitation, et génération et filtrage de données. Cette approche contourne le processus fastidieux de collecte de données, garantissant la conformité aux droits d'auteur et fournissant une solution rentable et respectueuse de la vie privée pour la construction de jeux de données IR. Le résultat est un jeu de données à grande échelle de un million d'images de haute qualité. Notre deuxième contribution, DreamClear, est un modèle de restauration d'images basé sur DiT. Il utilise les a priori génératifs des modèles de diffusion texte-image (T2I) et les capacités perceptuelles robustes des grands modèles de langage multimodal (MLLM) pour atteindre une restauration photoréaliste. Pour renforcer l'adaptabilité du modèle à diverses dégradations du monde réel, nous introduisons le Mélange de Modulateur Adaptatif (MoAM). Il utilise des a priori de dégradation au niveau du jeton pour intégrer dynamiquement divers experts en restauration, élargissant ainsi la gamme de dégradations que le modèle peut traiter. Nos expériences exhaustives confirment la performance supérieure de DreamClear, soulignant l'efficacité de notre stratégie double pour la restauration d'images dans le monde réel. Le code et les modèles pré-entraînés seront disponibles sur : https://github.com/shallowdream204/DreamClear.
Bien que des avancées significatives aient été réalisées dans le développement de modèles de langage à grande échelle à long contexte (LLM), la qualité compromise des données synthétisées par les LLM pour le fine-tuning supervisé (SFT) affecte souvent les performances à long contexte des modèles SFT et entraîne des limitations inhérentes. En principe, l'apprentissage par renforcement (RL) avec des signaux de récompense appropriés peut renforcer davantage les capacités des modèles. Cependant, la manière d'obtenir des récompenses fiables dans des scénarios à long contexte reste inexplorée. À cette fin, nous proposons LongReward, une nouvelle méthode qui utilise un LLM prêt à l'emploi pour fournir des récompenses pour les réponses des modèles à long contexte à partir de quatre dimensions valorisées par les humains : l'utilité, la logique, la fidélité et l'exhaustivité, chacune avec un pipeline d'évaluation soigneusement conçu. En combinant LongReward et l'algorithme RL hors ligne DPO, nous sommes en mesure d'améliorer efficacement les modèles SFT à long contexte. Nos expériences indiquent que LongReward améliore non seulement de manière significative les performances à long contexte des modèles, mais renforce également leur capacité à suivre de courtes instructions. Nous constatons également que le DPO à long contexte avec LongReward et le DPO à court contexte conventionnel peuvent être utilisés ensemble sans nuire aux performances de l'un ou de l'autre.
Nous introduisons une nouvelle technique de localisation spatiale sans entraînement pour la génération de texte vers image en utilisant les Transformateurs de Diffusion (DiT). La localisation spatiale avec des boîtes englobantes a attiré l'attention pour sa simplicité et sa polyvalence, permettant un contrôle utilisateur amélioré dans la génération d'images. Cependant, les approches antérieures sans entraînement reposent souvent sur la mise à jour de l'image bruitée pendant le processus de diffusion inverse via la rétropropagation à partir de fonctions de perte personnalisées, qui ont souvent du mal à fournir un contrôle précis sur chaque boîte englobante individuelle. Dans ce travail, nous exploitons la flexibilité de l'architecture Transformer, démontrant que DiT peut générer des patchs bruités correspondant à chaque boîte englobante, encodant entièrement l'objet cible et permettant un contrôle détaillé sur chaque région. Notre approche s'appuie sur une propriété intrigante de DiT, que nous appelons partage sémantique. En raison du partage sémantique, lorsqu'un patch plus petit est débruité conjointement avec une image de taille générable, les deux deviennent des "clones sémantiques". Chaque patch est débruité dans sa propre branche du processus de génération, puis transplanté dans la région correspondante de l'image bruitée originale à chaque pas de temps, ce qui permet une localisation spatiale robuste pour chaque boîte englobante. Dans nos expériences sur les référentiels HRS et DrawBench, nous obtenons des performances de pointe par rapport aux approches antérieures de localisation spatiale sans entraînement.
Les moteurs de recherche permettent la récupération d'informations inconnues à partir de textes. Cependant, les méthodes traditionnelles montrent leurs limites lorsqu'il s'agit de comprendre du contenu visuel inconnu, tel que l'identification d'un objet que le modèle n'a jamais vu auparavant. Ce défi est particulièrement marqué pour les grands modèles vision-langage (VLM) : si le modèle n'a pas été exposé à l'objet représenté dans une image, il peine à générer des réponses fiables à la question de l'utilisateur concernant cette image. De plus, avec l'émergence continue de nouveaux objets et événements, la mise à jour fréquente des VLM est peu pratique en raison de lourdes charges computationnelles. Pour pallier cette limitation, nous proposons Vision Search Assistant, un nouveau cadre qui facilite la collaboration entre les VLM et les agents web. Cette approche exploite les capacités de compréhension visuelle des VLM et l'accès aux informations en temps réel des agents web pour réaliser une Génération Augmentée par Recherche en monde ouvert via le web. En intégrant les représentations visuelles et textuelles grâce à cette collaboration, le modèle peut fournir des réponses éclairées même lorsque l'image est nouvelle pour le système. Des expériences approfondies menées sur des bancs d'essai de questions-réponses à la fois en ensemble ouvert et en ensemble fermé démontrent que le Vision Search Assistant surpasse significativement les autres modèles et peut être largement appliqué aux VLM existants.
Le déploiement sûr et efficace des Grands Modèles de Langage (GML) implique une étape critique appelée alignement, qui garantit que les réponses du modèle sont conformes aux préférences humaines. Les techniques d'alignement courantes, telles que DPO, PPO et leurs variantes, alignent les GML en modifiant les poids du modèle pré-entraîné lors d'une phase appelée post-entraînement. Bien que prédominantes, ces méthodes de post-entraînement ajoutent une complexité substantielle avant que les GML ne puissent être déployés. Les méthodes d'alignement au moment de l'inférence évitent l'étape complexe de post-entraînement et orientent plutôt la génération vers des réponses alignées sur les préférences humaines. La méthode d'alignement au moment de l'inférence la plus connue, appelée Best-of-N, est aussi efficace que les procédures de post-entraînement de pointe. Malheureusement, Best-of-N nécessite beaucoup plus de ressources au moment de l'inférence que les stratégies de décodage standard, ce qui le rend computationnellement non viable. Dans ce travail, nous introduisons le Rejet Spéculatif, un algorithme d'alignement au moment de l'inférence computationnellement viable. Il génère des réponses à score élevé selon un modèle de récompense donné, comme le fait Best-of-N, tout en étant entre 16 et 32 fois plus efficace sur le plan computationnel.
Nous présentons LARP, un nouveau tokeniseur vidéo conçu pour surmonter les limitations des méthodes actuelles de tokenisation vidéo pour les modèles génératifs autorégressifs (AR). Contrairement aux tokeniseurs traditionnels par patchs qui encodent directement des patchs visuels locaux en tokens discrets, LARP introduit un schéma de tokenisation holistique qui rassemble des informations du contenu visuel en utilisant un ensemble de requêtes holistiques apprises. Cette conception permet à LARP de capturer des représentations plus globales et sémantiques, plutôt que d'être limité aux informations de niveau de patch local. De plus, il offre une flexibilité en prenant en charge un nombre arbitraire de tokens discrets, permettant une tokenisation adaptative et efficace en fonction des exigences spécifiques de la tâche. Pour aligner l'espace de tokens discrets avec les tâches de génération AR en aval, LARP intègre un transformateur AR léger en tant que modèle prioritaire à l'entraînement qui prédit le prochain token dans son espace latent discret. En incorporant le modèle prioritaire lors de l'entraînement, LARP apprend un espace latent qui est non seulement optimisé pour la reconstruction vidéo mais qui est également structuré de manière plus propice à la génération autorégressive. De plus, ce processus définit un ordre séquentiel pour les tokens discrets, les poussant progressivement vers une configuration optimale lors de l'entraînement, garantissant une génération AR plus fluide et précise au moment de l'inférence. Des expériences approfondies démontrent les performances solides de LARP, atteignant un FVD de pointe sur le banc d'essai de génération vidéo conditionnelle à la classe UCF101. LARP améliore la compatibilité des modèles AR avec les vidéos et ouvre la voie à la construction de modèles de langage multimodaux unifiés haute fidélité (MLLMs).
Dans ce travail, nous reformulons le problème de compression de modèle en un problème de compensation personnalisée : Étant donné un modèle compressé, notre objectif est d'introduire des chemins résiduels de bas rang pour compenser les erreurs de compression selon les exigences personnalisées des utilisateurs (par exemple, tâches, taux de compression), ce qui permet une plus grande flexibilité dans l'ajustement de la capacité globale sans être contraint par des formats de compression spécifiques. Cependant, l'application naïve de la SVD pour dériver des chemins résiduels entraîne une utilisation sous-optimale de la capacité de représentation de bas rang. À la place, nous proposons l'Approximation de Bas Rang d'Espace Propre sans Entraînement (EoRA), une méthode qui minimise directement les erreurs induites par la compression sans nécessiter d'entraînement basé sur le gradient, réalisant une optimisation rapide en quelques minutes en utilisant une petite quantité de données de calibration. EoRA projette les erreurs de compression dans l'espace propre des activations d'entrée, exploitant les valeurs propres pour prioriser efficacement la reconstruction des composantes d'erreur de haute importance. De plus, EoRA peut être intégré de manière transparente avec le fine-tuning et la quantification pour améliorer davantage l'efficacité et l'efficience. EoRA surpasse de manière constante les méthodes précédentes en compensant les erreurs pour les modèles LLaMA2/3 compressés sur diverses tâches, telles que la génération de langage, le raisonnement de bon sens et les tâches de raisonnement mathématique (par exemple, des améliorations de 31,31%/12,88% et 9,69% sur ARC-Easy/ARC-Challenge et MathQA lors de la compensation de LLaMA3-8B quantifié à 4 bits et élagué à une sparsité de 2:4). EoRA offre une solution évolutive et sans entraînement pour compenser les erreurs de compression, en faisant un outil puissant pour déployer les LLMs dans diverses exigences de capacité et d'efficacité.
Les grands modèles de langage (LLM) sont coûteux à déployer. Le partage de paramètres offre une voie possible pour réduire leur taille et leur coût, mais son efficacité dans les LLM modernes reste assez limitée. Dans ce travail, nous revisitons le "layer tying" en tant que forme de partage de paramètres dans les Transformers, et introduisons de nouvelles méthodes pour convertir les LLM existants en "Recursive Transformers" plus petits qui partagent des paramètres entre les couches, avec une perte minimale de performance. Ici, nos Recursive Transformers sont initialisés de manière efficace à partir des Transformers pré-entraînés standard, mais n'utilisent qu'un seul bloc de couches uniques qui est ensuite répété plusieurs fois en boucle. Nous améliorons encore les performances en introduisant des Relaxed Recursive Transformers qui ajoutent de la flexibilité à la contrainte de layer tying via des modules d'adaptation à faible rang en profondeur (LoRA), tout en préservant la compacité du modèle global. Nous montrons que nos modèles récursifs (par exemple, Gemma 1B récursif) surpassent à la fois des modèles pré-entraînés de taille similaire (comme TinyLlama 1.1B et Pythia 1B) et des références de distillation de connaissances - et peuvent même retrouver la plupart des performances du modèle "full-size" original (par exemple, Gemma 2B sans paramètres partagés). Enfin, nous proposons le Batching en profondeur continue, un nouveau paradigme prometteur d'inférence rendu possible par le Recursive Transformer lorsqu'il est associé à des sorties anticipées. Dans une analyse théorique, nous montrons que cela a le potentiel de conduire à des gains significatifs (2-3x) dans le débit d'inférence.
Les vidéos sont souvent utilisées pour apprendre ou extraire les informations nécessaires pour accomplir des tâches de manière différente de ce que le texte et les images statiques seuls peuvent fournir. Cependant, de nombreux benchmarks d'agents existants négligent la compréhension des vidéos à long contexte, se concentrant plutôt sur des entrées de texte ou d'images statiques. Pour combler cette lacune, nous introduisons VideoWebArena (VideoWA), un benchmark pour évaluer les capacités des agents multimodaux à long contexte en matière de compréhension des vidéos. VideoWA se compose de 2 021 tâches d'agents web basées sur des tutoriels vidéo créés manuellement, totalisant près de quatre heures de contenu. Pour notre benchmark, nous définissons une taxonomie des tâches d'agents basées sur des vidéos à long contexte avec deux principaux domaines d'intérêt : la rétention des compétences et la rétention des faits. Alors que les tâches de rétention des compétences évaluent si un agent peut utiliser une démonstration humaine donnée pour accomplir une tâche efficacement, la tâche de rétention des faits évalue si un agent peut récupérer des informations pertinentes à l'instruction à partir d'une vidéo pour accomplir une tâche. Nous constatons que le meilleur modèle atteint un taux de réussite de 13,3 % sur les tâches de rétention des faits et de 45,8 % sur les paires de questions-réponses de rétention des faits, bien en dessous des performances humaines à 73,9 % et 79,3 % respectivement. Sur les tâches de rétention des compétences, les modèles à long contexte se comportent moins bien avec les tutoriels qu'avec les autres, montrant une diminution de performance de 5 % dans les tâches de WebArena et de 10,3 % dans les tâches de VisualWebArena. Notre travail met en évidence la nécessité d'améliorer les capacités agentic des modèles multimodaux à long contexte et fournit une plateforme d'essai pour le développement futur avec des agents vidéo à long contexte.
Les champs neuronaux ont émergé comme une approche transformative pour la représentation de scènes 3D en vision par ordinateur et en robotique, permettant une inférence précise de la géométrie, des sémantiques 3D et de la dynamique à partir de données 2D posées. En exploitant le rendu différentiable, les champs neuronaux englobent à la fois des représentations neuronales implicites et explicites continues permettant une reconstruction 3D haute fidélité, l'intégration de données de capteurs multimodaux et la génération de nouveaux points de vue. Cette étude explore leurs applications en robotique, en mettant l'accent sur leur potentiel pour améliorer la perception, la planification et le contrôle. Leur compacité, leur efficacité mémoire et leur différentiabilité, ainsi que leur intégration transparente avec des modèles fondamentaux et génératifs, les rendent idéaux pour des applications en temps réel, améliorant l'adaptabilité et la prise de décision des robots. Cet article propose une revue approfondie des champs neuronaux en robotique, en catégorisant les applications dans divers domaines et en évaluant leurs forces et limitations, sur la base de plus de 200 articles. Tout d'abord, nous présentons quatre cadres clés de champs neuronaux : Réseaux d'Occupation, Champs de Distance Signée, Champs de Radiance Neuronale et Étalement Gaussien. Ensuite, nous détaillons les applications des champs neuronaux dans cinq domaines majeurs de la robotique : estimation de pose, manipulation, navigation, physique et conduite autonome, mettant en évidence des travaux clés et discutant des enseignements et des défis ouverts. Enfin, nous soulignons les limitations actuelles des champs neuronaux en robotique et proposons des orientations prometteuses pour la recherche future. Page du projet : https://robonerf.github.io
Dériver efficacement des workflows structurés à partir de dialogues non annotés reste un défi sous-exploré et redoutable en linguistique computationnelle. Automatiser ce processus pourrait accélérer considérablement la conception manuelle de workflows dans de nouveaux domaines et permettre l'ancrage de grands modèles linguistiques dans des organigrammes spécifiques au domaine, améliorant ainsi la transparence et la contrôlabilité. Dans cet article, nous introduisons les embeddings Dialog2Flow (D2F), qui se distinguent des embeddings de phrases conventionnels en cartographiant les énoncés dans un espace latent où ils sont regroupés selon leurs fonctions communicatives et informatives (c'est-à-dire les actions qu'ils représentent). D2F permet de modéliser les dialogues comme des trajectoires continues dans un espace latent avec des régions distinctes liées aux actions. En regroupant les embeddings D2F, l'espace latent est quantifié, et les dialogues peuvent être convertis en séquences d'identifiants de région/action, facilitant l'extraction du workflow sous-jacent. Pour pré-entraîner D2F, nous construisons un ensemble de données complet en unifiant vingt ensembles de données de dialogues orientés vers des tâches avec des annotations d'actions normalisées par tour. Nous introduisons également une nouvelle perte contrastive douce qui exploite les informations sémantiques de ces actions pour guider le processus d'apprentissage de la représentation, montrant des performances supérieures par rapport à la perte contrastive supervisée standard. L'évaluation par rapport à divers embeddings de phrases, y compris ceux spécifiques aux dialogues, démontre que D2F produit des résultats qualitatifs et quantitatifs supérieurs dans divers domaines.
Cette recherche teste le rôle des Grands Modèles de Langage (GML) en tant qu'outils formels de deuxième avis dans la prise de décision professionnelle, en se concentrant particulièrement sur des cas médicaux complexes où même les médecins expérimentés recherchent des consultations entre pairs. Le travail a analysé 183 cas médicaux difficiles provenant de Medscape sur une période de 20 mois, testant les performances de plusieurs GML par rapport aux réponses des médecins obtenues de manière collaborative. Une découverte clé a été le score global élevé possible dans les derniers modèles fondamentaux (>80% de précision par rapport à l'opinion consensuelle), dépassant la plupart des mesures humaines rapportées sur les mêmes cas cliniques (450 pages de profils de patients, résultats de tests). L'étude évalue l'écart de performance des GML entre les cas simples (>81% de précision) et les scénarios complexes (43% de précision), en particulier dans ces cas générant un débat important parmi les médecins humains. La recherche démontre que les GML pourraient être précieux en tant que générateurs de diagnostics différentiels complets plutôt qu'en tant qu'outils diagnostiques primaires, aidant potentiellement à contrer les biais cognitifs dans la prise de décision clinique, à réduire les charges cognitives et ainsi à éliminer certaines sources d'erreurs médicales. L'inclusion d'un deuxième ensemble de données juridiques comparatives (affaires de la Cour Suprême, N=21) fournit un contexte empirique supplémentaire à l'utilisation de l'IA pour favoriser les deuxièmes avis, bien que ces défis juridiques se soient avérés considérablement plus faciles à analyser pour les GML. En plus des contributions originales de preuves empiriques pour la précision des GML, la recherche a agrégé un nouvel étalon pour que d'autres évaluent la fiabilité des questions et réponses très contestées entre les GML et les praticiens humains en désaccord. Ces résultats suggèrent que le déploiement optimal des GML dans des environnements professionnels peut différer considérablement des approches actuelles qui mettent l'accent sur l'automatisation des tâches routinières.
Étant donné le coût élevé de la collecte de données robotiques dans le monde réel, l'efficacité de l'échantillonnage est une quête constante en robotique. Dans cet article, nous présentons SGRv2, un cadre d'apprentissage par imitation qui améliore l'efficacité de l'échantillonnage grâce à des représentations visuelles et d'actions améliorées. Au cœur de la conception de SGRv2 se trouve l'incorporation d'un biais inductif critique - la localité de l'action - qui postule que les actions du robot sont principalement influencées par l'objet cible et ses interactions avec l'environnement local. Des expériences approfondies menées dans des environnements simulés et réels démontrent que la localité de l'action est essentielle pour améliorer l'efficacité de l'échantillonnage. SGRv2 excelle dans les tâches de RLBench avec un contrôle par images clés en utilisant seulement 5 démonstrations et dépasse la ligne de base RVT dans 23 des 26 tâches. De plus, lorsqu'évalué sur ManiSkill2 et MimicGen en utilisant un contrôle dense, le taux de réussite de SGRv2 est 2,54 fois supérieur à celui de SGR. Dans des environnements réels, avec seulement huit démonstrations, SGRv2 peut effectuer une variété de tâches à un taux de réussite nettement plus élevé par rapport aux modèles de base. Site web du projet : http://sgrv2-robot.github.io
L'apprentissage par imitation à partir de données de capture de mouvement humain (MoCap) offre une voie prometteuse pour entraîner des robots humanoïdes. Cependant, en raison de différences de morphologie, telles que des degrés variables de liberté articulaire et des limites de force, une réplication exacte des comportements humains peut ne pas être réalisable pour les robots humanoïdes. Par conséquent, l'incorporation de données MoCap physiquement irréalisables dans les ensembles de données d'entraînement peut affecter négativement les performances de la politique du robot. Pour résoudre ce problème, nous proposons un cadre d'apprentissage par imitation basé sur une optimisation bi-niveau qui alterne entre l'optimisation de la politique du robot et des données cibles MoCap. Plus précisément, nous développons d'abord un modèle dynamique latent génératif en utilisant un auto-encodeur auto-cohérent novateur, qui apprend des représentations de mouvement clairsemées et structurées tout en capturant les motifs de mouvement souhaités dans l'ensemble de données. Le modèle dynamique est ensuite utilisé pour générer des mouvements de référence tandis que la représentation latente régularise le processus d'imitation de mouvement bi-niveau. Des simulations réalisées avec un modèle réaliste d'un robot humanoïde démontrent que notre méthode améliore la politique du robot en modifiant les mouvements de référence pour qu'ils soient physiquement cohérents.