Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que le commerce en ligne se développe, la capacité des acheteurs à visualiser virtuellement des produits dans leur environnement - un phénomène que nous définissons comme "Virtual Try-All" - est devenue cruciale. Les modèles de diffusion récents contiennent intrinsèquement un modèle du monde, les rendant adaptés à cette tâche dans un contexte de réparation d'image. Cependant, les modèles de diffusion traditionnels conditionnés par l'image échouent souvent à capturer les détails fins des produits. En revanche, les modèles axés sur la personnalisation, tels que DreamPaint, sont efficaces pour préserver les détails des articles mais ne sont pas optimisés pour des applications en temps réel. Nous présentons "Diffuse to Choose", un nouveau modèle de réparation d'image basé sur la diffusion et conditionné par l'image, qui équilibre efficacement une inférence rapide avec la rétention de détails haute fidélité d'un article de référence tout en assurant des manipulations sémantiques précises dans le contenu de la scène donnée. Notre approche repose sur l'incorporation de caractéristiques fines de l'image de référence directement dans les cartes de caractéristiques latentes du modèle de diffusion principal, accompagnée d'une perte perceptuelle pour préserver davantage les détails de l'article de référence. Nous menons des tests approfondis sur des ensembles de données internes et publics, et montrons que Diffuse to Choose surpasse les méthodes existantes de réparation d'image par diffusion en zero-shot ainsi que les algorithmes de personnalisation par diffusion en few-shot comme DreamPaint.
Le développement rapide des grands modèles de langage a révolutionné l'intelligence du code dans le développement logiciel. Cependant, la prédominance des modèles propriétaires a limité les recherches et développements approfondis. Pour remédier à cela, nous présentons la série DeepSeek-Coder, une gamme de modèles de code open-source dont les tailles varient de 1,3 milliard à 33 milliards de paramètres, entraînés à partir de zéro sur 2 000 milliards de tokens. Ces modèles sont pré-entraînés sur un corpus de code de haute qualité au niveau projet et utilisent une tâche de remplissage de texte avec une fenêtre de 16 000 tokens pour améliorer la génération et le remplissage de code. Nos évaluations approfondies démontrent que DeepSeek-Coder non seulement atteint des performances de pointe parmi les modèles de code open-source sur plusieurs benchmarks, mais surpasse également les modèles propriétaires existants comme Codex et GPT-3.5. De plus, les modèles DeepSeek-Coder sont sous une licence permissive permettant à la fois la recherche et une utilisation commerciale sans restriction.
Dans ce travail, nous réexaminons les dépendances inter-patch dans le mécanisme de décodage des autoencodeurs masqués (MAE). Nous décomposons ce mécanisme de décodage pour la reconstruction de patchs masqués dans les MAE en auto-attention et attention croisée. Nos investigations suggèrent que l'auto-attention entre les patchs masqués n'est pas essentielle pour l'apprentissage de bonnes représentations. À cette fin, nous proposons un nouveau cadre de pré-entraînement : les Autoencodeurs Masqués à Attention Croisée (CrossMAE). Le décodeur de CrossMAE exploite uniquement l'attention croisée entre les tokens masqués et visibles, sans dégradation des performances en aval. Cette conception permet également de décoder uniquement un petit sous-ensemble de tokens masqués, améliorant ainsi l'efficacité. De plus, chaque bloc de décodeur peut désormais exploiter différentes caractéristiques de l'encodeur, ce qui améliore l'apprentissage des représentations. CrossMAE atteint les performances des MAE avec 2,5 à 3,7 fois moins de calculs de décodage. Il surpasse également les MAE sur la classification ImageNet et la segmentation d'instances COCO avec la même quantité de calculs. Code et modèles : https://crossmae.github.io
Dans le paysage dynamique du NLP génératif, les pipelines traditionnels de traitement de texte limitent la flexibilité et la reproductibilité de la recherche, car ils sont conçus pour des combinaisons spécifiques de jeux de données, de tâches et de modèles. La complexité croissante, impliquant des prompts système, des formats spécifiques aux modèles, des instructions et bien plus encore, appelle un changement vers une solution structurée, modulaire et personnalisable. Pour répondre à ce besoin, nous présentons Unitxt, une bibliothèque innovante pour la préparation et l'évaluation personnalisées de données textuelles adaptées aux modèles de langage génératifs. Unitxt s'intègre nativement avec des bibliothèques courantes comme HuggingFace et LM-eval-harness et décompose les flux de traitement en composants modulaires, permettant une personnalisation et un partage faciles entre les praticiens. Ces composants englobent des formats spécifiques aux modèles, des prompts de tâches et de nombreuses autres définitions complètes de traitement de jeux de données. Le Catalogue Unitxt centralise ces composants, favorisant la collaboration et l'exploration dans les workflows modernes de données textuelles. Plus qu'un simple outil, Unitxt est une plateforme communautaire, permettant aux utilisateurs de construire, partager et faire progresser leurs pipelines de manière collaborative. Rejoignez la communauté Unitxt sur https://github.com/IBM/unitxt !
La quantification sur six bits (FP6) peut efficacement réduire la taille des grands modèles de langage (LLMs) tout en préservant la qualité du modèle de manière cohérente dans diverses applications. Cependant, les systèmes existants ne fournissent pas de support Tensor Core pour la quantification FP6 et peinent à obtenir des améliorations pratiques de performance lors de l'inférence des LLMs. Il est difficile de supporter la quantification FP6 sur les GPU en raison (1) d'un accès mémoire peu favorable des poids du modèle avec une largeur de bits irrégulière et (2) d'une surcharge élevée en temps d'exécution pour la dé-quantification des poids. Pour résoudre ces problèmes, nous proposons TC-FPx, le premier schéma de conception de noyau GPU full-stack avec un support Tensor Core unifié pour les poids en virgule flottante avec différentes largeurs de bits de quantification. Nous intégrons le noyau TC-FPx dans un système d'inférence existant, offrant un nouveau support de bout en bout (appelé FP6-LLM) pour l'inférence des LLMs quantifiés, où de meilleurs compromis entre le coût d'inférence et la qualité du modèle sont atteints. Les expériences montrent que FP6-LLM permet l'inférence de LLaMA-70b en utilisant un seul GPU, atteignant un débit d'inférence normalisé 1,69x à 2,65x supérieur à la base de référence FP16. Le code source sera bientôt disponible publiquement.
Dans cette étude, nous examinons les capacités d'apprentissage de représentation des modèles de diffusion par débruitage (Denoising Diffusion Models, DDM), initialement conçus pour la génération d'images. Notre approche consiste à déconstruire un DDM, en le transformant progressivement en un autoencodeur débruiteur (Denoising Autoencoder, DAE) classique. Cette procédure de déconstruction nous permet d'explorer comment les différents composants des DDM modernes influencent l'apprentissage auto-supervisé de représentations. Nous observons que seuls quelques composants modernes sont essentiels pour apprendre de bonnes représentations, tandis que beaucoup d'autres sont superflus. Notre étude aboutit à une approche fortement simplifiée qui, dans une large mesure, ressemble à un DAE classique. Nous espérons que cette étude ravivera l'intérêt pour une famille de méthodes classiques dans le domaine de l'apprentissage auto-supervisé moderne.
Nous proposons d’améliorer les transformeurs d’une modalité spécifique en utilisant des données non pertinentes provenant d’autres modalités, par exemple, améliorer un modèle ImageNet avec des ensembles de données audio ou de nuages de points. Nous tenons à souligner que les échantillons de données de la modalité cible ne sont pas pertinents par rapport aux autres modalités, ce qui distingue notre méthode des autres travaux utilisant des données appariées (par exemple, CLIP) ou entrelacées de différentes modalités. Nous proposons une méthodologie appelée Multimodal Pathway : étant donné une modalité cible et un transformeur conçu pour celle-ci, nous utilisons un transformeur auxiliaire entraîné avec des données d’une autre modalité et construisons des chemins pour connecter les composants des deux modèles, de sorte que les données de la modalité cible puissent être traitées par les deux modèles. De cette manière, nous exploitons les capacités universelles de modélisation séquence-à-séquence des transformeurs obtenues à partir de deux modalités. En tant qu’implémentation concrète, nous utilisons un tokenizer spécifique à la modalité et une tête spécifique à la tâche comme d’habitude, mais nous exploitons les blocs de transformeurs du modèle auxiliaire via une méthode proposée appelée Reparamétrisation Transmodale, qui utilise les poids auxiliaires sans aucun coût d’inférence. Sur les tâches de reconnaissance d’images, de nuages de points, de vidéos et d’audio, nous observons des améliorations significatives et cohérentes des performances avec des données non pertinentes provenant d’autres modalités. Le code et les modèles sont disponibles à l’adresse https://github.com/AILab-CVC/M2PT.
Le déploiement de robots dans des environnements ouverts et non structurés, tels que les foyers, constitue un problème de recherche de longue date. Cependant, les robots sont souvent étudiés uniquement dans des environnements de laboratoire fermés, et les travaux antérieurs sur la manipulation mobile se limitent généralement à des tâches de prise-déplacement-placement, qui ne représentent qu'une fraction des défis dans ce domaine. Dans cet article, nous présentons le système de manipulation mobile en monde ouvert, une approche complète visant à aborder l'opération réaliste d'objets articulés, tels que les portes, les armoires, les tiroirs et les réfrigérateurs, dans des environnements ouverts et non structurés. Le robot utilise un cadre d'apprentissage adaptatif pour apprendre initialement à partir d'un petit ensemble de données via le clonage comportemental, suivi d'un apprentissage basé sur la pratique en ligne sur des objets nouveaux qui ne font pas partie de la distribution d'entraînement. Nous développons également une plateforme matérielle de manipulation mobile à faible coût, capable de s'adapter de manière sûre et autonome en ligne dans des environnements non structurés, pour un coût d'environ 20 000 USD. Dans nos expériences, nous utilisons 20 objets articulés répartis dans 4 bâtiments du campus de CMU. Avec moins d'une heure d'apprentissage en ligne pour chaque objet, le système parvient à augmenter le taux de réussite de 50 % avant l'entraînement par clonage comportemental à 95 % grâce à l'adaptation en ligne. Les résultats vidéo sont disponibles à l'adresse https://open-world-mobilemanip.github.io/.
Nous présentons pix2gestalt, un cadre pour la segmentation amodale en zéro-shot, qui apprend à estimer la forme et l'apparence d'objets entiers qui ne sont que partiellement visibles derrière des occlusions. En exploitant des modèles de diffusion à grande échelle et en transférant leurs représentations à cette tâche, nous apprenons un modèle de diffusion conditionnelle pour reconstruire des objets entiers dans des cas de zéro-shot difficiles, y compris des exemples qui défient les préconceptions naturelles et physiques, comme l'art. Comme données d'entraînement, nous utilisons un ensemble de données synthétiquement organisé contenant des objets occlus associés à leurs versions complètes. Les expériences montrent que notre approche surpasse les méthodes supervisées de référence sur des benchmarks établis. Notre modèle peut en outre être utilisé pour améliorer significativement les performances des méthodes existantes de reconnaissance d'objets et de reconstruction 3D en présence d'occlusions.
L'absence de données de haute qualité pour les tâches de génération ancrée dans le contenu a été identifiée comme un obstacle majeur à l'avancement de ces tâches. Pour combler cette lacune, nous proposons Genie, une méthode novatrice permettant de générer automatiquement des données de haute qualité ancrées dans le contenu. Elle se compose de trois étapes : (a) Préparation du contenu, (b) Génération : création d'exemples spécifiques à la tâche à partir du contenu (par exemple, des paires question-réponse ou des résumés). (c) Mécanisme de filtrage visant à garantir la qualité et la fidélité des données générées. Nous illustrons cette méthodologie en générant trois ensembles de données synthétiques à grande échelle pour la réponse à des questions longues (Long-Form Question-Answering, LFQA), la synthèse et l'extraction d'informations. Lors d'une évaluation humaine, nos données générées ont été jugées naturelles et de haute qualité. De plus, nous comparons les modèles entraînés sur nos données avec des modèles entraînés sur des données rédigées par des humains — ELI5 et ASQA pour la LFQA, et CNN-DailyMail pour la synthèse. Nous montrons que nos modèles sont comparables ou surpassent les modèles entraînés sur des données générées par des humains et les surpassent systématiquement en termes de fidélité. Enfin, nous avons appliqué notre méthode pour créer des données LFQA dans le domaine médical et avons comparé un modèle entraîné sur ces données avec des modèles entraînés sur d'autres domaines.