Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article aborde un défi majeur rencontré par les Vision Transformers (ViTs) : leur scalabilité limitée face à différentes résolutions d'images. Typiquement, les ViTs voient leurs performances diminuer lorsqu'ils traitent des résolutions différentes de celles rencontrées lors de l'entraînement. Notre travail introduit deux innovations clés pour résoudre ce problème. Premièrement, nous proposons un nouveau module d'ajustement dynamique de la résolution, conçu avec un seul bloc Transformer, spécifiquement pour réaliser une intégration incrémentale de tokens hautement efficace. Deuxièmement, nous introduisons un encodage positionnel flou dans le Vision Transformer pour fournir une conscience positionnelle cohérente à travers plusieurs résolutions, évitant ainsi le surapprentissage à une seule résolution d'entraînement. Notre modèle résultant, ViTAR (Vision Transformer with Any Resolution), démontre une adaptabilité impressionnante, atteignant une précision top-1 de 83,3 % à une résolution de 1120x1120 et 80,4 % à une résolution de 4032x4032, tout en réduisant les coûts de calcul. ViTAR montre également de solides performances dans des tâches en aval telles que la segmentation d'instances et sémantique, et peut facilement être combiné avec des techniques d'apprentissage auto-supervisé comme le Masked AutoEncoder. Notre travail offre une solution économique pour améliorer la scalabilité en résolution des ViTs, ouvrant la voie à un traitement d'images haute résolution plus polyvalent et efficace.
Dans ce travail, nous présentons Mini-Gemini, un cadre simple et efficace pour améliorer les modèles de langage visuel (VLMs) multimodaux. Malgré les avancées des VLMs facilitant les dialogues visuels de base et le raisonnement, un écart de performance persiste par rapport aux modèles avancés comme GPT-4 et Gemini. Nous cherchons à réduire cet écart en exploitant le potentiel des VLMs pour une meilleure performance et un flux de travail universel à travers trois aspects : les tokens visuels haute résolution, les données de haute qualité, et la génération guidée par VLM. Pour améliorer les tokens visuels, nous proposons d'utiliser un encodeur visuel supplémentaire pour un raffinement haute résolution sans augmenter le nombre de tokens visuels. Nous construisons également un ensemble de données de haute qualité qui favorise une compréhension précise des images et une génération basée sur le raisonnement, élargissant ainsi le champ d'application des VLMs actuels. En général, Mini-Gemini exploite davantage le potentiel des VLMs et renforce les cadres actuels avec la compréhension, le raisonnement et la génération d'images simultanément. Mini-Gemini prend en charge une série de modèles de langage massifs (LLMs) denses et MoE, allant de 2B à 34B. Il démontre des performances de pointe dans plusieurs benchmarks en zero-shot et dépasse même les modèles privés développés. Le code et les modèles sont disponibles à l'adresse https://github.com/dvlab-research/MiniGemini.
Les modèles de diffusion ont révolutionné l'édition d'images, mais génèrent souvent des images qui violent les lois physiques, en particulier les effets des objets sur la scène, comme les occlusions, les ombres et les réflexions. En analysant les limites des approches auto-supervisées, nous proposons une solution pratique centrée sur un ensemble de données contrefactuelles. Notre méthode consiste à capturer une scène avant et après la suppression d'un seul objet, tout en minimisant les autres changements. En affinant un modèle de diffusion sur cet ensemble de données, nous sommes capables non seulement de supprimer des objets, mais aussi leurs effets sur la scène. Cependant, nous constatons que l'application de cette approche pour l'insertion photoréaliste d'objets nécessite un ensemble de données impraticablement volumineux. Pour relever ce défi, nous proposons une supervision par amorçage ; en exploitant notre modèle de suppression d'objets entraîné sur un petit ensemble de données contrefactuelles, nous étendons synthétiquement cet ensemble de manière significative. Notre approche surpasse nettement les méthodes antérieures en matière de suppression et d'insertion photoréalistes d'objets, en particulier dans la modélisation des effets des objets sur la scène.
Les grands modèles de langage (LLM) génèrent souvent du contenu contenant des erreurs factuelles lorsqu'ils répondent à des prompts cherchant des faits sur des sujets ouverts. Pour évaluer la factualité à long terme d'un modèle dans des domaines ouverts, nous utilisons d'abord GPT-4 pour générer LongFact, un ensemble de prompts comprenant des milliers de questions couvrant 38 sujets. Nous proposons ensuite que des agents LLM puissent être utilisés comme évaluateurs automatisés de la factualité à long terme grâce à une méthode que nous appelons Search-Augmented Factuality Evaluator (SAFE). SAFE utilise un LLM pour décomposer une réponse longue en un ensemble de faits individuels et pour évaluer l'exactitude de chaque fait à travers un processus de raisonnement en plusieurs étapes comprenant l'envoi de requêtes de recherche à Google Search et la détermination de si un fait est soutenu par les résultats de recherche. De plus, nous proposons d'étendre le score F1 comme métrique agrégée pour la factualité à long terme. Pour ce faire, nous équilibrons le pourcentage de faits soutenus dans une réponse (précision) avec le pourcentage de faits fournis par rapport à un hyperparamètre représentant la longueur de réponse préférée par l'utilisateur (rappel). Empiriquement, nous démontrons que les agents LLM peuvent atteindre des performances de notation surhumaines - sur un ensemble d'environ 16k faits individuels, SAFE est d'accord avec les annotateurs humains crowdsourcés 72% du temps, et sur un sous-ensemble aléatoire de 100 cas de désaccord, SAFE l'emporte 76% du temps. Parallèlement, SAFE est plus de 20 fois moins cher que les annotateurs humains. Nous évaluons également treize modèles de langage sur LongFact à travers quatre familles de modèles (Gemini, GPT, Claude et PaLM-2), constatant que les plus grands modèles de langage atteignent généralement une meilleure factualité à long terme. LongFact, SAFE et tout le code expérimental sont disponibles à l'adresse https://github.com/google-deepmind/long-form-factuality.
Nous présentons Garment3DGen, une nouvelle méthode pour synthétiser des actifs 3D de vêtements à partir d'un maillage de base en utilisant une seule image d'entrée comme guide. Notre approche proposée permet aux utilisateurs de générer des vêtements 3D texturés à partir d'images réelles ou synthétiques, telles que celles générées par des prompts textuels. Les actifs générés peuvent être directement drapés et simulés sur des corps humains. Tout d'abord, nous exploitons les récents progrès des méthodes de diffusion d'image vers 3D pour générer des géométries de vêtements en 3D. Cependant, comme ces géométries ne peuvent pas être utilisées directement pour des tâches ultérieures, nous proposons de les utiliser comme pseudo vérité terrain et mettons en place une procédure d'optimisation de déformation de maillage qui déforme un maillage de base pour correspondre à la cible 3D générée. Ensuite, nous introduisons des fonctions de perte soigneusement conçues qui permettent au maillage de base de se déformer librement vers la cible souhaitée, tout en préservant la qualité et la topologie du maillage afin qu'il puisse être simulé. Enfin, un module d'estimation de texture génère des cartes de texture haute fidélité qui sont globalement et localement cohérentes et capturent fidèlement le guide d'entrée, nous permettant de rendre les actifs 3D générés. Avec Garment3DGen, les utilisateurs peuvent générer le vêtement 3D texturé de leur choix sans avoir besoin de l'intervention d'un artiste. On peut fournir un prompt textuel décrivant le vêtement souhaité pour générer un actif 3D prêt à la simulation. Nous présentons une pléthore de comparaisons quantitatives et qualitatives sur divers actifs, réels et générés, et fournissons des cas d'utilisation montrant comment générer des vêtements 3D prêts à la simulation.
Des modèles tels que GPT-4 et Med-PaLM 2 ont démontré des performances impressionnantes sur une grande variété de tâches de traitement du langage naturel (NLP) biomédical. Cependant, ces modèles comportent des centaines de milliards de paramètres, sont coûteux en termes de calcul, nécessitent que les utilisateurs envoient leurs données d'entrée via internet, et sont entraînés sur des sources de données inconnues. Des modèles plus petits et plus ciblés peuvent-ils rivaliser ? Pour répondre à cette question, nous avons construit et publié BioMedLM, un modèle autoregressif de style GPT de 2,7 milliards de paramètres, entraîné exclusivement sur des résumés et des articles complets de PubMed. Lorsqu'il est affiné, BioMedLM peut produire des résultats solides en réponse à des questions biomédicales à choix multiples, rivalisant avec des modèles beaucoup plus grands, comme un score de 57,3 % sur MedMCQA (dev) et 69,0 % sur l'examen MMLU Medical Genetics. BioMedLM peut également être affiné pour fournir des réponses utiles aux questions des patients sur des sujets médicaux. Cela démontre que des modèles plus petits peuvent potentiellement servir de bases transparentes, respectueuses de la vie privée, économiques et écologiques pour des applications spécifiques de NLP, comme dans le domaine biomédical. Le modèle est disponible sur le Hugging Face Hub : https://huggingface.co/stanford-crfm/BioMedLM.
Nous abordons le défi de la reconstruction efficace d'un objet 3D à partir d'une seule image, face à la demande croissante de pipelines automatisés de création de contenu 3D. Les méthodes précédentes reposent principalement sur le Score Distillation Sampling (SDS) et les Champs de Radiance Neuronaux (NeRF). Malgré leur succès significatif, ces approches rencontrent des limitations pratiques dues à une optimisation longue et à une utilisation considérable de la mémoire. Dans ce rapport, nous présentons Gamba, un modèle de reconstruction 3D amorti de bout en bout à partir d'images à vue unique, mettant en avant deux idées principales : (1) Représentation 3D : l'utilisation d'un grand nombre de Gaussiennes 3D pour un processus de splatting Gaussien 3D efficace ; (2) Conception du backbone : l'introduction d'un réseau séquentiel basé sur Mamba qui facilite le raisonnement contextuel et une scalabilité linéaire avec la longueur de la séquence (token), permettant d'accommoder un nombre substantiel de Gaussiennes. Gamba intègre des avancées significatives dans le prétraitement des données, la conception de la régularisation et les méthodologies d'entraînement. Nous avons évalué Gamba par rapport aux approches existantes de génération 3D basées sur l'optimisation et le feed-forward en utilisant le jeu de données OmniObject3D scanné en conditions réelles. Ici, Gamba démontre des capacités de génération compétitives, à la fois qualitativement et quantitativement, tout en atteignant une vitesse remarquable, environ 0,6 seconde sur une seule GPU NVIDIA A100.
Dans cet article, nous présentons EgoLifter, un système novateur capable de segmenter automatiquement des scènes capturées par des capteurs égocentriques en une décomposition complète d'objets 3D individuels. Le système est spécifiquement conçu pour les données égocentriques où les scènes contiennent des centaines d'objets capturés à partir de mouvements naturels (non balayés). EgoLifter adopte les gaussiennes 3D comme représentation sous-jacente des scènes et objets 3D, et utilise des masques de segmentation du modèle Segment Anything Model (SAM) comme supervision faible pour apprendre des définitions flexibles et incitables d'instances d'objets, indépendamment de toute taxonomie d'objets spécifique. Pour relever le défi des objets dynamiques dans les vidéos égocentriques, nous avons conçu un module de prédiction transitoire qui apprend à filtrer les objets dynamiques dans la reconstruction 3D. Le résultat est un pipeline entièrement automatique capable de reconstruire des instances d'objets 3D sous forme de collections de gaussiennes 3D qui composent collectivement l'ensemble de la scène. Nous avons créé un nouveau benchmark sur le jeu de données Aria Digital Twin qui démontre quantitativement ses performances de pointe en segmentation 3D en monde ouvert à partir d'entrées égocentriques naturelles. Nous avons exécuté EgoLifter sur divers jeux de données d'activités égocentriques, montrant ainsi le potentiel de la méthode pour la perception 3D égocentrique à grande échelle.
Notre travail aborde les limitations observées dans les approches précédentes pour les problèmes d'édition centrés sur les objets, telles que des résultats irréalistes dus à des divergences de forme et un contrôle limité dans le remplacement ou l'insertion d'objets. À cette fin, nous introduisons FlexEdit, un cadre d'édition flexible et contrôlable pour les objets, où nous ajustons itérativement les latents à chaque étape de débruitage en utilisant notre bloc FlexEdit. Initialement, nous optimisons les latents au moment du test pour les aligner avec les contraintes spécifiées de l'objet. Ensuite, notre cadre utilise un masque adaptatif, extrait automatiquement pendant le débruitage, pour protéger l'arrière-plan tout en intégrant de manière fluide le nouveau contenu dans l'image cible. Nous démontrons la polyvalence de FlexEdit dans diverses tâches d'édition d'objets et constituons une suite de tests d'évaluation avec des échantillons provenant d'images réelles et synthétiques, ainsi que de nouvelles métriques d'évaluation conçues pour l'édition centrée sur les objets. Nous menons des expériences approfondies sur différents scénarios d'édition, démontrant la supériorité de notre cadre d'édition par rapport aux méthodes récentes d'édition d'images guidées par texte. Notre page de projet est publiée à l'adresse https://flex-edit.github.io/.
Les modèles de langage basés sur des réseaux de neurones (NNLMs) pour les assistants virtuels (VAs) sont généralement dépendants de la langue, de la région et, dans certains cas, de l'appareil, ce qui accroît l'effort nécessaire pour les mettre à l'échelle et les maintenir. Combiner les NNLMs pour une ou plusieurs de ces catégories est une manière d'améliorer leur évolutivité. Dans ce travail, nous combinons des variantes régionales de l'anglais pour construire un NNLM « World English » destiné aux VAs embarqués. En particulier, nous étudions l'application de goulots d'étranglement adaptatifs pour modéliser les caractéristiques spécifiques aux dialectes dans nos NNLMs de production existants et améliorer les références multi-dialectes. Nous constatons que les modules adaptatifs sont plus efficaces pour modéliser les dialectes que la spécialisation de sous-réseaux entiers. Sur la base de cette observation et en tirant parti de la conception de nos modèles de production, nous introduisons une nouvelle architecture pour le NNLM World English qui répond aux contraintes de précision, de latence et de mémoire de nos modèles mono-dialectes.