Articles de recherche en IA sélectionnés quotidiennement avec traductions
Pour interagir avec les humains dans le monde, les agents doivent comprendre les divers types de langage que les gens utilisent, les relier au monde visuel et agir en conséquence. Alors que les agents actuels apprennent à exécuter des instructions linguistiques simples à partir de récompenses de tâches, nous visons à construire des agents qui exploitent un langage diversifié, véhiculant des connaissances générales, décrivant l'état du monde, fournissant des retours interactifs, et plus encore. Notre idée clé est que le langage aide les agents à prédire l'avenir : ce qui sera observé, comment le monde se comportera, et quelles situations seront récompensées. Cette perspective unifie la compréhension du langage avec la prédiction future comme un objectif puissant d'apprentissage auto-supervisé. Nous présentons Dynalang, un agent qui apprend un modèle de monde multimodal prédisant les représentations futures de texte et d'images, et apprend à agir à partir de simulations de modèle imaginées. Contrairement aux agents traditionnels qui utilisent le langage uniquement pour prédire des actions, Dynalang acquiert une compréhension riche du langage en utilisant le langage passé pour prédire également le langage futur, la vidéo et les récompenses. En plus d'apprendre à partir d'interactions en ligne dans un environnement, Dynalang peut être pré-entraîné sur des ensembles de données de texte, de vidéo, ou les deux, sans actions ni récompenses. De l'utilisation d'indices linguistiques dans des mondes en grille à la navigation dans des scans photoréalistes de maisons, Dynalang exploite divers types de langage pour améliorer la performance des tâches, y compris les descriptions d'environnement, les règles de jeu et les instructions.
Nous présentons OpenFlamingo, une famille de modèles vision-langage autoregressifs allant de 3 à 9 milliards de paramètres. OpenFlamingo est un effort continu visant à produire une réplication open-source des modèles Flamingo de DeepMind. Sur sept ensembles de données vision-langage, les modèles OpenFlamingo atteignent en moyenne entre 80 et 89 % des performances des modèles Flamingo correspondants. Ce rapport technique décrit nos modèles, les données d'entraînement, les hyperparamètres et notre suite d'évaluation. Nous partageons nos modèles et notre code à l'adresse https://github.com/mlfoundations/open_flamingo.
Le raisonnement mathématique constitue une tâche difficile pour les grands modèles de langage (LLMs), tandis que la relation d'échelle de cette capacité par rapport à la taille des LLMs reste peu explorée. Dans cet article, nous étudions comment la perte lors du pré-entraînement, la quantité de données supervisées et la quantité de données augmentées influencent les performances de raisonnement d'un LLM supervisé. Nous constatons que la perte lors du pré-entraînement est un meilleur indicateur des performances du modèle que le nombre de paramètres de ce dernier. Nous appliquons un ajustement fin supervisé (SFT) avec différentes quantités de données supervisées et trouvons empiriquement une relation log-linéaire entre la quantité de données et les performances du modèle, et nous observons que les meilleurs modèles s'améliorent moins avec des ensembles de données supervisées élargis. Pour augmenter le nombre d'échantillons de données afin d'améliorer les performances des modèles sans effort humain, nous proposons d'appliquer l'ajustement fin par échantillonnage de rejet (RFT). Le RFT utilise des modèles supervisés pour générer et collecter des chemins de raisonnement corrects comme ensembles de données d'ajustement fin augmentés. Nous constatons qu'avec des échantillons augmentés contenant des chemins de raisonnement plus distincts, le RFT améliore davantage les performances en raisonnement mathématique pour les LLMs. Nous observons également que le RFT apporte plus d'amélioration pour les LLMs moins performants. De plus, nous combinons des échantillons de rejet provenant de plusieurs modèles, ce qui permet à LLaMA-7B d'atteindre une précision de 49,3 %, surpassant significativement la précision de 35,9 % obtenue par l'ajustement fin supervisé (SFT).
Les modèles de diffusion ont montré des résultats prometteurs dans les tâches de génération intermodale, notamment la génération de texte à image et de texte à audio. Cependant, la génération de musique, en tant que type particulier d'audio, présente des défis uniques en raison de la disponibilité limitée des données musicales et des questions sensibles liées au droit d'auteur et au plagiat. Dans cet article, pour relever ces défis, nous construisons d'abord un modèle de pointe de génération de texte à musique, MusicLDM, qui adapte les architectures de Stable Diffusion et AudioLDM au domaine musical. Nous y parvenons en réentraînant le modèle de pré-entraînement contrastif langage-audio (CLAP) et le vocodeur Hifi-GAN, en tant que composants de MusicLDM, sur un ensemble d'échantillons de données musicales. Ensuite, pour pallier les limitations des données d'entraînement et éviter le plagiat, nous exploitons un modèle de suivi de tempo et proposons deux stratégies différentes de mixup pour l'augmentation des données : le mixup audio synchrone au tempo et le mixup latent synchrone au tempo, qui recombinent les audios d'entraînement directement ou via un espace d'embeddings latents, respectivement. Ces stratégies de mixup encouragent le modèle à interpoler entre les échantillons musicaux d'entraînement et à générer de nouvelles musiques dans l'enveloppe convexe des données d'entraînement, rendant la musique générée plus diversifiée tout en restant fidèle au style correspondant. En plus des métriques d'évaluation populaires, nous concevons plusieurs nouvelles métriques d'évaluation basées sur le score CLAP pour démontrer que notre MusicLDM proposé et les stratégies de mixup synchrones au tempo améliorent à la fois la qualité et la nouveauté de la musique générée, ainsi que la correspondance entre le texte d'entrée et la musique générée.
Les modèles de langage démontrent une capacité remarquable à généraliser les représentations apprises dans une modalité à des tâches en aval dans d'autres modalités. Pouvons-nous retracer cette capacité à des neurones individuels ? Nous étudions le cas où un transformeur de texte figé est enrichi d'une composante visuelle à l'aide d'un encodeur visuel auto-supervisé et d'une simple projection linéaire apprise sur une tâche d'image-à-texte. Les sorties de la couche de projection ne sont pas immédiatement décodables en langage décrivant le contenu de l'image ; à la place, nous constatons que la traduction entre modalités se produit plus profondément au sein du transformeur. Nous introduisons une procédure pour identifier des "neurones multimodaux" qui convertissent les représentations visuelles en texte correspondant, et décoder les concepts qu'ils injectent dans le flux résiduel du modèle. Dans une série d'expériences, nous montrons que les neurones multimodaux opèrent sur des concepts visuels spécifiques à travers les entrées, et ont un effet causal systématique sur la génération de légendes d'images.
Nous présentons le projet All-Seeing (AS) : une base de données et un modèle à grande échelle pour la reconnaissance et la compréhension de tout élément dans le monde ouvert. En utilisant un moteur de données évolutif qui intègre des retours humains et des modèles efficaces en boucle, nous créons un nouveau jeu de données (AS-1B) contenant plus d'un milliard de régions annotées avec des étiquettes sémantiques, des paires question-réponse et des descriptions détaillées. Il couvre un large éventail de 3,5 millions de concepts communs et rares dans le monde réel, et contient 132,2 milliards de tokens décrivant les concepts et leurs attributs. En exploitant ce nouveau jeu de données, nous développons le modèle All-Seeing (ASM), un cadre unifié pour la reconnaissance et la compréhension visuelle panoptique. Le modèle est entraîné avec des invites linguistiques ouvertes et des localisations, ce qui lui permet de généraliser à diverses tâches de vision et de langage avec une performance remarquable en zero-shot, incluant la recherche texte-région, la reconnaissance de régions, la génération de descriptions et la réponse à des questions. Nous espérons que ce projet pourra servir de fondement à la recherche sur l'intelligence artificielle générale en vision et langage. Les modèles et le jeu de données seront publiés sur https://github.com/OpenGVLab/All-Seeing, et une démonstration est disponible sur https://huggingface.co/spaces/OpenGVLab/all-seeing.
Nous présentons le jeu de données HANDAL pour l'estimation de pose au niveau catégoriel et la prédiction d'affordances. Contrairement aux jeux de données précédents, le nôtre se concentre sur des objets manipulables adaptés à la robotique, de taille et de forme appropriées pour une préhension fonctionnelle par des manipulateurs robotiques, tels que des pinces, des ustensiles et des tournevis. Notre processus d'annotation est rationalisé, nécessitant uniquement une caméra grand public et un traitement semi-automatisé, ce qui nous permet de produire des annotations 3D de haute qualité sans recourir à l'annotation collaborative. Le jeu de données comprend 308 000 images annotées provenant de 2 200 vidéos de 212 objets réels répartis en 17 catégories. Nous nous concentrons sur les objets de quincaillerie et de cuisine pour faciliter la recherche dans des scénarios pratiques où un manipulateur robotique doit interagir avec l'environnement au-delà d'une simple poussée ou d'une préhension non discriminée. Nous décrivons l'utilité de notre jeu de données pour l'estimation de pose+échelle à 6 degrés de liberté au niveau catégoriel et pour des tâches connexes. Nous fournissons également des maillages 3D reconstruits de tous les objets, et nous identifions certains des goulots d'étranglement à résoudre pour démocratiser la collecte de jeux de données de ce type.
Cet article présente un détecteur DETR amélioré qui conserve une nature "simple" : il utilise une carte de caractéristiques à échelle unique et des calculs d'attention croisée globale sans contraintes de localité spécifiques, contrairement aux détecteurs DETR précédents qui réintroduisent des biais inductifs architecturaux de multi-échelle et de localité dans le décodeur. Nous montrons que deux technologies simples sont étonnamment efficaces dans un design simple pour compenser l'absence de cartes de caractéristiques multi-échelles et de contraintes de localité. La première est un terme de biais de position relative boîte-à-pixel (BoxRPB) ajouté à la formulation de l'attention croisée, qui guide efficacement chaque requête à se concentrer sur la région d'objet correspondante tout en offrant une flexibilité d'encodage. La seconde est un pré-entraînement du backbone basé sur la modélisation d'image masquée (MIM), qui aide à apprendre des représentations avec une capacité de localisation fine et s'avère crucial pour remédier aux dépendances sur les cartes de caractéristiques multi-échelles. En intégrant ces technologies et les avancées récentes en matière d'entraînement et de formulation du problème, le DETR "simple" amélioré a montré des améliorations exceptionnelles par rapport au détecteur DETR original. En exploitant le jeu de données Object365 pour le pré-entraînement, il a atteint une précision de 63,9 mAP avec un backbone Swin-L, ce qui est très compétitif par rapport aux détecteurs de pointe qui reposent tous fortement sur des cartes de caractéristiques multi-échelles et l'extraction de caractéristiques basées sur des régions. Le code est disponible à l'adresse https://github.com/impiga/Plain-DETR.
Le jeu imaginaire est un domaine de créativité qui pourrait permettre aux robots d'interagir avec le monde qui les entoure de manière beaucoup plus personnifiée. Le jeu imaginaire peut être vu comme l'utilisation d'objets et de lieux réels pour les transformer en objets et lieux virtuels dans des scénarios fictifs. Nous avons exploité la capacité de génération de récits des grands modèles de langage (LLM) pour obtenir les histoires utilisées dans le jeu imaginaire, à partir de prompts écrits par des humains. Ces histoires générées seront simplifiées et mappées en séquences d'actions pouvant guider l'agent dans le jeu imaginaire. Pour évaluer si l'agent peut mener à bien le jeu imaginaire, nous avons également conçu un jeu d'aventure textuelle simulant une maison comme terrain de jeu pour les interactions de l'agent.
La photographie à longue exposition produit des images spectaculaires, représentant les éléments en mouvement d'une scène avec un flou de mouvement. Elle est généralement utilisée selon deux modalités, produisant soit un effet de flou au premier plan, soit un effet de flou en arrière-plan. Les images avec flou au premier plan sont traditionnellement capturées avec un appareil photo monté sur un trépied et dépeignent des éléments mobiles au premier plan, tels que de l'eau soyeuse ou des traînées lumineuses, sur un paysage d'arrière-plan parfaitement net. Les images avec flou en arrière-plan, également appelées photographie en filé, sont capturées pendant que l'appareil suit un sujet en mouvement, pour produire une image d'un sujet net sur un arrière-plan flou dû au mouvement relatif. Ces deux techniques sont réputées difficiles et nécessitent un équipement supplémentaire ainsi que des compétences avancées. Dans cet article, nous décrivons un système de photographie computationnelle en rafale qui fonctionne dans une application d'appareil photo de smartphone tenu à la main, et qui réalise ces effets de manière entièrement automatique, en appuyant simplement sur le bouton de l'obturateur. Notre approche détecte et segmente d'abord le sujet principal. Nous suivons le mouvement de la scène sur plusieurs images et alignons les images afin de préserver la netteté souhaitée et de produire des traînées de mouvement esthétiquement plaisantes. Nous capturons une rafale sous-exposée et sélectionnons le sous-ensemble d'images d'entrée qui produira des traînées de flou de longueur contrôlée, indépendamment de la vitesse du mouvement de la scène ou de l'appareil. Nous prédisons le mouvement inter-images et synthétisons le flou de mouvement pour combler les lacunes temporelles entre les images d'entrée. Enfin, nous compositons l'image floutée avec l'exposition régulière nette pour protéger la netteté des visages ou des zones de la scène qui bougent à peine, et produisons une photographie finale en haute résolution et à haute plage dynamique (HDR). Notre système démocratise une capacité auparavant réservée aux professionnels, et rend ce style créatif accessible à la plupart des photographes amateurs. Plus d'informations et du matériel supplémentaire peuvent être trouvés sur la page web de notre projet : https://motion-mode.github.io/
Les maillages dynamiques colorés (DCM) sont largement utilisés dans diverses applications ; cependant, ces maillages peuvent subir différents traitements, tels que la compression ou la transmission, qui peuvent les déformer et dégrader leur qualité. Pour faciliter le développement de métriques objectives pour les DCM et étudier l'influence des distorsions typiques sur leur perception, nous avons créé la base de données Tencent - dynamic colored mesh database (TDMD) contenant huit objets DCM de référence avec six distorsions typiques. En utilisant des séquences vidéo traitées (PVS) dérivées des DCM, nous avons mené une expérience subjective à grande échelle qui a abouti à 303 échantillons de DCM déformés avec des scores d'opinion moyenne, faisant de la TDMD la plus grande base de données DCM disponible à notre connaissance. Cette base de données nous a permis d'étudier l'impact de différents types de distorsion sur la perception humaine et de formuler des recommandations pour la compression des DCM et les tâches associées. De plus, nous avons évalué trois types de métriques objectives de pointe sur la TDMD, incluant des métriques basées sur les images, les points et les vidéos. Nos résultats expérimentaux mettent en évidence les forces et les faiblesses de chaque métrique, et nous fournissons des suggestions concernant le choix des métriques dans les applications pratiques des DCM. La TDMD sera rendue publique à l'adresse suivante : https://multimedia.tencent.com/resources/tdmd.