Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion sont apparus comme un paradigme puissant pour la génération, obtenant des performances solides dans divers domaines avec des entrées à valeurs continues. Malgré les promesses d'une génération de texte entièrement non autorégressive, l'application des modèles de diffusion au langage naturel reste difficile en raison de sa nature discrète. Dans ce travail, nous proposons Text-to-text Self-conditioned Simplex Diffusion (TESS), un modèle de diffusion de texte qui est entièrement non autorégressif, utilise une nouvelle forme d'auto-conditionnement et applique le processus de diffusion sur l'espace simplex des logits plutôt que sur l'espace d'embedding appris typique. À travers des expériences approfondies sur des tâches de compréhension et de génération du langage naturel, incluant la synthétisation, la simplification de texte, la génération de paraphrases et la génération de questions, nous démontrons que TESS surpasse les modèles non autorégressifs de pointe et est compétitif avec les modèles séquence-à-séquence autorégressifs pré-entraînés.
La séparation universelle des sources (USS) est une tâche de recherche fondamentale pour l'analyse computationnelle de la scène auditive, qui vise à séparer des enregistrements mono en pistes sources individuelles. Trois défis majeurs attendent une solution pour la tâche de séparation des sources audio. Premièrement, les systèmes précédents de séparation des sources audio se concentrent principalement sur la séparation d'une ou d'un nombre limité de sources spécifiques. Il manque des recherches sur la construction d'un système unifié capable de séparer des sources arbitraires via un seul modèle. Deuxièmement, la plupart des systèmes précédents nécessitent des données sources propres pour entraîner un séparateur, alors que les données sources propres sont rares. Troisièmement, il manque un système USS capable de détecter et de séparer automatiquement les classes de sons actives à un niveau hiérarchique. Pour utiliser des données audio à grande échelle faiblement étiquetées/non étiquetées pour la séparation des sources audio, nous proposons un cadre universel de séparation des sources audio contenant : 1) un modèle de tagging audio entraîné sur des données faiblement étiquetées comme réseau de requête ; et 2) un modèle de séparation des sources conditionnel qui prend les sorties du réseau de requête comme conditions pour séparer des sources sonores arbitraires. Nous explorons divers réseaux de requête, modèles de séparation des sources et stratégies d'entraînement, et proposons une stratégie USS hiérarchique pour détecter et séparer automatiquement les classes de sons de l'ontologie AudioSet. En exploitant uniquement l'AudioSet faiblement étiqueté, notre système USS réussit à séparer une grande variété de classes de sons, y compris la séparation d'événements sonores, la séparation de sources musicales et l'amélioration de la parole. Le système USS atteint une amélioration moyenne du rapport signal sur distorsion (SDRi) de 5,57 dB sur 527 classes de sons d'AudioSet ; 10,57 dB sur le jeu de données DCASE 2018 Task 2 ; 8,12 dB sur le jeu de données MUSDB18 ; un SDRi de 7,28 dB sur le jeu de données Slakh2100 ; et un SSNR de 9,00 dB sur le jeu de données voicebank-demand. Nous publions le code source à l'adresse https://github.com/bytedance/uss.
Les modèles de diffusion d'images et de vidéos pilotés par texte ont atteint un succès sans précédent dans la génération de contenus réalistes et diversifiés. Récemment, l'édition et la variation d'images et de vidéos existantes dans les modèles génératifs basés sur la diffusion ont suscité une attention considérable. Cependant, les travaux précédents se limitent à l'édition de contenu avec du texte ou à la fourniture d'une personnalisation grossière en utilisant un seul indice visuel, les rendant inadaptés pour des contenus indescriptibles nécessitant un contrôle fin et détaillé. À cet égard, nous proposons un cadre générique d'édition vidéo appelé Make-A-Protagonist, qui utilise des indices textuels et visuels pour éditer des vidéos dans le but de permettre aux individus de devenir les protagonistes. Plus précisément, nous exploitons plusieurs experts pour analyser la vidéo source, les indices visuels et textuels cibles, et proposons un modèle de génération vidéo basé sur le visuel et le texte qui emploie un échantillonnage de débruitage guidé par masque pour générer le résultat souhaité. Des résultats approfondis démontrent les capacités d'édition polyvalentes et remarquables de Make-A-Protagonist.
Les modèles de synthèse génèrent souvent des textes mal calibrés par rapport aux métriques de qualité, car ils sont entraînés à maximiser la vraisemblance d'une seule référence (MLE). Pour remédier à cela, des travaux récents ont introduit une étape de calibration, qui expose un modèle à ses propres sorties classées pour améliorer la pertinence ou, dans une autre approche, contrastent des ensembles positifs et négatifs pour renforcer la fidélité. Bien qu'efficaces, ces travaux se sont principalement concentrés sur la génération et l'optimisation de ces ensembles. On en sait moins sur les raisons pour lesquelles une configuration est plus efficace qu'une autre. Dans cette étude, nous explorons les caractéristiques sous-jacentes des ensembles efficaces. Pour chaque instance d'entraînement, nous constituons un large et diversifié pool de candidats et faisons varier systématiquement les sous-ensembles utilisés pour le réglage fin de calibration. Chaque stratégie de sélection cible des aspects distincts des ensembles, tels que la diversité lexicale ou l'écart entre les positifs et les négatifs. Sur trois ensembles de données variés de synthèse scientifique longue (couvrant les domaines biomédical, clinique et chimique), nous constatons, entre autres, que la calibration de fidélité est optimale lorsque les ensembles négatifs sont extractifs et plus susceptibles d'être générés, tandis que pour la calibration de pertinence, la marge métrique entre les candidats doit être maximisée et la surprise—le désaccord entre les classements des candidats définis par le modèle et la métrique—minimisée. Le code pour créer, sélectionner et optimiser les ensembles de calibration est disponible à l'adresse suivante : https://github.com/griff4692/calibrating-summaries.
Bien que le pré-entraînement sur des données image-texte à grande échelle provenant du Web ait facilité des progrès rapides dans de nombreuses tâches de vision et langage (V&L), des travaux récents ont montré que les modèles pré-entraînés manquent de compréhension "fine", comme la capacité à reconnaître des relations, des verbes et des nombres dans les images. Cela a suscité un intérêt croissant dans la communauté pour développer soit de nouveaux benchmarks, soit des modèles pour de telles capacités. Pour mieux comprendre et quantifier les progrès dans cette direction, nous étudions quatre modèles compétitifs de V&L sur quatre benchmarks axés sur la granularité fine. À travers notre analyse, nous constatons que X-VLM (Zeng et al., 2022) surpasse systématiquement les autres modèles de référence, et que les innovations en matière de modélisation peuvent avoir un impact plus important que la mise à l'échelle des données Web, ce qui dégrade parfois même les performances. En examinant plus en profondeur X-VLM, nous soulignons l'importance à la fois des nouvelles fonctions de perte et des sources de données riches pour l'apprentissage de compétences fines. Enfin, nous inspectons la dynamique de l'entraînement et découvrons que, pour certaines tâches, les performances atteignent un pic tôt dans l'entraînement ou fluctuent considérablement, sans jamais converger.
La génération de visualisations fidèles de visages humains nécessite de capturer à la fois les détails grossiers et fins de la géométrie et de l'apparence du visage. Les méthodes existantes sont soit basées sur les données, nécessitant un corpus étendu de données non accessibles publiquement à la communauté de recherche, soit incapables de capturer les détails fins car elles s'appuient sur des modèles géométriques du visage qui ne peuvent pas représenter les détails granulaires de la texture avec une discrétisation en maillage et une déformation linéaire conçues pour modéliser uniquement une géométrie grossière du visage. Nous introduisons une méthode qui comble cette lacune en s'inspirant des techniques traditionnelles de l'informatique graphique. Les expressions inédites sont modélisées en mélangeant l'apparence à partir d'un ensemble restreint de poses extrêmes. Ce mélange est effectué en mesurant les changements volumétriques locaux dans ces expressions et en reproduisant localement leur apparence chaque fois qu'une expression similaire est effectuée lors des tests. Nous montrons que notre méthode généralise aux expressions inédites, ajoutant des effets granulaires sur des déformations volumétriques lisses d'un visage, et démontrons comment elle généralise au-delà des visages.
Garantir que les grands modèles de langage (LMs) soient équitables, robustes et utiles nécessite une compréhension de la manière dont différentes modifications de leurs entrées influencent leur comportement. Cependant, dans le contexte des tâches de génération de texte ouvert, une telle évaluation n'est pas triviale. Par exemple, lorsqu'on présente à un modèle un texte d'entrée et une version perturbée et "contrastive" de celui-ci, des différences significatives dans les prédictions de tokens suivants peuvent ne pas être révélées avec des stratégies de décodage standard. Avec cette motivation en tête, nous proposons le **Contrastive Input Decoding (CID)** : un algorithme de décodage pour générer du texte à partir de deux entrées, où le texte généré est probable pour une entrée mais improbable pour l'autre. De cette manière, les générations contrastives peuvent mettre en évidence de manière simple et interprétable des différences potentiellement subtiles dans la manière dont la sortie du LM varie pour les deux entrées. Nous utilisons le CID pour révéler des biais spécifiques au contexte difficiles à détecter avec des stratégies de décodage standard et pour quantifier l'effet de différentes perturbations d'entrée.
Dans cet article, nous étudions un nouveau problème dans la reconnaissance d'actions égocentriques, que nous appelons "Généralisation Multimodale" (MMG). La MMG vise à explorer comment les systèmes peuvent généraliser lorsque les données de certaines modalités sont limitées ou même totalement absentes. Nous examinons en profondeur la MMG dans le contexte de la reconnaissance d'actions supervisée standard et dans le cadre plus complexe de l'apprentissage de nouvelles catégories d'actions en few-shot. La MMG comprend deux scénarios novateurs, conçus pour répondre aux considérations de sécurité et d'efficacité dans les applications réelles : (1) la généralisation en cas de modalité manquante, où certaines modalités présentes pendant l'entraînement sont absentes lors de l'inférence, et (2) la généralisation zero-shot intermodale, où les modalités présentes pendant l'inférence et l'entraînement sont disjointes. Pour permettre cette investigation, nous construisons un nouveau jeu de données, MMG-Ego4D, contenant des points de données avec des modalités vidéo, audio et capteurs de mouvement inertiels (IMU). Notre jeu de données est dérivé du jeu de données Ego4D, mais traité et ré-annoté minutieusement par des experts humains pour faciliter la recherche sur le problème de la MMG. Nous évaluons une diversité de modèles sur MMG-Ego4D et proposons de nouvelles méthodes avec une capacité de généralisation améliorée. En particulier, nous introduisons un nouveau module de fusion avec un entraînement par abandon de modalité, un entraînement d'alignement basé sur la contraste, et une nouvelle fonction de perte prototypique intermodale pour une meilleure performance en few-shot. Nous espérons que cette étude servira de référence et guidera les recherches futures sur les problèmes de généralisation multimodale. Le benchmark et le code seront disponibles à l'adresse https://github.com/facebookresearch/MMG_Ego4D.
La planification et l'allocation des ressources constituent un élément crucial de nombreux systèmes à fort impact, allant du contrôle de la congestion au cloud computing. Trouver des solutions plus optimales à ces problèmes a souvent un impact significatif sur les économies de ressources et de temps, réduit l'usure des appareils, et peut même potentiellement améliorer les émissions de carbone. Dans cet article, nous nous concentrons sur un cas spécifique de problème de planification, à savoir le problème de mappage de mémoire qui survient lors de la compilation de programmes d'apprentissage automatique : c'est-à-dire, le mappage des tenseurs sur différentes couches de mémoire pour optimiser le temps d'exécution. Nous introduisons une approche pour résoudre le problème de mappage de mémoire en utilisant l'apprentissage par renforcement (Reinforcement Learning, RL). Le RL est un paradigme de solution bien adapté aux problèmes de prise de décision séquentielle qui se prêtent à la planification, ainsi qu'aux espaces de recherche combinatoires avec des entrées de données de haute dimension. Nous formulons le problème comme un jeu à un seul joueur, que nous appelons le mallocGame, de telle sorte que les trajectoires à haut rendement du jeu correspondent à des mappages de mémoire efficaces sur le matériel cible. Nous introduisons également un agent d'apprentissage par renforcement, mallocMuZero, et montrons qu'il est capable de jouer à ce jeu pour découvrir de nouvelles solutions de mappage de mémoire améliorées, conduisant à des temps d'exécution plus rapides sur des charges de travail réelles d'apprentissage automatique sur des accélérateurs ML. Nous comparons les performances de mallocMuZero à celles du solveur par défaut utilisé par le compilateur Accelerated Linear Algebra (XLA) sur un benchmark de charges de travail ML réalistes. De plus, nous montrons que mallocMuZero est capable d'améliorer le temps d'exécution du modèle de multiplication matricielle AlphaTensor récemment publié.
Plusieurs entreprises leaders en intelligence artificielle, dont OpenAI, Google DeepMind et Anthropic, ont pour objectif déclaré de développer une intelligence artificielle générale (IAG) - des systèmes d'IA qui atteignent ou dépassent les performances humaines sur un large éventail de tâches cognitives. En poursuivant cet objectif, elles pourraient développer et déployer des systèmes d'IA présentant des risques particulièrement importants. Bien qu'elles aient déjà pris certaines mesures pour atténuer ces risques, les meilleures pratiques n'ont pas encore émergé. Pour soutenir l'identification de ces meilleures pratiques, nous avons envoyé un sondage à 92 experts éminents issus de laboratoires d'IAG, du monde académique et de la société civile, et avons reçu 51 réponses. Les participants ont été interrogés sur leur degré d'accord avec 50 déclarations concernant ce que les laboratoires d'IAG devraient faire. Notre principal constat est que les participants, en moyenne, étaient d'accord avec toutes ces déclarations. Beaucoup d'entre elles ont reçu un niveau d'accord extrêmement élevé. Par exemple, 98 % des répondants étaient plutôt ou fortement d'accord pour dire que les laboratoires d'IAG devraient réaliser des évaluations des risques avant le déploiement, des évaluations des capacités dangereuses, des audits de modèles par des tiers, des restrictions de sécurité sur l'utilisation des modèles et des exercices de red teaming. En fin de compte, notre liste de déclarations pourrait servir de base utile aux efforts visant à développer des meilleures pratiques, des normes et des régulations pour les laboratoires d'IAG.