Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons un modèle de synthèse vocale (TTS) appelé BASE TTS, qui signifie Big Adaptive Streamable TTS with Emergent abilities. BASE TTS est le plus grand modèle TTS à ce jour, entraîné sur 100 000 heures de données vocales du domaine public, atteignant un nouveau niveau de pointe en matière de naturalité de la parole. Il utilise un Transformer autorégressif à 1 milliard de paramètres qui convertit des textes bruts en codes discrets ("speechcodes"), suivis d'un décodeur basé sur des convolutions qui transforme ces speechcodes en formes d'onde de manière incrémentale et streamable. De plus, nos speechcodes sont construits à l'aide d'une nouvelle technique de tokenisation de la parole qui intègre une dissociation de l'identité du locuteur et une compression via un encodage par paires d'octets. Faisant écho aux "capacités émergentes" largement rapportées des grands modèles de langage lorsqu'ils sont entraînés sur des volumes croissants de données, nous montrons que les variantes de BASE TTS construites avec plus de 10 000 heures et 500 millions de paramètres commencent à démontrer une prosodie naturelle sur des phrases textuellement complexes. Nous concevons et partageons un ensemble de données spécialisé pour mesurer ces capacités émergentes en synthèse vocale. Nous démontrons la naturalité de pointe de BASE TTS en l'évaluant par rapport à des systèmes de référence incluant des systèmes de synthèse vocale à grande échelle disponibles publiquement : YourTTS, Bark et TortoiseTTS. Des échantillons audio générés par le modèle peuvent être écoutés à l'adresse https://amazon-ltts-paper.com/.
Les modèles de langage actuels présentent des lacunes dans la compréhension des aspects du monde qui ne sont pas facilement décrits par des mots, et peinent à accomplir des tâches complexes et de longue durée. Les séquences vidéo offrent des informations temporelles précieuses absentes dans le langage et les images statiques, ce qui les rend attrayantes pour un modélisation conjointe avec le langage. De tels modèles pourraient développer une compréhension à la fois des connaissances textuelles humaines et du monde physique, permettant des capacités d'IA plus étendues pour assister les humains. Cependant, l'apprentissage à partir de millions de tokens de séquences vidéo et langagières pose des défis en raison des contraintes de mémoire, de la complexité computationnelle et des jeux de données limités. Pour relever ces défis, nous avons constitué un vaste ensemble de données de vidéos et de livres diversifiés, utilisé la technique de RingAttention pour un entraînement scalable sur de longues séquences, et augmenté progressivement la taille du contexte de 4K à 1M tokens. Ce document apporte les contributions suivantes : (a) Le plus grand réseau neuronal en termes de taille de contexte : Nous avons entraîné l'un des plus grands transformeurs en taille de contexte sur de longues séquences vidéo et langagières, établissant de nouveaux benchmarks dans des tâches de récupération difficiles et la compréhension de longues vidéos. (b) Des solutions pour surmonter les défis de l'entraînement vision-langage, incluant l'utilisation du masquage de séquence pour mélanger différentes longueurs de séquence, la pondération des pertes pour équilibrer langage et vision, et un jeu de données de questions-réponses généré par le modèle pour le chat sur de longues séquences. (c) Une implémentation hautement optimisée avec RingAttention, le masquage de séquence, et d'autres fonctionnalités clés pour l'entraînement sur des séquences multimodales de millions de tokens. (d) La mise en open source complète d'une famille de modèles de 7B paramètres capables de traiter de longs documents textuels (LWM-Text, LWM-Text-Chat) et des vidéos (LWM, LWM-Chat) de plus de 1M tokens. Ce travail ouvre la voie à l'entraînement sur des jeux de données massifs de longues vidéos et de langage pour développer une compréhension à la fois des connaissances humaines et du monde multimodal, ainsi que des capacités plus étendues.
Les récents progrès rapides dans les modèles d'apprentissage (auto-)supervisé sont en grande partie prédits par des lois d'échelle empiriques : la performance d'un modèle augmente proportionnellement à sa taille. Cependant, des lois d'échelle analogues restent insaisissables dans les domaines de l'apprentissage par renforcement, où l'augmentation du nombre de paramètres d'un modèle nuit souvent à ses performances finales. Dans cet article, nous démontrons que l'intégration de modules Mixture-of-Experts (MoE), et en particulier des Soft MoEs (Puigcerver et al., 2023), dans les réseaux basés sur la valeur conduit à des modèles plus évolutifs en termes de paramètres, comme en témoignent des augmentations substantielles de performance à travers une variété de régimes d'entraînement et de tailles de modèles. Ce travail fournit donc des preuves empiriques solides en faveur du développement de lois d'échelle pour l'apprentissage par renforcement.
Nous présentons Lumos, le premier système de question-réponse multimodal de bout en bout doté de capacités de compréhension textuelle. Au cœur de Lumos se trouve un composant de Reconnaissance de Texte dans les Scènes (Scene Text Recognition, STR) qui extrait le texte à partir d'images en vue à la première personne, dont la sortie est utilisée pour enrichir l'entrée d'un Modèle de Langage Multimodal de Grande Taille (Multimodal Large Language Model, MM-LLM). Lors de la construction de Lumos, nous avons rencontré de nombreux défis liés à la qualité du STR, à la latence globale et à l'inférence du modèle. Dans cet article, nous explorons ces défis et discutons de l'architecture du système, des choix de conception et des techniques de modélisation employées pour surmonter ces obstacles. Nous fournissons également une évaluation complète de chaque composant, mettant en avant une qualité et une efficacité élevées.
Les réseaux de neurones sur graphes (Graph Neural Networks, GNNs) ont montré un potentiel prometteur dans l'apprentissage de représentations de graphes. La majorité des GNNs définissent un mécanisme local de passage de messages, propageant l'information sur le graphe en empilant plusieurs couches. Ces méthodes, cependant, sont connues pour souffrir de deux limitations majeures : le sur-écrasement (over-squashing) et une mauvaise capture des dépendances à longue portée. Récemment, les Transformers sur graphes (Graph Transformers, GTs) sont apparus comme une alternative puissante aux réseaux de neurones à passage de messages (Message-Passing Neural Networks, MPNNs). Les GTs, cependant, ont un coût computationnel quadratique, manquent de biais inductifs sur les structures de graphes, et reposent sur des encodages positionnels/structurels complexes (Positional/Structural Encodings, SE/PE). Dans cet article, nous montrons que bien que les Transformers, le passage de messages complexe et les SE/PE soient suffisants pour une bonne performance en pratique, aucun n'est nécessaire. Motivés par le succès récent des modèles d'espace d'états (State Space Models, SSMs), tels que Mamba, nous présentons les réseaux Graph Mamba (Graph Mamba Networks, GMNs), un cadre général pour une nouvelle classe de GNNs basée sur des SSMs sélectifs. Nous discutons et catégorisons les nouveaux défis lors de l'adoption des SSMs pour les données structurées en graphes, et présentons quatre étapes nécessaires et une étape optionnelle pour concevoir les GMNs, où nous choisissons (1) la tokenisation du voisinage, (2) l'ordonnancement des tokens, (3) l'architecture de l'encodeur bidirectionnel SSM sélectif, (4) l'encodage local, et l'étape dispensable (5) PE et SE. Nous fournissons en outre une justification théorique de la puissance des GMNs. Les expériences démontrent que malgré un coût computationnel bien moindre, les GMNs atteignent une performance exceptionnelle sur des ensembles de données de référence à longue portée, à petite échelle, à grande échelle et hétérophiles.
Nous présentons UFO, un agent innovant centré sur l'interface utilisateur (UI) pour répondre aux demandes des utilisateurs adaptées aux applications du système d'exploitation Windows, en exploitant les capacités de GPT-Vision. UFO utilise un cadre à double agent pour observer et analyser méticuleusement l'interface graphique (GUI) et les informations de contrôle des applications Windows. Cela permet à l'agent de naviguer et d'opérer de manière fluide au sein des applications individuelles et entre elles pour répondre aux demandes des utilisateurs, même lorsqu'elles impliquent plusieurs applications. Le cadre intègre un module d'interaction de contrôle, facilitant l'ancrage des actions sans intervention humaine et permettant une exécution entièrement automatisée. Par conséquent, UFO transforme des processus laborieux et chronophages en tâches simples réalisables uniquement via des commandes en langage naturel. Nous avons testé UFO sur 9 applications Windows populaires, couvrant une variété de scénarios reflétant l'utilisation quotidienne des utilisateurs. Les résultats, issus de mesures quantitatives et d'études de cas réels, soulignent l'efficacité supérieure d'UFO pour répondre aux demandes des utilisateurs. À notre connaissance, UFO est le premier agent UI spécifiquement conçu pour la réalisation de tâches dans l'environnement Windows. Le code source ouvert d'UFO est disponible sur https://github.com/microsoft/UFO.
La plupart des générateurs de texte-à-3D s'appuient sur des modèles de texte-à-image pré-entraînés sur des milliards d'images. Ils utilisent des variantes de l'échantillonnage par distillation de score (Score Distillation Sampling, SDS), qui est lent, quelque peu instable et sujet à des artefacts. Une solution consiste à affiner le générateur 2D pour qu'il soit conscient des vues multiples, ce qui peut faciliter la distillation ou être combiné avec des réseaux de reconstruction pour produire directement des objets 3D. Dans cet article, nous explorons davantage l'espace de conception des modèles texte-à-3D. Nous améliorons considérablement la génération de vues multiples en considérant des générateurs de vidéo plutôt que d'images. Combiné avec un algorithme de reconstruction 3D qui, en utilisant le lissage gaussien, peut optimiser une fonction de perte robuste basée sur les images, nous produisons directement des sorties 3D de haute qualité à partir des vues générées. Notre nouvelle méthode, IM-3D, réduit le nombre d'évaluations du réseau générateur 2D de 10 à 100 fois, ce qui résulte en un pipeline beaucoup plus efficace, une meilleure qualité, moins d'incohérences géométriques et un rendement plus élevé d'actifs 3D utilisables.
Alors que les modèles de langage de grande taille (LLMs) évoluent rapidement, leur influence dans le domaine scientifique devient de plus en plus marquée. Les capacités émergentes des LLMs en matière de généralisation des tâches et de dialogue libre peuvent considérablement faire progresser des domaines comme la chimie et la biologie. Cependant, le domaine de la biologie unicellulaire, qui constitue les éléments fondamentaux des organismes vivants, fait encore face à plusieurs défis. Les barrières élevées en termes de connaissances et la scalabilité limitée des méthodes actuelles restreignent l'exploitation complète des LLMs pour maîtriser les données unicellulaires, entravant l'accessibilité directe et l'itération rapide. À cette fin, nous présentons ChatCell, qui marque un changement de paradigme en facilitant l'analyse unicellulaire avec le langage naturel. En tirant parti de l'adaptation du vocabulaire et de la génération unifiée de séquences, ChatCell a acquis une expertise approfondie en biologie unicellulaire et la capacité de s'adapter à une large gamme de tâches d'analyse. Des expériences approfondies démontrent en outre la performance robuste de ChatCell et son potentiel à approfondir les insights unicellulaires, ouvrant la voie à une exploration plus accessible et intuitive dans ce domaine crucial. Notre page d'accueil du projet est disponible à l'adresse suivante : https://zjunlp.github.io/project/ChatCell.
Les contrôles actuels des modèles de diffusion (par exemple, via du texte ou ControlNet) pour la génération d'images sont limités dans leur capacité à reconnaître des attributs abstraits et continus, tels que la direction de l'éclairage ou les changements de forme non rigides. Dans cet article, nous présentons une approche permettant aux utilisateurs de modèles texte-à-image d'avoir un contrôle précis de plusieurs attributs dans une image. Nous y parvenons en concevant des ensembles spéciaux de tokens d'entrée qui peuvent être transformés de manière continue — nous les appelons Continuous 3D Words. Ces attributs peuvent, par exemple, être représentés sous forme de curseurs et appliqués conjointement avec des prompts textuels pour un contrôle granulaire de la génération d'images. Avec seulement un maillage unique et un moteur de rendu, nous montrons que notre approche peut être adoptée pour offrir un contrôle continu de l'utilisateur sur plusieurs attributs conscients de la 3D, notamment l'éclairage en fonction de l'heure de la journée, l'orientation des ailes d'oiseau, l'effet dollyzoom et les poses d'objets. Notre méthode est capable de conditionner la création d'images avec plusieurs Continuous 3D Words et descriptions textuelles simultanément, sans ajouter de surcharge au processus génératif. Page du projet : https://ttchengab.github.io/continuous_3d_words
La nature autorégressive des grands modèles de langage (LLM) conventionnels limite intrinsèquement la vitesse d'inférence, car les tokens sont générés séquentiellement. Bien que les techniques de décodage spéculatif et parallèle tentent d'atténuer ce problème, elles rencontrent des limitations : soit elles s'appuient sur des modèles plus petits et moins précis pour la génération, soit elles ne parviennent pas à exploiter pleinement les représentations du LLM de base. Nous introduisons une architecture novatrice, les Tandem Transformers, pour résoudre ces problèmes. Cette architecture combine de manière unique (1) un petit modèle autorégressif et (2) un grand modèle fonctionnant en mode bloc (traitant plusieurs tokens simultanément). La précision prédictive du petit modèle est considérablement améliorée en lui accordant un accès attentionnel aux représentations plus riches du grand modèle. Sur le jeu de données de pré-entraînement PaLM2, un tandem composé de PaLM2-Bison et PaLM2-Gecko démontre une amélioration de 3,3 % dans la précision de prédiction du token suivant par rapport à un PaLM2-Gecko autonome, offrant une accélération de 1,16x par rapport à un modèle PaLM2-Otter avec des performances comparables en aval. Nous intégrons en outre le modèle tandem dans le cadre de décodage spéculatif (SPEED), où le grand modèle valide les tokens générés par le petit modèle. Cela garantit que le tandem de PaLM2-Bison et PaLM2-Gecko atteint une accélération substantielle (environ 1,14x plus rapide que l'utilisation de PaLM2-Gecko standard dans SPEED) tout en maintenant une précision identique sur les tâches en aval.
La reconnaissance des gestes manuels devient un mode d'interaction homme-machine de plus en plus répandu, notamment avec la prolifération des caméras sur les appareils du quotidien. Malgré les progrès continus dans ce domaine, la personnalisation des gestes reste souvent peu explorée. Cette personnalisation est pourtant cruciale, car elle permet aux utilisateurs de définir et de démontrer des gestes plus naturels, mémorables et accessibles. Cependant, la personnalisation nécessite une utilisation efficace des données fournies par l'utilisateur. Nous présentons une méthode qui permet aux utilisateurs de concevoir facilement des gestes sur mesure avec une caméra monoculaire à partir d'une seule démonstration. Nous utilisons des transformateurs et des techniques de méta-apprentissage pour relever les défis de l'apprentissage à partir de peu d'exemples. Contrairement aux travaux précédents, notre méthode prend en charge n'importe quelle combinaison de gestes à une main, à deux mains, statiques et dynamiques, y compris sous différents angles de vue. Nous avons évalué notre méthode de personnalisation à travers une étude utilisateur avec 20 gestes collectés auprès de 21 participants, atteignant jusqu'à 97 % de précision moyenne de reconnaissance à partir d'une seule démonstration. Notre travail ouvre une voie prometteuse pour la personnalisation des gestes basée sur la vision, posant les bases pour les avancées futures dans ce domaine.
Un champ de radiance neuronale (NeRF) encode la relation spécifique entre la géométrie 3D et l'apparence d'une scène. Nous nous posons ici la question de savoir si nous pouvons transférer l'apparence d'un NeRF source sur une géométrie 3D cible de manière sémantiquement significative, de sorte que le nouveau NeRF résultant conserve la géométrie cible mais possède une apparence analogue à celle du NeRF source. Pour ce faire, nous généralisons les analogies d'images classiques des images 2D aux NeRFs. Nous exploitons le transfert de correspondance basé sur l'affinité sémantique, guidé par des caractéristiques sémantiques issues de modèles d'images 2D pré-entraînés à grande échelle, pour réaliser un transfert d'apparence cohérent en multi-vues. Notre méthode permet d'explorer l'espace produit de combinaisons entre géométrie 3D et apparence. Nous démontrons que notre méthode surpasse les approches traditionnelles basées sur la stylisation et qu'une grande majorité d'utilisateurs la préfèrent à plusieurs méthodes de référence typiques.