Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération musicale a suscité un intérêt croissant avec les progrès des modèles génératifs profonds. Cependant, générer de la musique conditionnée par des descriptions textuelles, connue sous le nom de texte-à-musique, reste un défi en raison de la complexité des structures musicales et des exigences élevées en matière de taux d'échantillonnage. Malgré l'importance de cette tâche, les modèles génératifs actuels présentent des limitations en termes de qualité musicale, d'efficacité computationnelle et de généralisation. Cet article présente JEN-1, un modèle universel haute fidélité pour la génération de texte-à-musique. JEN-1 est un modèle de diffusion intégrant à la fois un entraînement autorégressif et non autorégressif. Grâce à l'apprentissage en contexte, JEN-1 réalise diverses tâches de génération, notamment la génération musicale guidée par le texte, le remplissage musical et la continuation. Les évaluations démontrent la performance supérieure de JEN-1 par rapport aux méthodes de pointe en matière d'alignement texte-musique et de qualité musicale, tout en maintenant une efficacité computationnelle. Nos démonstrations sont disponibles à l'adresse suivante : http://futureverse.com/research/jen/demos/jen1
Alors que les modèles de langage de grande taille s'améliorent, l'intérêt croît pour les techniques qui exploitent les capacités de ces modèles pour affiner leurs propres sorties. Dans ce travail, nous présentons Shepherd, un modèle de langage spécifiquement ajusté pour critiquer les réponses et suggérer des améliorations, allant au-delà des capacités d'un modèle non ajusté pour identifier des erreurs variées et proposer des suggestions pour y remédier. Au cœur de notre approche se trouve un ensemble de données de feedback de haute qualité, que nous avons constitué à partir de retours communautaires et d'annotations humaines. Bien que Shepherd soit de petite taille (7 milliards de paramètres), ses critiques sont soit équivalentes, soit préférées à celles de modèles établis, y compris ChatGPT. En utilisant GPT-4 pour l'évaluation, Shepherd atteint un taux de réussite moyen de 53 à 87 % par rapport à des alternatives concurrentes. Dans les évaluations humaines, Shepherd surpasse strictement les autres modèles et, en moyenne, se rapproche de très près de ChatGPT.
Les récents progrès des grands modèles de langage (LLM) illustrent leurs capacités diversifiées. Nous proposons un nouvel algorithme, le décodage spéculatif en étapes, pour accélérer l'inférence des LLM dans des scénarios de petits lots et sur appareil. Nous abordons la faible intensité arithmétique de l'inférence en petits lots en améliorant les travaux précédents sur le décodage spéculatif. Premièrement, nous restructurons le lot spéculatif sous forme d'arbre, ce qui réduit les coûts de génération et augmente le nombre de tokens attendus par lot. Deuxièmement, nous ajoutons une deuxième étape de décodage spéculatif. Ensemble, ces améliorations réduisent la latence de décodage par lot unique de 3,16x avec un modèle GPT-2-L de 762 millions de paramètres, tout en préservant parfaitement la qualité de la sortie.
Les faux négatifs (FN) dans la détection d'objets 3D, par exemple, les prédictions manquées de piétons, de véhicules ou d'autres obstacles, peuvent entraîner des situations potentiellement dangereuses dans la conduite autonome. Bien que ce problème soit critique, il est sous-étudié dans de nombreuses méthodes actuelles de détection 3D. Dans ce travail, nous proposons Hard Instance Probing (HIP), un pipeline général qui identifie les FN de manière multi-étapes et guide les modèles à se concentrer sur l'extraction des instances difficiles. Pour la détection d'objets 3D, nous instancions cette méthode sous la forme de FocalFormer3D, un détecteur simple mais efficace qui excelle dans l'extraction d'objets difficiles et l'amélioration du rappel des prédictions. FocalFormer3D se distingue par une génération de requêtes multi-étapes pour découvrir les objets difficiles et un décodeur transformer au niveau des boîtes pour distinguer efficacement les objets parmi un grand nombre de candidats. Les résultats expérimentaux sur les ensembles de données nuScenes et Waymo valident la performance supérieure de FocalFormer3D. Cet avantage se traduit par de solides performances en détection et suivi, dans des configurations LiDAR et multi-modales. Notamment, FocalFormer3D atteint un mAP de 70,5 et un NDS de 73,9 sur le benchmark de détection de nuScenes, tandis que le benchmark de suivi de nuScenes montre un AMOTA de 72,1, se classant tous deux à la première place du classement LiDAR de nuScenes. Notre code est disponible à l'adresse https://github.com/NVlabs/FocalFormer3D.