papers.description
Bien que la génération audio partage des points communs entre différents types de sons, tels que la parole, la musique et les effets sonores, la conception de modèles pour chaque type nécessite une attention particulière aux objectifs spécifiques et aux biais qui peuvent différer considérablement de ceux des autres types. Pour nous rapprocher d'une perspective unifiée de la génération audio, cet article propose un cadre qui utilise la même méthode d'apprentissage pour la génération de parole, de musique et d'effets sonores. Notre cadre introduit une représentation générale de l'audio, appelée langage de l'audio (LOA). Tout audio peut être traduit en LOA sur la base d'AudioMAE, un modèle d'apprentissage de représentation pré-entraîné en auto-supervision. Dans le processus de génération, nous traduisons toutes les modalités en LOA en utilisant un modèle GPT-2, et nous effectuons un apprentissage de génération audio auto-supervisé avec un modèle de diffusion latente conditionné sur LOA. Le cadre proposé apporte naturellement des avantages tels que des capacités d'apprentissage en contexte et la réutilisation des modèles AudioMAE et de diffusion latente pré-entraînés en auto-supervision. Les expériences sur les principaux benchmarks de texte-à-audio, texte-à-musique et texte-à-parole démontrent des performances nouvelles et de pointe ou compétitives par rapport aux approches précédentes. Notre démonstration et notre code sont disponibles à l'adresse https://audioldm.github.io/audioldm2.
Garantir l'alignement, qui consiste à faire en sorte que les modèles se comportent conformément aux intentions humaines [1,2], est devenu une tâche cruciale avant le déploiement des grands modèles de langage (LLMs) dans des applications réelles. Par exemple, OpenAI a consacré six mois à aligner itérativement GPT-4 avant sa sortie [3]. Cependant, un défi majeur auquel sont confrontés les praticiens est le manque de directives claires pour évaluer si les sorties des LLMs sont conformes aux normes sociales, aux valeurs et aux régulations. Cet obstacle entrave l'itération systématique et le déploiement des LLMs. Pour résoudre ce problème, cet article présente une étude approfondie des dimensions clés à prendre en compte lors de l'évaluation de la fiabilité des LLMs. L'étude couvre sept grandes catégories de fiabilité des LLMs : la fiabilité, la sécurité, l'équité, la résistance aux abus, l'explicabilité et le raisonnement, le respect des normes sociales, et la robustesse. Chaque grande catégorie est ensuite divisée en plusieurs sous-catégories, aboutissant à un total de 29 sous-catégories. De plus, un sous-ensemble de 8 sous-catégories est sélectionné pour une investigation plus approfondie, où des études de mesure correspondantes sont conçues et menées sur plusieurs LLMs largement utilisés. Les résultats de mesure indiquent que, en général, les modèles plus alignés tendent à mieux performer en termes de fiabilité globale. Cependant, l'efficacité de l'alignement varie selon les différentes catégories de fiabilité considérées. Cela souligne l'importance de mener des analyses plus fines, des tests et des améliorations continues sur l'alignement des LLMs. En mettant en lumière ces dimensions clés de la fiabilité des LLMs, cet article vise à fournir des insights précieux et des directives aux praticiens du domaine. Comprendre et aborder ces préoccupations sera crucial pour parvenir à un déploiement fiable et éthiquement solide des LLMs dans diverses applications.
Les alignements multiples de séquences (MSA) de protéines codent une riche information biologique et ont été des outils essentiels dans les méthodes bioinformatiques pour des tâches telles que la conception de protéines et la prédiction de la structure des protéines depuis des décennies. Les récentes avancées, comme AlphaFold2, qui utilisent des transformers pour traiter directement de grandes quantités de MSA bruts, ont réaffirmé leur importance. Cependant, la génération de MSA est très intensive en calculs, et aucun jeu de données comparable à ceux utilisés pour entraîner AlphaFold2 n'a été mis à disposition de la communauté scientifique, freinant les progrès en apprentissage automatique pour les protéines. Pour remédier à ce problème, nous présentons OpenProteinSet, un corpus open-source de plus de 16 millions de MSA, associés à des homologues structuraux issus de la Protein Data Bank, ainsi qu'à des prédictions de structure de protéines par AlphaFold2. Nous avons déjà démontré l'utilité d'OpenProteinSet en réentraînant avec succès AlphaFold2 sur ce corpus. Nous prévoyons qu'OpenProteinSet sera largement utile comme données d'entraînement et de validation pour 1) diverses tâches centrées sur la structure, la fonction et la conception des protéines, et 2) la recherche en apprentissage automatique multimodal à grande échelle.
Le suivi et la poursuite d'objets d'intérêt sont essentiels pour plusieurs cas d'utilisation en robotique, allant de l'automatisation industrielle à la logistique et à l'entreposage, en passant par la santé et la sécurité. Dans cet article, nous présentons un système robotique capable de détecter, suivre et poursuivre en temps réel n'importe quel objet. Notre approche, baptisée « follow anything » (FAn), est un modèle multimodal et à vocabulaire ouvert — elle n'est pas limitée aux concepts vus lors de l'entraînement et peut être appliquée à de nouvelles classes au moment de l'inférence en utilisant des requêtes textuelles, visuelles ou par clic. En exploitant des descripteurs visuels riches issus de modèles pré-entraînés à grande échelle (modèles de base), FAn peut détecter et segmenter des objets en faisant correspondre des requêtes multimodales (texte, images, clics) à une séquence d'images d'entrée. Ces objets détectés et segmentés sont suivis à travers les images, tout en tenant compte des occlusions et des réapparitions d'objets. Nous démontrons FAn sur un système robotique réel (un véhicule aérien micro) et rapportons sa capacité à suivre de manière fluide les objets d'intérêt dans une boucle de contrôle en temps réel. FAn peut être déployé sur un ordinateur portable équipé d'une carte graphique légère (6-8 Go), atteignant un débit de 6 à 20 images par seconde. Pour favoriser une adoption rapide, un déploiement aisé et une extensibilité, nous mettons en open source tout notre code sur la page web de notre projet à l'adresse https://github.com/alaamaalouf/FollowAnything. Nous encourageons également le lecteur à visionner notre vidéo explicative de 5 minutes à l'adresse suivante : https://www.youtube.com/watch?v=6Mgt3EPytrw.
Ce travail explore l'optimisation de maillage basée sur le gradient, où nous optimisons itérativement un maillage de surface 3D en le représentant comme l'isosurface d'un champ scalaire, un paradigme de plus en plus répandu dans des applications telles que la photogrammétrie, la modélisation générative et la physique inverse. Les implémentations existantes adaptent des algorithmes classiques d'extraction d'isosurfaces comme Marching Cubes ou Dual Contouring ; ces techniques ont été conçues pour extraire des maillages à partir de champs fixes et connus, et dans le cadre de l'optimisation, elles manquent de degrés de liberté pour représenter des maillages de haute qualité préservant les caractéristiques, ou souffrent d'instabilités numériques. Nous introduisons FlexiCubes, une représentation d'isosurface spécifiquement conçue pour optimiser un maillage inconnu par rapport à des objectifs géométriques, visuels ou même physiques. Notre idée principale est d'introduire des paramètres supplémentaires soigneusement choisis dans la représentation, permettant des ajustements locaux flexibles de la géométrie et de la connectivité du maillage extrait. Ces paramètres sont mis à jour conjointement avec le champ scalaire sous-jacent via la différenciation automatique lors de l'optimisation pour une tâche donnée. Nous basons notre schéma d'extraction sur Dual Marching Cubes pour améliorer les propriétés topologiques, et présentons des extensions pour générer optionnellement des maillages tétraédriques et hiérarchiquement adaptatifs. Des expériences approfondies valident FlexiCubes sur des benchmarks synthétiques et des applications réelles, montrant qu'il offre des améliorations significatives en termes de qualité de maillage et de fidélité géométrique.
Le programme Alexa Prize a permis à de nombreux étudiants universitaires d'explorer, d'expérimenter et de mettre en valeur leurs talents dans la construction d'agents conversationnels à travers des défis tels que le SocialBot Grand Challenge et le TaskBot Challenge. Alors que les agents conversationnels apparaissent de plus en plus dans des contextes multimodaux et incarnés, il est important d'explorer les potentialités de l'interaction conversationnelle enrichie par la vision par ordinateur et l'incarnation physique. Cet article décrit le SimBot Challenge, un nouveau défi dans lequel des équipes universitaires s'affrontent pour construire des assistants robotiques capables d'accomplir des tâches dans un environnement physique simulé. Cet article propose un aperçu du SimBot Challenge, qui comprenait à la fois des phases de défi en ligne et hors ligne. Nous décrivons l'infrastructure et le soutien fournis aux équipes, notamment Alexa Arena, l'environnement simulé, et la boîte à outils de machine learning mise à leur disposition pour accélérer la construction de modèles de vision et de langage. Nous résumons les approches adoptées par les équipes participantes pour surmonter les défis de recherche et en tirons des enseignements clés. Enfin, nous analysons la performance des SimBots en compétition lors du défi.
Les équations aux dérivées partielles (EDP) dépendantes du temps sont omniprésentes dans les domaines scientifiques et techniques. Récemment, principalement en raison du coût computationnel élevé des techniques de résolution traditionnelles, les modèles de substitution basés sur des réseaux de neurones profonds ont suscité un intérêt croissant. L'utilité pratique de ces solveurs neuronaux d'EDP repose sur leur capacité à fournir des prédictions précises et stables sur de longues périodes temporelles, ce qui constitue un problème notoirement difficile. Dans ce travail, nous présentons une analyse à grande échelle des stratégies courantes de déploiement temporel, identifiant la négligence des informations de fréquence spatiale non dominantes, souvent associées aux hautes fréquences dans les solutions d'EDP, comme le principal écueil limitant les performances stables et précises du déploiement. Sur la base de ces observations, nous nous inspirons des avancées récentes dans les modèles de diffusion pour introduire PDE-Refiner ; une nouvelle classe de modèles qui permet une modélisation plus précise de toutes les composantes fréquentielles via un processus de raffinement en plusieurs étapes. Nous validons PDE-Refiner sur des benchmarks complexes de dynamique des fluides, démontrant des déploiements stables et précis qui surpassent systématiquement les modèles de pointe, y compris les architectures neuronales, numériques et hybrides neuronales-numériques. Nous montrons en outre que PDE-Refiner améliore considérablement l'efficacité des données, puisque l'objectif de débruitage induit implicitement une nouvelle forme d'augmentation de données spectrale. Enfin, la connexion de PDE-Refiner aux modèles de diffusion permet une évaluation précise et efficace de l'incertitude prédictive du modèle, nous permettant d'estimer quand le substitut devient imprécis.