Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous introduisons un nouveau référentiel pour évaluer les capacités de jeu de rôle des modèles de langage. Notre approche exploite les modèles de langage eux-mêmes pour imiter les utilisateurs dans des conversations dynamiques et multi-tours et pour évaluer les dialogues résultants. Le cadre se compose de trois composants principaux : un modèle de joueur assumant un rôle de personnage spécifique, un modèle d'interrogateur simulant le comportement de l'utilisateur, et un modèle de juge évaluant la qualité de la conversation. Nous avons mené des expériences comparant les évaluations automatisées avec des annotations humaines pour valider notre approche, démontrant de fortes corrélations sur plusieurs critères. Ce travail pose les bases d'une évaluation robuste et dynamique des capacités des modèles dans des scénarios interactifs.
Le développement rapide des Grands Modèles de Langage (GML) pour les applications de santé a suscité des appels à une évaluation holistique au-delà des benchmarks fréquemment cités tels que l'USMLE, afin de mieux refléter les performances réelles. Bien que les évaluations en conditions réelles soient des indicateurs précieux d'utilité, elles sont souvent en retard par rapport à la cadence d'évolution des GML, rendant probablement les résultats obsolètes dès leur déploiement. Ce décalage temporel rend nécessaire une évaluation initiale complète pouvant guider la sélection de modèles pour des applications cliniques spécifiques. Nous présentons MEDIC, un cadre évaluant les GML à travers cinq dimensions critiques de compétence clinique : raisonnement médical, éthique et biais, compréhension des données et du langage, apprentissage en contexte et sécurité clinique. MEDIC propose un cadre d'interrogation croisée novateur quantifiant les performances des GML dans des domaines tels que la couverture et la détection d'hallucinations, sans nécessiter de sorties de référence. Nous appliquons MEDIC pour évaluer les GML sur la réponse à des questions médicales, la sécurité, la résumé, la génération de notes et d'autres tâches. Nos résultats montrent des disparités de performances selon les tailles de modèle, les modèles de base par rapport aux modèles finement ajustés sur le plan médical, et ont des implications sur la sélection de modèles pour des applications nécessitant des forces spécifiques du modèle, telles qu'une faible hallucination ou un coût d'inférence plus bas. L'évaluation multifacette de MEDIC révèle ces compromis de performances, comblant l'écart entre les capacités théoriques et la mise en œuvre pratique dans les environnements de soins de santé, garantissant que les modèles les plus prometteurs sont identifiés et adaptés à diverses applications de santé.
Malgré le potentiel des agents basés sur des modèles linguistiques pour résoudre des tâches du monde réel telles que la navigation web, les méthodes actuelles peinent toujours avec les tâches à long horizon présentant des trajectoires d'actions complexes. En revanche, les humains peuvent résoudre de manière flexible des tâches complexes en apprenant des flux de tâches réutilisables à partir d'expériences passées et en les utilisant pour guider les actions futures. Pour construire des agents pouvant bénéficier de ce processus de manière similaire, nous introduisons Agent Workflow Memory (AWM), une méthode pour induire des routines couramment réutilisées, c'est-à-dire des flux de tâches, et fournir sélectivement ces flux de tâches à l'agent pour guider les générations suivantes. AWM s'applique de manière flexible aux scénarios hors ligne et en ligne, où les agents induisent des flux de tâches à partir d'exemples d'entraînement à l'avance ou à partir de requêtes de test en temps réel. Nous expérimentons sur deux benchmarks majeurs de navigation web -- Mind2Web et WebArena -- couvrant collectivement plus de 1000 tâches provenant de plus de 200 domaines incluant les voyages, les achats et les médias sociaux, entre autres. AWM améliore considérablement les résultats de base de 24,6 % et 51,1 % en taux de réussite relative sur Mind2Web et WebArena tout en réduisant le nombre d'étapes nécessaires pour résoudre avec succès les tâches de WebArena. De plus, AWM en ligne généralise de manière robuste dans des évaluations croisées de tâches, de sites web et de domaines, dépassant les résultats de base de 8,9 à 14,0 points absolus à mesure que les écarts de distribution des tâches d'entraînement et de test s'agrandissent.
Malgré les progrès considérables réalisés dans la génération d'images en 3D, les méthodes existantes peinent encore à produire des images cohérentes multi-vues avec des textures haute résolution détaillées, notamment dans le paradigme de la diffusion 2D qui manque de conscience 3D. Dans ce travail, nous présentons le modèle Image-to-3D Haute Résolution (Hi3D), un nouveau paradigme basé sur la diffusion vidéo qui redéfinit une seule image en images multi-vues en tant que génération d'images séquentielles conscientes de la 3D (c'est-à-dire, génération vidéo orbitale). Cette méthodologie explore les connaissances sous-jacentes de la cohérence temporelle dans le modèle de diffusion vidéo qui se généralise bien à la cohérence géométrique à travers plusieurs vues dans la génération 3D. Techniquement, Hi3D renforce d'abord le modèle de diffusion vidéo pré-entraîné avec une condition préalable consciente de la 3D (position de la caméra), produisant des images multi-vues avec des détails de texture basse résolution. Un raffineur vidéo-à-vidéo conscient de la 3D est appris pour augmenter davantage la résolution des images multi-vues avec des détails de texture haute résolution. Ces images multi-vues haute résolution sont ensuite augmentées avec des vues nouvelles grâce au Splatting Gaussien en 3D, qui sont finalement exploitées pour obtenir des maillages haute fidélité via la reconstruction 3D. Des expériences approfondies sur la synthèse de vues nouvelles et la reconstruction de vues uniques démontrent que notre Hi3D parvient à produire des images cohérentes multi-vues supérieures avec des textures hautement détaillées. Le code source et les données sont disponibles sur https://github.com/yanghb22-fdu/Hi3D-Official.
Les Transformers d'attention linéaire et leurs variantes à portes, célèbres pour permettre un entraînement parallèle et une inférence récurrente efficace, restent en deçà dans les tâches intensives en rappel par rapport aux Transformers traditionnels et exigent des ressources significatives pour être entraînés à partir de zéro. Ce document présente l'Attention à Fentes à Portes (GSA), qui améliore l'Attention avec Contrôle de Mémoire Bornée (ABC) en incorporant un mécanisme de portes inspiré par l'Attention Linéaire à Portes (GLA). Essentiellement, le GSA comprend un GLA à deux couches lié via softmax, utilisant une lecture de mémoire consciente du contexte et un oubli adaptatif pour améliorer la capacité de mémoire tout en maintenant une taille d'état récurrent compacte. Cette conception améliore considérablement à la fois l'efficacité de l'entraînement et de l'inférence grâce à l'algorithme d'entraînement efficace en matériel du GLA et à la réduction de la taille de l'état. De plus, le maintien de l'opération softmax est particulièrement bénéfique dans les paramètres de "réglage fin des Transformers pré-entraînés aux RNN" (T2R), réduisant le besoin d'un entraînement approfondi à partir de zéro. Des expériences approfondies confirment la performance supérieure du GSA dans les scénarios nécessitant un rappel contextuel et dans les paramètres T2R.
La technique de sollicitation de Chaîne de Pensée (CoT) révèle que les grands modèles de langage sont capables d'effectuer un raisonnement complexe via des étapes intermédiaires. La sollicitation CoT est principalement catégorisée en trois approches. La première approche utilise des sollicitations simples telles que "Pensons étape par étape" pour générer un processus de pensée séquentiel avant de fournir une réponse. La deuxième approche utilise des démonstrations élaborées par des humains, étape par étape, pour guider le processus de raisonnement du modèle. La troisième automatise la génération de démonstrations raisonnées avec le "Pensons étape par étape". Cette approche conduit parfois à des erreurs de raisonnement, soulignant la nécessité de diversifier les démonstrations pour atténuer ses effets trompeurs. Cependant, des démonstrations diverses posent des défis pour des représentations efficaces. Dans ce travail, nous proposons ECHO, une méthode de sollicitation de Chaîne de Pensée auto-harmonisée. Elle consolide des chemins de solution divers en un motif de solution uniforme et efficace. ECHO démontre la meilleure performance globale à travers trois domaines de raisonnement.
gsplat est une bibliothèque open-source conçue pour l'entraînement et le développement des méthodes de Gaussian Splatting. Elle propose une interface avec des liaisons Python compatibles avec la bibliothèque PyTorch et un noyau CUDA hautement optimisé. gsplat offre de nombreuses fonctionnalités qui améliorent l'optimisation des modèles de Gaussian Splatting, notamment des améliorations d'optimisation pour la vitesse, la mémoire et les temps de convergence. Les résultats expérimentaux montrent que gsplat permet d'atteindre jusqu'à 10% de temps d'entraînement en moins et 4 fois moins de mémoire que l'implémentation originale. Utilisée dans plusieurs projets de recherche, gsplat est activement maintenue sur GitHub. Le code source est disponible sur https://github.com/nerfstudio-project/gsplat sous la licence Apache 2.0. Nous accueillons favorablement les contributions de la communauté open-source.
"Une idée n'est rien de plus ni de moins qu'une nouvelle combinaison d'anciens éléments" (Young, J.W.). L'adoption généralisée des Grands Modèles de Langage (GML) et du ChatGPT disponible publiquement a marqué un tournant significatif dans l'intégration de l'Intelligence Artificielle (IA) dans la vie quotidienne des gens. Cette étude explore la capacité des GML à générer de nouvelles idées de recherche basées sur des informations provenant d'articles de recherche. Nous menons un examen approfondi de 4 GML dans cinq domaines (par exemple, Chimie, Informatique, Économie, Médical et Physique). Nous avons constaté que les idées de recherche futures générées par Claude-2 et GPT-4 sont plus alignées sur la perspective de l'auteur que celles de GPT-3.5 et Gemini. Nous avons également observé que Claude-2 génère des idées de recherche futures plus diverses que GPT-4, GPT-3.5 et Gemini 1.0. Nous avons ensuite réalisé une évaluation humaine de la nouveauté, de la pertinence et de la faisabilité des idées de recherche futures générées. Cette étude offre des perspectives sur le rôle évolutif des GML dans la génération d'idées, mettant en lumière à la fois ses capacités et ses limites. Notre travail contribue aux efforts en cours d'évaluation et d'utilisation des modèles de langage pour la génération d'idées de recherche futures. Nous mettons nos ensembles de données et codes à disposition du public.
Nous proposons GauFace, une nouvelle représentation de Splatting gaussien, conçue pour l'animation efficace et le rendu d'actifs faciaux basés sur la physique. En exploitant des contraintes géométriques fortes et une optimisation contrainte, GauFace garantit une représentation gaussienne soignée et structurée, offrant une fidélité élevée et une interaction faciale en temps réel de 30 ips à 1440p sur une plateforme mobile Snapdragon 8 Gen 2. Ensuite, nous introduisons TransGS, un transformateur de diffusion qui traduit instantanément les actifs faciaux basés sur la physique en les représentations correspondantes de GauFace. Plus précisément, nous adoptons un pipeline basé sur des patchs pour gérer efficacement le grand nombre de Gaussiennes. Nous introduisons également un nouveau schéma d'échantillonnage aligné sur les pixels avec un codage de position UV pour garantir le débit et la qualité de rendu des actifs GauFace générés par notre TransGS. Une fois entraîné, TransGS peut traduire instantanément des actifs faciaux avec des conditions d'éclairage en représentation de GauFace. Avec les riches modalités de conditionnement, il permet également des capacités d'édition et d'animation rappelant les pipelines CG traditionnels. Nous menons des évaluations approfondies et des études utilisateur, comparées aux moteurs de rendu traditionnels hors ligne et en ligne, ainsi qu'aux méthodes de rendu neuronal récentes, qui démontrent la performance supérieure de notre approche pour le rendu d'actifs faciaux. Nous présentons également diverses applications immersives d'actifs faciaux en utilisant notre approche TransGS et la représentation de GauFace, sur différentes plateformes telles que les PC, les téléphones et même les casques de réalité virtuelle.
Nous présentons un cadre pour apprendre à générer de la musique d'ambiance à partir de vidéos en entrée. Contrairement aux travaux existants qui reposent sur des annotations musicales symboliques, limitées en quantité et en diversité, notre méthode exploite des vidéos à grande échelle accompagnées de musique d'ambiance. Cela permet à notre modèle d'apprendre à générer une musique réaliste et diversifiée. Pour atteindre cet objectif, nous développons un Transformateur vidéo-musique génératif avec un nouveau schéma d'alignement sémantique vidéo-musique. Notre modèle utilise un objectif d'apprentissage conjoint autoregressif et contrastif, qui encourage la génération de musique alignée avec le contenu vidéo de haut niveau. Nous introduisons également un nouveau schéma d'alignement vidéo-tempo pour faire correspondre les temps musicaux générés avec les mouvements de bas niveau dans la vidéo. Enfin, pour capturer les indices visuels fins dans une vidéo nécessaires à la génération réaliste de musique d'ambiance, nous introduisons une nouvelle architecture d'encodeur vidéo temporel, nous permettant de traiter efficacement des vidéos composées de nombreuses images échantillonnées de manière dense. Nous entraînons notre cadre sur notre ensemble de données DISCO-MV nouvellement constitué, composé de 2,2 millions d'échantillons vidéo-musique, ce qui est des ordres de grandeur plus grand que tout ensemble de données précédemment utilisé pour la génération de musique vidéo. Notre méthode surpasse les approches existantes sur les ensembles de données DISCO-MV et MusicCaps selon diverses mesures d'évaluation de la génération de musique, y compris l'évaluation humaine. Les résultats sont disponibles sur https://genjib.github.io/project_page/VMAs/index.html
Les dernières années ont été marquées par une explosion du développement de modèles fondamentaux de protéines, améliorant significativement les performances dans la prédiction des protéines et les tâches génératives allant de la prédiction de la structure 3D et la conception de protéines à la dynamique conformationnelle. Cependant, les capacités et les limitations associées à ces modèles restent mal comprises en raison de l'absence d'un cadre d'évaluation unifié. Pour combler cette lacune, nous introduisons ProteinBench, un cadre d'évaluation holistique conçu pour améliorer la transparence des modèles fondamentaux de protéines. Notre approche se compose de trois composants clés : (i) une classification taxonomique des tâches englobant largement les principaux défis dans le domaine des protéines, basée sur les relations entre différentes modalités de protéines ; (ii) une approche d'évaluation multi-métrique qui évalue les performances à travers quatre dimensions clés : qualité, nouveauté, diversité et robustesse ; et (iii) des analyses approfondies des différents objectifs des utilisateurs, offrant une vue holistique des performances du modèle. Notre évaluation complète des modèles fondamentaux de protéines révèle plusieurs conclusions clés qui éclairent sur leurs capacités et limitations actuelles. Pour promouvoir la transparence et faciliter de nouvelles recherches, nous mettons à disposition publiquement l'ensemble de données d'évaluation, le code, et un tableau des scores publics pour une analyse ultérieure et un outil modulaire général. Nous souhaitons que ProteinBench devienne une référence vivante pour établir un cadre d'évaluation standardisé et approfondi pour les modèles fondamentaux de protéines, favorisant leur développement et leur application tout en encourageant la collaboration au sein du domaine.
Étant donné que les Modèles de Langage de Grande Taille (LLMs) ont réalisé des progrès significatifs dans la rédaction de code, peuvent-ils maintenant être utilisés pour reproduire de manière autonome les résultats des dépôts de recherche ? Une telle capacité serait un atout pour la communauté de recherche, aidant les chercheurs à valider, comprendre et étendre les travaux antérieurs. Pour progresser vers cet objectif, nous présentons SUPER, le premier banc d'essai conçu pour évaluer la capacité des LLMs à configurer et exécuter des tâches à partir de dépôts de recherche. SUPER vise à capturer les défis réalistes auxquels sont confrontés les chercheurs travaillant avec des dépôts de recherche en Apprentissage Automatique (ML) et en Traitement du Langage Naturel (NLP). Notre banc d'essai comprend trois ensembles de problèmes distincts : 45 problèmes de bout en bout avec des solutions d'experts annotées, 152 sous-problèmes dérivés de l'ensemble d'experts qui se concentrent sur des défis spécifiques (par exemple, la configuration d'un entraîneur), et 602 problèmes générés automatiquement pour un développement à plus grande échelle. Nous introduisons diverses mesures d'évaluation pour évaluer à la fois le succès des tâches et les progrès, en utilisant des solutions de référence lorsque disponibles ou des approximations sinon. Nous montrons que les approches de pointe ont du mal à résoudre ces problèmes, le meilleur modèle (GPT-4o) ne résolvant que 16,3 % de l'ensemble de bout en bout et 46,1 % des scénarios. Cela illustre le défi de cette tâche et suggère que SUPER peut servir de ressource précieuse pour la communauté afin de réaliser et mesurer les progrès.
Cet article présente MVLLaVA, un agent intelligent conçu pour des tâches de synthèse de nouvelles vues. MVLLaVA intègre plusieurs modèles de diffusion multi-vue avec un grand modèle multimodal, LLaVA, lui permettant de gérer efficacement une large gamme de tâches. MVLLaVA représente une plateforme polyvalente et unifiée qui s'adapte à divers types d'entrées, y compris une seule image, une légende descriptive, ou un changement spécifique dans l'azimut de visualisation, guidé par des instructions en langage naturel pour la génération de points de vue. Nous élaborons soigneusement des modèles d'instructions spécifiques à la tâche, qui sont ensuite utilisés pour affiner LLaVA. En conséquence, MVLLaVA acquiert la capacité de générer des images de nouvelles vues basées sur les instructions de l'utilisateur, démontrant sa flexibilité à travers diverses tâches. Des expériences sont menées pour valider l'efficacité de MVLLaVA, démontrant ses performances robustes et sa polyvalence pour relever divers défis de synthèse de nouvelles vues.
Les modèles génératifs entraînés à grande échelle peuvent désormais produire du texte, de la vidéo, et plus récemment, des données scientifiques telles que des structures cristallines. Dans les applications des approches génératives en science des matériaux, et en particulier dans le domaine des structures cristallines, les conseils de l'expert du domaine sous forme d'instructions de haut niveau peuvent être essentiels pour qu'un système automatisé produise des cristaux candidats viables pour la recherche ultérieure. Dans ce travail, nous formulons la génération de langage vers structure de bout en bout comme un problème d'optimisation multi-objectif, et proposons la Recherche de Matériaux Hiérarchique Générative (GenMS) pour une génération contrôlable de structures cristallines. GenMS se compose de (1) un modèle de langage qui prend un langage naturel de haut niveau en entrée et génère des informations textuelles intermédiaires sur un cristal (par exemple, des formules chimiques), et (2) un modèle de diffusion qui prend des informations intermédiaires en entrée et génère des structures cristallines de valeurs continues de bas niveau. GenMS utilise également un réseau neuronal graphique pour prédire des propriétés (par exemple, l'énergie de formation) à partir des structures cristallines générées. Lors de l'inférence, GenMS exploite ces trois composants pour effectuer une recherche arborescente en avant sur l'espace des structures possibles. Les expériences montrent que GenMS surpasse d'autres alternatives consistant à utiliser directement des modèles de langage pour générer des structures, à la fois pour satisfaire les demandes des utilisateurs et pour générer des structures à faible énergie. Nous confirmons que GenMS est capable de générer des structures cristallines courantes telles que les double pérovskites ou les spinelles, uniquement à partir d'entrées en langage naturel, et peut ainsi servir de base pour une génération de structures plus complexes dans un avenir proche.