Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons la mise à l'échelle en profondeur (Depth Up-Scaling, DUS), une technique novatrice permettant de mettre à l'échelle les modèles de langage de base (LLM) de manière simple, efficace et efficiente. Contrairement aux méthodes de mélange d'experts (Mixture-of-Experts, MoE), la DUS ne nécessite pas de modifications complexes pour l'entraînement et l'inférence. En utilisant la DUS, nous avons développé SOLAR 10.7B, un modèle de langage de grande envergure (LLM) doté de 10,7 milliards de paramètres, qui démontre des performances supérieures dans diverses tâches de traitement du langage naturel (NLP). Les évaluations comparatives montrent que SOLAR 10.7B surpasse les LLM pré-entraînés open-source existants, tels que Llama 2 et Mistral 7B. Nous présentons également SOLAR 10.7B-Instruct, une variante fine-tunée pour des capacités de suivi d'instructions, surpassant Mixtral-8x7B. SOLAR 10.7B est disponible publiquement sous la licence Apache 2.0, favorisant un accès large et une application étendue dans le domaine des LLM.
Cet article présente 26 principes directeurs conçus pour rationaliser le processus d'interrogation et de formulation de requêtes pour les grands modèles de langage. Notre objectif est de simplifier les concepts fondamentaux liés à la formulation de questions pour différentes échelles de grands modèles de langage, d'examiner leurs capacités, et d'améliorer la compréhension des utilisateurs concernant les comportements de ces modèles à différentes échelles lorsqu'ils sont alimentés par différentes requêtes. Des expériences approfondies sont menées sur LLaMA-1/2 (7B, 13B et 70B) ainsi que sur GPT-3.5/4 pour vérifier l'efficacité des principes proposés dans la conception d'instructions et de requêtes. Nous espérons que ce travail fournira un meilleur guide pour les chercheurs travaillant sur la formulation de requêtes pour les grands modèles de langage. La page du projet est disponible à l'adresse suivante : https://github.com/VILA-Lab/ATLAS.
La demande croissante pour des personnages 3D personnalisés et expressifs, stimulée par l'émergence des agents IA et du Métavers, se heurte à la complexité et à la lourdeur des outils traditionnels de graphisme informatique. Pour relever ces défis, nous proposons un cadre convivial nommé Make-A-Character (Mach), permettant de créer des avatars 3D réalistes à partir de descriptions textuelles. Ce framework exploite la puissance des grands modèles de langage et de vision pour la compréhension des intentions textuelles et la génération d'images intermédiaires, suivis d'une série de modules de perception visuelle et de génération 3D centrés sur l'humain. Notre système offre une approche intuitive permettant aux utilisateurs de concevoir des personnages 3D contrôlables, réalistes et entièrement aboutis en moins de 2 minutes, tout en facilitant leur intégration dans les pipelines CG existants pour une expressivité dynamique. Pour plus d'informations, visitez la page du projet à l'adresse suivante : https://human3daigc.github.io/MACH/.
Les tâches de segmentation d'objets basées sur des références, à savoir la segmentation d'images par référence (RIS), la segmentation d'images en peu de coups (FSS), la segmentation d'objets vidéo par référence (RVOS) et la segmentation d'objets vidéo (VOS), visent à segmenter un objet spécifique en utilisant soit le langage, soit des masques annotés comme références. Malgré des progrès significatifs dans chaque domaine respectif, les méthodes actuelles sont conçues et développées de manière spécifique à chaque tâche, ce qui entrave l'activation des capacités multitâches pour ces tâches. Dans ce travail, nous mettons fin à cette situation fragmentée et proposons UniRef++ pour unifier les quatre tâches de segmentation d'objets basées sur des références avec une architecture unique. Au cœur de notre approche se trouve le module UniFusion proposé, qui effectue une fusion multidirectionnelle pour gérer différentes tâches en fonction de leurs références spécifiées. Une architecture Transformer unifiée est ensuite adoptée pour réaliser une segmentation au niveau de l'instance. Grâce à ces conceptions unifiées, UniRef++ peut être conjointement entraîné sur un large éventail de benchmarks et peut accomplir de manière flexible plusieurs tâches en temps d'exécution en spécifiant les références correspondantes. Nous évaluons nos modèles unifiés sur divers benchmarks. Les résultats expérimentaux approfondis indiquent que notre UniRef++ proposé atteint des performances de pointe sur RIS et RVOS, et se comporte de manière compétitive sur FSS et VOS avec un réseau à paramètres partagés. De plus, nous démontrons que le module UniFusion proposé pourrait être facilement intégré dans le modèle de base avancé actuel SAM et obtenir des résultats satisfaisants avec un réglage fin efficace en paramètres. Les codes et modèles sont disponibles à l'adresse https://github.com/FoundationVision/UniRef.
Le secteur en pleine évolution des modèles de langage multimodaux de grande envergure (MLLMs) est à l'avant-garde de l'intégration du traitement linguistique et visuel dans l'intelligence artificielle. Cet article présente une étude comparative approfondie de deux modèles pionniers : Gemini de Google et GPT-4V(ision) d'OpenAI. Notre étude implique une évaluation multidimensionnelle des deux modèles sur des dimensions clés telles que la capacité vision-langage, l'interaction avec les humains, la compréhension temporelle, ainsi que des évaluations des quotients intellectuel et émotionnel. Le cœur de notre analyse se penche sur les capacités distinctes de compréhension visuelle de chaque modèle. Nous avons mené une série d'expériences structurées pour évaluer leurs performances dans divers scénarios d'applications industrielles, offrant une perspective complète sur leur utilité pratique. Nous incluons non seulement des comparaisons directes de performances, mais également des ajustements dans les prompts et les scénarios pour garantir une analyse équilibrée et juste. Nos résultats mettent en lumière les forces et les niches uniques des deux modèles. GPT-4V se distingue par la précision et la concision de ses réponses, tandis que Gemini excelle dans la fourniture de réponses détaillées et expansives accompagnées d'images et de liens pertinents. Ces compréhensions éclairent non seulement les mérites comparatifs de Gemini et GPT-4V, mais soulignent également l'évolution du paysage des modèles de fondation multimodaux, ouvrant la voie à de futures avancées dans ce domaine. Après la comparaison, nous avons tenté d'obtenir de meilleurs résultats en combinant les deux modèles. Enfin, nous tenons à exprimer notre profonde gratitude aux équipes derrière GPT-4V et Gemini pour leurs contributions pionnières dans ce domaine. Nos remerciements s'étendent également à l'analyse qualitative exhaustive présentée dans 'Dawn' par Yang et al. Ce travail, avec sa vaste collection d'échantillons d'images, de prompts et de résultats liés à GPT-4V, a fourni une base fondamentale pour notre analyse.
L'audio est un élément essentiel de notre vie, mais sa création nécessite souvent une expertise et est chronophage. Les communautés de recherche ont réalisé des progrès significatifs au cours de l'année écoulée en améliorant les performances des modèles génératifs audio à grande échelle pour une modalité unique (parole, son ou musique) grâce à l'adoption de modèles génératifs plus puissants et à l'augmentation des données. Cependant, ces modèles manquent de contrôlabilité à plusieurs égards : les modèles de génération de parole ne peuvent pas synthétiser de nouveaux styles basés sur des descriptions textuelles et sont limités en termes de couverture de domaines, comme les environnements extérieurs ; les modèles de génération de son ne fournissent qu'un contrôle grossier basé sur des descriptions telles que "une personne qui parle" et ne génèrent que des voix humaines indistinctes. Ce papier présente Audiobox, un modèle unifié basé sur le "flow-matching" capable de générer diverses modalités audio. Nous concevons des prompts basés sur des descriptions et des exemples pour améliorer la contrôlabilité et unifier les paradigmes de génération de parole et de son. Nous permettons que la transcription, les caractéristiques vocales et d'autres styles audio soient contrôlés indépendamment lors de la génération de parole. Pour améliorer la généralisation du modèle avec un nombre limité d'étiquettes, nous adaptons un objectif d'auto-supervision par remplissage pour pré-entraîner sur de grandes quantités d'audio non étiqueté. Audiobox établit de nouveaux référentiels en génération de parole et de son (0,745 de similarité sur Librispeech pour la synthèse vocale zero-shot ; 0,77 FAD sur AudioCaps pour la génération de son à partir de texte) et ouvre de nouvelles méthodes pour générer de l'audio avec des styles vocaux et acoustiques novateurs. Nous intégrons en outre des "Bespoke Solvers", qui accélèrent la génération de plus de 25 fois par rapport au solveur ODE par défaut pour le "flow-matching", sans perte de performance sur plusieurs tâches. Notre démo est disponible à l'adresse https://audiobox.metademolab.com/.
Les humains vivent dans un monde en 3D et utilisent couramment le langage naturel pour interagir avec une scène en 3D. La modélisation d'un champ de langage en 3D pour prendre en charge des requêtes linguistiques ouvertes dans un environnement 3D a récemment suscité un intérêt croissant. Cet article présente LangSplat, qui construit un champ de langage en 3D permettant des requêtes précises et efficaces en vocabulaire ouvert dans des espaces 3D. Contrairement aux méthodes existantes qui ancrent les embeddings linguistiques de CLIP dans un modèle NeRF, LangSplat fait progresser le domaine en utilisant une collection de Gaussiennes 3D, chacune encodant des caractéristiques linguistiques distillées à partir de CLIP, pour représenter le champ de langage. En employant une technique de splatting basée sur des tuiles pour le rendu des caractéristiques linguistiques, nous contournons le processus de rendu coûteux inhérent à NeRF. Au lieu d'apprendre directement les embeddings de CLIP, LangSplat entraîne d'abord un autoencodeur linguistique par scène, puis apprend les caractéristiques linguistiques dans l'espace latent spécifique à la scène, réduisant ainsi les demandes de mémoire importantes imposées par la modélisation explicite. Les méthodes existantes peinent à produire des champs de langage 3D précis et non ambigus, qui échouent à discerner des frontières claires entre les objets. Nous explorons cette problématique et proposons d'apprendre des sémantiques hiérarchiques en utilisant SAM, éliminant ainsi le besoin de requêter intensivement le champ de langage à différentes échelles et la régularisation des caractéristiques DINO. Des expériences approfondies sur la localisation d'objets 3D en vocabulaire ouvert et la segmentation sémantique démontrent que LangSplat surpasse largement la méthode précédente de pointe, LERF. Notamment, LangSplat est extrêmement efficace, atteignant une accélération de {\speed} fois par rapport à LERF à une résolution de 1440 fois 1080. Nous recommandons vivement aux lecteurs de consulter nos résultats vidéo sur https://langsplat.github.io.
La génération de vidéos à partir de texte basée sur les modèles de diffusion a connu des progrès impressionnants au cours de l'année écoulée, mais elle reste encore en retrait par rapport à la génération d'images à partir de texte. L'une des principales raisons est l'échelle limitée des données publiquement disponibles (par exemple, 10 millions de paires vidéo-texte dans WebVid10M contre 5 milliards de paires image-texte dans LAION), compte tenu du coût élevé de l'étiquetage vidéo. En revanche, il pourrait être bien plus facile de collecter des clips non étiquetés sur des plateformes vidéo comme YouTube. Motivés par cette observation, nous proposons un nouveau cadre de génération de vidéos à partir de texte, appelé TF-T2V, qui peut apprendre directement à partir de vidéos sans texte. L'idée sous-jacente est de séparer le processus de décodage du texte de celui de la modélisation temporelle. Pour ce faire, nous utilisons une branche de contenu et une branche de mouvement, qui sont optimisées conjointement avec des poids partagés. En suivant cette approche, nous étudions l'effet du doublement de l'échelle de l'ensemble d'entraînement (c'est-à-dire WebVid10M sans texte) avec des vidéos sans texte collectées aléatoirement, et nous constatons avec satisfaction une amélioration des performances (FID passant de 9,67 à 8,19 et FVD de 484 à 441), démontrant ainsi l'évolutivité de notre méthode. Nous observons également que notre modèle peut bénéficier d'un gain de performance durable (FID passant de 8,19 à 7,64 et FVD de 441 à 366) après la réintroduction de quelques étiquettes textuelles pour l'entraînement. Enfin, nous validons l'efficacité et la généralisabilité de notre approche à la fois sur la génération native de vidéos à partir de texte et sur les paradigmes de synthèse vidéo compositionnelle. Le code et les modèles seront disponibles publiquement à l'adresse https://tf-t2v.github.io/.
Les progrès récents dans la génération 3D à partir d'une seule image mettent en lumière l'importance de la cohérence multi-vues, en exploitant des connaissances préalables 3D issues de modèles de diffusion à grande échelle pré-entraînés sur des images à l'échelle d'Internet. Cependant, l'aspect de la diversité des nouvelles vues reste peu exploré dans le paysage de la recherche en raison de l'ambiguïté inhérente à la conversion d'une image 2D en contenu 3D, où de nombreuses formes potentielles peuvent émerger. Ici, nous visons à combler cette lacune de recherche en abordant simultanément à la fois la cohérence et la diversité. Pourtant, trouver un équilibre entre ces deux aspects représente un défi considérable en raison de leurs compromis inhérents. Ce travail présente HarmonyView, une technique d'échantillonnage par diffusion simple mais efficace, capable de décomposer deux aspects complexes dans la génération 3D à partir d'une seule image : la cohérence et la diversité. Cette approche ouvre la voie à une exploration plus nuancée de ces deux dimensions critiques dans le processus d'échantillonnage. De plus, nous proposons une nouvelle métrique d'évaluation basée sur les encodeurs d'images et de texte CLIP pour évaluer de manière exhaustive la diversité des vues générées, qui s'aligne étroitement avec les jugements des évaluateurs humains. Dans les expériences, HarmonyView atteint un équilibre harmonieux, démontrant un scénario gagnant-gagnant à la fois en cohérence et en diversité.
L'utilisation répandue de modèles de diffusion (DMs) commerciaux et open source pour la génération d'images à partir de texte nécessite des mesures d'atténuation des risques afin de prévenir les comportements indésirables. Les méthodes académiques existantes d'effacement de concepts reposent toutes sur un ajustement fin des paramètres complets ou basé sur des spécifications, ce qui soulève les problèmes suivants : 1) Altération de la génération vers l'érosion : La dérive des paramètres lors de l'élimination ciblée provoque des altérations et des déformations potentielles dans toutes les générations, érodant même d'autres concepts à des degrés divers, ce qui est plus évident avec plusieurs concepts effacés ; 2) Incapacité de transfert et inefficacité de déploiement : L'effacement spécifique au modèle précédent entrave la combinaison flexible des concepts et le transfert sans entraînement vers d'autres modèles, entraînant une croissance linéaire des coûts à mesure que les scénarios de déploiement augmentent. Pour parvenir à une élimination non invasive, précise, personnalisable et transférable, nous fondons notre cadre d'effacement sur des adaptateurs unidimensionnels pour effacer plusieurs concepts de la plupart des DMs en une seule fois, couvrant diverses applications d'effacement. La structure concept-SemiPermeable est injectée comme une Membrane (SPM) dans n'importe quel DM pour apprendre l'effacement ciblé, tout en atténuant efficacement le phénomène d'altération et d'érosion grâce à une nouvelle stratégie d'ajustement fin par Ancrage Latent. Une fois obtenues, les SPMs peuvent être combinées de manière flexible et utilisées en plug-and-play pour d'autres DMs sans réajustement spécifique, permettant une adaptation rapide et efficace à divers scénarios. Pendant la génération, notre mécanisme de Transport Facilité régule dynamiquement la perméabilité de chaque SPM pour répondre à différentes invites d'entrée, minimisant davantage l'impact sur d'autres concepts. Les résultats quantitatifs et qualitatifs sur environ 40 concepts, 7 DMs et 4 applications d'effacement ont démontré la supériorité de l'effacement par SPM. Notre code et les SPMs pré-ajustés seront disponibles sur la page du projet https://lyumengyao.github.io/projects/spm.
Les grands modèles de langage (LLMs) démontrent des capacités émergentes d'apprentissage en contexte grâce à l'ingénierie des prompts. Les récents progrès dans les modèles génératifs à grande échelle ont encore élargi leur utilisation dans des applications linguistiques réelles. Cependant, le défi crucial d'améliorer la généralisabilité et la factualité des LLMs dans la compréhension du langage naturel et le question-réponse reste peu exploré. Alors que les recherches précédentes sur l'apprentissage en contexte se sont concentrées sur l'amélioration des modèles pour qu'ils respectent les instructions spécifiques des utilisateurs et leurs attentes de qualité, et pour éviter les sorties indésirables, peu ou pas de travaux ont exploré l'utilisation de modèles de langage spécifiquement affinés pour des tâches (SLMs) pour améliorer l'apprentissage en contexte des LLMs pendant l'étape d'inférence. Notre contribution principale est l'établissement d'un cadre simple mais efficace qui améliore la fiabilité des LLMs en : 1) généralisant les données hors distribution, 2) élucidant comment les LLMs bénéficient des modèles discriminatifs, et 3) minimisant les hallucinations dans les tâches génératives. En utilisant notre méthode proposée de type plug-in, les versions améliorées de Llama 2 et ChatGPT surpassent leurs versions originales en termes de généralisabilité et de factualité. Nous offrons une suite complète de ressources, incluant 16 ensembles de données soigneusement sélectionnés, des prompts, des points de contrôle de modèles, et les sorties des LLMs sur 9 tâches distinctes. Notre analyse empirique met en lumière les avantages de l'intégration de modèles discriminatifs dans les LLMs et souligne le potentiel de notre méthodologie pour favoriser des LLMs plus fiables.
La reconstruction du corps humain à partir de vidéos monoscopiques joue un rôle central dans le domaine de la réalité virtuelle. Un scénario d'application courant nécessite la reconstruction rapide d'humains numériques 3D de haute fidélité tout en garantissant un rendu et une interaction en temps réel. Les méthodes existantes peinent souvent à satisfaire ces deux exigences. Dans cet article, nous présentons Human101, un nouveau cadre capable de produire des reconstructions 3D dynamiques de haute fidélité à partir de vidéos monoscopiques en entraînant des Gaussiennes 3D en 100 secondes et en rendant à plus de 100 FPS. Notre méthode exploite les avantages du *3D Gaussian Splatting*, qui fournit une représentation explicite et efficace des humains 3D. Se distinguant des pipelines basés sur NeRF, Human101 applique de manière ingénieuse une méthode d'animation gaussienne centrée sur l'humain pour déformer les paramètres des Gaussiennes 3D, améliorant ainsi la vitesse de rendu (c'est-à-dire le rendu d'images en résolution 1024 à plus de 60 FPS et en résolution 512 à plus de 100 FPS). Les résultats expérimentaux montrent que notre approche surpasse largement les méthodes actuelles, avec une augmentation allant jusqu'à 10 fois en termes d'images par seconde et une qualité de rendu comparable ou supérieure. Le code et les démonstrations seront disponibles sur https://github.com/longxiang-ai/Human101.