Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) se distinguent par leurs énormes nombres de paramètres, qui entraînent généralement une redondance significative. Ce travail présente MaskLLM, une méthode de taille adaptable qui établit une Sparsité Semi-structurée (ou "N:M") dans les LLM, visant à réduire la charge computationnelle lors de l'inférence. Au lieu de développer un nouveau critère d'importance, MaskLLM modélise explicitement les motifs N:M comme une distribution apprenable à travers un échantillonnage Gumbel Softmax. Cette approche facilite l'entraînement de bout en bout sur des ensembles de données à grande échelle et offre deux avantages notables : 1) Masques de haute qualité - notre méthode s'adapte efficacement aux grands ensembles de données et apprend des masques précis ; 2) Transférabilité - la modélisation probabiliste de la distribution des masques permet le transfert d'apprentissage de la sparsité entre domaines ou tâches. Nous avons évalué MaskLLM en utilisant une sparsité de 2:4 sur différents LLM, y compris LLaMA-2, Nemotron-4 et GPT-3, avec des tailles allant de 843M à 15B de paramètres, et nos résultats empiriques montrent des améliorations substantielles par rapport aux méthodes de pointe. Par exemple, les approches principales obtiennent une perplexité (PPL) de 10 ou plus sur Wikitext par rapport au modèle dense à 5,12 PPL, mais MaskLLM atteint significativement 6,72 PPL uniquement en apprenant les masques avec des poids figés. De plus, la nature apprenable de MaskLLM permet des masques personnalisés pour une application sans perte de la sparsité de 2:4 aux tâches ou domaines en aval. Le code est disponible sur https://github.com/NVlabs/MaskLLM.
GPT-4o, un modèle omni-modal permettant des conversations vocales avec diverses émotions et tons, marque une étape importante pour les modèles fondamentaux omni-modaux. Cependant, habiliter les Grands Modèles de Langage à percevoir et générer des images, des textes et des discours de bout en bout avec des données disponibles publiquement reste un défi au sein de la communauté open source. Les modèles vision-langage existants s'appuient sur des outils externes pour le traitement de la parole, tandis que les modèles de parole-langage souffrent encore de capacités limitées, voire inexistantes, de compréhension de la vision. Pour combler cette lacune, nous proposons EMOVA (Assistant Vocal Émotionnellement Omniprésent), pour permettre aux Grands Modèles de Langage d'avoir des capacités de parole de bout en bout tout en maintenant des performances de premier plan en vision-langage. Avec un tokeniseur de parole désenchevêtré sémantique-acoustique, nous remarquons de manière surprenante que l'alignement omni-modal peut améliorer davantage les capacités en vision-langage et en parole par rapport aux homologues bi-modaux alignés correspondants. De plus, un module de style léger est proposé pour des contrôles de style de parole flexibles (par exemple, émotions et tonalités). Pour la première fois, EMOVA atteint des performances de pointe à la fois sur les benchmarks en vision-langage et en parole, tout en prenant en charge un dialogue parlé omni-modal avec des émotions vives.
Les récents progrès dans les Modèles Multimodaux de Grande Taille (LMMs) ont grandement amélioré leur efficacité dans les tâches de compréhension visuelle 2D, leur permettant de traiter et comprendre efficacement les images et les vidéos. Cependant, le développement de LMMs avec une conscience 3D pour la compréhension des scènes 3D a été entravé par le manque de grands ensembles de données vision-langage 3D et de puissants encodeurs 3D. Dans cet article, nous introduisons un cadre simple mais efficace appelé LLaVA-3D. En tirant parti des forts a priori de compréhension 2D de LLaVA, notre LLaVA-3D adapte efficacement LLaVA pour la compréhension des scènes 3D sans compromettre les capacités de compréhension 2D. Pour ce faire, nous utilisons une représentation simple mais efficace, le Patch 3D, qui relie les caractéristiques des patchs CLIP 2D avec leurs positions correspondantes dans l'espace 3D. En intégrant les Patches 3D dans les LMMs 2D et en utilisant un accord d'instructions vision-langage 2D et 3D conjoint, nous établissons une architecture unifiée pour la compréhension d'images 2D et de scènes 3D. Les résultats expérimentaux montrent que LLaVA-3D converge 3,5 fois plus rapidement que les LMMs 3D existants lorsqu'ils sont entraînés sur des ensembles de données vision-langage 3D. De plus, LLaVA-3D atteint non seulement des performances de pointe dans diverses tâches 3D, mais maintient également des capacités de compréhension d'images 2D et de conversation vision-langage comparables à celles de LLaVA.
Exploiter les préférences visuelles des modèles de diffusion texte-image pré-entraînés offre une solution prometteuse pour améliorer la généralisation sans étiquette dans les tâches de prédiction dense. Cependant, les méthodes existantes utilisent souvent de manière incritique la formulation de diffusion originale, qui peut ne pas être optimale en raison des différences fondamentales entre la prédiction dense et la génération d'images. Dans cet article, nous proposons une analyse systémique de la formulation de diffusion pour la prédiction dense, en mettant l'accent sur la qualité et l'efficacité. Nous constatons que le type de paramétrage original pour la génération d'images, qui apprend à prédire du bruit, est nuisible pour la prédiction dense ; le processus de diffusion à plusieurs étapes de bruitage/débruitage est également inutile et difficile à optimiser. Sur la base de ces observations, nous présentons Lotus, un modèle de base visuelle basé sur la diffusion avec un protocole d'adaptation simple mais efficace pour la prédiction dense. Plus précisément, Lotus est formé pour prédire directement des annotations au lieu de bruit, évitant ainsi une variance nuisible. Nous reformulons également le processus de diffusion en une procédure en une seule étape, simplifiant l'optimisation et augmentant significativement la vitesse d'inférence. De plus, nous introduisons une nouvelle stratégie d'ajustement appelée conservateur de détails, qui permet d'obtenir des prédictions plus précises et détaillées. Sans augmenter les données d'entraînement ou la capacité du modèle, Lotus atteint des performances de pointe en estimation de profondeur et de normales sans étiquette sur divers ensembles de données. Il améliore également considérablement l'efficacité, étant des centaines de fois plus rapide que la plupart des méthodes de diffusion existantes.
L'ajustement des instructions signifie généralement affiner un modèle de langage sur des paires d'instructions-réponses. Nous découvrons deux formes d'adaptation (ajustement) qui sont déficientes par rapport à l'ajustement des instructions, mais qui permettent toujours de suivre des instructions ; nous appelons cela ajustement implicite des instructions. Nous constatons tout d'abord que les paires d'instructions-réponses ne sont pas nécessaires : s'entraîner uniquement sur les réponses, sans aucune instruction correspondante, permet de suivre les instructions. Cela suggère que les modèles pré-entraînés ont un mappage instruction-réponse qui est révélé en enseignant au modèle la distribution désirée des réponses. Cependant, nous constatons ensuite qu'il n'est pas nécessaire d'enseigner la distribution désirée des réponses : l'entraînement instruction-réponse sur des données de domaine étroit comme la poésie conduit toujours à un comportement général de suivi des instructions comme la génération de recettes. En particulier, lorsque les instructions sont très différentes de celles du domaine d'affinage étroit, les réponses des modèles ne respectent pas le style du domaine d'affinage. Pour commencer à expliquer l'ajustement implicite des instructions, nous émettons l'hypothèse que des changements très simples dans la distribution d'un modèle de langage permettent de suivre des instructions. Nous étayons cela en écrivant à la main un modèle de langage basé sur des règles qui permet de suivre des instructions dans un produit d'experts avec un modèle pré-entraîné. Les règles consistent à augmenter lentement la probabilité de terminer la séquence, à pénaliser la répétition et à modifier uniformément les probabilités de 15 mots. En résumé, des adaptations effectuées sans être conçues pour permettre de suivre des instructions peuvent le faire de manière implicite.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables pour traiter de longues entrées contextuelles, mais cela se fait au détriment de ressources computationnelles et de latence accrues. Notre recherche présente une approche novatrice pour surmonter le goulot d'étranglement du contexte long afin d'accélérer l'inférence des LLM et réduire la consommation de mémoire GPU. Notre recherche montre que les LLM peuvent identifier les jetons pertinents dans les premières couches avant de générer des réponses à une requête. En exploitant cette observation, nous proposons un algorithme qui utilise les premières couches d'un LLM comme filtres pour sélectionner et compresser les jetons d'entrée, réduisant ainsi significativement la longueur du contexte pour le traitement ultérieur. Notre méthode, GemFilter, présente des améliorations substantielles à la fois en termes de vitesse et d'efficacité mémoire par rapport aux techniques existantes, telles que l'attention standard et SnapKV/H2O. Notamment, elle permet d'obtenir une accélération de 2,4 fois et une réduction de 30\% de l'utilisation de la mémoire GPU par rapport aux méthodes de pointe. L'évaluation sur la tâche Needle in a Haystack montre que GemFilter surpasse significativement l'attention standard, SnapKV et démontre des performances comparables sur le défi LongBench. GemFilter est simple, ne nécessite pas d'entraînement, et est largement applicable à différents LLM. De manière cruciale, elle offre une interprétabilité en permettant aux humains d'inspecter la séquence d'entrée sélectionnée. Ces résultats offrent non seulement des avantages pratiques pour le déploiement des LLM, mais améliorent également notre compréhension des mécanismes internes des LLM, ouvrant la voie à de nouvelles optimisations dans la conception et l'inférence des LLM. Notre code est disponible sur https://github.com/SalesforceAIResearch/GemFilter.
Les modèles de diffusion latente (MDL) ont réalisé des avancées significatives dans le domaine de la génération d'images ces dernières années. Un avantage majeur des MDL est leur capacité à fonctionner dans un espace latent compressé, permettant une formation et un déploiement plus efficaces. Cependant, malgré ces avantages, des défis subsistent avec les MDL. Par exemple, il a été observé que les MDL génèrent souvent des détails haute fréquence et des compositions complexes de manière imparfaite. Nous émettons l'hypothèse qu'une raison de ces défauts est le fait que toute la pré- et post-formation des MDL est réalisée dans l'espace latent, qui est généralement 8 fois 8 de résolution spatiale inférieure aux images de sortie. Pour résoudre ce problème, nous proposons d'ajouter une supervision dans l'espace des pixels dans le processus de post-formation pour mieux préserver les détails haute fréquence. Expérimentalement, nous montrons qu'ajouter un objectif dans l'espace des pixels améliore significativement à la fois la qualité de l'ajustement fin supervisé et la post-formation basée sur les préférences de manière importante sur un modèle de diffusion DiT et U-Net de pointe, tant en termes de qualité visuelle que de métriques de défauts visuels, tout en maintenant la même qualité d'alignement du texte.
À l'ère des grands modèles de langage (GML), une vaste quantité de journaux de conversation sera accumulée grâce à la tendance au développement rapide des interfaces de langage. L'analyse de conversation (AC) s'efforce de découvrir et d'analyser des informations cruciales à partir des données de conversation, rationalisant les processus manuels et soutenant les idées commerciales et la prise de décision. Le besoin pour l'AC d'extraire des informations exploitables et de favoriser l'autonomisation devient de plus en plus prépondérant et attire une attention généralisée. Cependant, le manque de cadre clair pour l'AC entraîne une dispersion de diverses techniques, rendant difficile la formation d'une synergie technique systématique pour renforcer les applications commerciales. Dans cet article, nous effectuons une revue approfondie et systématisons la tâche d'AC pour résumer les travaux connexes existants. Plus précisément, nous définissons formellement la tâche d'AC pour faire face au paysage fragmenté et chaotique de ce domaine, et dérivons quatre étapes clés de l'AC, de la reconstruction de scènes de conversation, à l'analyse d'attribution approfondie, puis à la réalisation d'une formation ciblée, pour finalement générer des conversations basées sur la formation ciblée afin d'atteindre des objectifs spécifiques. De plus, nous présentons les benchmarks pertinents, discutons des défis potentiels et indiquons les orientations futures tant dans l'industrie que dans le milieu académique. Au vu des avancées actuelles, il est évident que la majorité des efforts sont encore concentrés sur l'analyse des éléments de conversation superficiels, ce qui crée un écart considérable entre la recherche et les affaires, et avec l'aide des GML, les travaux récents montrent une tendance vers la recherche sur la causalité et les tâches stratégiques qui sont sophistiquées et de haut niveau. Les expériences et les idées analysées auront inévitablement une valeur d'application plus large dans les opérations commerciales ciblant les journaux de conversation.
Nous présentons Disco4D, un nouveau cadre d'étalement gaussien pour la génération et l'animation humaine 4D à partir d'une seule image. Contrairement aux méthodes existantes, Disco4D démêle distinctement les vêtements (avec des modèles gaussiens) du corps humain (avec le modèle SMPL-X), améliorant significativement les détails de génération et la flexibilité. Il présente les innovations techniques suivantes. 1) Disco4D apprend à ajuster efficacement les gaussiennes de vêtements sur les gaussiennes SMPL-X. 2) Il adopte des modèles de diffusion pour améliorer le processus de génération 3D, par exemple, modélisant les parties occultées non visibles dans l'image d'entrée. 3) Il apprend un codage d'identité pour chaque gaussienne de vêtement afin de faciliter la séparation et l'extraction des éléments vestimentaires. De plus, Disco4D prend en charge naturellement l'animation humaine 4D avec des dynamiques vivantes. Des expériences approfondies démontrent la supériorité de Disco4D sur les tâches de génération et d'animation humaine 4D. Nos visualisations sont disponibles sur https://disco-4d.github.io/.
Au cours des dernières années, les méthodes de recherche multi-vecteurs, menées par ColBERT, sont devenues une approche de plus en plus populaire pour l'IR neuronale. En stockant les représentations au niveau du jeton plutôt qu'au niveau du document, ces méthodes ont démontré des performances de recherche très solides, notamment dans des contextes hors domaine. Cependant, les exigences en termes de stockage et de mémoire nécessaires pour stocker le grand nombre de vecteurs associés restent un inconvénient important, entravant leur adoption pratique. Dans cet article, nous introduisons une approche de regroupement de jetons basée sur le clustering pour réduire de manière agressive le nombre de vecteurs à stocker. Cette méthode peut réduire l'empreinte spatiale et mémoire des index ColBERT de 50% sans pratiquement aucune dégradation des performances de recherche. Cette méthode permet également d'obtenir des réductions supplémentaires, réduisant le nombre de vecteurs de 66% à 75%, avec une dégradation restant en dessous de 5% sur la grande majorité des ensembles de données. Importamment, cette approche ne nécessite aucun changement architectural ni traitement au moment de la requête, et peut être utilisée comme une simple insertion lors de l'indexation avec n'importe quel modèle similaire à ColBERT.
Les humains peuvent apprendre à manipuler de nouveaux objets en observant simplement les autres ; donner aux robots la capacité d'apprendre de telles démonstrations permettrait une interface naturelle pour spécifier de nouveaux comportements. Ce travail développe Robot See Robot Do (RSRD), une méthode pour imiter la manipulation articulée d'objets à partir d'une seule démonstration humaine en RGB monoculaire, étant donné un seul balayage d'objet multi-vue statique. Nous proposons d'abord les Modèles de Parties Différentiables en 4D (4D-DPM), une méthode pour récupérer le mouvement des parties en 3D à partir d'une vidéo monoculaire avec un rendu différenciable. Cette approche d'analyse par synthèse utilise des champs de caractéristiques centrés sur les parties dans une optimisation itérative qui permet l'utilisation de régularisateurs géométriques pour récupérer les mouvements en 3D à partir d'une seule vidéo. Avec cette reconstruction en 4D, le robot reproduit les trajectoires des objets en planifiant des mouvements de bras bimanuels qui induisent le mouvement des parties de l'objet démontré. En représentant les démonstrations sous forme de trajectoires centrées sur les parties, RSRD se concentre sur la reproduction du comportement voulu de la démonstration tout en tenant compte des limites morphologiques du robot, plutôt que de tenter de reproduire le mouvement de la main. Nous évaluons la précision du suivi en 3D de 4D-DPM sur des trajectoires de parties en 3D annotées en vérité terrain et la performance d'exécution physique de RSRD sur 9 objets à travers 10 essais chacun sur un robot bimanuel YuMi. Chaque phase de RSRD atteint un taux de réussite moyen de 87 %, pour un taux de réussite total de bout en bout de 60 % sur 90 essais. Notamment, ceci est accompli en utilisant uniquement des champs de caractéristiques issus de grands modèles de vision pré-entraînés, sans aucun entraînement spécifique à la tâche, ajustement fin, collecte de données ou annotation. Page du projet : https://robot-see-robot-do.github.io
Extraire des informations significatives à partir de vastes ensembles de données complexes pose des défis importants, notamment en garantissant l'exactitude et la pertinence des informations récupérées. Les méthodes traditionnelles de recherche de données telles que la recherche séquentielle et la recherche basée sur des index échouent souvent lorsqu'il s'agit de traiter des structures de données complexes et interconnectées, ce qui entraîne des résultats incomplets ou trompeurs. Pour surmonter ces limitations, nous présentons Structured-GraphRAG, un cadre polyvalent conçu pour améliorer la recherche d'informations à travers des ensembles de données structurées dans des requêtes en langage naturel. Structured-GraphRAG utilise plusieurs graphes de connaissances, qui représentent les données dans un format structuré et capturent les relations complexes entre les entités, permettant une récupération d'informations plus nuancée et complète. Cette approche basée sur les graphes réduit le risque d'erreurs dans les sorties des modèles linguistiques en ancrant les réponses dans un format structuré, améliorant ainsi la fiabilité des résultats. Nous démontrons l'efficacité de Structured-GraphRAG en comparant ses performances avec celles d'une méthode récemment publiée utilisant la génération augmentée par recherche traditionnelle. Nos résultats montrent que Structured-GraphRAG améliore significativement l'efficacité du traitement des requêtes et réduit les temps de réponse. Bien que notre étude de cas se concentre sur des données de football, la conception du cadre est largement applicable, offrant un outil puissant pour l'analyse de données et l'amélioration des applications de modèles linguistiques à travers divers domaines structurés.