papers.description
CLIP est l'un des modèles fondamentaux multimodaux les plus importants aujourd'hui. Quels sont les moteurs des capacités de CLIP ? Les signaux de supervision riches fournis par le langage naturel, le vecteur de connaissance humaine, façonnent un espace de représentation multimodal puissant. Cependant, avec les avancées rapides dans les grands modèles de langage comme GPT-4 et LLaMA, les limites de la compréhension et de la génération de langage sont continuellement repoussées. Cela soulève une question intrigante : les capacités des grands modèles de langage peuvent-elles être exploitées pour améliorer davantage l'apprentissage de la représentation multimodale ? Les avantages potentiels de l'intégration des grands modèles de langage dans CLIP sont clairs. La forte compréhension textuelle des grands modèles de langage peut fondamentalement améliorer la capacité de CLIP à gérer les légendes d'images, améliorant considérablement sa capacité à traiter des textes longs et complexes, une limitation bien connue de CLIP de base. De plus, les grands modèles de langage sont entraînés sur un vaste corpus de texte, possédant une connaissance du monde ouvert. Cela leur permet d'étendre les informations de légende lors de l'entraînement, augmentant l'efficacité du processus d'apprentissage. Dans cet article, nous proposons LLM2CLIP, une approche novatrice qui exploite la puissance des grands modèles de langage pour libérer le potentiel de CLIP. En affinant le grand modèle de langage dans l'espace de légende avec un apprentissage contrastif, nous extrayons ses capacités textuelles dans les plongements de sortie, améliorant significativement la capacité de discrimination textuelle de la couche de sortie. Nous concevons ensuite un processus d'entraînement efficace où le grand modèle de langage affiné agit comme un puissant enseignant pour l'encodeur visuel de CLIP. Grâce à la présence du grand modèle de langage, nous pouvons maintenant incorporer des légendes plus longues et complexes sans être limités par la fenêtre de contexte et les limitations de capacité de l'encodeur de texte de CLIP de base. Nos expériences démontrent que cette approche apporte des améliorations substantielles dans les tâches multimodales.
Les grands modèles de langage (GML) ont montré des capacités impressionnantes, mais rencontrent encore des difficultés avec les tâches de raisonnement complexe nécessitant plusieurs étapes. Alors que les méthodes basées sur des instructions comme la Chaîne de Pensée (CoT) peuvent améliorer le raisonnement des GML au moment de l'inférence, l'optimisation des capacités de raisonnement pendant l'entraînement reste un défi. Nous introduisons l'Optimisation du Raisonnement Latent (LaTRO), un cadre fondé qui formule le raisonnement comme un échantillonnage à partir d'une distribution latente et l'optimise via des approches variationnelles. LaTRO permet aux GML d'améliorer simultanément leur processus de raisonnement et leur capacité à évaluer la qualité du raisonnement, sans nécessiter de modèles de rétroaction ou de récompense externes. Nous validons LaTRO à travers des expériences sur les ensembles de données GSM8K et ARC-Challenge en utilisant plusieurs architectures de modèles. Sur GSM8K, LaTRO améliore la précision en zéro-shot de manière moyenne de 12,5 % par rapport aux modèles de base et de 9,6 % par rapport au fine-tuning supervisé à travers Phi-3.5-mini, Mistral-7B et Llama-3.1-8B. Nos résultats suggèrent que les GML pré-entraînés possèdent des capacités de raisonnement latentes qui peuvent être débloquées et améliorées grâce à notre approche d'optimisation proposée de manière auto-améliorante. Le code de LaTRO est disponible sur https://github.com/SalesforceAIResearch/LaTRO.
Le parallélisme de pipeline est largement utilisé pour mettre à l'échelle l'entraînement des grands modèles de langage basés sur des transformateurs, divers travaux ont été réalisés pour améliorer son débit et son empreinte mémoire. Dans cet article, nous abordons un problème fréquemment négligé : les couches de vocabulaire peuvent entraîner un déséquilibre de calcul et une utilisation inégale de la mémoire à travers les étapes du pipeline, aggravant les bulles du pipeline et l'engorgement de la mémoire. Pour résoudre cela, nous partitionnons de manière équitable les couches de vocabulaire entre les appareils du pipeline et regroupons le calcul en passes de pipeline. Pour réduire la surcharge de mémoire d'activation, nous proposons plusieurs algorithmes pour réduire les barrières de communication au sein des couches de vocabulaire. De plus, nous utilisons une méthode généralisable pour intégrer le Parallélisme de Vocabulaire avec les plannings de pipeline existants. En combinant ces techniques, nos méthodes équilibrent efficacement le calcul et la mémoire des paramètres, avec seulement une petite surcharge de mémoire d'activation constante. Notamment, lorsqu'associée à des plannings d'équilibrage de mémoire d'activation comme V-Half, notre approche atteint un équilibre parfait à la fois en termes de mémoire et de calcul. Des évaluations approfondies démontrent que notre méthode atteint un équilibre entre le calcul et la mémoire indépendamment de la taille du vocabulaire, entraînant une amélioration du débit de 5 % à 51 % par rapport aux approches naïves, tout en réduisant significativement l'utilisation maximale de la mémoire, en particulier pour les scénarios de vocabulaire volumineux. Notre implémentation est open source sur https://github.com/sail-sg/VocabularyParallelism.
Nous présentons StdGEN, un pipeline novateur pour générer des personnages 3D de haute qualité décomposés sémantiquement à partir d'images uniques, permettant une large gamme d'applications en réalité virtuelle, jeux vidéo, cinéma, etc. Contrairement aux méthodes précédentes qui rencontrent des difficultés en termes de décomposabilité limitée, de qualité insatisfaisante et de longs temps d'optimisation, StdGEN se distingue par sa décomposabilité, son efficacité et son efficience ; c'est-à-dire qu'il génère des personnages 3D détaillés de manière complexe avec des composants sémantiques séparés tels que le corps, les vêtements et les cheveux, en trois minutes. Au cœur de StdGEN se trouve notre Modèle de Reconstruction Sémantique Large (S-LRM) proposé, un modèle généralisable basé sur les transformers qui reconstruit conjointement la géométrie, la couleur et la sémantique à partir d'images multi-vues de manière feed-forward. Un schéma d'extraction de surface sémantique multi-couche différentiable est introduit pour acquérir des maillages à partir de champs implicites hybrides reconstruits par notre S-LRM. De plus, un modèle de diffusion multi-vues efficace et spécialisé et un module itératif de raffinement de surface multi-couche sont intégrés dans le pipeline pour faciliter la génération de personnages 3D décomposables et de haute qualité. Des expériences approfondies démontrent nos performances de pointe dans la génération de personnages d'anime 3D, dépassant de manière significative les références existantes en termes de géométrie, texture et décomposabilité. StdGEN propose des personnages 3D décomposés sémantiquement prêts à l'emploi et permet une personnalisation flexible pour une large gamme d'applications. Page du projet : https://stdgen.github.io
Affiner les grands modèles de langage (LLM) est essentiel pour améliorer leurs performances sur des tâches spécifiques, mais cela nécessite souvent beaucoup de ressources en raison de données redondantes ou non informatives. Pour remédier à cette inefficacité, nous présentons DELIFT (Data Efficient Language model Instruction Fine-Tuning), un nouvel algorithme qui optimise systématiquement la sélection des données à travers les trois étapes clés de l'affinage : (1) l'affinage des instructions, (2) l'affinage spécifique à la tâche (par exemple, raisonnement, question-réponse) et (3) l'affinage continu (par exemple, l'incorporation de nouvelles versions de données). Contrairement aux méthodes existantes qui se concentrent sur l'optimisation d'une seule étape ou qui reposent sur des calculs de gradient intensifs en termes de calcul, DELIFT fonctionne efficacement à toutes les étapes. Au cœur de notre approche se trouve une métrique d'utilité par paires qui quantifie l'apport bénéfique d'un échantillon de données pour améliorer les réponses du modèle à d'autres échantillons, mesurant ainsi efficacement la valeur informationnelle par rapport aux capacités actuelles du modèle. En exploitant différentes fonctions sous-modulaires appliquées à cette métrique, DELIFT sélectionne des sous-ensembles diversifiés et optimaux qui sont utiles à toutes les étapes de l'affinage. Des expériences menées sur diverses tâches et échelles de modèles montrent que DELIFT peut réduire la taille des données d'affinage jusqu'à 70 % sans compromettre les performances, offrant ainsi des économies computationnelles significatives et surpassant les méthodes existantes à la fois en termes d'efficacité et d'efficience.
Cet article vise à concevoir un système unifié de génération de Conception Assistée par Ordinateur (CAO) capable de générer facilement des modèles CAO basés sur les entrées de l'utilisateur sous forme de descriptions textuelles, d'images, de nuages de points, voire d'une combinaison de ces éléments. Dans cette optique, nous présentons le CAD-MLLM, le premier système capable de générer des modèles CAO paramétriques conditionnés par l'entrée multimodale. Plus précisément, au sein du cadre du CAD-MLLM, nous exploitons les séquences de commandes des modèles CAO, puis utilisons des modèles de langage large avancés (LLM) pour aligner l'espace des caractéristiques à travers ces données multimodales diverses et les représentations vectorisées des modèles CAO. Pour faciliter l'entraînement du modèle, nous concevons un pipeline complet de construction de données et d'annotation qui dote chaque modèle CAO de données multimodales correspondantes. Notre ensemble de données résultant, nommé Omni-CAD, est le premier ensemble de données CAO multimodal contenant des descriptions textuelles, des images multi-vues, des points et des séquences de commandes pour chaque modèle CAO. Il contient environ 450 000 instances et leurs séquences de construction CAO. Pour évaluer rigoureusement la qualité de nos modèles CAO générés, nous allons au-delà des métriques d'évaluation actuelles qui se concentrent sur la qualité de la reconstruction en introduisant des métriques supplémentaires qui évaluent la qualité de la topologie et l'étendue de l'enclosure de surface. Des résultats expérimentaux approfondis démontrent que le CAD-MLLM surpasse significativement les méthodes génératives conditionnelles existantes et reste très robuste aux bruits et aux points manquants. La page du projet et davantage de visualisations sont disponibles sur : https://cad-mllm.github.io/
L'avènement des grands modèles de langage (LLM) tels que GitHub Copilot a considérablement amélioré la productivité des programmeurs, notamment dans la génération de code. Cependant, ces modèles rencontrent souvent des difficultés avec les tâches du monde réel sans un ajustement fin. À mesure que les LLM deviennent plus grands et plus performants, l'ajustement fin pour des tâches spécialisées devient de plus en plus coûteux. Les méthodes d'ajustement fin à paramètres efficaces (PEFT), qui n'ajustent qu'un sous-ensemble des paramètres du modèle, offrent une solution prometteuse en réduisant les coûts computationnels de l'ajustement des LLM tout en maintenant leurs performances. Des études existantes ont exploré l'utilisation de PEFT et de LLM pour diverses tâches liées au code et ont constaté que l'efficacité des techniques PEFT dépend de la tâche. L'application des techniques PEFT dans la génération de tests unitaires reste peu explorée. L'état de l'art se limite à l'utilisation de LLM avec un ajustement fin complet pour générer des tests unitaires. Cet article examine à la fois l'ajustement fin complet et diverses méthodes PEFT, y compris LoRA, (IA)^3 et le réglage de l'invite, sur différentes architectures et tailles de modèles. Nous utilisons des ensembles de données de référence bien établis pour évaluer leur efficacité dans la génération de tests unitaires. Nos résultats montrent que les méthodes PEFT peuvent offrir des performances comparables à un ajustement fin complet pour la génération de tests unitaires, rendant l'ajustement fin spécialisé plus accessible et rentable. Notamment, le réglage de l'invite est le plus efficace en termes de coût et d'utilisation des ressources, tandis que LoRA approche l'efficacité de l'ajustement fin complet dans plusieurs cas.
Les modèles de langage modernes peuvent traiter des entrées dans diverses langues et modalités. Nous émettons l'hypothèse que les modèles acquièrent cette capacité en apprenant un espace de représentation partagé à travers des types de données hétérogènes (par exemple, différentes langues et modalités), plaçant des entrées sémantiquement similaires à proximité les unes des autres, même si elles proviennent de différentes modalités/langues. Nous appelons cela l'hypothèse du hub sémantique, en suivant le modèle en étoile du domaine de la neuroscience (Patterson et al., 2007) qui postule que les connaissances sémantiques dans le cerveau humain sont organisées à travers un "hub" sémantique transmodal qui intègre des informations provenant de différentes régions "spokes" spécifiques à chaque modalité. Nous montrons d'abord que les représentations des modèles pour des entrées sémantiquement équivalentes dans différentes langues sont similaires dans les couches intermédiaires, et que cet espace peut être interprété en utilisant la langue de pré-entraînement dominante du modèle via l'objectif logit. Cette tendance s'étend à d'autres types de données, y compris les expressions arithmétiques, le code, et les entrées visuelles/auditives. Les interventions dans l'espace de représentation partagé pour un type de données affectent également de manière prévisible les sorties du modèle pour d'autres types de données, suggérant que cet espace de représentations partagées n'est pas simplement un sous-produit vestigial d'un entraînement à grande échelle sur des données diverses, mais quelque chose qui est activement utilisé par le modèle lors du traitement des entrées.
Les modèles vision-langage affinés capturent souvent des corrélations fallacieuses entre les caractéristiques des images et les attributs textuels, ce qui entraîne une performance dégradée en zéro-shot lors des tests. Les approches existantes pour traiter les corrélations fallacieuses (i) opèrent principalement au niveau global de l'image plutôt que d'intervenir directement sur les caractéristiques fines de l'image et (ii) sont principalement conçues pour des configurations unimodales. Dans ce travail, nous présentons RaVL, qui adopte une perspective fine sur la robustesse des modèles vision-langage en découvrant et en atténuant les corrélations fallacieuses en utilisant les caractéristiques locales de l'image plutôt que d'opérer au niveau global de l'image. Étant donné un VLM affiné, RaVL découvre d'abord les corrélations fallacieuses en utilisant une approche de regroupement au niveau des régions pour identifier les caractéristiques précises de l'image contribuant aux erreurs de classification en zéro-shot. Ensuite, RaVL atténue la corrélation fallacieuse identifiée avec une nouvelle fonction de perte consciente des régions qui permet au VLM de se concentrer sur les régions pertinentes et d'ignorer les relations fallacieuses lors de l'affinage. Nous évaluons RaVL sur 654 VLM avec diverses architectures de modèles, domaines de données et corrélations fallacieuses apprises. Nos résultats montrent que RaVL découvre et atténue avec précision les corrélations fallacieuses (191 % d'amélioration par rapport à la base de référence la plus proche) et (8,2 % d'amélioration sur la précision de classification des images du pire groupe). Les évaluations qualitatives sur les VLM de domaine général et médical confirment nos résultats.
La dette technique (TD) est un terme utilisé pour décrire le travail supplémentaire et les coûts qui surviennent lorsque les développeurs ont opté pour une solution rapide et facile à un problème, plutôt que pour une approche plus efficace et bien conçue, mais plus chronophage. Les Dette Technique Auto-Admise (SATD) sont un type spécifique de dettes techniques que les développeurs documentent intentionnellement et reconnaissent, généralement via des commentaires textuels. Bien que ces commentaires auto-admis soient un outil utile pour identifier les dettes techniques, la plupart des approches existantes se concentrent sur la capture des jetons cruciaux associés à diverses catégories de TD, négligeant les informations riches intégrées dans le code source lui-même. Des recherches récentes se sont concentrées sur la détection des SATD en analysant les commentaires intégrés dans le code source, et peu de travaux ont traité des dettes techniques contenues dans le code source. Pour combler une telle lacune, dans cette étude, à travers l'analyse des commentaires et de leur code source associé provenant de 974 projets Java hébergés dans le corpus Stack, nous avons élaboré le premier ensemble de données de TD identifié par des commentaires de code, couplé à son code source associé. Grâce à une évaluation empirique, nous avons découvert que les commentaires de l'ensemble de données résultant contribuent à améliorer les performances de prédiction des modèles de détection SATD de pointe. Plus important encore, l'inclusion du code source classifié améliore significativement la précision dans la prédiction de divers types de dettes techniques. À cet égard, notre travail est double : (i) Nous pensons que notre ensemble de données catalysera les travaux futurs dans le domaine, inspirant diverses problématiques de recherche liées à la reconnaissance de la dette technique ; (ii) Les classificateurs proposés peuvent servir de références pour d'autres études sur la détection de TD au moyen de l'ensemble de données élaboré.