Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons DeepSeek-Coder-V2, un modèle de langage de code open-source basé sur une architecture Mixture-of-Experts (MoE) qui atteint des performances comparables à GPT4-Turbo dans des tâches spécifiques au code. Plus précisément, DeepSeek-Coder-V2 est pré-entraîné à partir d'un point de contrôle intermédiaire de DeepSeek-V2 avec 6 000 milliards de tokens supplémentaires. Grâce à ce pré-entraînement continu, DeepSeek-Coder-V2 améliore considérablement les capacités de codage et de raisonnement mathématique de DeepSeek-V2, tout en maintenant des performances comparables dans les tâches de langage général. Par rapport à DeepSeek-Coder-33B, DeepSeek-Coder-V2 démontre des avancées significatives dans divers aspects des tâches liées au code, ainsi que dans les capacités de raisonnement et générales. De plus, DeepSeek-Coder-V2 étend son support des langages de programmation de 86 à 338, tout en augmentant la longueur de contexte de 16K à 128K. Dans les évaluations de benchmarks standard, DeepSeek-Coder-V2 obtient des performances supérieures par rapport aux modèles propriétaires tels que GPT4-Turbo, Claude 3 Opus et Gemini 1.5 Pro dans les benchmarks de codage et de mathématiques.
L'estimation précise de la profondeur dans les images à 360 degrés est cruciale pour la réalité virtuelle, la navigation autonome et les applications multimédias immersives. Les méthodes existantes d'estimation de profondeur conçues pour les images en perspective échouent lorsqu'elles sont appliquées aux images à 360 degrés en raison des différentes projections de caméra et des distorsions, tandis que les méthodes spécifiques aux images à 360 degrés sont moins performantes en raison du manque de paires de données étiquetées. Nous proposons un nouveau cadre d'estimation de la profondeur qui utilise efficacement des données à 360 degrés non étiquetées. Notre approche utilise des modèles d'estimation de profondeur en perspective de pointe comme modèles enseignants pour générer des pseudo-étiquettes via une technique de projection cubique à six faces, permettant un étiquetage efficace de la profondeur dans les images à 360 degrés. Cette méthode tire parti de la disponibilité croissante de grands ensembles de données. Notre approche comprend deux étapes principales : la génération hors ligne de masques pour les régions invalides et un régime d'entraînement semi-supervisé conjoint en ligne. Nous avons testé notre approche sur des ensembles de données de référence tels que Matterport3D et Stanford2D3D, montrant des améliorations significatives dans la précision de l'estimation de la profondeur, en particulier dans les scénarios zero-shot. Notre pipeline d'entraînement proposé peut améliorer tout estimateur de profondeur monoculaire à 360 degrés et démontre un transfert de connaissances efficace entre différentes projections de caméra et types de données. Consultez notre page de projet pour les résultats : https://albert100121.github.io/Depth-Anywhere/
L'alignement humain dans les grands modèles de langage (LLM) est un domaine de recherche actif. Un travail récent et révolutionnaire, l'optimisation directe des préférences (DPO), a grandement simplifié le processus par rapport aux travaux antérieurs en apprentissage par renforcement à partir de retours humains (RLHF) en contournant l'étape d'apprentissage de la fonction de récompense dans RLHF. Après entraînement, DPO fournit un modèle de récompense implicite. Dans ce travail, nous faisons une observation novatrice selon laquelle ce modèle de récompense implicite peut lui-même être utilisé de manière itérative pour aligner davantage le LLM. Notre approche consiste à utiliser les récompenses d'un modèle LLM actuel pour construire un ensemble de données de préférences, qui est ensuite utilisé dans des itérations ultérieures de DPO. Nous intégrons des améliorations qui réduisent les biais liés à la longueur des réponses et améliorent la qualité de l'ensemble de données de préférences pour perfectionner notre approche. Notre méthode, nommée auto-alignement avec les récompenses implicites de DPO (DICE), montre des améliorations significatives en matière d'alignement et obtient des performances supérieures à Gemini Pro sur AlpacaEval 2, atteignant un taux de victoire contrôlé par la longueur de 27,55 % contre GPT-4 Turbo, mais avec seulement 8 milliards de paramètres et sans retour externe. Notre code est disponible à l'adresse https://github.com/sail-sg/dice.
Les grands modèles de langage et de vision (LLVMs) ont été propulsés par la puissance de généralisation des grands modèles de langage (LLMs) et l'émergence du réglage par instructions visuelles. En plus de leur mise à l'échelle directe, ces modèles permettent aux LLVMs de démontrer des performances puissantes en langage visuel (VL) en couvrant des tâches variées via des instructions en langage naturel. Cependant, les LLVMs open-source existants, qui rivalisent avec les LLVMs propriétaires comme GPT-4V, sont souvent considérés comme trop volumineux (par exemple, 26B, 34B et 110B paramètres), avec un nombre élevé de couches. Ces grands modèles nécessitent des ressources coûteuses et haut de gamme pour l'entraînement et l'inférence. Pour résoudre ce problème, nous présentons une nouvelle famille de LLVMs efficaces avec des tailles de modèle LLM de 1,8B, 3,8B et 7B, appelée Traversal of Layers (TroL), qui permet la réutilisation des couches de manière token par token. Cette technique de traversée de couches simule l'effet de revenir en arrière et de retracer le flux de réponse tout en augmentant le nombre de couches de propagation avant sans ajouter physiquement plus de couches. Nous démontrons que TroL utilise une approche simple de traversée de couches, mais surpasse efficacement les LLVMs open-source de plus grande taille et rivalise avec les performances des LLVMs propriétaires de taille substantielle.
Nous présentons ChatGLM, une famille évolutive de grands modèles de langage que nous développons depuis un certain temps. Ce rapport se concentre principalement sur la série de langages GLM-4, qui comprend GLM-4, GLM-4-Air et GLM-4-9B. Ces modèles représentent nos modèles les plus performants, entraînés avec toutes les connaissances et leçons tirées des trois générations précédentes de ChatGLM. À ce jour, les modèles GLM-4 sont pré-entraînés sur dix mille milliards de tokens, principalement en chinois et en anglais, ainsi que sur un petit ensemble de corpus provenant de 24 langues, et alignés principalement pour une utilisation en chinois et en anglais. Cet alignement de haute qualité est obtenu grâce à un processus de post-formation en plusieurs étapes, qui inclut un réglage fin supervisé et un apprentissage à partir des retours humains. Les évaluations montrent que GLM-4 1) rivalise de près ou surpasse GPT-4 en termes de métriques générales telles que MMLU, GSM8K, MATH, BBH, GPQA et HumanEval, 2) se rapproche de GPT-4-Turbo dans le suivi des instructions mesuré par IFEval, 3) correspond à GPT-4 Turbo (128K) et Claude 3 pour les tâches à contexte long, et 4) surpasse GPT-4 dans les alignements chinois mesurés par AlignBench. Le modèle GLM-4 All Tools est en outre aligné pour comprendre l'intention de l'utilisateur et décider de manière autonome quand et quel(s) outil(s) utiliser -- y compris un navigateur web, un interpréteur Python, un modèle de texte à image et des fonctions définies par l'utilisateur -- pour accomplir efficacement des tâches complexes. Dans des applications pratiques, il correspond et dépasse même GPT-4 All Tools dans des tâches comme l'accès à des informations en ligne via la navigation web et la résolution de problèmes mathématiques à l'aide de l'interpréteur Python. Au fil du temps, nous avons ouvert en accès libre une série de modèles, notamment ChatGLM-6B (trois générations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM et CodeGeeX, attirant plus de 10 millions de téléchargements sur Hugging Face en 2023 seulement. Les modèles ouverts peuvent être consultés via https://github.com/THUDM et https://huggingface.co/THUDM.
Les modèles vision-langage (VLMs) ont obtenu des succès remarquables dans diverses tâches multimodales, mais ils sont souvent limités par la fenêtre contextuelle restreinte et le coût computationnel élevé du traitement des images haute résolution et des vidéos. La compression visuelle peut atténuer ce problème en réduisant le nombre de tokens visuels. Les approches précédentes compressent les tokens visuels avec des modules externes et forcent les LLMs (Large Language Models) à comprendre les tokens compressés, ce qui entraîne une perte d'information visuelle. Cependant, le paradigme de compréhension des tokens visuels par les LLMs n'est pas pleinement exploité dans le processus d'apprentissage de la compression. Nous proposons VoCo-LLaMA, la première approche pour compresser les tokens visuels en utilisant les LLMs. En introduisant des tokens de compression visuelle lors de la phase de réglage des instructions visuelles et en exploitant la distillation par attention, notre méthode distille la manière dont les LLMs comprennent les tokens visuels dans leur traitement des tokens VoCo. VoCo-LLaMA facilite une compression visuelle efficace et améliore l'efficacité computationnelle lors de l'inférence. Plus précisément, notre méthode atteint une perte de performance minimale avec un taux de compression de 576 fois, entraînant jusqu'à 94,8 % de FLOPs en moins et une accélération de 69,6 % du temps d'inférence. De plus, grâce à un entraînement continu utilisant des séquences de tokens compressés temporels de trames vidéo, VoCo-LLaMA démontre la capacité à comprendre les corrélations temporelles, surpassant les méthodes précédentes sur des benchmarks populaires de question-réponse vidéo. Notre approche présente une voie prometteuse pour libérer tout le potentiel de la fenêtre contextuelle des VLMs, permettant des applications multimodales plus évolutives. La page du projet, ainsi que le code associé, peuvent être consultés via https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
Les agents logiciels se sont imposés comme des outils prometteurs pour aborder des tâches complexes en ingénierie logicielle. Cependant, les travaux existants simplifient à l'excès les flux de travail de développement logiciel en suivant le modèle en cascade. Ainsi, nous proposons AgileCoder, un système multi-agents qui intègre la Méthodologie Agile (MA) dans son cadre. Ce système attribue des rôles spécifiques de la MA, tels que Product Manager, Développeur et Testeur, à différents agents, qui collaborent ensuite pour développer un logiciel basé sur les entrées utilisateur. AgileCoder améliore l'efficacité du développement en organisant le travail en sprints, en se concentrant sur le développement incrémental du logiciel à travers ces sprints. De plus, nous introduisons le Générateur Dynamique de Graphes de Code, un module qui crée un Graphe de Dépendance de Code de manière dynamique à mesure que des mises à jour sont apportées à la base de code. Cela permet aux agents de mieux comprendre la base de code, conduisant à une génération et à des modifications de code plus précises tout au long du processus de développement logiciel. AgileCoder surpasse les benchmarks existants, tels que ChatDev et MetaGPT, établissant une nouvelle norme et démontrant les capacités des systèmes multi-agents dans des environnements d'ingénierie logicielle avancés. Notre code source est disponible à l'adresse suivante : https://github.com/FSoft-AI4Code/AgileCoder.
La Génération Augmentée par Récupération (Retrieval Augmented Generation, RAG) enrichit la capacité des modèles de langage à raisonner en utilisant un contexte externe pour améliorer les réponses à une requête utilisateur donnée. Cette approche a gagné en popularité grâce à ses applications pratiques dans divers domaines des modèles de langage, tels que la recherche, les systèmes de questions/réponses et les chatbots. Cependant, la nature exacte de son fonctionnement n'est pas clairement comprise. Dans cet article, nous examinons de manière mécaniste le pipeline RAG pour mettre en évidence que les modèles de langage prennent des raccourcis et présentent un biais marqué vers l'utilisation exclusive des informations contextuelles pour répondre à la question, tout en s'appuyant minimalement sur leur mémoire paramétrique. Nous explorons ce comportement mécaniste dans les modèles de langage à l'aide de : (i) l'Analyse de Médiation Causale pour montrer que la mémoire paramétrique est peu utilisée lors de la réponse à une question, et (ii) les Contributions d'Attention et les Knockouts pour montrer que le flux résiduel du dernier token ne s'enrichit pas à partir du token sujet dans la question, mais plutôt à partir d'autres tokens informatifs dans le contexte. Nous constatons que ce comportement de raccourci prononcé est vrai à la fois pour les familles de modèles LLaMa et Phi.
Le réglage fin supervisé améliore les capacités de résolution de problèmes des modèles de langage pour diverses tâches de raisonnement mathématique. Pour maximiser ces avantages, les recherches existantes se concentrent sur l'élargissement de l'ensemble d'entraînement grâce à diverses techniques d'augmentation de données, ce qui est efficace pour les configurations standards de questions-réponses en une seule étape. Notre travail introduit une technique novatrice visant à cultiver une compréhension plus approfondie des problèmes d'entraînement, améliorant les performances non seulement dans les configurations standards mais aussi dans des scénarios plus complexes nécessitant une pensée réflexive. Plus précisément, nous proposons l'augmentation réflexive, une méthode qui intègre la réflexion sur le problème dans chaque instance d'entraînement. Elle entraîne le modèle à considérer des perspectives alternatives et à s'engager avec des abstractions et des analogies, favorisant ainsi une compréhension approfondie grâce au raisonnement réflexif. Des expériences approfondies valident la réalisation de notre objectif, mettant en évidence les avantages uniques de notre méthode et sa nature complémentaire par rapport aux techniques d'augmentation existantes.
Les modèles de langage alignés sur la sécurité présentent souvent des mécanismes de sécurité fragiles et déséquilibrés, augmentant la probabilité de générer du contenu non sécurisé. De plus, l'intégration de nouvelles connaissances par le biais de techniques d'édition dans les modèles de langage peut encore compromettre la sécurité. Pour résoudre ces problèmes, nous proposons SafeInfer, une stratégie d'alignement de sécurité adaptative au contexte et au moment du décodage, visant à générer des réponses sécurisées aux requêtes des utilisateurs. SafeInfer se compose de deux phases : la phase d'amplification de la sécurité, qui utilise des exemples de démonstration sécurisés pour ajuster les états cachés du modèle et augmenter la probabilité de sorties plus sûres, et la phase de décodage guidé par la sécurité, qui influence la sélection des tokens en se basant sur des distributions optimisées pour la sécurité, garantissant ainsi que le contenu généré respecte les lignes directrices éthiques. Par ailleurs, nous présentons HarmEval, un nouveau benchmark pour des évaluations de sécurité approfondies, conçu pour traiter les scénarios d'utilisation abusive potentiels conformément aux politiques des géants de la technologie de l'IA.
Les grands modèles de langage (LLMs) sont entraînés sur des quantités massives de données, dont la majorité est automatiquement extraite d'Internet. Ces données incluent des documents encyclopédiques contenant une vaste quantité de connaissances générales (par exemple, Wikipédia), mais elles peuvent également chevaucher les ensembles de données de référence utilisés pour évaluer les LLMs. Par conséquent, évaluer des modèles sur des partitions de test qui auraient pu fuiter dans l'ensemble d'entraînement risque de conduire à des conclusions trompeuses. Pour promouvoir une évaluation rigoureuse des modèles de langage, nous introduisons un nouvel ensemble de données de test nommé RepLiQA, adapté aux tâches de question-réponse et de recherche thématique. RepLiQA est une collection de cinq partitions de jeux de test, dont quatre n'ont jamais été publiées sur Internet ou exposées aux API de LLMs avant cette publication. Chaque échantillon de RepLiQA comprend (1) un document de référence rédigé par un annotateur humain et décrivant un scénario imaginaire (par exemple, un article de presse) absent d'Internet ; (2) une question sur le thème du document ; (3) une réponse de référence dérivée directement des informations contenues dans le document ; et (4) le paragraphe extrait du document de référence contenant la réponse. Ainsi, des réponses précises ne peuvent être générées que si un modèle est capable de trouver un contenu pertinent dans le document fourni. Nous avons réalisé un benchmark à grande échelle incluant plusieurs LLMs de pointe pour révéler les différences de performance entre des modèles de types et de tailles variés dans un contexte de modélisation de langage conditionnel. Les partitions publiées de RepLiQA sont disponibles ici : https://huggingface.co/datasets/ServiceNow/repliqa.
Garantir l'alignement sécurisé des grands modèles de langage (LLM) avec les valeurs humaines est crucial à mesure qu'ils deviennent essentiels dans des applications comme la traduction et les systèmes de questions-réponses. Les méthodes actuelles d'alignement peinent à gérer les intentions dynamiques des utilisateurs et les objectifs complexes, rendant les modèles vulnérables à la génération de contenus nuisibles. Nous proposons Safety Arithmetic, un cadre sans entraînement qui améliore la sécurité des LLM dans différents scénarios : modèles de base, modèles affinés de manière supervisée (SFT) et modèles modifiés. Safety Arithmetic inclut la Suppression des Directions Nuisibles pour éviter les contenus dangereux et l'Alignement Sécuritaire pour promouvoir des réponses sûres. De plus, nous présentons NoIntentEdit, un ensemble de données mettant en lumière des modifications qui pourraient compromettre la sécurité du modèle si elles étaient utilisées de manière involontaire. Nos expériences montrent que Safety Arithmetic améliore significativement les mesures de sécurité, réduit la sur-sécurité et préserve l'utilité du modèle, surpassant les méthodes existantes pour garantir une génération de contenu sécurisé.
Les modèles de langage transforment généralement le texte brut en séquences d'identifiants de sous-mots issus d'un vocabulaire prédéfini, un processus intrinsèquement sensible aux erreurs typographiques, aux variations de longueur et largement insensible à la structure interne des tokens - des problèmes que nous qualifions de malédiction de la tokenisation. Dans cette étude, nous explorons ces inconvénients et démontrons que les grands modèles de langage (LLMs) restent vulnérables à ces problèmes. Cette étude examine systématiquement ces défis et leur impact sur les LLMs à travers trois questions de recherche critiques : (1) la résolution de problèmes complexes, (2) l'exploration de la structure des tokens, et (3) la résilience face aux variations typographiques. Nos résultats révèlent que l'augmentation des paramètres du modèle peut atténuer le problème de la tokenisation ; cependant, les LLMs souffrent encore de biais induits par les fautes de frappe et autres variations de format de texte. Nos expériences montrent que la régularisation des sous-mots, telle que BPE-dropout, peut atténuer ce problème. Nous publierons notre code et nos données pour faciliter les recherches futures.
L'avancée des grands modèles de langage (LLMs) a considérablement élargi le champ des applications en traitement du langage naturel, avec les LLMs multi-modaux étendant ces capacités pour intégrer et interpréter des données visuelles. Cependant, les benchmarks existants pour les modèles de langage visuel (VLMs) se concentrent principalement sur des entrées d'image unique, négligeant l'aspect crucial de la compréhension multi-images. Dans cet article, nous introduisons un benchmark relationnel multi-images, MIRB, conçu pour évaluer la capacité des VLMs à comparer, analyser et raisonner sur plusieurs images. Notre benchmark englobe quatre catégories : perception, connaissances du monde visuel, raisonnement et raisonnement multi-étapes. À travers une évaluation approfondie d'une large gamme de modèles open-source et propriétaires, nous démontrons que bien que les VLMs open-source aient montré des performances approchant celles de GPT-4V dans les tâches d'image unique, un écart de performance significatif persiste dans les tâches de raisonnement multi-images. Nos résultats révèlent également que même le modèle GPT-4V, à la pointe de la technologie, rencontre des difficultés avec notre benchmark, soulignant le besoin de recherches et de développements supplémentaires dans ce domaine. Nous croyons que notre contribution de MIRB pourrait servir de banc d'essai pour le développement de la prochaine génération de modèles multi-modaux.
L'évolution de l'Intelligence Artificielle (IA) a été considérablement accélérée par les progrès des modèles de langage à grande échelle (LLMs) et des modèles multimodaux à grande échelle (LMMs), démontrant progressivement des capacités de raisonnement cognitif dans la résolution de problèmes et la découverte scientifique (c'est-à-dire, AI4Science), autrefois réservées à l'intellect humain. Pour évaluer de manière exhaustive les performances actuelles des modèles en matière de raisonnement cognitif, nous introduisons OlympicArena, qui comprend 11 163 problèmes bilingues couvrant à la fois les modalités textuelles et intercalées texte-image. Ces défis englobent un large éventail de disciplines couvrant sept domaines et 62 compétitions olympiques internationales, rigoureusement examinés pour éviter les fuites de données. Nous soutenons que les défis des problèmes de compétition olympique sont idéaux pour évaluer le raisonnement cognitif de l'IA en raison de leur complexité et de leur nature interdisciplinaire, essentielles pour relever des défis scientifiques complexes et faciliter les découvertes. Au-delà de l'évaluation des performances à travers diverses disciplines en utilisant des critères basés uniquement sur les réponses, nous menons des expériences et des analyses détaillées sous plusieurs angles. Nous explorons les capacités de raisonnement cognitif des modèles, leurs performances à travers différentes modalités, et leurs résultats dans des évaluations au niveau du processus, cruciales pour les tâches nécessitant un raisonnement complexe avec des solutions longues. Nos évaluations approfondies révèlent que même des modèles avancés comme GPT-4o n'atteignent qu'une précision globale de 39,97%, illustrant les limites actuelles de l'IA dans le raisonnement complexe et l'intégration multimodale. À travers OlympicArena, nous visons à faire progresser l'IA vers la superintelligence, en l'équipant pour relever des défis plus complexes dans la science et au-delà. Nous fournissons également un ensemble complet de ressources pour soutenir la recherche en IA, incluant un ensemble de données de référence, une plateforme d'annotation open-source, un outil d'évaluation détaillé, et un classement avec des fonctionnalités de soumission automatique.
Malgré les récents progrès dans les techniques de reconstruction humaine haute fidélité, les exigences en matière d'images densément capturées ou d'optimisation longue et spécifique à chaque instance limitent considérablement leurs applications dans des scénarios plus vastes. Pour résoudre ces problèmes, nous présentons HumanSplat, qui prédit les propriétés de 3D Gaussian Splatting de n'importe quel humain à partir d'une seule image d'entrée de manière généralisable. En particulier, HumanSplat comprend un modèle de diffusion multi-vues 2D et un transformateur de reconstruction latente intégrant des connaissances préalables sur la structure humaine, qui intègrent habilement des informations géométriques préalables et des caractéristiques sémantiques dans un cadre unifié. Une fonction de perte hiérarchique incorporant des informations sémantiques humaines est en outre conçue pour atteindre une modélisation de texture haute fidélité et mieux contraindre les vues multiples estimées. Des expériences approfondies sur des benchmarks standards et des images en conditions réelles démontrent que HumanSplat surpasse les méthodes existantes de pointe dans la synthèse de nouvelles vues photoréalistes.
Les données tabulaires -- des données structurées et hétérogènes, de type tableur avec des lignes et des colonnes -- sont largement utilisées dans la pratique à travers de nombreux domaines. Cependant, bien que les modèles de base récents aient réduit le besoin de développer des ensembles de données et des prédicteurs spécifiques à une tâche dans des domaines tels que la modélisation du langage et la vision par ordinateur, ce paradigme d'apprentissage par transfert n'a pas eu un impact similaire dans le domaine tabulaire. Dans ce travail, nous cherchons à combler cet écart et présentons TabuLa-8B, un modèle de langage pour la prédiction tabulaire. Nous définissons un processus pour extraire un grand ensemble de données d'entraînement de haute qualité à partir du corpus TabLib, en proposant des méthodes de filtrage et de contrôle de qualité des données tabulaires. En utilisant l'ensemble de données résultant, qui comprend plus de 1,6 milliard de lignes provenant de 3,1 millions de tables uniques, nous affinons un grand modèle de langage (LLM) Llama 3-8B pour la prédiction de données tabulaires (classification et régression par intervalles) en utilisant un nouveau schéma de regroupement et d'attention pour la prédiction tabulaire. À travers une évaluation sur une suite de test de 329 ensembles de données, nous constatons que TabuLa-8B a une précision en zero-shot sur des tables inédites qui est supérieure de plus de 15 points de pourcentage (pp) à une prédiction aléatoire, un exploit qui n'est pas possible avec les modèles de prédiction tabulaire de pointe existants (par exemple, XGBoost, TabPFN). Dans le cadre few-shot (1-32 exemples), sans aucun affinage sur les ensembles de données cibles, TabuLa-8B est 5 à 15 pp plus précis que les modèles XGBoost et TabPFN qui sont explicitement entraînés sur des quantités égales, voire jusqu'à 16 fois plus de données. Nous publions notre modèle, notre code et nos données en même temps que la publication de cet article.
Pour évaluer les connaissances des grands modèles de langage (LLMs), les méthodes actuelles interrogent le modèle puis évaluent ses réponses générées. Dans ce travail, nous nous demandons si l'évaluation peut être effectuée avant que le modèle n'ait généré de texte. Concrètement, est-il possible d'estimer à quel point un modèle est informé sur une certaine entité, uniquement à partir de ses calculs internes ? Nous étudions cette question à travers deux tâches : étant donné une entité sujet, l'objectif est de prédire (a) la capacité du modèle à répondre à des questions courantes sur l'entité, et (b) la factualité des réponses générées par le modèle concernant l'entité. Les expériences menées avec une variété de LLMs montrent que KEEN, une sonde simple entraînée sur les représentations internes des sujets, réussit les deux tâches - en corrélant fortement à la fois avec la précision des réponses du modèle par sujet et avec FActScore, une métrique récente de factualité dans la génération ouverte. De plus, KEEN s'aligne naturellement avec le comportement de prudence du modèle et reflète fidèlement les changements dans les connaissances du modèle après un ajustement fin. Enfin, nous présentons une variante de KEEN plus interprétable tout aussi performante, qui met en évidence un petit ensemble de tokens corrélés avec le manque de connaissances du modèle. Étant simple et léger, KEEN peut être utilisé pour identifier les lacunes et les clusters de connaissances sur les entités dans les LLMs, et guider des décisions telles que l'augmentation des requêtes avec de la recherche d'information.
Les connaissances médicales dépendent du contexte et nécessitent un raisonnement cohérent à travers diverses expressions linguistiques de phrases sémantiquement équivalentes. Ceci est particulièrement crucial pour les noms de médicaments, où les patients utilisent souvent des noms de marque comme Advil ou Tylenol plutôt que leurs équivalents génériques. Pour étudier cela, nous créons un nouveau jeu de données de robustesse, RABBITS, afin d'évaluer les différences de performance sur des benchmarks médicaux après avoir échangé les noms de marque et génériques des médicaments en utilisant des annotations expertes de médecins. Nous évaluons à la fois des modèles de langage open-source et basés sur des API sur MedQA et MedMCQA, révélant une baisse de performance constante allant de 1 à 10 %. De plus, nous identifions une source potentielle de cette fragilité comme étant la contamination des données de test dans les ensembles de données de pré-entraînement largement utilisés. Tout le code est accessible à l'adresse https://github.com/BittermanLab/RABBITS, et un classement HuggingFace est disponible à l'adresse https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
Les modèles de diffusion texte-image (T2I) ont démontré des capacités impressionnantes en génération d'images. Cependant, leur intensité computationnelle empêche les organisations aux ressources limitées de déployer des modèles T2I après les avoir affinés sur leurs données internes cibles. Bien que les techniques d'élagage offrent une solution potentielle pour réduire la charge computationnelle des modèles T2I, les méthodes d'élagage statique utilisent le même modèle élagué pour toutes les invites d'entrée, négligeant les besoins variables en capacité des différentes invites. L'élagage dynamique aborde ce problème en utilisant un sous-réseau distinct pour chaque invite, mais il empêche le parallélisme par lots sur les GPU. Pour surmonter ces limitations, nous introduisons l'Élagage Adaptatif sur Mesure pour les Invites (Adaptive Prompt-Tailored Pruning, APTP), une nouvelle méthode d'élagage basée sur les invites conçue pour les modèles de diffusion T2I. Au cœur de notre approche se trouve un modèle de routage des invites, qui apprend à déterminer la capacité requise pour une invite texte donnée et la dirige vers un code d'architecture, en fonction d'un budget de calcul total souhaité pour les invites. Chaque code d'architecture représente un modèle spécialisé adapté aux invites qui lui sont assignées, et le nombre de codes est un hyperparamètre. Nous entraînons le routeur d'invites et les codes d'architecture en utilisant l'apprentissage contrastif, garantissant que des invites similaires sont mappées à des codes proches. De plus, nous utilisons le transport optimal pour empêcher les codes de converger vers un seul. Nous démontrons l'efficacité d'APTP en élaguant Stable Diffusion (SD) V2.1 en utilisant CC3M et COCO comme ensembles de données cibles. APTP surpasse les bases de référence d'élagage à modèle unique en termes de scores FID, CLIP et CMMD. Notre analyse des clusters appris par APTP révèle qu'ils sont sémantiquement significatifs. Nous montrons également qu'APTP peut découvrir automatiquement des invites précédemment identifiées comme difficiles pour SD, par exemple les invites pour générer des images de texte, en leur assignant des codes de capacité plus élevée.
L'évolution rapide des modèles de langage a nécessité le développement de benchmarks plus exigeants. Les benchmarks statiques actuels peinent souvent à distinguer de manière cohérente les capacités des différents modèles et ne parviennent pas à s'aligner sur les préférences des utilisateurs dans le monde réel. D'un autre côté, les plateformes collaboratives en temps réel, comme le Chatbot Arena, collectent une large gamme de prompts naturels et de retours utilisateurs. Cependant, ces prompts varient en sophistication et les retours ne peuvent pas être appliqués hors ligne à de nouveaux modèles. Afin de garantir que les benchmarks suivent le rythme du développement des LLM, nous abordons la manière d'évaluer les benchmarks sur leur capacité à séparer de manière fiable les modèles et leur alignement avec les préférences humaines. Sous ces principes, nous avons développé BenchBuilder, un benchmark vivant qui filtre les prompts de haute qualité à partir de sources de données en temps réel pour permettre une évaluation hors ligne sur des prompts frais et exigeants. BenchBuilder identifie sept indicateurs d'un prompt de haute qualité, tels que la nécessité de connaissances spécifiques à un domaine, et utilise un annotateur LLM pour sélectionner un sous-ensemble de prompts de haute qualité provenant de divers clusters thématiques. Le processus d'évaluation par LLM emploie un juge LLM pour assurer un benchmark entièrement automatisé, de haute qualité et constamment mis à jour. Nous appliquons BenchBuilder sur les prompts du Chatbot Arena pour créer Arena-Hard-Auto v0.1 : 500 prompts utilisateurs exigeants couvrant une large gamme de tâches. Arena-Hard-Auto v0.1 offre des intervalles de confiance 3 fois plus serrés que MT-Bench et atteint un accord de pointe de 89,1 % avec les classements de préférence humaine, le tout pour un coût de seulement 25 $ et sans recours à des annotateurs humains. Le pipeline BenchBuilder améliore les benchmarks d'évaluation et fournit un outil précieux pour les développeurs, leur permettant d'extraire des benchmarks de haute qualité à partir de vastes ensembles de données avec un effort minimal.
La binarisation, qui convertit les paramètres de poids en valeurs binaires, s'est imposée comme une stratégie efficace pour réduire la taille des grands modèles de langage (LLM). Cependant, les techniques de binarisation classiques diminuent considérablement l'efficacité linguistique des LLM. Pour résoudre ce problème, nous introduisons une nouvelle technique de binarisation appelée Mixture of Scales (BinaryMoS). Contrairement aux méthodes conventionnelles, BinaryMoS utilise plusieurs experts de mise à l'échelle pour les poids binaires, fusionnant dynamiquement ces experts pour chaque token afin de générer de manière adaptative des facteurs d'échelle. Cette approche adaptative par token renforce la puissance de représentation des LLM binarisés en permettant des ajustements contextuels des valeurs des poids binaires. De plus, comme ce processus adaptatif ne concerne que les facteurs d'échelle et non l'ensemble de la matrice de poids, BinaryMoS maintient une efficacité de compression similaire aux méthodes de binarisation statique traditionnelles. Nos résultats expérimentaux montrent que BinaryMoS surpasse les techniques de binarisation conventionnelles dans diverses tâches de traitement du langage naturel et dépasse même les méthodes de quantification à 2 bits, tout en conservant une taille de modèle similaire aux techniques de binarisation statique.
L'alignement direct à partir des préférences (Direct Alignment from Preferences, DAP) s'est imposé comme un paradigme prometteur pour aligner les grands modèles de langage (LLMs) sur les desiderata humains à partir de jeux de données de préférences pré-collectées et hors ligne. Bien que des études récentes indiquent que les méthodes DAP hors ligne existantes peuvent directement bénéficier d'échantillons d'entraînement en ligne, nous soulignons la nécessité de développer des algorithmes DAP en ligne spécifiques pour exploiter pleinement le potentiel de l'entraînement en ligne. Plus précisément, nous identifions que le LLM appris doit respecter la proximité du LLM de comportement, qui collecte les échantillons d'entraînement. À cette fin, nous proposons l'Optimisation des Préférences en ligne à proximité du LLM de Comportement (BPO), en mettant l'accent sur l'importance de construire une région de confiance appropriée pour l'alignement des LLMs. Nous menons des expériences approfondies pour valider l'efficacité et l'applicabilité de notre approche en l'intégrant à diverses méthodes DAP, ce qui entraîne des améliorations significatives des performances sur un large éventail de tâches avec la même quantité de données de préférences. Même en introduisant une seule phase supplémentaire de collecte de données, notre BPO en ligne améliore son baseline DAP hors ligne de 72,0 % à 80,2 % sur TL;DR et de 82,2 % à 89,1 % sur Anthropic Helpfulness en termes de taux de victoire contre un texte de référence humain.
Le montage vidéo constitue une pierre angulaire des médias numériques, qu'il s'agisse de divertissement, d'éducation ou de communication professionnelle. Cependant, les méthodes précédentes négligent souvent la nécessité de comprendre de manière exhaustive les contextes globaux et locaux, entraînant des modifications imprécises et incohérentes dans la dimension spatio-temporelle, en particulier pour les vidéos longues. Dans cet article, nous présentons VIA, un cadre unifié d'adaptation spatio-temporelle pour le montage vidéo global et local, repoussant les limites du montage cohérent de vidéos de plusieurs minutes. Tout d'abord, pour garantir la cohérence locale au sein des images individuelles, la base de VIA est une nouvelle méthode d'adaptation de montage en temps de test, qui adapte un modèle de montage d'images pré-entraîné pour améliorer la cohérence entre les directions de montage potentielles et les instructions textuelles, et adapte les variables latentes masquées pour un contrôle local précis. En outre, pour maintenir la cohérence globale sur la séquence vidéo, nous introduisons une adaptation spatio-temporelle qui adapte les variables d'attention cohérentes dans les images clés et les applique stratégiquement à l'ensemble de la séquence pour réaliser les effets de montage. Des expériences approfondies démontrent que, par rapport aux méthodes de référence, notre approche VIA produit des modifications plus fidèles aux vidéos sources, plus cohérentes dans le contexte spatio-temporel et plus précises dans le contrôle local. Plus important encore, nous montrons que VIA peut réaliser un montage cohérent de vidéos longues en quelques minutes, ouvrant ainsi des perspectives pour des tâches de montage vidéo avancées sur des séquences vidéo longues.
Évaluer l'efficacité des grands modèles de langage (LLMs) dans la résolution de tâches variées est essentiel pour comprendre leurs forces et leurs faiblesses. Les techniques d'évaluation conventionnelles appliquent généralement une stratégie de prompt unique de manière uniforme sur les ensembles de données, sans tenir compte des différents niveaux de complexité des tâches. Nous introduisons la Taxonomie de Prompt Hiérarchique (HPT), une taxonomie qui utilise un Cadre de Prompt Hiérarchique (HPF) composé de cinq stratégies de prompt distinctes, organisées du plus simple au plus complexe, pour évaluer les LLMs de manière plus précise et offrir une perspective plus claire. Cette taxonomie attribue un score, appelé Score de Prompt Hiérarchique (HP-Score), aux ensembles de données ainsi qu'aux LLMs en fonction des règles de la taxonomie, fournissant une compréhension nuancée de leur capacité à résoudre des tâches variées et offrant une mesure universelle de la complexité des tâches. De plus, nous introduisons le Cadre de Prompt Hiérarchique Adaptatif, qui automatise la sélection des stratégies de prompt appropriées pour chaque tâche. Cette étude compare les cadres de prompt hiérarchique manuel et adaptatif en utilisant quatre LLMs ajustés par instruction, à savoir Llama 3 8B, Phi 3 3.8B, Mistral 7B et Gemma 7B, sur quatre ensembles de données : BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) et SamSum. Les expériences démontrent l'efficacité de la HPT, fournissant une méthode fiable pour comparer différentes tâches et les capacités des LLMs. Ce document conduit au développement d'une métrique d'évaluation universelle qui peut être utilisée pour évaluer à la fois la complexité des ensembles de données et les capacités des LLMs. L'implémentation du HPF manuel et du HPF adaptatif est publiquement disponible.
Les modèles de langage à capacité visuelle (VLMs) sont désormais utilisés pour construire des agents multimodaux autonomes capables d'agir dans des environnements réels. Dans cet article, nous montrons que les agents multimodaux soulèvent de nouveaux risques en matière de sécurité, bien qu'attaquer ces agents soit plus complexe que les attaques précédentes en raison d'un accès limité et d'une connaissance réduite de l'environnement. Nos attaques utilisent des chaînes de texte adverses pour guider des perturbations basées sur le gradient sur une image déclencheur dans l'environnement : (1) notre attaque de légendeur cible les légendeurs en boîte blanche s'ils sont utilisés pour transformer des images en légendes comme entrées supplémentaires pour le VLM ; (2) notre attaque CLIP cible un ensemble de modèles CLIP conjointement, ce qui peut se transférer à des VLMs propriétaires. Pour évaluer ces attaques, nous avons créé VisualWebArena-Adv, un ensemble de tâches adverses basées sur VisualWebArena, un environnement pour les tâches d'agents multimodaux sur le web. Avec une norme L-infini de 16/256 sur une seule image, l'attaque de légendeur peut amener un agent GPT-4V augmenté par un légendeur à exécuter les objectifs adverses avec un taux de réussite de 75 %. Lorsque nous supprimons le légendeur ou utilisons GPT-4V pour générer ses propres légendes, l'attaque CLIP peut atteindre des taux de réussite de 21 % et 43 %, respectivement. Les expériences sur des agents basés sur d'autres VLMs, tels que Gemini-1.5, Claude-3 et GPT-4o, montrent des différences intéressantes dans leur robustesse. Une analyse plus approfondie révèle plusieurs facteurs clés contribuant au succès de l'attaque, et nous discutons également des implications pour les défenses. Page du projet : https://chenwu.io/attack-agent Code et données : https://github.com/ChenWu98/agent-attack
Dans cet article, nous soulignons qu'une cartographie sous-optimale entre le bruit et les données entraîne un ralentissement de l'entraînement des modèles de diffusion. Lors de l'entraînement par diffusion, les méthodes actuelles diffusent chaque image dans l'ensemble de l'espace de bruit, ce qui aboutit à un mélange de toutes les images à chaque point de la couche de bruit. Nous insistons sur le fait que ce mélange aléatoire de la cartographie bruit-données complique l'optimisation de la fonction de débruîtage dans les modèles de diffusion. En nous inspirant du phénomène d'immiscibilité en physique, nous proposons la Diffusion Immiscible, une méthode simple et efficace pour améliorer ce mélange aléatoire. En physique, la miscibilité peut varier selon différentes forces intermoléculaires. Ainsi, l'immiscibilité signifie que le mélange des sources moléculaires reste distinct. Inspirés par cela, nous proposons une stratégie d'entraînement basée sur l'affectation puis la diffusion. Concrètement, avant de diffuser les données d'image en bruit, nous assignons un bruit cible de diffusion aux données d'image en minimisant la distance totale entre les paires image-bruit dans un mini-lot. Cette affectation fonctionne de manière analogue à des forces externes pour séparer les zones diffusables des images, atténuant ainsi les difficultés inhérentes à l'entraînement par diffusion. Notre approche est remarquablement simple, nécessitant seulement une ligne de code pour restreindre la zone diffusable de chaque image tout en préservant la distribution gaussienne du bruit. Cela garantit que chaque image est projetée uniquement vers un bruit proche. Pour réduire la complexité élevée de l'algorithme d'affectation, nous utilisons une méthode d'affectation quantifiée afin de ramener la surcharge computationnelle à un niveau négligeable. Les expériences montrent que notre méthode permet un entraînement jusqu'à 3 fois plus rapide pour les modèles de cohérence et DDIM sur le jeu de données CIFAR, et jusqu'à 1,3 fois plus rapide sur les jeux de données CelebA pour les modèles de cohérence. Par ailleurs, nous menons une analyse approfondie de la Diffusion Immiscible, qui éclaire la manière dont elle améliore la vitesse d'entraînement par diffusion tout en augmentant la fidélité.
Les grands modèles pour la génération de texte-à-musique ont réalisé des progrès significatifs, facilitant la création de compositions musicales de haute qualité et variées à partir de prompts textuels fournis. Cependant, les prompts textuels en entrée peuvent ne pas capturer précisément les exigences des utilisateurs, en particulier lorsque l'objectif est de générer une musique qui incarne un concept spécifique dérivé d'une collection de référence désignée. Dans cet article, nous proposons une nouvelle méthode pour la génération personnalisée de texte-à-musique, capable de capturer le concept à partir d'une musique de référence de deux minutes et de générer une nouvelle pièce musicale conforme à ce concept. Nous y parvenons en affinant un modèle pré-entraîné de texte-à-musique à l'aide de la musique de référence. Cependant, l'affinement direct de tous les paramètres entraîne des problèmes de sur-apprentissage. Pour résoudre ce problème, nous proposons une méthode d'Affinement des Paramètres Pivots qui permet au modèle d'assimiler le nouveau concept tout en préservant ses capacités génératives originales. De plus, nous identifions un conflit potentiel de concept lors de l'introduction de multiples concepts dans le modèle pré-entraîné. Nous présentons une stratégie d'amélioration des concepts pour distinguer plusieurs concepts, permettant au modèle affiné de générer une musique intégrant soit des concepts individuels, soit plusieurs concepts simultanément. Étant les premiers à travailler sur la tâche de génération musicale personnalisée, nous introduisons également un nouveau jeu de données et un protocole d'évaluation pour cette nouvelle tâche. Notre Jen1-DreamStyler proposé surpasse plusieurs modèles de référence dans les évaluations qualitatives et quantitatives. Les démonstrations seront disponibles sur https://www.jenmusic.ai/research#DreamStyler.
Le superalignement, où les humains sont des superviseurs faibles de modèles surhumains, est devenu un problème important et largement discuté à l'ère du développement rapide des grands modèles de langage (LLM). Les travaux récents étudient ce problème de manière préliminaire en utilisant des modèles faibles pour superviser des modèles forts. Ils découvrent que des étudiants forts faiblement supervisés peuvent systématiquement surpasser des enseignants faibles vers l'objectif d'alignement, conduisant à un phénomène de généralisation de faible à fort. Cependant, nous nous interrogeons sur l'existence potentielle, derrière ce phénomène prometteur, d'un problème de tromperie de faible à fort, où les modèles forts pourraient tromper les modèles faibles en affichant un bon alignement dans les domaines connus des modèles faibles, mais en produisant des comportements désalignés dans les cas que les modèles faibles ne connaissent pas. Nous faisons alors un premier pas vers l'exploration de cette question de sécurité dans un cas spécifique mais réaliste d'alignement multi-objectif, où certains objectifs d'alignement peuvent entrer en conflit (par exemple, l'utilité contre l'innocuité). Un tel conflit est susceptible d'amener les modèles forts à tromper les modèles faibles dans une dimension d'alignement pour obtenir une récompense élevée dans une autre dimension d'alignement. Nos expériences sur la tâche de modélisation des récompenses et le scénario d'optimisation des préférences indiquent : (1) la tromperie de faible à fort existe ; (2) le phénomène de tromperie peut s'intensifier à mesure que l'écart de capacité entre les modèles faibles et forts augmente. Nous discutons également des solutions potentielles et constatons que l'amorçage avec un modèle intermédiaire peut atténuer la tromperie dans une certaine mesure. Notre travail souligne le besoin urgent d'accorder plus d'attention à la véritable fiabilité du superalignement.
Dans cet article, nous présentons une méthode d'adaptation à faible rang inspirée des sous-espaces (LoRA), qui est efficace sur le plan computationnel, facile à implémenter et directement applicable aux grands modèles de langage, multimodaux et de diffusion. Initialement, nous décomposons de manière équivalente les poids de LoRA en deux sous-espaces, et constatons que leur simple mélange peut améliorer les performances. Pour étudier ce phénomène, nous le revisitons à travers une lentille fine des sous-espaces, montrant qu'une telle modification équivaut à utiliser un mélangeur fixe pour fusionner les sous-espaces. Pour plus de flexibilité, nous apprenons conjointement le mélangeur avec les poids originaux de LoRA, et nommons cette méthode Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA surpasse systématiquement LoRA sur des tâches dans différentes modalités, incluant le raisonnement de bon sens, l'ajustement d'instructions visuelles et la génération d'images à partir de texte pilotée par un sujet, démontrant ainsi son efficacité et sa robustesse. Les codes sont disponibles à l'adresse https://github.com/wutaiqiang/MoSLoRA{github}.