Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré un potentiel significatif dans diverses applications, suscitant un intérêt croissant de la part des chercheurs et des praticiens. Cependant, une évaluation approfondie de leurs capacités à gérer des contextes longs reste insuffisamment explorée. Pour combler ces lacunes, nous introduisons le benchmark MultiModal Needle-in-a-haystack (MMNeedle), spécifiquement conçu pour évaluer les capacités des MLLMs à traiter des contextes longs. En plus des entrées multi-images, nous utilisons l'assemblage d'images pour augmenter davantage la longueur du contexte d'entrée, et développons un protocole pour générer automatiquement des étiquettes pour la récupération au niveau des sous-images. Essentiellement, MMNeedle évalue les MLLMs en testant leur capacité à localiser une sous-image cible (aiguille) parmi un ensemble d'images (meule de foin) en se basant sur des instructions textuelles et des descriptions du contenu des images. Cette configuration nécessite une compréhension avancée des contextes visuels étendus et une récupération efficace d'informations dans des entrées d'images à contexte long. Avec ce benchmark, nous évaluons les MLLMs de pointe, incluant à la fois des modèles basés sur des API et des modèles open-source. Les résultats révèlent que GPT-4o surpasse systématiquement les autres modèles dans les scénarios à contexte long, mais souffre de problèmes d'hallucination dans les échantillons négatifs, c'est-à-dire lorsque les aiguilles ne sont pas dans les meules de foin. Notre évaluation approfondie des MLLMs dans des contextes longs met également en lumière l'écart de performance considérable entre les modèles basés sur des API et les modèles open-source. Tous les codes, données et instructions nécessaires pour reproduire les principaux résultats sont disponibles à l'adresse https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
Aujourd'hui, les domaines du traitement du code et du langage naturel évoluent rapidement. En particulier, les modèles deviennent plus performants dans le traitement de fenêtres contextuelles longues - les tailles de contexte prises en charge ont augmenté de plusieurs ordres de grandeur au cours des dernières années. Cependant, il existe un manque de benchmarks pour le traitement du code qui dépassent le contexte d'un seul fichier, tandis que les plus populaires se limitent à une seule méthode. Avec ce travail, nous visons à combler cette lacune en introduisant Long Code Arena, une suite de six benchmarks pour des tâches de traitement du code nécessitant un contexte à l'échelle du projet. Ces tâches couvrent différents aspects du traitement du code : génération de code basée sur des bibliothèques, réparation de builds CI, complétion de code au niveau du projet, génération de messages de commit, localisation de bugs et synthèse de modules. Pour chaque tâche, nous fournissons un ensemble de données vérifié manuellement pour les tests, une suite d'évaluation et des solutions de base open source basées sur des LLM populaires pour illustrer l'utilisation des données et faciliter l'adoption par d'autres chercheurs. Nous publions la page du benchmark sur HuggingFace Spaces avec un classement, des liens vers HuggingFace Hub pour tous les ensembles de données, et un lien vers le dépôt GitHub contenant les solutions de base : https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
Les transformers pour la vision (ViTs) sont devenus un domaine d'intérêt majeur, notamment pour leur capacité à être entraînés conjointement avec de grands modèles de langage et à servir de modèles de base robustes pour la vision. Cependant, le développement de méthodes d'explication fiables pour les ViTs a pris du retard, en particulier dans le contexte des interprétations post-hoc des prédictions des ViTs. Les approches existantes de sélection de sous-images, telles que les modèles d'attribution de caractéristiques et les modèles conceptuels, ne répondent pas à ces attentes. Cet article propose cinq desiderata pour expliquer les ViTs -- fidélité, stabilité, parcimonie, structure multi-niveaux et parcimonie -- et démontre l'insuffisance des méthodes actuelles à répondre à ces critères de manière exhaustive. Nous introduisons un cadre d'explication variationnel bayésien, nommé ProbAbilistic Concept Explainers (PACE), qui modélise les distributions des embeddings de patchs pour fournir des explications conceptuelles post-hoc fiables. Notre analyse qualitative révèle les distributions des concepts au niveau des patchs, éclairant l'efficacité des ViTs en modélisant la distribution conjointe des embeddings de patchs et des prédictions des ViTs. De plus, ces explications au niveau des patchs comblent le fossé entre les explications au niveau de l'image et celles au niveau du jeu de données, complétant ainsi la structure multi-niveaux de PACE. À travers des expériences approfondies sur des jeux de données synthétiques et réels, nous démontrons que PACE surpasse les méthodes de pointe en termes des desiderata définis.
Nous présentons Self-MoE, une approche qui transforme un modèle de langage monolithique (LLM) en un système modulaire et compositionnel d'experts auto-spécialisés, nommé MiXSE (MiXture of Self-specialized Experts). Notre méthode exploite l'auto-spécialisation, qui construit des modules experts à l'aide de données synthétiques auto-générées, chacun étant équipé d'un modèle de langage de base partagé et intégrant un routage auto-optimisé. Cela permet une gestion dynamique et spécifique aux capacités de diverses tâches cibles, améliorant les performances globales sans nécessiter de grandes quantités de données annotées manuellement ni de paramètres supplémentaires. Nos résultats empiriques révèlent que la spécialisation des LLM peut présenter des compromis potentiels dans les performances sur des tâches non spécialisées. D'autre part, notre Self-MoE démontre des améliorations substantielles par rapport au LLM de base sur divers benchmarks tels que la connaissance, le raisonnement, les mathématiques et la programmation. Il surpasse également de manière constante d'autres méthodes, y compris la fusion d'instances et la fusion de poids, tout en offrant une meilleure flexibilité et interprétabilité grâce à sa conception avec des experts sémantiques et un routage. Nos résultats soulignent le rôle crucial de la modularité et le potentiel d'auto-amélioration pour réaliser des systèmes efficaces, évolutifs et adaptables.
L'intégration de modèles de langage pré-entraînés (PLM) comme BERT et GPT a révolutionné le traitement du langage naturel (NLP), en particulier pour l'anglais, mais elle a également créé des déséquilibres linguistiques. Cet article identifie stratégiquement la nécessité d'une équité linguistique en examinant plusieurs techniques d'édition de connaissances dans des contextes multilingues. Nous évaluons les performances de modèles tels que Mistral, TowerInstruct, OpenHathi, Tamil-Llama et Kan-Llama à travers des langues incluant l'anglais, l'allemand, le français, l'italien, l'espagnol, l'hindi, le tamoul et le kannada. Notre recherche met en lumière des écarts significatifs dans les modèles normaux et fusionnés en ce qui concerne la cohérence translinguistique. Nous employons des stratégies comme « chaque langue pour elle-même » (ELFI) et « chaque langue pour les autres » (ELFO) pour soumettre ces modèles à des tests de résistance. Nos résultats démontrent le potentiel des LLM à surmonter les barrières linguistiques, jetant les bases pour des recherches futures visant à atteindre une inclusivité linguistique dans les technologies d'IA.
Les modèles de parole auto-supervisés (SSL) ont récemment été largement adoptés pour de nombreuses tâches de traitement de la parole en aval. Le schéma d'utilisation général consiste à employer ces modèles SSL comme extracteurs de caractéristiques, puis à entraîner une tête de prédiction en aval pour résoudre une tâche spécifique. Cependant, il a été démontré que différentes couches des modèles SSL capturent différents types d'informations, et les méthodes pour les combiner ne sont pas bien étudiées. Dans cette optique, nous étendons le cadre général d'utilisation des modèles SSL en proposant une interface qui connecte les parties amont et aval. Sous cet angle, la technique dominante de combinaison des caractéristiques via une somme pondérée par couche peut être considérée comme une interface spécifique. Nous proposons plusieurs conceptions alternatives d'interfaces et démontrons que l'interface par somme pondérée est sous-optimale pour de nombreuses tâches. En particulier, nous montrons qu'une interface convolutive dont la profondeur évolue logarithmiquement avec la profondeur du modèle amont surpasse systématiquement de nombreuses autres conceptions d'interfaces.
L'apprentissage par renforcement avec feedback humain (RLHF) est devenu la méthode dominante pour aligner les grands modèles sur les préférences des utilisateurs. Contrairement au fine-tuning, pour lequel de nombreuses études existent concernant la mémorisation des données d'entraînement, il n'est pas clair comment la mémorisation est affectée ou introduite dans le processus d'alignement RLHF. Comprendre cette relation est important car des données réelles d'utilisateurs peuvent être collectées et utilisées pour aligner les grands modèles ; si les données des utilisateurs sont mémorisées pendant le RLHF et ensuite restituées, cela pourrait soulever des préoccupations en matière de confidentialité. Dans ce travail, nous analysons comment la mémorisation des données d'entraînement peut émerger et se propager à travers chaque phase du RLHF. Nous concentrons notre étude sur les modèles de complétion de code, car la complétion de code est l'un des cas d'utilisation les plus populaires pour les grands modèles de langage. Nous constatons que le RLHF réduit significativement la probabilité que les données utilisées pour la modélisation des récompenses et l'apprentissage par renforcement soient mémorisées, par rapport à un alignement via un fine-tuning direct sur ces données, mais que les exemples déjà mémorisés pendant l'étape de fine-tuning du RLHF resteront, dans la majorité des cas, mémorisés après le RLHF.
La tâche de "désapprentissage" de certains concepts dans les grands modèles de langage (LLMs) a récemment suscité une attention considérable, en raison de son importance pour atténuer les comportements indésirables des modèles, tels que la génération d'informations nuisibles, privées ou incorrectes. Les protocoles actuels pour évaluer les méthodes de désapprentissage reposent largement sur des tests comportementaux, sans surveiller la présence des connaissances désapprises dans les paramètres du modèle. Ces connaissances résiduelles peuvent être exploitées de manière antagoniste pour récupérer les informations effacées après le désapprentissage. Nous soutenons que le désapprentissage devrait également être évalué en interne, en considérant les changements dans les traces de connaissances paramétriques des concepts désappris. À cette fin, nous proposons une méthodologie générale pour identifier des directions dans l'espace des paramètres (appelées "vecteurs de concepts") qui encodent des concepts concrets, et construisons ConceptVectors, un ensemble de données de référence contenant des centaines de concepts courants et leurs traces de connaissances paramétriques au sein de deux LLMs open-source. L'évaluation sur ConceptVectors montre que les méthodes de désapprentissage existantes ont un impact minimal sur les vecteurs de concepts, tandis que l'ablation directe de ces vecteurs supprime de manière démontrable les connaissances associées des LLMs et réduit significativement leur vulnérabilité à la manipulation antagoniste. Nos résultats mettent en lumière les limites des évaluations de désapprentissage basées sur le comportement et appellent à inclure des évaluations basées sur les paramètres dans les travaux futurs. Pour soutenir cela, nous publions notre code et notre ensemble de données de référence à l'adresse https://github.com/yihuaihong/ConceptVectors.