HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

8 papers found

Aiguille multimodale dans une botte de foin : Évaluation des capacités en contexte étendu des modèles de langage multimodaux de grande taille
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Jun 17

ByHengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré un potentiel significatif dans diverses applications, suscitant un intérêt croissant de la part des chercheurs et des praticiens. Cependant, une évaluation approfondie de leurs capacités à gérer des contextes longs reste insuffisamment explorée. Pour combler ces lacunes, nous introduisons le benchmark MultiModal Needle-in-a-haystack (MMNeedle), spécifiquement conçu pour évaluer les capacités des MLLMs à traiter des contextes longs. En plus des entrées multi-images, nous utilisons l'assemblage d'images pour augmenter davantage la longueur du contexte d'entrée, et développons un protocole pour générer automatiquement des étiquettes pour la récupération au niveau des sous-images. Essentiellement, MMNeedle évalue les MLLMs en testant leur capacité à localiser une sous-image cible (aiguille) parmi un ensemble d'images (meule de foin) en se basant sur des instructions textuelles et des descriptions du contenu des images. Cette configuration nécessite une compréhension avancée des contextes visuels étendus et une récupération efficace d'informations dans des entrées d'images à contexte long. Avec ce benchmark, nous évaluons les MLLMs de pointe, incluant à la fois des modèles basés sur des API et des modèles open-source. Les résultats révèlent que GPT-4o surpasse systématiquement les autres modèles dans les scénarios à contexte long, mais souffre de problèmes d'hallucination dans les échantillons négatifs, c'est-à-dire lorsque les aiguilles ne sont pas dans les meules de foin. Notre évaluation approfondie des MLLMs dans des contextes longs met également en lumière l'écart de performance considérable entre les modèles basés sur des API et les modèles open-source. Tous les codes, données et instructions nécessaires pour reproduire les principaux résultats sont disponibles à l'adresse https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.

Long Code Arena : un ensemble de benchmarks pour les modèles de code à contexte long
Long Code Arena: a Set of Benchmarks for Long-Context Code Models

Jun 17

ByEgor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin

Aujourd'hui, les domaines du traitement du code et du langage naturel évoluent rapidement. En particulier, les modèles deviennent plus performants dans le traitement de fenêtres contextuelles longues - les tailles de contexte prises en charge ont augmenté de plusieurs ordres de grandeur au cours des dernières années. Cependant, il existe un manque de benchmarks pour le traitement du code qui dépassent le contexte d'un seul fichier, tandis que les plus populaires se limitent à une seule méthode. Avec ce travail, nous visons à combler cette lacune en introduisant Long Code Arena, une suite de six benchmarks pour des tâches de traitement du code nécessitant un contexte à l'échelle du projet. Ces tâches couvrent différents aspects du traitement du code : génération de code basée sur des bibliothèques, réparation de builds CI, complétion de code au niveau du projet, génération de messages de commit, localisation de bugs et synthèse de modules. Pour chaque tâche, nous fournissons un ensemble de données vérifié manuellement pour les tests, une suite d'évaluation et des solutions de base open source basées sur des LLM populaires pour illustrer l'utilisation des données et faciliter l'adoption par d'autres chercheurs. Nous publions la page du benchmark sur HuggingFace Spaces avec un classement, des liens vers HuggingFace Hub pour tous les ensembles de données, et un lien vers le dépôt GitHub contenant les solutions de base : https://huggingface.co/spaces/JetBrains-Research/long-code-arena.

Self-MoE : Vers des modèles de langage de grande taille compositionnels avec des experts auto-spécialisés
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

Jun 17

ByJunmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter

Nous présentons Self-MoE, une approche qui transforme un modèle de langage monolithique (LLM) en un système modulaire et compositionnel d'experts auto-spécialisés, nommé MiXSE (MiXture of Self-specialized Experts). Notre méthode exploite l'auto-spécialisation, qui construit des modules experts à l'aide de données synthétiques auto-générées, chacun étant équipé d'un modèle de langage de base partagé et intégrant un routage auto-optimisé. Cela permet une gestion dynamique et spécifique aux capacités de diverses tâches cibles, améliorant les performances globales sans nécessiter de grandes quantités de données annotées manuellement ni de paramètres supplémentaires. Nos résultats empiriques révèlent que la spécialisation des LLM peut présenter des compromis potentiels dans les performances sur des tâches non spécialisées. D'autre part, notre Self-MoE démontre des améliorations substantielles par rapport au LLM de base sur divers benchmarks tels que la connaissance, le raisonnement, les mathématiques et la programmation. Il surpasse également de manière constante d'autres méthodes, y compris la fusion d'instances et la fusion de poids, tout en offrant une meilleure flexibilité et interprétabilité grâce à sa conception avec des experts sémantiques et un routage. Nos résultats soulignent le rôle crucial de la modularité et le potentiel d'auto-amélioration pour réaliser des systèmes efficaces, évolutifs et adaptables.

Expliqueurs Conceptuels Probabilistes : Explications Conceptuelles Fiables pour les Modèles Fondamentaux en Vision
Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

Jun 18

ByHengyi Wang, Shiwei Tan, Hao Wang

Les transformers pour la vision (ViTs) sont devenus un domaine d'intérêt majeur, notamment pour leur capacité à être entraînés conjointement avec de grands modèles de langage et à servir de modèles de base robustes pour la vision. Cependant, le développement de méthodes d'explication fiables pour les ViTs a pris du retard, en particulier dans le contexte des interprétations post-hoc des prédictions des ViTs. Les approches existantes de sélection de sous-images, telles que les modèles d'attribution de caractéristiques et les modèles conceptuels, ne répondent pas à ces attentes. Cet article propose cinq desiderata pour expliquer les ViTs -- fidélité, stabilité, parcimonie, structure multi-niveaux et parcimonie -- et démontre l'insuffisance des méthodes actuelles à répondre à ces critères de manière exhaustive. Nous introduisons un cadre d'explication variationnel bayésien, nommé ProbAbilistic Concept Explainers (PACE), qui modélise les distributions des embeddings de patchs pour fournir des explications conceptuelles post-hoc fiables. Notre analyse qualitative révèle les distributions des concepts au niveau des patchs, éclairant l'efficacité des ViTs en modélisant la distribution conjointe des embeddings de patchs et des prédictions des ViTs. De plus, ces explications au niveau des patchs comblent le fossé entre les explications au niveau de l'image et celles au niveau du jeu de données, complétant ainsi la structure multi-niveaux de PACE. À travers des expériences approfondies sur des jeux de données synthétiques et réels, nous démontrons que PACE surpasse les méthodes de pointe en termes des desiderata définis.

Repousser les limites : Étude des effets de la modification de modèles sur les performances translinguistiques
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance

Jun 17

BySomnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee

L'intégration de modèles de langage pré-entraînés (PLM) comme BERT et GPT a révolutionné le traitement du langage naturel (NLP), en particulier pour l'anglais, mais elle a également créé des déséquilibres linguistiques. Cet article identifie stratégiquement la nécessité d'une équité linguistique en examinant plusieurs techniques d'édition de connaissances dans des contextes multilingues. Nous évaluons les performances de modèles tels que Mistral, TowerInstruct, OpenHathi, Tamil-Llama et Kan-Llama à travers des langues incluant l'anglais, l'allemand, le français, l'italien, l'espagnol, l'hindi, le tamoul et le kannada. Notre recherche met en lumière des écarts significatifs dans les modèles normaux et fusionnés en ce qui concerne la cohérence translinguistique. Nous employons des stratégies comme « chaque langue pour elle-même » (ELFI) et « chaque langue pour les autres » (ELFO) pour soumettre ces modèles à des tests de résistance. Nos résultats démontrent le potentiel des LLM à surmonter les barrières linguistiques, jetant les bases pour des recherches futures visant à atteindre une inclusivité linguistique dans les technologies d'IA.

Conception d'Interface pour les Modèles de Parole Auto-Supervisés
Interface Design for Self-Supervised Speech Models

Jun 18

ByYi-Jen Shih, David Harwath

Les modèles de parole auto-supervisés (SSL) ont récemment été largement adoptés pour de nombreuses tâches de traitement de la parole en aval. Le schéma d'utilisation général consiste à employer ces modèles SSL comme extracteurs de caractéristiques, puis à entraîner une tête de prédiction en aval pour résoudre une tâche spécifique. Cependant, il a été démontré que différentes couches des modèles SSL capturent différents types d'informations, et les méthodes pour les combiner ne sont pas bien étudiées. Dans cette optique, nous étendons le cadre général d'utilisation des modèles SSL en proposant une interface qui connecte les parties amont et aval. Sous cet angle, la technique dominante de combinaison des caractéristiques via une somme pondérée par couche peut être considérée comme une interface spécifique. Nous proposons plusieurs conceptions alternatives d'interfaces et démontrons que l'interface par somme pondérée est sous-optimale pour de nombreuses tâches. En particulier, nous montrons qu'une interface convolutive dont la profondeur évolue logarithmiquement avec la profondeur du modèle amont surpasse systématiquement de nombreuses autres conceptions d'interfaces.

Mesurer la mémorisation dans l'apprentissage par renforcement à partir de feedback humain pour la complétion de code
Measuring memorization in RLHF for code completion

Jun 17

ByAneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes

L'apprentissage par renforcement avec feedback humain (RLHF) est devenu la méthode dominante pour aligner les grands modèles sur les préférences des utilisateurs. Contrairement au fine-tuning, pour lequel de nombreuses études existent concernant la mémorisation des données d'entraînement, il n'est pas clair comment la mémorisation est affectée ou introduite dans le processus d'alignement RLHF. Comprendre cette relation est important car des données réelles d'utilisateurs peuvent être collectées et utilisées pour aligner les grands modèles ; si les données des utilisateurs sont mémorisées pendant le RLHF et ensuite restituées, cela pourrait soulever des préoccupations en matière de confidentialité. Dans ce travail, nous analysons comment la mémorisation des données d'entraînement peut émerger et se propager à travers chaque phase du RLHF. Nous concentrons notre étude sur les modèles de complétion de code, car la complétion de code est l'un des cas d'utilisation les plus populaires pour les grands modèles de langage. Nous constatons que le RLHF réduit significativement la probabilité que les données utilisées pour la modélisation des récompenses et l'apprentissage par renforcement soient mémorisées, par rapport à un alignement via un fine-tuning direct sur ces données, mais que les exemples déjà mémorisés pendant l'étape de fine-tuning du RLHF resteront, dans la majorité des cas, mémorisés après le RLHF.

Évaluation intrinsèque du désapprentissage à l'aide de traces de connaissances paramétriques
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

Jun 17

ByYihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva

La tâche de "désapprentissage" de certains concepts dans les grands modèles de langage (LLMs) a récemment suscité une attention considérable, en raison de son importance pour atténuer les comportements indésirables des modèles, tels que la génération d'informations nuisibles, privées ou incorrectes. Les protocoles actuels pour évaluer les méthodes de désapprentissage reposent largement sur des tests comportementaux, sans surveiller la présence des connaissances désapprises dans les paramètres du modèle. Ces connaissances résiduelles peuvent être exploitées de manière antagoniste pour récupérer les informations effacées après le désapprentissage. Nous soutenons que le désapprentissage devrait également être évalué en interne, en considérant les changements dans les traces de connaissances paramétriques des concepts désappris. À cette fin, nous proposons une méthodologie générale pour identifier des directions dans l'espace des paramètres (appelées "vecteurs de concepts") qui encodent des concepts concrets, et construisons ConceptVectors, un ensemble de données de référence contenant des centaines de concepts courants et leurs traces de connaissances paramétriques au sein de deux LLMs open-source. L'évaluation sur ConceptVectors montre que les méthodes de désapprentissage existantes ont un impact minimal sur les vecteurs de concepts, tandis que l'ablation directe de ces vecteurs supprime de manière démontrable les connaissances associées des LLMs et réduit significativement leur vulnérabilité à la manipulation antagoniste. Nos résultats mettent en lumière les limites des évaluations de désapprentissage basées sur le comportement et appellent à inclure des évaluations basées sur les paramètres dans les travaux futurs. Pour soutenir cela, nous publions notre code et notre ensemble de données de référence à l'adresse https://github.com/yihuaihong/ConceptVectors.

Aiguille multimodale dans une botte de foin : Évaluation des capacités en contexte étendu des modèles de langage multimodaux de grande taille
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Jun 17

ByHengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang