HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

15 papers found

Lois d'échelle avec le vocabulaire : Les modèles plus grands méritent des vocabulaires plus étendus
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Jul 18

ByChaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

Les recherches sur la mise à l'échelle des grands modèles de langage (LLMs) se sont principalement concentrées sur les paramètres du modèle et la taille des données d'entraînement, négligeant le rôle de la taille du vocabulaire. Intuitivement, des vocabulaires plus grands permettent une tokenisation plus efficace en représentant les phrases avec moins de tokens, mais ils augmentent également le risque de sous-ajustement des représentations pour les tokens rares. Nous étudions comment la taille du vocabulaire influence les lois de mise à l'échelle des LLMs en entraînant des modèles allant de 33M à 3B de paramètres sur jusqu'à 500B de caractères avec diverses configurations de vocabulaire. Nous proposons trois approches complémentaires pour prédire la taille optimale du vocabulaire en termes de calcul : l'analyse IsoFLOPs, l'estimation des dérivées et l'ajustement paramétrique de la fonction de perte. Nos approches convergent vers le même résultat : la taille optimale du vocabulaire dépend du budget de calcul disponible et les modèles plus grands méritent des vocabulaires plus étendus. Cependant, la plupart des LLMs utilisent des vocabulaires trop petits. Par exemple, nous prédisons que la taille optimale du vocabulaire de Llama2-70B aurait dû être d'au moins 216K, soit 7 fois plus grande que son vocabulaire de 32K. Nous validons empiriquement nos prédictions en entraînant des modèles de 3B de paramètres avec différents budgets de FLOPs. L'adoption de notre taille de vocabulaire optimale prédite améliore systématiquement les performances en aval par rapport aux tailles de vocabulaire couramment utilisées. En augmentant la taille du vocabulaire de 32K à 43K, nous améliorons les performances sur ARC-Challenge de 29,1 à 32,0 avec les mêmes 2,3e21 FLOPs. Notre travail souligne la nécessité de considérer conjointement les paramètres du modèle et la taille du vocabulaire pour une mise à l'échelle efficace.

Mise à l'échelle des modèles de langage basés sur la récupération avec un magasin de données d'un trillion de tokens
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

Jul 9

ByRulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh

Les lois d'échelle concernant la quantité de données d'entraînement et le nombre de paramètres nous permettent de prédire les compromis coût-bénéfice du pré-entraînement des modèles de langage (LM) dans différentes configurations. Dans cet article, nous examinons une autre dimension de l'échelle : la quantité de données disponibles au moment de l'inférence. Plus précisément, nous constatons que l'augmentation de la taille du magasin de données utilisé par un LM basé sur la récupération améliore de manière monotone la modélisation du langage et plusieurs tâches en aval sans saturation évidente, de sorte qu'un modèle plus petit augmenté d'un grand magasin de données surpasse un modèle LM plus grand sur des tâches nécessitant une connaissance approfondie. En traçant des courbes d'échelle optimales en termes de calcul avec des tailles variées de magasin de données, de modèle et de données de pré-entraînement, nous montrons que l'utilisation de magasins de données plus volumineux peut considérablement améliorer les performances du modèle pour un même budget de calcul d'entraînement. Nous menons notre étude en construisant un magasin de données de 1,4 trillion de tokens nommé MassiveDS, qui est le magasin de données le plus grand et le plus diversifié en open source pour les LM basés sur la récupération à ce jour, et en concevant un pipeline efficace pour étudier l'échelle des magasins de données de manière accessible sur le plan informatique. Enfin, nous analysons l'effet de l'amélioration du récupérateur, du filtrage de qualité du magasin de données et d'autres choix de conception sur les tendances d'échelle observées. Globalement, nos résultats montrent que la taille du magasin de données devrait être considérée comme une partie intégrante des compromis d'efficacité et de performance des LM. Pour faciliter les recherches futures, nous mettons en open source notre magasin de données et notre code à l'adresse https://github.com/RulinShao/retrieval-scaling.

Mise à l'échelle des modèles de code Granite pour un contexte de 128K
Scaling Granite Code Models to 128K Context

Jul 18

ByMatt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda

Cet article présente des modèles de code Granite à contexte long, capables de gérer des fenêtres contextuelles efficaces allant jusqu'à 128 000 tokens. Notre solution pour étendre la longueur de contexte des modèles de code Granite 3B/8B de 2K/4K à 128K repose sur un pré-entraînement continu léger, en augmentant progressivement la fréquence de base de leur RoPE, combiné à un regroupement de fichiers au niveau du dépôt et à des données de contexte long suréchantillonnées en longueur. De plus, nous publions également des modèles ajustés par instruction avec support de contexte long, obtenus en affinant davantage les modèles de base à contexte long sur un mélange de paires instruction-réponse à contexte court et long sous licence permissive. Par rapport aux modèles de code Granite à contexte court d'origine, nos modèles à contexte long montrent des améliorations significatives sur les tâches à contexte long, sans dégradation notable des performances sur les benchmarks classiques de complétion de code (par exemple, HumanEval). Nous mettons à disposition tous nos modèles de code Granite à contexte long sous licence Apache 2.0, pour un usage à la fois de recherche et commercial.

Forme du mouvement : Reconstruction 4D à partir d'une seule vidéo
Shape of Motion: 4D Reconstruction from a Single Video

Jul 18

ByQianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa

La reconstruction dynamique monoculaire constitue un problème de vision par ordinateur complexe et de longue date, en raison de la nature hautement mal posée de la tâche. Les approches existantes présentent des limitations, car elles dépendent soit de modèles prédéfinis, sont efficaces uniquement dans des scènes quasi-statiques, ou échouent à modéliser explicitement le mouvement 3D. Dans ce travail, nous introduisons une méthode capable de reconstruire des scènes dynamiques génériques, mettant en avant un mouvement 3D explicite et couvrant toute la séquence, à partir de vidéos monoculaires capturées de manière informelle. Nous abordons la nature sous-contrainte du problème grâce à deux idées clés : Premièrement, nous exploitons la structure de faible dimension du mouvement 3D en représentant le mouvement de la scène avec un ensemble compact de bases de mouvement SE3. Le mouvement de chaque point est exprimé comme une combinaison linéaire de ces bases, facilitant une décomposition douce de la scène en plusieurs groupes se déplaçant de manière rigide. Deuxièmement, nous utilisons un ensemble complet de connaissances a priori basées sur les données, incluant des cartes de profondeur monoculaires et des trajectoires 2D à long terme, et concevons une méthode pour consolider efficacement ces signaux de supervision bruités, aboutissant à une représentation globalement cohérente de la scène dynamique. Les expériences montrent que notre méthode atteint des performances de pointe à la fois pour l'estimation du mouvement 3D/2D à long terme et pour la synthèse de nouvelles vues sur des scènes dynamiques. Page du projet : https://shape-of-motion.github.io/

Paysages urbains : Génération cohérente à grande échelle de vues de rue par diffusion vidéo autorégressive
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Jul 18

ByBoyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

Nous présentons une méthode pour générer des séquences longues de paysages urbains (Streetscapes) à travers une scène à l'échelle d'une ville synthétisée à la volée. Notre génération est conditionnée par une entrée linguistique (par exemple, le nom de la ville, la météo), ainsi que par une carte ou un plan sous-jacent hébergeant la trajectoire souhaitée. Par rapport aux modèles récents de génération de vidéos ou de synthèse de vues 3D, notre méthode peut s'adapter à des trajectoires de caméra beaucoup plus longues, couvrant plusieurs pâtés de maisons, tout en maintenant une qualité visuelle et une cohérence élevées. Pour atteindre cet objectif, nous nous appuyons sur des travaux récents en diffusion vidéo, utilisés dans un cadre autorégressif qui peut facilement s'adapter à des séquences longues. En particulier, nous introduisons une nouvelle méthode d'imputation temporelle qui empêche notre approche autorégressive de dériver de la distribution des images réalistes de la ville. Nous entraînons notre système Streetscapes sur une source de données convaincante - des images posées provenant de Google Street View, ainsi que des données cartographiques contextuelles - ce qui permet aux utilisateurs de générer des vues de la ville conditionnées à n'importe quel plan urbain souhaité, avec des poses de caméra contrôlables. Pour plus de résultats, veuillez consulter notre page de projet à l'adresse https://boyangdeng.com/streetscapes.

Évaluation de la fiabilité des modèles de langage multimodaux de grande envergure : une étude approfondie
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Jun 11

ByYichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

Malgré les capacités supérieures des Modèles de Langage Multimodaux de Grande Taille (MLLMs) dans diverses tâches, ils continuent de faire face à des défis importants en matière de fiabilité. Cependant, la littérature actuelle sur l'évaluation des MLLMs dignes de confiance reste limitée, manquant d'une évaluation holistique pour offrir des insights approfondis sur les améliorations futures. Dans ce travail, nous établissons MultiTrust, le premier benchmark complet et unifié sur la fiabilité des MLLMs à travers cinq aspects principaux : la véracité, la sécurité, la robustesse, l'équité et la confidentialité. Notre benchmark utilise une stratégie d'évaluation rigoureuse qui aborde à la fois les risques multimodaux et les impacts intermodaux, englobant 32 tâches variées avec des ensembles de données soigneusement sélectionnés. Des expériences approfondies avec 21 MLLMs modernes révèlent certains problèmes et risques de fiabilité jusque-là inexplorés, mettant en lumière les complexités introduites par la multimodalité et soulignant la nécessité de méthodologies avancées pour améliorer leur fiabilité. Par exemple, les modèles propriétaires typiques peinent encore à percevoir des images visuellement déroutantes et sont vulnérables aux attaques de jailbreaking multimodal et aux attaques adverses ; les MLLMs sont plus enclins à divulguer des informations confidentielles dans le texte et à révéler des biais idéologiques et culturels même lorsqu'ils sont associés à des images non pertinentes lors de l'inférence, indiquant que la multimodalité amplifie les risques internes des LLMs de base. De plus, nous publions une boîte à outils évolutive pour la recherche standardisée sur la fiabilité, visant à faciliter les avancées futures dans ce domaine important. Le code et les ressources sont disponibles publiquement à l'adresse : https://multi-trust.github.io/.

Comprendre les politiques de référence dans l'optimisation des préférences directes
Understanding Reference Policies in Direct Preference Optimization

Jul 18

ByYixin Liu, Pengfei Liu, Arman Cohan

L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) est devenue une méthode d'entraînement largement utilisée pour le réglage fin des grands modèles de langage (LLMs) sur des instructions. Dans ce travail, nous explorons un aspect peu étudié de la DPO : sa dépendance vis-à-vis du modèle ou de la politique de référence. Ces politiques de référence, généralement instanciées comme le modèle à affiner, sont importantes car elles peuvent imposer une limite supérieure à l'efficacité de la DPO. Par conséquent, nous abordons trois questions de recherche connexes dans ce travail. Tout d'abord, nous explorons la force optimale de la contrainte de divergence KL dans la DPO, qui pénalise les écarts par rapport à la politique de référence, et constatons que la DPO y est sensible. Ensuite, nous examinons la nécessité des politiques de référence pour le réglage fin sur des instructions en fournissant des comparaisons théoriques et empiriques entre la DPO et des objectifs d'apprentissage connexes, démontrant la supériorité de la DPO. De plus, nous investiguons si la DPO bénéficie de politiques de référence plus fortes, constatant qu'une politique de référence plus robuste peut améliorer les performances, mais uniquement lorsqu'elle est similaire au modèle en cours de réglage. Nos résultats mettent en lumière le rôle complexe des politiques de référence dans la DPO et offrent des insights pour les meilleures pratiques, tout en identifiant des questions de recherche ouvertes pour de futures études.

CLAY : Un modèle génératif à grande échelle et contrôlable pour la création d'actifs 3D de haute qualité
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30

ByLongwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu

Dans le domaine de la créativité numérique, notre capacité à concevoir des mondes 3D complexes à partir de l'imagination est souvent entravée par les limites des outils numériques existants, qui exigent une expertise et des efforts considérables. Pour réduire cet écart, nous présentons CLAY, un générateur de géométrie et de matériaux 3D conçu pour transformer sans effort l'imagination humaine en structures numériques 3D complexes. CLAY prend en charge des entrées classiques sous forme de texte ou d'images, ainsi que des contrôles 3D à partir de diverses primitives (images multi-vues, voxels, boîtes englobantes, nuages de points, représentations implicites, etc.). Au cœur de ce système se trouve un modèle génératif à grande échelle composé d'un autoencodeur variationnel (VAE) multi-résolution et d'un transformateur de diffusion latent minimaliste (DiT), permettant d'extraire des connaissances 3D riches directement à partir d'une variété de géométries 3D. Plus précisément, il adopte des champs neuronaux pour représenter des surfaces continues et complètes, et utilise un module génératif de géométrie basé sur des blocs de transformateurs purs dans l'espace latent. Nous présentons un schéma d'entraînement progressif pour former CLAY sur un ensemble de données de modèles 3D ultra-large obtenu grâce à un pipeline de traitement soigneusement conçu, aboutissant à un générateur de géométrie 3D natif doté de 1,5 milliard de paramètres. Pour la génération d'apparence, CLAY vise à produire des textures de rendu physiquement réalistes (PBR) en employant un modèle de diffusion de matériaux multi-vues capable de générer des textures en résolution 2K avec des modalités de diffusion, de rugosité et de métal. Nous démontrons l'utilisation de CLAY pour une gamme de créations d'actifs 3D contrôlables, allant de conceptions conceptuelles esquissées à des actifs prêts pour la production avec des détails complexes. Même les utilisateurs novices peuvent facilement utiliser CLAY pour donner vie à leurs imaginations 3D vives, libérant ainsi une créativité illimitée.

BRIGHT : Un benchmark réaliste et exigeant pour la recherche intensive en raisonnement
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

Les benchmarks de recherche existants sont principalement composés de requêtes de recherche d'information (par exemple, des questions agrégées provenant de moteurs de recherche) pour lesquelles une recherche basée sur des mots-clés ou sur la sémantique est généralement suffisante. Cependant, de nombreuses requêtes complexes du monde réel nécessitent un raisonnement approfondi pour identifier les documents pertinents qui vont au-delà d'une correspondance superficielle. Par exemple, trouver de la documentation pour une question de codage nécessite de comprendre la logique et la syntaxe des fonctions impliquées. Pour mieux évaluer la recherche sur de telles requêtes difficiles, nous introduisons BRIGHT, le premier benchmark de recherche de texte qui nécessite un raisonnement intensif pour retrouver les documents pertinents. BRIGHT est construit à partir de 1 398 requêtes du monde réel collectées dans divers domaines (tels que l'économie, la psychologie, la robotique, le génie logiciel, les sciences de la Terre, etc.), provenant de données humaines naturellement existantes ou soigneusement sélectionnées. Une évaluation approfondie révèle que même les modèles de recherche les plus avancés obtiennent de mauvais résultats sur BRIGHT. Le modèle en tête du classement MTEB [38], qui atteint un score de 59,0 nDCG@10, produit un score de nDCG@10 de 18,0 sur BRIGHT. Nous démontrons en outre que l'enrichissement des requêtes avec un raisonnement en chaîne de pensée généré par des modèles de langage de grande taille (LLMs) améliore les performances jusqu'à 12,2 points. De plus, BRIGHT est robuste contre les fuites de données lors du pré-entraînement des modèles évalués, comme nous le validons en montrant des performances similaires même lorsque les documents du benchmark sont inclus dans les données d'entraînement. Nous croyons que BRIGHT ouvre la voie à des recherches futures sur les systèmes de recherche dans des contextes plus réalistes et plus difficiles. Notre code et nos données sont disponibles à l'adresse https://brightbenchmark.github.io.

CodeV : Renforcer les LLM pour la génération de Verilog grâce à une synthèse multi-niveaux
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization

Jul 15

ByYang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

La complexité croissante et les coûts élevés associés à la conception moderne des processeurs ont entraîné une forte demande pour l'automatisation de la conception des processeurs. Les grands modèles de langage (LLMs) ajustés aux instructions ont démontré des performances remarquables dans la génération automatique de code pour des langages de programmation généralistes comme Python. Cependant, ces méthodes échouent sur les langages de description matérielle (HDLs) comme Verilog en raison de la rareté des données de haute qualité pour l'ajustement des instructions, car même des LLMs avancés comme GPT-3.5 montrent des performances limitées dans la génération de Verilog. Concernant ce problème, nous observons que (1) le code Verilog collecté dans le monde réel est de meilleure qualité que celui généré par les LLMs. (2) Les LLMs comme GPT-3.5 excellent dans la synthèse du code Verilog plutôt que dans sa génération. Sur la base de ces observations, cet article présente CodeV, une série de LLMs open-source ajustés aux instructions pour la génération de Verilog. Au lieu de générer d'abord des descriptions puis d'obtenir le code correspondant à partir de LLMs avancés, nous fournissons au LLM du code Verilog et laissons le LLM générer la description en langage naturel correspondante par synthèse multi-niveaux. Les résultats expérimentaux montrent que CodeV surpasse relativement les précédents SOTA open-source de 14,4 % (BetterV dans VerilogEval) et 11,3 % (RTLCoder dans RTLLM) respectivement, et surpasse également relativement le précédent SOTA commercial GPT-4 de 22,1 % dans VerilogEval.

Débordement de l'attention : flou des entrées des modèles de langage dans les contextes longs Recommandation d'éléments manquants
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Jul 18

ByDamien Sileo

Les grands modèles de langage (LLM) peuvent suggérer des éléments manquants dans une liste fournie dans une invite, ce qui peut être utilisé pour compléter des listes ou faire des recommandations basées sur l'historique des utilisateurs. Cependant, leur performance se dégrade lorsqu'ils sont confrontés à un trop grand nombre d'éléments, car ils commencent à suggérer des éléments déjà présents dans la liste d'entrée. Ce phénomène se produit généralement autour de 100 éléments pour les LLM phares de mi-2024. Nous évaluons ce phénomène à la fois sur des problèmes synthétiques (par exemple, trouver des nombres manquants dans une plage d'entiers mélangés) et sur des scénarios réalistes de recommandation de films. Nous qualifions ce problème de débordement attentionnel, car éviter les répétitions nécessite de prendre en compte tous les éléments simultanément. Bien que des boucles itératives puissent atténuer ce problème, leur coût augmente avec le taux de répétition, affectant la capacité des modèles de langage à générer de la nouveauté à partir d'entrées longues.

Apprentissage Automatique Amélioré par la Récupération : Synthèse et Perspectives
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Jul 17

ByTo Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani

Dans le domaine de la modélisation du langage, les modèles enrichis de composants de recherche d'information se sont imposés comme une solution prometteuse pour relever plusieurs défis rencontrés dans le traitement du langage naturel (NLP), notamment l'ancrage des connaissances, l'interprétabilité et l'évolutivité. Bien que l'accent soit principalement mis sur le NLP, nous postulons que le paradigme de l'amélioration par recherche d'information peut être étendu à un spectre plus large de l'apprentissage automatique (ML), tel que la vision par ordinateur, la prédiction de séries temporelles et la biologie computationnelle. Par conséquent, ce travail introduit un cadre formel de ce paradigme, l'Apprentissage Automatique Amélioré par Recherche d'Information (REML), en synthétisant la littérature dans divers domaines du ML avec des notations cohérentes qui font défaut dans la littérature actuelle. De plus, nous avons constaté que si de nombreuses études utilisent des composants de recherche pour enrichir leurs modèles, il existe un manque d'intégration avec les recherches fondamentales en Recherche d'Information (IR). Nous comblons ce fossé entre les recherches séminales en IR et les études contemporaines en REML en examinant chaque composant qui constitue le cadre REML. En fin de compte, l'objectif de ce travail est de fournir aux chercheurs de diverses disciplines un cadre complet et formellement structuré pour les modèles améliorés par recherche d'information, favorisant ainsi des recherches interdisciplinaires futures.

Une étude comparative sur le codage automatique des lettres médicales avec explicabilité
A Comparative Study on Automatic Coding of Medical Letters with Explainability

Jul 18

ByJamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic

Cette étude vise à explorer la mise en œuvre des techniques de traitement du langage naturel (NLP) et d'apprentissage automatique (ML) pour automatiser le codage des lettres médicales avec une explicabilité visuelle et des configurations informatiques locales légères. Actuellement, dans les contextes cliniques, le codage est un processus manuel qui consiste à attribuer des codes à chaque condition, procédure et médicament dans les documents d'un patient (par exemple, 56265001 maladie cardiaque en utilisant le code SNOMED CT). Il existe des recherches préliminaires sur le codage automatique dans ce domaine utilisant des modèles ML de pointe ; cependant, en raison de la complexité et de la taille des modèles, le déploiement dans le monde réel n'est pas réalisé. Pour faciliter davantage la possibilité de pratiquer le codage automatique, nous explorons certaines solutions dans un environnement informatique local ; en outre, nous explorons la fonction d'explicabilité pour la transparence des modèles d'IA. Nous avons utilisé la base de données publique MIMIC-III et les modèles de réseau HAN/HLAN à des fins de prédiction de codes CIM. Nous avons également expérimenté la cartographie entre les bases de connaissances CIM et SNOMED CT. Dans nos expériences, les modèles ont fourni des informations utiles pour 97,98 % des codes. Le résultat de cette investigation peut éclairer la mise en œuvre du codage clinique automatique en pratique, par exemple dans les hôpitaux, sur les ordinateurs locaux utilisés par les cliniciens, page du projet https://github.com/Glenj01/Medical-Coding.

Test d'accord de référence bien réalisé : Un guide pour l'évaluation des benchmarks de modèles de langage
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Jul 18

ByYotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen

Les récents progrès dans les modèles de langage (Language Models, LMs) ont catalysé la création de multiples benchmarks, conçus pour évaluer les capacités générales de ces modèles. Une tâche cruciale, cependant, consiste à évaluer la validité des benchmarks eux-mêmes. Cela se fait le plus souvent via des tests d'accord de benchmark (Benchmark Agreement Testing, BAT), où les nouveaux benchmarks sont validés par rapport à des benchmarks établis en utilisant une métrique d'accord (par exemple, la corrélation de rang). Malgré le rôle essentiel du BAT pour les créateurs et les utilisateurs de benchmarks, il n'existe pas de procédures standardisées pour ce type de test d'accord. Cette lacune peut conduire à des conclusions invalides, suscitant la méfiance envers les benchmarks et compromettant la capacité à choisir correctement le benchmark approprié à utiliser. En analysant plus de 40 benchmarks majeurs, nous démontrons comment certains choix méthodologiques négligés peuvent influencer de manière significative les résultats du BAT, potentiellement compromettant la validité des conclusions. Pour remédier à ces incohérences, nous proposons un ensemble de meilleures pratiques pour le BAT et montrons comment l'utilisation de ces méthodologies améliore grandement la robustesse et la validité du BAT. Pour favoriser l'adoption et faciliter les recherches futures, nous introduisons BenchBench, un package Python pour le BAT, et publions le BenchBench-leaderboard, un méta-benchmark conçu pour évaluer les benchmarks en les comparant à leurs pairs. Nos résultats soulignent la nécessité d'un BAT standardisé, garantissant la robustesse et la validité des évaluations de benchmarks dans le paysage en évolution de la recherche sur les modèles de langage. Package BenchBench : https://github.com/IBM/BenchBench Leaderboard : https://huggingface.co/spaces/per/BenchBench

PM-LLM-Benchmark : Évaluation des modèles de langage de grande envergure sur des tâches de fouille de processus
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Jul 18

ByAlessandro Berti, Humam Kourani, Wil M. P. van der Aalst

Les modèles de langage de grande taille (LLMs) ont le potentiel de semi-automatiser certaines analyses de process mining (PM). Bien que les modèles commerciaux soient déjà adaptés à de nombreuses tâches analytiques, le niveau de compétitivité des LLMs open-source dans les tâches de PM reste inconnu. Dans cet article, nous proposons PM-LLM-Benchmark, le premier benchmark complet pour le PM axé sur les connaissances du domaine (spécifiques au process mining et spécifiques aux processus) et sur différentes stratégies de mise en œuvre. Nous nous concentrons également sur les défis liés à la création d'un tel benchmark, concernant la disponibilité publique des données et les biais d'évaluation par les LLMs. Globalement, nous observons que la plupart des LLMs considérés peuvent effectuer certaines tâches de process mining à un niveau satisfaisant, mais les petits modèles qui pourraient fonctionner sur des appareils embarqués sont encore inadéquats. Nous concluons également que si le benchmark proposé est utile pour identifier les LLMs adaptés aux tâches de process mining, des recherches supplémentaires sont nécessaires pour surmonter les biais d'évaluation et effectuer un classement plus approfondi des LLMs compétitifs.

BRIGHT : Un benchmark réaliste et exigeant pour la recherche intensive en raisonnement
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu