Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

PandaLM : Un benchmark d'évaluation automatique pour l'optimisation du réglage des instructions des modèles de langage
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

Jun 8, 2023

Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang

Le réglage par instruction des grands modèles de langage (LLMs) reste une tâche complexe, en raison de la difficulté de sélection des hyperparamètres et des défis liés à l'évaluation des modèles ajustés. Pour déterminer les hyperparamètres optimaux, un benchmark d'évaluation automatique, robuste et fiable est essentiel. Cependant, établir un tel benchmark n'est pas une tâche triviale, en raison des défis liés à la précision de l'évaluation et à la protection de la vie privée. Pour répondre à ces défis, nous introduisons un modèle de langage juge, nommé PandaLM, qui est entraîné à distinguer le modèle supérieur parmi plusieurs LLMs. L'objectif de PandaLM va au-delà de la simple exactitude objective des réponses, qui est le principal focus des jeux de données d'évaluation traditionnels. Il prend en compte des facteurs subjectifs cruciaux tels que la concision relative, la clarté, l'adhésion aux instructions, l'exhaustivité et le formalisme. Pour garantir la fiabilité de PandaLM, nous collectons un jeu de données de test diversifié annoté par des humains, où tous les contextes sont générés par des humains et les étiquettes sont alignées avec les préférences humaines. Nos résultats indiquent que PandaLM-7B atteint 93,75 % de la capacité d'évaluation de GPT-3.5 et 88,28 % de celle de GPT-4 en termes de score F1 sur notre jeu de données de test. PandaLM permet une évaluation des LLM plus équitable mais à moindre coût, comme en témoignent les améliorations significatives obtenues par les modèles ajustés via PandaLM par rapport à leurs homologues entraînés avec les hyperparamètres par défaut d'Alpaca. De plus, PandaLM ne dépend pas d'évaluations basées sur des API, évitant ainsi les risques de fuite de données. Toutes les ressources de PandaLM sont disponibles à l'adresse https://github.com/WeOpenML/PandaLM.

INSTRUCTEVAL : Vers une évaluation holistique des grands modèles de langage ajustés par instruction
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Jun 7, 2023

Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria

Les grands modèles de langage ajustés par instruction ont révolutionné le traitement du langage naturel et ont démontré un potentiel considérable dans des applications telles que les agents conversationnels. Ces modèles, comme GPT-4, sont capables non seulement de maîtriser le langage, mais aussi de résoudre des tâches complexes dans des domaines tels que les mathématiques, la programmation, la médecine et le droit. Malgré leurs capacités impressionnantes, il existe encore un manque de compréhension globale de leur plein potentiel, principalement en raison de la nature de boîte noire de nombreux modèles et de l'absence d'études d'évaluation holistiques. Pour relever ces défis, nous présentons INSTRUCTEVAL, une suite d'évaluation plus complète conçue spécifiquement pour les grands modèles de langage ajustés par instruction. Contrairement aux travaux précédents, notre évaluation implique une évaluation rigoureuse des modèles basée sur la résolution de problèmes, la capacité rédactionnelle et l'alignement aux valeurs humaines. Nous adoptons une approche holistique pour analyser divers facteurs affectant la performance des modèles, y compris la base de pré-entraînement, les données d'ajustement par instruction et les méthodes d'entraînement. Nos résultats révèlent que la qualité des données d'instruction est le facteur le plus crucial pour améliorer la performance des modèles. Bien que les modèles open source démontrent des capacités rédactionnelles impressionnantes, il existe une marge d'amélioration substantielle dans la résolution de problèmes et l'alignement. Nous sommes encouragés par le développement rapide des modèles par la communauté open source, mais nous soulignons également la nécessité d'une évaluation rigoureuse pour étayer les affirmations faites à propos de ces modèles. À travers INSTRUCTEVAL, nous visons à favoriser une compréhension plus approfondie des modèles ajustés par instruction et des avancées dans leurs capacités. INSTRUCTEVAL est disponible publiquement à l'adresse https://github.com/declare-lab/instruct-eval.

Sur la fiabilité des filigranes pour les modèles de langage à grande échelle
On the Reliability of Watermarks for Large Language Models

Jun 7, 2023

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein

Les grands modèles de langage (LLM) sont désormais déployés dans un usage quotidien et sont en mesure de produire de grandes quantités de texte au cours de la prochaine décennie. Le texte généré par des machines pourrait remplacer le texte écrit par des humains sur internet et pourrait être utilisé à des fins malveillantes, telles que des attaques de spearphishing ou des bots sur les réseaux sociaux. Le tatouage numérique (watermarking) est une stratégie simple et efficace pour atténuer ces risques en permettant la détection et la documentation du texte généré par des LLM. Cependant, une question cruciale demeure : quelle est la fiabilité du tatouage numérique dans des conditions réalistes et variées ? Dans ces contextes, le texte tatoué pourrait être mélangé à d'autres sources de texte, paraphrasé par des rédacteurs humains ou d'autres modèles de langage, et utilisé dans un large éventail de domaines, tant sociaux que techniques. Dans cet article, nous explorons différents schémas de détection, quantifions leur efficacité pour identifier les tatouages, et déterminons la quantité de texte généré par machine nécessaire pour détecter de manière fiable le tatouage dans chaque scénario. Nous mettons particulièrement en avant notre étude humaine, où nous examinons la fiabilité du tatouage face à la paraphrase humaine. Nous comparons la détection basée sur le tatouage à d'autres stratégies de détection, et constatons globalement que le tatouage numérique est une solution fiable, notamment en raison de sa complexité d'échantillonnage - pour toutes les attaques que nous considérons, les preuves du tatouage s'accumulent à mesure que davantage d'exemples sont fournis, et le tatouage est finalement détecté.

Jusqu'où les chameaux peuvent-ils aller ? Exploration de l'état de l'affinement par instruction sur les ressources ouvertes
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Jun 7, 2023

Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

Dans ce travail, nous explorons les avancées récentes dans le réglage par instruction de modèles de langage sur une gamme de jeux de données ouverts de suivi d'instructions. Malgré les affirmations récentes selon lesquelles les modèles ouverts peuvent rivaliser avec les modèles propriétaires de pointe, ces affirmations sont souvent accompagnées d'évaluations limitées, rendant difficile la comparaison globale des modèles et la détermination de l'utilité des différentes ressources. Nous proposons un large ensemble de modèles réglés par instruction, allant de 6,7 milliards à 65 milliards de paramètres, entraînés sur 12 jeux de données d'instructions allant de données manuellement curées (par exemple, OpenAssistant) à des données synthétiques et distillées (par exemple, Alpaca), et nous les évaluons systématiquement sur leurs connaissances factuelles, leur raisonnement, leur multilinguisme, leur capacité en programmation et leur aptitude à suivre des instructions ouvertes à travers une collection de métriques automatiques, basées sur des modèles et humaines. Nous introduisons en outre T\"ulu, notre suite de modèles réglés par instruction la plus performante, affinée sur une combinaison de ressources ouvertes de haute qualité. Nos expériences montrent que différents jeux de données de réglage par instruction peuvent révéler ou améliorer des compétences spécifiques, tandis qu'aucun jeu de données unique (ou combinaison) ne fournit les meilleures performances dans toutes les évaluations. Fait intéressant, nous constatons que les évaluations basées sur les préférences des modèles et des humains ne reflètent pas les différences de capacités des modèles révélées par les évaluations basées sur des benchmarks, suggérant la nécessité du type d'évaluation systémique réalisée dans ce travail. Nos évaluations montrent que le meilleur modèle dans une évaluation donnée atteint en moyenne 83 % des performances de ChatGPT et 68 % des performances de GPT-4, suggérant qu'un investissement supplémentaire dans la construction de meilleurs modèles de base et de données de réglage par instruction est nécessaire pour combler l'écart. Nous publions nos modèles réglés par instruction, y compris un T\"ulu 65B entièrement affiné, ainsi que notre code, nos données et notre cadre d'évaluation à l'adresse https://github.com/allenai/open-instruct pour faciliter les recherches futures.

LLMZip : Compression de texte sans perte utilisant des modèles de langage de grande taille
LLMZip: Lossless Text Compression using Large Language Models

Jun 6, 2023

Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai

Nous proposons de nouvelles estimations d'une borne supérieure asymptotique sur l'entropie de l'anglais en utilisant le grand modèle de langage LLaMA-7B comme prédicteur du prochain jeton étant donné une fenêtre de jetons passés. Cette estimation est significativement plus faible que les estimations actuellement disponibles dans cover1978convergent et lutati2023focus. Un sous-produit naturel est un algorithme de compression sans perte de texte anglais qui combine la prédiction du grand modèle de langage avec un schéma de compression sans perte. Les résultats préliminaires d'expériences limitées suggèrent que notre schéma surpasse les méthodes de compression de texte de pointe telles que BSC, ZPAQ et paq8h.

ARTIC3D : Apprentissage de formes 3D articulées robustes à partir de collections d'images web bruitées
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Jun 7, 2023

Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani

L'estimation de formes articulées en 3D, comme les corps d'animaux, à partir d'images monoculaires est intrinsèquement complexe en raison des ambiguïtés liées au point de vue de la caméra, à la pose, à la texture, à l'éclairage, etc. Nous proposons ARTIC3D, un cadre auto-supervisé pour reconstruire des formes 3D par instance à partir d'une collection d'images éparses en conditions réelles. Concrètement, ARTIC3D s'appuie sur une représentation de surface basée sur un squelette et est guidé par des préconceptions de diffusion 2D issues de Stable Diffusion. Premièrement, nous améliorons les images d'entrée en gérant les occlusions/troncatures via la diffusion 2D pour obtenir des estimations de masques et des caractéristiques sémantiques plus propres. Deuxièmement, nous effectuons une optimisation 3D guidée par diffusion pour estimer la forme et la texture avec une haute fidélité et une grande adéquation aux images d'entrée. Nous proposons également une nouvelle technique pour calculer des gradients au niveau de l'image plus stables via les modèles de diffusion, comparée aux alternatives existantes. Enfin, nous produisons des animations réalistes en affinant la forme et la texture rendues sous des transformations rigides des parties. Des évaluations approfondies sur plusieurs jeux de données existants ainsi que sur de nouvelles collections d'images web bruitées avec occlusions et troncations démontrent que les sorties d'ARTIC3D sont plus robustes face aux images bruitées, de meilleure qualité en termes de détails de forme et de texture, et plus réalistes lorsqu'elles sont animées. Page du projet : https://chhankyao.github.io/artic3d/

Conception d'un VQGAN asymétrique amélioré pour StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

Jun 7, 2023

Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua

StableDiffusion est un générateur révolutionnaire de texte à image qui suscite un vif intérêt dans le domaine de la génération et de l'édition d'images. Contrairement aux méthodes traditionnelles qui apprennent un modèle de diffusion dans l'espace des pixels, StableDiffusion apprend un modèle de diffusion dans l'espace latent via un VQGAN, garantissant ainsi à la fois efficacité et qualité. Il ne prend pas seulement en charge les tâches de génération d'images, mais permet également l'édition d'images réelles, telles que la réparation d'images et l'édition locale. Cependant, nous avons observé que le VQGAN classique utilisé dans StableDiffusion entraîne une perte d'information significative, provoquant des artefacts de distorsion même dans les régions d'images non éditées. Pour remédier à cela, nous proposons un nouveau VQGAN asymétrique avec deux conceptions simples. Premièrement, en plus de l'entrée provenant de l'encodeur, le décodeur contient une branche conditionnelle qui intègre des informations provenant de connaissances préalables spécifiques à la tâche, comme la région non masquée de l'image dans la réparation. Deuxièmement, le décodeur est beaucoup plus complexe que l'encodeur, permettant une récupération plus détaillée tout en n'augmentant que légèrement le coût total de l'inférence. Le coût d'entraînement de notre VQGAN asymétrique est faible, et nous n'avons besoin de réentraîner qu'un nouveau décodeur asymétrique tout en conservant l'encodeur VQGAN classique et StableDiffusion inchangés. Notre VQGAN asymétrique peut être largement utilisé dans les méthodes de réparation et d'édition locale basées sur StableDiffusion. Des expériences approfondies démontrent qu'il peut considérablement améliorer les performances de réparation et d'édition, tout en conservant la capacité originale de génération de texte à image. Le code est disponible à l'adresse suivante : https://github.com/buxiangzhiren/Asymmetric_VQGAN.

PromptBench : Vers une évaluation de la robustesse des grands modèles de langage face aux prompts adverses
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Jun 7, 2023

Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie

La dépendance croissante envers les modèles de langage de grande taille (LLMs) dans les milieux académiques et industriels nécessite une compréhension approfondie de leur robustesse face aux prompts. Pour répondre à ce besoin crucial, nous présentons PromptBench, un benchmark de robustesse conçu pour mesurer la résilience des LLMs face aux prompts adverses. Cette étude utilise une multitude d'attaques textuelles adverses ciblant les prompts à plusieurs niveaux : caractère, mot, phrase et sémantique. Ces prompts sont ensuite utilisés dans diverses tâches, telles que l'analyse de sentiments, l'inférence en langage naturel, la compréhension de lecture, la traduction automatique et la résolution de problèmes mathématiques. Notre étude génère 4 032 prompts adverses, méticuleusement évalués sur 8 tâches et 13 jeux de données, avec un total de 567 084 échantillons de test. Nos résultats démontrent que les LLMs contemporains sont vulnérables aux prompts adverses. De plus, nous présentons une analyse approfondie pour comprendre le mystère derrière la robustesse des prompts et leur transférabilité. Nous offrons ensuite une analyse perspicace de la robustesse et des recommandations pragmatiques pour la composition des prompts, bénéfiques tant pour les chercheurs que pour les utilisateurs quotidiens. Nous rendons notre code, nos prompts et nos méthodologies pour générer des prompts adverses accessibles au public, permettant ainsi et encourageant l'exploration collaborative dans ce domaine crucial : https://github.com/microsoft/promptbench.

MobileNMT : Permettre la traduction dans 15 Mo et 30 ms
MobileNMT: Enabling Translation in 15MB and 30ms

Jun 7, 2023

Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu

Le déploiement de modèles de traduction automatique neuronale (NMT) sur les appareils mobiles est essentiel pour la confidentialité, la faible latence et les scénarios hors ligne. Pour une capacité de modèle élevée, les modèles NMT sont plutôt volumineux. L'exécution de ces modèles sur des appareils est difficile en raison des limitations de stockage, de mémoire, de calcul et de consommation d'énergie. Les travaux existants se concentrent soit sur une seule métrique telle que les FLOPs, soit sur un moteur général qui n'est pas optimisé pour le décodage auto-régressif. Dans cet article, nous présentons MobileNMT, un système capable de traduire en 15 Mo et 30 ms sur les appareils. Nous proposons une série de principes pour la compression de modèle combinée à la quantification. De plus, nous implémentons un moteur adapté à l'INT8 et au décodage. Grâce à la co-conception du modèle et du moteur, par rapport au système existant, nous accélérons de 47,0 fois et économisons 99,5 % de la mémoire avec seulement une perte de 11,6 % en BLEU. Le code est disponible publiquement à l'adresse https://github.com/zjersey/Lightseq-ARM.

Youku-mPLUG : Un ensemble de données vidéo-texte chinois à grande échelle de 10 millions d'éléments pour le pré-entraînement et l'évaluation
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Jun 7, 2023

Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang

Pour promouvoir le développement du pré-entraînement vision-langage (VLP) et des modèles de langage multimodaux à grande échelle (LLM) dans la communauté chinoise, nous publions en premier lieu le plus grand ensemble de données public chinois de haute qualité pour les vidéos et le langage, nommé Youku-mPLUG. Cet ensemble est collecté à partir de Youku, une plateforme chinoise bien connue de partage de vidéos, avec des critères stricts en matière de sécurité, de diversité et de qualité. Youku-mPLUG contient 10 millions de paires vidéo-texte en chinois, filtrées à partir de 400 millions de vidéos brutes couvrant un large éventail de 45 catégories diverses, pour un pré-entraînement à grande échelle. De plus, pour faciliter une évaluation complète des modèles vidéo-langage, nous avons soigneusement construit les plus grands benchmarks annotés manuellement en chinois, couvrant trois tâches populaires de vidéo-langage : la recherche intermodale, la génération de légendes vidéo et la classification de catégories vidéo. Youku-mPLUG permet aux chercheurs de mener des recherches multimodales plus approfondies et de développer de meilleures applications à l'avenir. Par ailleurs, nous publions des modèles de pré-entraînement vidéo-langage populaires, ALPRO et mPLUG-2, ainsi que notre modèle proposé à décodeur modulaire, mPLUG-video, pré-entraîné sur Youku-mPLUG. Les expériences montrent que les modèles pré-entraînés sur Youku-mPLUG obtiennent une amélioration allant jusqu'à 23,1 % dans la classification de catégories vidéo. De plus, mPLUG-video établit un nouveau record sur ces benchmarks avec une précision top-1 de 80,5 % dans la classification de catégories vidéo et un score CIDEr de 68,9 dans la génération de légendes vidéo. Enfin, nous augmentons l'échelle de mPLUG-video en nous basant sur le modèle Bloomz gelé, avec seulement 1,7 % de paramètres entraînables, pour en faire un LLM multimodal chinois, démontrant une capacité impressionnante de compréhension des instructions et des vidéos. L'expérience de compréhension d'instructions en zero-shot indique que le pré-entraînement avec Youku-mPLUG peut améliorer la capacité à comprendre la sémantique visuelle globale et détaillée, à reconnaître le texte de scène et à exploiter les connaissances du domaine ouvert.

Jusqu'où les chameaux peuvent-ils aller ? Exploration de l'état de l'affinement par instruction sur les ressources ouvertes
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Jun 7, 2023

Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

Papers Quotidiens

PandaLM : Un benchmark d'évaluation automatique pour l'optimisation du réglage des instructions des modèles de langage
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

INSTRUCTEVAL : Vers une évaluation holistique des grands modèles de langage ajustés par instruction
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Sur la fiabilité des filigranes pour les modèles de langage à grande échelle
On the Reliability of Watermarks for Large Language Models

Jusqu'où les chameaux peuvent-ils aller ? Exploration de l'état de l'affinement par instruction sur les ressources ouvertes
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

LLMZip : Compression de texte sans perte utilisant des modèles de langage de grande taille
LLMZip: Lossless Text Compression using Large Language Models

ARTIC3D : Apprentissage de formes 3D articulées robustes à partir de collections d'images web bruitées
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Conception d'un VQGAN asymétrique amélioré pour StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

PromptBench : Vers une évaluation de la robustesse des grands modèles de langage face aux prompts adverses
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

MobileNMT : Permettre la traduction dans 15 Mo et 30 ms
MobileNMT: Enabling Translation in 15MB and 30ms

Youku-mPLUG : Un ensemble de données vidéo-texte chinois à grande échelle de 10 millions d'éléments pour le pré-entraînement et l'évaluation
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Support

Support

Papers Quotidiens

PandaLM : Un benchmark d'évaluation automatique pour l'optimisation du réglage des instructions des modèles de langage
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

INSTRUCTEVAL : Vers une évaluation holistique des grands modèles de langage ajustés par instruction
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Sur la fiabilité des filigranes pour les modèles de langage à grande échelle
On the Reliability of Watermarks for Large Language Models

Jusqu'où les chameaux peuvent-ils aller ? Exploration de l'état de l'affinement par instruction sur les ressources ouvertes
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

LLMZip : Compression de texte sans perte utilisant des modèles de langage de grande taille
LLMZip: Lossless Text Compression using Large Language Models

ARTIC3D : Apprentissage de formes 3D articulées robustes à partir de collections d'images web bruitées
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Conception d'un VQGAN asymétrique amélioré pour StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

PromptBench : Vers une évaluation de la robustesse des grands modèles de langage face aux prompts adverses
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

MobileNMT : Permettre la traduction dans 15 Mo et 30 ms
MobileNMT: Enabling Translation in 15MB and 30ms

Youku-mPLUG : Un ensemble de données vidéo-texte chinois à grande échelle de 10 millions d'éléments pour le pré-entraînement et l'évaluation
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks