Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le réglage par instruction des grands modèles de langage (LLMs) reste une tâche complexe, en raison de la difficulté de sélection des hyperparamètres et des défis liés à l'évaluation des modèles ajustés. Pour déterminer les hyperparamètres optimaux, un benchmark d'évaluation automatique, robuste et fiable est essentiel. Cependant, établir un tel benchmark n'est pas une tâche triviale, en raison des défis liés à la précision de l'évaluation et à la protection de la vie privée. Pour répondre à ces défis, nous introduisons un modèle de langage juge, nommé PandaLM, qui est entraîné à distinguer le modèle supérieur parmi plusieurs LLMs. L'objectif de PandaLM va au-delà de la simple exactitude objective des réponses, qui est le principal focus des jeux de données d'évaluation traditionnels. Il prend en compte des facteurs subjectifs cruciaux tels que la concision relative, la clarté, l'adhésion aux instructions, l'exhaustivité et le formalisme. Pour garantir la fiabilité de PandaLM, nous collectons un jeu de données de test diversifié annoté par des humains, où tous les contextes sont générés par des humains et les étiquettes sont alignées avec les préférences humaines. Nos résultats indiquent que PandaLM-7B atteint 93,75 % de la capacité d'évaluation de GPT-3.5 et 88,28 % de celle de GPT-4 en termes de score F1 sur notre jeu de données de test. PandaLM permet une évaluation des LLM plus équitable mais à moindre coût, comme en témoignent les améliorations significatives obtenues par les modèles ajustés via PandaLM par rapport à leurs homologues entraînés avec les hyperparamètres par défaut d'Alpaca. De plus, PandaLM ne dépend pas d'évaluations basées sur des API, évitant ainsi les risques de fuite de données. Toutes les ressources de PandaLM sont disponibles à l'adresse https://github.com/WeOpenML/PandaLM.
Les grands modèles de langage ajustés par instruction ont révolutionné le traitement du langage naturel et ont démontré un potentiel considérable dans des applications telles que les agents conversationnels. Ces modèles, comme GPT-4, sont capables non seulement de maîtriser le langage, mais aussi de résoudre des tâches complexes dans des domaines tels que les mathématiques, la programmation, la médecine et le droit. Malgré leurs capacités impressionnantes, il existe encore un manque de compréhension globale de leur plein potentiel, principalement en raison de la nature de boîte noire de nombreux modèles et de l'absence d'études d'évaluation holistiques. Pour relever ces défis, nous présentons INSTRUCTEVAL, une suite d'évaluation plus complète conçue spécifiquement pour les grands modèles de langage ajustés par instruction. Contrairement aux travaux précédents, notre évaluation implique une évaluation rigoureuse des modèles basée sur la résolution de problèmes, la capacité rédactionnelle et l'alignement aux valeurs humaines. Nous adoptons une approche holistique pour analyser divers facteurs affectant la performance des modèles, y compris la base de pré-entraînement, les données d'ajustement par instruction et les méthodes d'entraînement. Nos résultats révèlent que la qualité des données d'instruction est le facteur le plus crucial pour améliorer la performance des modèles. Bien que les modèles open source démontrent des capacités rédactionnelles impressionnantes, il existe une marge d'amélioration substantielle dans la résolution de problèmes et l'alignement. Nous sommes encouragés par le développement rapide des modèles par la communauté open source, mais nous soulignons également la nécessité d'une évaluation rigoureuse pour étayer les affirmations faites à propos de ces modèles. À travers INSTRUCTEVAL, nous visons à favoriser une compréhension plus approfondie des modèles ajustés par instruction et des avancées dans leurs capacités. INSTRUCTEVAL est disponible publiquement à l'adresse https://github.com/declare-lab/instruct-eval.
Les grands modèles de langage (LLM) sont désormais déployés dans un usage quotidien et sont en mesure de produire de grandes quantités de texte au cours de la prochaine décennie. Le texte généré par des machines pourrait remplacer le texte écrit par des humains sur internet et pourrait être utilisé à des fins malveillantes, telles que des attaques de spearphishing ou des bots sur les réseaux sociaux. Le tatouage numérique (watermarking) est une stratégie simple et efficace pour atténuer ces risques en permettant la détection et la documentation du texte généré par des LLM. Cependant, une question cruciale demeure : quelle est la fiabilité du tatouage numérique dans des conditions réalistes et variées ? Dans ces contextes, le texte tatoué pourrait être mélangé à d'autres sources de texte, paraphrasé par des rédacteurs humains ou d'autres modèles de langage, et utilisé dans un large éventail de domaines, tant sociaux que techniques. Dans cet article, nous explorons différents schémas de détection, quantifions leur efficacité pour identifier les tatouages, et déterminons la quantité de texte généré par machine nécessaire pour détecter de manière fiable le tatouage dans chaque scénario. Nous mettons particulièrement en avant notre étude humaine, où nous examinons la fiabilité du tatouage face à la paraphrase humaine. Nous comparons la détection basée sur le tatouage à d'autres stratégies de détection, et constatons globalement que le tatouage numérique est une solution fiable, notamment en raison de sa complexité d'échantillonnage - pour toutes les attaques que nous considérons, les preuves du tatouage s'accumulent à mesure que davantage d'exemples sont fournis, et le tatouage est finalement détecté.
Dans ce travail, nous explorons les avancées récentes dans le réglage par instruction de modèles de langage sur une gamme de jeux de données ouverts de suivi d'instructions. Malgré les affirmations récentes selon lesquelles les modèles ouverts peuvent rivaliser avec les modèles propriétaires de pointe, ces affirmations sont souvent accompagnées d'évaluations limitées, rendant difficile la comparaison globale des modèles et la détermination de l'utilité des différentes ressources. Nous proposons un large ensemble de modèles réglés par instruction, allant de 6,7 milliards à 65 milliards de paramètres, entraînés sur 12 jeux de données d'instructions allant de données manuellement curées (par exemple, OpenAssistant) à des données synthétiques et distillées (par exemple, Alpaca), et nous les évaluons systématiquement sur leurs connaissances factuelles, leur raisonnement, leur multilinguisme, leur capacité en programmation et leur aptitude à suivre des instructions ouvertes à travers une collection de métriques automatiques, basées sur des modèles et humaines. Nous introduisons en outre T\"ulu, notre suite de modèles réglés par instruction la plus performante, affinée sur une combinaison de ressources ouvertes de haute qualité. Nos expériences montrent que différents jeux de données de réglage par instruction peuvent révéler ou améliorer des compétences spécifiques, tandis qu'aucun jeu de données unique (ou combinaison) ne fournit les meilleures performances dans toutes les évaluations. Fait intéressant, nous constatons que les évaluations basées sur les préférences des modèles et des humains ne reflètent pas les différences de capacités des modèles révélées par les évaluations basées sur des benchmarks, suggérant la nécessité du type d'évaluation systémique réalisée dans ce travail. Nos évaluations montrent que le meilleur modèle dans une évaluation donnée atteint en moyenne 83 % des performances de ChatGPT et 68 % des performances de GPT-4, suggérant qu'un investissement supplémentaire dans la construction de meilleurs modèles de base et de données de réglage par instruction est nécessaire pour combler l'écart. Nous publions nos modèles réglés par instruction, y compris un T\"ulu 65B entièrement affiné, ainsi que notre code, nos données et notre cadre d'évaluation à l'adresse https://github.com/allenai/open-instruct pour faciliter les recherches futures.
Nous proposons de nouvelles estimations d'une borne supérieure asymptotique sur l'entropie de l'anglais en utilisant le grand modèle de langage LLaMA-7B comme prédicteur du prochain jeton étant donné une fenêtre de jetons passés. Cette estimation est significativement plus faible que les estimations actuellement disponibles dans cover1978convergent et lutati2023focus. Un sous-produit naturel est un algorithme de compression sans perte de texte anglais qui combine la prédiction du grand modèle de langage avec un schéma de compression sans perte. Les résultats préliminaires d'expériences limitées suggèrent que notre schéma surpasse les méthodes de compression de texte de pointe telles que BSC, ZPAQ et paq8h.
L'estimation de formes articulées en 3D, comme les corps d'animaux, à partir d'images monoculaires est intrinsèquement complexe en raison des ambiguïtés liées au point de vue de la caméra, à la pose, à la texture, à l'éclairage, etc. Nous proposons ARTIC3D, un cadre auto-supervisé pour reconstruire des formes 3D par instance à partir d'une collection d'images éparses en conditions réelles. Concrètement, ARTIC3D s'appuie sur une représentation de surface basée sur un squelette et est guidé par des préconceptions de diffusion 2D issues de Stable Diffusion. Premièrement, nous améliorons les images d'entrée en gérant les occlusions/troncatures via la diffusion 2D pour obtenir des estimations de masques et des caractéristiques sémantiques plus propres. Deuxièmement, nous effectuons une optimisation 3D guidée par diffusion pour estimer la forme et la texture avec une haute fidélité et une grande adéquation aux images d'entrée. Nous proposons également une nouvelle technique pour calculer des gradients au niveau de l'image plus stables via les modèles de diffusion, comparée aux alternatives existantes. Enfin, nous produisons des animations réalistes en affinant la forme et la texture rendues sous des transformations rigides des parties. Des évaluations approfondies sur plusieurs jeux de données existants ainsi que sur de nouvelles collections d'images web bruitées avec occlusions et troncations démontrent que les sorties d'ARTIC3D sont plus robustes face aux images bruitées, de meilleure qualité en termes de détails de forme et de texture, et plus réalistes lorsqu'elles sont animées. Page du projet : https://chhankyao.github.io/artic3d/
StableDiffusion est un générateur révolutionnaire de texte à image qui suscite un vif intérêt dans le domaine de la génération et de l'édition d'images. Contrairement aux méthodes traditionnelles qui apprennent un modèle de diffusion dans l'espace des pixels, StableDiffusion apprend un modèle de diffusion dans l'espace latent via un VQGAN, garantissant ainsi à la fois efficacité et qualité. Il ne prend pas seulement en charge les tâches de génération d'images, mais permet également l'édition d'images réelles, telles que la réparation d'images et l'édition locale. Cependant, nous avons observé que le VQGAN classique utilisé dans StableDiffusion entraîne une perte d'information significative, provoquant des artefacts de distorsion même dans les régions d'images non éditées. Pour remédier à cela, nous proposons un nouveau VQGAN asymétrique avec deux conceptions simples. Premièrement, en plus de l'entrée provenant de l'encodeur, le décodeur contient une branche conditionnelle qui intègre des informations provenant de connaissances préalables spécifiques à la tâche, comme la région non masquée de l'image dans la réparation. Deuxièmement, le décodeur est beaucoup plus complexe que l'encodeur, permettant une récupération plus détaillée tout en n'augmentant que légèrement le coût total de l'inférence. Le coût d'entraînement de notre VQGAN asymétrique est faible, et nous n'avons besoin de réentraîner qu'un nouveau décodeur asymétrique tout en conservant l'encodeur VQGAN classique et StableDiffusion inchangés. Notre VQGAN asymétrique peut être largement utilisé dans les méthodes de réparation et d'édition locale basées sur StableDiffusion. Des expériences approfondies démontrent qu'il peut considérablement améliorer les performances de réparation et d'édition, tout en conservant la capacité originale de génération de texte à image. Le code est disponible à l'adresse suivante : https://github.com/buxiangzhiren/Asymmetric_VQGAN.
La dépendance croissante envers les modèles de langage de grande taille (LLMs) dans les milieux académiques et industriels nécessite une compréhension approfondie de leur robustesse face aux prompts. Pour répondre à ce besoin crucial, nous présentons PromptBench, un benchmark de robustesse conçu pour mesurer la résilience des LLMs face aux prompts adverses. Cette étude utilise une multitude d'attaques textuelles adverses ciblant les prompts à plusieurs niveaux : caractère, mot, phrase et sémantique. Ces prompts sont ensuite utilisés dans diverses tâches, telles que l'analyse de sentiments, l'inférence en langage naturel, la compréhension de lecture, la traduction automatique et la résolution de problèmes mathématiques. Notre étude génère 4 032 prompts adverses, méticuleusement évalués sur 8 tâches et 13 jeux de données, avec un total de 567 084 échantillons de test. Nos résultats démontrent que les LLMs contemporains sont vulnérables aux prompts adverses. De plus, nous présentons une analyse approfondie pour comprendre le mystère derrière la robustesse des prompts et leur transférabilité. Nous offrons ensuite une analyse perspicace de la robustesse et des recommandations pragmatiques pour la composition des prompts, bénéfiques tant pour les chercheurs que pour les utilisateurs quotidiens. Nous rendons notre code, nos prompts et nos méthodologies pour générer des prompts adverses accessibles au public, permettant ainsi et encourageant l'exploration collaborative dans ce domaine crucial : https://github.com/microsoft/promptbench.
Le déploiement de modèles de traduction automatique neuronale (NMT) sur les appareils mobiles est essentiel pour la confidentialité, la faible latence et les scénarios hors ligne. Pour une capacité de modèle élevée, les modèles NMT sont plutôt volumineux. L'exécution de ces modèles sur des appareils est difficile en raison des limitations de stockage, de mémoire, de calcul et de consommation d'énergie. Les travaux existants se concentrent soit sur une seule métrique telle que les FLOPs, soit sur un moteur général qui n'est pas optimisé pour le décodage auto-régressif. Dans cet article, nous présentons MobileNMT, un système capable de traduire en 15 Mo et 30 ms sur les appareils. Nous proposons une série de principes pour la compression de modèle combinée à la quantification. De plus, nous implémentons un moteur adapté à l'INT8 et au décodage. Grâce à la co-conception du modèle et du moteur, par rapport au système existant, nous accélérons de 47,0 fois et économisons 99,5 % de la mémoire avec seulement une perte de 11,6 % en BLEU. Le code est disponible publiquement à l'adresse https://github.com/zjersey/Lightseq-ARM.
Pour promouvoir le développement du pré-entraînement vision-langage (VLP) et des modèles de langage multimodaux à grande échelle (LLM) dans la communauté chinoise, nous publions en premier lieu le plus grand ensemble de données public chinois de haute qualité pour les vidéos et le langage, nommé Youku-mPLUG. Cet ensemble est collecté à partir de Youku, une plateforme chinoise bien connue de partage de vidéos, avec des critères stricts en matière de sécurité, de diversité et de qualité. Youku-mPLUG contient 10 millions de paires vidéo-texte en chinois, filtrées à partir de 400 millions de vidéos brutes couvrant un large éventail de 45 catégories diverses, pour un pré-entraînement à grande échelle. De plus, pour faciliter une évaluation complète des modèles vidéo-langage, nous avons soigneusement construit les plus grands benchmarks annotés manuellement en chinois, couvrant trois tâches populaires de vidéo-langage : la recherche intermodale, la génération de légendes vidéo et la classification de catégories vidéo. Youku-mPLUG permet aux chercheurs de mener des recherches multimodales plus approfondies et de développer de meilleures applications à l'avenir. Par ailleurs, nous publions des modèles de pré-entraînement vidéo-langage populaires, ALPRO et mPLUG-2, ainsi que notre modèle proposé à décodeur modulaire, mPLUG-video, pré-entraîné sur Youku-mPLUG. Les expériences montrent que les modèles pré-entraînés sur Youku-mPLUG obtiennent une amélioration allant jusqu'à 23,1 % dans la classification de catégories vidéo. De plus, mPLUG-video établit un nouveau record sur ces benchmarks avec une précision top-1 de 80,5 % dans la classification de catégories vidéo et un score CIDEr de 68,9 dans la génération de légendes vidéo. Enfin, nous augmentons l'échelle de mPLUG-video en nous basant sur le modèle Bloomz gelé, avec seulement 1,7 % de paramètres entraînables, pour en faire un LLM multimodal chinois, démontrant une capacité impressionnante de compréhension des instructions et des vidéos. L'expérience de compréhension d'instructions en zero-shot indique que le pré-entraînement avec Youku-mPLUG peut améliorer la capacité à comprendre la sémantique visuelle globale et détaillée, à reconnaître le texte de scène et à exploiter les connaissances du domaine ouvert.