papers.title

papers.description

Vers l'auto-amélioration des LLM par l'imagination, la recherche et la critique
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Malgré les capacités impressionnantes des grands modèles de langage (LLMs) sur diverses tâches, ils peinent encore dans des scénarios impliquant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques de prompting avancées et la nécessité d'un fine-tuning avec des données de haute qualité pour améliorer les capacités de raisonnement des LLMs. Cependant, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. Dans ce contexte, l'auto-correction et l'auto-apprentissage émergent comme des solutions viables, employant des stratégies qui permettent aux LLMs d'affiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLMs à auto-affiner leurs réponses, en particulier dans des tâches de raisonnement et de planification complexes, reste douteuse. Dans cet article, nous présentons AlphaLLM pour l'auto-amélioration des LLMs, qui intègre la recherche arborescente Monte Carlo (MCTS) avec les LLMs pour établir une boucle d'auto-amélioration, améliorant ainsi les capacités des LLMs sans annotations supplémentaires. S'inspirant du succès d'AlphaGo, AlphaLLM aborde les défis uniques de la combinaison de MCTS avec LLM pour l'auto-amélioration, notamment la rareté des données, l'immensité des espaces de recherche des tâches linguistiques et la nature subjective des retours dans les tâches linguistiques. AlphaLLM est composé d'un module de synthèse de prompts, d'une approche MCTS efficace adaptée aux tâches linguistiques et d'un trio de modèles critiques pour un retour précis. Nos résultats expérimentaux dans des tâches de raisonnement mathématique démontrent qu'AlphaLLM améliore significativement les performances des LLMs sans annotations supplémentaires, montrant le potentiel d'auto-amélioration des LLMs.

Typographie Dynamique : Donner Vie aux Mots
Dynamic Typography: Bringing Words to Life

Apr 17

ByZichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

L'animation de texte constitue un médium expressif, transformant la communication statique en expériences dynamiques en insufflant du mouvement aux mots pour susciter des émotions, accentuer les significations et construire des récits captivants. La création d'animations sémantiquement conscientes présente des défis importants, nécessitant une expertise en design graphique et en animation. Nous présentons un schéma automatisé d'animation de texte, intitulé "Typographie Dynamique", qui combine deux tâches complexes. Il déforme les lettres pour transmettre une signification sémantique et les anime avec des mouvements vibrants basés sur les indications de l'utilisateur. Notre technique exploite des représentations graphiques vectorielles et un cadre d'optimisation de bout en bout. Ce cadre utilise des champs de déplacement neuronaux pour convertir les lettres en formes de base et applique un mouvement par image, favorisant la cohérence avec le concept textuel visé. Des techniques de préservation de la forme et une régularisation par perte perceptuelle sont employées pour maintenir la lisibilité et l'intégrité structurelle tout au long du processus d'animation. Nous démontrons la généralisabilité de notre approche à travers divers modèles texte-à-vidéo et mettons en avant la supériorité de notre méthodologie de bout en bout par rapport aux méthodes de base, qui pourraient comporter des tâches séparées. Grâce à des évaluations quantitatives et qualitatives, nous montrons l'efficacité de notre cadre dans la génération d'animations de texte cohérentes qui interprètent fidèlement les indications de l'utilisateur tout en préservant la lisibilité. Notre code est disponible à l'adresse : https://animate-your-word.github.io/demo/.

MeshLRM : Modèle de Reconstruction à Grande Échelle pour des Maillages de Haute Qualité
MeshLRM: Large Reconstruction Model for High-Quality Mesh

Apr 18

ByXinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu

Nous proposons MeshLRM, une nouvelle approche basée sur les modèles de reconstruction à grande échelle (LRM) capable de reconstruire un maillage de haute qualité à partir de seulement quatre images d'entrée en moins d'une seconde. Contrairement aux précédents modèles de reconstruction à grande échelle (LRMs) qui se concentrent sur la reconstruction basée sur NeRF, MeshLRM intègre l'extraction de maillage différentiable et le rendu au sein du cadre LRM. Cela permet une reconstruction de maillage de bout en bout en affinant un LRM NeRF pré-entraîné avec le rendu de maillage. De plus, nous améliorons l'architecture LRM en simplifiant plusieurs conceptions complexes des précédents LRMs. L'initialisation NeRF de MeshLRM est entraînée séquentiellement avec des images de basse et haute résolution ; cette nouvelle stratégie d'entraînement LRM permet une convergence significativement plus rapide et conduit ainsi à une meilleure qualité avec moins de calcul. Notre approche atteint l'état de l'art en reconstruction de maillage à partir d'entrées à vues éparses et permet également de nombreuses applications en aval, y compris la génération de texte-à-3D et d'image unique-à-3D. Page du projet : https://sarahweiii.github.io/meshlrm/

EdgeFusion : Génération d'images à partir de texte sur appareil
EdgeFusion: On-Device Text-to-Image Generation

Apr 18

ByThibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

La charge de calcul intensive de Stable Diffusion (SD) pour la génération d'images à partir de texte constitue un obstacle majeur à son application pratique. Pour relever ce défi, les recherches récentes se concentrent sur des méthodes visant à réduire les étapes d'échantillonnage, telles que le modèle de cohérence latente (LCM), ainsi que sur l'optimisation architecturale, incluant l'élagage et la distillation de connaissances. S'écartant des approches existantes, nous partons d'une variante compacte de SD, BK-SDM. Nous observons que l'application directe de LCM à BK-SDM avec des ensembles de données couramment utilisés donne des résultats insatisfaisants. Cela nous conduit à développer deux stratégies : (1) exploiter des paires image-texte de haute qualité provenant de modèles génératifs de pointe et (2) concevoir un processus de distillation avancé adapté à LCM. Grâce à notre exploration approfondie de la quantification, du profilage et du déploiement sur appareil, nous parvenons à générer rapidement des images photo-réalistes et alignées sur le texte en seulement deux étapes, avec une latence inférieure à une seconde sur des appareils périphériques aux ressources limitées.

TriForce : Accélération sans perte de la génération de longues séquences grâce au décodage spéculatif hiérarchique
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

Avec le déploiement massif des grands modèles de langage (LLMs) dans la génération de contenus longs récemment, une demande croissante pour une inférence efficace sur de longues séquences a émergé. Cependant, le cache clé-valeur (KV), stocké pour éviter les recalculs, est devenu un goulot d'étranglement critique en augmentant linéairement en taille avec la longueur de la séquence. En raison de la nature auto-régressive des LLMs, l'intégralité du cache KV est chargée pour chaque token généré, entraînant une faible utilisation des cœurs de calcul et une latence élevée. Bien que diverses méthodes de compression pour le cache KV aient été proposées pour atténuer ce problème, elles souffrent d'une dégradation de la qualité de génération. Nous présentons TriForce, un système hiérarchique de décodage spéculatif qui est évolutif pour la génération de longues séquences. Cette approche exploite les poids originaux du modèle et un cache KV dynamique et parcimonieux via la récupération comme modèle de brouillon, qui sert de couche intermédiaire dans la hiérarchie et est ensuite spéculé par un modèle plus petit pour réduire sa latence de brouillon. TriForce permet non seulement des accélérations impressionnantes pour Llama2-7B-128K, atteignant jusqu'à 2,31 fois sur un GPU A100, mais démontre également son évolutivité dans la gestion de contextes encore plus longs. Pour le paramétrage de déchargement sur deux GPU RTX 4090, TriForce atteint 0,108s/token—soit seulement la moitié de la lenteur de la base auto-régressive sur un A100, qui atteint 7,78 fois sur notre système de déchargement optimisé. De plus, TriForce performe 4,86 fois mieux que DeepSpeed-Zero-Inference sur un seul GPU RTX 4090. La robustesse de TriForce est mise en évidence par ses performances exceptionnelles et constantes à travers diverses températures. Le code est disponible à l'adresse suivante : https://github.com/Infini-AI-Lab/TriForce.

MoA : Mélange d'Attention pour la Séparation Sujet-Contexte dans la Génération d'Images Personnalisées
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

Nous présentons une nouvelle architecture pour la personnalisation des modèles de diffusion texte-image, baptisée Mixture-of-Attention (MoA). Inspirée par le mécanisme Mixture-of-Experts utilisé dans les grands modèles de langage (LLMs), MoA répartit la charge de génération entre deux voies d'attention : une branche personnalisée et une branche prioritaire non personnalisée. MoA est conçue pour préserver l'a priori du modèle original en fixant ses couches d'attention dans la branche prioritaire, tout en intervenant minimalement dans le processus de génération avec la branche personnalisée, qui apprend à intégrer des sujets dans la mise en page et le contexte générés par la branche prioritaire. Un mécanisme de routage innovant gère la répartition des pixels dans chaque couche entre ces branches afin d'optimiser le mélange entre la création de contenu personnalisé et générique. Une fois entraîné, MoA facilite la création d'images personnalisées de haute qualité, mettant en scène plusieurs sujets avec des compositions et des interactions aussi variées que celles générées par le modèle original. De manière cruciale, MoA améliore la distinction entre la capacité préexistante du modèle et l'intervention personnalisée nouvellement ajoutée, offrant ainsi un contrôle plus dissocié entre sujet et contexte, auparavant inaccessible. Page du projet : https://snap-research.github.io/mixture-of-attention

Réutilisez vos récompenses : Transfert de modèle de récompense pour l'alignement multilingue en zéro-shot
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

L'alignement des modèles de langage (LM) sur la base de données de préférences annotées par des humains constitue une étape cruciale pour obtenir des systèmes basés sur LM pratiques et performants. Cependant, les données de préférences humaines multilingues sont difficiles à obtenir à grande échelle, ce qui rend complexe l'extension de ce cadre à des langues diverses. Dans ce travail, nous évaluons une approche simple pour l'alignement cross-lingue en mode zero-shot, où un modèle de récompense est entraîné sur des données de préférences dans une langue source et appliqué directement à d'autres langues cibles. Sur des tâches de résumé et de génération de dialogues ouverts, nous montrons que cette méthode obtient systématiquement des résultats positifs dans des contextes d'évaluation complets, incluant l'évaluation humaine : les modèles alignés cross-lingue sont préférés par les humains par rapport aux modèles non alignés dans plus de 70 % des cas d'évaluation. Nous constatons également qu'un modèle de récompense dans une langue différente produit parfois des modèles mieux alignés qu'un modèle de récompense dans la même langue. Nous identifions également les meilleures pratiques lorsqu'il n'existe aucune donnée spécifique à une langue, même pour le fine-tuning supervisé, un autre composant de l'alignement.

Présentation de la version 0.5 du Benchmark de Sécurité en IA de MLCommons
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18

ByBertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren

Ce document présente la version 0.5 du Benchmark de Sécurité de l'IA, développé par le groupe de travail sur la Sécurité de l'IA de MLCommons. Le Benchmark de Sécurité de l'IA a été conçu pour évaluer les risques de sécurité des systèmes d'IA utilisant des modèles de langage optimisés pour le chat. Nous introduisons une approche méthodique pour spécifier et construire le benchmark, qui pour la version 0.5 couvre un seul cas d'utilisation (un adulte conversant avec un assistant généraliste en anglais) et un ensemble limité de personnages (c'est-à-dire des utilisateurs typiques, des utilisateurs malveillants et des utilisateurs vulnérables). Nous avons créé une nouvelle taxonomie de 13 catégories de risques, dont 7 sont testées dans le benchmark v0.5. Nous prévoyons de publier la version 1.0 du Benchmark de Sécurité de l'IA d'ici la fin de 2024. Le benchmark v1.0 fournira des informations significatives sur la sécurité des systèmes d'IA. Cependant, le benchmark v0.5 ne doit pas être utilisé pour évaluer la sécurité des systèmes d'IA. Nous avons cherché à documenter pleinement les limites, les défauts et les défis de la version 0.5. Cette version du Benchmark de Sécurité de l'IA inclut (1) une approche méthodique pour spécifier et construire le benchmark, comprenant des cas d'utilisation, des types de systèmes testés (SUTs), la langue et le contexte, les personnages, les tests et les éléments de test ; (2) une taxonomie de 13 catégories de risques avec des définitions et des sous-catégories ; (3) des tests pour sept des catégories de risques, chacun comprenant un ensemble unique d'éléments de test, c'est-à-dire des prompts. Il y a 43 090 éléments de test au total, que nous avons créés à l'aide de modèles ; (4) un système de notation pour les systèmes d'IA par rapport au benchmark ; (5) une plateforme librement accessible et un outil téléchargeable, appelé ModelBench, qui peut être utilisé pour évaluer la sécurité des systèmes d'IA sur le benchmark ; (6) un exemple de rapport d'évaluation qui compare les performances de plus d'une douzaine de modèles de langage optimisés pour le chat disponibles publiquement ; (7) une spécification de test pour le benchmark.