Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage sont devenus la pierre angulaire du traitement du langage naturel, mais leur utilisation s'accompagne de coûts substantiels en termes de ressources de calcul et de mémoire. La sparsification offre une solution pour atténuer ces contraintes de ressources, et des travaux récents ont montré que les modèles entraînés peuvent être sparsifiés a posteriori. Les techniques de sparsification existantes rencontrent des défis, car elles nécessitent des structures de données supplémentaires et offrent une accélération limitée avec le matériel actuel. Dans cet article, nous présentons SliceGPT, un nouveau schéma de sparsification post-entraînement qui remplace chaque matrice de poids par une matrice plus petite (dense), réduisant ainsi la dimension d'embedding du réseau. Grâce à des expérimentations approfondies, nous montrons que SliceGPT peut supprimer jusqu'à 25 % des paramètres du modèle (y compris les embeddings) pour les modèles LLAMA2-70B, OPT 66B et Phi-2 tout en maintenant respectivement 99 %, 99 % et 90 % des performances en tâche zero-shot du modèle dense. Nos modèles découpés fonctionnent sur moins de GPU et sont plus rapides sans aucune optimisation de code supplémentaire : sur des GPU grand public de 24 Go, nous réduisons le calcul total pour l'inférence sur LLAMA2-70B à 64 % de celui du modèle dense ; sur des GPU A100 de 40 Go, nous le réduisons à 66 %. Nous proposons une nouvelle perspective, l'invariance computationnelle dans les réseaux de transformateurs, qui permet à SliceGPT de fonctionner, et nous espérons qu'elle inspirera et permettra de futures voies pour réduire les exigences en mémoire et en calcul des modèles pré-entraînés. Le code est disponible à l'adresse suivante : https://github.com/microsoft/TransformerCompression
Le méta-apprentissage est apparu comme une approche puissante pour entraîner des réseaux de neurones à apprendre rapidement de nouvelles tâches à partir de données limitées. Une exposition large à différentes tâches conduit à des représentations polyvalentes permettant une résolution générale de problèmes. Mais quelles sont les limites du méta-apprentissage ? Dans ce travail, nous explorons le potentiel d'amortir le prédicteur universel le plus puissant, à savoir l'induction de Solomonoff (SI), dans les réseaux de neurones en exploitant le méta-apprentissage à ses limites. Nous utilisons des machines de Turing universelles (UTM) pour générer des données d'entraînement permettant d'exposer les réseaux à un large éventail de motifs. Nous fournissons une analyse théorique des processus de génération de données par UTM et des protocoles de méta-entraînement. Nous menons des expériences approfondies avec des architectures neuronales (par exemple, LSTMs, Transformers) et des générateurs de données algorithmiques de complexité et d'universalité variées. Nos résultats suggèrent que les données UTM constituent une ressource précieuse pour le méta-apprentissage et qu'elles peuvent être utilisées pour entraîner des réseaux de neurones capables d'apprendre des stratégies de prédiction universelles.
Le décodage auto-régressif rend l'inférence des grands modèles de langage (LLMs) chronophage. Nous proposons un cadre simple, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), pour une accélération sans perte. Contrairement aux méthodes traditionnelles d'échantillonnage spéculatif, EAGLE opère le processus de rédaction de manière auto-régressive au niveau des caractéristiques plus régulières (deuxième couche supérieure) et aborde les problèmes d'incertitude d'échantillonnage dans les prédictions de caractéristiques suivantes en intégrant des jetons d'une étape temporelle en avance. L'accélération fournie par EAGLE est sans perte : elle ne nécessite aucun ajustement fin du LLM cible, et le texte généré conserve la même distribution que celle du décodage auto-régressif classique. Au moment de la soumission de cet article, EAGLE est le cadre le plus rapide connu dans la famille de l'échantillonnage spéculatif. Sur MT-bench, EAGLE est 3 fois plus rapide que le décodage classique, 2 fois plus rapide que Lookahead et 1,6 fois plus rapide que Medusa. En utilisant gpt-fast, EAGLE atteint en moyenne 160 jetons/s avec LLaMA2-Chat 13B sur une seule GPU RTX 3090, contre 24 jetons/s pour les implémentations de Huggingface.
Les récents progrès des modèles de génération d'images à partir de texte ont considérablement amélioré les capacités de génération d'images. Cependant, un écart notable persiste dans les modèles open-source en ce qui concerne le support bilingue ou en langue chinoise. Pour répondre à ce besoin, nous présentons Taiyi-Diffusion-XL, un nouveau modèle bilingue chinois-anglais de génération d'images à partir de texte, développé en étendant les capacités de CLIP et Stable-Diffusion-XL grâce à un processus de pré-entraînement continu bilingue. Cette approche inclut l'extension efficace du vocabulaire en intégrant les caractères chinois les plus fréquemment utilisés dans le tokenizer et les couches d'embedding de CLIP, ainsi qu'une expansion du codage de position absolue. De plus, nous enrichissons les prompts textuels grâce à un grand modèle de vision et langage, conduisant à de meilleures descriptions d'images et à une qualité visuelle supérieure. Ces améliorations sont ensuite appliquées aux modèles de génération d'images à partir de texte en aval. Nos résultats empiriques indiquent que le modèle CLIP développé excelle dans la recherche bilingue d'images et de texte. Par ailleurs, les capacités de génération d'images bilingues de Taiyi-Diffusion-XL surpassent celles des modèles précédents. Cette recherche aboutit au développement et à la mise en open-source du modèle Taiyi-Diffusion-XL, représentant une avancée notable dans le domaine de la génération d'images, en particulier pour les applications en langue chinoise. Cette contribution constitue un pas en avant pour répondre au besoin d'un support linguistique plus diversifié dans la recherche multimodale. Le modèle et sa démonstration sont rendus publics à l'adresse https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{cette URL}, favorisant ainsi la recherche et la collaboration dans ce domaine.
L'édition de scènes 3D pilotée par texte a suscité une attention considérable en raison de sa commodité et de sa convivialité. Cependant, les méthodes existantes manquent encore de contrôle précis sur l'apparence et l'emplacement spécifiés du résultat de l'édition, en raison des limitations inhérentes à la description textuelle. Pour pallier cela, nous proposons un cadre d'édition de scènes 3D, TIPEditor, qui accepte à la fois des invites textuelles et visuelles ainsi qu'une boîte englobante 3D pour spécifier la région à éditer. Grâce à l'invite visuelle, les utilisateurs peuvent spécifier de manière pratique l'apparence/le style détaillé du contenu cible en complément de la description textuelle, permettant un contrôle précis de l'apparence. Plus précisément, TIPEditor emploie une stratégie de personnalisation 2D progressive pour mieux apprendre la représentation de la scène existante et de l'image de référence, dans laquelle une perte de localisation est proposée pour encourager un placement correct des objets tel que spécifié par la boîte englobante. De plus, TIPEditor utilise un lissage explicite et flexible de Gaussiennes 3D comme représentation 3D pour faciliter l'édition locale tout en conservant l'arrière-plan inchangé. Des expériences approfondies ont démontré que TIPEditor effectue des éditions précises suivant les invites textuelles et visuelles dans la région de la boîte englobante spécifiée, surpassant systématiquement les méthodes de référence en termes de qualité d'édition et d'alignement aux invites, qualitativement et quantitativement.
Les individus utilisent des comportements expressifs pour communiquer efficacement et coordonner leurs actions avec les autres, comme hocher la tête pour accuser réception d'un regard ou dire "excusez-moi" pour se frayer un chemin dans un couloir bondé. Nous souhaitons que les robots puissent également manifester des comportements expressifs dans les interactions humain-robot. Les travaux antérieurs proposent des méthodes basées sur des règles qui peinent à s'adapter à de nouvelles modalités de communication ou à des situations sociales variées, tandis que les méthodes basées sur les données nécessitent des ensembles de données spécialisés pour chaque situation sociale dans laquelle le robot est utilisé. Nous proposons d'exploiter le riche contexte social offert par les grands modèles de langage (LLMs) et leur capacité à générer des mouvements basés sur des instructions ou des préférences utilisateur, afin de produire des mouvements robotiques expressifs, adaptables et composables, s'appuyant les uns sur les autres. Notre approche utilise un incitatif en chaîne de pensée (few-shot chain-of-thought prompting) pour traduire des instructions en langage naturel en un code de contrôle paramétré, en exploitant les compétences disponibles et apprises du robot. À travers des études utilisateurs et des expériences de simulation, nous démontrons que notre approche génère des comportements que les utilisateurs jugent compétents et faciles à comprendre. Le matériel supplémentaire est disponible à l'adresse suivante : https://generative-expressive-motion.github.io/.