Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

Niveaux d'AGI : Opérationnalisation des Progrès sur la Voie vers l'AGI
Levels of AGI: Operationalizing Progress on the Path to AGI

Nov 4, 2023

Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg

371

Nous proposons un cadre pour classer les capacités et les comportements des modèles d'Intelligence Artificielle Générale (IAG) et de leurs précurseurs. Ce cadre introduit des niveaux de performance, de généralité et d'autonomie de l'IAG. Nous espérons que ce cadre sera utile de manière analogue aux niveaux de conduite autonome, en fournissant un langage commun pour comparer les modèles, évaluer les risques et mesurer les progrès sur la voie de l'IAG. Pour développer notre cadre, nous analysons les définitions existantes de l'IAG et en dégageons six principes qu'une ontologie utile pour l'IAG devrait satisfaire. Ces principes incluent la focalisation sur les capacités plutôt que sur les mécanismes ; l'évaluation séparée de la généralité et de la performance ; et la définition d'étapes sur la voie de l'IAG, plutôt que de se concentrer sur le point final. Avec ces principes à l'esprit, nous proposons des "Niveaux d'IAG" basés sur la profondeur (performance) et l'étendue (généralité) des capacités, et réfléchissons à la manière dont les systèmes actuels s'intègrent dans cette ontologie. Nous discutons des exigences difficiles pour les futurs benchmarks qui quantifient le comportement et les capacités des modèles d'IAG par rapport à ces niveaux. Enfin, nous discutons de la manière dont ces niveaux d'IAG interagissent avec les considérations de déploiement telles que l'autonomie et le risque, et soulignons l'importance de sélectionner soigneusement les paradigmes d'interaction Humain-IA pour un déploiement responsable et sûr des systèmes d'IA hautement performants.

GLaMM : Modèle Multimodal de Grande Taille avec Ancrage Pixel
GLaMM: Pixel Grounding Large Multimodal Model

Nov 6, 2023

Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan

363

Les modèles multimodaux de grande taille (LMMs) étendent les modèles de langage de grande taille au domaine visuel. Les premières initiatives vers les LMMs utilisaient des images holistiques et des invites textuelles pour générer des réponses textuelles non ancrées. Très récemment, des LMMs au niveau des régions ont été utilisés pour générer des réponses visuellement ancrées. Cependant, ils se limitent à ne référencer qu'une seule catégorie d'objet à la fois, nécessitent que les utilisateurs spécifient les régions en entrée, ou ne peuvent pas offrir un ancrage dense au niveau des pixels. Dans ce travail, nous présentons Grounding LMM (GLaMM), le premier modèle capable de générer des réponses en langage naturel entrelacées de manière fluide avec les masques de segmentation d'objets correspondants. GLaMM non seulement ancre les objets apparaissant dans les conversations, mais est également suffisamment flexible pour accepter à la fois des invites textuelles et des invites visuelles optionnelles (région d'intérêt) en entrée. Cela permet aux utilisateurs d'interagir avec le modèle à différents niveaux de granularité, tant dans le domaine textuel que visuel. En raison de l'absence de benchmarks standard pour le nouveau cadre de génération de conversations détaillées visuellement ancrées, nous introduisons un protocole d'évaluation complet avec nos conversations ancrées soigneusement sélectionnées. Notre tâche proposée de Génération de Conversations Ancrées (GCG) nécessite des concepts densément ancrés dans des scènes naturelles à grande échelle. À cette fin, nous proposons un ensemble de données densément annoté, le Grounding-anything Dataset (GranD), en utilisant notre pipeline d'annotation automatisé proposé, qui englobe 7,5 millions de concepts uniques ancrés dans un total de 810 millions de régions disponibles avec des masques de segmentation. Outre la GCG, GLaMM performe également efficacement sur plusieurs tâches en aval, telles que la segmentation d'expressions référentielles, la description d'images et de régions, et les conversations vision-langage. Page du projet : https://mbzuai-oryx.github.io/groundingLMM.

I2VGen-XL : Synthèse vidéo de haute qualité à partir d'images via des modèles de diffusion en cascade
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

Nov 7, 2023

Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou

353

La synthèse vidéo a récemment réalisé des progrès remarquables, bénéficiant du développement rapide des modèles de diffusion. Cependant, elle rencontre encore des défis en termes de précision sémantique, de clarté et de continuité spatio-temporelle. Ces difficultés découlent principalement de la rareté des données texte-vidéo bien alignées et de la structure intrinsèque complexe des vidéos, ce qui rend difficile pour le modèle d'assurer simultanément une excellence sémantique et qualitative. Dans ce rapport, nous proposons une approche en cascade, I2VGen-XL, qui améliore les performances du modèle en découplant ces deux facteurs et garantit l'alignement des données d'entrée en utilisant des images statiques comme une forme de guidance cruciale. I2VGen-XL se compose de deux étapes : i) l'étape de base garantit une sémantique cohérente et préserve le contenu des images d'entrée en utilisant deux encodeurs hiérarchiques, et ii) l'étape de raffinement améliore les détails de la vidéo en incorporant un bref texte supplémentaire et augmente la résolution à 1280x720. Pour améliorer la diversité, nous avons collecté environ 35 millions de paires texte-vidéo en plan unique et 6 milliards de paires texte-image pour optimiser le modèle. De cette manière, I2VGen-XL peut simultanément améliorer la précision sémantique, la continuité des détails et la clarté des vidéos générées. À travers des expériences approfondies, nous avons étudié les principes sous-jacents d'I2VGen-XL et l'avons comparé aux meilleures méthodes actuelles, ce qui démontre son efficacité sur des données variées. Le code source et les modèles seront rendus publics à l'adresse https://i2vgen-xl.github.io.

S-LoRA : Service de milliers d'adaptateurs LoRA concurrents
S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Nov 6, 2023

Ying Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica

322

Le paradigme « pré-entraînement puis ajustement fin » est couramment adopté dans le déploiement des grands modèles de langage. L'adaptation à faible rang (LoRA), une méthode d'ajustement fin efficace en termes de paramètres, est souvent utilisée pour adapter un modèle de base à une multitude de tâches, ce qui génère une collection substantielle d'adaptateurs LoRA dérivés d'un seul modèle de base. Nous observons que ce paradigme offre des opportunités significatives pour l'inférence par lots lors du déploiement. Pour tirer parti de ces opportunités, nous présentons S-LoRA, un système conçu pour le déploiement évolutif de nombreux adaptateurs LoRA. S-LoRA stocke tous les adaptateurs dans la mémoire principale et charge les adaptateurs utilisés par les requêtes en cours dans la mémoire GPU. Pour utiliser efficacement la mémoire GPU et réduire la fragmentation, S-LoRA propose la pagination unifiée. La pagination unifiée utilise un pool de mémoire unifié pour gérer les poids dynamiques des adaptateurs avec différents rangs et les tenseurs de cache KV avec des longueurs de séquence variables. De plus, S-LoRA emploie une nouvelle stratégie de parallélisme des tenseurs et des noyaux CUDA personnalisés hautement optimisés pour le traitement hétérogène par lots des calculs LoRA. Collectivement, ces fonctionnalités permettent à S-LoRA de déployer des milliers d'adaptateurs LoRA sur un seul GPU ou sur plusieurs GPU avec une faible surcharge. Par rapport aux bibliothèques de pointe telles que HuggingFace PEFT et vLLM (avec un support naïf du déploiement LoRA), S-LoRA peut améliorer le débit jusqu'à 4 fois et augmenter le nombre d'adaptateurs déployés de plusieurs ordres de grandeur. En conséquence, S-LoRA permet un déploiement évolutif de nombreux modèles ajustés spécifiquement à des tâches et offre un potentiel pour des services d'ajustement fin personnalisés à grande échelle.

CogVLM : Expert visuel pour les modèles de langage pré-entraînés
CogVLM: Visual Expert for Pretrained Language Models

Nov 6, 2023

Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

274

Nous présentons CogVLM, un puissant modèle de base visuel et linguistique open-source. Contrairement à la méthode d'alignement superficiel populaire qui projette les caractéristiques visuelles dans l'espace d'entrée du modèle linguistique, CogVLM comble le fossé entre le modèle linguistique pré-entraîné figé et l'encodeur d'images grâce à un module expert visuel entraînable dans les couches d'attention et FFN. En conséquence, CogVLM permet une fusion profonde des caractéristiques visuelles et linguistiques sans sacrifier les performances sur les tâches de traitement du langage naturel. CogVLM-17B atteint des performances de pointe sur 10 benchmarks classiques intermodaux, notamment NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA et TDIUC, et se classe 2ème sur VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassant ou égalant PaLI-X 55B. Les codes et les points de contrôle sont disponibles à l'adresse https://github.com/THUDM/CogVLM.

Relax : Abstractions composables pour l'apprentissage automatique dynamique de bout en bout
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Nov 1, 2023

Ruihang Lai, Junru Shao, Siyuan Feng, Steven S. Lyubomirsky, Bohan Hou, Wuwei Lin, Zihao Ye, Hongyi Jin, Yuchen Jin, Jiawei Liu, Lesheng Jin, Yaxing Cai, Ziheng Jiang, Yong Wu, Sunghyun Park, Prakalp Srivastava, Jared G. Roesch, Todd C. Mowry, Tianqi Chen

221

Les calculs de formes dynamiques sont devenus essentiels dans les charges de travail modernes d'apprentissage automatique, en particulier dans les modèles de langage émergents à grande échelle. Le succès de ces modèles a accru la demande pour leur déploiement dans un ensemble diversifié d'environnements backend. Dans cet article, nous présentons Relax, une abstraction de compilateur pour optimiser les charges de travail d'apprentissage automatique dynamiques de bout en bout. Relax introduit des annotations symboliques de premier ordre pour suivre les calculs de formes dynamiques de manière globale à travers le programme. Il introduit également une abstraction transversale qui encapsule les graphes de calcul, les programmes tensoriels au niveau des boucles et les appels de bibliothèque dans une représentation unique, permettant ainsi des optimisations transversales. Nous construisons un framework de compilation de bout en bout utilisant cette approche pour optimiser les modèles à formes dynamiques. Les résultats expérimentaux sur les modèles de langage à grande échelle montrent que Relax offre des performances compétitives par rapport aux systèmes optimisés manuellement de pointe sur diverses plateformes, et permet le déploiement de modèles dynamiques émergents dans un ensemble plus large d'environnements, incluant les téléphones mobiles, les appareils embarqués et les navigateurs web.

Ziya2 : L'apprentissage centré sur les données est tout ce dont les LLM ont besoin
Ziya2: Data-centric Learning is All LLMs Need

Nov 6, 2023

Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song

201

Divers modèles de langage de grande taille (LLMs) ont été proposés ces dernières années, incluant des modèles propriétaires et open-source, établissant continuellement de nouveaux records sur plusieurs benchmarks. Cependant, le développement des LLMs rencontre encore plusieurs problèmes, tels que le coût élevé de l'entraînement de modèles à partir de zéro, et le pré-entraînement continu menant à l'oubli catastrophique, etc. Bien que de nombreux problèmes soient abordés dans le cadre de la recherche sur les LLMs, une limitation importante et pratique est que de nombreuses études cherchent excessivement à augmenter la taille des modèles sans analyser et optimiser de manière exhaustive l'utilisation des données de pré-entraînement dans leur processus d'apprentissage, ainsi que l'organisation et l'exploitation appropriées de ces données dans l'entraînement des LLMs dans des conditions économiques. Dans ce travail, nous proposons Ziya2, un modèle de 13 milliards de paramètres adoptant LLaMA2 comme modèle de base, et pré-entraîné sur 700 milliards de tokens, où nous nous concentrons sur les techniques de pré-entraînement et utilisons une optimisation centrée sur les données pour améliorer le processus d'apprentissage de Ziya2 à différentes étapes. Les expériences montrent que Ziya2 surpasse significativement d'autres modèles sur plusieurs benchmarks, en particulier avec des résultats prometteurs par rapport aux modèles open-source représentatifs. Ziya2 (Base) est disponible à l'adresse https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base et https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.

VR-NeRF : Espaces virtuels navigables de haute fidélité
VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Nov 5, 2023

Linning Xu, Vasu Agrawal, William Laney, Tony Garcia, Aayush Bansal, Changil Kim, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Aljaž Božič, Dahua Lin, Michael Zollhöfer, Christian Richardt

191

Nous présentons un système de bout en bout pour la capture haute fidélité, la reconstruction de modèles et le rendu en temps réel d'espaces praticables en réalité virtuelle utilisant des champs de radiance neuronaux. À cette fin, nous avons conçu et construit un dispositif multi-caméras personnalisé pour capturer de manière dense des espaces praticables avec une haute fidélité et des images à plage dynamique étendue (HDR) multi-vues d'une qualité et densité sans précédent. Nous étendons les primitives graphiques neuronales instantanées avec un nouvel espace colorimétrique perceptuel pour l'apprentissage d'une apparence HDR précise, ainsi qu'un mécanisme efficace de mip-mapping pour le rendu à niveaux de détail avec anti-crénelage, tout en optimisant soigneusement le compromis entre qualité et vitesse. Notre moteur de rendu multi-GPU permet un rendu volumétrique haute fidélité de notre modèle de champ de radiance neuronal à la résolution VR complète de 2K×2K en double à 36 Hz sur notre machine de démonstration personnalisée. Nous démontrons la qualité de nos résultats sur nos ensembles de données haute fidélité exigeants, et comparons notre méthode et nos ensembles de données aux références existantes. Nous mettons à disposition notre ensemble de données sur le site web de notre projet.

Guidez votre modèle sur où porter son attention : Pilotage post-hoc de l'attention pour les LLM
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

Nov 3, 2023

Qingru Zhang, Chandan Singh, Liyuan Liu, Xiaodong Liu, Bin Yu, Jianfeng Gao, Tuo Zhao

152

Dans les articles rédigés par des humains, nous exploitons souvent les subtilités du style textuel, comme le gras et l'italique, pour guider l'attention des lecteurs. Ces emphases textuelles sont essentielles pour que les lecteurs saisissent les informations transmises. Lors de l'interaction avec les grands modèles de langage (LLMs), nous avons un besoin similaire : orienter le modèle à accorder une attention accrue aux informations spécifiées par l'utilisateur, par exemple une instruction. Les méthodes existantes, cependant, se limitent au traitement de texte brut et ne prennent pas en charge un tel mécanisme. Cela nous motive à introduire PASTA - Post-hoc Attention STeering Approach, une méthode qui permet aux LLMs de lire du texte avec des marques d'emphase spécifiées par l'utilisateur. Pour ce faire, PASTA identifie un petit sous-ensemble de têtes d'attention et applique un réajustement précis de l'attention sur celles-ci, dirigeant l'attention du modèle vers les parties spécifiées par l'utilisateur. Comme le prompting, PASTA est appliqué au moment de l'inférence et ne nécessite aucune modification des paramètres du modèle. Les expériences démontrent que PASTA peut considérablement améliorer la capacité d'un LLM à suivre les instructions de l'utilisateur ou à intégrer de nouvelles connaissances à partir des entrées de l'utilisateur, conduisant à une amélioration significative des performances sur une variété de tâches, par exemple une amélioration moyenne de la précision de 22 % pour LLAMA-7B. Notre code est disponible publiquement à l'adresse https://github.com/QingruZhang/PASTA.

LDM3D-VR : Modèle de diffusion latente pour la réalité virtuelle 3D
LDM3D-VR: Latent Diffusion Model for 3D VR

Nov 6, 2023

Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal

111

Les modèles de diffusion latente se sont avérés être à la pointe de la création et de la manipulation de sorties visuelles. Cependant, à notre connaissance, la génération conjointe de cartes de profondeur avec des images RVB reste limitée. Nous présentons LDM3D-VR, une suite de modèles de diffusion dédiés au développement de la réalité virtuelle, comprenant LDM3D-pano et LDM3D-SR. Ces modèles permettent respectivement la génération de panoramiques RVBD à partir de prompts textuels et le suréchantillonnage d'entrées à basse résolution en RVBD haute résolution. Nos modèles sont affinés à partir de modèles pré-entraînés existants sur des ensembles de données contenant des images RVB panoramiques/haute résolution, des cartes de profondeur et des légendes. Les deux modèles sont évalués en comparaison avec les méthodes connexes existantes.

MFTCoder : Amélioration des modèles de langage pour le code par ajustement multitâche
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

Nov 4, 2023

Bingchang Liu, Chaoyu Chen, Cong Liao, Zi Gong, Huan Wang, Zhichao Lei, Ming Liang, Dajun Chen, Min Shen, Hailian Zhou, Hang Yu, Jianguo Li

111

Les LLM de code sont devenus un domaine de recherche spécialisé, avec des études remarquables dédiées à l'amélioration des capacités de codage des modèles grâce au fine-tuning sur des modèles pré-entraînés. Les approches précédentes de fine-tuning étaient généralement adaptées à des tâches ou scénarios spécifiques en aval, ce qui nécessitait un fine-tuning séparé pour chaque tâche, exigeant des ressources de formation importantes et posant des défis en termes de déploiement et de maintenance. De plus, ces approches ne parvenaient pas à exploiter l'interconnexion inhérente entre les différentes tâches liées au code. Pour surmonter ces limitations, nous présentons un cadre de fine-tuning multi-tâches, MFTcoder, qui permet un fine-tuning simultané et parallèle sur plusieurs tâches. En intégrant diverses fonctions de perte, nous abordons efficacement les défis courants de l'apprentissage multi-tâches, tels que le déséquilibre des données, les niveaux de difficulté variables et les vitesses de convergence incohérentes. Des expériences approfondies ont démontré de manière concluante que notre approche de fine-tuning multi-tâches surpasse à la fois le fine-tuning individuel sur des tâches uniques et le fine-tuning sur un ensemble mixte de tâches. De plus, MFTcoder offre des capacités de formation efficaces, y compris des modes de tokenisation des données efficaces et un fine-tuning PEFT, ce qui entraîne une amélioration significative de la vitesse par rapport aux méthodes de fine-tuning traditionnelles. MFTcoder s'intègre de manière transparente avec plusieurs LLM open-source grand public, tels que CodeLLama et Qwen. En s'appuyant sur la fondation CodeLLama, notre modèle fine-tuné MFTcoder, CodeFuse-CodeLLama-34B, atteint un score pass@1 impressionnant de 74,4\% sur le benchmark HumaneEval, surpassant les performances de GPT-4 (67\%, zero-shot). MFTCoder est open-source à l'adresse https://github.com/codefuse-ai/MFTCOder.

CoVLM : Composition d'entités visuelles et de relations dans les grands modèles de langage via un décodage communicatif
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Nov 6, 2023

Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan

Une capacité remarquable des êtres humains réside dans le raisonnement compositionnel, c’est-à-dire la capacité à faire un « usage infini de moyens finis ». Cependant, les modèles de base actuels en vision et langage (VLMs) ne parviennent pas à atteindre de telles capacités compositionnelles en raison de leurs comportements de type « sac de mots » et de leur incapacité à construire des mots qui représentent correctement les entités visuelles et les relations entre ces entités. Pour pallier cela, nous proposons CoVLM, qui peut guider le modèle de langage (LLM) à composer explicitement les entités visuelles et les relations dans le texte, tout en communiquant dynamiquement avec l’encodeur visuel et le réseau de détection pour réaliser un décodage communicatif entre vision et langage. Plus précisément, nous concevons d’abord un ensemble de nouveaux tokens de communication pour le LLM, afin de permettre une communication dynamique entre le système de détection visuelle et le système de langage. Un token de communication est généré par le LLM après une entité visuelle ou une relation, pour informer le réseau de détection de proposer des régions pertinentes par rapport à la phrase générée jusqu’à présent. Les régions d’intérêt (ROIs) proposées sont ensuite réinjectées dans le LLM pour améliorer la génération de langage en fonction des régions pertinentes. Ainsi, le LLM est capable de composer les entités visuelles et les relations grâce aux tokens de communication. La communication entre la vision et le langage, et vice versa, est itérée jusqu’à ce que la phrase entière soit générée. Notre cadre comble de manière fluide le fossé entre la perception visuelle et les LLM, et surpasse largement les VLMs précédents sur les benchmarks de raisonnement compositionnel (par exemple, ~20 % en mAP sur HICO-DET, ~14 % en précision top-1 sur Cola, et ~3 % en précision top-1 sur ARO). Nous obtenons également des performances de pointe sur des tâches traditionnelles de vision et langage, telles que la compréhension d’expressions référentielles et la réponse à des questions visuelles.

Co-entraînement et co-distillation pour l'amélioration de la qualité et la compression des modèles de langage
Co-training and Co-distillation for Quality Improvement and Compression of Language Models

Nov 6, 2023

Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min

La Distillation de Connaissances (KD) compresse les modèles de langage pré-entraînés (PLM) coûteux en termes de calcul en transférant leurs connaissances à des modèles plus petits, permettant ainsi leur utilisation dans des environnements à ressources limitées ou en temps réel. Cependant, la plupart des modèles plus petits ne parviennent pas à surpasser les performances du modèle original plus grand, ce qui entraîne un sacrifice des performances pour améliorer la vitesse d'inférence. Pour résoudre ce problème, nous proposons le Co-Entraînement et la Co-Distillation (CTCD), un nouveau cadre qui améliore à la fois les performances et la vitesse d'inférence en co-entraînant deux modèles tout en distillant mutuellement leurs connaissances. Le cadre CTCD réussit cela grâce à deux découvertes significatives : 1) La distillation des connaissances du modèle plus petit vers le modèle plus grand pendant le co-entraînement améliore les performances du modèle plus grand. 2) L'amélioration des performances du modèle plus grand renforce à son tour les performances du modèle plus petit. Le cadre CTCD montre des promesses car il peut être combiné avec des techniques existantes comme la conception d'architecture ou l'augmentation de données, remplaçant les méthodes de KD unidirectionnelles, pour obtenir une amélioration supplémentaire des performances. Des études d'ablation approfondies démontrent l'efficacité de CTCD, et le petit modèle distillé par CTCD surpasse le modèle original plus grand par une marge significative de 1,66 sur le benchmark GLUE.

Consistent4D : Génération cohérente d'objets dynamiques à 360° à partir de vidéos monoculaires
Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

Nov 6, 2023

Yanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao

Dans cet article, nous présentons Consistent4D, une nouvelle approche pour générer des objets dynamiques 4D à partir de vidéos monoculaires non calibrées. De manière unique, nous formulons la reconstruction d'objets dynamiques à 360 degrés comme un problème de génération 4D, éliminant ainsi le besoin fastidieux de collecte de données multi-vues et d'étalonnage de caméra. Ceci est réalisé en exploitant un modèle de diffusion d'images 3D au niveau de l'objet comme signal de supervision principal pour entraîner des Champs de Radiance Neuronaux Dynamiques (DyNeRF). Plus précisément, nous proposons un DyNeRF en cascade pour faciliter une convergence stable et une continuité temporelle sous un signal de supervision discret le long de l'axe temporel. Pour atteindre une cohérence spatiale et temporelle, nous introduisons en outre une Perte de Cohérence basée sur l'Interpolation. Elle est optimisée en minimisant l'écart entre les images rendues par DyNeRF et les images interpolées provenant d'un modèle d'interpolation vidéo pré-entraîné. Des expériences approfondies montrent que notre Consistent4D peut rivaliser avec les alternatives de l'état de l'art, ouvrant de nouvelles possibilités pour la génération d'objets dynamiques 4D à partir de vidéos monoculaires, tout en démontrant également un avantage pour les tâches conventionnelles de génération de texte-à-3D. Notre page de projet est disponible à l'adresse https://consistent4d.github.io/.

Personnalisation des auto-justificateurs par distillation multi-récompenses
Tailoring Self-Rationalizers with Multi-Reward Distillation

Nov 6, 2023

Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren

Les grands modèles de langage (LM) sont capables de générer des justifications en texte libre pour faciliter la réponse à des questions. Cependant, les travaux antérieurs 1) suggèrent qu'une auto-justification utile n'émerge qu'à des échelles significatives (par exemple, GPT-3 avec 175 milliards de paramètres) ; et 2) se concentrent largement sur les performances en aval, en ignorant la sémantique des justifications elles-mêmes, par exemple, sont-elles fidèles, vraies et utiles pour les humains ? Dans ce travail, nous permettons à des LM de petite échelle (environ 200 fois plus petits que GPT-3) de générer des justifications qui non seulement améliorent les performances des tâches en aval, mais sont également plus plausibles, cohérentes et diversifiées, évaluées à la fois par des méthodes automatiques et par des évaluations humaines. Notre méthode, MaRio (Multi-rewArd RatIOnalization), est un algorithme d'auto-justification conditionné par plusieurs récompenses qui optimise plusieurs propriétés distinctes comme la plausibilité, la diversité et la cohérence. Les résultats sur cinq ensembles de données difficiles de questions-réponses (StrategyQA, QuaRel, OpenBookQA, NumerSense et QASC) montrent que non seulement MaRio améliore la précision des tâches, mais il améliore également la qualité de l'auto-justification des petits LM sur les axes mentionnés ci-dessus, mieux qu'une base de référence de fine-tuning supervisé (SFT). Des évaluations humaines approfondies confirment que les justifications de MaRio sont préférées par rapport à celles de SFT, ainsi que des améliorations qualitatives en termes de plausibilité et de cohérence.

Attention ou Convolution : Encoders de Transformers dans les Modèles de Langage Audio pour une Inférence Efficace
Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Nov 5, 2023

Sungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel

Dans cet article, nous montrons qu'un modèle audio pré-entraîné auto-supervisé simple peut atteindre une efficacité d'inférence comparable à des modèles pré-entraînés plus complexes utilisant des encodeurs de type transformeur pour la parole. Ces transformeurs de parole reposent sur un mélange de modules convolutifs et de modules d'auto-attention. Ils atteignent des performances de pointe en reconnaissance automatique de la parole (ASR) avec une efficacité maximale. Nous montrons d'abord que l'utilisation de ces transformeurs de parole comme encodeur améliore également de manière significative l'efficacité des modèles audio pré-entraînés. Cependant, notre étude révèle que nous pouvons atteindre une efficacité comparable en utilisant uniquement une auto-attention avancée. Nous démontrons que cette approche plus simple est particulièrement bénéfique lorsqu'elle est combinée à une technique de quantification des poids en faible précision d'un réseau neuronal pour améliorer l'efficacité. Nous émettons l'hypothèse que cela empêche la propagation des erreurs entre différents modules quantifiés, contrairement aux transformeurs de parole récents qui mélangent des convolutions quantifiées et des modules d'auto-attention quantifiés.

Transformeur Distribué pour Séquences Ultra-Longues
Ultra-Long Sequence Distributed Transformer

Nov 4, 2023

Xiao Wang, Isaac Lyngaas, Aristeidis Tsaris, Peng Chen, Sajal Dash, Mayanka Chandra Shekar, Tao Luo, Hong-Jun Yoon, Mohamed Wahib, John Gouley

Les modèles Transformer entraînés sur de longues séquences atteignent souvent une précision supérieure à celle des courtes séquences. Malheureusement, les Transformers conventionnels rencontrent des difficultés avec l'entraînement sur de longues séquences en raison des exigences écrasantes en calcul et en mémoire. Les méthodes existantes pour l'entraînement sur de longues séquences offrent une accélération et une réduction de mémoire limitées, et peuvent compromettre la précision. Cet article présente une nouvelle méthode d'entraînement distribué efficace, le Transformer à Longues et Courtes Séquences (LSS Transformer), pour l'entraînement de Transformers sur de longues séquences. Il répartit une longue séquence en segments parmi les GPU, chaque GPU calculant une auto-attention partielle pour son segment. Ensuite, il utilise une communication fusionnée et une nouvelle technique de moyennage double des gradients pour éviter la nécessité d'agréger les auto-attentions partielles et minimiser la surcharge de communication. Nous avons évalué les performances entre le LSS Transformer et le parallélisme de séquence de pointe de Nvidia sur un ensemble de données Wikipedia enwik8. Les résultats montrent que notre méthode proposée conduit à une implémentation 5,6 fois plus rapide et 10,2 fois plus économe en mémoire par rapport au parallélisme de séquence de pointe sur 144 GPU Nvidia V100. De plus, notre algorithme s'adapte à une longueur de séquence extrême de 50 112 sur 3 456 GPU, atteignant une efficacité parallèle super-linéaire de 161 % et un débit de 32 pétaflops.

CoVLM : Composition d'entités visuelles et de relations dans les grands modèles de langage via un décodage communicatif
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Nov 6, 2023

Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan

Papers Quotidiens

Niveaux d'AGI : Opérationnalisation des Progrès sur la Voie vers l'AGI
Levels of AGI: Operationalizing Progress on the Path to AGI

GLaMM : Modèle Multimodal de Grande Taille avec Ancrage Pixel
GLaMM: Pixel Grounding Large Multimodal Model

I2VGen-XL : Synthèse vidéo de haute qualité à partir d'images via des modèles de diffusion en cascade
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

S-LoRA : Service de milliers d'adaptateurs LoRA concurrents
S-LoRA: Serving Thousands of Concurrent LoRA Adapters

CogVLM : Expert visuel pour les modèles de langage pré-entraînés
CogVLM: Visual Expert for Pretrained Language Models

Relax : Abstractions composables pour l'apprentissage automatique dynamique de bout en bout
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Ziya2 : L'apprentissage centré sur les données est tout ce dont les LLM ont besoin
Ziya2: Data-centric Learning is All LLMs Need

VR-NeRF : Espaces virtuels navigables de haute fidélité
VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Guidez votre modèle sur où porter son attention : Pilotage post-hoc de l'attention pour les LLM
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

LDM3D-VR : Modèle de diffusion latente pour la réalité virtuelle 3D
LDM3D-VR: Latent Diffusion Model for 3D VR

MFTCoder : Amélioration des modèles de langage pour le code par ajustement multitâche
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

CoVLM : Composition d'entités visuelles et de relations dans les grands modèles de langage via un décodage communicatif
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Co-entraînement et co-distillation pour l'amélioration de la qualité et la compression des modèles de langage
Co-training and Co-distillation for Quality Improvement and Compression of Language Models

Consistent4D : Génération cohérente d'objets dynamiques à 360° à partir de vidéos monoculaires
Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

Personnalisation des auto-justificateurs par distillation multi-récompenses
Tailoring Self-Rationalizers with Multi-Reward Distillation

Attention ou Convolution : Encoders de Transformers dans les Modèles de Langage Audio pour une Inférence Efficace
Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Transformeur Distribué pour Séquences Ultra-Longues
Ultra-Long Sequence Distributed Transformer

Support

Support

Papers Quotidiens

Niveaux d'AGI : Opérationnalisation des Progrès sur la Voie vers l'AGI
Levels of AGI: Operationalizing Progress on the Path to AGI

GLaMM : Modèle Multimodal de Grande Taille avec Ancrage Pixel
GLaMM: Pixel Grounding Large Multimodal Model

I2VGen-XL : Synthèse vidéo de haute qualité à partir d'images via des modèles de diffusion en cascade
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

S-LoRA : Service de milliers d'adaptateurs LoRA concurrents
S-LoRA: Serving Thousands of Concurrent LoRA Adapters

CogVLM : Expert visuel pour les modèles de langage pré-entraînés
CogVLM: Visual Expert for Pretrained Language Models

Relax : Abstractions composables pour l'apprentissage automatique dynamique de bout en bout
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Ziya2 : L'apprentissage centré sur les données est tout ce dont les LLM ont besoin
Ziya2: Data-centric Learning is All LLMs Need

VR-NeRF : Espaces virtuels navigables de haute fidélité
VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Guidez votre modèle sur où porter son attention : Pilotage post-hoc de l'attention pour les LLM
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

LDM3D-VR : Modèle de diffusion latente pour la réalité virtuelle 3D
LDM3D-VR: Latent Diffusion Model for 3D VR

MFTCoder : Amélioration des modèles de langage pour le code par ajustement multitâche
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

CoVLM : Composition d'entités visuelles et de relations dans les grands modèles de langage via un décodage communicatif
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Co-entraînement et co-distillation pour l'amélioration de la qualité et la compression des modèles de langage
Co-training and Co-distillation for Quality Improvement and Compression of Language Models

Consistent4D : Génération cohérente d'objets dynamiques à 360° à partir de vidéos monoculaires
Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

Personnalisation des auto-justificateurs par distillation multi-récompenses
Tailoring Self-Rationalizers with Multi-Reward Distillation

Attention ou Convolution : Encoders de Transformers dans les Modèles de Langage Audio pour une Inférence Efficace
Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Transformeur Distribué pour Séquences Ultra-Longues
Ultra-Long Sequence Distributed Transformer