papers.title

papers.description

Au-delà des lois d'échelle : Comprendre la performance des Transformers grâce à la mémoire associative
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14, 2024

Xueyan Niu, Bo Bai, Lei Deng, Wei Han

330

L'augmentation de la taille d'un modèle Transformer ne conduit pas toujours à une amélioration des performances. Ce phénomène ne peut être expliqué par les lois empiriques de mise à l'échelle. Par ailleurs, une capacité de généralisation améliorée apparaît lorsque le modèle mémorise les échantillons d'entraînement. Nous présentons un cadre théorique qui éclaire le processus de mémorisation et la dynamique des performances des modèles de langage basés sur les Transformers. Nous modélisons le comportement des Transformers avec des mémoires associatives en utilisant des réseaux de Hopfield, de sorte que chaque bloc Transformer effectue efficacement une recherche approximative des plus proches voisins. Sur cette base, nous concevons une fonction d'énergie analogue à celle du réseau de Hopfield continu moderne, qui fournit une explication approfondie du mécanisme d'attention. En utilisant la technique de majorisation-minimisation, nous construisons une fonction d'énergie globale qui capture l'architecture en couches du Transformer. Sous certaines conditions, nous montrons que la perte d'entropie croisée minimale réalisable est bornée inférieurement par une constante approximativement égale à 1. Nous étayons nos résultats théoriques en menant des expériences avec GPT-2 sur différentes tailles de données, ainsi qu'en entraînant des Transformers standards sur un ensemble de données de 2 millions de tokens.

Coin3D : Génération contrôlable et interactive d'actifs 3D avec conditionnement guidé par proxy
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13, 2024

Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

260

En tant qu'êtres humains, nous aspirons à créer des contenus médiatiques qui soient à la fois librement conçus et facilement contrôlables. Grâce aux avancées majeures des techniques génératives, nous pouvons désormais utiliser des méthodes de diffusion 2D pour synthétiser des images contrôlées par des esquisses brutes ou des poses humaines spécifiques, et même éditer/régénérer progressivement des régions locales grâce à la réparation par masquage. Cependant, des workflows similaires dans les tâches de modélisation 3D restent inaccessibles en raison du manque de contrôlabilité et d'efficacité dans la génération 3D. Dans cet article, nous présentons un nouveau cadre de modélisation d'actifs 3D contrôlable et interactif, nommé Coin3D. Coin3D permet aux utilisateurs de contrôler la génération 3D à l'aide d'un proxy géométrique grossier assemblé à partir de formes de base, et introduit un workflow de génération interactif pour supporter l'édition locale fluide tout en offrant un aperçu réactif des objets 3D en quelques secondes. Pour ce faire, nous développons plusieurs techniques, notamment l'adaptateur 3D qui applique un contrôle volumétrique de forme grossière au modèle de diffusion, une stratégie d'édition limitée par proxy pour une édition précise des parties, un cache volumique progressif pour supporter un aperçu réactif, et le volume-SDS pour assurer une reconstruction de maillage cohérente. Des expériences approfondies de génération et d'édition interactives sur divers proxies de forme démontrent que notre méthode atteint une contrôlabilité et une flexibilité supérieures dans la tâche de génération d'actifs 3D.

Hunyuan-DiT : Un Transformateur de Diffusion Multi-Résolution Puissant avec une Compréhension Fine-Grainée du Chinois
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024

Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu

252

Nous présentons Hunyuan-DiT, un transformeur de diffusion texte-image doté d'une compréhension fine à la fois de l'anglais et du chinois. Pour construire Hunyuan-DiT, nous avons soigneusement conçu la structure du transformeur, l'encodeur de texte et l'encodage positionnel. Nous avons également développé de A à Z un pipeline de données complet pour mettre à jour et évaluer les données en vue de l'optimisation itérative du modèle. Pour une compréhension fine du langage, nous avons entraîné un modèle de langage multimodal de grande envergure (Multimodal Large Language Model) afin d'affiner les légendes des images. Enfin, Hunyuan-DiT est capable de mener un dialogue multimodal à plusieurs tours avec les utilisateurs, générant et affinant les images en fonction du contexte. Grâce à notre protocole d'évaluation humaine holistique impliquant plus de 50 évaluateurs professionnels, Hunyuan-DiT établit un nouvel état de l'art dans la génération d'images à partir de texte en chinois par rapport aux autres modèles open-source. Le code et les modèles pré-entraînés sont disponibles publiquement sur github.com/Tencent/HunyuanDiT.

Comprendre l'écart de performance entre les algorithmes d'alignement en ligne et hors ligne
Understanding the performance gap between online and offline alignment algorithms

May 14, 2024

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

200

L'apprentissage par renforcement à partir de retours humains (RLHF) constitue le cadre canonique pour l'alignement des grands modèles de langage. Cependant, la popularité croissante des algorithmes d'alignement hors ligne remet en question la nécessité de l'échantillonnage en ligne dans le RLHF. Dans le contexte de la sur-optimisation des récompenses, nous commençons par une série d'expériences initiales qui démontrent clairement l'avantage des méthodes en ligne par rapport aux méthodes hors ligne. Cela nous incite à investiguer les causes de cette divergence de performance à travers une série d'ablation expérimentales soigneusement conçues. Nous montrons empiriquement que des hypothèses telles que la couverture des données hors ligne et la qualité des données ne peuvent à elles seules expliquer de manière convaincante la différence de performance. Nous constatons également que si les algorithmes hors ligne entraînent les politiques à exceller dans la classification par paires, elles sont moins performantes en génération ; tandis que les politiques entraînées par les algorithmes en ligne excellent en génération mais sont moins performantes en classification par paires. Cela suggère une interaction unique entre les capacités discriminatives et génératives, fortement influencée par le processus d'échantillonnage. Enfin, nous observons que la divergence de performance persiste pour les fonctions de perte contrastives et non contrastives, et ne semble pas être résolue simplement par la mise à l'échelle des réseaux de politiques. Ensemble, notre étude met en lumière le rôle crucial de l'échantillonnage en ligne dans l'alignement de l'IA et soulève certains défis fondamentaux des algorithmes d'alignement hors ligne.

SpeechVerse : Un modèle de langage audio généralisable à grande échelle
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024

Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

200

Les grands modèles de langage (LLM) ont démontré une maîtrise impressionnante dans l'exécution de tâches nécessitant une compréhension sémantique des instructions en langage naturel. Récemment, de nombreux travaux ont étendu cette capacité à la perception d'entrées multimodales audio et texte, mais leurs performances restent souvent limitées à des tâches spécifiques affinées, telles que la reconnaissance automatique de la parole et la traduction. Nous développons donc SpeechVerse, un cadre robuste d'apprentissage multi-tâches et curriculaire qui combine des modèles de base pré-entraînés pour la parole et le texte via un petit ensemble de paramètres apprenables, tout en gardant les modèles pré-entraînés figés pendant l'entraînement. Les modèles sont affinés par instruction en utilisant des représentations latentes continues extraites du modèle de base pour la parole, afin d'atteindre des performances optimales en zero-shot sur une gamme variée de tâches de traitement de la parole à l'aide d'instructions en langage naturel. Nous effectuons un benchmarking approfondi, comprenant la comparaison des performances de notre modèle avec des modèles de référence traditionnels sur plusieurs jeux de données et tâches. De plus, nous évaluons la capacité du modèle à suivre des instructions généralisées en le testant sur des jeux de données hors domaine, des prompts nouveaux et des tâches inédites. Nos expériences empiriques révèlent que notre modèle multi-tâches SpeechVerse surpasse même les modèles de référence spécifiques à une tâche sur 9 des 11 tâches évaluées.

Génération compositionnelle d'images à partir de texte avec des représentations de blobs denses
Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024

Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

181

Les modèles existants de génération d'images à partir de texte peinent à suivre des instructions textuelles complexes, ce qui soulève la nécessité d'introduire des informations supplémentaires pour améliorer la contrôlabilité. Dans ce travail, nous proposons de décomposer une scène en primitives visuelles - représentées par des blobs denses - qui contiennent des détails fins de la scène tout en étant modulaires, interprétables par l'humain et faciles à construire. Sur la base de ces représentations par blobs, nous développons un modèle de diffusion texte-image ancré par des blobs, appelé BlobGEN, pour la génération compositionnelle. Plus précisément, nous introduisons un nouveau module d'attention croisée masquée pour dissocier la fusion entre les représentations par blobs et les caractéristiques visuelles. Pour tirer parti de la compositionnalité des grands modèles de langage (LLMs), nous proposons une nouvelle approche d'apprentissage en contexte pour générer des représentations par blobs à partir d'instructions textuelles. Nos expériences approfondies montrent que BlobGEN atteint une qualité de génération zero-shot supérieure et une meilleure contrôlabilité guidée par la disposition sur MS-COCO. Lorsqu'il est augmenté par des LLMs, notre méthode démontre une supériorité en termes de justesse numérique et spatiale sur des benchmarks de génération d'images compositionnelles. Page du projet : https://blobgen-2d.github.io.

Pas de temps à perdre : Compresser le temps dans les canaux pour la vidéo mobile Compréhension
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024

Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

160

Les architectures actuelles pour la compréhension vidéo reposent principalement sur des blocs convolutifs 3D ou des convolutions 2D avec des opérations supplémentaires pour la modélisation temporelle. Cependant, ces méthodes considèrent toutes l'axe temporel comme une dimension distincte de la séquence vidéo, ce qui nécessite des budgets de calcul et de mémoire importants, limitant ainsi leur utilisation sur les appareils mobiles. Dans cet article, nous proposons de compresser l'axe temporel d'une séquence vidéo dans la dimension des canaux et présentons un réseau de reconnaissance vidéo léger, appelé SqueezeTime, pour la compréhension vidéo mobile. Pour améliorer la capacité de modélisation temporelle du réseau proposé, nous concevons un bloc d'apprentissage canal-temps (Channel-Time Learning, CTL) pour capturer la dynamique temporelle de la séquence. Ce module possède deux branches complémentaires : une branche pour l'apprentissage de l'importance temporelle et une autre avec une capacité de restauration de la position temporelle pour améliorer la modélisation des objets inter-temporels. Le SqueezeTime proposé est beaucoup plus léger et rapide, tout en offrant une grande précision pour la compréhension vidéo mobile. Des expériences approfondies sur divers benchmarks de reconnaissance vidéo et de détection d'actions, tels que Kinetics400, Kinetics600, HMDB51, AVA2.1 et THUMOS14, démontrent la supériorité de notre modèle. Par exemple, notre SqueezeTime atteint une précision de +1,2 % et un gain de débit GPU de +80 % sur Kinetics400 par rapport aux méthodes précédentes. Les codes sont disponibles publiquement à l'adresse https://github.com/xinghaochen/SqueezeTime et https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.

SpeechGuard : Exploration de la robustesse adversarial des modèles de langage multimodaux de grande taille
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024

Raghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich, Saket Dingliwal, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Srikanth Vishnubhotla, Daniel Garcia-Romero, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

130

Les modèles intégrés de parole et de langage (SLMs) capables de suivre des instructions vocales et de générer des réponses textuelles pertinentes ont gagné en popularité récemment. Cependant, la sécurité et la robustesse de ces modèles restent largement incertaines. Dans ce travail, nous étudions les vulnérabilités potentielles de ces modèles de langage basés sur la parole face aux attaques adverses et au jailbreaking. Plus précisément, nous concevons des algorithmes capables de générer des exemples adverses pour jailbreaker les SLMs dans des contextes d'attaque en boîte blanche et en boîte noire sans intervention humaine. De plus, nous proposons des contre-mesures pour contrer ces attaques de jailbreaking. Nos modèles, entraînés sur des données de dialogue avec des instructions vocales, atteignent des performances de pointe dans la tâche de réponse à des questions orales, obtenant des scores supérieurs à 80 % sur les métriques de sécurité et d'utilité. Malgré les dispositifs de sécurité, les expériences sur le jailbreaking démontrent la vulnérabilité des SLMs aux perturbations adverses et aux attaques par transfert, avec des taux de réussite moyens de 90 % et 10 % respectivement, évalués sur un ensemble de questions nuisibles soigneusement conçues couvrant 12 catégories toxiques différentes. Cependant, nous montrons que nos contre-mesures proposées réduisent significativement le taux de réussite des attaques.

papers.title

papers.description

Au-delà des lois d'échelle : Comprendre la performance des Transformers grâce à la mémoire associative
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14, 2024

Xueyan Niu, Bo Bai, Lei Deng, Wei Han

330

Coin3D : Génération contrôlable et interactive d'actifs 3D avec conditionnement guidé par proxy
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13, 2024

Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

260

Hunyuan-DiT : Un Transformateur de Diffusion Multi-Résolution Puissant avec une Compréhension Fine-Grainée du Chinois
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024

252

Comprendre l'écart de performance entre les algorithmes d'alignement en ligne et hors ligne
Understanding the performance gap between online and offline alignment algorithms

May 14, 2024

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

200

SpeechVerse : Un modèle de langage audio généralisable à grande échelle
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024

200

Génération compositionnelle d'images à partir de texte avec des représentations de blobs denses
Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024

Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

181

Pas de temps à perdre : Compresser le temps dans les canaux pour la vidéo mobile Compréhension
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024

Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

160

SpeechGuard : Exploration de la robustesse adversarial des modèles de langage multimodaux de grande taille
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024

130