Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'augmentation de la taille d'un modèle Transformer ne conduit pas toujours à une amélioration des performances. Ce phénomène ne peut être expliqué par les lois empiriques de mise à l'échelle. Par ailleurs, une capacité de généralisation améliorée apparaît lorsque le modèle mémorise les échantillons d'entraînement. Nous présentons un cadre théorique qui éclaire le processus de mémorisation et la dynamique des performances des modèles de langage basés sur les Transformers. Nous modélisons le comportement des Transformers avec des mémoires associatives en utilisant des réseaux de Hopfield, de sorte que chaque bloc Transformer effectue efficacement une recherche approximative des plus proches voisins. Sur cette base, nous concevons une fonction d'énergie analogue à celle du réseau de Hopfield continu moderne, qui fournit une explication approfondie du mécanisme d'attention. En utilisant la technique de majorisation-minimisation, nous construisons une fonction d'énergie globale qui capture l'architecture en couches du Transformer. Sous certaines conditions, nous montrons que la perte d'entropie croisée minimale réalisable est bornée inférieurement par une constante approximativement égale à 1. Nous étayons nos résultats théoriques en menant des expériences avec GPT-2 sur différentes tailles de données, ainsi qu'en entraînant des Transformers standards sur un ensemble de données de 2 millions de tokens.
En tant qu'êtres humains, nous aspirons à créer des contenus médiatiques qui soient à la fois librement conçus et facilement contrôlables. Grâce aux avancées majeures des techniques génératives, nous pouvons désormais utiliser des méthodes de diffusion 2D pour synthétiser des images contrôlées par des esquisses brutes ou des poses humaines spécifiques, et même éditer/régénérer progressivement des régions locales grâce à la réparation par masquage. Cependant, des workflows similaires dans les tâches de modélisation 3D restent inaccessibles en raison du manque de contrôlabilité et d'efficacité dans la génération 3D. Dans cet article, nous présentons un nouveau cadre de modélisation d'actifs 3D contrôlable et interactif, nommé Coin3D. Coin3D permet aux utilisateurs de contrôler la génération 3D à l'aide d'un proxy géométrique grossier assemblé à partir de formes de base, et introduit un workflow de génération interactif pour supporter l'édition locale fluide tout en offrant un aperçu réactif des objets 3D en quelques secondes. Pour ce faire, nous développons plusieurs techniques, notamment l'adaptateur 3D qui applique un contrôle volumétrique de forme grossière au modèle de diffusion, une stratégie d'édition limitée par proxy pour une édition précise des parties, un cache volumique progressif pour supporter un aperçu réactif, et le volume-SDS pour assurer une reconstruction de maillage cohérente. Des expériences approfondies de génération et d'édition interactives sur divers proxies de forme démontrent que notre méthode atteint une contrôlabilité et une flexibilité supérieures dans la tâche de génération d'actifs 3D.
Nous présentons Hunyuan-DiT, un transformeur de diffusion texte-image doté d'une compréhension fine à la fois de l'anglais et du chinois. Pour construire Hunyuan-DiT, nous avons soigneusement conçu la structure du transformeur, l'encodeur de texte et l'encodage positionnel. Nous avons également développé de A à Z un pipeline de données complet pour mettre à jour et évaluer les données en vue de l'optimisation itérative du modèle. Pour une compréhension fine du langage, nous avons entraîné un modèle de langage multimodal de grande envergure (Multimodal Large Language Model) afin d'affiner les légendes des images. Enfin, Hunyuan-DiT est capable de mener un dialogue multimodal à plusieurs tours avec les utilisateurs, générant et affinant les images en fonction du contexte. Grâce à notre protocole d'évaluation humaine holistique impliquant plus de 50 évaluateurs professionnels, Hunyuan-DiT établit un nouvel état de l'art dans la génération d'images à partir de texte en chinois par rapport aux autres modèles open-source. Le code et les modèles pré-entraînés sont disponibles publiquement sur github.com/Tencent/HunyuanDiT.
L'apprentissage par renforcement à partir de retours humains (RLHF) constitue le cadre canonique pour l'alignement des grands modèles de langage. Cependant, la popularité croissante des algorithmes d'alignement hors ligne remet en question la nécessité de l'échantillonnage en ligne dans le RLHF. Dans le contexte de la sur-optimisation des récompenses, nous commençons par une série d'expériences initiales qui démontrent clairement l'avantage des méthodes en ligne par rapport aux méthodes hors ligne. Cela nous incite à investiguer les causes de cette divergence de performance à travers une série d'ablation expérimentales soigneusement conçues. Nous montrons empiriquement que des hypothèses telles que la couverture des données hors ligne et la qualité des données ne peuvent à elles seules expliquer de manière convaincante la différence de performance. Nous constatons également que si les algorithmes hors ligne entraînent les politiques à exceller dans la classification par paires, elles sont moins performantes en génération ; tandis que les politiques entraînées par les algorithmes en ligne excellent en génération mais sont moins performantes en classification par paires. Cela suggère une interaction unique entre les capacités discriminatives et génératives, fortement influencée par le processus d'échantillonnage. Enfin, nous observons que la divergence de performance persiste pour les fonctions de perte contrastives et non contrastives, et ne semble pas être résolue simplement par la mise à l'échelle des réseaux de politiques. Ensemble, notre étude met en lumière le rôle crucial de l'échantillonnage en ligne dans l'alignement de l'IA et soulève certains défis fondamentaux des algorithmes d'alignement hors ligne.
Les grands modèles de langage (LLM) ont démontré une maîtrise impressionnante dans l'exécution de tâches nécessitant une compréhension sémantique des instructions en langage naturel. Récemment, de nombreux travaux ont étendu cette capacité à la perception d'entrées multimodales audio et texte, mais leurs performances restent souvent limitées à des tâches spécifiques affinées, telles que la reconnaissance automatique de la parole et la traduction. Nous développons donc SpeechVerse, un cadre robuste d'apprentissage multi-tâches et curriculaire qui combine des modèles de base pré-entraînés pour la parole et le texte via un petit ensemble de paramètres apprenables, tout en gardant les modèles pré-entraînés figés pendant l'entraînement. Les modèles sont affinés par instruction en utilisant des représentations latentes continues extraites du modèle de base pour la parole, afin d'atteindre des performances optimales en zero-shot sur une gamme variée de tâches de traitement de la parole à l'aide d'instructions en langage naturel. Nous effectuons un benchmarking approfondi, comprenant la comparaison des performances de notre modèle avec des modèles de référence traditionnels sur plusieurs jeux de données et tâches. De plus, nous évaluons la capacité du modèle à suivre des instructions généralisées en le testant sur des jeux de données hors domaine, des prompts nouveaux et des tâches inédites. Nos expériences empiriques révèlent que notre modèle multi-tâches SpeechVerse surpasse même les modèles de référence spécifiques à une tâche sur 9 des 11 tâches évaluées.
Les modèles existants de génération d'images à partir de texte peinent à suivre des instructions textuelles complexes, ce qui soulève la nécessité d'introduire des informations supplémentaires pour améliorer la contrôlabilité. Dans ce travail, nous proposons de décomposer une scène en primitives visuelles - représentées par des blobs denses - qui contiennent des détails fins de la scène tout en étant modulaires, interprétables par l'humain et faciles à construire. Sur la base de ces représentations par blobs, nous développons un modèle de diffusion texte-image ancré par des blobs, appelé BlobGEN, pour la génération compositionnelle. Plus précisément, nous introduisons un nouveau module d'attention croisée masquée pour dissocier la fusion entre les représentations par blobs et les caractéristiques visuelles. Pour tirer parti de la compositionnalité des grands modèles de langage (LLMs), nous proposons une nouvelle approche d'apprentissage en contexte pour générer des représentations par blobs à partir d'instructions textuelles. Nos expériences approfondies montrent que BlobGEN atteint une qualité de génération zero-shot supérieure et une meilleure contrôlabilité guidée par la disposition sur MS-COCO. Lorsqu'il est augmenté par des LLMs, notre méthode démontre une supériorité en termes de justesse numérique et spatiale sur des benchmarks de génération d'images compositionnelles. Page du projet : https://blobgen-2d.github.io.
Les architectures actuelles pour la compréhension vidéo reposent principalement sur des blocs convolutifs 3D ou des convolutions 2D avec des opérations supplémentaires pour la modélisation temporelle. Cependant, ces méthodes considèrent toutes l'axe temporel comme une dimension distincte de la séquence vidéo, ce qui nécessite des budgets de calcul et de mémoire importants, limitant ainsi leur utilisation sur les appareils mobiles. Dans cet article, nous proposons de compresser l'axe temporel d'une séquence vidéo dans la dimension des canaux et présentons un réseau de reconnaissance vidéo léger, appelé SqueezeTime, pour la compréhension vidéo mobile. Pour améliorer la capacité de modélisation temporelle du réseau proposé, nous concevons un bloc d'apprentissage canal-temps (Channel-Time Learning, CTL) pour capturer la dynamique temporelle de la séquence. Ce module possède deux branches complémentaires : une branche pour l'apprentissage de l'importance temporelle et une autre avec une capacité de restauration de la position temporelle pour améliorer la modélisation des objets inter-temporels. Le SqueezeTime proposé est beaucoup plus léger et rapide, tout en offrant une grande précision pour la compréhension vidéo mobile. Des expériences approfondies sur divers benchmarks de reconnaissance vidéo et de détection d'actions, tels que Kinetics400, Kinetics600, HMDB51, AVA2.1 et THUMOS14, démontrent la supériorité de notre modèle. Par exemple, notre SqueezeTime atteint une précision de +1,2 % et un gain de débit GPU de +80 % sur Kinetics400 par rapport aux méthodes précédentes. Les codes sont disponibles publiquement à l'adresse https://github.com/xinghaochen/SqueezeTime et https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
Les modèles intégrés de parole et de langage (SLMs) capables de suivre des instructions vocales et de générer des réponses textuelles pertinentes ont gagné en popularité récemment. Cependant, la sécurité et la robustesse de ces modèles restent largement incertaines. Dans ce travail, nous étudions les vulnérabilités potentielles de ces modèles de langage basés sur la parole face aux attaques adverses et au jailbreaking. Plus précisément, nous concevons des algorithmes capables de générer des exemples adverses pour jailbreaker les SLMs dans des contextes d'attaque en boîte blanche et en boîte noire sans intervention humaine. De plus, nous proposons des contre-mesures pour contrer ces attaques de jailbreaking. Nos modèles, entraînés sur des données de dialogue avec des instructions vocales, atteignent des performances de pointe dans la tâche de réponse à des questions orales, obtenant des scores supérieurs à 80 % sur les métriques de sécurité et d'utilité. Malgré les dispositifs de sécurité, les expériences sur le jailbreaking démontrent la vulnérabilité des SLMs aux perturbations adverses et aux attaques par transfert, avec des taux de réussite moyens de 90 % et 10 % respectivement, évalués sur un ensemble de questions nuisibles soigneusement conçues couvrant 12 catégories toxiques différentes. Cependant, nous montrons que nos contre-mesures proposées réduisent significativement le taux de réussite des attaques.