Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons la première attaque de vol de modèle capable d'extraire des informations précises et non triviales de modèles de langage en boîte noire en production, tels que ChatGPT d'OpenAI ou PaLM-2 de Google. Plus précisément, notre attaque permet de récupérer la couche de projection des embeddings (à des symétries près) d'un modèle de type transformer, en ayant uniquement un accès typique à l'API. Pour moins de 20 USD, notre attaque extrait la matrice de projection complète des modèles de langage Ada et Babbage d'OpenAI. Nous confirmons ainsi, pour la première fois, que ces modèles en boîte noire ont une dimension cachée de 1024 et 2048, respectivement. Nous récupérons également la taille exacte de la dimension cachée du modèle gpt-3.5-turbo, et estimons qu'il coûterait moins de 2000 USD en requêtes pour extraire l'intégralité de sa matrice de projection. Nous concluons en proposant des défenses et des mesures d'atténuation potentielles, et discutons des implications de travaux futurs qui pourraient étendre notre attaque.
Les récentes avancées dans les modèles de langage de grande taille ont apporté une immense valeur au monde, leurs capacités supérieures découlant du nombre massif de paramètres qu'ils utilisent. Cependant, même les GPU dotés des plus grandes capacités de mémoire, actuellement limitées à 80 Go, sont loin d'être suffisants pour accueillir ces vastes paramètres et leurs états d'optimisation associés lors de l'optimisation basée sur la descente de gradient stochastique. Une approche pour héberger de tels modèles volumineux consiste à agréger la mémoire des appareils de plusieurs GPU. Cependant, cette approche entraîne des coûts prohibitifs pour la plupart des chercheurs académiques, qui disposent toujours d'un budget limité pour de nombreux serveurs GPU haut de gamme. Dans cet article, nous nous concentrons sur le fine-tuning de modèles volumineux sur un seul GPU, même bas de gamme, dans un serveur standard, accessible à la plupart des chercheurs en IA. Dans un tel scénario, l'état de l'art, représenté par ZeRO-Infinity, souffre de deux problèmes majeurs lors de son exécution sur un serveur standard : 1) une faible utilisation du GPU due à un échange inefficace, et 2) une taille de modèle entraînable limitée en raison de la capacité de mémoire CPU. La raison sous-jacente est que ZeRO-Infinity est optimisé pour fonctionner sur des serveurs GPU haut de gamme. À cette fin, nous présentons Fuyou, un cadre d'entraînement à faible coût qui permet un fine-tuning efficace de modèles de 100 milliards de paramètres sur un serveur bas de gamme avec un GPU bas de gamme et une capacité de mémoire CPU limitée. L'idée clé est d'ajouter la communication SSD-CPU comme dimension d'optimisation et ainsi de co-optimiser soigneusement le calcul et l'échange de données dans une approche systématique pour maximiser l'utilisation du GPU. Les résultats expérimentaux montrent que 1) Fuyou est capable de fine-tuner GPT-3 de 175 milliards de paramètres sur un GPU grand public RTX 4090 avec une utilisation élevée du GPU, alors que ZeRO-Infinity échoue ; et 2) lors de l'entraînement d'un petit modèle GPT-3 de 13 milliards de paramètres, Fuyou atteint 156 TFLOPS sur un GPU RTX 4090, tandis que ZeRO-Infinity n'atteint que 45 TFLOPS.
Face aux défis simultanés de la redondance locale et des dépendances globales dans la compréhension vidéo, ce travail adapte de manière innovante le Mamba au domaine vidéo. Le VideoMamba proposé surmonte les limitations des réseaux de neurones convolutifs 3D et des transformeurs vidéo existants. Son opérateur à complexité linéaire permet une modélisation efficace à long terme, essentielle pour la compréhension de vidéos longues et haute résolution. Des évaluations approfondies révèlent les quatre capacités fondamentales de VideoMamba : (1) Une scalabilité dans le domaine visuel sans prétraining extensif sur des jeux de données, grâce à une technique novatrice d'auto-distillation ; (2) Une sensibilité pour reconnaître des actions à court terme même avec des différences de mouvement fines ; (3) Une supériorité dans la compréhension de vidéos longues, montrant des avancées significatives par rapport aux modèles traditionnels basés sur des caractéristiques ; et (4) Une compatibilité avec d'autres modalités, démontrant une robustesse dans des contextes multi-modaux. Grâce à ces avantages distincts, VideoMamba établit un nouveau standard pour la compréhension vidéo, offrant une solution scalable et efficace pour une compréhension vidéo complète. Tous les codes et modèles sont disponibles à l'adresse https://github.com/OpenGVLab/VideoMamba.
La génération automatique 3D a récemment suscité un intérêt considérable. Les méthodes récentes ont considérablement accéléré la vitesse de génération, mais produisent généralement des objets moins détaillés en raison de la capacité limitée des modèles ou des données 3D. Motivés par les avancées récentes dans les modèles de diffusion vidéo, nous introduisons V3D, qui exploite la capacité de simulation du monde des modèles de diffusion vidéo pré-entraînés pour faciliter la génération 3D. Pour libérer pleinement le potentiel de la diffusion vidéo dans la perception du monde 3D, nous introduisons en outre un a priori de cohérence géométrique et étendons le modèle de diffusion vidéo à un générateur 3D cohérent multi-vues. Grâce à cela, le modèle de diffusion vidéo de pointe peut être affiné pour générer des images d'orbite à 360 degrés autour d'un objet à partir d'une seule image. Avec nos pipelines de reconstruction sur mesure, nous pouvons générer des maillages ou des Gaussiennes 3D de haute qualité en moins de 3 minutes. De plus, notre méthode peut être étendue à la synthèse de nouvelles vues au niveau de la scène, permettant un contrôle précis du chemin de la caméra avec des vues d'entrée éparses. Des expériences approfondies démontrent la performance supérieure de l'approche proposée, en particulier en termes de qualité de génération et de cohérence multi-vues. Notre code est disponible à l'adresse https://github.com/heheyas/V3D.
Dans cette étude, nous identifions les phénomènes d'attention inefficace dans les grands modèles vision-langage (LVLMs), en particulier dans des modèles renommés tels que LLaVA-1.5, QwenVL-Chat et Video-LLaVA. Nous constatons que le calcul de l'attention sur les tokens visuels est extrêmement inefficace dans les couches profondes de ces LVLMs populaires, suggérant la nécessité d'une approche plus parcimonieuse par rapport au traitement des données textuelles. À cette fin, nous introduisons FastV, une méthode polyvalente plug-and-play conçue pour optimiser l'efficacité computationnelle en apprenant des motifs d'attention adaptatifs dans les premières couches et en élaguant les tokens visuels dans les couches suivantes. Nos évaluations démontrent la capacité de FastV à réduire considérablement les coûts computationnels (par exemple, une réduction de 45 % des FLOPs pour LLaVA-1.5-13B) sans sacrifier les performances sur une large gamme de tâches de compréhension d'images et de vidéos. Le compromis entre efficacité computationnelle et performance de FastV est hautement personnalisable et pareto-efficace. Il peut compresser les FLOPs d'un modèle à 13 milliards de paramètres pour atteindre un budget inférieur à celui d'un modèle à 7 milliards de paramètres, tout en maintenant une performance supérieure. Nous croyons que FastV a une valeur pratique pour le déploiement de LVLMs sur des appareils embarqués et dans des modèles commerciaux. Le code est disponible à l'adresse suivante : https://github.com/pkunlp-icler/FastV.
Nous étudions le rythme auquel les algorithmes de pré-entraînement des modèles de langage se sont améliorés depuis l'avènement de l'apprentissage profond. En utilisant un ensemble de données de plus de 200 évaluations de modèles de langage sur Wikitext et Penn Treebank couvrant la période 2012-2023, nous constatons que la puissance de calcul nécessaire pour atteindre un seuil de performance donné a été divisée par deux environ tous les 8 mois, avec un intervalle de confiance à 95 % d'environ 5 à 14 mois, ce qui est nettement plus rapide que les gains matériels prévus par la loi de Moore. Nous estimons des lois d'échelle augmentées, qui nous permettent de quantifier les progrès algorithmiques et de déterminer les contributions relatives de la mise à l'échelle des modèles par rapport aux innovations dans les algorithmes d'entraînement. Malgré le rythme rapide des progrès algorithmiques et le développement de nouvelles architectures telles que le transformeur, notre analyse révèle que l'augmentation de la puissance de calcul a contribué de manière encore plus significative aux améliorations globales des performances au cours de cette période. Bien que limitée par des données de référence bruitées, notre analyse quantifie les progrès rapides dans la modélisation du langage, mettant en lumière les contributions relatives de la puissance de calcul et des algorithmes.
L'arrivée de Sora marque une nouvelle ère pour les modèles de diffusion texte-à-vidéo, apportant des avancées significatives dans la génération de vidéos et leurs applications potentielles. Cependant, Sora, ainsi que d'autres modèles de diffusion texte-à-vidéo, dépendent fortement des prompts, et il n'existe aucun jeu de données public comportant une étude des prompts texte-à-vidéo. Dans cet article, nous présentons VidProM, le premier jeu de données à grande échelle comprenant 1,67 million de prompts texte-à-vidéo uniques provenant d'utilisateurs réels. De plus, le jeu de données inclut 6,69 millions de vidéos générées par quatre modèles de diffusion de pointe ainsi que certaines données connexes. Nous démontrons d'abord la curation de ce jeu de données à grande échelle, un processus long et coûteux. Ensuite, nous montrons en quoi le VidProM proposé diffère de DiffusionDB, un jeu de données à grande échelle de prompts pour la génération d'images. Sur la base de l'analyse de ces prompts, nous identifions la nécessité d'un nouveau jeu de données de prompts spécifiquement conçu pour la génération texte-à-vidéo et obtenons des insights sur les préférences des utilisateurs réels lors de la création de vidéos. Notre jeu de données à grande échelle et diversifié inspire également de nombreux nouveaux domaines de recherche passionnants. Par exemple, pour développer des modèles de diffusion texte-à-vidéo meilleurs, plus efficaces et plus sûrs, nous suggérons d'explorer l'ingénierie des prompts texte-à-vidéo, la génération efficace de vidéos et la détection de copies de vidéos pour les modèles de diffusion. Nous mettons le jeu de données collecté VidProM à disposition du public sur GitHub et Hugging Face sous la licence CC-BY-NC 4.0.
Les modèles de diffusion sont relativement faciles à entraîner mais nécessitent de nombreuses étapes pour générer des échantillons. Les modèles de cohérence sont bien plus difficiles à entraîner, mais génèrent des échantillons en une seule étape. Dans cet article, nous proposons les Modèles de Cohérence Multi-étapes : une unification entre les Modèles de Cohérence (Song et al., 2023) et TRACT (Berthelot et al., 2023) qui permet d'interpoler entre un modèle de cohérence et un modèle de diffusion : un compromis entre la vitesse d'échantillonnage et la qualité des échantillons. Plus précisément, un modèle de cohérence à 1 étape est un modèle de cohérence conventionnel, tandis que nous montrons qu'un modèle de cohérence à ∞ étapes est un modèle de diffusion. Les Modèles de Cohérence Multi-étapes fonctionnent très bien en pratique. En augmentant le budget d'échantillonnage d'une seule étape à 2-8 étapes, nous pouvons entraîner des modèles plus facilement qui génèrent des échantillons de meilleure qualité, tout en conservant une grande partie des avantages en termes de vitesse d'échantillonnage. Parmi les résultats notables, on trouve un FID de 1,4 sur Imagenet 64 en 8 étapes et un FID de 2,1 sur Imagenet128 en 8 étapes avec la distillation de cohérence. Nous montrons également que notre méthode s'adapte à un modèle de diffusion texte-image, générant des échantillons très proches de la qualité du modèle original.
La génération pilotée par sujet a suscité un intérêt considérable récemment en raison de sa capacité à personnaliser la génération d'images à partir de texte. Les travaux typiques se concentrent sur l'apprentissage des attributs spécifiques du nouveau sujet. Cependant, un fait important n'a pas été pris au sérieux : un sujet n'est pas un concept nouveau isolé, mais devrait être une spécialisation d'une certaine catégorie dans le modèle pré-entraîné. Cela entraîne l'incapacité du sujet à hériter de manière exhaustive des attributs de sa catégorie, ce qui provoque des générations médiocres liées aux attributs. Dans cet article, inspirés par la programmation orientée objet, nous modélisons le sujet comme une classe dérivée dont la classe de base est sa catégorie sémantique. Cette modélisation permet au sujet d'hériter des attributs publics de sa catégorie tout en apprenant ses attributs spécifiques à partir de l'exemple fourni par l'utilisateur. Plus précisément, nous proposons une méthode plug-and-play, la régularisation SuDe (Subject-Derived). Elle construit la modélisation de classe de base-dérivée en contraignant les images générées pilotées par sujet à appartenir sémantiquement à la catégorie du sujet. Des expériences approfondies sur trois bases de référence et deux architectures pour divers sujets montrent que notre SuDe permet des générations imaginatives liées aux attributs tout en maintenant la fidélité au sujet. Les codes seront bientôt open source sur FaceChain (https://github.com/modelscope/facechain).