Articles de recherche en IA sélectionnés quotidiennement avec traductions
À mesure que la taille des modèles pré-entraînés de reconnaissance vocale augmente, l'exécution de ces grands modèles dans des environnements à faible latence ou à ressources limitées devient un défi. Dans ce travail, nous exploitons l'étiquetage pseudo-supervisé pour constituer un ensemble de données open-source à grande échelle, que nous utilisons pour distiller le modèle Whisper en une variante plus petite, appelée Distil-Whisper. En utilisant une heuristique simple basée sur le taux d'erreur sur les mots (WER), nous sélectionnons uniquement les pseudo-étiquettes de la plus haute qualité pour l'entraînement. Le modèle distillé est 5,8 fois plus rapide avec 51 % de paramètres en moins, tout en obtenant des performances à moins de 1 % de WER sur des données de test hors distribution dans un cadre de transfert zero-shot. Distil-Whisper conserve la robustesse du modèle Whisper face à des conditions acoustiques difficiles, tout en étant moins sujet aux erreurs d'hallucination sur des enregistrements audio de longue durée. Distil-Whisper est conçu pour être utilisé conjointement avec Whisper dans un cadre de décodage spéculatif, offrant une accélération de 2 fois tout en garantissant mathématiquement les mêmes sorties que le modèle original. Pour faciliter les recherches ultérieures dans ce domaine, nous rendons notre code d'entraînement, notre code d'inférence et nos modèles accessibles au public.
LLaVA-Interactive est un prototype de recherche pour l'interaction homme-IA multimodale. Le système peut engager des dialogues à plusieurs tours avec les utilisateurs humains en prenant des entrées multimodales et en générant des réponses multimodales. Fait important, LLaVA-Interactive va au-delà de l'invite linguistique, en permettant une invite visuelle pour aligner les intentions humaines dans l'interaction. Le développement de LLaVA-Interactive est extrêmement rentable, car le système combine trois compétences multimodales de modèles IA préexistants sans nécessiter d'entraînement supplémentaire : le chat visuel de LLaVA, la segmentation d'images de SEEM, ainsi que la génération et l'édition d'images de GLIGEN. Un ensemble diversifié de scénarios d'application est présenté pour démontrer les promesses de LLaVA-Interactive et inspirer de futures recherches sur les systèmes interactifs multimodaux.
Nous démontrons comment la génération conditionnelle à partir de modèles de diffusion peut être utilisée pour aborder une variété de tâches réalistes dans la production de musique en audio stéréo 44,1 kHz avec un guidage au moment de l'échantillonnage. Les scénarios que nous considérons incluent la continuation, l'inpainting et la régénération d'audio musical, la création de transitions fluides entre deux pistes musicales différentes, ainsi que le transfert de caractéristiques stylistiques souhaitées vers des clips audio existants. Nous y parvenons en appliquant un guidage au moment de l'échantillonnage dans un cadre simple qui prend en charge à la fois les pertes de reconstruction et de classification, ou toute combinaison des deux. Cette approche garantit que l'audio généré peut correspondre à son contexte environnant ou se conformer à une distribution de classe ou à une représentation latente spécifiée par rapport à tout classifieur ou modèle d'embedding pré-entraîné approprié.
Nous démontrons que le texte constitue une interface intermodale puissante. Plutôt que de s'appuyer sur des embeddings profonds pour connecter l'image et le langage comme représentation d'interface, notre approche représente une image sous forme de texte, ce qui nous permet de bénéficier de l'interprétabilité et de la flexibilité inhérentes au langage naturel. Nous utilisons un autoencodeur qui emploie un modèle de diffusion texte-image pré-entraîné pour le décodage. L'encodeur est entraîné à transformer une image d'entrée en texte, qui est ensuite introduit dans le décodeur de diffusion texte-image fixe pour reconstruire l'entrée originale - un processus que nous appelons Dé-Diffusion. Les expériences valident à la fois la précision et l'exhaustivité du texte de Dé-Diffusion pour représenter les images, de sorte qu'il peut être facilement utilisé par des outils texte-image prêts à l'emploi et des modèles de langage massifs (LLMs) pour diverses tâches multimodales. Par exemple, un seul modèle de Dé-Diffusion peut généraliser pour fournir des prompts transférables à différents outils texte-image, et établit également un nouvel état de l'art sur des tâches vision-langage ouvertes en utilisant simplement des exemples few-shot pour guider les grands modèles de langage.
La récente vague d'IA générative a suscité une attention mondiale sans précédent, mêlant enthousiasme et inquiétude face à des niveaux potentiellement surhumains d'intelligence artificielle : les modèles ne mettent désormais que quelques secondes à produire des résultats qui rivaliseraient ou dépasseraient les capacités même d'experts humains. Parallèlement, ces modèles continuent de commettre des erreurs basiques de compréhension qu'on ne s'attendrait pas à voir chez des humains non experts. Cela nous confronte à un paradoxe apparent : comment concilier des capacités apparemment surhumaines avec la persistance d'erreurs que peu d'humains commettraient ? Dans ce travail, nous postulons que cette tension reflète une divergence dans la configuration de l'intelligence des modèles génératifs actuels par rapport à l'intelligence humaine. Plus précisément, nous proposons et testons l'hypothèse du Paradoxe de l'IA Générative : les modèles génératifs, ayant été entraînés directement à reproduire des sorties de type expert, acquièrent des capacités génératives qui ne dépendent pas — et peuvent donc dépasser — leur capacité à comprendre ces mêmes types de sorties. Cela contraste avec les humains, pour qui une compréhension de base précède presque toujours la capacité à produire des résultats de niveau expert. Nous testons cette hypothèse à travers des expériences contrôlées analysant la génération versus la compréhension dans les modèles génératifs, à la fois dans les domaines du langage et de l'image. Nos résultats montrent que bien que les modèles puissent surpasser les humains en génération, ils restent systématiquement en deçà des capacités humaines en termes de compréhension, avec une corrélation plus faible entre les performances de génération et de compréhension, et une plus grande vulnérabilité aux entrées adverses. Nos conclusions soutiennent l'hypothèse que la capacité générative des modèles pourrait ne pas dépendre de leur capacité de compréhension, et appellent à la prudence dans l'interprétation de l'intelligence artificielle par analogie avec l'intelligence humaine.
Les modèles de langage basés sur les pixels traitent le texte rendu sous forme d'images, ce qui leur permet de gérer n'importe quel script, en faisant une approche prometteuse pour la modélisation du langage à vocabulaire ouvert. Cependant, les approches récentes utilisent des moteurs de rendu de texte qui produisent un grand ensemble de patches d'entrée quasi équivalents, ce qui peut s'avérer sous-optimal pour les tâches en aval, en raison de la redondance dans les représentations d'entrée. Dans cet article, nous étudions quatre approches de rendu de texte dans le modèle PIXEL (Rust et al., 2023), et constatons que le rendu simple de bigrammes de caractères améliore les performances sur les tâches au niveau de la phrase sans compromettre les performances sur les tâches au niveau des tokens ou multilingues. Cette nouvelle stratégie de rendu permet également d'entraîner un modèle plus compact avec seulement 22 millions de paramètres, qui performe à égalité avec le modèle original de 86 millions de paramètres. Nos analyses montrent que le rendu de bigrammes de caractères conduit à un modèle globalement meilleur mais avec un espace d'embedding de patches anisotrope, influencé par un biais de fréquence des patches, mettant en lumière les connexions entre les modèles de langage basés sur les patches d'images et ceux basés sur la tokenisation.
Les grands modèles de langage ont démontré de bonnes performances dans la génération de code pour répondre aux exigences humaines. Cependant, les exigences humaines exprimées en langage naturel peuvent être vagues, incomplètes et ambiguës, ce qui amène les grands modèles de langage à mal interpréter ces exigences et à commettre des erreurs. Pire encore, il est difficile pour un utilisateur humain d'affiner ces exigences. Pour aider les utilisateurs humains à affiner leurs exigences et améliorer les performances des grands modèles de langage en matière de génération de code, nous proposons ChatCoder : une méthode pour affiner les exigences via un dialogue avec les grands modèles de langage. Nous concevons un schéma de dialogue dans lequel les grands modèles de langage guideront les utilisateurs humains pour affiner l'expression de leurs exigences, les rendant ainsi plus précises, non ambiguës et complètes qu'auparavant. Les expériences montrent que ChatCoder a considérablement amélioré les performances des grands modèles de langage existants. De plus, ChatCoder présente des avantages par rapport aux méthodes basées sur l'affinement et aux grands modèles de langage affinés via des réponses humaines.
Les modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes sur diverses tâches en aval. Lors de l'entraînement de ces modèles, il y a une tendance croissante à traiter plus de tokens sur des échelles d'entraînement plus larges, mais avec des tailles de modèles relativement plus petites. L'optimiseur Zero Redundancy (ZeRO), bien qu'efficace dans les environnements d'entraînement conventionnels, rencontre des difficultés de mise à l'échelle face à ce nouveau paradigme. Pour répondre à cela, nous proposons un nouveau cadre d'entraînement pour les LLMs, appelé AMSP, qui effectue une partition granulaire des états du modèle, incluant les paramètres (P), le gradient (G) et les états de l'optimiseur (OS). Plus précisément, AMSP (1) construit un espace de partition unifié, permettant des stratégies de partition indépendantes pour P, G et OS ; (2) intègre un partitionneur sensible à l'échelle pour rechercher de manière autonome les stratégies de partition optimales ; (3) conçoit un optimiseur de communication dédié pour assurer une gestion efficace des écarts de placement de données résultant de diverses stratégies de partition. Nos évaluations montrent qu'AMSP atteint jusqu'à 90,3 % d'efficacité de mise à l'échelle sur 1024 GPU.
Les modèles vision-langage (VLMs) sont entraînés sur de vastes quantités de données capturées par les humains, imitant ainsi notre compréhension du monde. Cependant, comme le montrent les illusions d'optique, la perception humaine de la réalité ne correspond pas toujours fidèlement au monde physique. Cela soulève une question essentielle : les VLMs présentent-ils des illusions similaires à celles des humains, ou apprennent-ils à représenter la réalité de manière fidèle ? Pour explorer cette question, nous avons constitué un ensemble de données contenant cinq types d'illusions visuelles et formulé quatre tâches pour examiner ces illusions dans les VLMs de pointe. Nos résultats montrent que, bien que l'alignement global soit faible, les modèles plus volumineux se rapprochent davantage de la perception humaine et sont plus sensibles aux illusions visuelles. Notre ensemble de données et nos premières découvertes favoriseront une meilleure compréhension des illusions visuelles chez les humains et les machines, et serviront de tremplin pour de futurs modèles computationnels capables de mieux aligner les perceptions et les communications entre humains et machines concernant le monde visuel partagé. Le code et les données sont disponibles à l'adresse suivante : https://github.com/vl-illusion/dataset.