Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les capacités multimodales remarquables et l'expérience interactive de GPT-4o soulignent leur nécessité dans les applications pratiques, pourtant les modèles open-source excellent rarement dans ces deux domaines. Dans cet article, nous présentons VITA, le premier modèle de langage multimodal (MLLM) open-source capable de traiter et d'analyser simultanément les modalités Vidéo, Image, Texte et Audio, tout en offrant une expérience interactive multimodale avancée. En partant de Mixtral 8x7B comme fondation linguistique, nous avons étendu son vocabulaire chinois suivi d'un réglage d'instructions bilingues. Nous avons ensuite doté le modèle de langage de capacités visuelles et auditives grâce à un apprentissage multitâche en deux étapes d'alignement multimodal et de réglage d'instructions. VITA démontre des capacités fondamentales robustes en compréhension multilingue, visuelle et auditive, comme en témoigne sa forte performance sur une gamme de benchmarks unimodaux et multimodaux. Au-delà des capacités fondamentales, nous avons fait des progrès considérables dans l'amélioration de l'expérience naturelle d'interaction homme-machine multimodale. À notre connaissance, nous sommes les premiers à exploiter l'interaction sans réveil et l'interruption audio dans un MLLM. VITA est la première étape pour la communauté open-source afin d'explorer l'intégration transparente de la compréhension et de l'interaction multimodales. Bien qu'il reste encore beaucoup de travail à faire sur VITA pour se rapprocher des équivalents propriétaires, nous espérons que son rôle de pionnier pourra servir de pierre angulaire pour les recherches ultérieures. Page du projet : https://vita-home.github.io.
Les autoencodeurs parcimonieux (SAE) constituent une méthode non supervisée pour apprendre une décomposition parcimonieuse des représentations latentes d'un réseau neuronal en caractéristiques apparemment interprétables. Malgré l'enthousiasme récent suscité par leur potentiel, les applications de recherche en dehors de l'industrie sont limitées par le coût élevé de l'entraînement d'une suite complète de SAE. Dans ce travail, nous présentons Gemma Scope, une suite ouverte de SAE JumpReLU entraînés sur toutes les couches et sous-couches des modèles de base Gemma 2 2B et 9B, ainsi que sur certaines couches de Gemma 2 27B. Nous entraînons principalement les SAE sur les modèles pré-entraînés Gemma 2, mais nous publions également des SAE entraînés sur la version ajustée par instructions de Gemma 2 9B à des fins de comparaison. Nous évaluons la qualité de chaque SAE selon des métriques standard et publions ces résultats. Nous espérons qu'en publiant ces poids de SAE, nous pourrons faciliter des recherches plus ambitieuses en matière de sécurité et d'interprétabilité pour la communauté. Les poids et un tutoriel sont disponibles à l'adresse https://huggingface.co/google/gemma-scope, et une démonstration interactive est accessible à l'adresse https://www.neuronpedia.org/gemma-scope.
Les modèles de langage multi-modaux de grande taille (MLLMs) ont démontré des capacités remarquables dans l'exécution d'instructions pour une variété de tâches impliquant une seule image. Malgré ces progrès, des défis importants subsistent dans la modélisation de longues séquences d'images. Dans ce travail, nous présentons le modèle de langage multi-modal polyvalent, mPLUG-Owl3, qui améliore la capacité de compréhension des longues séquences d'images dans des scénarios intégrant des connaissances image-texte récupérées, des séquences intercalées image-texte et des vidéos longues. Plus précisément, nous proposons de nouveaux blocs d'hyper-attention pour intégrer efficacement la vision et le langage dans un espace sémantique commun guidé par le langage, facilitant ainsi le traitement de scénarios multi-images étendus. Les résultats expérimentaux approfondis suggèrent que mPLUG-Owl3 atteint des performances de pointe parmi les modèles de taille similaire sur des benchmarks d'image unique, d'images multiples et de vidéos. De plus, nous proposons une évaluation exigeante de longues séquences visuelles nommée Distractor Resistance pour évaluer la capacité des modèles à maintenir leur concentration malgré les distractions. Enfin, avec l'architecture proposée, mPLUG-Owl3 démontre des performances exceptionnelles sur des entrées de séquences visuelles ultra-longues. Nous espérons que mPLUG-Owl3 pourra contribuer au développement de modèles de langage multi-modaux de grande taille plus efficaces et puissants.
D'importants efforts de recherche ont été consacrés à l'optimisation et à l'amélioration des approches d'entraînement des modèles vision-langage (VLM). Cependant, avec un nombre croissant de benchmarks, les chercheurs sont confrontés à la lourde tâche d'implémenter chaque protocole, supportant un coût computationnel non négligeable, et cherchant à comprendre comment ces benchmarks traduisent des axes de progrès significatifs. Pour faciliter une évaluation systématique des avancées des VLM, nous introduisons UniBench : une implémentation unifiée de plus de 50 benchmarks VLM couvrant un large éventail de capacités soigneusement catégorisées, allant de la reconnaissance d'objets à la conscience spatiale, au décompte, et bien plus encore. Nous démontrons l'utilité d'UniBench pour mesurer les progrès en évaluant près de 60 modèles vision-langage disponibles publiquement, entraînés sur des jeux de données allant jusqu'à 12,8 milliards d'échantillons. Nous constatons que bien que l'augmentation des données d'entraînement ou de la taille du modèle puisse améliorer de nombreuses capacités des VLM, cette mise à l'échelle offre peu d'avantages pour le raisonnement ou les relations. Étonnamment, nous découvrons également que les meilleurs VLM actuels peinent sur des tâches simples de reconnaissance de chiffres et de décompte, comme MNIST, que des réseaux bien plus simples peuvent résoudre. Lorsque la mise à l'échelle montre ses limites, nous observons que des interventions plus précises, telles que l'amélioration de la qualité des données ou des objectifs d'apprentissage spécifiques, offrent de meilleures perspectives. Pour les praticiens, nous fournissons également des conseils pour sélectionner un VLM adapté à une application donnée. Enfin, nous mettons à disposition une base de code UniBench facile à exécuter, comprenant l'ensemble des 50+ benchmarks et les comparaisons entre 59 modèles, ainsi qu'un ensemble représentatif et condensé de benchmarks qui s'exécute en 5 minutes sur un seul GPU.
Les récents progrès des grands modèles de langage (LLMs) ont suscité un intérêt croissant pour la recherche sur les LLMs assistés par des outils afin de résoudre des défis du monde réel, ce qui nécessite une évaluation approfondie de leurs capacités à utiliser des outils. Alors que les travaux précédents se concentraient soit sur l'évaluation de services web sans état (API RESTful) basés sur une requête utilisateur unique, soit sur une trajectoire de dialogue hors politique, ToolSandbox intègre l'exécution d'outils avec état, des dépendances implicites entre les outils, un simulateur d'utilisateur intégré permettant une évaluation conversationnelle en politique, et une stratégie d'évaluation dynamique pour les étapes intermédiaires et finales sur une trajectoire arbitraire. Nous montrons qu'il existe un écart de performance significatif entre les modèles open source et propriétaires, et que des tâches complexes telles que la Dépendance d'État, la Canonicalisation et l'Information Insuffisante définies dans ToolSandbox posent des défis même aux LLMs les plus performants de l'état de l'art (SOTA), offrant ainsi de nouvelles perspectives sur les capacités des LLMs à utiliser des outils. Le cadre d'évaluation ToolSandbox est disponible à l'adresse suivante : https://github.com/apple/ToolSandbox.
Malgré les progrès prometteurs de la super-résolution d'images faciales, la super-résolution vidéo de visages reste relativement peu explorée. Les approches existantes adaptent soit des réseaux généraux de super-résolution vidéo aux ensembles de données de visages, soit appliquent des modèles établis de super-résolution d'images faciales de manière indépendante sur des trames vidéo individuelles. Ces paradigmes rencontrent des difficultés soit dans la reconstruction des détails faciaux, soit dans le maintien de la cohérence temporelle. Pour résoudre ces problèmes, nous introduisons un nouveau cadre appelé Propagation de Caractéristiques Inspirée de Kalman (KEEP), conçu pour maintenir un a priori facial stable dans le temps. Les principes de filtrage de Kalman offrent à notre méthode une capacité récurrente à utiliser les informations des trames précédemment restaurées pour guider et réguler le processus de restauration de la trame actuelle. Des expériences approfondies démontrent l'efficacité de notre méthode à capturer de manière cohérente les détails faciaux à travers les trames vidéo. Le code et une démonstration vidéo sont disponibles à l'adresse https://jnjaby.github.io/projects/KEEP.
L'Inversion Textuelle reste une méthode populaire pour personnaliser les modèles de diffusion, afin d'enseigner aux modèles de nouveaux sujets et styles. Nous constatons que l'inversion textuelle a été peu explorée avec des alternatives à l'UNet, et nous expérimentons l'inversion textuelle avec un transformeur visuel. Nous cherchons également à optimiser l'inversion textuelle en utilisant une stratégie qui ne nécessite pas l'utilisation explicite de l'UNet et de ses couches idiosyncrasiques, nous ajoutons donc des tokens bonus et appliquons une orthogonalité. Nous constatons que l'utilisation du token bonus améliore l'adhérence aux images sources, et que l'utilisation du transformeur visuel améliore l'adhérence au prompt. Le code est disponible à l'adresse https://github.com/jamesBaker361/tex_inv_plus.
Dans cet article, nous présentons MooER, un modèle de reconnaissance automatique de la parole (ASR) et de traduction automatique de la parole (AST) à grande échelle basé sur un LLM (Large Language Model) développé par Moore Threads. Un ensemble de données pseudo-étiquetées de 5000 heures, comprenant des données vocales open source et collectées par nos soins, est utilisé pour l'entraînement. Nous obtenons des performances comparables à celles d'autres modèles open source entraînés avec des centaines de milliers d'heures de données vocales étiquetées. Par ailleurs, les expériences menées sur le jeu de test Covost2 Zh2en indiquent que notre modèle surpasse les autres LLM vocaux open source, avec un score BLEU de 25,2. Les principales contributions de cet article sont résumées comme suit. Premièrement, nous présentons une stratégie d'entraînement pour les encodeurs et les LLM sur des tâches liées à la parole (incluant l'ASR et l'AST) en utilisant un petit volume de données pseudo-étiquetées, sans aucune annotation ou sélection manuelle supplémentaire. Deuxièmement, nous publions nos modèles ASR et AST et prévoyons de rendre open source notre code d'entraînement et notre stratégie dans un avenir proche. De plus, un modèle entraîné sur un ensemble de données de 8wh est prévu pour être publié ultérieurement.
La conversion vocale vise à modifier la voix du locuteur source pour qu'elle ressemble à celle du locuteur cible tout en préservant le contenu original du discours. Malgré des avancées notables dans le domaine de la conversion vocale ces dernières années, la conversion vocale multilingue (incluant à la fois les scénarios monolingues et translinguistiques) n'a pas encore été largement étudiée. Elle fait face à deux défis principaux : 1) la variabilité considérable dans la prosodie et les habitudes d'articulation entre les langues ; et 2) la rareté des ensembles de données multilingues appariées provenant du même locuteur. Dans cet article, nous proposons MulliVC, un nouveau système de conversion vocale qui ne convertit que le timbre et conserve le contenu original ainsi que la prosodie de la langue source, sans nécessiter de données multilingues appariées. Plus précisément, chaque étape d'entraînement de MulliVC comprend trois sous-étapes : dans la première étape, le modèle est entraîné avec des données vocales monolingues ; puis, les étapes deux et trois s'inspirent de la traduction inverse, construisant un processus cyclique pour dissocier le timbre des autres informations (contenu, prosodie et autres informations liées à la langue) en l'absence de données multilingues provenant du même locuteur. Les résultats objectifs et subjectifs indiquent que MulliVC surpasse significativement les autres méthodes dans les contextes monolingues et translinguistiques, démontrant l'efficacité du système et la viabilité de l'approche en trois étapes avec cohérence cyclique. Des échantillons audio sont disponibles sur notre page de démonstration (mullivc.github.io).
Les modèles de langage basés sur des réseaux de neurones (LMs) ont démontré leur capacité à capturer des connaissances linguistiques complexes. Cependant, leur utilité pour comprendre l'acquisition du langage reste débattue. Nous contribuons à ce débat en présentant une étude de cas où nous utilisons des LMs comme apprenants simulés pour dériver de nouvelles hypothèses expérimentales à tester avec des humains. Nous appliquons ce paradigme pour étudier la généralisation inter-dative (CDG) : la généralisation productive de nouveaux verbes à travers des constructions datives (elle m'a pilké la balle/elle a pilké la balle à moi) — dont l'acquisition est connue pour impliquer un large espace de caractéristiques contextuelles — en utilisant des LMs entraînés sur des discours adressés aux enfants. Nous posons spécifiquement la question : "quelles propriétés de l'exposition à l'entraînement facilitent la généralisation d'un nouveau verbe à la construction dative alternative (non modélisée) ?" Pour y répondre, nous faisons varier systématiquement le contexte d'exposition dans lequel un nouveau verbe datif apparaît, en termes des propriétés du thème et du destinataire, puis nous analysons l'utilisation du nouveau verbe par les LMs dans la construction dative non modélisée. Nous constatons que les LMs reproduisent les schémas connus de la CDG chez les enfants, une condition préalable à l'exploration de nouvelles hypothèses. Les simulations ultérieures révèlent un rôle nuancé des caractéristiques du contexte d'exposition des nouveaux verbes sur la CDG des LMs. Nous observons que la CDG est facilitée lorsque le premier argument postverbal du contexte d'exposition est pronominal, défini, court et conforme aux attentes typiques d'animacité du datif d'exposition. Ces schémas sont caractéristiques de l'alignement harmonique dans les datifs, où l'argument dont les caractéristiques se classent plus haut sur l'échelle de saillance discursive tend à précéder l'autre. Cela donne naissance à une nouvelle hypothèse selon laquelle la CDG est facilitée dans la mesure où les caractéristiques du contexte d'exposition — en particulier, son premier argument postverbal — sont harmoniquement alignées. Nous concluons en proposant de futures expériences pour tester cette hypothèse chez les enfants.