Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article présente l'architecture Block Transformer, qui adopte une modélisation hiérarchique globale à locale pour les transformeurs autorégressifs afin d'atténuer les goulots d'étranglement liés à l'inférence de l'auto-attention. Pour appliquer l'auto-attention, le cache clé-valeur (KV) de toutes les séquences précédentes doit être récupéré en mémoire à chaque étape de décodage. Ainsi, cette opération d'entrée-sortie du cache KV devient un goulot d'étranglement majeur dans l'inférence par lots. Nous remarquons que ces coûts découlent de l'application de l'auto-attention sur le contexte global, c'est pourquoi nous isolons les goulots d'étranglement coûteux de la modélisation globale dans les couches inférieures et appliquons une modélisation locale rapide dans les couches supérieures. Pour atténuer les coûts restants dans les couches inférieures, nous regroupons les tokens d'entrée en blocs de taille fixe, puis appliquons l'auto-attention à ce niveau grossier. Les informations contextuelles sont agrégées en un seul embedding pour permettre aux couches supérieures de décoder le prochain bloc de tokens sans attention globale. Libérées des goulots d'étranglement de l'attention globale, les couches supérieures peuvent pleinement exploiter le matériel de calcul pour maximiser le débit d'inférence. En tirant parti des modules globaux et locaux, l'architecture Block Transformer démontre des gains de 10 à 20 fois en termes de débit d'inférence par rapport aux transformeurs classiques avec une perplexité équivalente. Notre travail introduit une nouvelle approche pour optimiser l'inférence des modèles de langage grâce à une application novatrice de la modélisation globale à locale. Le code est disponible à l'adresse https://github.com/itsnamgyu/block-transformer.
Le développement rapide des modèles de langage multimodaux de grande taille (MLLMs) comme GPT-4V marque une étape significative vers l'intelligence artificielle générale. Les méthodes existantes se concentrent principalement sur l'alignement des encodeurs visuels avec les modèles de langage (LLMs) par le biais d'un ajustement fin supervisé (SFT) pour doter les LLMs de capacités multimodales, ce qui entraîne une détérioration progressive de la capacité intrinsèque des MLLMs à réagir à plusieurs langues au fil du processus d'entraînement. Nous constatons empiriquement que les ensembles de données SFT déséquilibrés, principalement composés de paires image-texte centrées sur l'anglais, conduisent à une réduction significative des performances dans les langues non anglaises. Cela est dû à l'échec de l'alignement de l'encodeur visuel et du LLM avec des tokens multilingues pendant le processus SFT. Dans cet article, nous présentons Parrot, une méthode novatrice qui utilise des instructions textuelles pour piloter l'alignement des tokens visuels au niveau linguistique. Parrot conditionne les tokens visuels sur des entrées linguistiques variées et utilise un mélange d'experts (MoE) pour favoriser l'alignement des tokens multilingues. Plus précisément, pour améliorer l'alignement des tokens visuels non anglais, nous calculons l'attention croisée en utilisant les caractéristiques visuelles initiales et les embeddings textuels, dont le résultat est ensuite introduit dans le routeur MoE pour sélectionner les experts les plus pertinents. Les experts sélectionnés convertissent ensuite les tokens visuels initiaux en tokens visuels spécifiques à la langue. Par ailleurs, compte tenu du manque actuel de benchmarks pour évaluer les capacités multilingues dans ce domaine, nous collectons et mettons à disposition un Massive Multilingual Multimodal Benchmark (MMMB) qui inclut 6 langues, 15 catégories et 12 000 questions. Notre méthode démontre non seulement des performances de pointe sur les benchmarks multilingues MMBench et MMMB, mais excelle également dans un large éventail de tâches multimodales. Le code source et l'ensemble de données d'entraînement de Parrot seront rendus publics.
Les tâches d'opération sur appareils mobiles deviennent de plus en plus un scénario d'application multi-modale populaire pour l'IA. Les modèles de langage multi-modaux de grande taille (MLLMs) actuels, limités par leurs données d'entraînement, manquent de la capacité à fonctionner efficacement comme assistants d'opération. À la place, les agents basés sur MLLM, qui améliorent leurs capacités par l'invocation d'outils, sont progressivement appliqués à ce scénario. Cependant, les deux principaux défis de navigation dans les tâches d'opération sur appareils mobiles, la navigation dans la progression des tâches et la navigation dans le contenu focalisé, sont considérablement compliqués sous l'architecture mono-agent des travaux existants. Cela est dû aux séquences de tokens excessivement longues et au format de données texte-image entrelacé, qui limitent les performances. Pour relever efficacement ces défis de navigation, nous proposons Mobile-Agent-v2, une architecture multi-agent pour l'assistance aux opérations sur appareils mobiles. L'architecture comprend trois agents : l'agent de planification, l'agent de décision et l'agent de réflexion. L'agent de planification génère la progression des tâches, rendant la navigation dans l'historique des opérations plus efficace. Pour conserver le contenu focalisé, nous concevons une unité de mémoire qui se met à jour avec la progression des tâches. De plus, pour corriger les opérations erronées, l'agent de réflexion observe les résultats de chaque opération et traite les erreurs en conséquence. Les résultats expérimentaux indiquent que Mobile-Agent-v2 améliore de plus de 30 % l'accomplissement des tâches par rapport à l'architecture mono-agent de Mobile-Agent. Le code est open-source à l'adresse https://github.com/X-PLUG/MobileAgent.
Les méthodes existantes de création 3D à partir d'une seule image impliquent généralement un processus en deux étapes : d'abord la génération d'images multi-vues, puis l'utilisation de ces images pour la reconstruction 3D. Cependant, l'entraînement séparé de ces deux étapes entraîne un biais de données significatif lors de la phase d'inférence, affectant ainsi la qualité des résultats reconstruits. Nous introduisons un cadre unifié de génération 3D, nommé Ouroboros3D, qui intègre la génération d'images multi-vues basée sur la diffusion et la reconstruction 3D dans un processus de diffusion récursif. Dans notre cadre, ces deux modules sont entraînés conjointement via un mécanisme d'auto-conditionnement, leur permettant de s'adapter mutuellement pour une inférence robuste. Durant le processus de débruitage multi-vues, le modèle de diffusion multi-vues utilise les cartes 3D-aware rendues par le module de reconstruction à l'étape précédente comme conditions supplémentaires. Le cadre de diffusion récursive avec rétroaction 3D-aware unifie l'ensemble du processus et améliore la cohérence géométrique. Les expériences montrent que notre cadre surpasse la séparation de ces deux étapes ainsi que les méthodes existantes qui les combinent lors de la phase d'inférence. Page du projet : https://costwen.github.io/Ouroboros3D/
Les Transformers sont rapidement devenus le choix privilégié pour la classification audio, surpassant les méthodes basées sur les CNN. Cependant, les Audio Spectrogram Transformers (AST) présentent une complexité quadratique due à l'auto-attention. L'élimination de ce coût quadratique lié à l'auto-attention représente une direction prometteuse. Récemment, les modèles à espace d'états (SSM), tels que Mamba, ont démontré leur potentiel dans les tâches de langage et de vision à cet égard. Dans cette étude, nous explorons si la dépendance à l'auto-attention est nécessaire pour les tâches de classification audio. En introduisant Audio Mamba (AuM), le premier modèle sans auto-attention, entièrement basé sur les SSM pour la classification audio, nous cherchons à répondre à cette question. Nous évaluons AuM sur divers ensembles de données audio - comprenant six benchmarks différents - où il atteint des performances comparables ou supérieures à celles du modèle AST bien établi.
La génération de mise en page est la pierre angulaire pour atteindre la conception graphique automatisée, nécessitant l'arrangement de la position et de la taille de divers éléments de conception multimodaux de manière visuellement agréable et respectueuse des contraintes. Les approches précédentes sont soit inefficaces pour les applications à grande échelle, soit manquent de flexibilité pour répondre à des exigences de conception variées. Notre recherche introduit un cadre unifié pour la génération automatisée de mises en page graphiques, exploitant le modèle de langage multimodal à grande échelle (MLLM) pour s'adapter à diverses tâches de conception. En revanche, notre méthode basée sur les données utilise du texte structuré (format JSON) et un réglage par instructions visuelles pour générer des mises en page sous des contraintes visuelles et textuelles spécifiques, y compris des spécifications en langage naturel définies par l'utilisateur. Nous avons mené des expériences approfondies et obtenu des performances de pointe (SOTA) sur des benchmarks publics de génération de mises en page multimodales, démontrant l'efficacité de notre méthode. De plus, reconnaissant les limites des ensembles de données existants pour capturer la complexité des conceptions graphiques du monde réel, nous proposons deux nouveaux ensembles de données pour des tâches bien plus difficiles (génération contrainte par l'utilisateur et affiche complexe), validant davantage l'utilité de notre modèle dans des contextes réels. Marquée par sa supériorité en termes d'accessibilité et d'adaptabilité, cette approche automatise davantage les tâches de conception graphique à grande échelle. Le code et les ensembles de données seront disponibles publiquement sur https://github.com/posterllava/PosterLLaVA.
Les travaux antérieurs ont démontré la capacité de synthèse vocale en zero-shot en utilisant un modèle de langage génératif sur des tokens audio obtenus via un codec audio neuronal. Cependant, il reste difficile de les adapter à des scénarios à faible latence. Dans cet article, nous présentons LiveSpeech - une approche entièrement autoregressive basée sur un modèle de langage pour la synthèse vocale en zero-shot, permettant un streaming à faible latence de l'audio généré. Pour permettre la prédiction de plusieurs tokens en une seule étape de décodage, nous proposons (1) d'utiliser des pondérations de perte adaptatives pour les codebooks qui prennent en compte la contribution de chaque codebook dans chaque trame et se concentrent sur les instances difficiles, et (2) de regrouper les codebooks et de les traiter en parallèle. Les expériences montrent que nos modèles proposés obtiennent des résultats compétitifs par rapport aux approches de l'état de l'art en termes de précision du contenu, similarité du locuteur, qualité audio et vitesse d'inférence, tout en étant adaptés aux applications de streaming à faible latence.
Les avancées significatives dans les modèles de diffusion vidéo ont apporté des progrès substantiels dans le domaine de la synthèse texte-à-vidéo (T2V). Cependant, les modèles de synthèse T2V existants peinent à générer avec précision des dynamiques de mouvement complexes, ce qui réduit le réalisme des vidéos. Une solution possible consiste à collecter des données massives et à entraîner le modèle sur celles-ci, mais cela serait extrêmement coûteux. Pour atténuer ce problème, dans cet article, nous reformulons le processus typique de génération T2V en un pipeline de génération basé sur la recherche. Au lieu de mettre à l'échelle l'entraînement du modèle, nous utilisons des vidéos existantes comme base de données de mouvements a priori. Plus précisément, nous divisons le processus de génération T2V en deux étapes : (i) Pour une entrée de prompt donnée, nous recherchons dans les ensembles de données texte-vidéo existants des vidéos dont les étiquettes textuelles correspondent étroitement aux mouvements du prompt. Nous proposons un algorithme de recherche sur mesure qui met l'accent sur les caractéristiques de mouvement des objets. (ii) Les vidéos récupérées sont traitées et distillées en mouvements a priori pour affiner un modèle T2V de base pré-entraîné, suivi de la génération des vidéos souhaitées à l'aide du prompt d'entrée. En utilisant les a priori extraits des vidéos recherchées, nous améliorons le réalisme des mouvements des vidéos générées. Toutes les opérations peuvent être effectuées sur une seule carte graphique NVIDIA RTX 4090. Nous validons notre méthode par rapport aux modèles T2V de pointe sur divers prompts d'entrée. Le code sera rendu public.
L'apprentissage par renforcement à partir de retours humains (RLHF) a été crucial pour le succès récent des grands modèles de langage (LLMs), mais il s'agit souvent d'un processus complexe et fragile. Dans le cadre classique du RLHF, un modèle de récompense est d'abord entraîné pour représenter les préférences humaines, qui est ensuite utilisé par un algorithme d'apprentissage par renforcement (RL) en ligne pour optimiser le LLM. Un problème majeur avec ces méthodes est la sur-optimisation ou le détournement des récompenses, où la performance mesurée par le modèle de récompense appris augmente, mais la qualité réelle stagne ou même se détériore. Les algorithmes d'alignement direct (DAAs) comme l'optimisation directe des préférences ont émergé comme alternatives au pipeline classique du RLHF en contournant la phase de modélisation des récompenses. Cependant, bien que les DAAs n'utilisent pas de modèle de récompense proxy séparé, ils se détériorent encore souvent à cause de la sur-optimisation. Bien que le phénomène de détournement des récompenses ne soit pas bien défini pour les DAAs, nous observons des tendances similaires : à des budgets KL plus élevés, les algorithmes DAAs présentent des schémas de dégradation similaires à leurs homologues classiques du RLHF. En particulier, nous constatons que les méthodes DAAs se détériorent non seulement sur une large gamme de budgets KL, mais aussi souvent avant même qu'une seule époque du jeu de données ne soit terminée. À travers une expérimentation empirique approfondie, ce travail formule et formalise le problème de sur-optimisation ou de détournement des récompenses pour les DAAs et explore ses conséquences à travers les objectifs, les régimes d'entraînement et les échelles de modèles.
Les modèles de langage à grande échelle (LLM) ont connu un succès remarquable dans des tâches telles que la compréhension de dialogues complexes, le raisonnement et la programmation, grâce à leurs capacités émergentes. Ces capacités émergentes ont été étendues à la multimodalité pour inclure des fonctionnalités liées aux images, à l'audio et à la vidéo. D'un autre côté, les systèmes de recommandation ont joué un rôle crucial pour répondre aux besoins de recherche d'information et de découverte d'éléments. Récemment, des tentatives ont été faites pour appliquer les LLM aux recommandations. Une difficulté des approches actuelles est que le LLM sous-jacent n'est généralement pas entraîné sur les données des systèmes de recommandation, qui contiennent principalement des signaux d'interaction utilisateur et ne sont souvent pas disponibles publiquement. Une autre difficulté est que les signaux d'interaction utilisateur présentent souvent un modèle différent de celui du texte en langage naturel, et il n'est pas clair si le cadre d'entraînement des LLM peut apprendre des connaissances plus complexes à partir de ces signaux par rapport aux méthodes traditionnelles des systèmes de recommandation. Enfin, il est difficile d'entraîner plusieurs LLM pour différents cas d'utilisation tout en conservant les capacités linguistiques et de raisonnement d'origine lors de l'apprentissage à partir des données des systèmes de recommandation. Pour répondre à ces trois limitations, nous proposons un Modèle Langage-Objet (ILM), composé d'un encodeur d'objets pour produire des représentations d'objets alignées sur le texte qui encodent les signaux d'interaction utilisateur, et d'un LLM figé capable de comprendre ces représentations d'objets tout en conservant les connaissances pré-entraînées. Nous menons des expériences approfondies qui démontrent à la fois l'importance de l'alignement linguistique et de la connaissance des interactions utilisateur dans l'encodeur d'objets.
Les grands modèles de langage (LLM) ont démontré des capacités impressionnantes dans diverses tâches, mais leurs tailles de paramètres importantes limitent leur applicabilité dans des environnements à ressources contraintes. La distillation de connaissances (KD) offre une solution viable en transférant l'expertise des grands modèles enseignants vers des modèles étudiants compacts. Cependant, les techniques traditionnelles de KD rencontrent des défis spécifiques lorsqu'elles sont appliquées aux LLM, notamment un accès restreint aux sorties des LLM, des écarts significatifs de capacité entre enseignant et étudiant, et le problème hérité de mauvaise calibration. Dans ce travail, nous présentons PLaD, un nouveau cadre de distillation de LLM basé sur les préférences. PLaD exploite la différence de capacité entre enseignant et étudiant pour générer des paires de pseudo-préférences où les sorties de l'enseignant sont préférées à celles de l'étudiant. Ensuite, PLaD utilise une fonction de perte de classement pour recalibrer l'estimation de la vraisemblance des séquences par l'étudiant, ce qui oriente l'attention de l'étudiant vers la compréhension de la qualité relative des sorties plutôt que de simplement imiter l'enseignant. PLaD contourne le besoin d'accéder aux états internes du LLM enseignant, aborde les limitations d'expressivité de l'étudiant et atténue le problème de mauvaise calibration de l'étudiant. À travers des expériences approfondies sur deux tâches de génération de séquences et avec divers LLM, nous démontrons l'efficacité de notre cadre PLaD proposé.
Nous présentons Xmodel-LM, un modèle de langage compact et efficace de 1,1 milliard de paramètres, pré-entraîné sur plus de 2 000 milliards de tokens. Formé sur notre propre jeu de données (Xdata), qui équilibre les corpus chinois et anglais en fonction de l'optimisation des tâches en aval, Xmodel-LM démontre des performances remarquables malgré sa taille réduite. Il surpasse notamment les modèles de langage open source existants de taille similaire. Les points de contrôle de notre modèle ainsi que le code sont accessibles publiquement sur GitHub à l'adresse suivante : https://github.com/XiaoduoAILab/XmodelLM.