Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les autoencodeurs vidéo (Video AEs) ont considérablement amélioré la qualité et l'efficacité de la génération de vidéos. Dans cet article, nous proposons un autoencodeur vidéo novateur et compact, VidTwin, qui découple la vidéo en deux espaces latents distincts : des vecteurs latents de structure, qui capturent le contenu global et les mouvements globaux, et des vecteurs latents de dynamique, qui représentent les détails fins et les mouvements rapides. Plus précisément, notre approche exploite une architecture Encodeur-Décodeur, enrichie de deux sous-modules pour extraire respectivement ces espaces latents. Le premier sous-module utilise un Q-Former pour extraire les tendances de mouvement à basse fréquence, suivi de blocs de sous-échantillonnage pour éliminer les détails de contenu redondants. Le second module calcule la moyenne des vecteurs latents le long de la dimension spatiale pour capturer le mouvement rapide. Des expériences approfondies montrent que VidTwin atteint un taux de compression élevé de 0,20 % avec une qualité de reconstruction élevée (PSNR de 28,14 sur l'ensemble de données MCL-JCV), et fonctionne de manière efficace et performante dans les tâches génératives ultérieures. De plus, notre modèle démontre l'explicabilité et la scalabilité, ouvrant la voie à de futures recherches sur la représentation latente et la génération de vidéos. Notre code a été publié sur https://github.com/microsoft/VidTok/tree/main/vidtwin.
La pré-formation efficace des grands modèles de langage (LLM) a été un défi en raison des énormes besoins en ressources et de la complexité des processus techniques impliqués. Cet article présente un rapport technique détaillé sur YuLan-Mini, un modèle de base très performant avec 2,42 milliards de paramètres qui atteint des performances de premier plan parmi les modèles de taille de paramètre similaire. Notre approche de pré-formation se concentre sur l'amélioration de l'efficacité de l'entraînement à travers trois contributions techniques clés : un pipeline de données élaboré combinant le nettoyage des données avec des stratégies de planification des données, une méthode d'optimisation robuste pour atténuer l'instabilité de l'entraînement, et une approche d'adoucissement efficace qui intègre une sélection ciblée des données et un entraînement à long contexte. Remarquablement, YuLan-Mini, formé sur 1,08 billion de jetons, atteint des performances comparables à celles des modèles de pointe de l'industrie qui nécessitent significativement plus de données. Pour faciliter la reproduction, nous publions tous les détails de la composition des données pour chaque phase d'entraînement. Les détails du projet sont accessibles via le lien suivant : https://github.com/RUC-GSAI/YuLan-Mini.
Dans ce travail, nous proposons une investigation approfondie des méthodes de compression de contexte basées sur l'essentiel pour améliorer le traitement de longs contextes dans les grands modèles de langage. Nous nous concentrons sur deux questions clés : (1) Dans quelle mesure ces méthodes peuvent-elles remplacer les modèles d'attention complets ? et (2) Quels schémas de défaillance potentiels se manifestent en raison de la compression ? À travers des expériences approfondies, nous montrons que, bien que la compression basée sur l'essentiel puisse atteindre des performances quasi sans perte sur des tâches telles que la génération augmentée par récupération et les questions-réponses sur de longs documents, elle rencontre des défis dans des tâches comme le rappel synthétique. De plus, nous identifions trois schémas de défaillance clés : perdu par la frontière, perdu en cas de surprise et perdu en cours de route. Pour atténuer ces problèmes, nous proposons deux stratégies efficaces : l'autoencodage fin, qui améliore la reconstruction des informations de jeton d'origine, et l'estimation de l'importance des jetons par segment, qui ajuste l'optimisation en fonction des dépendances des jetons. Notre travail offre des perspectives précieuses pour la compréhension de la compression de contexte basée sur les jetons d'essentiel et propose des stratégies pratiques pour améliorer les capacités de compression.
Avec les progrès réalisés dans les modèles fondamentaux et vision-langage, ainsi que dans les techniques efficaces de fine-tuning, un grand nombre de modèles à la fois généraux et spécialisés ont été développés pour une variété de tâches visuelles. Malgré la flexibilité et l'accessibilité de ces modèles, aucun modèle unique n'est capable de gérer toutes les tâches et/ou applications qui pourraient être envisagées par les utilisateurs potentiels. Des approches récentes, telles que la programmation visuelle et les LLM multimodaux avec des outils intégrés, visent à relever des tâches visuelles complexes, par le biais de la synthèse de programmes. Cependant, de telles approches négligent les contraintes des utilisateurs (par exemple, les besoins en performance / calcul), produisent des solutions spécifiques aux échantillons au moment des tests qui sont difficiles à déployer, et parfois nécessitent des instructions de bas niveau qui peuvent dépasser les capacités d'un utilisateur novice. Pour remédier à ces limitations, nous introduisons MMFactory, un cadre universel qui comprend des composants de routage de modèles et de métriques, agissant comme un moteur de recherche de solutions à travers divers modèles disponibles. En fonction d'une description de tâche et de quelques paires d'entrées-sorties d'échantillons et (éventuellement) de contraintes de ressources et/ou de performances, MMFactory peut suggérer un ensemble diversifié de solutions programmatiques en instanciant et combinant des outils visio-linguaux de son référentiel de modèles. En plus de synthétiser ces solutions, MMFactory propose également des métriques et évalue les performances / caractéristiques des ressources, permettant aux utilisateurs de choisir une solution qui répond à leurs contraintes de conception uniques. D'un point de vue technique, nous avons également introduit un proposant de solutions basé sur un comité qui exploite une conversation LLM multi-agent pour générer des solutions exécutables, diversifiées, universelles et robustes pour l'utilisateur. Les résultats expérimentaux montrent que MMFactory surpasse les méthodes existantes en fournissant des solutions de pointe adaptées aux spécifications des problèmes des utilisateurs. La page du projet est disponible sur https://davidhalladay.github.io/mmfactory_demo.
Les systèmes de recommandation séquentielle (SR) ont considérablement évolué au cours de la dernière décennie, passant des filtres collaboratifs traditionnels aux approches d'apprentissage profond, et plus récemment, aux grands modèles de langage (LLM). Alors que l'adoption des LLM a entraîné des avancées substantielles, ces modèles manquent intrinsèquement d'informations de filtrage collaboratif, se basant principalement sur des données de contenu textuel en négligeant d'autres modalités et échouant ainsi à atteindre des performances de recommandation optimales. Pour remédier à cette limitation, nous proposons Molar, un cadre de recommandation séquentielle multimodal de grand langage qui intègre de multiples modalités de contenu avec des informations d'identification pour capturer efficacement des signaux collaboratifs. Molar utilise un MLLM pour générer des représentations unifiées d'éléments à partir de données textuelles et non textuelles, facilitant une modélisation multimodale complète et enrichissant les plongements d'éléments. De plus, il intègre des signaux de filtrage collaboratif grâce à un mécanisme de post-alignement, qui aligne les représentations d'utilisateurs des modèles basés sur le contenu et sur l'ID, garantissant une personnalisation précise et des performances robustes. En combinant de manière transparente du contenu multimodal avec des informations de filtrage collaboratif, Molar capture à la fois les intérêts des utilisateurs et la sémantique contextuelle, conduisant à une précision de recommandation supérieure. Des expériences approfondies valident que Molar surpasse significativement les références traditionnelles et basées sur les LLM, mettant en évidence sa force dans l'utilisation de données multimodales et de signaux collaboratifs pour les tâches de recommandation séquentielle. Le code source est disponible sur https://anonymous.4open.science/r/Molar-8B06/.