Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons un rapport complet sur la compression des modèles Llama 3.1 8B et Mistral NeMo 12B en paramètres 4B et 8B, respectivement, en utilisant la technique de pruning et de distillation. Nous explorons deux stratégies de pruning distinctes : (1) le pruning en profondeur et (2) le pruning conjoint des couches cachées/attention/MLP (largeur), et évaluons les résultats sur des benchmarks courants de l'évaluation LM Harness. Les modèles sont ensuite alignés avec NeMo Aligner et testés dans des versions ajustées à l'instruction. Cette approche produit un modèle 4B convaincant à partir de Llama 3.1 8B et un modèle Mistral-NeMo-Minitron-8B de pointe (abrégé MN-Minitron-8B) à partir de Mistral NeMo 12B. Nous avons constaté qu'en l'absence d'accès aux données originales, il est bénéfique de légèrement affiner les modèles enseignants sur l'ensemble de données de distillation. Nous mettons nos poids de modèle de base en open source sur Hugging Face avec une licence permissive.
Dans ce travail, nous discutons de l'évaluation des modèles fondamentaux de vidéos de manière équitable et robuste. Contrairement aux modèles fondamentaux de langage ou d'images, de nombreux modèles fondamentaux de vidéos sont évalués avec des paramètres différents (comme le taux d'échantillonnage, le nombre d'images, les étapes de pré-entraînement, etc.), ce qui rend les comparaisons équitables et robustes difficiles. Par conséquent, nous présentons un cadre d'évaluation soigneusement conçu pour mesurer deux capacités essentielles de la compréhension des vidéos : l'apparence et la compréhension du mouvement. Nos résultats révèlent que les modèles fondamentaux de vidéos existants, qu'ils soient supervisés par texte comme UMT ou InternVideo2, ou auto-supervisés comme V-JEPA, présentent des limitations dans au moins l'une de ces capacités. En alternative, nous introduisons TWLV-I, un nouveau modèle fondamental de vidéos qui construit des représentations visuelles robustes pour les vidéos basées à la fois sur le mouvement et l'apparence. Basé sur la précision moyenne du top-1 de la sonde linéaire sur cinq bancs d'essai de reconnaissance d'actions, pré-entraîné uniquement sur des ensembles de données accessibles au public, notre modèle montre une amélioration de 4,6 % par rapport à V-JEPA (ViT-L) et une amélioration de 7,7 % par rapport à UMT (ViT-L). Même en comparaison avec des modèles beaucoup plus grands, notre modèle démontre une amélioration de 7,2 % par rapport à DFN (ViT-H), une amélioration de 2,7 % par rapport à V-JEPA (ViT-H) et une amélioration de 2,8 % par rapport à InternVideo2 (ViT-g). Nous fournissons des vecteurs d'incorporation obtenus par TWLV-I à partir de vidéos de plusieurs bancs d'essai de vidéos couramment utilisés, ainsi que le code source d'évaluation qui peut utiliser directement ces incorporations. Le code est disponible sur "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Donner aux LLM la capacité d'utiliser des informations utiles à partir d'un long contexte est crucial pour de nombreuses applications en aval. Cependant, atteindre des longueurs de contexte étendues avec l'architecture de transformer conventionnelle nécessite des ressources de formation et d'inférence substantielles. Dans cet article, nous présentons FocusLLM, un cadre conçu pour étendre la longueur du contexte de n'importe quel LLM à décodeur unique, permettant au modèle de se concentrer sur des informations pertinentes à partir de séquences très longues. FocusLLM traite les entrées de texte long en les divisant en morceaux basés sur la longueur de contexte originale du modèle pour atténuer le problème de la distraction de l'attention. Ensuite, il ajoute le contexte local à chaque morceau en tant que directive pour extraire des informations essentielles de chaque morceau en se basant sur un mécanisme de décodage parallèle novateur, et intègre finalement les informations extraites dans le contexte local. FocusLLM se distingue par une grande efficacité de formation et une grande polyvalence : formé avec une longueur d'entrée de 8K avec un coût de formation bien inférieur à celui des méthodes précédentes, FocusLLM présente des performances supérieures dans les tâches en aval à long contexte et maintient une forte capacité de modélisation linguistique lors de la manipulation de textes longs étendus, allant jusqu'à 400K jetons. Notre code est disponible sur https://github.com/leezythu/FocusLLM.
Les dernières années ont vu des progrès substantiels dans la génération de vidéos contrôlables basée sur la diffusion. Cependant, obtenir un contrôle précis dans des scénarios complexes, incluant des parties d'objets à grain fin, des trajectoires de mouvement sophistiquées et un mouvement de fond cohérent, reste un défi. Dans cet article, nous présentons TrackGo, une nouvelle approche qui exploite des masques et des flèches de forme libre pour la génération conditionnelle de vidéos. Cette méthode offre aux utilisateurs un mécanisme flexible et précis pour manipuler le contenu vidéo. Nous proposons également le TrackAdapter pour l'implémentation du contrôle, un adaptateur efficace et léger conçu pour être intégré de manière transparente dans les couches d'auto-attention temporelle d'un modèle de génération vidéo pré-entraîné. Cette conception exploite notre observation selon laquelle la carte d'attention de ces couches peut activer avec précision les régions correspondant au mouvement dans les vidéos. Nos résultats expérimentaux démontrent que notre nouvelle approche, améliorée par le TrackAdapter, atteint des performances de pointe sur des métriques clés telles que les scores FVD, FID et ObjMC. La page du projet TrackGo est disponible sur : https://zhtjtcz.github.io/TrackGo-Page/
Les grands modèles multimodaux (LMM) ont montré des compétences dans de nombreuses tâches visuelles. Bien qu'il existe de nombreux benchmarks bien connus pour évaluer les performances des modèles, ceux-ci atteignent de plus en plus leurs limites. Ainsi, il est urgent de créer une nouvelle génération de benchmarks suffisamment stimulants pour la prochaine génération de LMM. Un domaine dans lequel les LMM montrent un potentiel est l'analyse de graphes, en particulier les tâches qu'un analyste pourrait généralement effectuer lors de l'interprétation de figures, telles que l'estimation de la moyenne, des intercepts ou des corrélations de fonctions et de séries de données. Dans ce travail, nous présentons GRAB, un benchmark d'analyse de graphes, adapté aux LMM actuels et futurs de pointe. Notre benchmark est entièrement synthétique, garantissant des questions de haute qualité et sans bruit. GRAB est composé de 2170 questions, couvrant quatre tâches et 23 propriétés de graphes. Nous évaluons 20 LMM sur GRAB, constatant qu'il s'agit d'un benchmark stimulant, le modèle le plus performant n'atteignant qu'un score de 21,7 %. Enfin, nous menons diverses ablations pour étudier les points forts et les difficultés des modèles. Nous publions GRAB pour encourager les progrès dans ce domaine important et en pleine croissance.
Les modèles de diffusion texte-vers-image (T2I) ont démontré des capacités impressionnantes dans la génération d'images de haute qualité à partir d'une consigne textuelle. Cependant, garantir l'alignement entre la consigne et l'image reste un défi considérable, c'est-à-dire générer des images qui correspondent fidèlement à la sémantique de la consigne. Des travaux récents tentent d'améliorer cette fidélité en optimisant le code latent, ce qui pourrait potentiellement entraîner une sortie du code latent de la distribution et ainsi produire des images irréalistes. Dans cet article, nous proposons FRAP, une approche simple mais efficace basée sur l'ajustement adaptatif des poids de consigne par token pour améliorer l'alignement consigne-image et l'authenticité des images générées. Nous concevons un algorithme en ligne pour mettre à jour de manière adaptative le coefficient de poids de chaque token, ce qui est réalisé en minimisant une fonction objective unifiée qui favorise la présence d'objets et la liaison des paires objet-modificateur. À travers des évaluations approfondies, nous montrons que FRAP génère des images avec un alignement consigne-image significativement plus élevé par rapport aux consignes provenant de jeux de données complexes, tout en ayant une latence moyenne plus faible par rapport aux méthodes récentes d'optimisation du code latent, par exemple, 4 secondes plus rapide que D&B sur le jeu de données COCO-Subject. De plus, à travers des comparaisons visuelles et des évaluations sur la métrique CLIP-IQA-Real, nous montrons que FRAP améliore non seulement l'alignement consigne-image mais génère également des images plus authentiques avec des apparences réalistes. Nous explorons également la combinaison de FRAP avec la réécriture de consignes LLM pour récupérer leur alignement consigne-image dégradé, où nous observons des améliorations à la fois dans l'alignement consigne-image et la qualité de l'image.
Les systèmes modernes d'apprentissage automatique reposent sur de vastes ensembles de données pour atteindre une généralisation étendue, ce qui pose souvent un défi dans l'apprentissage robotique, où chaque plateforme et tâche robotique peuvent disposer de seulement un petit ensemble de données. En entraînant une seule politique sur de nombreux types de robots différents, une méthode d'apprentissage robotique peut exploiter des ensembles de données beaucoup plus vastes et diversifiés, ce qui peut à son tour conduire à une meilleure généralisation et robustesse. Cependant, entraîner une seule politique sur des données multi-robots est difficile car les robots peuvent avoir des capteurs, actionneurs et fréquences de contrôle très variés. Nous proposons CrossFormer, une politique basée sur un transformateur évolutive et flexible qui peut traiter des données provenant de n'importe quelle incarnation. Nous entraînons CrossFormer sur le plus grand et le plus diversifié ensemble de données à ce jour, soit 900 000 trajectoires à travers 20 incarnations de robots différentes. Nous démontrons que les mêmes poids de réseau peuvent contrôler des robots très différents, y compris des systèmes de manipulation à un ou deux bras, des robots à roues, des quadricoptères et des quadrupèdes. Contrairement aux travaux antérieurs, notre modèle ne nécessite pas d'alignement manuel des espaces d'observation ou d'action. Des expériences approfondies dans le monde réel montrent que notre méthode égale les performances des politiques spécialisées adaptées à chaque incarnation, tout en surpassant significativement l'état de l'art précédent en matière d'apprentissage inter-incarnations.
Nous abordons un défi persistant dans les modèles texte-image : générer avec précision un nombre spécifié d'objets. Les modèles actuels, qui apprennent à partir de paires image-texte, ont intrinsèquement des difficultés avec le décompte, car les données d'entraînement ne peuvent pas représenter tous les nombres possibles d'objets pour un objet donné. Pour résoudre cela, nous proposons d'optimiser l'image générée en fonction d'une perte de décompte dérivée d'un modèle de décompte qui agrège le potentiel d'un objet. Utiliser un modèle de décompte prêt à l'emploi est difficile pour deux raisons : premièrement, le modèle nécessite un hyperparamètre d'échelle pour l'agrégation du potentiel qui varie en fonction du point de vue des objets, et deuxièmement, les techniques de guidage des classificateurs nécessitent des modèles modifiés qui fonctionnent sur des étapes de diffusion intermédiaires bruyantes. Pour relever ces défis, nous proposons un mode d'entraînement en ligne itéré qui améliore la précision des images inférées tout en modifiant l'incorporation de conditionnement du texte et en ajustant dynamiquement les hyperparamètres. Notre méthode offre trois avantages clés : (i) elle peut prendre en compte des techniques de décompte non dérivables basées sur des modèles de détection, (ii) c'est une solution plug-and-play zéro-shot facilitant des changements rapides aux techniques de décompte et aux méthodes de génération d'images, et (iii) le jeton de décompte optimisé peut être réutilisé pour générer des images précises sans optimisation supplémentaire. Nous évaluons la génération de divers objets et montrons des améliorations significatives en termes de précision. La page du projet est disponible sur https://ozzafar.github.io/count_token.
La détection des données hors distribution (OOD) est cruciale dans les applications d'apprentissage automatique pour atténuer le risque de surconfiance du modèle, améliorant ainsi la fiabilité et la sécurité des systèmes déployés. La majorité des méthodes de détection OOD existantes traitent principalement des entrées unimodales, telles que les images ou les textes. Dans le contexte des documents multimodaux, il existe un manque notable de recherche approfondie sur les performances de ces méthodes, qui ont principalement été développées en se concentrant sur les tâches de vision par ordinateur. Nous proposons une méthodologie novatrice appelée masquage de tête d'attention (AHM) pour les tâches OOD multimodales dans les systèmes de classification de documents. Nos résultats empiriques démontrent que la méthode AHM proposée surpasse toutes les approches de pointe et réduit significativement le taux de faux positifs (FPR) par rapport aux solutions existantes jusqu'à 7,5\%. Cette méthodologie se généralise bien aux données multimodales, telles que les documents, où les informations visuelles et textuelles sont modélisées sous la même architecture Transformer. Pour pallier le manque de jeux de données de documents de haute qualité disponibles publiquement et encourager davantage la recherche sur la détection OOD pour les documents, nous introduisons FinanceDocs, un nouveau jeu de données d'IA documentaire. Notre code et notre jeu de données sont disponibles publiquement.
Les systèmes de recherche visuelle rencontrent des défis importants lors de la mise à jour des modèles avec des représentations améliorées en raison du désalignement entre les anciennes et nouvelles représentations. Le processus de rétro-remplissage coûteux et intensif en ressources implique le recalcul des vecteurs de caractéristiques pour les images de l'ensemble de la galerie à chaque introduction d'un nouveau modèle. Pour remédier à cela, des recherches antérieures ont exploré des méthodes d'entraînement rétrocompatibles qui permettent des comparaisons directes entre les anciennes et nouvelles représentations sans rétro-remplissage. Malgré ces avancées, trouver un équilibre entre la compatibilité rétrocompatible et les performances des modèles entraînés de manière indépendante reste un problème ouvert. Dans cet article, nous y répondons en élargissant l'espace de représentation avec des dimensions supplémentaires et en apprenant une transformation orthogonale pour atteindre la compatibilité avec les anciens modèles tout en intégrant de nouvelles informations. Cette transformation préserve la géométrie de l'espace de caractéristiques d'origine, garantissant que notre modèle s'aligne sur les versions précédentes tout en apprenant de nouvelles données. Notre approche Orthogonale Compatible Alignée (OCA) élimine le besoin de réindexation lors des mises à jour des modèles et garantit que les caractéristiques peuvent être comparées directement entre différentes mises à jour de modèles sans fonctions de mappage supplémentaires. Les résultats expérimentaux sur CIFAR-100 et ImageNet-1k démontrent que notre méthode maintient non seulement la compatibilité avec les modèles précédents, mais atteint également une précision de pointe, surpassant plusieurs méthodes existantes.
Les grands modèles de langage (LLM) sont susceptibles d'hériter et d'amplifier les biais sociétaux intégrés dans leurs données d'entraînement, renforçant potentiellement des stéréotypes préjudiciables liés au genre, à l'occupation et à d'autres catégories sensibles. Ce problème devient particulièrement problématique car des LLM biaisés peuvent avoir des conséquences étendues, conduisant à des pratiques injustes et exacerbant les inégalités sociales dans divers domaines, tels que le recrutement, la modération de contenu en ligne, voire le système de justice pénale. Bien que des recherches antérieures se soient concentrées sur la détection de biais dans les LLM en utilisant des ensembles de données spécialisés conçus pour mettre en évidence les biais intrinsèques, il y a eu un manque notable d'investigation sur la corrélation de ces résultats avec des ensembles de données de référence, tels que ceux du Bureau national des statistiques du travail des États-Unis (NBLS). Pour combler cette lacune, nous menons des recherches empiriques qui évaluent les LLM dans un cadre de "biais dès la sortie", analysant comment les résultats générés se comparent aux distributions trouvées dans les données du NBLS. De plus, nous proposons un mécanisme de débiaisage simple mais efficace qui intègre directement les instances du NBLS pour atténuer les biais au sein des LLM. Notre étude couvre sept LLM différents, y compris des modèles instructables, de base et de mélange d'experts, et révèle des niveaux significatifs de biais souvent négligés par les techniques de détection de biais existantes. Importamment, notre méthode de débiaisage, qui ne dépend pas d'ensembles de données externes, démontre une réduction substantielle des scores de biais, mettant en évidence l'efficacité de notre approche dans la création de LLM plus justes et fiables.
Dans le cadre des tâches partagées de l'Initiative Open Language Data, nous avons étendu l'ensemble d'évaluation FLORES+ pour inclure l'Emakhuwa, une langue à faibles ressources largement parlée au Mozambique. Nous avons traduit les ensembles dev et devtest du portugais vers l'Emakhuwa, et nous détaillons le processus de traduction et les mesures d'assurance qualité utilisées. Notre méthodologie a impliqué divers contrôles de qualité, y compris des éditions post-traductionnelles et des évaluations d'adéquation. Les ensembles de données résultants se composent de plusieurs phrases de référence pour chaque source. Nous présentons les résultats de base de l'entraînement d'un système de traduction neuronale et du réglage fin des modèles de traduction multilingues existants. Nos résultats suggèrent que les incohérences orthographiques restent un défi en Emakhuwa. De plus, les modèles de base ont sous-performé sur cet ensemble d'évaluation, soulignant la nécessité de poursuivre la recherche pour améliorer la qualité de la traduction automatique en Emakhuwa. Les données sont disponibles publiquement sur https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.