Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le développement et l'évaluation des Grands Modèles de Langage (GML) se sont largement concentrés sur les capacités individuelles. Cependant, cela néglige l'intersection de multiples compétences à travers différents types d'expertise souvent nécessaires pour les tâches du monde réel, que nous appelons capacités croisées. Pour explorer systématiquement ce concept, nous définissons d'abord sept capacités individuelles de base, puis les associons pour former sept capacités croisées communes, chacune étant soutenue par une taxonomie construite manuellement. En nous appuyant sur ces définitions, nous présentons CrossEval, un banc d'essai comprenant 1 400 invitations annotées par des humains, avec 100 invitations pour chaque capacité individuelle et croisée. Pour garantir une évaluation fiable, nous faisons intervenir des annotateurs experts pour évaluer 4 200 réponses de modèles, recueillant 8 400 évaluations humaines avec des explications détaillées servant d'exemples de référence. Nos résultats révèlent que, tant dans les évaluations statiques que dans les tentatives d'amélioration de capacités spécifiques, les GML actuels présentent systématiquement la "Loi du Maillon le Plus Faible", où les performances des capacités croisées sont significativement limitées par le composant le plus faible. Plus précisément, sur 58 scores de capacités croisées provenant de 17 modèles, 38 scores sont inférieurs à toutes les capacités individuelles, tandis que 20 se situent entre fort et faible, mais plus proches de la capacité la plus faible. Ces résultats mettent en lumière la sous-performance des GML dans les tâches de capacités croisées, rendant l'identification et l'amélioration des capacités les plus faibles une priorité critique pour les futures recherches afin d'optimiser les performances dans des scénarios complexes et multidimensionnels.
L'inférence de grands modèles se déplace du cloud vers le edge en raison des préoccupations concernant la confidentialité des données d'interaction des utilisateurs. Cependant, les appareils edge rencontrent souvent des difficultés liées à la puissance de calcul limitée, à la mémoire et à la bande passante, nécessitant une collaboration entre plusieurs appareils pour exécuter et accélérer l'inférence des LLM. Le parallélisme de pipeline, solution courante, est inefficace pour les scénarios à utilisateur unique, tandis que le parallélisme de tenseur rencontre des difficultés liées aux communications fréquentes. Dans cet article, nous soutenons que le parallélisme de tenseur peut être plus efficace que le pipeline sur des appareils à ressources limitées, et présentons un système d'inférence parallèle de tenseur, nommé TPI-LLM, efficace en calcul et en mémoire, pour servir des modèles à l'échelle de 70 milliards. TPI-LLM garde les données brutes sensibles locales sur les appareils des utilisateurs et introduit un ordonnanceur de mémoire à fenêtre glissante pour gérer dynamiquement les poids des couches pendant l'inférence, avec un chevauchement de la latence d'E/S disque avec le calcul et la communication. Cela permet aux plus grands modèles de s'exécuter en douceur sur des appareils à mémoire limitée. Nous analysons le goulot d'étranglement de la communication et constatons que la latence du lien, et non la bande passante, émerge comme le principal problème, donc un algorithme de réduction globale basé sur une étoile est mis en œuvre. À travers des expériences approfondies sur des bancs d'essai émulés et réels, TPI-LLM a démontré plus de 80 % de temps en moins jusqu'au premier jeton et de latence de jeton par rapport à Accelerate, et plus de 90 % par rapport à Transformers et Galaxy, tout en réduisant l'empreinte mémoire maximale de Llama 2-70B de 90 %, ne nécessitant que 3,1 Go de mémoire pour des modèles à l'échelle de 70 milliards.
Nous présentons Atlas-Chat, la première collection jamais réalisée de grands modèles de langage spécifiquement développés pour l'arabe dialectal. En mettant l'accent sur l'arabe marocain, également connu sous le nom de Darija, nous construisons notre ensemble de données d'instructions en consolidant les ressources linguistiques existantes en Darija, en créant de nouveaux ensembles de données à la fois manuellement et de manière synthétique, et en traduisant des instructions en anglais avec un contrôle de qualité strict. Les modèles Atlas-Chat-9B et 2B, affinés sur l'ensemble de données, présentent une capacité supérieure à suivre des instructions en Darija et à effectuer des tâches standard de traitement automatique du langage naturel. Notamment, nos modèles surpassent à la fois les modèles de pointe et les LLM (Large Language Models) spécialisés en arabe tels que LLaMa, Jais et AceGPT, par exemple, en obtenant une amélioration de performance de 13 % par rapport à un modèle plus grand de 13B sur DarijaMMLU, dans notre suite d'évaluation nouvellement introduite pour le Darija couvrant à la fois des tâches discriminatives et génératives. De plus, nous effectuons une analyse expérimentale de diverses stratégies d'affinage et de choix de modèles de base pour déterminer les configurations optimales. Toutes nos ressources sont accessibles au public, et nous pensons que notre travail offre des méthodologies de conception complètes pour l'ajustement des instructions pour les variantes linguistiques à faibles ressources, souvent négligées au profit des langues riches en données par les LLM contemporains.
La génération de contenu 3D de haute qualité à partir de texte, d'images individuelles ou d'images de vue éparse reste une tâche difficile avec de larges applications. Les méthodes existantes utilisent généralement des modèles de diffusion multi-vue pour synthétiser des images multi-vues, suivis d'un processus feed-forward pour la reconstruction 3D. Cependant, ces approches sont souvent limitées par un nombre réduit et fixe de vues d'entrée, ce qui limite leur capacité à capturer des points de vue divers et, pire encore, conduit à des résultats de génération sous-optimaux si les vues synthétisées sont de mauvaise qualité. Pour remédier à ces limitations, nous proposons Flex3D, un nouveau cadre en deux étapes capable d'exploiter un nombre arbitraire de vues d'entrée de haute qualité. La première étape consiste en un pipeline de génération et de curation de vues candidates. Nous utilisons un modèle de diffusion d'images multi-vues affiné et un modèle de diffusion vidéo pour générer un ensemble de vues candidates, permettant une représentation riche de l'objet 3D cible. Ensuite, un pipeline de sélection de vues filtre ces vues en fonction de leur qualité et de leur cohérence, garantissant que seules les vues de haute qualité et fiables sont utilisées pour la reconstruction. Dans la deuxième étape, les vues sélectionnées sont introduites dans un Modèle de Reconstruction Flexible (FlexRM), basé sur une architecture transformer capable de traiter efficacement un nombre arbitraire d'entrées. FlexRM produit directement des points gaussiens 3D en utilisant une représentation tri-planaire, permettant une génération 3D efficace et détaillée. À travers une exploration approfondie des stratégies de conception et d'entraînement, nous optimisons FlexRM pour atteindre des performances supérieures dans les tâches de reconstruction et de génération. Nos résultats démontrent que Flex3D atteint des performances de pointe, avec un taux de réussite d'étude utilisateur de plus de 92% dans les tâches de génération 3D par rapport à plusieurs des derniers modèles génératifs 3D feed-forward.
Nous présentons VideoLISA, un grand modèle linguistique multimodal basé sur la vidéo conçu pour résoudre le problème de la segmentation du raisonnement instruit par le langage dans les vidéos. En exploitant les capacités de raisonnement et les connaissances du monde des grands modèles linguistiques, et renforcé par le modèle Segment Anything, VideoLISA génère des masques de segmentation temporellement cohérents dans les vidéos en se basant sur des instructions en langage naturel. Les méthodes existantes basées sur les images, telles que LISA, rencontrent des difficultés avec les tâches vidéo en raison de la dimension temporelle supplémentaire, qui nécessite une compréhension dynamique temporelle et une segmentation cohérente à travers les images. VideoLISA relève ces défis en intégrant une stratégie d'échantillonnage dense et clairsemé dans le vidéo-LLM, qui équilibre le contexte temporel et le détail spatial dans les contraintes computationnelles. De plus, nous proposons une approche One-Token-Seg-All en utilisant un jeton spécialement conçu <TRK>, permettant au modèle de segmenter et de suivre les objets à travers plusieurs images. Des évaluations approfondies sur divers benchmarks, y compris notre nouveau benchmark ReasonVOS, démontrent les performances supérieures de VideoLISA dans les tâches de segmentation d'objets vidéo impliquant un raisonnement complexe, une compréhension temporelle et un suivi d'objets. Bien qu'optimisé pour les vidéos, VideoLISA montre également une généralisation prometteuse à la segmentation d'images, révélant son potentiel en tant que modèle fondamental unifié pour la segmentation d'objets instruite par le langage. Le code et le modèle seront disponibles sur : https://github.com/showlab/VideoLISA.
Dans ce travail, nous partageons les idées pour atteindre une qualité de pointe dans notre modèle génératif d'images anime texte-image, appelé Illustrious. Pour obtenir des images de haute résolution, une gamme de couleurs dynamique et une grande capacité de restauration, nous nous concentrons sur trois approches cruciales pour l'amélioration du modèle. Tout d'abord, nous explorons l'importance de la taille du lot et du contrôle de l'abandon, ce qui permet un apprentissage plus rapide des activations de concepts basés sur des jetons contrôlables. Ensuite, nous augmentons la résolution d'entraînement des images, ce qui affecte la représentation précise de l'anatomie des personnages dans une résolution beaucoup plus élevée, étendant sa capacité de génération à plus de 20 MP avec des méthodes appropriées. Enfin, nous proposons des légendes multi-niveaux affinées, couvrant toutes les balises et diverses légendes en langage naturel comme un facteur critique pour le développement du modèle. À travers une analyse approfondie et des expériences, Illustrious démontre des performances de pointe en termes de style d'animation, surpassant largement les modèles largement utilisés dans les domaines de l'illustration, favorisant une personnalisation et une personnalisation plus faciles grâce à la nature open source. Nous prévoyons de publier publiquement les séries de modèles Illustrious mises à jour de manière séquentielle ainsi que des plans durables pour les améliorations.
Les modèles de diffusion ont émergé comme une technologie générative puissante et se sont révélés applicables dans divers scénarios. La plupart des modèles de diffusion fondamentaux existants sont principalement conçus pour la génération visuelle guidée par le texte et ne prennent pas en charge les conditions multimodales, essentielles pour de nombreuses tâches d'édition visuelle. Cette limitation empêche ces modèles de diffusion fondamentaux de servir de modèle unifié dans le domaine de la génération visuelle, à l'instar du GPT-4 dans le domaine du traitement du langage naturel. Dans ce travail, nous proposons ACE, un Créateur et Éditeur Tout-en-un, qui atteint des performances comparables à celles des modèles experts dans un large éventail de tâches de génération visuelle. Pour atteindre cet objectif, nous introduisons d'abord un format de condition unifié appelé Unité de Condition à Long Contexte (LCU), et proposons un nouveau modèle de diffusion basé sur le Transformer qui utilise LCU en entrée, visant un entraînement conjoint sur diverses tâches de génération et d'édition. De plus, nous proposons une approche efficace de collecte de données pour résoudre le problème de l'absence de données d'entraînement disponibles. Cela implique l'acquisition d'images par paires avec des pipelines basés sur la synthèse ou le regroupement, et la fourniture de ces paires avec des instructions textuelles précises en exploitant un modèle de langage multimodal large affiné. Pour évaluer de manière exhaustive les performances de notre modèle, nous établissons un benchmark de données d'annotations manuelles sur une variété de tâches de génération visuelle. Les résultats expérimentaux approfondis démontrent la supériorité de notre modèle dans les domaines de la génération visuelle. Grâce aux capacités tout-en-un de notre modèle, nous pouvons facilement construire un système de chat multimodal qui répond à toute demande interactive de création d'image en utilisant un seul modèle comme backend, évitant le pipeline fastidieux généralement utilisé dans les agents visuels. Le code et les modèles seront disponibles sur la page du projet : https://ali-vilab.github.io/ace-page/.
L'avancement de la conduite autonome dépend de plus en plus de jeux de données annotés de haute qualité, en particulier dans la tâche de prédiction d'occupation 3D, où les étiquettes d'occupation nécessitent une annotation 3D dense avec un effort humain significatif. Dans cet article, nous proposons SyntheOcc, qui désigne un modèle de diffusion qui synthétise des images photoréalistes et géométriquement contrôlées en conditionnant les étiquettes d'occupation dans des scénarios de conduite. Cela permet de générer une quantité illimitée de jeux de données diversifiés, annotés et contrôlables pour des applications telles que l'entraînement de modèles de perception et la simulation. SyntheOcc aborde le défi crucial de comment encoder efficacement les informations géométriques 3D en tant qu'entrée conditionnelle à un modèle de diffusion 2D. Notre approche intègre de manière innovante des images sémantiques 3D multi-plans (MPI) pour fournir des descriptions de scènes 3D complètes et spatialement alignées pour la condition. En conséquence, SyntheOcc peut générer des images et des vidéos multi-vues photoréalistes qui s'alignent fidèlement sur les étiquettes géométriques données (sémantique dans l'espace voxel 3D). Des évaluations qualitatives et quantitatives approfondies de SyntheOcc sur l'ensemble de données nuScenes prouvent son efficacité dans la génération de jeux de données d'occupation contrôlables qui servent de méthode d'augmentation de données efficace pour les modèles de perception.
Les grands modèles multimodaux (LMM) ont démontré des performances impressionnantes dans les tâches de compréhension de courtes vidéos, mais rencontrent de grands défis lorsqu'ils sont appliqués à la compréhension de longues vidéos. En revanche, les grands modèles de langage (LLM) présentent des capacités exceptionnelles dans la modélisation de longs textes. Les travaux existants tentent de résoudre ce problème en introduisant des paires vidéo-texte longues pendant l'entraînement. Cependant, ces approches nécessitent des ressources computationnelles et des données substantielles. Dans cet article, nous abordons le défi de la compréhension de longues vidéos du point de vue des fenêtres contextuelles, visant à appliquer les LMM aux tâches de longues vidéos sans réentraînement sur des ensembles de données vidéo longues. Nous menons d'abord une analyse approfondie des raisons pour lesquelles les LMM pré-entraînés ont du mal à comprendre le contenu vidéo étendu, identifiant que les divergences entre les modalités visuelle et linguistique entraînent des fenêtres contextuelles différentes pour les jetons visuels et linguistiques, rendant difficile l'extension directe des jetons visuels pour correspondre à la fenêtre contextuelle linguistique. Sur cette base, nous proposons d'adapter les LMM aux tâches de compréhension de longues vidéos en étendant la fenêtre contextuelle visuelle, éliminant ainsi la nécessité de réentraîner sur de vastes ensembles de données vidéo longues. Pour atténuer davantage la consommation significative de mémoire causée par de longues séquences, nous introduisons une stratégie d'inférence de regroupement progressif qui ajuste sélectivement la résolution spatiale des plongements de trame, réduisant le nombre de jetons visuels tout en conservant des informations spatiales importantes. À travers plusieurs référentiels de compréhension de longues vidéos, notre méthode améliore de manière constante les performances à mesure que le nombre de trames vidéo augmente. Sur le référentiel MLVU, notre méthode surpasse GPT-4o, même si la taille de notre modèle n'est que de 7B. De plus, dans le cadre de 256 trames, notre méthode réduit l'utilisation de mémoire d'environ 45 % par rapport à la référence, sans introduire de perte de performance.
Les algorithmes de restauration d'images photoréalistes sont généralement évalués par des mesures de distorsion (par exemple, PSNR, SSIM) et par des mesures de qualité perceptuelle (par exemple, FID, NIQE), où l'objectif est d'atteindre la plus faible distorsion possible sans compromettre la qualité perceptuelle. Pour atteindre cet objectif, les méthodes actuelles tentent généralement d'échantillonner à partir de la distribution postérieure, ou d'optimiser une somme pondérée d'une perte de distorsion (par exemple, MSE) et d'une perte de qualité perceptuelle (par exemple, GAN). Contrairement aux travaux précédents, cet article s'intéresse spécifiquement à l'estimateur optimal qui minimise le MSE sous une contrainte d'indice perceptuel parfait, c'est-à-dire lorsque la distribution des images reconstruites est égale à celle des images de référence. Un résultat théorique récent montre qu'un tel estimateur peut être construit en transportant de manière optimale la prédiction moyenne postérieure (estimation MMSE) vers la distribution des images de référence. Inspiré par ce résultat, nous introduisons le Flux Rectifié de la Moyenne Postérieure (PMRF), un algorithme simple mais très efficace qui approxime cet estimateur optimal. En particulier, PMRF prédit d'abord la moyenne postérieure, puis transporte le résultat vers une image de haute qualité en utilisant un modèle de flux rectifié qui approxime la carte de transport optimale souhaitée. Nous étudions l'utilité théorique de PMRF et démontrons qu'il surpasse systématiquement les méthodes précédentes dans diverses tâches de restauration d'images.
Nous présentons une méthode pour reconstruire des modèles de corps humain temporellement cohérents à partir de vidéos monoculaires, en mettant l'accent sur les vêtements extrêmement amples ou les interactions avec des objets tenus à la main. Les travaux antérieurs sur la reconstruction humaine se limitent soit aux vêtements serrés sans interactions avec des objets, soit nécessitent des captures multi-vues calibrées ou des scans de modèles personnalisés coûteux à collecter à grande échelle. Notre insight clé pour une reconstruction de haute qualité mais flexible réside dans la combinaison soigneuse de prédictions humaines génériques sur la forme articulée du corps (apprises à partir de données d'entraînement à grande échelle) avec une déformation articulée spécifique à la vidéo "bag-of-bones" (ajustée à une seule vidéo via une optimisation au moment du test). Nous réalisons cela en apprenant un modèle implicite neuronal qui démêle les déformations du corps et des vêtements en tant que couches de modèles de mouvement distinctes. Pour capturer la géométrie subtile des vêtements, nous exploitons des prédictions basées sur l'image telles que la pose du corps humain, les normales de surface et le flot optique pendant l'optimisation. Les champs neuronaux résultants peuvent être extraits en maillages temporellement cohérents, ou encore optimisés en tant que gaussiennes 3D explicites pour un rendu interactif haute fidélité. Sur des ensembles de données présentant des déformations de vêtements et des interactions avec des objets très complexes, DressRecon produit des reconstructions 3D de plus haute fidélité que les travaux antérieurs. Page du projet : https://jefftan969.github.io/dressrecon/
Les méthodes basées sur l'apprentissage ont atteint de hautes performances pour la locomotion quadrupède. Cependant, plusieurs défis empêchent les quadrupèdes d'apprendre des compétences utiles en intérieur qui nécessitent une interaction avec les environnements et les humains : le manque d'effecteurs finaux pour la manipulation, une compréhension sémantique limitée utilisant uniquement des données de simulation, et une faible traversabilité et accessibilité dans les environnements intérieurs. Nous présentons un système pour la manipulation mobile quadrupède en intérieur. Il utilise une pince montée à l'avant pour la manipulation d'objets, un contrôleur de bas niveau entraîné en simulation en utilisant la profondeur égocentrique pour des compétences agiles telles que l'escalade et l'inclinaison du corps entier, ainsi que des modèles vision-langage pré-entraînés (VLM) avec une caméra fisheye à la troisième personne et une caméra RGB égocentrique pour la compréhension sémantique et la génération de commandes. Nous évaluons notre système dans deux environnements inconnus sans aucune collecte de données ou entraînement dans le monde réel. Notre système peut généraliser sans entraînement à ces environnements et accomplir des tâches, comme suivre les commandes de l'utilisateur pour aller chercher un jouet placé aléatoirement après avoir escaladé un lit queen-size, avec un taux de réussite de 60%. Site web du projet : https://helpful-doggybot.github.io/
Les biais de genre dans la traduction automatique (TA) sont reconnus comme un problème pouvant nuire aux individus et à la société. Pourtant, les avancées dans le domaine impliquent rarement les utilisateurs finaux de la TA ou ne tiennent pas compte de l'impact potentiel des technologies biaisées sur ces derniers. Les évaluations actuelles se limitent souvent à des méthodes automatiques, offrant une estimation opaque des conséquences des disparités de genre. Nous menons une étude approfondie centrée sur l'humain pour examiner si et dans quelle mesure les biais dans la TA entraînent des préjudices avec des coûts tangibles, tels que des écarts de qualité de service entre les femmes et les hommes. Dans cette optique, nous collectons des données comportementales auprès de 90 participants, qui ont corrigé les sorties de la TA pour assurer une traduction correcte du genre. À travers plusieurs ensembles de données, langues et types d'utilisateurs, notre étude montre que la correction post-traitement au féminin demande significativement plus d'efforts techniques et temporels, se traduisant également par des coûts financiers plus élevés. Cependant, les mesures de biais existantes ne reflètent pas les disparités constatées. Nos résultats plaident en faveur d'approches centrées sur l'humain pouvant éclairer l'impact sociétal des biais.
Il n'y a pas de limite à la quantité d'exploration et d'apprentissage qu'un robot peut réaliser, mais toutes ces connaissances doivent être consultables et exploitables. Dans le domaine de la recherche en langage, la récupération augmentée par génération (RAG) est devenue l'outil de base de la connaissance non paramétrique à grande échelle, cependant les techniques existantes ne se transfèrent pas directement au domaine incarné, qui est multimodal, où les données sont fortement corrélées et où la perception nécessite de l'abstraction. Pour relever ces défis, nous introduisons Embodied-RAG, un cadre qui améliore le modèle fondamental d'un agent incarné avec un système de mémoire non paramétrique capable de construire de manière autonome une connaissance hiérarchique pour la navigation et la génération de langage. Embodied-RAG gère une gamme complète de résolutions spatiales et sémantiques à travers des environnements divers et des types de requêtes, que ce soit pour un objet spécifique ou une description holistique de l'ambiance. Au cœur d'Embodied-RAG, sa mémoire est structurée comme une forêt sémantique, stockant des descriptions de langage à différents niveaux de détail. Cette organisation hiérarchique permet au système de générer efficacement des sorties sensibles au contexte sur différentes plateformes robotiques. Nous démontrons qu'Embodied-RAG relie efficacement RAG au domaine de la robotique, gérant avec succès plus de 200 requêtes d'explication et de navigation à travers 19 environnements, mettant en avant son potentiel en tant que système non paramétrique polyvalent pour les agents incarnés.