Articles de recherche en IA sélectionnés quotidiennement avec traductions
PaliGemma est un modèle vision-langage (VLM) open source basé sur l'encodeur visuel SigLIP-So400m et le modèle de langage Gemma-2B. Il est conçu pour être un modèle de base polyvalent et doté d'une vaste connaissance, efficace pour le transfert. Il obtient des performances solides sur une grande variété de tâches en monde ouvert. Nous évaluons PaliGemma sur près de 40 tâches diversifiées, incluant des benchmarks standards pour les VLM, mais aussi des tâches plus spécialisées telles que la télédétection et la segmentation.
Les grands modèles de langage (LLMs) ont démontré des performances exceptionnelles et un potentiel considérable dans diverses tâches. Cependant, le déploiement de LLMs à haute performance dans des environnements à ressources limitées a suscité une attention significative dans l'industrie. Lorsque les ressources matérielles en GPU sont limitées, nous pouvons explorer des alternatives sur les CPU. Pour atténuer le fardeau financier et réduire les contraintes imposées par les ressources matérielles, il est nécessaire d'optimiser les performances d'inférence. Dans cet article, nous présentons une solution d'optimisation des performances d'inférence facilement déployable, visant à accélérer les LLMs sur les CPU. Dans cette solution, nous mettons en œuvre une méthode efficace pour réduire la taille du cache KV tout en garantissant la précision. Nous proposons une approche d'optimisation de l'inférence distribuée et l'implémentons en nous basant sur la bibliothèque de communications collectives oneAPI. De plus, nous proposons des approches d'optimisation pour les LLMs sur CPU et réalisons des optimisations spécifiques pour les modèles les plus couramment utilisés. Le code est open-source à l'adresse https://github.com/intel/xFasterTransformer.
L'ajustement par instruction visuelle a réalisé des progrès considérables dans l'amélioration des capacités des modèles multimodaux de grande taille (LMMs). Cependant, les LMMs ouverts existants se concentrent largement sur des tâches à image unique, et leurs applications dans des scénarios à images multiples restent peu explorées. De plus, les recherches antérieures sur les LMMs abordent séparément différents scénarios, rendant impossible la généralisation entre scénarios avec de nouvelles capacités émergentes. À cette fin, nous introduisons LLaVA-NeXT-Interleave, qui traite simultanément les scénarios à images multiples, à séquences multiples (vidéo), à vues multiples (3D) et à patchs multiples (image unique) dans les LMMs. Pour permettre ces capacités, nous considérons le format de données entrelacées comme un modèle général et compilons l'ensemble de données M4-Instruct avec 1 177,6k échantillons, couvrant 4 domaines principaux avec 14 tâches et 41 ensembles de données. Nous avons également constitué le banc d'essai LLaVA-Interleave pour évaluer de manière exhaustive les performances des LMMs dans les scénarios à images multiples. Grâce à des expériences approfondies, LLaVA-NeXT-Interleave obtient des résultats de pointe dans les benchmarks à images multiples, vidéo et 3D, tout en maintenant les performances des tâches à image unique. Par ailleurs, notre modèle présente également plusieurs capacités émergentes, par exemple, le transfert de tâches entre différents contextes et modalités. Le code est disponible à l'adresse https://github.com/LLaVA-VL/LLaVA-NeXT.
Nous présentons 4DiM, un modèle de diffusion en cascade pour la synthèse de nouvelles vues 4D (NVS), conditionné sur une ou plusieurs images d'une scène générale, ainsi qu'un ensemble de poses de caméra et de timestamps. Pour surmonter les défis liés à la disponibilité limitée de données d'entraînement 4D, nous préconisons un entraînement conjoint sur des données 3D (avec pose de caméra), 4D (pose+temps) et vidéo (temps mais sans pose), et proposons une nouvelle architecture qui permet cela. Nous recommandons également l'étalonnage des données de pose SfM à l'aide d'estimateurs de profondeur métrique monoculaires pour un contrôle métrique de l'échelle de la caméra. Pour l'évaluation du modèle, nous introduisons de nouvelles métriques pour enrichir et pallier les lacunes des schémas d'évaluation actuels, démontrant des résultats de pointe en termes de fidélité et de contrôle de la pose par rapport aux modèles de diffusion existants pour la NVS 3D, tout en ajoutant la capacité de gérer les dynamiques temporelles. 4DiM est également utilisé pour améliorer le stitching de panoramas, la traduction vidéo à vidéo conditionnée par la pose, et plusieurs autres tâches. Pour un aperçu, consultez https://4d-diffusion.github.io.
La génération de contenu audio sémantiquement et temporellement aligné en fonction d'une entrée vidéo est devenue un point central pour les chercheurs, en particulier suite à la percée remarquable dans la génération de texte vers vidéo. Dans ce travail, nous visons à apporter des éclairages sur le paradigme de génération vidéo vers audio, en nous concentrant sur trois aspects cruciaux : les encodeurs visuels, les embeddings auxiliaires et les techniques d'augmentation de données. Partant d'un modèle de base VTA-LDM construit sur une intuition simple mais étonnamment efficace, nous explorons divers encodeurs visuels et embeddings auxiliaires à travers des études d'ablation. En utilisant un pipeline d'évaluation complet qui met l'accent sur la qualité de génération et l'alignement de la synchronisation vidéo-audio, nous démontrons que notre modèle présente des capacités de génération vidéo vers audio de pointe. De plus, nous fournissons des insights critiques sur l'impact des différentes méthodes d'augmentation de données pour améliorer la capacité globale du cadre de génération. Nous montrons des possibilités pour faire progresser le défi de générer de l'audio synchronisé d'un point de vue sémantique et temporel. Nous espérons que ces éclairages serviront de tremplin pour développer des modèles de génération audio-visuelle plus réalistes et précis.
Nous présentons VEnhancer, un cadre génératif d'amélioration spatio-temporelle qui améliore les résultats existants de génération de texte-à-vidéo en ajoutant plus de détails dans le domaine spatial et en synthétisant des mouvements détaillés dans le domaine temporel. Étant donné une vidéo générée de faible qualité, notre approche peut augmenter simultanément sa résolution spatiale et temporelle avec des échelles d'échantillonnage spatial et temporel arbitraires grâce à un modèle de diffusion vidéo unifié. De plus, VEnhancer supprime efficacement les artefacts spatiaux générés et le scintillement temporel des vidéos générées. Pour y parvenir, en nous basant sur un modèle de diffusion vidéo pré-entraîné, nous entraînons un ControlNet vidéo et l'injectons dans le modèle de diffusion comme condition sur des vidéos à faible taux de rafraîchissement et à faible résolution. Pour entraîner efficacement ce ControlNet vidéo, nous concevons une augmentation de données spatio-temporelle ainsi qu'un conditionnement adapté aux vidéos. Grâce à ces conceptions, VEnhancer se montre stable pendant l'entraînement et adopte une méthode d'entraînement end-to-end élégante. Des expériences approfondies montrent que VEnhancer surpasse les méthodes existantes de super-résolution vidéo et de super-résolution spatio-temporelle dans l'amélioration des vidéos générées par IA. De plus, avec VEnhancer, la méthode open-source de pointe de génération texte-à-vidéo, VideoCrafter-2, atteint la première place dans le benchmark de génération vidéo -- VBench.
La personnalisation des modèles de génération d'images à partir de texte (T2I) a connu des progrès considérables récemment, notamment dans des domaines tels que la personnalisation, la stylisation et la génération conditionnelle. Cependant, étendre ces avancées à la génération de vidéos en est encore à ses balbutiements, principalement en raison du manque de données vidéo personnalisées. Dans ce travail, nous présentons Still-Moving, un nouveau cadre générique pour personnaliser un modèle de génération de vidéos à partir de texte (T2V), sans nécessiter de données vidéo personnalisées. Ce cadre s'applique à l'architecture T2V dominante où le modèle vidéo est construit sur un modèle T2I (par exemple, via inflation). Nous supposons avoir accès à une version personnalisée du modèle T2I, entraînée uniquement sur des données d'images fixes (par exemple, en utilisant DreamBooth ou StyleDrop). Intégrer naïvement les poids du modèle T2I personnalisé dans le modèle T2V entraîne souvent des artefacts importants ou une adhésion insuffisante aux données de personnalisation. Pour surmonter ce problème, nous entraînons des adaptateurs spatiaux légers qui ajustent les caractéristiques produites par les couches T2I injectées. De manière cruciale, nos adaptateurs sont entraînés sur des "vidéos figées" (c'est-à-dire des images répétées), construites à partir d'échantillons d'images générés par le modèle T2I personnalisé. Cet entraînement est facilité par un nouveau module d'adaptation de mouvement, qui nous permet de nous entraîner sur de telles vidéos statiques tout en préservant le prior de mouvement du modèle vidéo. Au moment du test, nous supprimons les modules d'adaptation de mouvement et ne conservons que les adaptateurs spatiaux entraînés. Cela restaure le prior de mouvement du modèle T2V tout en respectant le prior spatial du modèle T2I personnalisé. Nous démontrons l'efficacité de notre approche sur diverses tâches, notamment la génération personnalisée, stylisée et conditionnelle. Dans tous les scénarios évalués, notre méthode intègre de manière transparente le prior spatial du modèle T2I personnalisé avec un prior de mouvement fourni par le modèle T2V.
Les grands modèles de langage pré-entraînés (LM) sont souvent décrits comme « incapables de relier les énoncés au monde réel » (Bender et Koller, 2020), car ils ne possèdent pas de « modèles mentaux du monde » (Mitchell et Krakauer, 2023). Si cela est vrai, on s'attendrait à ce que les représentations des LM soient sans lien avec celles induites par les modèles de vision. Nous présentons une évaluation empirique portant sur quatre familles de LM (BERT, GPT-2, OPT et LLaMA-2) et trois architectures de modèles de vision (ResNet, SegFormer et MAE). Nos expériences montrent que les LM convergent partiellement vers des représentations isomorphes à celles des modèles de vision, sous réserve de dispersion, de polysémie et de fréquence. Cela a des implications importantes à la fois pour le traitement multimodal et pour le débat sur la compréhension des LM (Mitchell et Krakauer, 2023).
Les modèles existants d'apprentissage contrastif vision-texte améliorent la transférabilité des représentations et permettent des prédictions zero-shot en alignant les embeddings d'images et de légendes associées tout en éloignant les paires non liées. Cependant, les ensembles de données d'images et d'étiquettes astronomiques sont nettement plus petits que les ensembles d'images et d'étiquettes générales disponibles sur Internet. Nous présentons CosmoCLIP, un cadre d'apprentissage contrastif image-texte astronomique finement ajusté à partir du modèle CLIP pré-entraîné, utilisant des légendes basées sur SpaceNet et BLIP. SpaceNet, obtenu via FLARE, comprend environ 13 000 images optimalement distribuées, tandis que BLIP agit comme un extracteur de connaissances riche. Les sémantiques riches dérivées de ces descriptions SpaceNet et BLIP, lorsqu'elles sont apprises de manière contrastive, permettent à CosmoCLIP d'atteindre une généralisation supérieure sur diverses tâches intra-domaines et extra-domaines. Nos résultats démontrent que CosmoCLIP est un cadre simple mais puissant, surpassant significativement CLIP dans les tâches de classification zero-shot et de recherche image-texte.
Dans cet article, nous examinons la contamination des ensembles de test pour la génération de code, en particulier dans leur utilisation avec les modèles de langage modernes à grande échelle. Nous discutons trois sources possibles d'une telle contamination et présentons des résultats soutenant chacune d'elles : (i) la fuite directe de données, (ii) la fuite indirecte de données via l'utilisation de données synthétiques et (iii) le surapprentissage aux ensembles d'évaluation lors de la sélection des modèles. Au cœur de nos découvertes se trouve un nouvel ensemble de données composé de 161 prompts accompagnés de leurs solutions en Python, un ensemble de données publié à l'adresse suivante : https://huggingface.co/datasets/CohereForAI/lbpp.
Nous proposons une méthode d'apprentissage robotique pour communiquer, planifier et exécuter une large gamme de tâches, baptisée This&That. Nous réalisons la planification robotique pour des tâches générales en exploitant la puissance des modèles génératifs de vidéos entraînés sur des données à l'échelle d'Internet contenant un riche contexte physique et sémantique. Dans ce travail, nous abordons trois défis fondamentaux dans la planification basée sur la vidéo : 1) la communication non ambiguë des tâches avec des instructions humaines simples, 2) la génération contrôlée de vidéos respectant les intentions de l'utilisateur, et 3) la traduction de la planification visuelle en actions robotiques. Nous proposons un conditionnement par le langage et les gestes pour générer des vidéos, ce qui est à la fois plus simple et plus clair que les méthodes existantes basées uniquement sur le langage, en particulier dans des environnements complexes et incertains. Nous suggérons ensuite une conception de clonage comportemental qui intègre de manière fluide les plans vidéo. This&That démontre une efficacité de pointe pour relever les trois défis mentionnés ci-dessus, et justifie l'utilisation de la génération de vidéos comme représentation intermédiaire pour la planification et l'exécution généralisables des tâches. Site web du projet : https://cfeng16.github.io/this-and-that/.
L'entraînement d'un classifieur sur des données collectées sur le web nécessite des algorithmes d'apprentissage robustes aux erreurs d'annotation et aux exemples non pertinents. Ce travail s'appuie sur une observation empirique récente selon laquelle l'application de l'apprentissage contrastif non supervisé à des ensembles de données bruités et collectés sur le web produit une représentation des caractéristiques sous laquelle les échantillons intra-distribution (ID) et hors-distribution (OOD) sont linéairement séparables. Nous montrons que l'estimation directe de l'hyperplan séparateur permet effectivement une détection précise des échantillons OOD, mais, étonnamment, cette détection ne se traduit pas par une amélioration de la précision de classification. En approfondissant ce phénomène, nous découvrons que cette détection quasi parfaite manque un type d'exemples propres qui sont précieux pour l'apprentissage supervisé. Ces exemples représentent souvent des images visuellement simples, relativement faciles à identifier comme des exemples propres en utilisant des méthodes standard basées sur la perte ou la distance, bien qu'ils soient mal séparés de la distribution OOD par l'apprentissage non supervisé. Comme nous observons également une faible corrélation avec les métriques SOTA (state-of-the-art), cela nous incite à proposer une solution hybride qui alterne entre la détection de bruit par séparation linéaire et une approche SOTA basée sur les petites pertes. En combinant cette solution avec l'algorithme SOTA PLS, nous améliorons considérablement les résultats SOTA pour la classification d'images du monde réel en présence de bruit web. github.com/PaulAlbert31/LSA
Nous présentons BiGym, un nouveau benchmark et environnement d'apprentissage pour la manipulation robotique bi-manuelle pilotée par démonstrations mobiles. BiGym propose 40 tâches variées situées dans des environnements domestiques, allant de l'atteinte d'une cible simple au nettoyage complexe d'une cuisine. Pour capturer avec précision les performances en conditions réelles, nous fournissons des démonstrations collectées par des humains pour chaque tâche, reflétant les diverses modalités présentes dans les trajectoires robotiques du monde réel. BiGym prend en charge une variété d'observations, incluant des données proprioceptives et des entrées visuelles telles que le RVB et la profondeur provenant de 3 vues caméra. Pour valider l'utilisabilité de BiGym, nous évaluons de manière approfondie les algorithmes d'apprentissage par imitation et les algorithmes d'apprentissage par renforcement pilotés par démonstrations de pointe dans cet environnement, et discutons des opportunités futures.
La génération de mouvements de foule est essentielle dans les industries du divertissement telles que l'animation et les jeux, ainsi que dans des domaines stratégiques comme la simulation urbaine et la planification. Cette nouvelle tâche nécessite une intégration complexe de contrôle et de génération pour synthétiser de manière réaliste la dynamique des foules sous des contraintes spatiales et sémantiques spécifiques, dont les défis restent encore à explorer pleinement. D'une part, les modèles existants de génération de mouvements humains se concentrent généralement sur les comportements individuels, négligeant les complexités des comportements collectifs. D'autre part, les méthodes récentes pour la génération de mouvements multi-personnes dépendent fortement de scénarios prédéfinis et se limitent à un nombre fixe et réduit d'interactions interpersonnelles, ce qui limite leur praticabilité. Pour surmonter ces défis, nous introduisons CrowdMoGen, un framework piloté par texte en mode zero-shot qui exploite la puissance des modèles de langage à grande échelle (LLM) pour intégrer l'intelligence collective dans le cadre de génération de mouvements comme guide, permettant ainsi une planification et une génération généralisables des mouvements de foule sans données d'apprentissage appariées. Notre framework se compose de deux éléments clés : 1) un planificateur de scènes de foule qui apprend à coordonner les mouvements et la dynamique en fonction des contextes de scène spécifiques ou des perturbations introduites, et 2) un générateur de mouvements collectifs qui synthétise efficacement les mouvements collectifs requis sur la base des plans holistiques. Des expériences quantitatives et qualitatives approfondies ont validé l'efficacité de notre framework, qui comble une lacune critique en fournissant des solutions évolutives et généralisables pour la tâche de génération de mouvements de foule, tout en atteignant des niveaux élevés de réalisme et de flexibilité.