Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des progrès significatifs ont été réalisés dans le domaine de la synthèse d'images personnalisées grâce à des méthodes telles que Textual Inversion, DreamBooth et LoRA. Cependant, leur applicabilité dans le monde réel est limitée par des exigences de stockage élevées, des processus de réglage fin longs et la nécessité de multiples images de référence. À l'inverse, les méthodes existantes basées sur l'incorporation d'identité (ID), bien qu'elles ne nécessitent qu'une seule inférence directe, rencontrent des défis : elles exigent soit un réglage fin étendu sur de nombreux paramètres du modèle, soit manquent de compatibilité avec les modèles pré-entraînés de la communauté, ou encore ne parviennent pas à maintenir une fidélité faciale élevée. Pour répondre à ces limitations, nous introduisons InstantID, une solution puissante basée sur un modèle de diffusion. Notre module plug-and-play gère habilement la personnalisation d'images dans divers styles en utilisant une seule image faciale, tout en garantissant une haute fidélité. Pour y parvenir, nous concevons un nouveau IdentityNet en imposant des conditions sémantiques fortes et des conditions spatiales faibles, intégrant des images faciales et des images de points de repère avec des invites textuelles pour guider la génération d'images. InstantID démontre des performances et une efficacité exceptionnelles, s'avérant très bénéfique dans des applications réelles où la préservation de l'identité est primordiale. De plus, notre travail s'intègre de manière transparente avec des modèles de diffusion texte-à-image populaires pré-entraînés comme SD1.5 et SDXL, servant de plugin adaptable. Nos codes et points de contrôle pré-entraînés seront disponibles à l'adresse https://github.com/InstantID/InstantID.
Cet article présente AIM, une collection de modèles visuels pré-entraînés avec un objectif autorégressif. Ces modèles s'inspirent de leurs homologues textuels, à savoir les modèles de langage de grande taille (LLMs), et présentent des propriétés de mise à l'échelle similaires. Plus précisément, nous mettons en évidence deux résultats clés : (1) la performance des caractéristiques visuelles évolue à la fois avec la capacité du modèle et la quantité de données, (2) la valeur de la fonction objectif est corrélée avec la performance du modèle sur les tâches en aval. Nous illustrons l'implication pratique de ces résultats en pré-entraînant un AIM de 7 milliards de paramètres sur 2 milliards d'images, qui atteint 84,0 % sur ImageNet-1k avec un tronc gelé. Fait intéressant, même à cette échelle, nous n'observons aucun signe de saturation des performances, suggérant qu'AIM représente potentiellement une nouvelle frontière pour l'entraînement de modèles visuels à grande échelle. Le pré-entraînement d'AIM est similaire à celui des LLMs et ne nécessite aucune stratégie spécifique aux images pour stabiliser l'entraînement à grande échelle.
Les modèles de langage de taille modérée (LLMs) -- ceux comptant 7 ou 13 milliards de paramètres -- démontrent des performances prometteuses en traduction automatique (MT). Cependant, même les meilleurs modèles de traduction basés sur des LLMs de 13B, comme ALMA, ne rivalisent pas avec les performances des modèles de traduction conventionnels encodeur-décodeur de pointe ou des LLMs à plus grande échelle tels que GPT-4. Dans cette étude, nous comblons cet écart de performance. Nous évaluons d'abord les lacunes du fine-tuning supervisé pour les LLMs dans la tâche de traduction automatique, en soulignant les problèmes de qualité présents dans les données de référence, bien que celles-ci soient générées par des humains. Ensuite, contrairement au fine-tuning supervisé (SFT) qui imite les traductions de référence, nous introduisons l'Optimisation Préférentielle Contrastive (CPO), une approche novatrice qui entraîne les modèles à éviter de générer des traductions adéquates mais non parfaites. L'application de CPO aux modèles ALMA avec seulement 22 000 phrases parallèles et 12 millions de paramètres entraîne des améliorations significatives. Le modèle résultant, appelé ALMA-R, peut égaler ou surpasser les performances des vainqueurs de la compétition WMT et de GPT-4 sur les ensembles de test WMT'21, WMT'22 et WMT'23.
Typiquement, l'entraînement de modèles de langage de grande taille (LLM) avec des contextes longs est coûteux en termes de calcul, nécessitant des heures d'entraînement étendues et des ressources GPU importantes. Les méthodes existantes d'extension de contexte long nécessitent généralement des procédures d'entraînement supplémentaires pour supporter des fenêtres de contexte long correspondantes, où les données d'entraînement de contexte long (par exemple, 32k) sont requises, et des coûts élevés d'entraînement sur GPU sont assumés. Pour résoudre les problèmes mentionnés ci-dessus, nous proposons une méthode d'extension de longueur efficace et extrême pour les modèles de langage de grande taille, appelée E²-LLM, avec une seule procédure d'entraînement et des coûts de calcul considérablement réduits, ce qui élimine également la nécessité de collecter des données de contexte long. Concrètement, premièrement, les données d'entraînement de notre E²-LLM ne nécessitent qu'une longueur courte (par exemple, 4k), ce qui réduit considérablement les coûts de réglage. Deuxièmement, la procédure d'entraînement sur la fenêtre de contexte d'entraînement courte est effectuée une seule fois, et nous pouvons supporter différentes fenêtres de contexte d'évaluation lors de l'inférence. Troisièmement, dans E²-LLM, basé sur les embeddings de position RoPE, nous introduisons deux méthodes d'augmentation différentes sur les paramètres d'échelle et d'indice de position pour différents échantillons lors de l'entraînement. Cela vise à rendre le modèle plus robuste aux différentes différences relatives lors de l'interpolation directe de la longueur de contexte arbitraire à l'inférence. Les résultats expérimentaux complets sur plusieurs ensembles de données de référence démontrent l'efficacité de notre E²-LLM sur des tâches de contexte long difficiles.
Malgré les capacités générales des grands modèles de langage pré-entraînés, ils bénéficient systématiquement d'une adaptation supplémentaire pour mieux atteindre les comportements souhaités. Cependant, l'ajustement de ces modèles est devenu de plus en plus coûteux en ressources, voire impossible lorsque les poids des modèles sont privés. Nous introduisons le *proxy-tuning*, un algorithme léger fonctionnant au moment du décodage et opérant sur des modèles de langage (LM) en boîte noire pour obtenir le résultat d'un ajustement direct du modèle, mais en accédant uniquement à ses prédictions sur le vocabulaire de sortie. Notre méthode consiste plutôt à ajuster un LM plus petit, puis à appliquer la différence entre les prédictions des petits LM ajustés et non ajustés pour décaler les prédictions originales du modèle de base dans la direction de l'ajustement, tout en conservant les avantages d'un pré-entraînement à plus grande échelle. Dans les expériences, lorsque nous appliquons le *proxy-tuning* à Llama2-70B en utilisant des proxies de seulement 7B, nous pouvons combler 88 % de l'écart entre Llama2-70B et sa version chat réellement ajustée, lorsqu'elle est évaluée sur des benchmarks de connaissances, de raisonnement et de sécurité. Fait intéressant, lorsqu'ils sont testés sur TruthfulQA, les modèles ajustés par *proxy-tuning* sont en réalité plus véridiques que les modèles directement ajustés, probablement parce que le guidage au moment du décodage préserve mieux les connaissances factuelles du modèle. Nous démontrons ensuite la généralité du *proxy-tuning* en l'appliquant pour l'adaptation de domaine sur du code, et pour l'ajustement spécifique à des tâches sur des questions-réponses et des problèmes mathématiques. Notre travail montre la promesse d'utiliser de petits LM ajustés pour personnaliser efficacement de grands LM, potentiellement propriétaires, grâce à un guidage au moment du décodage.
Les modèles génératifs ont démontré une capacité remarquable à synthétiser des textes, des images et des vidéos de haute qualité. Pour la génération de vidéos, les modèles contemporains de texte-à-vidéo présentent des capacités impressionnantes, produisant des vidéos visuellement époustouflantes. Néanmoins, l'évaluation de telles vidéos pose des défis significatifs. Les recherches actuelles utilisent principalement des métriques automatisées telles que FVD, IS et CLIP Score. Cependant, ces métriques offrent une analyse incomplète, en particulier dans l'évaluation temporelle du contenu vidéo, ce qui les rend peu fiables pour indiquer la véritable qualité des vidéos. Par ailleurs, bien que les études utilisateurs aient le potentiel de refléter avec précision la perception humaine, elles sont entravées par leur nature chronophage et laborieuse, avec des résultats souvent entachés de biais subjectifs. Dans cet article, nous examinons les limites inhérentes aux métriques existantes et introduisons une nouvelle pipeline d'évaluation, le Text-to-Video Score (T2VScore). Cette métrique intègre deux critères pivots : (1) l'Alignement Texte-Vidéo, qui examine la fidélité de la vidéo à représenter la description textuelle donnée, et (2) la Qualité Vidéo, qui évalue le calibre global de production de la vidéo avec un mélange d'experts. De plus, pour évaluer les métriques proposées et faciliter leurs améliorations futures, nous présentons le dataset TVGE, collectant les jugements humains de 2 543 vidéos générées par texte-à-vidéo sur les deux critères. Les expériences sur le dataset TVGE démontrent la supériorité du T2VScore proposé en offrant une meilleure métrique pour la génération de texte-à-vidéo.
Les grands modèles de langage (LLMs) sont connus pour avoir une capacité d'extrapolation limitée au-delà de leur fenêtre de contexte pré-entraînée, ce qui restreint leur application dans des tâches en aval avec des entrées longues. Des études récentes ont cherché à étendre la fenêtre de contexte des LLMs en modifiant l'encodage de position rotatif (RoPE), une méthode populaire d'encodage de position adoptée par des LLMs bien connus tels que LLaMA, PaLM et GPT-NeoX. Cependant, les travaux antérieurs comme l'interpolation de position (PI) et YaRN sont gourmands en ressources et manquent d'expériences comparatives pour évaluer leur applicabilité. Dans ce travail, nous identifions le besoin inhérent pour l'entropie d'attention des LLMs (c'est-à-dire l'entropie informationnelle des scores d'attention) de maintenir la stabilité et introduisons une nouvelle extension de RoPE qui combine l'ajustement de la fréquence de base de RoPE et la mise à l'échelle des logits d'attention pour aider les LLMs à s'adapter efficacement à une fenêtre de contexte plus large. Nous validons la supériorité de notre méthode à la fois en termes de performance de fine-tuning et de robustesse pour différentes tailles de fenêtre de contexte sur diverses tâches exigeantes en contexte. Notamment, notre méthode étend la fenêtre de contexte de LLaMA-2-7B-Chat à 16 384 avec seulement 100 échantillons et 6 étapes d'entraînement, démontrant une efficacité extraordinaire. Enfin, nous explorons également comment les compositions de données et les curricula d'entraînement affectent l'extension de la fenêtre de contexte pour des tâches en aval spécifiques, suggérant que le fine-tuning des LLMs avec des conversations longues est un bon point de départ. Nous publions notre code et nos données SFT à l'adresse https://github.com/GAIR-NLP/Entropy-ABF.
Ces dernières années, les modèles d'apprentissage automatique tels que DALL-E, Craiyon et Stable Diffusion ont suscité un intérêt considérable pour leur capacité à générer des images haute résolution à partir de descriptions concises. Parallèlement, l'informatique quantique montre des avancées prometteuses, notamment avec l'apprentissage automatique quantique qui exploite les principes de la mécanique quantique pour répondre aux exigences computationnelles croissantes des algorithmes d'apprentissage automatique traditionnels. Cet article explore l'intégration de l'apprentissage automatique quantique et des circuits quantiques variationnels pour améliorer l'efficacité des modèles de génération d'images basés sur la diffusion. Plus précisément, nous abordons deux défis des modèles de diffusion classiques : leur faible vitesse d'échantillonnage et les besoins importants en paramètres. Nous introduisons deux modèles de diffusion quantique et comparons leurs performances à celles de leurs équivalents classiques en utilisant les ensembles de données MNIST, Fashion MNIST et CIFAR-10. Nos modèles surpassent les modèles classiques avec un nombre similaire de paramètres en termes de métriques de performance FID, SSIM et PSNR. De plus, nous proposons une architecture de sampling unitaire à un seul pas basée sur un modèle de cohérence, qui combine la procédure de diffusion en une seule étape, permettant une génération rapide d'images en un seul pas.
Malgré les avancées remarquables récentes en modélisation générative, la génération efficace d'actifs 3D de haute qualité à partir de prompts textuels reste une tâche difficile. Un défi majeur réside dans la rareté des données : les ensembles de données 3D les plus étendus ne contiennent que des millions d'actifs, tandis que leurs équivalents 2D incluent des milliards de paires texte-image. Pour y remédier, nous proposons une nouvelle approche qui exploite la puissance des grands modèles de diffusion 2D pré-entraînés. Plus précisément, notre approche, HexaGen3D, affine un modèle texte-à-image pré-entraîné pour prédire conjointement 6 projections orthographiques et le triplan latent correspondant. Nous décodons ensuite ces latents pour générer un maillage texturé. HexaGen3D ne nécessite pas d'optimisation par échantillon et peut inférer des objets de haute qualité et diversifiés à partir de prompts textuels en 7 secondes, offrant un compromis qualité-latence bien meilleur par rapport aux approches existantes. De plus, HexaGen3D démontre une forte généralisation à de nouveaux objets ou compositions.