Articles de recherche en IA sélectionnés quotidiennement avec traductions
Une grande fenêtre contextuelle est une caractéristique souhaitable dans les grands modèles de langage (LLM). Cependant, en raison des coûts élevés de fine-tuning, de la rareté des textes longs et des valeurs catastrophiques introduites par les nouvelles positions de tokens, les fenêtres contextuelles étendues actuelles sont limitées à environ 128k tokens. Cet article présente LongRoPE qui, pour la première fois, étend la fenêtre contextuelle des LLM pré-entraînés à un impressionnant 2048k tokens, avec seulement jusqu'à 1k étapes de fine-tuning sur des longueurs d'entraînement de 256k, tout en maintenant les performances sur la fenêtre contextuelle courte d'origine. Cela est réalisé grâce à trois innovations clés : (i) nous identifions et exploitons deux formes de non-uniformités dans l'interpolation positionnelle via une recherche efficace, fournissant une meilleure initialisation pour le fine-tuning et permettant une extension de 8x dans des scénarios sans fine-tuning ; (ii) nous introduisons une stratégie d'extension progressive qui commence par fine-tuner un LLM de longueur 256k, puis effectue une deuxième interpolation positionnelle sur le LLM étendu fine-tuné pour atteindre une fenêtre contextuelle de 2048k ; (iii) nous réajustons LongRoPE sur une longueur de 8k pour restaurer les performances sur la fenêtre contextuelle courte. Des expériences approfondies sur LLaMA2 et Mistral à travers diverses tâches démontrent l'efficacité de notre méthode. Les modèles étendus via LongRoPE conservent l'architecture originale avec des modifications mineures de l'embedding positionnel, et peuvent réutiliser la plupart des optimisations préexistantes.
Les méthodes actuelles d'apprentissage profond se concentrent sur la conception des fonctions objectives les plus appropriées afin que les résultats de prédiction du modèle soient les plus proches possible de la vérité terrain. Parallèlement, une architecture appropriée permettant d'acquérir suffisamment d'informations pour la prédiction doit être conçue. Les méthodes existantes ignorent un fait essentiel : lorsque les données d'entrée subissent une extraction de caractéristiques couche par couche et une transformation spatiale, une grande quantité d'informations est perdue. Cet article explore en profondeur les problèmes importants de perte de données lors de la transmission à travers des réseaux profonds, à savoir le goulot d'étranglement informationnel et les fonctions réversibles. Nous proposons le concept d'information de gradient programmable (PGI) pour répondre aux divers changements requis par les réseaux profonds afin d'atteindre plusieurs objectifs. Le PGI peut fournir des informations d'entrée complètes pour la tâche cible afin de calculer la fonction objective, permettant ainsi d'obtenir des informations de gradient fiables pour mettre à jour les poids du réseau. De plus, une nouvelle architecture de réseau léger -- le Réseau d'Aggrégation de Couches Efficace Généralisé (GELAN), basé sur la planification de chemin de gradient, est conçue. L'architecture du GELAN confirme que le PGI a obtenu des résultats supérieurs sur des modèles légers. Nous avons validé le GELAN et le PGI proposés sur la détection d'objets basée sur le jeu de données MS COCO. Les résultats montrent que le GELAN utilise uniquement des opérateurs de convolution conventionnels pour atteindre une meilleure utilisation des paramètres que les méthodes de pointe développées à partir de convolutions séparables en profondeur. Le PGI peut être utilisé pour une variété de modèles, des plus légers aux plus grands. Il peut être utilisé pour obtenir des informations complètes, permettant ainsi à des modèles entraînés à partir de zéro d'obtenir de meilleurs résultats que les modèles de pointe pré-entraînés sur de grands jeux de données, comme le montrent les résultats de comparaison dans la Figure 1. Les codes sources sont disponibles à l'adresse : https://github.com/WongKinYiu/yolov9.
Nous présentons le jeu de données Aria Everyday Activities (AEA), un ensemble de données ouvert et multimodal enregistré en vision égocentrique à l'aide des lunettes Project Aria. AEA contient 143 séquences d'activités quotidiennes capturées par plusieurs porteurs dans cinq lieux intérieurs géographiquement diversifiés. Chaque enregistrement comprend des données multimodales issues des capteurs des lunettes Project Aria. De plus, AEA fournit des données de perception machine, notamment des trajectoires 3D alignées globalement à haute fréquence, un nuage de points de la scène, un vecteur de regard 3D par image et une transcription vocale synchronisée dans le temps. Dans cet article, nous illustrons quelques exemples d'applications de recherche rendues possibles par ce jeu de données, telles que la reconstruction neuronale de scènes et la segmentation guidée. AEA est un jeu de données open source téléchargeable sur projectaria.com. Nous mettons également à disposition des implémentations open source et des exemples d'utilisation du jeu de données dans les outils Project Aria.
Nous proposons une méthode de distillation par diffusion qui établit un nouvel état de l'art dans la génération d'images texte-à-image en une étape/quelques étapes à 1024px basée sur SDXL. Notre méthode combine la distillation progressive et la distillation adversarial pour atteindre un équilibre entre qualité et couverture des modes. Dans cet article, nous discutons de l'analyse théorique, de la conception du discriminateur, de la formulation du modèle et des techniques d'entraînement. Nous rendons publics nos modèles SDXL-Lightning distillés, à la fois sous forme de poids LoRA et de poids complets UNet.
Les modèles contemporains de génération d'images démontrent une qualité et une polyvalence remarquables. Séduite par ces avantages, la communauté de recherche les réutilise pour générer des vidéos. Étant donné que le contenu vidéo est hautement redondant, nous soutenons qu'adopter naïvement les avancées des modèles d'images dans le domaine de la génération vidéo réduit la fidélité du mouvement, la qualité visuelle et nuit à l'évolutivité. Dans ce travail, nous construisons Snap Video, un modèle axé sur la vidéo qui aborde systématiquement ces défis. Pour ce faire, nous étendons d'abord le cadre EDM pour prendre en compte les pixels redondants spatialement et temporellement, et soutenir naturellement la génération vidéo. Ensuite, nous montrons qu'un U-Net - un pilier derrière la génération d'images - évolue mal lors de la génération de vidéos, nécessitant une surcharge computationnelle significative. Par conséquent, nous proposons une nouvelle architecture basée sur des transformateurs qui s'entraîne 3,31 fois plus vite que les U-Nets (et est ~4,5 fois plus rapide lors de l'inférence). Cela nous permet d'entraîner efficacement un modèle texte-à-vidéo avec des milliards de paramètres pour la première fois, d'atteindre des résultats de pointe sur plusieurs benchmarks, et de générer des vidéos avec une qualité, une cohérence temporelle et une complexité de mouvement nettement supérieures. Les études utilisateurs ont montré que notre modèle était largement préféré par rapport aux méthodes les plus récentes. Consultez notre site web à l'adresse https://snap-research.github.io/snapvideo/.
Les grands modèles de langage (LLMs) ont révolutionné le traitement du langage naturel. Cependant, l'intégration efficace de données d'interaction utilisateur complexes et potentiellement bruitées reste un défi. Pour y remédier, nous proposons User-LLM, un nouveau cadre qui exploite des embeddings utilisateur pour contextualiser les LLMs. Ces embeddings, distillés à partir de diverses interactions utilisateur grâce à un pré-entraînement auto-supervisé, capturent les préférences latentes des utilisateurs et leur évolution dans le temps. Nous intégrons ces embeddings utilisateur aux LLMs via des mécanismes de cross-attention et de soft-prompting, permettant aux LLMs de s'adapter dynamiquement au contexte utilisateur. Nos expériences approfondies sur les ensembles de données MovieLens, Amazon Review et Google Local Review démontrent des gains de performance significatifs sur diverses tâches. Notamment, notre approche surpasse la contextualisation basée sur des prompts textuels pour les tâches à séquences longues et celles nécessitant une compréhension approfondie de l'utilisateur, tout en étant efficace sur le plan computationnel. Nous intégrons en outre des couches Perceiver pour rationaliser l'intégration entre les encodeurs utilisateur et les LLMs, réduisant ainsi les exigences computationnelles.
Des travaux récents ont montré que les agents d'apprentissage par renforcement profond éprouvent des difficultés à utiliser efficacement leurs paramètres de réseau. Nous tirons parti d'observations antérieures sur les avantages des techniques d'entraînement parcimonieux et démontrons que l'élagage progressif par magnitude permet aux agents de maximiser l'efficacité des paramètres. Cela aboutit à des réseaux qui offrent des améliorations spectaculaires de performance par rapport aux réseaux traditionnels et qui présentent une forme de "loi d'échelle", tout en n'utilisant qu'une petite fraction des paramètres complets du réseau.
Il a été récemment démontré que les attaques adverses sur les grands modèles de langage (LLMs) peuvent "déverrouiller" le modèle, l'amenant à produire des déclarations nuisibles. Dans ce travail, nous soutenons que le spectre des attaques adverses sur les LLMs est bien plus large que le simple déverrouillage. Nous proposons un aperçu détaillé des surfaces d'attaque possibles et des objectifs de ces attaques. Sur la base d'une série d'exemples concrets, nous discutons, catégorisons et systématisons les attaques qui induisent divers comportements non intentionnels, tels que la désorientation, le contrôle du modèle, le déni de service ou l'extraction de données. Nous analysons ces attaques dans des expériences contrôlées et constatons que beaucoup d'entre elles découlent de la pratique consistant à pré-entraîner les LLMs avec des capacités de codage, ainsi que de la persistance de "tokens" étranges et défectueux dans les vocabulaires courants des LLMs, qui devraient être supprimés pour des raisons de sécurité.
Avec le développement des modèles de diffusion, le transfert de style d'image guidé par texte a démontré des résultats de synthèse contrôlée de haute qualité. Cependant, l'utilisation du texte pour le transfert de style musical diversifié pose des défis importants, principalement en raison de la disponibilité limitée de jeux de données audio-texte appariés. La musique, étant une forme d'art abstraite et complexe, présente des variations et des subtilités même au sein d'un même genre, rendant ainsi les descriptions textuelles précises difficiles. Cet article présente une approche de transfert de style musical qui capture efficacement les attributs musicaux en utilisant un minimum de données. Nous introduisons un nouveau module d'inversion textuelle variant dans le temps pour capturer précisément les caractéristiques des mél-spectrogrammes à différents niveaux. Pendant l'inférence, nous proposons une technique de stylisation à biais réduit pour obtenir des résultats stables. Les résultats expérimentaux démontrent que notre méthode peut transférer le style d'instruments spécifiques, ainsi qu'incorporer des sons naturels pour composer des mélodies. Les échantillons et le code source sont disponibles à l'adresse https://lsfhuihuiff.github.io/MusicTI/.
Le raisonnement multimodal constitue une capacité essentielle pour les grands modèles vision-langage (LVLMs). L'intégration avec les langages spécifiques à un domaine (DSL), offrant des représentations visuelles précises, permet à ces modèles d'exécuter un raisonnement plus précis dans des domaines complexes et spécialisés. Cependant, la méthode classique de prompting en chaîne de pensée (CoT) rencontre des difficultés à exploiter efficacement les forces uniques des représentations visuelles et DSL, principalement en raison de leurs mécanismes de raisonnement distincts. De plus, elle échoue souvent à aborder les étapes critiques dans les tâches de raisonnement à plusieurs étapes. Pour atténuer ces défis, nous introduisons la méthode de prompting d'Alignement Comportemental Bi-Modal (BBA), conçue pour maximiser le potentiel des DSL dans l'amélioration des tâches complexes de raisonnement multimodal. Cette méthode commence par guider les LVLMs à créer des chaînes de raisonnement distinctes pour les représentations visuelles et DSL. Ensuite, elle aligne ces chaînes en résolvant les incohérences, permettant ainsi une intégration cohérente des comportements issus de différentes modalités. Nos expériences démontrent que BBA améliore significativement les performances de GPT-4V(ision) dans la résolution de problèmes de géométrie (de 28,34% à 34,22%), la prédiction d'avantage positionnel aux échecs (de 42,08% à 46,99%) et la prédiction de propriétés moléculaires (de 77,47% à 83,52%).
Le mécanisme d'attention a été crucial pour les modèles de diffusion d'images, cependant, leur complexité computationnelle quadratique limite la taille des images que nous pouvons traiter dans des contraintes raisonnables de temps et de mémoire. Cet article étudie l'importance de l'attention dense dans les modèles génératifs d'images, qui contiennent souvent des caractéristiques redondantes, les rendant adaptés à des mécanismes d'attention plus parcimonieux. Nous proposons une nouvelle méthode sans entraînement, ToDo, qui repose sur un sous-échantillonnage des tokens de clé et de valeur pour accélérer l'inférence de Stable Diffusion jusqu'à 2x pour les tailles courantes et jusqu'à 4,5x ou plus pour les hautes résolutions comme 2048x2048. Nous démontrons que notre approche surpasse les méthodes précédentes en équilibrant un débit efficace et la fidélité.
Maîtriser les résultats de génération des modèles de pointe en Diffusion et Flow-Matching (FM) sans avoir à réentraîner un modèle spécifique à une tâche ouvre la voie à un outil puissant pour résoudre des problèmes inverses, la génération conditionnelle et la génération contrôlée en général. Dans ce travail, nous introduisons D-Flow, un cadre simple pour contrôler le processus de génération en différenciant à travers le flux, en optimisant le point source (bruit). Nous justifions ce cadre par notre observation clé qui indique que pour les modèles de Diffusion/FM entraînés avec des chemins de probabilité gaussiens, la différenciation à travers le processus de génération projette le gradient sur la variété des données, injectant implicitement l'a priori dans le processus d'optimisation. Nous validons notre cadre sur des problèmes de génération contrôlée linéaires et non linéaires, incluant : des problèmes inverses en image et audio, ainsi que la génération conditionnelle de molécules, atteignant des performances de pointe dans tous ces domaines.
Les méthodes de décodage par rédaction puis vérification, telles que le décodage spéculatif, sont largement adoptées comme méthodes sans entraînement pour accélérer l'inférence des grands modèles de langage (LLM). Au lieu d'utiliser un processus autorégressif pour décoder les jetons séquentiellement, le décodage spéculatif crée d'abord des ébauches avec un petit modèle efficace. Ensuite, les LLM sont requis pour effectuer la vérification et la correction de manière non autorégressive afin de minimiser le temps supplémentaire. Générer des ébauches plus longues peut conduire à des accélérations encore plus significatives une fois vérifiées, mais entraîne également des coûts substantiels d'essais et d'erreurs en cas d'échec. Souffrant d'une probabilité élevée d'échec de vérification, les méthodes de décodage existantes ne peuvent pas rédiger trop de contenu pour vérification en une seule fois, atteignant ainsi une accélération d'inférence sous-optimale. Dans cet article, nous présentons Ouroboros, qui construit un pool de candidats de phrases à partir du processus de vérification des LLM pour fournir des candidats à la génération d'ébauches du petit modèle. Ainsi, Ouroboros peut encore améliorer l'efficacité et l'efficience des ébauches initiales. Les résultats expérimentaux sur des tâches typiques de génération de texte montrent qu'Ouroboros atteint des accélérations allant jusqu'à 1,9x et 2,8x par rapport au décodage prospectif et au décodage spéculatif, respectivement. Le code source d'Ouroboros est disponible à l'adresse https://github.com/thunlp/Ouroboros.