Articles de recherche en IA sélectionnés quotidiennement avec traductions
Par rapport aux données d'images et de textes appariés, les corpus entrelacés permettent aux Modèles Vision-Texte (VLM) de comprendre le monde de manière plus naturelle, à l'instar des humains. Cependant, de tels ensembles de données existants sont collectés à partir de pages web, ce qui pose des défis tels qu'une faible densité de connaissances, des relations lâches entre l'image et le texte, et une faible cohérence logique entre les images. D'autre part, Internet héberge de vastes vidéos pédagogiques (par exemple, des cours de géométrie en ligne) largement utilisées par les humains pour apprendre des matières fondamentales, pourtant ces ressources précieuses restent sous-exploitées dans la formation des VLM. Dans cet article, nous présentons un corpus multimodal de manuels scolaires de haute qualité offrant des connaissances fondamentales plus riches pour la préformation des VLM. Il rassemble plus de 2,5 années de vidéos pédagogiques, totalisant 22 000 heures de cours. Nous utilisons d'abord une taxonomie proposée par LLM pour rassembler systématiquement des vidéos pédagogiques. Ensuite, nous extrayons progressivement et affinons les connaissances visuelles (images clés), audio (ASR) et textuelles (OCR) des vidéos, et les organisons sous forme d'un corpus entrelacé image-texte basé sur l'ordre temporel. Comparé à ses homologues, notre manuel centré sur la vidéo offre un contexte plus cohérent, des connaissances plus riches et un meilleur alignement entre l'image et le texte. Les expériences démontrent ses performances de préformation exceptionnelles, notamment dans des tâches intensives en connaissances et raisonnement telles que ScienceQA et MathVista. De plus, les VLM pré-entraînés sur notre manuel présentent une conscience contextuelle entrelacée exceptionnelle, exploitant des indices visuels et textuels dans leur contexte à quelques coups pour résoudre des tâches. Notre code est disponible sur \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
Malgré les avancées significatives dans la génération de vidéos, insérer un objet donné dans des vidéos reste une tâche difficile. La difficulté réside dans la préservation des détails d'apparence de l'objet de référence et dans la modélisation précise des mouvements cohérents en même temps. Dans cet article, nous proposons VideoAnydoor, un cadre d'insertion d'objet vidéo sans apprentissage préalable avec une préservation des détails haute fidélité et un contrôle précis du mouvement. À partir d'un modèle texte-vidéo, nous utilisons un extracteur d'identifiant pour injecter l'identité globale et exploitons une séquence de boîtes pour contrôler le mouvement global. Pour préserver l'apparence détaillée et en même temps soutenir un contrôle de mouvement fin, nous concevons un déformateur de pixels. Il prend l'image de référence avec des points clés arbitraires et les trajectoires de points clés correspondantes en entrée. Il déforme les détails des pixels selon les trajectoires et fusionne les caractéristiques déformées avec le réseau U-Net de diffusion, améliorant ainsi la préservation des détails et soutenant les utilisateurs dans la manipulation des trajectoires de mouvement. De plus, nous proposons une stratégie d'entraînement impliquant à la fois des vidéos et des images statiques avec une perte de reconstruction à rééquilibrage pour améliorer la qualité de l'insertion. VideoAnydoor démontre une supériorité significative par rapport aux méthodes existantes et prend en charge naturellement diverses applications en aval (par exemple, génération de tête parlante, essayage virtuel de vidéos, édition multi-régions) sans ajustement fin spécifique à la tâche.
Avec l'amélioration croissante des capacités de raisonnement du code des modèles de langage de grande taille (LLMs) existants et les avancées dans les modèles de raisonnement tels que OpenAI o1 et o3, il est de plus en plus nécessaire de développer des benchmarks plus exigeants et complets qui testent efficacement leurs capacités de codage sophistiquées de niveau de compétition. Les benchmarks existants, tels que LiveCodeBench et USACO, présentent des lacunes en raison de l'indisponibilité de cas de test privés, du manque de prise en charge des juges spéciaux et des environnements d'exécution mal alignés. Pour combler ce fossé, nous introduisons CodeElo, un benchmark de génération de code de niveau de compétition normalisé qui aborde efficacement tous ces défis pour la première fois. Le benchmark CodeElo est principalement basé sur la plateforme officielle CodeForces et tente de s'aligner autant que possible avec la plateforme. Nous compilons les problèmes des concours des six derniers mois sur CodeForces avec des informations détaillées telles que les divisions des concours, les évaluations de difficulté des problèmes et les balises d'algorithmes de problèmes. Nous introduisons une méthode de jugement unique dans laquelle les problèmes sont soumis directement à la plateforme et développons un système fiable de calcul des notes Elo qui s'aligne avec la plateforme et est comparable aux participants humains mais présente une variance plus faible. En testant sur notre CodeElo, nous fournissons pour la première fois les notes Elo de 30 LLMs open-source populaires existants et de 3 LLMs propriétaires. Les résultats montrent que o1-mini et QwQ-32B-Preview se distinguent significativement, atteignant des notes Elo de 1578 et 1261 respectivement, tandis que d'autres modèles ont du mal même avec les problèmes les plus faciles, se classant dans les 20 % les plus bas parmi tous les participants humains. Des expériences d'analyse détaillées sont également menées pour fournir des informations sur les performances à travers les algorithmes et les comparaisons entre l'utilisation de C++ et de Python, ce qui peut suggérer des orientations pour des études futures.
Les grands modèles de langage vidéo (Video LLMs) ont récemment montré des capacités remarquables en matière de compréhension générale des vidéos. Cependant, ils se concentrent principalement sur la compréhension holistique et éprouvent des difficultés à capturer les détails spatiaux et temporels fins. De plus, le manque de données d'instructions vidéo de haute qualité au niveau de l'objet et d'un banc d'essai complet entrave davantage leurs progrès. Pour relever ces défis, nous introduisons l'ensemble VideoRefer pour renforcer les Video LLM pour une compréhension vidéo spatiale-temporelle de niveau plus fin, c'est-à-dire permettre la perception et le raisonnement sur n'importe quels objets tout au long de la vidéo. Plus précisément, nous développons en détail l'ensemble VideoRefer à travers trois aspects essentiels : jeu de données, modèle et banc d'essai. Tout d'abord, nous introduisons un moteur de données multi-agent pour créer méticuleusement un ensemble de données d'instructions vidéo au niveau de l'objet à grande échelle et de haute qualité, appelé VideoRefer-700K. Ensuite, nous présentons le modèle VideoRefer, qui est équipé d'un encodeur d'objet spatial-temporel polyvalent pour capturer des représentations régionales et séquentielles précises. Enfin, nous créons méticuleusement un banc d'essai VideoRefer-Bench pour évaluer de manière exhaustive la capacité de compréhension spatiale-temporelle d'un Video LLM, en l'évaluant à travers divers aspects. Des expériences et analyses approfondies démontrent que notre modèle VideoRefer non seulement atteint des performances prometteuses sur les bancs d'essai de référence vidéo, mais facilite également les capacités de compréhension générale des vidéos.
Nous présentons LTX-Video, un modèle de diffusion latente basé sur un transformateur qui adopte une approche holistique de la génération vidéo en intégrant de manière transparente les responsabilités du Video-VAE et du transformateur de débruitage. Contrairement aux méthodes existantes, qui traitent ces composants de manière indépendante, LTX-Video vise à optimiser leur interaction pour améliorer l'efficacité et la qualité. À sa base se trouve un Video-VAE soigneusement conçu qui atteint un taux de compression élevé de 1:192, avec une réduction spatiotemporelle de 32 x 32 x 8 pixels par jeton, rendue possible en déplaçant l'opération de patchification de l'entrée du transformateur vers l'entrée du VAE. En opérant dans cet espace latent hautement compressé, le transformateur peut effectuer efficacement une auto-attention spatiotemporelle complète, essentielle pour générer des vidéos haute résolution avec une cohérence temporelle. Cependant, la compression élevée limite intrinsèquement la représentation des détails fins. Pour remédier à cela, notre décodeur VAE est chargé à la fois de la conversion latente en pixel et de l'étape finale de débruitage, produisant directement le résultat propre dans l'espace pixel. Cette approche préserve la capacité de générer des détails fins sans entraîner le coût d'exécution d'un module de suréchantillonnage séparé. Notre modèle prend en charge divers cas d'utilisation, notamment la génération de texte en vidéo et d'image en vidéo, avec les deux capacités formées simultanément. Il atteint une génération plus rapide que le temps réel, produisant 5 secondes de vidéo à 24 images par seconde en résolution 768x512 en seulement 2 secondes sur un GPU Nvidia H100, surpassant tous les modèles existants de taille similaire. Le code source et les modèles pré-entraînés sont disponibles publiquement, établissant une nouvelle référence pour une génération vidéo accessible et évolutive.
Les modèles de diffusion latente avec architectures Transformer excellent dans la génération d'images haute fidélité. Cependant, des études récentes révèlent un dilemme d'optimisation dans cette conception en deux étapes : augmenter la dimension des caractéristiques par jeton dans les tokenizers visuels améliore la qualité de la reconstruction, mais nécessite des modèles de diffusion substantiellement plus grands et davantage d'itérations d'entraînement pour atteindre des performances de génération comparables. Par conséquent, les systèmes existants optent souvent pour des solutions sous-optimales, produisant soit des artefacts visuels dus à une perte d'information dans les tokenizers, soit échouant à converger complètement en raison des coûts de calcul élevés. Nous soutenons que ce dilemme découle de la difficulté inhérente à apprendre dans des espaces latents de haute dimension non contraints. Pour y remédier, nous proposons d'aligner l'espace latent avec des modèles de fondation visuelle pré-entraînés lors de l'entraînement des tokenizers visuels. Notre VA-VAE proposé (AutoEncodeur Variationnel Aligné avec le modèle de fondation visuelle) élargit significativement la frontière de reconstruction-génération des modèles de diffusion latente, permettant une convergence plus rapide des Transformateurs de Diffusion (DiT) dans des espaces latents de haute dimension. Pour exploiter pleinement le potentiel de VA-VAE, nous construisons une ligne de base DiT améliorée avec des stratégies d'entraînement et des conceptions architecturales améliorées, appelée LightningDiT. Le système intégré atteint des performances de pointe sur la génération ImageNet 256x256 avec un score FID de 1,35, tout en démontrant une efficacité d'entraînement remarquable en atteignant un score FID de 2,11 en seulement 64 époques - représentant une accélération de la vitesse de convergence de plus de 21 fois par rapport au DiT original. Les modèles et les codes sont disponibles sur : https://github.com/hustvl/LightningDiT.
La sécurité du contenu des images est devenue un défi majeur avec la montée en puissance des médias visuels sur les plateformes en ligne. Pendant ce temps, à l'ère du contenu généré par l'IA (CGIA), de nombreux modèles de génération d'images sont capables de produire du contenu nuisible, tel que des images contenant du matériel sexuel ou violent. Il devient donc crucial d'identifier de telles images non sécurisées en se basant sur des règles de sécurité établies. Les Modèles de Langage Multimodaux de Grande Taille (MLLMs) pré-entraînés offrent un potentiel en ce sens, étant donné leurs fortes capacités de reconnaissance de motifs. Les approches existantes consistent généralement à affiner les MLLMs avec des ensembles de données annotés par des humains, ce qui entraîne cependant une série d'inconvénients. Tout d'abord, s'appuyer sur des annotateurs humains pour étiqueter des données selon des directives complexes et détaillées est à la fois coûteux et intensif en main-d'œuvre. De plus, les utilisateurs des systèmes de jugement de sécurité peuvent avoir besoin de mettre à jour fréquemment les règles de sécurité, rendant l'affinage basé sur l'annotation humaine plus difficile. Cela soulève la question de recherche suivante : Pouvons-nous détecter des images non sécurisées en interrogeant les MLLMs dans un cadre de zéro-shot en utilisant une constitution de sécurité prédéfinie (un ensemble de règles de sécurité) ? Notre recherche a montré que simplement interroger des MLLMs pré-entraînés ne donne pas de résultats satisfaisants. Ce manque d'efficacité découle de facteurs tels que la subjectivité des règles de sécurité, la complexité des constitutions longues et les biais inhérents dans les modèles. Pour relever ces défis, nous proposons une méthode basée sur les MLLMs qui inclut l'objectivation des règles de sécurité, l'évaluation de la pertinence entre les règles et les images, la prise de jugements rapides basée sur les probabilités de jetons débiaisées avec des chaînes de préconditions logiquement complètes mais simplifiées pour les règles de sécurité, et la réalisation de raisonnements plus approfondis avec des processus de pensée en cascade si nécessaire. Les résultats des expériences démontrent que notre méthode est très efficace pour les tâches de jugement de sécurité des images en zéro-shot.
L'auto-correction vise à permettre aux grands modèles de langage (GML) de s'auto-vérifier et de se perfectionner sans feedback externe. Cependant, les GML échouent souvent à s'auto-vérifier de manière efficace et à générer un feedback correct, ce qui entraîne des raffinements trompeurs et conduit à l'échec de l'auto-correction, notamment dans des tâches de raisonnement complexes. Dans cet article, nous proposons l'Auto-correction pilotée par programme (ProgCo). Tout d'abord, la vérification pilotée par programme (ProgVe) atteint une logique de vérification complexe et une validation étendue grâce à des pseudo-programmes de vérification auto-générés et auto-exécutants. Ensuite, le raffinement piloté par programme (ProgRe) reçoit un feedback de ProgVe, réalise une double réflexion et un raffinement à la fois des réponses et des programmes de vérification pour atténuer les feedbacks incorrects dans des tâches de raisonnement complexes. Des expériences menées sur trois benchmarks d'instructions et de mathématiques indiquent que ProgCo parvient à une auto-correction efficace et peut améliorer ses performances lorsqu'il est combiné à de véritables outils de programmation.
Les agents d'IA sont devenus de plus en plus courants ces dernières années, stimulés par des avancées significatives dans le domaine des grands modèles de langage (LLM). Les agents GUI mobiles, une sous-catégorie des agents d'IA, sont conçus pour effectuer des tâches de manière autonome sur des appareils mobiles. Alors que de nombreuses études ont introduit des agents, des ensembles de données et des référentiels pour faire progresser la recherche sur les agents GUI mobiles, de nombreux ensembles de données existants se concentrent sur des évaluations de trames statiques et ne fournissent pas une plateforme complète pour évaluer les performances sur des tâches réelles, en conditions réelles. Pour combler cette lacune, nous présentons Android Agent Arena (A3), une nouvelle plateforme d'évaluation. Contrairement aux systèmes existants en conditions réelles, A3 offre : (1) des tâches significatives et pratiques, telles que la recherche d'informations en ligne en temps réel et des instructions opérationnelles ; (2) un espace d'action plus grand et plus flexible, permettant la compatibilité avec des agents entraînés sur n'importe quel ensemble de données ; et (3) un processus d'évaluation automatisé basé sur des LLM au niveau commercial. A3 comprend 21 applications tierces générales largement utilisées et 201 tâches représentatives de scénarios d'utilisation courants, offrant une base solide pour évaluer les agents GUI mobiles dans des situations réelles et un nouveau processus d'évaluation autonome nécessitant moins de travail humain et d'expertise en codage. Le projet est disponible sur https://yuxiangchai.github.io/Android-Agent-Arena/.
Les récentes avancées dans les modèles fondamentaux ont amélioré les capacités des systèmes d'IA en matière d'utilisation autonome d'outils et de raisonnement. Cependant, leur capacité en matière de raisonnement basé sur la localisation ou les cartes - qui améliore la vie quotidienne en optimisant la navigation, en facilitant la découverte de ressources et en rationalisant la logistique - n'a pas été étudiée de manière systématique. Pour combler cette lacune, nous présentons MapEval, un banc d'essai conçu pour évaluer des requêtes utilisateur diverses et complexes basées sur des cartes avec un raisonnement géospatial. MapEval propose trois types de tâches (textuelles, basées sur des API et visuelles) qui nécessitent de collecter des informations mondiales via des outils cartographiques, de traiter des contextes géospatiaux hétérogènes (par ex. entités nommées, distances de voyage, avis ou évaluations d'utilisateurs, images) et un raisonnement compositionnel, que tous les modèles fondamentaux de pointe trouvent difficiles. Comprenant 700 questions à choix multiples uniques sur des lieux à travers 180 villes et 54 pays, MapEval évalue la capacité des modèles fondamentaux à gérer les relations spatiales, les infographies cartographiques, la planification de voyages et les défis de navigation. En utilisant MapEval, nous avons mené une évaluation complète de 28 modèles fondamentaux de premier plan. Bien qu'aucun modèle unique n'ait excellé dans toutes les tâches, Claude-3.5-Sonnet, GPT-4o et Gemini-1.5-Pro ont obtenu des performances compétitives dans l'ensemble. Cependant, des écarts de performance substantiels sont apparus, en particulier dans MapEval, où les agents avec Claude-3.5-Sonnet ont surpassé GPT-4o et Gemini-1.5-Pro de 16% et 21% respectivement, et les écarts se sont encore amplifiés lorsqu'ils ont été comparés à des LLM open-source. Nos analyses détaillées fournissent des informations sur les forces et les faiblesses des modèles actuels, bien que tous les modèles restent encore en deçà des performances humaines de plus de 20% en moyenne, ayant du mal avec des images cartographiques complexes et un raisonnement géospatial rigoureux. Cette lacune souligne le rôle critique de MapEval dans l'avancement des modèles fondamentaux à usage général avec une compréhension géospatiale renforcée.
L'avènement récent des Grands Modèles de Langage (GML) a introduit des capacités de raisonnement sophistiquées dans le domaine de la vidéo à travers les Grands Modèles de Langage Vidéo (VideoLLM). Cependant, les VideoLLM s'appuient actuellement sur un seul encodeur visuel pour tout leur traitement visuel, ce qui limite la quantité et le type d'informations visuelles pouvant être transmises au GML. Notre méthode, MERV, Représentation Multi-Encodeurs de Vidéos, exploite plutôt plusieurs encodeurs visuels figés pour créer une représentation unifiée d'une vidéo, fournissant au VideoLLM un ensemble complet de connaissances visuelles spécialisées. L'alignement spatio-temporel des caractéristiques de chaque encodeur nous permet d'aborder un éventail plus large de questions de compréhension vidéo ouvertes et à choix multiples et de surpasser les travaux précédents de pointe. MERV est jusqu'à 3,7 % plus précis que Video-LLaVA sur les benchmarks standard de compréhension vidéo, tout en obtenant un meilleur score Video-ChatGPT. Nous améliorons également SeViLA, le précédent meilleur en termes de précision du Test de Perception à zéro, de 2,2 %. MERV introduit un nombre minimal de paramètres supplémentaires et se forme plus rapidement que les méthodes à encodeur unique équivalentes tout en parallélisant le traitement visuel. Enfin, nous fournissons des preuves qualitatives que MERV capture avec succès les connaissances de domaine de chacun de ses encodeurs. Nos résultats offrent des perspectives prometteuses pour l'utilisation de plusieurs encodeurs visuels dans la compréhension vidéo complète.
Les modèles de langage de grande taille (LLM) actuels ont souvent du mal à produire des réponses précises dès la première tentative pour des tâches de raisonnement complexe telles que la génération de code. Les recherches antérieures abordent ce défi en générant plusieurs solutions candidates et en les validant avec des tests unitaires générés par LLM. Les résultats de l'exécution des tests unitaires servent de signaux de récompense pour identifier les solutions correctes. Comme les LLM font toujours des erreurs avec confiance, ces tests unitaires ne sont pas fiables, diminuant ainsi la qualité des signaux de récompense. Motivés par l'observation selon laquelle l'augmentation du nombre de solutions améliore les performances des LLM, nous explorons l'impact de l'augmentation des tests unitaires pour améliorer la qualité des signaux de récompense. Notre expérience pionnière révèle une corrélation positive entre le nombre de tests unitaires et la qualité des signaux de récompense, avec des avantages plus importants observés dans des problèmes plus difficiles. Sur la base de ces observations, nous proposons CodeRM-8B, un générateur de tests unitaires léger mais efficace qui permet un dimensionnement efficace et de haute qualité des tests unitaires. De plus, nous mettons en œuvre un mécanisme de dimensionnement dynamique qui adapte le nombre de tests unitaires en fonction de la difficulté du problème, améliorant ainsi davantage l'efficacité. Les résultats expérimentaux montrent que notre approche améliore significativement les performances de divers modèles sur trois benchmarks (par exemple, avec des gains de 18,43 % pour Llama3-8B et de 3,42 % pour GPT-4o-mini sur HumanEval Plus).
La personnalisation des modèles texte-image pour générer des images de sujets spécifiques à travers des scènes et styles divers est un domaine en évolution rapide. Les approches actuelles sont souvent confrontées à des défis pour maintenir un équilibre entre la préservation de l'identité et l'alignement avec la consigne textuelle d'entrée. Certains méthodes se basent sur un seul jeton textuel pour représenter un sujet, ce qui limite l'expressivité, tandis que d'autres utilisent des représentations plus riches mais perturbent le modèle précédent, réduisant l'alignement avec la consigne. Dans ce travail, nous introduisons l'Attention Emboîtée, un mécanisme novateur qui injecte une représentation d'image riche et expressive dans les couches d'attention croisée existantes du modèle. Notre idée clé est de générer des valeurs de sujet dépendantes de la requête, dérivées des couches d'attention emboîtées qui apprennent à sélectionner les caractéristiques de sujet pertinentes pour chaque région de l'image générée. Nous intégrons ces couches emboîtées dans une méthode de personnalisation basée sur un encodeur, et montrons qu'elles permettent une forte préservation de l'identité tout en respectant les consignes textuelles d'entrée. Notre approche est générale et peut être entraînée sur divers domaines. De plus, sa préservation antérieure nous permet de combiner plusieurs sujets personnalisés de différents domaines dans une seule image.
La restauration vidéo pose des défis non triviaux pour maintenir la fidélité tout en récupérant des détails temporellement cohérents à partir de dégradations inconnues dans des environnements variés. Malgré les récents progrès réalisés dans la restauration basée sur la diffusion, ces méthodes sont souvent confrontées à des limitations en termes de capacité de génération et d'efficacité d'échantillonnage. Dans ce travail, nous présentons SeedVR, un transformateur de diffusion conçu pour gérer la restauration vidéo du monde réel avec une longueur et une résolution arbitraires. Le cœur de la conception de SeedVR réside dans l'attention à fenêtre décalée qui facilite une restauration efficace sur de longues séquences vidéo. SeedVR prend en charge en outre des fenêtres de tailles variables près de la limite des dimensions spatiales et temporelles, surmontant ainsi les contraintes de résolution de l'attention à fenêtre traditionnelle. Doté de pratiques contemporaines, telles qu'un autoencodeur vidéo causal, un entraînement mixte d'images et de vidéos, et un entraînement progressif, SeedVR atteint des performances très compétitives à la fois sur des benchmarks synthétiques et du monde réel, ainsi que sur des vidéos générées par IA. De vastes expériences démontrent la supériorité de SeedVR par rapport aux méthodes existantes pour la restauration vidéo générique.
Les services de cartographie et de navigation tels que Google Maps, Apple Plans, OpenStreetMap, sont essentiels pour accéder à diverses données basées sur la localisation, mais ils ont souvent du mal à gérer les requêtes géospatiales en langage naturel. Les récentes avancées dans les Modèles de Langage Géant (MLG) montrent des promesses en matière de réponse aux questions (QA), mais la création de jeux de données fiables pour le QA géospatial à partir des services de cartographie reste un défi. Nous présentons MapQaTor, une application web qui simplifie la création de jeux de données QA basés sur la carte reproductibles et traçables. Avec son architecture plug-and-play, MapQaTor permet une intégration transparente avec n'importe quelle API de cartes, permettant aux utilisateurs de collecter et visualiser des données provenant de sources diverses avec un minimum de configuration. En mettant en cache les réponses des API, la plateforme garantit une vérité terrain cohérente, améliorant la fiabilité des données même lorsque les informations du monde réel évoluent. MapQaTor centralise la collecte de données, l'annotation et la visualisation au sein d'une seule plateforme, offrant une opportunité unique d'évaluer l'état actuel du raisonnement géospatial basé sur les MLG tout en faisant progresser leurs capacités pour une meilleure compréhension géospatiale. Les métriques d'évaluation montrent que MapQaTor accélère le processus d'annotation d'au moins 30 fois par rapport aux méthodes manuelles, soulignant son potentiel pour le développement de ressources géospatiales, telles que des jeux de données complexes de raisonnement cartographique. Le site web est accessible à l'adresse : https://mapqator.github.io/ et une vidéo de démonstration est disponible à l'adresse : https://youtu.be/7_aV9Wmhs6Q.
Les Modèles d'Espace d'État Structuré (MES) ont émergé en tant qu'alternatives aux transformeurs. Alors que les MES sont souvent considérés comme efficaces pour capturer les dépendances de longues séquences, nous démontrons rigoureusement qu'ils sont intrinsèquement limités par un fort biais de récence. Nos études empiriques révèlent également que ce biais nuit à la capacité des modèles de se souvenir d'informations distantes et introduit des problèmes de robustesse. Nos expériences d'échelle ont ensuite découvert que des structures plus profondes dans les MES peuvent faciliter l'apprentissage de contextes longs. Cependant, une analyse théorique ultérieure révèle qu'à mesure que les MES augmentent en profondeur, ils présentent une autre tendance inévitable vers un lissage excessif, par exemple, les représentations de jetons devenant de plus en plus indiscernables. Ce dilemme fondamental entre la récence et le lissage excessif entrave la scalabilité des MES existants. Inspirés par nos découvertes théoriques, nous proposons de polariser deux canaux des matrices de transition d'état dans les MES, en les fixant à zéro et un respectivement, adressant simultanément le biais de récence et le lissage excessif. Les expériences démontrent que notre technique de polarisation améliore de manière constante la précision de rappel associatif des jetons à longue portée et permet aux MES de bénéficier davantage de structures plus profondes. Tous les codes sources sont disponibles sur https://github.com/VITA-Group/SSM-Bottleneck.
Les modèles de diffusion ont montré une capacité prometteuse à générer des données de séries temporelles (TS) de haute qualité. Malgré le succès initial, les travaux existants se concentrent principalement sur l'authenticité des données au niveau individuel, mais accordent moins d'attention à la préservation des propriétés au niveau de la population sur l'ensemble des données. Ces propriétés au niveau de la population comprennent les distributions de valeurs pour chaque dimension et les distributions de certaines dépendances fonctionnelles (par exemple, la corrélation croisée, CC) entre différentes dimensions. Par exemple, lors de la génération de données de TS de consommation d'énergie domestique, les distributions de valeurs de la température extérieure et de la température de la cuisine doivent être préservées, ainsi que la distribution de CC entre elles. La préservation de telles propriétés au niveau de la population des TS est cruciale pour maintenir les connaissances statistiques des ensembles de données, atténuer les biais des modèles et améliorer les tâches ultérieures telles que la prédiction de TS. Pourtant, cela est souvent négligé par les modèles existants. Ainsi, les données générées par les modèles existants présentent souvent des décalages de distribution par rapport aux données originales. Nous proposons la Diffusion Sensible à la Population pour les Séries Temporelles (PaD-TS), un nouveau modèle de génération de TS qui préserve mieux les propriétés au niveau de la population. Les principales nouveautés de PaD-TS comprennent 1) une nouvelle méthode d'entraînement incorporant explicitement la préservation des propriétés au niveau de la population des TS, et 2) une nouvelle architecture de modèle d'encodeur à double canal qui capture mieux la structure des données de TS. Les résultats empiriques sur des ensembles de données de référence majeurs montrent que PaD-TS peut améliorer le score de décalage de distribution de la CC moyenne entre les données réelles et synthétiques de 5,9 fois tout en maintenant des performances comparables à celles des modèles de pointe en termes d'authenticité au niveau individuel.
Les Transformers s'appuient à la fois sur des mécanismes d'adressage basés sur le contenu et sur la position pour faire des prédictions, mais les techniques d'encodage de position existantes diminuent souvent l'efficacité de l'adressage basé sur la position. De nombreuses méthodes actuelles imposent des schémas rigides dans les cartes d'attention, limitant la capacité à modéliser des dépendances à longue distance et à s'adapter à des tâches diverses. De plus, la plupart des encodages de position sont appris en tant que biais généraux, manquant de la spécialisation requise pour différentes instances au sein d'un ensemble de données. Pour remédier à cela, nous proposons l'incorporation d'Encodage de Position Equivariant Contextualisé (TAPE), un nouveau cadre qui améliore les encodages de position en incorporant le contenu de séquence à travers les couches. TAPE introduit des encodages de position dynamiques et conscients du contexte, surmontant les contraintes des schémas fixes traditionnels. En imposant l'équivariance de permutation et orthogonale, TAPE garantit la stabilité des encodages de position lors des mises à jour, améliorant la robustesse et l'adaptabilité. Notre méthode peut être facilement intégrée dans des transformers pré-entraînés, offrant un ajustement fin efficace en termes de paramètres avec un surcoût minimal. Des expériences approfondies montrent que TAPE atteint des performances supérieures en modélisation de langage, raisonnement arithmétique et tâches de récupération de long contexte par rapport aux techniques d'encodage de position existantes.
La compréhension des actions humaines est cruciale pour l'avancement des systèmes multimodaux. Alors que les récents développements, stimulés par de puissants grands modèles de langage (LLM), visent à être suffisamment généraux pour couvrir un large éventail de catégories, ils négligent souvent le besoin de capacités plus spécifiques. Dans ce travail, nous abordons la tâche plus complexe de la Reconnaissance Fine des Actions (FAR), qui se concentre sur des libellés sémantiques détaillés dans des durées temporelles plus courtes (par exemple, "salto arrière groupé avec 1 tour"). Étant donné les coûts élevés d'annotation des libellés fins et la quantité substantielle de données nécessaires pour le réglage fin des LLM, nous proposons d'adopter l'apprentissage semi-supervisé (SSL). Notre cadre, SeFAR, intègre plusieurs conceptions innovantes pour relever ces défis. Plus précisément, pour capturer suffisamment de détails visuels, nous construisons des éléments temporels à deux niveaux comme des représentations plus efficaces, sur la base desquelles nous concevons une nouvelle stratégie d'augmentation forte pour le paradigme d'apprentissage Maître-Élève en impliquant une perturbation temporelle modérée. De plus, pour gérer l'incertitude élevée au sein des prédictions du modèle enseignant pour FAR, nous proposons la Régulation Adaptative pour stabiliser le processus d'apprentissage. Les expériences montrent que SeFAR atteint des performances de pointe sur deux ensembles de données FAR, FineGym et FineDiving, à travers diverses étendues de données. Il surpasse également d'autres méthodes semi-supervisées sur deux ensembles de données classiques à grain grossier, UCF101 et HMDB51. Des analyses supplémentaires et des études d'ablation valident l'efficacité de nos conceptions. De plus, nous montrons que les caractéristiques extraites par notre SeFAR pourraient largement promouvoir la capacité des modèles de base multimodaux à comprendre des sémantiques fines et spécifiques au domaine.