Articles de recherche en IA sélectionnés quotidiennement avec traductions
À mesure que les modèles linguistiques continuent de s'agrandir, les Grands Modèles de Langage (GML) ont montré des capacités émergentes en Apprentissage en Contexte (AEC), leur permettant de résoudre des tâches linguistiques en préfixant quelques démonstrations en contexte (DEC) comme contexte. Inspirés par ces avancées, les chercheurs ont étendu ces techniques pour développer de Grands Modèles Multimodaux (GMM) avec des capacités d'AEC. Cependant, les GMM existants rencontrent un problème critique : ils échouent souvent à exploiter efficacement le contexte visuel dans les démonstrations multimodales et se contentent simplement de suivre des schémas textuels. Cela indique que les GMM ne parviennent pas à obtenir un alignement efficace entre les démonstrations multimodales et les sorties du modèle. Pour résoudre ce problème, nous proposons l'Optimisation Directe des Préférences de Démonstration Symbolique (SymDPO). Plus précisément, SymDPO vise à rompre avec le paradigme traditionnel de la construction des démonstrations multimodales en utilisant des symboles aléatoires pour remplacer les réponses textuelles au sein des instances. Cela force le modèle à comprendre attentivement les images de démonstration et à établir une relation entre les images et les symboles pour répondre correctement aux questions. Nous validons l'efficacité de cette méthode sur plusieurs référentiels, démontrant qu'avec SymDPO, les GMM peuvent comprendre de manière plus efficace le contexte multimodal au sein des exemples et utiliser ces connaissances pour répondre aux questions de manière plus précise.
Bien que la quantification pour les couches linéaires soit largement utilisée, son application pour accélérer le processus d'attention reste limitée. SageAttention utilise une multiplication de matrices sur 8 bits, une multiplication de matrices sur 16 bits avec un accumulateur sur 16 bits, et des méthodes d'amélioration de la précision, mettant en œuvre un noyau précis et deux fois plus rapide par rapport à FlashAttention2. Pour améliorer davantage l'efficacité du calcul d'attention tout en maintenant la précision, nous proposons SageAttention2, qui utilise une multiplication de matrices sur 4 bits (Matmul) significativement plus rapide aux côtés de techniques supplémentaires d'amélioration de la précision. Tout d'abord, nous proposons de quantifier les matrices (Q, K) en INT4 avec une granularité au niveau de la vague et de quantifier les matrices (widetilde P, V) en FP8. Deuxièmement, nous proposons une méthode pour lisser Q et V, améliorant la précision de l'attention avec INT4 QK et FP8 PV. Troisièmement, nous analysons la précision de la quantification à travers les pas de temps et les couches, puis proposons une méthode de quantification adaptative pour garantir les métriques de bout en bout sur divers modèles. Les opérations par seconde (OPS) de SageAttention2 surpassent FlashAttention2 et xformers d'environ 3x et 5x sur RTX4090, respectivement. Des expériences approfondies confirment que notre approche entraîne une perte négligeable de métriques de bout en bout à travers divers modèles, y compris ceux pour le traitement de langage, la génération d'images et la génération de vidéos. Les codes sont disponibles sur https://github.com/thu-ml/SageAttention.
La génération de vidéos a connu des avancées significatives, mais l'évaluation de ces modèles reste un défi. Un banc d'essai d'évaluation complet pour la génération de vidéos est indispensable pour deux raisons : 1) Les métriques existantes ne correspondent pas pleinement aux perceptions humaines ; 2) Un système d'évaluation idéal devrait fournir des informations pour orienter les développements futurs de la génération de vidéos. À cette fin, nous présentons VBench, une suite de bancs d'essai complète qui dissèque la "qualité de génération de vidéos" en dimensions spécifiques, hiérarchiques et désenchevêtrées, chacune avec des directives et des méthodes d'évaluation adaptées. VBench présente plusieurs caractéristiques attrayantes : 1) Dimensions Complètes : VBench comprend 16 dimensions dans la génération de vidéos (par exemple, incohérence de l'identité du sujet, fluidité du mouvement, scintillement temporel, et relation spatiale, etc.). Les métriques d'évaluation avec des niveaux détaillés révèlent les forces et les faiblesses des modèles individuels. 2) Alignement Humain : Nous fournissons également un ensemble de données d'annotations de préférence humaine pour valider l'alignement de nos bancs d'essai avec la perception humaine, pour chaque dimension d'évaluation respectivement. 3) Informations Précieuses : Nous examinons la capacité des modèles actuels à travers diverses dimensions d'évaluation et divers types de contenu. Nous étudions également les écarts entre les modèles de génération de vidéos et d'images. 4) Bancs d'Essai Polyvalents : VBench++ prend en charge l'évaluation du texte vers la vidéo et de l'image vers la vidéo. Nous introduisons une Suite d'Images de haute qualité avec un rapport hauteur/largeur adaptatif pour permettre des évaluations équitables dans différents paramètres de génération d'images vers vidéos. Au-delà de l'évaluation de la qualité technique, VBench++ évalue la fiabilité des modèles génératifs de vidéos, offrant une vue plus holistique des performances des modèles. 5) Entièrement Open Source : Nous rendons VBench++ entièrement open source et ajoutons continuellement de nouveaux modèles de génération de vidéos à notre classement pour faire avancer le domaine de la génération de vidéos.
Les grands modèles multimodaux (LMM) dotés de capacités avancées d'analyse vidéo ont récemment suscité un intérêt significatif. Cependant, la plupart des évaluations reposent sur des méthodes traditionnelles telles que des questions à choix multiples dans des référentiels comme VideoMME et LongVideoBench, qui ont tendance à manquer de la profondeur nécessaire pour saisir les exigences complexes des utilisateurs du monde réel. Pour remédier à cette limitation - et en raison du coût prohibitif et du rythme lent de l'annotation humaine pour les tâches vidéo - nous introduisons VideoAutoArena, un référentiel de style arène inspiré du cadre de LMSYS Chatbot Arena, conçu pour évaluer automatiquement les capacités d'analyse vidéo des LMM. VideoAutoArena utilise une simulation d'utilisateur pour générer des questions ouvertes et adaptatives qui évaluent rigoureusement les performances du modèle en matière de compréhension vidéo. Le référentiel propose un cadre d'évaluation automatisé et évolutif, intégrant un système de notation ELO modifié pour des comparaisons justes et continues entre plusieurs LMM. Pour valider notre système de jugement automatisé, nous construisons un "standard de référence" en utilisant un sous-ensemble soigneusement sélectionné d'annotations humaines, démontrant que notre arène est fortement alignée sur le jugement humain tout en maintenant la scalabilité. De plus, nous introduisons une stratégie d'évolution basée sur les défauts, augmentant progressivement la complexité des questions pour pousser les modèles à traiter des scénarios d'analyse vidéo plus complexes. Les résultats expérimentaux montrent que VideoAutoArena différencie efficacement les LMM de pointe, offrant des perspectives sur les forces du modèle et les domaines à améliorer. Pour rationaliser davantage notre évaluation, nous introduisons VideoAutoBench comme référentiel auxiliaire, où des annotateurs humains étiquettent les gagnants dans un sous-ensemble des combats de VideoAutoArena. Nous utilisons GPT-4o comme juge pour comparer les réponses à ces réponses validées par les humains. Ensemble, VideoAutoArena et VideoAutoBench offrent un cadre rentable et évolutif pour évaluer les LMM dans l'analyse vidéo centrée sur l'utilisateur.
Le Modèle Segment Anything 2 (SAM 2) a démontré de solides performances dans les tâches de segmentation d'objets mais rencontre des défis dans le suivi visuel d'objets, notamment lors de scènes encombrées avec des objets se déplaçant rapidement ou s'auto-occulant. De plus, l'approche de mémoire à fenêtre fixe du modèle original ne prend pas en compte la qualité des souvenirs sélectionnés pour conditionner les caractéristiques de l'image pour le prochain cadre, entraînant une propagation des erreurs dans les vidéos. Cet article présente SAMURAI, une adaptation améliorée de SAM 2 spécifiquement conçue pour le suivi visuel d'objets. En incorporant des indices de mouvement temporel avec le mécanisme de sélection de mémoire conscient du mouvement proposé, SAMURAI prédit efficacement le mouvement de l'objet et affine la sélection du masque, atteignant un suivi robuste et précis sans nécessiter de réentraînement ou de fine-tuning. SAMURAI fonctionne en temps réel et démontre de solides performances en zero-shot sur divers ensembles de données de référence, mettant en valeur sa capacité à généraliser sans fine-tuning. Dans les évaluations, SAMURAI obtient des améliorations significatives du taux de réussite et de la précision par rapport aux traqueurs existants, avec un gain de 7,1 % de l'AUC sur LaSOT_{ext} et un gain de 3,5 % de l'AO sur GOT-10k. De plus, il obtient des résultats compétitifs par rapport aux méthodes entièrement supervisées sur LaSOT, soulignant sa robustesse dans des scénarios de suivi complexes et son potentiel pour des applications réelles dans des environnements dynamiques. Le code et les résultats sont disponibles sur https://github.com/yangchris11/samurai.
L'extension des tailles de fenêtre de contexte permet aux grands modèles de langage (LLM) de traiter des séquences plus longues et de gérer des tâches plus complexes. L'incorporation de position rotative (RoPE) est devenue la norme de facto en raison de ses propriétés d'encodage de position relative bénéfiques pour l'entraînement à long contexte. Cependant, nous observons que l'utilisation de RoPE avec le format BFloat16 entraîne des problèmes numériques, le faisant dévier de son encodage de position relative prévu, en particulier dans des scénarios de long contexte. Ce problème découle de la précision limitée du BFloat16 et s'accumule à mesure que la longueur du contexte augmente, le premier jeton contribuant de manière significative à ce problème. Pour remédier à cela, nous avons développé AnchorAttention, une méthode d'attention plug-and-play qui atténue les problèmes numériques causés par le BFloat16, améliore les capacités de long contexte et accélère l'entraînement. AnchorAttention réduit les calculs d'attention inutiles, maintient la cohérence sémantique et améliore l'efficacité computationnelle en traitant le premier jeton comme une ancre partagée avec un ID de position cohérent, le rendant visible à tous les documents dans le contexte d'entraînement. Des expériences sur trois types de LLM montrent qu'AnchorAttention améliore significativement les performances en long contexte et réduit le temps d'entraînement de plus de 50\% par rapport aux mécanismes d'attention complets standard, tout en préservant les capacités originales du LLM sur des tâches générales. Notre code est disponible sur https://github.com/haonan3/AnchorContext.
Les agents linguistiques ont démontré des capacités prometteuses dans l'automatisation des tâches basées sur le web, bien que leurs approches réactives actuelles sous-performent largement par rapport aux humains. En incorporant des algorithmes de planification avancés, en particulier des méthodes de recherche arborescente, on pourrait améliorer les performances de ces agents. Cependant, mettre en œuvre la recherche arborescente directement sur des sites web en direct présente des risques de sécurité significatifs et des contraintes pratiques en raison d'actions irréversibles telles que la confirmation d'un achat. Dans cet article, nous introduisons un nouveau paradigme qui augmente les agents linguistiques avec une planification basée sur des modèles, pionnier dans l'utilisation innovante des grands modèles linguistiques (LLM) en tant que modèles du monde dans des environnements web complexes. Notre méthode, WebDreamer, s'appuie sur l'observation clé selon laquelle les LLM codent intrinsèquement des connaissances complètes sur les structures et les fonctionnalités des sites web. Plus précisément, WebDreamer utilise les LLM pour simuler les résultats de chaque action candidate (par exemple, "que se passerait-il si je cliquais sur ce bouton ?") en utilisant des descriptions en langage naturel, puis évalue ces résultats imaginés pour déterminer l'action optimale à chaque étape. Les résultats empiriques sur deux benchmarks d'agents web représentatifs avec interaction en ligne - VisualWebArena et Mind2Web-live - démontrent que WebDreamer obtient des améliorations substantielles par rapport aux bases réactives. En établissant la viabilité des LLM en tant que modèles du monde dans les environnements web, ce travail pose les bases d'un changement de paradigme dans l'interaction web automatisée. Plus largement, nos résultats ouvrent de nouvelles perspectives passionnantes pour la recherche future dans 1) l'optimisation des LLM spécifiquement pour la modélisation du monde dans des environnements complexes et dynamiques, et 2) la planification spéculative basée sur des modèles pour les agents linguistiques.
Les modèles de diffusion excellent dans la génération d'images, mais les contrôler reste un défi. Nous nous concentrons sur le problème de la génération d'images conditionnée par le style. Bien que les images d'exemple fonctionnent, elles sont contraignantes : les srefs (codes de référence de style) de MidJourney résolvent ce problème en exprimant un style d'image spécifique dans un code numérique court. Ils ont été largement adoptés sur les réseaux sociaux en raison de leur facilité de partage et du fait qu'ils permettent d'utiliser une image pour contrôler le style, sans avoir à publier les images sources elles-mêmes. Cependant, les utilisateurs ne peuvent pas générer de srefs à partir de leurs propres images, et le procédé d'entraînement sous-jacent n'est pas public. Nous proposons StyleCodes : une architecture d'encodeur de style open-source et de recherche ouverte, ainsi qu'une procédure d'entraînement pour exprimer le style d'image sous la forme d'un code base64 de 20 symboles. Nos expériences montrent que notre encodage entraîne une perte minimale de qualité par rapport aux techniques traditionnelles d'image vers style.
Les derniers développements des Grands Modèles Multimodaux (LMMs) ont élargi leurs capacités pour inclure la compréhension vidéo. Plus précisément, les modèles Texte-vers-Vidéo (T2V) ont réalisé des progrès significatifs en termes de qualité, de compréhension et de durée, se démarquant dans la création de vidéos à partir de simples indications textuelles. Cependant, ils produisent encore fréquemment du contenu halluciné qui signale clairement que la vidéo est générée par une IA. Nous introduisons ViBe : un Benchmark Texte-vers-Vidéo à grande échelle de vidéos hallucinées par les modèles T2V. Nous identifions cinq principaux types d'hallucinations : Disparition du Sujet, Variabilité Numérique, Dysmorphie Temporelle, Erreur d'Omission et Incongruité Physique. En utilisant 10 modèles T2V open-source, nous avons développé le premier ensemble de données à grande échelle de vidéos hallucinées, comprenant 3 782 vidéos annotées par des humains dans ces cinq catégories. ViBe offre une ressource unique pour évaluer la fiabilité des modèles T2V et fournit une base pour améliorer la détection et l'atténuation des hallucinations dans la génération de vidéos. Nous établissons la classification comme référence et présentons diverses configurations d'ensemble de classificateurs, avec la combinaison TimeSFormer + CNN offrant les meilleures performances, atteignant une précision de 0,345 et un score F1 de 0,342. Ce benchmark vise à stimuler le développement de modèles T2V robustes produisant des vidéos plus fidèlement alignées sur les indications d'entrée.
Alors que les lois d'échelle fournissent une méthodologie fiable pour prédire la perte d'entraînement à travers les échelles de calcul pour une seule distribution de données, on sait moins comment ces prédictions devraient évoluer lorsque nous changeons la distribution. Dans cet article, nous dérivons une stratégie pour prédire une perte à partir d'une autre et l'appliquons pour prédire à travers différentes ensembles de données de pré-entraînement et de données de tâches aval. Nos prédictions s'extrapolent bien même à 20 fois le plus grand budget FLOP utilisé pour ajuster les courbes. Plus précisément, nous constatons qu'il existe des relations de puissance décalées simples entre (1) les pertes d'entraînement de deux modèles entraînés sur deux ensembles de données distincts lorsque les modèles sont appariés par calcul d'entraînement (entraînement-à-entraînement), (2) la perte d'entraînement et la perte de test sur toute distribution aval pour un seul modèle (entraînement-à-test), et (3) les pertes de test de deux modèles entraînés sur deux ensembles de données d'entraînement distincts (test-à-test). Les résultats sont valables pour des ensembles de données de pré-entraînement très différents (certains sont entièrement du code et d'autres n'ont pas de code du tout) et pour une variété de tâches aval. Enfin, nous constatons que dans certains contextes, ces relations de puissance décalées peuvent fournir des prédictions plus précises que l'extrapolation des lois d'échelle pour un seul ensemble de données.
Les modèles génératifs de diffusion texte-vers-image peuvent produire des images de haute qualité au prix d'une ingénierie de prompt fastidieuse. La contrôlabilité peut être améliorée en introduisant une condition de mise en page, cependant les méthodes existantes manquent de capacité d'édition de mise en page et de contrôle fin sur les attributs des objets. Le concept de génération multi-couches présente un grand potentiel pour résoudre ces limitations, cependant la génération d'instances d'images en parallèle à la composition de scènes limite le contrôle sur les attributs fins des objets, le positionnement relatif dans l'espace 3D et les capacités de manipulation de scènes. Dans ce travail, nous proposons un nouveau paradigme de génération multi-étapes conçu pour un contrôle fin, la flexibilité et l'interactivité. Pour garantir le contrôle sur les attributs des instances, nous concevons un nouveau paradigme d'entraînement pour adapter un modèle de diffusion afin de générer des composants de scène isolés sous forme d'images RGBA avec des informations de transparence. Pour construire des images complexes, nous utilisons ces instances pré-générées et introduisons un processus de génération composite multi-couches qui assemble de manière fluide les composants dans des scènes réalistes. Nos expériences montrent que notre modèle de diffusion RGBA est capable de générer des instances diverses et de haute qualité avec un contrôle précis sur les attributs des objets. À travers la composition multi-couches, nous démontrons que notre approche permet de construire et de manipuler des images à partir de prompts très complexes avec un contrôle fin sur l'apparence et l'emplacement des objets, offrant un degré de contrôle plus élevé que les méthodes concurrentes.
L'objectif de la Génération de Rapports de Radiologie (GRR) est de générer automatiquement des analyses textuelles cohérentes des maladies basées sur des images radiologiques, soulageant ainsi la charge de travail des radiologues. Les méthodes actuelles basées sur l'IA pour la GRR se concentrent principalement sur des modifications de l'architecture du modèle encodeur-décodeur. Pour faire progresser ces approches, cet article présente un cadre d'Information Organique-Régionale Pilotée (ORID) qui peut intégrer efficacement des informations multimodales et réduire l'influence du bruit provenant d'organes non liés. Plus précisément, en nous basant sur le LLaVA-Med, nous construisons d'abord un ensemble de données d'instructions liées à la GRR pour améliorer la capacité de description du diagnostic organo-régional et obtenir le LLaVA-Med-RRG. Ensuite, nous proposons un module de fusion croisée basé sur les organes pour combiner efficacement les informations de la description du diagnostic organo-régional et de l'image radiologique. Pour réduire davantage l'influence du bruit provenant d'organes non liés sur la génération de rapports de radiologie, nous introduisons un module d'analyse des coefficients d'importance des organes, qui exploite le Réseau Neuronal Graphique (GNN) pour examiner les interconnexions des informations croisées de chaque région organique. Des expériences approfondies et des comparaisons avec des méthodes de pointe sur diverses mesures d'évaluation démontrent les performances supérieures de notre méthode proposée.