Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que les grands modèles de langage (LLM) excellent dans les tâches de génération, leur architecture basée uniquement sur le décodeur limite souvent leur potentiel en tant que modèles d'incorporation s'ils ne sont pas soumis à un affinage de la représentation supplémentaire. Cela contredit-il leur prétention à être des généralistes ? Pour répondre à cette question, nous examinons de plus près les LLM à Mélange d'Experts (MoE). Notre étude montre que les routeurs d'experts dans les LLM à MoE peuvent servir de modèle d'incorporation prêt à l'emploi avec des performances prometteuses sur une classe diversifiée de tâches axées sur l'incorporation, sans nécessiter de quelconque affinage. De plus, notre analyse approfondie montre que les poids de routage MoE (RW) sont complémentaires à l'état caché (HS) des LLM, une incorporation largement utilisée. Par rapport à HS, nous constatons que RW est plus robuste au choix des invitations et se concentre sur la sémantique de haut niveau. Motivés par cette analyse, nous proposons MoEE combinant RW et HS, ce qui permet d'obtenir de meilleures performances que lorsqu'ils sont utilisés séparément. Notre exploration de leur combinaison et de la stratégie d'invitation apporte plusieurs nouvelles perspectives, par exemple, une somme pondérée des similarités RW et HS surpasse la similarité de leur concaténation. Nos expériences sont menées sur 6 tâches d'incorporation avec 20 ensembles de données provenant du Benchmark d'incorporation de texte massif (MTEB). Les résultats démontrent l'amélioration significative apportée par MoEE à l'incorporation basée sur les LLM sans nécessiter d'affinage supplémentaire.
L'adaptation des grands modèles de langage médical aux langues locales peut réduire les barrières à l'accès aux services de santé, mais la rareté des données reste un défi important, en particulier pour les langues à faibles ressources. Pour y remédier, nous construisons d'abord un ensemble de données médicales de haute qualité et menons une analyse pour en assurer la qualité. Afin de tirer parti de la capacité de généralisation des grands modèles de langage multilingues pour s'étendre efficacement à des langues plus limitées en ressources, nous explorons le flux d'informations internes des grands modèles de langage d'un point de vue multilingue en utilisant la modularité Mixture of Experts (MoE). Techniquement, nous proposons une nouvelle méthode de routage MoE qui utilise des experts spécifiques à chaque langue et un routage interlingue. Inspirée par la théorie des circuits, notre analyse de routage a révélé un mécanisme de flux d'informations Spread Out in the End : tandis que les couches initiales concentrent le flux d'informations interlingues, les couches ultérieures présentent une divergence spécifique à chaque langue. Cette observation a directement conduit au développement de l'architecture Post-MoE, qui applique un routage clairsemé uniquement dans les couches ultérieures tout en maintenant les autres denses. Les résultats expérimentaux démontrent que cette approche améliore la généralisation des modèles multilingues à d'autres langues tout en préservant l'interprétabilité. Enfin, pour étendre efficacement le modèle à 50 langues, nous introduisons le concept d'experts de familles de langues, en s'appuyant sur des a priori linguistiques, ce qui permet d'augmenter le nombre de langues sans ajouter de paramètres supplémentaires.
L'agrandissement de la fenêtre contextuelle des grands modèles de langage (GML) est devenu un domaine de recherche crucial, en particulier pour les applications impliquant des textes extrêmement longs. Dans ce travail, nous proposons un nouveau cadre sans entraînement pour le traitement des longs textes, en utilisant une stratégie de diviser pour régner pour parvenir à une compréhension documentaire complète. Le cadre proposé LMLfoisMapReduce divise l'ensemble du document en plusieurs morceaux à lire par les GML, puis agrège les réponses intermédiaires pour produire la sortie finale. Le principal défi pour les cadres de traitement de longs textes par diviser pour régner réside dans le risque de perte d'informations essentielles à longue portée lors de la division du document, ce qui peut amener le modèle à produire des réponses incomplètes ou incorrectes basées sur les textes segmentés. Les informations à longue portée perturbées peuvent être classées en deux catégories : la dépendance inter-morceaux et le conflit inter-morceaux. Nous concevons un protocole d'informations structurées pour mieux gérer la dépendance inter-morceaux et un mécanisme de calibration de confiance en contexte pour résoudre les conflits inter-morceaux. Les résultats expérimentaux démontrent que LMLfoisMapReduce peut surpasser des GML de contexte long open-source et commerciaux représentatifs, et est applicable à plusieurs modèles différents.
Alors que l'extension des grands modèles de langage basés sur les Transformers (LLM) a montré des performances prometteuses dans diverses tâches, elle introduit également des architectures redondantes, posant des défis d'efficacité pour le déploiement dans le monde réel. Malgré une certaine reconnaissance de la redondance dans les LLM, la variabilité de la redondance à travers différentes architectures dans les transformers, telles que les couches MLP et Attention, est peu explorée. Dans ce travail, nous étudions la redondance à travers différents modules au sein des Transformers, y compris les blocs, les couches MLP et Attention, en utilisant une métrique basée sur la similarité. De manière surprenante, malgré le rôle critique des couches d'attention dans la distinction des transformers des autres architectures, nous avons constaté qu'une grande partie de ces couches présentent une similarité excessivement élevée et peuvent être élaguées sans dégradation des performances. Par exemple, Llama-2-70B a obtenu un gain de vitesse de 48,4\% avec seulement une baisse de performance de 2,4\% en élaguant la moitié des couches d'attention. De plus, en suivant les points de contrôle du modèle tout au long du processus d'entraînement, nous avons observé que la redondance des couches d'attention est inhérente et constante à travers les étapes d'entraînement. De plus, nous proposons une méthode qui abandonne conjointement les couches d'Attention et MLP, nous permettant d'élaguer plus agressivement des couches supplémentaires. Par exemple, en abandonnant 31 couches (Attention + MLP), Llama-2-13B conserve toujours 90\% des performances sur la tâche MMLU. Notre travail fournit des perspectives précieuses pour la conception future des architectures de réseau. Le code est disponible sur : https://github.com/Shwai-He/LLM-Drop.
Les Modèles de Langage Multimodaux de Grande Taille (MLMT) présentent fréquemment des phénomènes d'hallucination, mais les raisons sous-jacentes restent mal comprises. Dans cet article, nous présentons une analyse empirique et constatons que, bien que les MLMT génèrent incorrectement les objets dans la sortie finale, ils sont en mesure de reconnaître effectivement les objets visuels dans les couches précédentes. Nous spéculons que cela pourrait être dû aux forts a priori de connaissance du modèle de langage qui suppriment l'information visuelle, entraînant des hallucinations. Motivés par cela, nous proposons une nouvelle méthode de décodage de correction dynamique pour les MLMT (DeCo), qui sélectionne de manière adaptative les couches précédentes appropriées et intègre de manière proportionnelle la connaissance dans la couche finale pour ajuster les logits de sortie. Il convient de noter que DeCo est indépendant du modèle et peut être incorporé de manière transparente avec diverses stratégies de décodage classiques et appliqué à différents MLMT. Nous évaluons DeCo sur des benchmarks largement utilisés, démontrant qu'il peut réduire de manière significative les taux d'hallucination par rapport aux bases, soulignant son potentiel à atténuer les hallucinations. Le code est disponible sur https://github.com/zjunlp/DeCo.
Les techniques d'évaluation contemporaines sont inadéquates pour les systèmes agentic. Ces approches se concentrent soit exclusivement sur les résultats finaux en ignorant la nature étape par étape des systèmes agentic, soit nécessitent un travail manuel excessif. Pour remédier à cela, nous introduisons le cadre Agent-comme-Juge, dans lequel les systèmes agentic sont utilisés pour évaluer d'autres systèmes agentic. Il s'agit d'une extension organique du cadre LLM-comme-Juge, intégrant des fonctionnalités agentic permettant des retours intermédiaires pour l'ensemble du processus de résolution de tâches. Nous appliquons le cadre Agent-comme-Juge à la tâche de génération de code. Pour surmonter les problèmes liés aux benchmarks existants et fournir une plateforme de test de preuve de concept pour l'Agent-comme-Juge, nous présentons DevAI, un nouveau benchmark de 55 tâches de développement d'IA automatisées réalistes. Il comprend des annotations manuelles détaillées, telles qu'un total de 365 exigences utilisateur hiérarchiques. Nous évaluons trois des systèmes agentic populaires en utilisant l'Agent-comme-Juge et constatons qu'il surpasse nettement le LLM-comme-Juge et est aussi fiable que notre référence d'évaluation humaine. Dans l'ensemble, nous pensons que l'Agent-comme-Juge marque une avancée concrète pour les systèmes agentic modernes en fournissant des signaux de récompense riches et fiables nécessaires pour l'auto-amélioration dynamique et évolutive.
L'efficacité des modèles de génération vidéo dépend fortement de la qualité de leurs ensembles de données d'entraînement. La plupart des modèles de génération vidéo précédents sont entraînés sur de courts clips vidéo, tandis qu'il y a récemment un intérêt croissant pour l'entraînement de modèles de génération vidéo longs directement sur des vidéos plus longues. Cependant, le manque de telles vidéos longues de haute qualité entrave le progrès de la génération de vidéos longues. Pour promouvoir la recherche en génération de vidéos longues, nous souhaitons un nouvel ensemble de données avec quatre caractéristiques clés essentielles pour l'entraînement de modèles de génération de vidéos longues : (1) des vidéos longues couvrant au moins 10 secondes, (2) des vidéos en plan-séquence sans coupures, (3) de grands mouvements et des contenus diversifiés, et (4) des légendes temporellement denses. Pour ce faire, nous introduisons un nouveau processus de sélection de vidéos en plan-séquence de haute qualité et de génération de légendes temporellement denses. Plus précisément, nous définissons un ensemble de métriques pour évaluer quantitativement la qualité vidéo, y compris les coupures de scène, les degrés de dynamisme et la qualité au niveau sémantique, nous permettant de filtrer des vidéos en plan-séquence de haute qualité parmi une grande quantité de vidéos sources. Ensuite, nous développons un processus hiérarchique de légendage vidéo pour annoter des vidéos longues avec des légendes temporellement denses. Grâce à ce processus, nous constituons le premier ensemble de données de vidéos en plan-séquence, LVD-2M, comprenant 2 millions de vidéos en plan-séquence, chacune couvrant plus de 10 secondes et annotée avec des légendes temporellement denses. Nous validons en outre l'efficacité de LVD-2M en affinant les modèles de génération vidéo pour produire des vidéos longues avec des mouvements dynamiques. Nous pensons que notre travail contribuera de manière significative à la recherche future en génération de vidéos longues.
Les grands modèles de langage (LLMs) ont affiché d'énormes améliorations en matière de raisonnement et de prise de décision, et peuvent tenir des conversations naturelles avec les utilisateurs. Récemment, de nombreux ensembles de données de référence pour l'utilisation d'outils ont été proposés. Cependant, les ensembles de données existants présentent les limitations suivantes : (1). Scénarios d'évaluation insuffisants (par exemple, ne couvrent que des scènes d'utilisation d'outils limitées). (2). Coûts d'évaluation étendus (par exemple, coûts de l'API GPT). Pour remédier à ces limitations, dans ce travail, nous proposons un ensemble de données de référence pour l'utilisation d'outils à multi-granularité pour les grands modèles de langage appelé MTU-Bench. Pour la propriété de "multi-granularité", notre MTU-Bench couvre cinq scènes d'utilisation d'outils (c'est-à-dire, un tour et un outil, un tour et plusieurs outils, plusieurs tours et un outil, plusieurs tours et plusieurs outils, et des tâches hors distribution). De plus, toutes les mesures d'évaluation de notre MTU-Bench sont basées sur les résultats de prédiction et la vérité terrain sans utiliser de métriques d'évaluation GPT ou humaines. De plus, notre MTU-Bench est collecté en transformant des ensembles de données de haute qualité existants pour simuler des scénarios d'utilisation d'outils du monde réel, et nous proposons également un ensemble de données d'instructions appelé données MTU-Instruct pour améliorer les capacités d'utilisation d'outils des LLMs existants. Des résultats expérimentaux complets démontrent l'efficacité de notre MTU-Bench. Le code et les données seront publiés sur https://github.com/MTU-Bench-Team/MTU-Bench.git.
En tant que l'un des modèles génératifs les plus populaires et recherchés ces dernières années, les modèles de diffusion ont suscité l'intérêt de nombreux chercheurs et ont régulièrement démontré d'excellents avantages dans diverses tâches génératives telles que la synthèse d'images, la génération de vidéos, la conception de molécules, le rendu de scènes 3D et la génération multimodale, en s'appuyant sur leurs principes théoriques denses et leurs pratiques d'application fiables. Le succès remarquable de ces récents efforts sur les modèles de diffusion provient largement de principes de conception progressifs et d'une architecture, d'une formation, d'une inférence et de méthodologies de déploiement efficaces. Cependant, il n'y a pas eu de revue complète et approfondie pour résumer ces principes et pratiques afin d'aider à la compréhension et à l'application rapides des modèles de diffusion. Dans cette étude, nous proposons une nouvelle perspective axée sur l'efficacité sur ces efforts existants, qui se concentre principalement sur les principes profonds et les pratiques efficaces dans les conceptions d'architecture, la formation de modèles, l'inférence rapide et le déploiement fiable, pour guider de nouvelles recherches théoriques, la migration d'algorithmes et l'application de modèles pour de nouveaux scénarios de manière accessible aux lecteurs. https://github.com/ponyzym/Efficient-DMs-Survey
Les grands modèles de langage (LLMs) combinés à l'apprentissage d'outils ont obtenu des résultats impressionnants dans des applications du monde réel. Pendant l'apprentissage des outils, les LLMs peuvent appeler plusieurs outils dans des ordres imbriqués, où l'appel d'outil ultérieur peut prendre la réponse précédente comme ses paramètres d'entrée. Cependant, la recherche actuelle sur les capacités d'apprentissage d'outils imbriqués est encore peu explorée, car les benchmarks existants manquent d'instances de données pertinentes. Pour résoudre ce problème, nous introduisons NesTools pour combler le fossé actuel dans les évaluations complètes de l'apprentissage d'outils imbriqués. NesTools comprend une nouvelle méthode de génération automatique de données pour construire des appels d'outils imbriqués à grande échelle avec différentes structures d'imbrication. Avec une révision et un raffinement manuels, l'ensemble de données est de haute qualité et étroitement aligné sur des scénarios du monde réel. Par conséquent, NesTools peut servir de nouveau benchmark pour évaluer les capacités d'apprentissage d'outils imbriqués des LLMs. Nous menons des expériences approfondies sur 22 LLMs et fournissons des analyses approfondies avec NesTools, qui montrent que les LLMs actuels souffrent encore de la tâche complexe d'apprentissage d'outils imbriqués.
Les travaux existants ont établi plusieurs références pour mettre en évidence les risques de sécurité associés à Code GenAI. Ces risques se reflètent principalement dans deux domaines : le potentiel d'un modèle à générer un code non sécurisé (codage non sécurisé) et son utilité dans les cyberattaques (utilité des cyberattaques). Bien que ces références aient réalisé des progrès significatifs, il reste des opportunités d'amélioration. Par exemple, de nombreuses références actuelles ont tendance à se concentrer davantage sur la capacité d'un modèle à fournir des suggestions d'attaque plutôt que sur sa capacité à générer des attaques exécutables. De plus, la plupart des références reposent fortement sur des métriques d'évaluation statiques, qui peuvent ne pas être aussi précises que les métriques dynamiques telles que les cas de test réussis. En revanche, les références vérifiées par des experts, tout en offrant des données de haute qualité, fonctionnent souvent à plus petite échelle. Pour combler ces lacunes, nous développons SecCodePLT, une plateforme d'évaluation unifiée et complète des risques des Code GenAIs. Pour le code non sécurisé, nous introduisons une nouvelle méthodologie de création de données qui combine des experts avec une génération automatique. Notre méthodologie garantit la qualité des données tout en permettant une génération à grande échelle. Nous associons également des échantillons à des cas de test pour mener une évaluation dynamique liée au code. Pour l'utilité des cyberattaques, nous mettons en place un environnement réel et construisons des échantillons pour inciter un modèle à générer des attaques réelles, ainsi que des métriques dynamiques dans notre environnement. Nous menons des expériences approfondies et montrons que SecCodePLT surpasse la référence de pointe CyberSecEval en termes de pertinence en matière de sécurité. De plus, il identifie mieux les risques de sécurité des modèles de pointe en matière de codage non sécurisé et d'utilité des cyberattaques. Enfin, nous appliquons SecCodePLT à l'agent de code de pointe, Cursor, et identifions, pour la première fois, des risques de sécurité non triviaux dans cet agent de codage avancé.
L'échocardiographie est la modalité d'imagerie cardiaque la plus largement utilisée, capturant des données vidéo par ultrasons pour évaluer la structure et la fonction cardiaques. L'intelligence artificielle (IA) en échocardiographie a le potentiel de rationaliser les tâches manuelles et d'améliorer la reproductibilité et la précision. Cependant, la plupart des modèles d'IA en échocardiographie sont des systèmes à vue unique et à tâche unique qui ne synthétisent pas les informations complémentaires provenant de plusieurs vues capturées lors d'un examen complet, ce qui entraîne des performances et des applications limitées. Pour résoudre ce problème, nous présentons EchoPrime, un modèle fondamental vision-langage basé sur des vidéos, multi-vues et informé par les vues, formé sur plus de 12 millions de paires vidéo-rapport. EchoPrime utilise l'apprentissage contrastif pour former un modèle d'incorporation unifié pour toutes les vues standard dans une étude échocardiographique complète avec la représentation des maladies et diagnostics rares et courants. EchoPrime utilise ensuite la classification des vues et un modèle d'attention anatomique informé par les vues pour pondérer les interprétations spécifiques aux vidéos qui cartographient précisément la relation entre les vues échocardiographiques et les structures anatomiques. Avec une interprétation augmentée par la récupération, EchoPrime intègre les informations de toutes les vidéos échocardiographiques dans une étude complète et réalise une interprétation clinique échocardiographique complète et holistique. Dans des ensembles de données de deux systèmes de santé indépendants, EchoPrime atteint des performances de pointe sur 23 critères divers de forme et de fonction cardiaques, dépassant les performances des approches spécifiques aux tâches et des modèles fondamentaux précédents. Après une évaluation clinique rigoureuse, EchoPrime peut aider les médecins dans l'évaluation préliminaire automatisée de l'échocardiographie complète.
Nous présentons une représentation basée sur des Gaussiennes spatiales et angulaires ainsi qu'un processus de triple éclatement, pour la synthèse en temps réel et de haute qualité de l'éclairage et de la vue à partir d'images d'entrée multi-vues éclairées par des points. Pour décrire des apparences complexes, nous utilisons une fonction de réflectance efficace pour chaque Gaussienne spatiale, composée d'une partie lambertienne et d'un mélange de Gaussiennes angulaires. Pour générer les auto-ombres, nous éclatons toutes les Gaussiennes spatiales vers la source lumineuse afin d'obtenir des valeurs d'ombre, qui sont ensuite affinées par un petit perceptron multicouche. Pour compenser d'autres effets tels que l'illumination globale, un autre réseau est entraîné pour calculer et ajouter un tuple RVB par Gaussienne spatiale. L'efficacité de notre représentation est démontrée sur 30 échantillons présentant une large variation en termes de géométrie (de solide à moelleux) et d'apparence (de translucide à anisotrope), en utilisant différents types de données d'entrée, y compris des images rendues d'objets synthétiques/reconstruits, des photographies prises avec un appareil photo tenu à la main et un flash, ou provenant d'un lightstage professionnel. Nous atteignons un temps d'entraînement de 40 à 70 minutes et une vitesse de rendu de 90 images par seconde sur un seul GPU grand public. Nos résultats se comparent favorablement aux techniques de pointe en termes de qualité/de performance. Notre code et nos données sont disponibles publiquement sur https://GSrelight.github.io/.
Les récentes avancées en vision par ordinateur (CV) et en traitement du langage naturel (NLP) ont largement été motivées par l'augmentation du nombre de paramètres du réseau, malgré les théories traditionnelles suggérant que les réseaux plus grands sont sujets au surajustement. Ces grands réseaux évitent le surajustement en intégrant des composants qui induisent un biais de simplicité, guidant les modèles vers des solutions simples et généralisables. Cependant, en apprentissage par renforcement profond (deep RL), la conception et l'augmentation des réseaux ont été moins explorées. Motivés par cette opportunité, nous présentons SimBa, une architecture conçue pour augmenter les paramètres en deep RL en injectant un biais de simplicité. SimBa se compose de trois composants : (i) une couche de normalisation des observations qui standardise les entrées avec des statistiques en cours d'exécution, (ii) un bloc feedforward résiduel pour fournir un chemin linéaire de l'entrée à la sortie, et (iii) une normalisation de couche pour contrôler les magnitudes des caractéristiques. En augmentant les paramètres avec SimBa, l'efficacité d'échantillonnage de divers algorithmes de deep RL - y compris hors politique, sur politique et non supervisés - est constamment améliorée. De plus, en intégrant uniquement l'architecture SimBa dans SAC, elle égale ou dépasse les méthodes de deep RL de pointe en termes d'efficacité computationnelle sur DMC, MyoSuite et HumanoidBench. Ces résultats démontrent la large applicabilité et l'efficacité de SimBa à travers divers algorithmes et environnements de RL.
La demande croissante de systèmes robotiques polyvalents pour opérer dans des environnements divers et dynamiques a souligné l'importance d'une politique généraliste, qui exploite un large corpus de données trans-embodiment pour faciliter une adaptabilité étendue et un raisonnement de haut niveau. Cependant, le généraliste pourrait rencontrer des difficultés avec une inférence inefficace et un entraînement coûteux. La politique spécialiste, quant à elle, est conçue pour des données de domaine spécifique et excelle en précision au niveau des tâches avec efficacité. Cependant, elle manque de capacité de généralisation pour une large gamme d'applications. Inspirés par ces observations, nous présentons RoboDual, un système double synergique qui complète les mérites à la fois de la politique généraliste et spécialiste. Un spécialiste basé sur un transformateur de diffusion est conçu pour des séquences d'actions multi-étapes, conditionné de manière exquise par la compréhension de la tâche de haut niveau et la sortie d'actions discrétisées d'un généraliste basé sur la vision-langage-action (VLA). Comparé à OpenVLA, RoboDual obtient une amélioration de 26,7% en environnement réel et un gain de 12% sur CALVIN en introduisant une politique spécialiste avec seulement 20 millions de paramètres entraînables. Il maintient de bonnes performances avec seulement 5% de données de démonstration et permet une fréquence de contrôle 3,8 fois plus élevée en déploiement réel. Le code sera rendu publiquement disponible. Notre page de projet est hébergée sur : https://opendrivelab.com/RoboDual/
L'Effet de Renforcement Mutuel (ERM) étudie la relation synergique entre les classifications au niveau des mots et au niveau du texte dans les tâches de classification de texte. Il postule que les performances des deux niveaux de classification peuvent être mutuellement améliorées. Cependant, ce mécanisme n'a pas été adéquatement démontré ou expliqué dans les recherches antérieures. Pour combler cette lacune, nous menons des expériences empiriques pour observer et étayer la théorie de l'ERM. Nos expériences sur 21 ensembles de données mixtes ERM ont révélé la présence de l'ERM dans le modèle et son impact. Plus précisément, nous avons mené des expériences de comparaison en utilisant un ajustement fin. Les résultats des constatations des expériences de comparaison corroborent l'existence de l'ERM. De plus, nous avons étendu l'application de l'ERM à l'apprentissage incitatif, en utilisant les informations au niveau des mots comme verbaliseur pour renforcer la prédiction du modèle des étiquettes de classification au niveau du texte. Dans notre dernière expérience, le score F1 a surpassé de manière significative la référence dans 18 des 21 ensembles de données mixtes ERM, validant davantage l'idée que les informations au niveau des mots améliorent la compréhension du modèle linguistique du texte dans son ensemble.
Les approches récentes tentent d'adapter des modèles puissants de segmentation interactive, tels que SAM, à la matting interactive et de peaufiner les modèles en se basant sur des ensembles de données de matting synthétiques. Cependant, les modèles entraînés sur des données synthétiques échouent à généraliser aux scènes complexes et d'occlusion. Nous relevons ce défi en proposant un nouvel ensemble de données de matting basé sur l'ensemble de données COCO, nommé COCO-Matting. Plus précisément, la construction de notre COCO-Matting inclut la fusion d'accessoires et le passage de masque à matting, qui sélectionne des images complexes du monde réel à partir de COCO et convertit les masques de segmentation sémantique en étiquettes de matting. Le COCO-Matting construit comprend une vaste collection de 38 251 alpha mattes au niveau de l'instance humaine dans des scénarios naturels complexes. De plus, les méthodes de matting basées sur SAM existantes extraient des caractéristiques intermédiaires et des masques d'un SAM figé et ne forment qu'un décodeur de matting léger à l'aide de pertes de matting de bout en bout, qui n'exploitent pas pleinement le potentiel du SAM pré-entraîné. Ainsi, nous proposons SEMat qui restructure l'architecture du réseau et les objectifs de formation. Pour l'architecture du réseau, le transformateur aligné sur les caractéristiques proposé apprend à extraire des caractéristiques de bord et de transparence fines. Le décodeur aligné sur le matting proposé vise à segmenter des objets spécifiques au matting et à convertir des masques grossiers en mattes de haute précision. Pour les objectifs de formation, la régularisation proposée et la perte de trimap visent à conserver les informations antérieures du modèle pré-entraîné et à pousser les logits de matting extraits du décodeur de masque à contenir des informations sémantiques basées sur le trimap. Des expériences approfondies sur sept ensembles de données divers démontrent les performances supérieures de notre méthode, prouvant son efficacité en matting d'images naturelles interactives. Nous mettons notre code, nos modèles et notre ensemble de données en open source sur https://github.com/XiaRho/SEMat.
Récupérer et synthétiser efficacement des informations à partir de collections multimodales à grande échelle est devenu un défi critique. Cependant, les ensembles de données existants pour la recherche de vidéos souffrent de limitations de portée, se concentrant principalement sur l'association de requêtes descriptives mais vagues avec de petites collections de vidéos professionnellement éditées et centrées sur l'anglais. Pour combler cette lacune, nous présentons MultiVENT 2.0, un banc d'essai de recherche de vidéos centré sur les événements à grande échelle et multilingue, comprenant une collection de plus de 218 000 vidéos d'actualités et 3 906 requêtes ciblant des événements mondiaux spécifiques. Ces requêtes ciblent spécifiquement les informations présentes dans le contenu visuel, l'audio, le texte intégré et les métadonnées textuelles des vidéos, exigeant que les systèmes exploitent toutes ces sources pour réussir la tâche. Les résultats préliminaires montrent que les modèles vision-langage de pointe rencontrent des difficultés significatives avec cette tâche, et bien que des approches alternatives montrent des promesses, elles sont encore insuffisantes pour résoudre adéquatement ce problème. Ces conclusions soulignent le besoin de systèmes de recherche multimodale plus robustes, car une recherche de vidéos efficace est une étape cruciale vers les tâches de compréhension et de génération de contenu multimodal.