Articles de recherche en IA sélectionnés quotidiennement avec traductions
La détection de texte artificiel (ATD) devient de plus en plus importante avec l'essor des modèles de langage de grande taille (LLMs) avancés. Malgré de nombreux efforts, aucun algorithme unique ne performe de manière constante sur différents types de texte inconnu ou ne garantit une généralisation efficace aux nouveaux LLMs. L'interprétabilité joue un rôle crucial dans la réalisation de cet objectif. Dans cette étude, nous améliorons l'interprétabilité de l'ATD en utilisant des autoencodeurs parcimonieux (SAE) pour extraire des caractéristiques du flux résiduel de Gemma-2-2b. Nous identifions à la fois des caractéristiques interprétables et efficaces, en analysant leur sémantique et leur pertinence à travers des statistiques spécifiques au domaine et au modèle, une approche de pilotage, et une interprétation manuelle ou basée sur des LLMs. Nos méthodes offrent des insights précieux sur la manière dont les textes provenant de divers modèles diffèrent du contenu écrit par des humains. Nous montrons que les LLMs modernes ont un style d'écriture distinct, en particulier dans les domaines à forte densité d'information, même s'ils peuvent produire des sorties semblables à celles des humains avec des invites personnalisées.
Les grands modèles de langage ont obtenu un succès remarquable dans diverses tâches de traitement du langage naturel, mais leur coût computationnel élevé lors de l'inférence reste un goulot d'étranglement majeur. Cet article présente Sparse Expert Activation Pruning (SEAP), une méthode d'élagage sans entraînement qui conserve sélectivement les paramètres pertinents pour la tâche afin de réduire la surcharge d'inférence. Inspiré par les motifs de regroupement des états cachés et des activations dans les grands modèles de langage, SEAP identifie les motifs d'activation des experts spécifiques à la tâche et élague le modèle tout en préservant les performances de la tâche et en améliorant l'efficacité computationnelle. Les résultats expérimentaux montrent que SEAP réduit significativement la surcharge computationnelle tout en maintenant une précision compétitive. Notamment, à 50 % d'élagage, SEAP surpasse à la fois WandA et FLAP de plus de 20 %, et à 20 % d'élagage, il n'entraîne qu'une baisse de performance de 2,2 % par rapport au modèle dense. Ces résultats mettent en évidence l'évolutivité et l'efficacité de SEAP, en faisant une approche prometteuse pour l'optimisation des grands modèles de langage à grande échelle.
Nous présentons MM-Eureka, un modèle de raisonnement multimodal qui étend avec succès l'apprentissage par renforcement (RL) basé sur des règles à grande échelle au raisonnement multimodal. Bien que le RL basé sur des règles ait démontré un succès remarquable dans l'amélioration des capacités de raisonnement des LLMs dans les domaines textuels, son application aux contextes multimodaux est restée difficile. Notre travail reproduit les caractéristiques clés des systèmes RL basés sur le texte, comme DeepSeek-R1, dans l'espace multimodal, incluant des augmentations régulières de la récompense en précision et de la longueur des réponses, ainsi que l'émergence de comportements de réflexion. Nous démontrons que les modèles ajustés par instruction et pré-entraînés peuvent développer de solides capacités de raisonnement multimodal grâce au RL basé sur des règles sans ajustement supervisé, montrant une efficacité supérieure en termes de données par rapport aux approches alternatives. Nous ouvrons l'accès à notre pipeline complet pour encourager davantage de recherches dans ce domaine. Nous publions tous nos codes, modèles, données, etc. à l'adresse https://github.com/ModalMinds/MM-EUREKA.
Le Transformer de Diffusion a démontré une capacité et une scalabilité puissantes dans la génération d'images et de vidéos de haute qualité. La poursuite de l'unification des tâches de génération et d'édition a permis des progrès significatifs dans le domaine de la création de contenu visuel. Cependant, en raison des exigences intrinsèques de cohérence à la fois temporelle et spatiale, la réalisation d'une approche unifiée pour la synthèse vidéo reste un défi. Nous présentons VACE, qui permet aux utilisateurs d'exécuter des tâches vidéo dans un cadre tout-en-un pour la création et l'édition. Ces tâches incluent la génération de vidéos à partir de références, l'édition de vidéo à vidéo, et l'édition de vidéo masquée. Plus précisément, nous intégrons efficacement les exigences de diverses tâches en organisant les entrées des tâches vidéo, telles que l'édition, la référence et le masquage, dans une interface unifiée appelée Unité de Condition Vidéo (VCU). De plus, en utilisant une structure d'Adaptateur de Contexte, nous injectons différents concepts de tâches dans le modèle à l'aide de représentations formalisées des dimensions temporelles et spatiales, lui permettant de gérer de manière flexible des tâches de synthèse vidéo arbitraires. Des expériences approfondies démontrent que le modèle unifié de VACE atteint des performances comparables à celles des modèles spécifiques à chaque tâche à travers diverses sous-tâches. Simultanément, il permet des applications variées grâce à des combinaisons de tâches polyvalentes. Page du projet : https://ali-vilab.github.io/VACE-Page/.
Les frameworks existants de génération de vidéos longues manquent de planification automatisée, nécessitant une intervention manuelle pour les scénarios, les scènes, la cinématographie et les interactions entre personnages, ce qui entraîne des coûts élevés et des inefficacités. Pour relever ces défis, nous présentons MovieAgent, une génération automatisée de films via une planification en chaîne de pensée (CoT) multi-agents. MovieAgent offre deux avantages clés : 1) Nous explorons et définissons pour la première fois le paradigme de la génération automatisée de films/vidéos longues. À partir d'un script et d'une banque de personnages, notre MovieAgent génère des vidéos longues multi-scènes et multi-plans avec une narration cohérente, tout en garantissant la cohérence des personnages, des sous-titres synchronisés et une bande sonore stable tout au long du film. 2) MovieAgent introduit un processus de raisonnement hiérarchique basé sur la CoT pour structurer automatiquement les scènes, les réglages de caméra et la cinématographie, réduisant ainsi considérablement l'effort humain. En employant plusieurs agents LLM pour simuler les rôles d'un réalisateur, d'un scénariste, d'un artiste storyboard et d'un gestionnaire de lieux, MovieAgent rationalise le pipeline de production. Les expériences démontrent que MovieAgent atteint de nouveaux résultats de pointe en termes de fidélité au script, de cohérence des personnages et de cohérence narrative. Notre framework hiérarchique représente une avancée et offre de nouvelles perspectives sur la génération entièrement automatisée de films. Le code et le site web du projet sont disponibles à l'adresse : https://github.com/showlab/MovieAgent et https://weijiawu.github.io/MovieAgent.
Les modèles de langage multimodaux à grande échelle (MLLMs), construits sur des tours de vision et des modèles de langage pré-entraînés à grande échelle, ont démontré d'excellentes capacités en compréhension multimodale. Cependant, la plupart des MLLMs existants sont entraînés sur des tâches de question-réponse visuelle en un seul tour, ce qui ne reflète pas fidèlement les conversations humaines réelles. Dans cet article, nous présentons MMDiag, un ensemble de données de dialogue multimodal multi-tours. Ce jeu de données est généré de manière collaborative grâce à des règles soigneusement conçues et à l'assistance de GPT, mettant en avant des corrélations fortes entre les questions, entre les questions et les images, et entre différentes régions d'une image ; s'alignant ainsi plus étroitement sur des scénarios réels. MMDiag sert de référence solide pour l'apprentissage des dialogues multimodaux multi-tours et apporte des défis supplémentaires aux capacités d'ancrage et de raisonnement des MLLMs. De plus, inspiré par le traitement visuel humain, nous présentons DiagNote, un MLLM doté de capacités d'ancrage et de raisonnement multimodal. DiagNote se compose de deux modules (Deliberate et Gaze) interagissant l'un avec l'autre pour effectuer respectivement une Chaîne de Pensée et des annotations tout au long des dialogues multi-tours. Nous démontrons empiriquement les avantages de DiagNote en matière d'ancrage et de traitement conjoint ainsi que de raisonnement avec des informations visuelles et linguistiques par rapport aux MLLMs existants.
L'apprentissage fédéré (Federated Learning, FL) est un cadre largement utilisé pour entraîner des modèles de manière décentralisée, garantissant que le serveur central n'a pas d'accès direct aux données des clients locaux. Cependant, cette approche peut encore échouer à préserver pleinement la confidentialité des données, car les modèles des clients locaux sont exposés au serveur central pendant le processus d'agrégation. Ce problème devient encore plus critique lors de l'entraînement de modèles vision-langage (Vision-Language Models, VLMs) avec FL, car les VLMs peuvent facilement mémoriser les instances des données d'entraînement, les rendant vulnérables aux attaques par inférence d'appartenance (Membership Inference Attacks, MIAs). Pour relever ce défi, nous proposons le cadre FedRand, qui évite de divulguer l'ensemble complet des paramètres clients. Dans ce cadre, chaque client sélectionne aléatoirement des sous-paramètres de l'adaptation à faible rang (Low-Rank Adaptation, LoRA) du serveur et conserve les contreparties restantes des poids LoRA comme paramètres privés. Après l'entraînement des deux paramètres sur l'ensemble de données privé du client, seuls les paramètres clients non privés sont renvoyés au serveur pour agrégation. Cette approche atténue le risque d'exposition des paramètres VLM côté client, améliorant ainsi la confidentialité des données. Nous validons empiriquement que FedRand améliore la robustesse contre les MIAs par rapport aux références pertinentes tout en atteignant une précision comparable aux méthodes qui communiquent l'intégralité des paramètres LoRA sur plusieurs ensembles de données de référence.
Malgré le succès de la distillation dans les grands modèles de langage (LLM), la plupart des travaux antérieurs appliquent des fonctions de perte identiques aux données générées par l'enseignant et l'élève. Ces stratégies négligent la synergie entre les formulations de perte et les types de données, ce qui entraîne une amélioration sous-optimale des performances des modèles élèves. Pour remédier à cela, nous proposons DistiLLM-2, une approche contrastive qui augmente simultanément la probabilité des réponses de l'enseignant et diminue celle des réponses de l'élève en exploitant cette synergie. Nos expériences approfondies montrent que DistiLLM-2 non seulement construit des modèles élèves performants sur une large gamme de tâches, y compris le suivi d'instructions et la génération de code, mais soutient également des applications variées, telles que l'alignement des préférences et les extensions vision-langage. Ces résultats mettent en lumière le potentiel d'une approche contrastive pour améliorer l'efficacité de la distillation des LLM en alignant efficacement les modèles enseignant et élève sur différents types de données.
DeepSeek-R1-Zero a démontré avec succès l'émergence de capacités de raisonnement dans les LLMs (Large Language Models) uniquement par le biais de l'apprentissage par renforcement (Reinforcement Learning, RL). Inspirés par cette avancée, nous explorons comment le RL peut être utilisé pour améliorer les capacités de raisonnement des MLLMs (Multimodal Large Language Models). Cependant, l'entraînement direct avec le RL peine à activer des capacités de raisonnement complexes telles que le questionnement et la réflexion dans les MLLMs, en raison de l'absence de données multimodales de raisonnement de haute qualité en quantité suffisante. Pour résoudre ce problème, nous proposons le MLLM de raisonnement, Vision-R1, afin d'améliorer les capacités de raisonnement multimodal. Plus précisément, nous construisons d'abord un ensemble de données multimodal de haute qualité de type Chaîne de Pensée (CoT) sans annotations humaines, en exploitant un MLLM existant et DeepSeek-R1 à travers un pontage de modalités et un filtrage de données pour obtenir un ensemble de données multimodal CoT de 200K, appelé Vision-R1-cold. Celui-ci sert de données d'initialisation pour Vision-R1. Pour atténuer les défis d'optimisation causés par la sur-réflexion après l'initialisation, nous proposons la stratégie de Formation Progressive à la Suppression de la Pensée (Progressive Thinking Suppression Training, PTST) et utilisons l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) avec une fonction de récompense basée sur les résultats de formatage rigoureux, afin d'affiner progressivement la capacité du modèle à apprendre des processus de raisonnement corrects et complexes sur un ensemble de données mathématiques multimodal de 10K. Des expériences approfondies montrent que notre modèle obtient une amélioration moyenne de ∼6% sur divers benchmarks de raisonnement mathématique multimodal. Vision-R1-7B atteint une précision de 73,5% sur le benchmark MathVista largement utilisé, ce qui n'est que 0,4% de moins que le modèle de raisonnement leader, OpenAI O1. Les ensembles de données et le code seront publiés sur : https://github.com/Osilly/Vision-R1.
Les récentes avancées dans les modèles de diffusion basés sur Unet, tels que ControlNet et IP-Adapter, ont introduit des mécanismes efficaces de contrôle spatial et thématique. Cependant, l'architecture DiT (Diffusion Transformer) rencontre encore des difficultés pour un contrôle à la fois efficace et flexible. Pour résoudre ce problème, nous proposons EasyControl, un nouveau cadre conçu pour unifier les transformers de diffusion guidés par des conditions avec une grande efficacité et flexibilité. Notre cadre repose sur trois innovations clés. Premièrement, nous introduisons un module léger d'injection de conditions LoRA. Ce module traite les signaux conditionnels de manière isolée, agissant comme une solution plug-and-play. Il évite de modifier les poids du modèle de base, garantissant la compatibilité avec des modèles personnalisés et permettant l'injection flexible de diverses conditions. Notamment, ce module supporte également une généralisation harmonieuse et robuste à zéro-shot pour plusieurs conditions, même lorsqu'il est entraîné uniquement sur des données à condition unique. Deuxièmement, nous proposons un paradigme d'entraînement conscient de la position. Cette approche standardise les conditions d'entrée à des résolutions fixes, permettant la génération d'images avec des ratios d'aspect arbitraires et des résolutions flexibles. Parallèlement, elle optimise l'efficacité computationnelle, rendant le cadre plus pratique pour des applications réelles. Troisièmement, nous développons un mécanisme d'attention causale combiné avec la technique de cache KV, adapté pour les tâches de génération conditionnelle. Cette innovation réduit significativement la latence de la synthèse d'images, améliorant l'efficacité globale du cadre. À travers des expériences approfondies, nous démontrons qu'EasyControl atteint des performances exceptionnelles dans divers scénarios d'application. Ces innovations rendent collectivement notre cadre hautement efficace, flexible et adapté à une large gamme de tâches.
L'intégration de connaissances externes dans les grands modèles de langage (LLM) améliore leur utilité dans diverses applications, mais les méthodes existantes présentent des compromis. La Génération Augmentée par Récupération (RAG) extrait des preuves via une recherche de similarité, mais des informations clés peuvent se trouver en dehors des résultats les mieux classés. Les modèles à contexte long peuvent traiter plusieurs documents, mais ils sont coûteux en calcul et limités par la taille de la fenêtre contextuelle. Inspirés par les étudiants qui condensent leurs supports d'étude pour les examens à livre ouvert, nous proposons une compression de cache clé-valeur (KV) adaptée à la tâche, qui compresse les connaissances externes dans un cadre zero-shot ou few-shot. Cela permet aux LLM de raisonner efficacement sur une représentation compacte de toutes les informations pertinentes. Les expériences montrent que notre approche surpasse à la fois la RAG et les méthodes de compression indépendantes de la tâche. Sur LongBench v2, elle améliore la précision jusqu'à 7 points absolus par rapport à la RAG avec un taux de compression de 30x, tout en réduisant la latence d'inférence de 0,43s à 0,16s. Un ensemble de données synthétique met en évidence que la RAG fonctionne bien lorsque des preuves éparses suffisent, tandis que la compression adaptée à la tâche est supérieure pour les tâches nécessitant une connaissance étendue.
OpenAI o1 et DeepSeek R1 atteignent, voire surpassent, les performances de niveau expert humain dans des domaines complexes comme les mathématiques et les sciences, où l'apprentissage par renforcement (RL) et le raisonnement jouent un rôle crucial. Dans le domaine de la conduite autonome, les modèles récents de bout en bout ont considérablement amélioré les performances de planification, mais ils peinent encore à résoudre des problèmes à longue traîne en raison de leurs capacités limitées en matière de bon sens et de raisonnement. Certaines études intègrent des modèles vision-langage (VLMs) dans la conduite autonome, mais elles reposent généralement sur des modèles pré-entraînés avec un simple réglage supervisé (SFT) sur des données de conduite, sans exploration approfondie des stratégies d'entraînement ou des optimisations spécifiquement adaptées à la planification. Dans cet article, nous proposons AlphaDrive, un cadre RL et de raisonnement pour les VLMs dans la conduite autonome. AlphaDrive introduit quatre récompenses RL basées sur GRPO, spécialement conçues pour la planification, et emploie une stratégie d'entraînement en deux étapes combinant SFT et RL. En conséquence, AlphaDrive améliore significativement à la fois les performances de planification et l'efficacité de l'entraînement par rapport à l'utilisation exclusive de SFT ou sans raisonnement. De plus, nous avons également eu la surprise de découvrir qu'après l'entraînement RL, AlphaDrive présente certaines capacités émergentes de planification multimodale, ce qui est crucial pour améliorer la sécurité et l'efficacité de la conduite. À notre connaissance, AlphaDrive est le premier à intégrer le RL basé sur GRPO avec le raisonnement de planification dans la conduite autonome. Le code sera publié pour faciliter les recherches futures.
L'implémentation de nouvelles fonctionnalités dans des bases de code au niveau du dépôt est une application cruciale des modèles de génération de code. Cependant, les benchmarks actuels manquent d'un cadre d'évaluation dédié à cette capacité. Pour combler cette lacune, nous introduisons FEA-Bench, un benchmark conçu pour évaluer la capacité des grands modèles de langage (LLMs) à effectuer un développement incrémental au sein des dépôts de code. Nous collectons des demandes de pull provenant de 83 dépôts GitHub et utilisons un filtrage basé sur des règles et sur l'intention pour construire des instances de tâches axées sur le développement de nouvelles fonctionnalités. Chaque instance de tâche contenant des modifications de code est associée à des fichiers de tests unitaires pertinents pour s'assurer que la solution peut être vérifiée. L'implémentation de fonctionnalités nécessite que les LLMs possèdent simultanément des capacités de complétion de code pour de nouveaux composants et des capacités d'édition de code pour d'autres parties pertinentes du dépôt de code, offrant ainsi une méthode d'évaluation plus complète des capacités d'ingénierie logicielle automatisée des LLMs. Les résultats expérimentaux montrent que les LLMs performent significativement moins bien dans FEA-Bench, mettant en évidence des défis considérables dans un tel développement incrémental de code au niveau du dépôt.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont considérablement amélioré les capacités de génération de texte, mais l'évaluation de leurs performances en écriture générative reste un défi. Les benchmarks existants se concentrent principalement sur la génération de texte générique ou sur des tâches d'écriture limitées, ne parvenant pas à capturer les exigences variées des contenus écrits de haute qualité dans divers domaines. Pour combler cette lacune, nous présentons WritingBench, un benchmark complet conçu pour évaluer les LLMs à travers 6 domaines d'écriture principaux et 100 sous-domaines, englobant l'écriture créative, persuasive, informative et technique. Nous proposons en outre un cadre d'évaluation dépendant des requêtes qui permet aux LLMs de générer dynamiquement des critères d'évaluation spécifiques à chaque instance. Ce cadre est complété par un modèle critique affiné pour un scoring basé sur les critères, permettant des évaluations en termes de style, format et longueur. La validité du cadre est en outre démontrée par sa capacité de curation de données, qui permet à des modèles de 7 milliards de paramètres d'approcher les performances de pointe (SOTA). Nous mettons à disposition en open-source le benchmark, ainsi que les outils d'évaluation et les composants modulaires du cadre, pour faire progresser le développement des LLMs en écriture.
Les workflows agentiques traditionnels s'appuient sur des prompts externes pour gérer les interactions avec les outils et l'environnement, ce qui limite l'autonomie des modèles de raisonnement. Nous positionnons les Large Agent Models (LAMs) qui internalisent la génération de Chain-of-Action (CoA), permettant au modèle de décider de manière autonome quand et comment utiliser des outils externes. Notre framework AutoCoA proposé combine un fine-tuning supervisé (SFT) et un apprentissage par renforcement (RL), permettant au modèle de passer de manière fluide entre le raisonnement et l'action tout en gérant efficacement les interactions avec l'environnement. Les composants principaux incluent un déclenchement d'actions au niveau des étapes, une optimisation de CoA au niveau de la trajectoire, et un modèle interne du monde pour réduire les coûts d'interaction avec l'environnement réel. Les évaluations sur des tâches de question-réponse en domaine ouvert démontrent que les modèles agentiques entraînés avec AutoCoA surpassent significativement les workflows basés sur ReAct en termes de réussite des tâches, en particulier pour les tâches nécessitant un raisonnement à long terme et des actions multi-étapes. Le code et le jeu de données sont disponibles à l'adresse https://github.com/ADaM-BJTU/AutoCoA.
Les articles de synthèse jouent un rôle crucial dans la recherche scientifique, en particulier compte tenu de la croissance rapide des publications de recherche. Récemment, les chercheurs ont commencé à utiliser des LLM (modèles de langage de grande taille) pour automatiser la génération de synthèses afin d'améliorer l'efficacité. Cependant, l'écart de qualité entre les synthèses générées par les LLM et celles rédigées par des humains reste significatif, notamment en termes de qualité du plan et de précision des citations. Pour combler ces lacunes, nous présentons SurveyForge, qui génère d'abord le plan en analysant la structure logique des plans rédigés par des humains et en se référant aux articles liés au domaine récupérés. Ensuite, en s'appuyant sur des articles de haute qualité récupérés de la mémoire par notre agent de navigation académique, SurveyForge peut automatiquement générer et affiner le contenu de l'article produit. Par ailleurs, pour parvenir à une évaluation complète, nous avons construit SurveyBench, qui inclut 100 articles de synthèse rédigés par des humains pour une comparaison en termes de taux de réussite et évalue les articles de synthèse générés par l'IA selon trois dimensions : les références, la qualité du plan et la qualité du contenu. Les expériences démontrent que SurveyForge surpasse les travaux précédents tels qu'AutoSurvey.
Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes sur les benchmarks existants de questions-réponses médicales. Cette performance élevée rend de plus en plus difficile l'évaluation et la différenciation significative des méthodes avancées. Nous présentons MedAgentsBench, un benchmark qui se concentre sur des questions médicales complexes nécessitant un raisonnement clinique en plusieurs étapes, la formulation de diagnostics et la planification de traitements - des scénarios où les modèles actuels continuent de rencontrer des difficultés malgré leurs solides performances sur les tests standard. Tiré de sept ensembles de données médicales établis, notre benchmark aborde trois limitations clés des évaluations existantes : (1) la prévalence de questions simples où même les modèles de base obtiennent des performances élevées, (2) des protocoles d'échantillonnage et d'évaluation incohérents entre les études, et (3) l'absence d'analyse systématique de l'interaction entre performance, coût et temps d'inférence. À travers des expériences avec divers modèles de base et méthodes de raisonnement, nous démontrons que les derniers modèles de pensée, DeepSeek R1 et OpenAI o3, affichent des performances exceptionnelles dans les tâches complexes de raisonnement médical. De plus, les méthodes avancées d'agents basés sur la recherche offrent des ratios performance-coût prometteurs par rapport aux approches traditionnelles. Notre analyse révèle des écarts de performance substantiels entre les familles de modèles sur des questions complexes et identifie les sélections de modèles optimales pour différentes contraintes computationnelles. Notre benchmark et cadre d'évaluation sont disponibles publiquement à l'adresse https://github.com/gersteinlab/medagents-benchmark.
Nous présentons Autoregressive Representation Alignment (ARRA), un nouveau cadre d'entraînement qui permet une génération texte-image globalement cohérente dans les LLMs autoregressifs sans modifications architecturales. Contrairement aux travaux antérieurs nécessitant des redéploiements architecturaux complexes, ARRA aligne les états cachés des LLMs avec des représentations visuelles issues de modèles visuels fondamentaux externes via une perte d'alignement visuel global et un jeton hybride, <HYBNEXT>. Ce jeton impose des contraintes duales : prédiction locale du prochain jeton et distillation sémantique globale, permettant aux LLMs d'apprendre implicitement la cohérence spatiale et contextuelle tout en conservant leur paradigme autoregressif d'origine. Des expériences approfondies valident la polyvalence plug-and-play d'ARRA. Lors de l'entraînement à partir de LLMs uniquement dédiés à la génération de texte ou d'une initialisation aléatoire, ARRA réduit le FID de 25,5 % (MIMIC-CXR), 8,8 % (DeepEyeNet) et 7,5 % (ImageNet) pour des LLMs autoregressifs avancés comme Chameleon et LlamaGen, le tout sans modifications du cadre. Pour l'adaptation de domaine, ARRA aligne les LLMs généralistes avec des modèles spécialisés (par exemple, BioMedCLIP), obtenant une réduction de 18,6 % du FID par rapport au fine-tuning direct sur l'imagerie médicale (MIMIC-CXR). En démontrant que la refonte des objectifs d'entraînement — et pas seulement l'innovation architecturale — peut résoudre les défis de cohérence globale intermodale, ARRA propose un paradigme complémentaire pour faire progresser les modèles autoregressifs. Le code et les modèles seront publiés pour faire avancer la génération d'images autoregressive.
Les modèles d'encodage multimodaux universels jouent un rôle crucial dans des tâches telles que la recherche intercalée image-texte, le RAG multimodal et le clustering multimodal. Cependant, nos résultats empiriques indiquent que les modèles d'encodage basés sur LMM existants, entraînés avec la fonction de perte InfoNCE standard, présentent un degré élevé de chevauchement dans la distribution de similarité entre les paires positives et négatives, rendant difficile la distinction efficace des paires négatives complexes. Pour résoudre ce problème, nous proposons un cadre simple mais efficace qui améliore dynamiquement l'apprentissage de représentation du modèle d'encodage pour les paires négatives en fonction de leur difficulté discriminative. Dans ce cadre, nous entraînons une série de modèles, nommés LLaVE, et les évaluons sur le benchmark MMEB, qui couvre 4 méta-tâches et 36 jeux de données. Les résultats expérimentaux montrent que LLaVE établit des bases de référence plus solides, atteignant des performances de pointe (SOTA) tout en démontrant une forte scalabilité et efficacité. Plus précisément, LLaVE-2B surpasse les précédents modèles SOTA de 7B, tandis que LLaVE-7B réalise une amélioration supplémentaire de 6,2 points. Bien que LLaVE soit entraîné sur des données image-texte, il peut généraliser aux tâches de recherche texte-vidéo de manière zero-shot et obtenir de solides performances, démontrant ainsi son potentiel remarquable pour le transfert vers d'autres tâches d'encodage.
La personnalisation relationnelle de vidéos désigne la création de vidéos personnalisées qui représentent des relations spécifiées par l'utilisateur entre deux sujets, une tâche cruciale pour la compréhension du contenu visuel du monde réel. Bien que les méthodes existantes puissent personnaliser les apparences et les mouvements des sujets, elles peinent encore à gérer la personnalisation relationnelle complexe de vidéos, où une modélisation relationnelle précise et une généralisation élevée entre catégories de sujets sont essentielles. Le défi principal provient des arrangements spatiaux complexes, des variations de mise en page et des dynamiques temporelles nuancées inhérentes aux relations ; par conséquent, les modèles actuels ont tendance à surestimer des détails visuels non pertinents plutôt que de capturer des interactions significatives. Pour relever ces défis, nous proposons DreamRelation, une approche novatrice qui personnalise les relations à travers un petit ensemble de vidéos exemplaires, en s'appuyant sur deux composants clés : l'apprentissage par découplage relationnel et l'amélioration des dynamiques relationnelles. Premièrement, dans l'apprentissage par découplage relationnel, nous dissocions les relations des apparences des sujets en utilisant un triplet relationnel LoRA et une stratégie d'entraînement par masque hybride, garantissant une meilleure généralisation à travers diverses relations. De plus, nous déterminons la conception optimale du triplet relationnel LoRA en analysant les rôles distincts des caractéristiques de requête, clé et valeur dans le mécanisme d'attention de MM-DiT, faisant de DreamRelation le premier cadre de génération de vidéos relationnelles avec des composants explicables. Deuxièmement, dans l'amélioration des dynamiques relationnelles, nous introduisons une perte contrastive relationnelle spatio-temporelle, qui priorise les dynamiques relationnelles tout en minimisant la dépendance aux détails d'apparence des sujets. Des expériences approfondies démontrent que DreamRelation surpasse les méthodes de pointe en personnalisation relationnelle de vidéos. Le code et les modèles seront rendus publics.
Bien que les modèles de génération d'images masquées et les modèles de diffusion masquée soient conçus avec des motivations et des objectifs différents, nous observons qu'ils peuvent être unifiés dans un cadre unique. En nous appuyant sur cette observation, nous explorons minutieusement l'espace de conception de l'entraînement et de l'échantillonnage, en identifiant les facteurs clés qui contribuent à la fois à la performance et à l'efficacité. Sur la base des améliorations observées lors de cette exploration, nous développons notre modèle, appelé eMIGM. Empiriquement, eMIGM démontre une forte performance sur la génération d'ImageNet, mesurée par la distance de Fréchet Inception (FID). En particulier, sur ImageNet 256x256, avec un nombre similaire d'évaluations de fonctions (NFE) et de paramètres de modèle, eMIGM surpasse le modèle VAR fondateur. De plus, à mesure que le NFE et les paramètres du modèle augmentent, eMIGM atteint des performances comparables aux modèles de diffusion continus de pointe tout en nécessitant moins de 40 % du NFE. Par ailleurs, sur ImageNet 512x512, avec seulement environ 60 % du NFE, eMIGM surpasse les modèles de diffusion continus de pointe.
Les méthodes traditionnelles pour la segmentation raisonnée reposent sur un ajustement fin supervisé avec des étiquettes catégorielles et des descriptions simples, limitant ainsi leur généralisation hors domaine et manquant de processus de raisonnement explicites. Pour remédier à ces limitations, nous proposons Seg-Zero, un nouveau cadre qui démontre une généralisation remarquable et dérive un raisonnement explicite en chaîne de pensée grâce à un renforcement cognitif. Seg-Zero introduit une architecture découplée composée d'un modèle de raisonnement et d'un modèle de segmentation. Le modèle de raisonnement interprète les intentions de l'utilisateur, génère des chaînes de raisonnement explicites et produit des invites positionnelles, qui sont ensuite utilisées par le modèle de segmentation pour générer des masques précis au niveau des pixels. Nous concevons un mécanisme de récompense sophistiqué qui intègre à la fois des récompenses de format et de précision pour guider efficacement les directions d'optimisation. Entraîné exclusivement via l'apprentissage par renforcement avec GRPO et sans données de raisonnement explicites, Seg-Zero atteint une généralisation robuste en zero-shot et présente des capacités de raisonnement émergentes lors des tests. Les expériences montrent que Seg-Zero-7B atteint une performance en zero-shot de 57,5 sur le benchmark ReasonSeg, surpassant le précédent LISA-7B de 18\%. Cette amélioration significative met en évidence la capacité de Seg-Zero à généraliser à travers les domaines tout en présentant un processus de raisonnement explicite. Le code est disponible à l'adresse https://github.com/dvlab-research/Seg-Zero.
Les récents progrès dans la perception 2D-à-3D ont considérablement amélioré la compréhension des scènes 3D à partir d'images 2D. Cependant, les méthodes existantes font face à des défis critiques, notamment une généralisation limitée entre les scènes, une précision de perception sous-optimale et des vitesses de reconstruction lentes. Pour pallier ces limitations, nous proposons Perception-Efficient 3D Reconstruction (PE3R), un nouveau cadre conçu pour améliorer à la fois la précision et l'efficacité. PE3R utilise une architecture feed-forward pour permettre une reconstruction rapide du champ sémantique 3D. Le cadre démontre une robuste généralisation zero-shot à travers diverses scènes et objets, tout en améliorant significativement la vitesse de reconstruction. Des expériences approfondies sur la segmentation à vocabulaire ouvert 2D-à-3D et la reconstruction 3D valident l'efficacité et la polyvalence de PE3R. Le cadre atteint une accélération minimale de 9 fois dans la reconstruction du champ sémantique 3D, ainsi que des gains substantiels en précision de perception et en précision de reconstruction, établissant de nouveaux référentiels dans le domaine. Le code est disponible publiquement à l'adresse : https://github.com/hujiecpp/PE3R.
La détection et la segmentation d'objets sont largement utilisées dans les applications de vision par ordinateur, mais les modèles conventionnels comme la série YOLO, bien qu'efficaces et précis, sont limités par des catégories prédéfinies, ce qui entrave leur adaptabilité dans des scénarios ouverts. Les méthodes récentes de type open-set exploitent des invites textuelles, des indices visuels ou un paradigme sans invite pour surmonter cela, mais elles font souvent des compromis entre performance et efficacité en raison de demandes de calcul élevées ou de complexité de déploiement. Dans ce travail, nous présentons YOLOE, qui intègre la détection et la segmentation à travers divers mécanismes d'invite ouverte dans un seul modèle hautement efficace, permettant une vision en temps réel de n'importe quoi. Pour les invites textuelles, nous proposons la stratégie Re-parameterizable Region-Text Alignment (RepRTA). Elle affine les embeddings textuels pré-entraînés via un réseau auxiliaire léger re-paramétrable et améliore l'alignement visuel-textuel sans surcharge d'inférence ni de transfert. Pour les invites visuelles, nous présentons le Semantic-Activated Visual Prompt Encoder (SAVPE). Il utilise des branches sémantiques et d'activation découplées pour améliorer l'embedding visuel et la précision avec une complexité minimale. Pour les scénarios sans invite, nous introduisons la stratégie Lazy Region-Prompt Contrast (LRPC). Elle utilise un vocabulaire intégré étendu et un embedding spécialisé pour identifier tous les objets, évitant ainsi la dépendance coûteuse à un modèle de langage. Des expériences approfondies montrent les performances exceptionnelles de YOLOE en zero-shot et sa transférabilité avec une efficacité d'inférence élevée et un faible coût d'entraînement. Notamment, sur LVIS, avec un coût d'entraînement 3 fois moindre et une accélération d'inférence de 1,4 fois, YOLOE-v8-S surpasse YOLO-Worldv2-S de 3,5 AP. Lors du transfert vers COCO, YOLOE-v8-L obtient des gains de 0,6 AP^b et 0,4 AP^m par rapport au YOLOv8-L en closed-set avec un temps d'entraînement presque 4 fois moindre. Le code et les modèles sont disponibles sur https://github.com/THU-MIG/yoloe.
Les modèles vision-langage (VLMs) excellent dans l'intégration d'informations visuelles et textuelles pour des tâches centrées sur la vision, mais leur gestion des incohérences entre modalités reste peu explorée. Nous étudions les préférences modales des VLMs lorsqu'ils sont confrontés à des données visuelles et à des entrées textuelles variées dans des contextes centrés sur la vision. En introduisant des variations textuelles dans quatre tâches centrées sur la vision et en évaluant dix modèles vision-langage (VLMs), nous découvrons un phénomène de « foi aveugle dans le texte » : les VLMs accordent une confiance disproportionnée aux données textuelles par rapport aux données visuelles en cas d'incohérence, entraînant une baisse significative des performances avec des textes corrompus et soulevant des préoccupations de sécurité. Nous analysons les facteurs influençant ce biais textuel, notamment les instructions d'invite, la taille du modèle de langage, la pertinence du texte, l'ordre des tokens et l'interaction entre la certitude visuelle et textuelle. Bien que certains facteurs, comme l'augmentation de la taille du modèle de langage, atténuent légèrement le biais textuel, d'autres, comme l'ordre des tokens, peuvent l'exacerber en raison des biais positionnels hérités des modèles de langage. Pour résoudre ce problème, nous explorons un fine-tuning supervisé avec augmentation de texte et démontrons son efficacité à réduire le biais textuel. De plus, nous proposons une analyse théorique suggérant que le phénomène de foi aveugle dans le texte pourrait découler d'un déséquilibre entre les données textuelles pures et les données multimodales pendant l'entraînement. Nos résultats soulignent la nécessité d'un entraînement équilibré et d'une attention particulière aux interactions modales dans les VLMs pour améliorer leur robustesse et leur fiabilité face aux incohérences des données multimodales.
Les architectures de mélange d'agents de grands modèles de langage (MoA) atteignent des performances de pointe sur des benchmarks majeurs comme AlpacaEval 2.0 en exploitant la collaboration de plusieurs LLM au moment de l'inférence. Malgré ces succès, une évaluation de la sécurité et de la fiabilité des MoA fait défaut. Nous présentons la première étude approfondie de la robustesse des MoA face à des agents LLM trompeurs qui fournissent délibérément des réponses erronées. Nous examinons des facteurs tels que la propagation d'informations trompeuses, la taille des modèles et la disponibilité des informations, et mettons en lumière des vulnérabilités critiques. Sur AlpacaEval 2.0, le modèle populaire LLaMA 3.1-70B atteint un taux de victoire contrôlé en longueur (LC WR) de 49,2% lorsqu'il est couplé à un MoA à 3 couches (6 agents LLM). Cependant, nous démontrons que l'introduction d'un seul agent trompeur soigneusement instruit dans le MoA peut réduire la performance à 37,9%, annulant ainsi tous les gains du MoA. Sur QuALITY, une tâche de compréhension à choix multiples, l'impact est également sévère, avec une précision qui chute de manière spectaculaire de 48,5%. Inspirés en partie par le processus historique de vote du Doge de Venise, conçu pour minimiser l'influence et la tromperie, nous proposons une gamme de mécanismes de défense non supervisés qui permettent de récupérer la majeure partie de la performance perdue.
Nous proposons DiffCLIP, un nouveau modèle vision-langage qui étend le mécanisme d'attention différentielle aux architectures CLIP. L'attention différentielle a été initialement développée pour les grands modèles de langage afin d'amplifier le contexte pertinent tout en atténuant les informations parasites. Dans ce travail, nous intégrons ce mécanisme dans le cadre à double encodeur (image et texte) de CLIP. Avec un nombre minimal de paramètres supplémentaires, DiffCLIP obtient des performances supérieures sur les tâches de compréhension image-texte. Sur les benchmarks de classification zero-shot, de recherche d'information et de robustesse, DiffCLIP surpasse systématiquement les modèles CLIP de référence. Il est à noter que ces gains s'accompagnent d'une surcharge computationnelle négligeable, démontrant que l'attention différentielle peut considérablement améliorer les représentations multimodales sans sacrifier l'efficacité. Le code est disponible à l'adresse suivante : https://github.com/hammoudhasan/DiffCLIP.
Nous explorons un nouveau cadre de Reconnaissance Audio-Visuelle de la Parole (AVSR) en mode zéro-shot, nommé Zero-AVSR, qui permet la reconnaissance de la parole dans des langues cibles sans nécessiter de données audio-visuelles de parole dans ces langues. Plus précisément, nous introduisons le Romaniseur Audio-Visuel de la Parole (AV-Romanizer), qui apprend des représentations de parole indépendantes de la langue en prédisant du texte en alphabet romain. Ensuite, en exploitant les fortes capacités de modélisation multilingue des Modèles de Langue de Grande Taille (LLMs), nous proposons de convertir le texte romain prédit en graphèmes spécifiques à la langue, formant ainsi le Zero-AVSR en cascade. Allant plus loin, nous explorons une approche unifiée de Zero-AVSR en intégrant directement les représentations audio-visuelles de la parole encodées par l'AV-Romanizer dans le LLM. Cela est réalisé en affinant l'adaptateur et le LLM à l'aide de notre schéma d'apprentissage multi-tâches proposé. Pour capturer le large spectre de diversité phonétique et linguistique, nous introduisons également un Corpus Romanisé Audio-Visuel Multilingue (MARC) composé de 2 916 heures de données audio-visuelles de parole couvrant 82 langues, accompagnées de transcriptions en graphèmes spécifiques à la langue et en texte romain. Des analyses et expériences approfondies confirment que le cadre Zero-AVSR proposé a le potentiel d'étendre le support linguistique au-delà des langues vues lors de l'entraînement de l'AV-Romanizer.
Les modèles de séries temporelles rencontrent des défis importants pour s'adapter à la gestion de grands ensembles de données complexes, similaires à l'échelle atteinte par les grands modèles de langage (LLMs). Les caractéristiques uniques des données de séries temporelles et les exigences computationnelles de la mise à l'échelle des modèles nécessitent des approches innovantes. Bien que les chercheurs aient exploré diverses architectures telles que les Transformers, les LSTMs et les GRUs pour relever ces défis, nous proposons une solution novatrice utilisant RWKV-7, qui intègre le méta-apprentissage dans son mécanisme de mise à jour d'état. En intégrant les composants de mélange temporel et de mélange de canaux de RWKV-7 dans le modèle de séries temporelles basé sur les Transformers, Timer, nous obtenons une amélioration significative des performances, allant d'environ 1,13 à 43,3 fois, ainsi qu'une réduction de 4,5 fois du temps d'entraînement avec 1/23 des paramètres, tout en utilisant moins de paramètres. Notre code et les poids du modèle sont disponibles publiquement pour des recherches et développements ultérieurs à l'adresse https://github.com/Alic-Li/BlackGoose_Rimer.
Les modèles à espace d'états (State Space Models, SSMs) se sont imposés comme des alternatives efficaces aux Transformers, réduisant leur coût computationnel quadratique. Cependant, l'application des méthodes de réglage fin à paramètres efficaces (Parameter-Efficient Fine-Tuning, PEFT) aux SSMs reste largement inexplorée. En particulier, les méthodes basées sur des prompts, comme le Prompt Tuning et le Prefix-Tuning, largement utilisées dans les Transformers, ne donnent pas de bons résultats sur les SSMs. Pour remédier à cela, nous proposons des méthodes basées sur l'état comme une alternative supérieure aux méthodes basées sur des prompts. Cette nouvelle famille de méthodes découle naturellement des caractéristiques architecturales des SSMs. Les méthodes basées sur l'état ajustent directement les caractéristiques liées à l'état plutôt que de dépendre de prompts externes. De plus, nous introduisons une nouvelle méthode PEFT basée sur l'état : le State-offset Tuning. À chaque pas de temps, notre méthode influence directement l'état à l'étape courante, conduisant à une adaptation plus efficace. À travers des expériences approfondies sur divers ensembles de données, nous démontrons l'efficacité de notre méthode. Le code est disponible à l'adresse https://github.com/furiosa-ai/ssm-state-tuning.
La popularité croissante des grands modèles de langage a non seulement conduit à une utilisation généralisée, mais a également engendré divers risques, notamment la possibilité de propager systématiquement de fausses informations. Par conséquent, le développement de systèmes de classification tels que DetectGPT est devenu essentiel. Ces détecteurs sont vulnérables aux techniques d'évasion, comme le démontre une série d'expériences : des modifications systématiques de la température des modèles génératifs ont révélé que les détecteurs basés sur un apprentissage superficiel étaient les moins fiables. L'affinement du modèle génératif via l'apprentissage par renforcement a permis de contourner les détecteurs basés sur BERT. Enfin, la reformulation a entraîné une évasion de plus de 90 % des détecteurs zero-shot comme DetectGPT, bien que les textes soient restés très similaires à l'original. Une comparaison avec les travaux existants met en évidence la meilleure performance des méthodes présentées. Les implications possibles pour la société et les recherches futures sont discutées.
Bien que le guidage sans classifieur (CFG) soit essentiel pour les modèles de diffusion conditionnels, il double le nombre d'évaluations de fonctions neuronales (NFEs) par étape d'inférence. Pour atténuer cette inefficacité, nous introduisons la distillation par guidage d'adaptateurs (AGD), une approche novatrice qui simule le CFG en une seule passe avant. AGD exploite des adaptateurs légers pour approximer le CFG, doublant ainsi la vitesse d'échantillonnage tout en maintenant, voire en améliorant, la qualité des échantillons. Contrairement aux méthodes de distillation de guidage antérieures qui ajustent l'ensemble du modèle, AGD garde le modèle de base figé et n'entraîne que des paramètres supplémentaires minimaux (∼2%), réduisant ainsi significativement les ressources nécessaires pour la phase de distillation. De plus, cette approche préserve les poids originaux du modèle et permet aux adaptateurs d'être combinés de manière transparente avec d'autres points de contrôle dérivés du même modèle de base. Nous abordons également un décalage clé entre l'entraînement et l'inférence dans les méthodes de distillation de guidage existantes en entraînant sur des trajectoires guidées par CFG plutôt que sur des trajectoires de diffusion standard. À travers des expériences approfondies, nous montrons qu'AGD atteint un FID comparable ou supérieur à celui du CFG sur plusieurs architectures avec seulement la moitié des NFEs. Notamment, notre méthode permet la distillation de grands modèles (∼2,6 milliards de paramètres) sur un seul GPU grand public avec 24 Go de VRAM, la rendant plus accessible que les approches précédentes qui nécessitent plusieurs GPU haut de gamme. Nous rendrons publique l'implémentation de notre méthode.
Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) sont capables de produire des créations artistiques et des contenus visuels de haute qualité. Cependant, les recherches et normes d'évaluation existantes se concentrent principalement sur le réalisme des images et sur un alignement superficiel entre le texte et l'image, sans offrir une évaluation complète de la compréhension sémantique complexe et de l'intégration des connaissances du monde dans la génération d'images à partir de texte. Pour relever ce défi, nous proposons WISE, le premier benchmark spécifiquement conçu pour l'Évaluation Sémantique Informée par les Connaissances du Monde (World Knowledge-Informed Semantic Evaluation). WISE va au-delà d'une simple correspondance mot-pixel en confrontant les modèles à 1000 prompts soigneusement élaborés, répartis dans 25 sous-domaines couvrant le bon sens culturel, le raisonnement spatio-temporel et les sciences naturelles. Pour surmonter les limites de la métrique CLIP traditionnelle, nous introduisons WiScore, une nouvelle métrique quantitative pour évaluer l'alignement entre les connaissances et l'image. À travers des tests approfondis de 20 modèles (10 modèles T2I dédiés et 10 modèles multimodaux unifiés) utilisant 1000 prompts structurés couvrant 25 sous-domaines, nos résultats révèlent des limitations significatives dans leur capacité à intégrer et appliquer efficacement les connaissances du monde lors de la génération d'images, mettant en lumière des pistes cruciales pour améliorer l'incorporation et l'application des connaissances dans les modèles T2I de nouvelle génération. Le code et les données sont disponibles à l'adresse https://github.com/PKU-YuanGroup/WISE.
La généralisation de domaine vise à développer des modèles capables de s'adapter à des distributions de données nouvelles et inconnues. Dans ce travail, nous étudions comment les architectures de modèles et les objectifs de pré-entraînement influencent la richesse des caractéristiques, et nous proposons une méthode pour les exploiter efficacement en vue de la généralisation de domaine. Plus précisément, étant donné un espace de caractéristiques pré-entraîné, nous découvrons d'abord des structures de domaine latentes, appelées pseudo-domaines, qui capturent les variations spécifiques aux domaines de manière non supervisée. Ensuite, nous enrichissons les classificateurs existants avec ces représentations complémentaires de pseudo-domaines, les rendant ainsi plus adaptés à divers domaines de test inconnus. Nous analysons comment différents espaces de caractéristiques issus du pré-entraînement diffèrent dans les variances spécifiques aux domaines qu'ils capturent. Nos études empiriques révèlent que les caractéristiques issues des modèles de diffusion excellent à séparer les domaines en l'absence d'étiquettes de domaine explicites et capturent des informations nuancées spécifiques aux domaines. Sur 5 ensembles de données, nous montrons que notre cadre très simple améliore la généralisation à des domaines inconnus avec une augmentation maximale de la précision en test de plus de 4 % par rapport à la base de référence standard qu'est la minimisation du risque empirique (ERM). De manière cruciale, notre méthode surpasse la plupart des algorithmes qui accèdent aux étiquettes de domaine pendant l'entraînement.
Les grands modèles de langage (LLM) pré-entraînés qui sont ensuite entraînés avec des données visuelles obtiennent de bons résultats sur les tâches vision-langage. Bien que l'ajout d'images lors d'une deuxième phase d'entraînement débloque efficacement cette capacité, il reste incertain de savoir quel gain ou perte ce pipeline en deux étapes apporte par rapport aux modèles vision-langage (VLM) qui intègrent les images plus tôt dans le processus d'entraînement. Pour étudier cela, nous entraînons des modèles sur divers ensembles de données, échelles, ratios image-texte et quantités de pré-entraînement effectuées avant l'introduction de tokens visuels. Nous affinons ensuite ces modèles et évaluons leurs performances en aval sur une série de tâches vision-langage et de tâches textuelles uniquement. Nous constatons qu'un pré-entraînement avec un mélange de données visuelles et textuelles permet aux modèles de mieux performer sur les tâches vision-langage tout en maintenant de solides performances sur les évaluations textuelles uniquement. Sur une moyenne de 6 tâches diverses, nous observons que pour un modèle de 1 milliard de paramètres, l'introduction de tokens visuels à 80 % du pré-entraînement entraîne une amélioration moyenne de 2 % par rapport à l'introduction de tokens visuels dans un modèle entièrement pré-entraîné.
Les récentes avancées dans les modèles de diffusion texte-image permettent la génération d'images photoréalistes, mais elles risquent également de produire du contenu malveillant, tel que des images NSFW. Pour atténuer ce risque, des méthodes d'effacement de concepts sont étudiées afin de permettre au modèle de désapprendre des concepts spécifiques. Cependant, les études actuelles peinent à effacer complètement les concepts malveillants implicitement intégrés dans les prompts (par exemple, des expressions métaphoriques ou des prompts adversariaux) tout en préservant la capacité de génération normale du modèle. Pour relever ce défi, notre étude propose TRCE, utilisant une stratégie d'effacement de concepts en deux étapes pour atteindre un compromis efficace entre un effacement fiable et la préservation des connaissances. Premièrement, TRCE commence par effacer la sémantique malveillante implicitement intégrée dans les prompts textuels. En identifiant un objectif de mappage critique (c'est-à-dire l'embedding [EoT]), nous optimisons les couches d'attention croisée pour mapper les prompts malveillants vers des prompts contextuellement similaires mais avec des concepts sûrs. Cette étape empêche le modèle d'être excessivement influencé par la sémantique malveillante pendant le processus de débruitage. Ensuite, en tenant compte des propriétés déterministes de la trajectoire d'échantillonnage du modèle de diffusion, TRCE oriente davantage la prédiction de débruitage précoce vers la direction sûre et éloignée de la direction non sûre grâce à l'apprentissage contrastif, évitant ainsi davantage la génération de contenu malveillant. Enfin, nous effectuons des évaluations complètes de TRCE sur plusieurs benchmarks d'effacement de concepts malveillants, et les résultats démontrent son efficacité à effacer les concepts malveillants tout en préservant mieux la capacité de génération originale du modèle. Le code est disponible à l'adresse suivante : http://github.com/ddgoodgood/TRCE. ATTENTION : Cet article inclut du contenu généré par un modèle qui peut contenir du matériel offensant.
Les modèles de vision pré-entraînés (PVMs) sont fondamentaux pour la robotique moderne, mais leur configuration optimale reste incertaine. À travers une évaluation systématique, nous constatons que bien que DINO et iBOT surpassent MAE dans les tâches de contrôle visuomoteur et de perception, ils rencontrent des difficultés lorsqu'ils sont entraînés sur des données non centrées sur un seul objet (NOC) - une limitation fortement corrélée à leur capacité réduite à apprendre des représentations centrées sur les objets. Cette étude indique que la capacité à former des représentations centrées sur les objets à partir de jeux de données robotiques non centrés sur les objets est la clé du succès pour les PVMs. Motivés par cette découverte, nous avons conçu SlotMIM, une méthode qui induit des représentations centrées sur les objets en introduisant un goulot d'étranglement sémantique pour réduire le nombre de prototypes afin d'encourager l'émergence de l'objectivité, ainsi qu'une régularisation de la cohérence inter-vues pour favoriser l'invariance multivue. Nos expériences englobent un pré-entraînement sur des données centrées sur les objets, centrées sur les scènes, collectées sur le web et égocentriques. Dans tous les contextes, notre approche apprend des représentations transférables et obtient des améliorations significatives par rapport aux travaux antérieurs en reconnaissance d'images, compréhension de scènes et évaluations d'apprentissage robotique. Lorsqu'elle est mise à l'échelle avec des jeux de données de plusieurs millions d'échantillons, notre méthode démontre également une efficacité et une scalabilité supérieures. Notre code et nos modèles sont disponibles publiquement à l'adresse https://github.com/CVMI-Lab/SlotMIM.
La résolution de tâches multimodales de niveau expert constitue une étape clé vers l'intelligence générale. Alors que les capacités des modèles de langage multimodaux de grande envergure (MLLMs) continuent de s'améliorer, l'évaluation d'une telle intelligence multimodale avancée devient nécessaire mais complexe. Dans ce travail, nous présentons ProBench, un benchmark de requêtes utilisateur ouvertes nécessitant une expertise professionnelle et un raisonnement avancé. ProBench se compose de 4 000 échantillons de haute qualité soumis indépendamment par des professionnels en fonction de leurs besoins quotidiens en productivité. Il couvre 10 domaines et 56 sous-domaines, incluant les sciences, les arts, les humanités, le codage, les mathématiques et l'écriture créative. Expérimentalement, nous évaluons et comparons 24 modèles récents en utilisant MLLM-as-a-Judge. Nos résultats montrent que, bien que les meilleurs modèles open source rivalisent avec les modèles propriétaires, ProBench pose des défis significatifs en matière de perception visuelle, de compréhension textuelle, de connaissances domaines et de raisonnement avancé, offrant ainsi des orientations précieuses pour les futures recherches en IA multimodale.
La reconnaissance audio-visuelle de la parole (AVSR) exploite à la fois les modalités audio et visuelles pour renforcer la robustesse de la reconnaissance vocale, en particulier dans des environnements bruyants. Les récents progrès des modèles de langage de grande taille (LLMs) ont démontré leur efficacité dans la reconnaissance vocale, y compris l'AVSR. Cependant, en raison de la longueur significative des représentations de la parole, leur intégration directe avec les LLMs impose des coûts de calcul substantiels. Les approches précédentes traitent ce problème en compressant les représentations de la parole avant de les fournir aux LLMs. Cependant, des taux de compression plus élevés entraînent souvent une dégradation des performances, nécessitant un compromis entre l'efficacité computationnelle et la précision de la reconnaissance. Pour relever ce défi, nous proposons Llama-MTSK, le premier LLM multimodal basé sur Matryoshka pour l'AVSR, qui permet une adaptation flexible de l'allocation des tokens audio-visuels en fonction de contraintes computationnelles spécifiques tout en préservant des performances élevées. Notre approche, inspirée par l'apprentissage de représentations Matryoshka, encode les représentations audio-visuelles à plusieurs granularités au sein d'un seul modèle, éliminant ainsi la nécessité d'entraîner des modèles distincts pour différents niveaux de compression. De plus, pour affiner efficacement le LLM, nous introduisons trois stratégies Matryoshka basées sur LoRA utilisant des modules LoRA globaux et spécifiques à l'échelle. Des évaluations approfondies sur les deux plus grands ensembles de données AVSR montrent que Llama-MTSK atteint des résultats de pointe, égalant ou surpassant les modèles entraînés indépendamment à des niveaux de compression fixes.
L'expansion rapide de l'internet mobile a entraîné une augmentation substantielle du contenu généré par les utilisateurs (UGC) sous forme d'images, rendant ainsi l'évaluation approfondie de ces images à la fois urgente et essentielle. Récemment, les modèles de langage multimodaux de grande taille (MLLMs) ont montré un grand potentiel dans l'évaluation de la qualité des images (IQA) et l'évaluation esthétique des images (IAA). Malgré ces progrès, l'attribution efficace de scores de qualité et d'esthétique aux images UGC reste confrontée à deux défis majeurs : 1) Un score unique est insuffisant pour capturer la perception hiérarchique humaine. 2) La manière d'utiliser les MLLMs pour produire des scores numériques, tels que les scores d'opinion moyenne (MOS), reste une question ouverte. Pour relever ces défis, nous introduisons un nouveau jeu de données, nommé Realistic image Quality and Aesthetic (RealQA), comprenant 14 715 images UGC, chacune annotée avec 10 attributs granulaires. Ces attributs couvrent trois niveaux : bas niveau (par exemple, la clarté de l'image), niveau intermédiaire (par exemple, l'intégrité du sujet) et haut niveau (par exemple, la composition). En outre, nous menons une série d'investigations approfondies et complètes sur la manière de prédire efficacement des scores numériques à l'aide des MLLMs. Étonnamment, en prédisant simplement deux chiffres significatifs supplémentaires, le paradigme du prochain jeton peut atteindre des performances SOTA. De plus, avec l'aide de la chaîne de pensée (CoT) combinée aux attributs granulaires appris, la méthode proposée peut surpasser les méthodes SOTA sur cinq jeux de données publics pour l'IQA et l'IAA, avec une interprétabilité supérieure, et montre une forte généralisation zero-shot pour l'évaluation de la qualité vidéo (VQA). Le code et le jeu de données seront publiés.
Les méthodes existantes d'estimation de pose 6D pour des objets nouveaux reposent généralement sur des modèles CAO ou des vues de référence denses, qui sont tous deux difficiles à acquérir. L'utilisation d'une seule vue de référence est plus évolutive, mais présente des défis en raison des écarts de pose importants et des informations géométriques et spatiales limitées. Pour résoudre ces problèmes, nous proposons une méthode d'estimation de pose 6D basée sur une seule référence (SinRef-6D). Notre idée clé est d'établir itérativement un alignement point par point dans le système de coordonnées de la caméra en s'appuyant sur des modèles d'espace d'état (SSM). Plus précisément, l'alignement itératif point par point dans l'espace de la caméra permet de gérer efficacement les écarts de pose importants, tandis que nos SSM RGB et Points proposés capturent les dépendances à longue portée et les informations spatiales à partir d'une seule vue, offrant une complexité linéaire et une capacité de modélisation spatiale supérieure. Une fois pré-entraîné sur des données synthétiques, SinRef-6D peut estimer la pose 6D d'un objet nouveau en utilisant une seule vue de référence, sans nécessiter de réentraînement ou de modèle CAO. Des expériences approfondies sur six ensembles de données populaires et des scènes robotiques réelles démontrent que nous obtenons des performances comparables aux méthodes basées sur CAO et sur des vues de référence denses, malgré un fonctionnement dans le cadre plus difficile d'une seule référence. Le code sera disponible à l'adresse https://github.com/CNJianLiu/SinRef-6D.
Des travaux récents ont montré que, lorsqu'ils sont entraînés à grande échelle, les encodeurs uni-modaux de vision 2D et de texte convergent vers des caractéristiques apprises qui partagent des propriétés structurelles remarquables, bien qu'elles proviennent de représentations différentes. Cependant, le rôle des encodeurs 3D par rapport aux autres modalités reste inexploré. De plus, les modèles de fondation 3D existants qui exploitent de grands ensembles de données sont généralement entraînés avec des objectifs d'alignement explicites par rapport à des encodeurs figés provenant d'autres représentations. Dans ce travail, nous étudions la possibilité d'un alignement a posteriori des représentations obtenues à partir d'encodeurs uni-modaux 3D par rapport aux espaces de caractéristiques basés sur le texte. Nous montrons qu'un alignement naïf des caractéristiques après entraînement des encodeurs uni-modaux de texte et 3D donne des performances limitées. Nous nous concentrons ensuite sur l'extraction de sous-espaces des espaces de caractéristiques correspondants et découvrons qu'en projetant les représentations apprises sur des sous-espaces de dimension inférieure bien choisis, la qualité de l'alignement devient significativement plus élevée, conduisant à une amélioration de la précision sur les tâches de correspondance et de recherche. Notre analyse éclaire en outre la nature de ces sous-espaces partagés, qui séparent approximativement les représentations de données sémantiques et géométriques. Dans l'ensemble, notre travail est le premier à établir une base de référence pour l'alignement après entraînement des espaces de caractéristiques uni-modaux 3D et de texte, et met en lumière à la fois les propriétés partagées et uniques des données 3D par rapport aux autres représentations.
Pour répondre aux requêtes factuelles de type un-à-plusieurs (par exemple, lister les villes d'un pays), un modèle de langage (LM) doit simultanément rappeler des connaissances et éviter de répéter les réponses précédentes. Comment ces deux sous-tâches sont-elles implémentées et intégrées en interne ? À travers plusieurs jeux de données et modèles, nous identifions un mécanisme de promotion puis de suppression : le modèle rappelle d'abord toutes les réponses, puis supprime celles déjà générées. Plus précisément, les LMs utilisent à la fois le sujet et les tokens des réponses précédentes pour effectuer le rappel de connaissances, avec l'attention qui propage l'information du sujet et les MLPs qui promeuvent les réponses. Ensuite, l'attention se concentre sur et supprime les tokens des réponses précédentes, tandis que les MLPs amplifient le signal de suppression. Notre mécanisme est corroboré par des preuves expérimentales approfondies : en plus d'utiliser le décodage précoce et le traçage causal, nous analysons comment les composants utilisent différents tokens en introduisant à la fois Token Lens, qui décode les mises à jour agrégées de l'attention à partir de tokens spécifiés, et une méthode de knockout qui analyse les changements dans les sorties des MLPs après avoir supprimé l'attention sur des tokens spécifiés. Globalement, nous apportons de nouvelles perspectives sur la manière dont les composants internes des LMs interagissent avec différents tokens d'entrée pour soutenir le rappel complexe de faits. Le code est disponible à l'adresse suivante : https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
Dans cet article, nous présentons un nouveau cadre conçu pour reconstruire des séquences longues de mouvements humains en 3D dans les coordonnées mondiales à partir de vidéos en conditions réelles avec plusieurs transitions de plans. Ces mouvements longs en conditions réelles sont très précieux pour des applications telles que la génération de mouvements et la compréhension des mouvements, mais ils sont extrêmement difficiles à reconstruire en raison des transitions abruptes de plans, des occlusions partielles et des arrière-plans dynamiques présents dans ces vidéos. Les méthodes existantes se concentrent principalement sur des vidéos à plan unique, où la continuité est maintenue dans une seule vue de caméra, ou simplifient l'alignement multi-plans uniquement dans l'espace de la caméra. Dans ce travail, nous relevons ces défis en intégrant une estimation améliorée de la pose de la caméra avec la récupération de mouvements humains (HMR) en incorporant un détecteur de transitions de plans et un module d'alignement robuste pour assurer la continuité précise de la pose et de l'orientation entre les plans. En exploitant un intégrateur de mouvements personnalisé, nous atténuons efficacement le problème du glissement des pieds et garantissons la cohérence temporelle de la pose humaine. Des évaluations approfondies sur notre ensemble de données multi-plans créé à partir de jeux de données publics de mouvements humains en 3D démontrent la robustesse de notre méthode pour reconstruire des mouvements humains réalistes dans les coordonnées mondiales.
L'alignement des grands modèles de langage (LLMs) avec les préférences humaines est crucial pour leur déploiement en conditions réelles, mais les méthodes existantes comme le RLHF rencontrent des défis de calcul et de stabilité. Alors que le DPO établit un paradigme hors ligne avec un seul hyperparamètre beta, les méthodes ultérieures comme le SimPO réintroduisent de la complexité via des paramètres doubles (beta, gamma). Nous proposons l'Optimisation des Préférences basée sur ReLU (RePO), un algorithme simplifié qui élimine beta grâce à deux avancées : (1) la conservation des marges sans référence du SimPO mais la suppression de beta via une analyse de gradient, et (2) l'adoption d'une fonction de perte à marge maximale basée sur ReLU qui filtre naturellement les paires triviales. Théoriquement, RePO est caractérisé comme le cas limite du SimPO (beta tendant vers l'infini), où la pondération logistique se réduit à un seuillage binaire, formant une enveloppe convexe de la perte 0-1. Les résultats empiriques sur AlpacaEval 2 et Arena-Hard montrent que RePO surpasse le DPO et le SimPO sur plusieurs modèles de base, nécessitant seulement un hyperparamètre à ajuster.
Les modèles de langage multimodaux de grande taille (MLLMs) démontrent des capacités robustes en zero-shot sur une variété de tâches vision-langage après un entraînement sur des jeux de données à très grande échelle. Cependant, les tâches de prédiction dense, telles que la segmentation sémantique et la détection de points clés, posent des défis significatifs pour les MLLMs lorsqu'elles sont représentées uniquement sous forme de sorties textuelles. Parallèlement, les MLLMs actuels utilisant des embeddings latents pour le décodage des tâches visuelles montrent généralement une adaptabilité limitée à la fois à l'apprentissage multitâche et aux scénarios multi-granularité. Dans ce travail, nous présentons REF-VLM, un cadre de travail end-to-end pour l'entraînement unifié de diverses tâches de décodage visuel. Pour aborder les scénarios complexes de décodage visuel, nous introduisons le Paradigme de Référencement par Triplet (TRP), qui découple explicitement trois dimensions critiques dans les tâches de décodage visuel à travers une structure triplet : les concepts, les types de décodage et les cibles. Le TRP utilise des délimiteurs symboliques pour imposer un apprentissage de représentation structuré, améliorant ainsi la parsabilité et l'interprétabilité des sorties du modèle. De plus, nous construisons VT-Instruct, un jeu de données à grande échelle pour le suivi d'instructions visuelles, contenant plus de 100 millions d'échantillons de dialogues multimodaux couvrant 25 types de tâches. Au-delà des entrées et sorties textuelles, VT-Instruct intègre divers prompts visuels tels que des points, des boîtes, des gribouillis et des masques, et génère des sorties composées de textes et d'unités visuelles comme des boîtes, des points clés, des profondeurs et des masques. La combinaison de différents prompts visuels et unités visuelles génère une grande variété de types de tâches, élargissant considérablement l'applicabilité de REF-VLM. Les expériences qualitatives et quantitatives démontrent que notre REF-VLM surpasse d'autres MLLMs sur une variété de benchmarks standards. Le code, le jeu de données et la démo sont disponibles à l'adresse suivante : https://github.com/MacavityT/REF-VLM.
La combinaison de modèles de langage pré-entraînés (LLM) experts existants représente une voie prometteuse pour aborder de manière évolutive des tâches à grande échelle et diversifiées. Cependant, la sélection d'experts au niveau de la tâche est souvent trop grossière, car des tâches hétérogènes peuvent nécessiter des expertises différentes pour chaque instance. Pour permettre un mélange adaptatif au niveau de l'instance des LLM experts pré-entraînés, nous proposons Symbolic-MoE, un cadre Mixture-of-Experts symbolique, basé sur le texte et sans gradient. Symbolic-MoE adopte une approche fine de la sélection en mettant l'accent sur les compétences, par exemple l'algèbre en mathématiques ou la biologie moléculaire dans le raisonnement biomédical. Nous proposons une stratégie de recrutement basée sur les compétences qui sélectionne dynamiquement l'ensemble le plus pertinent de LLM experts pour diverses tâches de raisonnement en fonction de leurs points forts. Chaque expert sélectionné génère ensuite son propre raisonnement, produisant ainsi k sorties de k experts, qui sont ensuite synthétisées en une réponse finale de haute qualité par un agrégateur choisi en fonction de sa capacité à intégrer des sorties de raisonnement diverses. Nous montrons que la sélection d'experts au niveau de l'instance de Symbolic-MoE améliore considérablement les performances, mais -- lorsqu'elle est mise en œuvre de manière naïve -- peut introduire une surcharge computationnelle élevée en raison de la nécessité de charger et décharger constamment les modèles. Pour résoudre ce problème, nous mettons en œuvre une stratégie d'inférence par lots qui regroupe les instances en fonction des experts qui leur sont attribués, chargeant ainsi chaque modèle une seule fois. Cela nous permet d'intégrer 16 modèles experts sur 1 GPU avec un coût temporel comparable ou meilleur que les approches multi-agents précédentes utilisant 4 GPU. Grâce à des évaluations approfondies sur divers benchmarks (MMLU-Pro, GPQA, AIME et MedMCQA), nous démontrons que Symbolic-MoE surpasse des LLM puissants comme GPT4o-mini, ainsi que des approches multi-agents, avec une amélioration moyenne absolue de 8,15 % par rapport à la meilleure base multi-agent. De plus, Symbolic-MoE élimine le besoin de discussions multi-tours coûteuses, surpassant les bases de discussion avec moins de calculs.
Nous présentons PhiloBERTA, un modèle transformateur multilingue qui mesure les relations sémantiques entre les lexiques du grec ancien et du latin. À travers l'analyse de paires de termes sélectionnés dans des textes classiques, nous utilisons des embeddings contextuels et des métriques de similarité angulaire pour identifier des alignements sémantiques précis. Nos résultats montrent que les paires étymologiquement liées présentent des scores de similarité significativement plus élevés, en particulier pour des concepts philosophiques abstraits tels qu'epist\=em\=e (scientia) et dikaiosyn\=e (iustitia). L'analyse statistique révèle des schémas cohérents dans ces relations (p = 0,012), les paires étymologiquement liées démontrant une préservation sémantique remarquablement stable par rapport aux paires témoins. Ces résultats établissent un cadre quantitatif pour examiner comment les concepts philosophiques ont circulé entre les traditions grecque et latine, offrant de nouvelles méthodes pour la recherche philologique classique.
La préhension robotique dans des scènes contenant des objets transparents et spéculaires pose d'importants défis pour les méthodes reposant sur des informations de profondeur précises. Dans cet article, nous présentons NeuGrasp, une méthode de reconstruction de surface neuronale qui exploite des a priori de fond pour la détection de préhension indépendante du matériau. NeuGrasp intègre des transformateurs et des volumes d'a priori globaux pour agréger des caractéristiques multi-vues avec un encodage spatial, permettant une reconstruction de surface robuste dans des conditions de vision étroites et éparses. En se concentrant sur les objets au premier plan grâce à une amélioration résiduelle des caractéristiques et en affinant la perception spatiale avec un volume d'a priori d'occupation, NeuGrasp excelle dans la manipulation d'objets à surfaces transparentes et spéculaires. Des expériences approfondies dans des scénarios simulés et réels montrent que NeuGrasp surpasse les méthodes de pointe en matière de préhension tout en maintenant une qualité de reconstruction comparable. Plus de détails sont disponibles sur https://neugrasp.github.io/.
Bien que les modèles génératifs basés sur les scores soient le modèle de choix dans divers domaines, les outils disponibles pour contrôler de manière rigoureuse le comportement lors de l'inférence sont limités, par exemple pour composer plusieurs modèles préentraînés. Les méthodes existantes de guidage sans classificateur utilisent une heuristique simple pour mélanger les scores conditionnels et inconditionnels afin d'échantillonner approximativement à partir de distributions conditionnelles. Cependant, ces méthodes n'approximent pas les distributions intermédiaires, nécessitant des étapes supplémentaires de 'correction'. Dans ce travail, nous proposons une méthode efficace et rigoureuse pour échantillonner à partir d'une séquence de distributions recuitées, moyennées géométriquement ou produits, dérivées de modèles basés sur les scores préentraînés. Nous dérivons un schéma de simulation pondéré que nous appelons Correcteurs de Feynman-Kac (FKCs), basé sur la célèbre formule de Feynman-Kac, en tenant soigneusement compte des termes dans les équations aux dérivées partielles (EDP) appropriées. Pour simuler ces EDP, nous proposons des algorithmes de rééchantillonnage par Monte Carlo séquentiel (SMC) qui exploitent la mise à l'échelle lors de l'inférence pour améliorer la qualité de l'échantillonnage. Nous démontrons empiriquement l'utilité de nos méthodes en proposant un échantillonnage amorti via un recuit de température lors de l'inférence, en améliorant la génération de molécules multi-objectifs à l'aide de modèles préentraînés, et en améliorant le guidage sans classificateur pour la génération d'images à partir de texte. Notre code est disponible à l'adresse https://github.com/martaskrt/fkc-diffusion.