Articles de recherche en IA sélectionnés quotidiennement avec traductions
La modélisation d'images masquées (Masked Image Modeling, MIM) avec quantification vectorielle (Vector Quantization, VQ) a obtenu un grand succès à la fois dans le pré-entraînement auto-supervisé et dans la génération d'images. Cependant, la plupart des méthodes existantes peinent à équilibrer le compromis dans l'espace latent partagé entre la qualité de génération et l'apprentissage de représentations, ainsi que l'efficacité. Pour repousser les limites de ce paradigme, nous proposons MergeVQ, qui intègre des techniques de fusion de tokens dans des modèles génératifs basés sur VQ afin de combler l'écart entre la génération d'images et l'apprentissage de représentations visuelles dans une architecture unifiée. Durant le pré-entraînement, MergeVQ découple les sémantiques top-k de l'espace latent grâce au module de fusion de tokens après les blocs d'auto-attention dans l'encodeur, permettant une quantification sans consultation (Look-up Free Quantization, LFQ) et un alignement global, puis restaure leurs détails fins via une attention croisée dans le décodeur pour la reconstruction. Pour la génération en deuxième étape, nous introduisons MergeAR, qui effectue une compression du cache KV pour une prédiction efficace en ordre raster. Des expériences approfondies sur ImageNet confirment que MergeVQ, en tant que modèle génératif AR, atteint des performances compétitives à la fois dans les tâches d'apprentissage de représentations visuelles et de génération d'images, tout en maintenant une efficacité de tokens et une vitesse d'inférence favorables. Le code et le modèle seront disponibles à l'adresse https://apexgen-x.github.io/MergeVQ.
Les récentes avancées en synthèse d'images et de vidéos ont ouvert de nouvelles perspectives prometteuses dans les jeux génératifs. Une application particulièrement intrigante est la transformation de personnages de films d'animation en entités interactives et jouables. Cela permet aux joueurs de s'immerger dans le monde dynamique de l'animation en incarnant leurs personnages préférés pour des simulations de vie via des instructions langagières. De tels jeux sont définis comme des jeux infinis, car ils éliminent les limites prédéfinies et les règles de jeu fixes, permettant aux joueurs d'interagir avec le monde du jeu à travers un langage ouvert et de vivre des histoires et des environnements en constante évolution. Récemment, une approche pionnière pour la simulation de vie infinie dans l'animation utilise des modèles de langage de grande taille (LLMs) pour traduire des dialogues textuels multi-tours en instructions langagières pour la génération d'images. Cependant, elle néglige le contexte visuel historique, ce qui entraîne une incohérence dans le gameplay. De plus, elle ne génère que des images statiques, ne parvenant pas à intégrer la dynamique nécessaire pour une expérience de jeu captivante. Dans ce travail, nous proposons AnimeGamer, qui s'appuie sur des modèles de langage multimodaux de grande taille (MLLMs) pour générer chaque état du jeu, y compris des séquences d'animation dynamiques qui décrivent les mouvements des personnages et les mises à jour de leur état, comme illustré dans la Figure 1. Nous introduisons de nouvelles représentations multimodales sensibles à l'action pour représenter les séquences d'animation, qui peuvent être décodées en clips vidéo de haute qualité à l'aide d'un modèle de diffusion vidéo. En prenant les représentations historiques des séquences d'animation comme contexte et en prédisant les représentations suivantes, AnimeGamer peut générer des jeux avec une cohérence contextuelle et une dynamique satisfaisante. Des évaluations approfondies utilisant à la fois des métriques automatisées et des évaluations humaines démontrent qu'AnimeGamer surpasse les méthodes existantes dans divers aspects de l'expérience de jeu. Les codes et les points de contrôle sont disponibles à l'adresse https://github.com/TencentARC/AnimeGamer.
Bien que les méthodes récentes d'animation humaine basées sur l'image parviennent à synthétiser des mouvements corporels et faciaux réalistes, des lacunes critiques subsistent en matière de contrôlabilité holistique fine, d'adaptabilité multi-échelle et de cohérence temporelle à long terme, ce qui limite leur expressivité et leur robustesse. Nous proposons un cadre basé sur un transformateur de diffusion (DiT), DreamActor-M1, avec un guidage hybride pour surmonter ces limitations. Pour le guidage des mouvements, nos signaux de contrôle hybrides qui intègrent des représentations faciales implicites, des sphères de tête 3D et des squelettes corporels 3D permettent un contrôle robuste des expressions faciales et des mouvements corporels, tout en produisant des animations expressives et préservant l'identité. Pour l'adaptation à l'échelle, afin de gérer diverses poses corporelles et échelles d'image allant des portraits aux vues en pied, nous utilisons une stratégie d'entraînement progressive avec des données de résolutions et d'échelles variées. Pour le guidage de l'apparence, nous intégrons les motifs de mouvement des images séquentielles avec des références visuelles complémentaires, assurant une cohérence temporelle à long terme pour les régions non vues lors de mouvements complexes. Les expériences démontrent que notre méthode surpasse les travaux de pointe, offrant des résultats expressifs pour la génération de portraits, de bustes et de vues en pied avec une cohérence à long terme robuste. Page du projet : https://grisoon.github.io/DreamActor-M1/.
Une attention croissante a été portée sur l'amélioration des capacités de raisonnement des modèles de langage multi-modaux de grande taille (MLLMs). En tant que pierre angulaire des agents d'IA opérant dans le domaine physique, l'intelligence visuo-spatiale basée sur la vidéo (VSI) apparaît comme l'une des capacités de raisonnement les plus cruciales des MLLMs. Ce travail présente une première étude approfondie sur l'amélioration du raisonnement visuo-spatial des MLLMs via un entraînement de type R1-Zero. Techniquement, nous identifions d'abord que les capacités de raisonnement visuo-spatial des modèles Qwen2-VL de petite à moyenne taille ne peuvent être activées via des prompts en chaîne de pensée (CoT). Nous intégrons ensuite un entraînement GRPO pour améliorer le raisonnement visuo-spatial, en utilisant le jeu de données soigneusement sélectionné VSI-100k, suivant l'approche DeepSeek-R1-Zero. Au cours de l'étude, nous identifions la nécessité de maintenir la pénalité KL (même avec une faible valeur) dans GRPO. Avec seulement 120 heures de GPU, notre modèle vsGRPO-2B, affiné à partir de Qwen2-VL-2B, surpasse le modèle de base de 12,1% et dépasse GPT-4o. De plus, notre modèle vsGRPO-7B, affiné à partir de Qwen2-VL-7B, atteint des performances comparables à celles du meilleur modèle open-source, LLaVA-NeXT-Video-72B. Par ailleurs, nous comparons vsGRPO à des bases de référence d'affinage supervisé et d'optimisation directe des préférences, et observons une nette supériorité de performance. Le code et le jeu de données seront bientôt disponibles.
DeepSeek-R1-Zero a démontré que l'apprentissage par renforcement (RL) à grande échelle peut directement améliorer les capacités de raisonnement des LLMs sans nécessiter de fine-tuning supervisé. Dans ce travail, nous examinons de manière critique l'entraînement de type R1-Zero en analysant ses deux composants principaux : les modèles de base et le RL. Nous explorons une large gamme de modèles de base, y compris DeepSeek-V3-Base, pour comprendre comment les caractéristiques du pré-entraînement influencent les performances du RL. Notre analyse révèle que DeepSeek-V3-Base présente déjà un « moment Eurêka », tandis que les modèles de base Qwen2.5 démontrent de solides capacités de raisonnement même sans modèles de prompt, suggérant des biais potentiels dans le pré-entraînement. De plus, nous identifions un biais d'optimisation dans la Group Relative Policy Optimization (GRPO), qui augmente artificiellement la longueur des réponses (en particulier pour les sorties incorrectes) pendant l'entraînement. Pour remédier à cela, nous introduisons Dr. GRPO, une méthode d'optimisation non biaisée qui améliore l'efficacité des tokens tout en maintenant les performances de raisonnement. En tirant parti de ces insights, nous présentons une recette minimaliste de R1-Zero qui atteint une précision de 43,3 % sur AIME 2024 avec un modèle de base de 7B, établissant ainsi un nouvel état de l'art. Notre code est disponible à l'adresse https://github.com/sail-sg/understand-r1-zero.
La rédaction académique nécessite à la fois la génération de textes cohérents et la citation précise de la littérature pertinente. Bien que les systèmes récents de Génération Augmentée par Récupération (RAG) aient considérablement amélioré l'exactitude factuelle dans la génération de textes à usage général, leur capacité à soutenir adéquatement la rédaction académique professionnelle reste limitée. Dans ce travail, nous présentons ScholarCopilot, un cadre unifié conçu pour améliorer les modèles de langage existants afin de générer des articles académiques professionnels avec des citations précises et contextuellement pertinentes. ScholarCopilot détermine dynamiquement quand récupérer des références académiques en générant un jeton de récupération [RET], puis utilise sa représentation pour rechercher des citations pertinentes dans une base de données. Les références récupérées sont ensuite intégrées au modèle pour enrichir le processus de génération. Nous optimisons conjointement les tâches de génération et de citation dans un cadre unique pour accroître l'efficacité. Entraîné sur 500 000 articles issus d'arXiv, notre modèle atteint une précision de récupération top-1 de 40,1 % sur notre ensemble de données d'évaluation, surpassant les modèles de référence tels que E5-Mistral-7B-Instruct (15,0 %) et BM25 (9,8 %). Sur un ensemble de 1 000 échantillons de rédaction académique, ScholarCopilot obtient un score de 16,2/25 en qualité de génération (mesurée à travers la pertinence, la cohérence, la rigueur académique, l'exhaustivité et l'innovation), dépassant des modèles avec 10 fois plus de paramètres comme Qwen-2.5-72B-Instruct (15,8/25). Les études humaines confirment également la performance supérieure de ScholarCopilot en termes de rappel des citations, d'efficacité de rédaction et d'expérience utilisateur globale, validant ainsi l'efficacité de notre approche.
La reconstruction de scènes 3D à partir de vues éparses est une tâche complexe en raison de son caractère intrinsèquement mal posé. Les méthodes conventionnelles ont développé des solutions spécialisées (par exemple, la régularisation géométrique ou les modèles déterministes en feed-forward) pour atténuer ce problème. Cependant, elles souffrent toujours d'une dégradation des performances en cas de chevauchement minimal entre les vues d'entrée avec des informations visuelles insuffisantes. Heureusement, les modèles génératifs vidéo récents montrent des promesses pour relever ce défi, car ils sont capables de générer des clips vidéo avec des structures 3D plausibles. Soutenus par de grands modèles de diffusion vidéo pré-entraînés, certaines recherches pionnières commencent à explorer le potentiel du prior génératif vidéo et à créer des scènes 3D à partir de vues éparses. Malgré des améliorations impressionnantes, elles sont limitées par un temps d'inférence lent et l'absence de contraintes 3D, entraînant des inefficacités et des artefacts de reconstruction qui ne s'alignent pas avec la structure géométrique du monde réel. Dans cet article, nous proposons VideoScene pour distiller le modèle de diffusion vidéo afin de générer des scènes 3D en une seule étape, visant à construire un outil efficace et performant pour combler le fossé entre la vidéo et la 3D. Plus précisément, nous concevons une stratégie de distillation de flux de saut 3D pour sauter par-dessus les informations redondantes chronophages et entraînons un réseau de politique de débruitage dynamique pour déterminer de manière adaptative le pas de temps optimal de saut pendant l'inférence. Des expériences approfondies démontrent que notre VideoScene atteint des résultats de génération de scènes 3D plus rapides et supérieurs aux modèles de diffusion vidéo précédents, mettant en évidence son potentiel en tant qu'outil efficace pour les futures applications de conversion vidéo en 3D. Page du projet : https://hanyang-21.github.io/VideoScene
Les modèles de diffusion vidéo (VDM) ont connu des avancées significatives ces dernières années, permettant la génération de vidéos hautement réalistes et attirant l'attention de la communauté quant à leur potentiel en tant que simulateurs de mondes. Cependant, malgré leurs capacités, les VDM échouent souvent à produire des vidéos physiquement plausibles en raison d'un manque inhérent de compréhension de la physique, entraînant des dynamiques et des séquences d'événements incorrectes. Pour pallier cette limitation, nous proposons un nouveau cadre de génération image-à-vidéo en deux étapes qui intègre explicitement la physique. Dans la première étape, nous utilisons un modèle de vision et langage (VLM) comme planificateur de mouvement à gros grain, intégrant un raisonnement en chaîne de pensée et conscient de la physique pour prédire des trajectoires/changements de mouvement approximatifs qui se rapprochent des dynamiques physiques du monde réel tout en assurant la cohérence inter-images. Dans la deuxième étape, nous utilisons les trajectoires/changements de mouvement prédits pour guider la génération vidéo d'un VDM. Comme les trajectoires/changements de mouvement prédits sont approximatifs, du bruit est ajouté lors de l'inférence pour offrir une liberté au VDM dans la génération de mouvements avec des détails plus fins. Les résultats expérimentaux approfondis démontrent que notre cadre peut produire des mouvements physiquement plausibles, et les évaluations comparatives mettent en évidence la supériorité notable de notre approche par rapport aux méthodes existantes. Plus de résultats vidéo sont disponibles sur notre page de projet : https://madaoer.github.io/projects/physically_plausible_video_generation.
Nous présentons PaperBench, un benchmark évaluant la capacité des agents d'IA à reproduire des recherches de pointe en IA. Les agents doivent reproduire 20 articles Spotlight et Oral de l'ICML 2024 à partir de zéro, en comprenant les contributions des articles, en développant une base de code et en exécutant avec succès les expériences. Pour une évaluation objective, nous développons des grilles d'évaluation qui décomposent hiérarchiquement chaque tâche de reproduction en sous-tâches plus petites avec des critères de notation clairs. Au total, PaperBench contient 8 316 tâches notables individuellement. Les grilles d'évaluation sont co-développées avec les auteurs de chaque article de l'ICML pour garantir précision et réalisme. Pour permettre une évaluation scalable, nous développons également un juge basé sur un modèle de langage (LLM) pour noter automatiquement les tentatives de reproduction selon les grilles d'évaluation, et nous évaluons la performance de notre juge en créant un benchmark séparé pour les juges. Nous évaluons plusieurs modèles de pointe sur PaperBench, constatant que l'agent le plus performant testé, Claude 3.5 Sonnet (New) avec un échafaudage open-source, atteint un score moyen de reproduction de 21,0 %. Enfin, nous recrutons des doctorants en ML de haut niveau pour tenter un sous-ensemble de PaperBench, constatant que les modèles ne surpassent pas encore la référence humaine. Nous https://github.com/openai/preparedness{ouvrons notre code en source ouverte} pour faciliter les recherches futures sur la compréhension des capacités d'ingénierie IA des agents d'IA.
Nous présentons Articulated Kinematics Distillation (AKD), un cadre pour générer des animations de personnages haute fidélité en combinant les forces de l'animation basée sur un squelette et des modèles génératifs modernes. AKD utilise une représentation basée sur un squelette pour les assets 3D riggés, réduisant considérablement les degrés de liberté (DoFs) en se concentrant sur le contrôle au niveau des articulations, ce qui permet une synthèse de mouvement efficace et cohérente. Grâce à l'échantillonnage par distillation de score (SDS) avec des modèles de diffusion vidéo pré-entraînés, AKD distille des mouvements complexes et articulés tout en préservant l'intégrité structurelle, surmontant les défis rencontrés par les champs de déformation neuronaux 4D pour maintenir la cohérence des formes. Cette approche est naturellement compatible avec la simulation basée sur la physique, garantissant des interactions physiquement plausibles. Les expériences montrent qu'AKD atteint une cohérence 3D et une qualité de mouvement supérieures par rapport aux travaux existants sur la génération de texte à 4D. Page du projet : https://research.nvidia.com/labs/dir/akd/
Nous présentons ILLUME+, qui exploite une double tokenisation visuelle et un décodeur de diffusion pour améliorer à la fois la compréhension sémantique profonde et la génération d'images haute fidélité. Les modèles unifiés existants ont eu du mal à gérer simultanément les trois capacités fondamentales dans un modèle unifié : compréhension, génération et édition. Des modèles comme Chameleon et EMU3 utilisent VQGAN pour la discrétisation d'images, mais en raison du manque d'interaction sémantique profonde, ils sont à la traîne par rapport aux modèles spécialisés comme LLaVA dans les tâches de compréhension visuelle. Pour remédier à cela, LaViT et ILLUME emploient des encodeurs sémantiques pour la tokenisation, mais ils peinent à préserver les textures lors de l'édition d'images. Par ailleurs, la série Janus découple la représentation des images en entrée et en sortie, limitant ainsi leur capacité à gérer de manière fluide la compréhension et la génération intercalées d'images et de texte. En revanche, ILLUME+ introduit un tokeniseur visuel dual unifié, DualViTok, qui préserve à la fois les textures fines et la sémantique alignée sur le texte, tout en permettant une stratégie de représentation d'images du grossier au fin pour la compréhension et la génération multimodales. De plus, nous utilisons un modèle de diffusion comme détokeniseur d'images pour améliorer la qualité de génération et permettre une super-résolution efficace. ILLUME+ suit un schéma d'entrée continue et de sortie discrète au sein du MLLM unifié et adopte une procédure d'entraînement progressive qui supporte une résolution dynamique à travers le tokeniseur visuel, le MLLM et le décodeur de diffusion. Cette conception permet une édition et une génération d'images flexibles et efficaces, adaptées au contexte, pour diverses tâches. ILLUME+ (3B) démontre des performances compétitives par rapport aux MLLMs unifiés existants et aux modèles spécialisés sur des benchmarks de compréhension, génération et édition multimodales. Avec ses performances solides, ILLUME+ fournit une base scalable et polyvalente pour les futures applications multimodales. Page du projet : https://illume-unified-mllm.github.io/.
La génération d'images humaines de haute qualité grâce aux méthodes de texte-à-image (T2I) constitue une tâche importante mais complexe. Contrairement à la génération d'images générales, la synthèse d'images humaines doit répondre à des critères stricts concernant la pose, l'anatomie et l'alignement avec les descriptions textuelles, ce qui rend particulièrement difficile l'obtention de résultats réalistes. Les récents progrès dans la génération T2I basée sur les modèles de diffusion montrent des résultats prometteurs, mais des défis subsistent pour répondre aux préférences spécifiques aux images humaines. Dans cet article, nous présentons une nouvelle approche spécialement conçue pour la génération d'images humaines en utilisant l'Optimisation Directe des Préférences (DPO). Plus précisément, nous introduisons une méthode efficace pour construire un ensemble de données DPO spécialisé afin d'entraîner des modèles de génération d'images humaines sans nécessiter de retours humains coûteux. Nous proposons également une fonction de perte modifiée qui améliore le processus d'entraînement DPO en minimisant les artefacts et en augmentant la fidélité des images. Notre méthode démontre sa polyvalence et son efficacité dans la génération d'images humaines, y compris la génération personnalisée de texte-à-image. Grâce à des évaluations approfondies, nous montrons que notre approche fait progresser de manière significative l'état de l'art en matière de génération d'images humaines, obtenant des résultats supérieurs en termes d'anatomies naturelles, de poses et d'alignement texte-image.
Les modèles vision-langage (VLMs) étendent les capacités des grands modèles de langage (LLMs) en intégrant des informations visuelles, mais ils restent vulnérables aux attaques de contournement, en particulier lors du traitement d'images bruitées ou corrompues. Bien que les VLMs existants adoptent des mesures de sécurité pendant l'entraînement pour atténuer de telles attaques, les vulnérabilités associées aux entrées visuelles augmentées par du bruit sont négligées. Dans ce travail, nous identifions que l'absence d'entraînement avec augmentation de bruit crée des lacunes critiques en matière de sécurité : de nombreux VLMs sont sensibles à des perturbations simples, comme le bruit gaussien. Pour relever ce défi, nous proposons Robust-VLGuard, un ensemble de données de sécurité multimodale avec des paires image-texte alignées / non alignées, combiné à un affinage avec augmentation de bruit qui réduit les taux de réussite des attaques tout en préservant la fonctionnalité du VLM. Pour les attaques par perturbation visuelle basées sur l'optimisation, nous proposons DiffPure-VLM, exploitant les modèles de diffusion pour convertir les perturbations adverses en un bruit de type gaussien, qui peut être défendu par les VLMs avec un affinage de sécurité augmenté par du bruit. Les résultats expérimentaux montrent que la propriété de décalage de distribution du modèle de diffusion s'aligne bien avec nos VLMs affinés, atténuant significativement les perturbations adverses à différentes intensités. L'ensemble de données et le code sont disponibles à l'adresse https://github.com/JarvisUSTC/DiffPure-RobustVLM.
Bien que les modèles récents de synthèse vocale (TTS) zero-shot aient considérablement amélioré la qualité et l'expressivité de la parole, les systèmes dominants continuent de souffrir de problèmes liés à la modélisation de l'alignement parole-texte : 1) les modèles sans modélisation explicite de l'alignement parole-texte présentent une robustesse moindre, en particulier pour les phrases complexes dans les applications pratiques ; 2) les modèles basés sur des alignements prédéfinis sont limités par les contraintes de naturel imposées par les alignements forcés. Cet article présente MegaTTS 3, un système TTS doté d'un algorithme innovant d'alignement parcimonieux qui guide le transformateur de diffusion latente (DiT). Plus précisément, nous fournissons des limites d'alignement parcimonieuses à MegaTTS 3 pour réduire la difficulté de l'alignement sans limiter l'espace de recherche, permettant ainsi d'atteindre un haut niveau de naturel. De plus, nous utilisons une stratégie de guidage sans classifieur multi-condition pour ajuster l'intensité de l'accent et adoptons la technique de flux rectifié par morceaux pour accélérer le processus de génération. Les expériences montrent que MegaTTS 3 atteint une qualité de parole zero-shot TTS de pointe et permet un contrôle très flexible de l'intensité de l'accent. Notamment, notre système peut générer une parole de haute qualité d'une minute avec seulement 8 étapes d'échantillonnage. Des échantillons audio sont disponibles à l'adresse https://sditdemo.github.io/sditdemo/.
Les modèles vision-langage (VLMs) sont sujets à des hallucinations d'objets, où ils indiquent à tort la présence de certains objets dans une image. Les benchmarks existants quantifient ces hallucinations en utilisant des ensembles de données étiquetés relativement petits. Cependant, cette approche est i) insuffisante pour évaluer les hallucinations qui surviennent dans des contextes en monde ouvert, où les VLMs sont largement utilisés, et ii) inadéquate pour détecter les erreurs systématiques dans les VLMs. Nous proposons DASH (Detection and Assessment of Systematic Hallucinations), un pipeline automatique et à grande échelle conçu pour identifier les hallucinations systématiques des VLMs sur des images du monde réel dans un contexte en monde ouvert. Un composant clé est DASH-OPT pour la récupération d'images basée sur l'image, où nous optimisons sur la « variété des images naturelles » pour générer des images qui induisent en erreur le VLM. Le résultat de DASH consiste en des clusters d'images réelles et sémantiquement similaires pour lesquelles le VLM hallucine un objet. Nous appliquons DASH à PaliGemma et à deux modèles LLaVA-NeXT à travers 380 classes d'objets et, au total, trouvons plus de 19k clusters avec 950k images. Nous étudions le transfert des hallucinations systématiques identifiées à d'autres VLMs et montrons que le fine-tuning de PaliGemma avec les images spécifiques au modèle obtenues avec DASH atténue les hallucinations d'objets. Le code et les données sont disponibles à l'adresse https://YanNeu.github.io/DASH.
Les architectures de réseaux de vision, incluant les réseaux de neurones convolutifs et les Vision Transformers, ont considérablement fait progresser le domaine de la vision par ordinateur. Cependant, leurs calculs complexes posent des défis pour les déploiements pratiques, en particulier dans les applications en temps réel. Pour résoudre ce problème, les chercheurs ont exploré diverses conceptions de réseaux légers et efficaces. Néanmoins, les modèles légers existants exploitent principalement des mécanismes d'auto-attention et des convolutions pour le mélange de tokens. Cette dépendance entraîne des limitations en termes d'efficacité et de performance dans les processus de perception et d'agrégation des réseaux légers, compromettant l'équilibre entre performance et efficacité sous des budgets de calcul limités. Dans cet article, nous nous inspirons de la capacité visuelle hétéroscale dynamique inhérente au système visuel humain efficace et proposons une stratégie « Voir Large, Se Concentrer sur le Petit » pour la conception de réseaux de vision légers. Nous introduisons la convolution LS (Large-Small), qui combine la perception à noyau large et l'agrégation à noyau petit. Elle permet de capturer efficacement une large gamme d'informations perceptuelles et d'atteindre une agrégation précise des caractéristiques pour des représentations visuelles dynamiques et complexes, permettant ainsi un traitement compétent de l'information visuelle. Basée sur la convolution LS, nous présentons LSNet, une nouvelle famille de modèles légers. Des expériences approfondies démontrent que LSNet atteint des performances et une efficacité supérieures par rapport aux réseaux légers existants dans diverses tâches de vision. Les codes et modèles sont disponibles à l'adresse https://github.com/jameslahm/lsnet.
Les modèles d'espace d'états (SSMs) émergent comme une alternative convaincante aux Transformers en raison de leur utilisation de mémoire constante et de leurs performances élevées. Cependant, leur déploiement à grande échelle sur des services cloud ou des appareils à ressources limitées est difficile en raison de leurs exigences en matière de stockage et de puissance de calcul. Pour surmonter cela, la quantification des SSMs avec des formats de données à faible largeur de bits peut réduire la taille du modèle et bénéficier de l'accélération matérielle. Étant donné que les SSMs sont sensibles aux erreurs induites par la quantification, des efforts récents se sont concentrés sur l'optimisation d'un modèle ou d'une largeur de bits spécifique pour l'efficacité sans sacrifier les performances. Cependant, des configurations de largeur de bits distinctes sont essentielles pour différents scénarios, comme W4A8 pour augmenter la vitesse de décodage en grands lots, et W4A16 pour améliorer la vitesse de génération dans des applications à court prompt pour un seul utilisateur. À cette fin, nous présentons Quamba2, compatible avec W8A8, W4A8 et W4A16 pour les architectures Mamba1 et Mamba2, répondant à la demande croissante de déploiement de SSMs sur diverses plateformes. En nous basant sur la préservation de l'ordre des canaux et la persistance de l'activation des SSMs, nous proposons une approche hors ligne pour quantifier les entrées d'une récurrence linéaire en 8 bits par tri et regroupement pour l'entrée x, combinée avec une quantification par groupe d'états pour les paramètres dépendants de l'entrée B et C. Pour garantir l'invariance de calcul dans la sortie du SSM, nous réorganisons les poids hors ligne selon la séquence de regroupement. Les expériences montrent que Quamba2-8B surpasse plusieurs méthodes de quantification de SSM de pointe et offre des accélérations de 1,3 fois et 3 fois respectivement dans les étapes de pré-remplissage et de génération, tout en offrant une réduction de mémoire de 4 fois avec seulement une baisse de précision moyenne de 1,6 %. L'évaluation sur MMLU démontre la généralisabilité et la robustesse de notre cadre. Le code et les modèles quantifiés seront publiés à l'adresse : https://github.com/enyac-group/Quamba.
Les grands modèles de langage démontrent des capacités de raisonnement remarquables, mais produisent souvent des réponses peu fiables ou incorrectes. Les méthodes de vérification existantes sont généralement spécifiques à un modèle ou restreintes à un domaine, nécessitant des ressources computationnelles importantes et manquant de scalabilité pour des tâches de raisonnement variées. Pour pallier ces limitations, nous proposons VerifiAgent, un agent de vérification unifié qui intègre deux niveaux de vérification : la méta-vérification, qui évalue l'exhaustivité et la cohérence des réponses du modèle, et la vérification adaptative basée sur des outils, où VerifiAgent sélectionne de manière autonome les outils de vérification appropriés en fonction du type de raisonnement, qu'il soit mathématique, logique ou de bon sens. Cette approche adaptative garantit à la fois efficacité et robustesse dans différents scénarios de vérification. Les résultats expérimentaux montrent que VerifiAgent surpasse les méthodes de vérification de référence (par exemple, le vérificateur déductif, le vérificateur rétrograde) dans toutes les tâches de raisonnement. De plus, il peut encore améliorer la précision du raisonnement en exploitant les retours des résultats de vérification. VerifiAgent peut également être appliqué efficacement à la mise à l'échelle de l'inférence, obtenant de meilleurs résultats avec moins d'échantillons générés et à moindre coût par rapport aux modèles de récompense de processus existants dans le domaine du raisonnement mathématique. Le code est disponible à l'adresse suivante : https://github.com/Jiuzhouh/VerifiAgent
Diverses méthodes de saut de couches ont été proposées pour accélérer la génération de tokens dans les grands modèles de langage (LLM). Cependant, elles ont négligé une question fondamentale : Comment les exigences computationnelles varient-elles selon les tokens générés ? Dans ce travail, nous présentons FlexiDepth, une méthode qui ajuste dynamiquement le nombre de couches Transformer utilisées lors de la génération de texte. En intégrant un routeur et un adaptateur plug-in, FlexiDepth permet un saut de couches adaptatif dans les LLM sans modifier leurs paramètres originaux. L'introduction de FlexiDepth au modèle Llama-3-8B permet de sauter 8 couches sur 32, tout en maintenant une performance de référence de 100 %. Les résultats expérimentaux avec FlexiDepth montrent que les exigences computationnelles dans les LLM varient considérablement selon le type de token. Plus précisément, la génération de tokens répétitifs ou de phrases fixes nécessite moins de couches, tandis que la production de tokens impliquant des calculs ou une incertitude élevée en nécessite davantage. Fait intéressant, ce modèle d'allocation adaptative correspond à l'intuition humaine. Pour faire avancer la recherche dans ce domaine, nous avons rendu FlexiDepth open source ainsi qu'un ensemble de données documentant les schémas d'allocation de couches de FlexiDepth pour une exploration future.
Nous présentons un modèle de diffusion vidéo conscient de la cible qui génère des vidéos à partir d'une image d'entrée dans laquelle un acteur interagit avec une cible spécifiée tout en effectuant une action souhaitée. La cible est définie par un masque de segmentation et l'action souhaitée est décrite via une invite textuelle. Contrairement aux modèles de diffusion image-à-vidéo contrôlables existants qui reposent souvent sur des indices structurels ou de mouvement denses pour guider les mouvements de l'acteur vers la cible, notre modèle conscient de la cible ne nécessite qu'un simple masque pour indiquer la cible, exploitant les capacités de généralisation des modèles pré-entraînés pour produire des actions plausibles. Cela rend notre méthode particulièrement efficace pour les scénarios d'interaction humain-objet (HOI), où fournir un guidage d'action précis est difficile, et permet en outre l'utilisation de modèles de diffusion vidéo pour la planification d'actions de haut niveau dans des applications telles que la robotique. Nous construisons notre modèle conscient de la cible en étendant un modèle de base pour incorporer le masque de cible comme entrée supplémentaire. Pour renforcer la conscience de la cible, nous introduisons un jeton spécial qui encode les informations spatiales de la cible dans l'invite textuelle. Nous affinons ensuite le modèle avec notre jeu de données soigneusement sélectionné en utilisant une nouvelle perte d'attention croisée qui aligne les cartes d'attention croisée associées à ce jeton avec le masque de cible d'entrée. Pour améliorer encore les performances, nous appliquons sélectivement cette perte aux blocs de transformateurs et aux régions d'attention les plus pertinents sur le plan sémantique. Les résultats expérimentaux montrent que notre modèle conscient de la cible surpasse les solutions existantes dans la génération de vidéos où les acteurs interagissent avec précision avec les cibles spécifiées. Nous démontrons en outre son efficacité dans deux applications en aval : la création de contenu vidéo et la synthèse de mouvement 3D HOI en zero-shot.
Les recherches antérieures sur la détection hors distribution (OoDD) se sont principalement concentrées sur des modèles unimodaux. Récemment, avec l'avènement de modèles vision-langage pré-entraînés à grande échelle tels que CLIP, des méthodes OoDD exploitant ces représentations multimodales à travers des stratégies d'apprentissage zero-shot et par prompts ont émergé. Cependant, ces méthodes impliquent généralement soit de figer les poids pré-entraînés, soit de ne les ajuster que partiellement, ce qui peut être sous-optimal pour les ensembles de données en aval. Dans cet article, nous soulignons que le fine-tuning multimodal (MMFT) peut atteindre des performances notables en OoDD. Bien que certains travaux récents aient démontré l'impact des méthodes de fine-tuning pour l'OoDD, il reste un potentiel significatif d'amélioration des performances. Nous étudions les limites des méthodes de fine-tuning naïves, en examinant pourquoi elles ne parviennent pas à exploiter pleinement les connaissances pré-entraînées. Notre analyse empirique suggère que ce problème pourrait provenir de l'écart modal au sein des embeddings en distribution (ID). Pour y remédier, nous proposons un objectif d'entraînement qui améliore l'alignement intermodal en régularisant les distances entre les embeddings d'images et de textes des données ID. Cet ajustement permet de mieux exploiter les informations textuelles pré-entraînées en alignant plus étroitement les sémantiques similaires provenant de différentes modalités (c'est-à-dire le texte et l'image) dans l'espace de représentation hypersphérique. Nous démontrons théoriquement que la régularisation proposée correspond à l'estimation du maximum de vraisemblance d'un modèle basé sur l'énergie sur une hypersphère. En utilisant les ensembles de données de référence OoD d'ImageNet-1k, nous montrons que notre méthode, combinée à des approches OoDD post-hoc exploitant les connaissances pré-entraînées (par exemple, NegLabel), surpasse significativement les méthodes existantes, atteignant des performances OoDD de pointe et une précision ID leader.
Les grands modèles de langage (LLM) ont le potentiel de transformer la médecine, mais les scénarios cliniques réels contiennent des informations superflues qui peuvent nuire à leurs performances. L'émergence de technologies d'assistance comme la dictation ambiante, qui génère automatiquement des notes préliminaires à partir des interactions en direct avec les patients, risque d'introduire un bruit supplémentaire, rendant cruciale l'évaluation de la capacité des LLM à filtrer les données pertinentes. Pour étudier cela, nous avons développé MedDistractQA, un benchmark utilisant des questions de style USMLE intégrant des distractions simulées issues du monde réel. Nos résultats montrent que les déclarations distrayantes (mots polysémiques ayant des significations cliniques utilisés dans un contexte non clinique ou des références à des problèmes de santé non liés) peuvent réduire la précision des LLM jusqu'à 17,9 %. Les solutions couramment proposées pour améliorer les performances des modèles, telles que la génération augmentée par récupération (RAG) et l'affinage médical, n'ont pas modifié cet effet et, dans certains cas, ont introduit leurs propres facteurs de confusion, dégradant encore davantage les performances. Nos résultats suggèrent que les LLM manquent intrinsèquement des mécanismes logiques nécessaires pour distinguer les informations cliniques pertinentes des informations non pertinentes, posant des défis pour les applications réelles. MedDistractQA et nos résultats mettent en évidence la nécessité de stratégies de mitigation robustes pour renforcer la résilience des LLM face aux informations superflues.