Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des données d'instruction de haute qualité sont essentielles pour aligner les grands modèles de langage (LLM). Bien que certains modèles, comme Llama-3-Instruct, aient des poids ouverts, leurs données d'alignement restent privées, ce qui entrave la démocratisation de l'IA. Les coûts élevés en main-d'œuvre humaine et un champ d'incitation limité et prédéfini empêchent les méthodes existantes de création de données open source de s'étendre efficacement, limitant potentiellement la diversité et la qualité des ensembles de données d'alignement publics. Est-il possible de synthétiser des données d'instruction de haute qualité à grande échelle en les extrayant directement d'un LLM aligné ? Nous présentons une méthode d'auto-synthèse pour générer des données d'alignement à grande échelle, nommée Magpie. Notre observation clé est que les LLM alignés comme Llama-3-Instruct peuvent générer une requête utilisateur lorsque nous entrons uniquement les modèles de gauche jusqu'à la position réservée aux messages utilisateur, grâce à leur nature auto-régressive. Nous utilisons cette méthode pour inciter Llama-3-Instruct et générer 4 millions d'instructions ainsi que leurs réponses correspondantes. Nous effectuons une analyse approfondie des données extraites et sélectionnons 300 000 instances de haute qualité. Pour comparer les données de Magpie avec d'autres ensembles de données d'instruction publics, nous affinons Llama-3-8B-Base avec chaque ensemble de données et évaluons les performances des modèles affinés. Nos résultats indiquent que dans certaines tâches, les modèles affinés avec Magpie performent de manière comparable au Llama-3-8B-Instruct officiel, bien que ce dernier ait été amélioré avec 10 millions de points de données grâce à un affinage supervisé (SFT) et un apprentissage par feedback ultérieur. Nous montrons également que l'utilisation de Magpie uniquement pour le SFT peut surpasser les performances des ensembles de données publics précédents utilisés à la fois pour le SFT et l'optimisation des préférences, comme l'optimisation directe des préférences avec UltraFeedback. Cet avantage est évident sur les benchmarks d'alignement tels qu'AlpacaEval, ArenaHard et WildBench.
Nous proposons un cadre de montage vidéo, NaRCan, qui intègre un champ de déformation hybride et un a priori de diffusion pour générer des images canoniques naturelles de haute qualité représentant la vidéo d'entrée. Notre approche utilise l'homographie pour modéliser le mouvement global et emploie des perceptrons multicouches (MLPs) pour capturer les déformations résiduelles locales, améliorant ainsi la capacité du modèle à gérer les dynamiques vidéo complexes. En introduisant un a priori de diffusion dès les premières étapes de l'entraînement, notre modèle garantit que les images générées conservent une apparence naturelle de haute qualité, rendant les images canoniques produites adaptées à diverses tâches de montage vidéo en aval, une capacité non atteinte par les méthodes canoniques actuelles. De plus, nous intégrons un réglage fin par adaptation de bas rang (LoRA) et introduisons une technique de planification de mise à jour du bruit et de l'a priori de diffusion qui accélère le processus d'entraînement par un facteur de 14. Les résultats expérimentaux approfondis montrent que notre méthode surpasse les approches existantes dans diverses tâches de montage vidéo et produit des séquences vidéo éditées cohérentes et de haute qualité. Consultez notre page de projet pour les résultats vidéo à l'adresse https://koi953215.github.io/NaRCan_page/.
Les paires image-texte extraites du web sont intrinsèquement bruitées. Des études antérieures démontrent que l'alignement sémantique et l'enrichissement des descriptions textuelles de ces paires peuvent considérablement améliorer l'entraînement des modèles pour diverses tâches de vision et langage, en particulier la génération d'images à partir de texte. Cependant, les investigations à grande échelle dans ce domaine restent majoritairement fermées. Notre article vise à combler cet effort communautaire en exploitant le puissant et open-source LLaMA-3, un modèle de langage de niveau GPT-4. Notre pipeline de recaptioning est simple : nous commençons par affiner un LLaVA-1.5 alimenté par LLaMA-3-8B, puis l'utilisons pour recapturer 1,3 milliard d'images du jeu de données DataComp-1B. Nos résultats empiriques confirment que ce jeu de données amélioré, Recap-DataComp-1B, offre des avantages substantiels pour l'entraînement de modèles avancés de vision et langage. Pour les modèles discriminatifs comme CLIP, nous observons une amélioration des performances en zero-shot pour les tâches de recherche cross-modale. Pour les modèles génératifs comme les Transformers de diffusion texte-image, les images générées montrent une amélioration significative dans l'alignement avec les instructions textuelles des utilisateurs, en particulier pour les requêtes complexes. Notre page de projet est disponible à l'adresse suivante : https://www.haqtu.me/Recap-Datacomp-1B/
La génération contrôlée de vidéos à partir de texte basée sur le mouvement implique l'utilisation de mouvements pour contrôler la génération vidéo. Les méthodes précédentes nécessitent généralement l'entraînement de modèles pour encoder les indices de mouvement ou le réglage fin de modèles de diffusion vidéo. Cependant, ces approches aboutissent souvent à une génération de mouvement sous-optimale lorsqu'elles sont appliquées en dehors du domaine d'entraînement. Dans ce travail, nous proposons MotionClone, un cadre sans entraînement qui permet le clonage de mouvement à partir d'une vidéo de référence pour contrôler la génération de vidéos à partir de texte. Nous utilisons l'attention temporelle dans l'inversion vidéo pour représenter les mouvements de la vidéo de référence et introduisons un guidage primaire par attention temporelle pour atténuer l'influence des mouvements bruyants ou très subtils dans les poids d'attention. De plus, pour aider le modèle de génération à synthétiser des relations spatiales raisonnables et améliorer sa capacité à suivre les instructions, nous proposons un mécanisme de guidage sémantique sensible à la localisation qui exploite la localisation approximative du premier plan dans la vidéo de référence et les caractéristiques originales de guidage sans classifieur pour orienter la génération vidéo. Des expériences approfondies démontrent que MotionClone excelle à la fois dans les mouvements globaux de la caméra et les mouvements locaux des objets, avec une supériorité notable en termes de fidélité du mouvement, d'alignement textuel et de cohérence temporelle.
Ces dernières années, les modèles de génération 3D ont connu un développement rapide, ouvrant de nouvelles possibilités pour des applications telles que la simulation des mouvements dynamiques d'objets 3D et la personnalisation de leurs comportements. Cependant, les modèles génératifs 3D actuels ont tendance à se concentrer uniquement sur des caractéristiques de surface telles que la couleur et la forme, négligeant les propriétés physiques intrinsèques qui régissent le comportement des objets dans le monde réel. Pour simuler avec précision des dynamiques alignées sur la physique, il est essentiel de prédire les propriétés physiques des matériaux et de les intégrer dans le processus de prédiction des comportements. Néanmoins, prédire la diversité des matériaux des objets du monde réel reste un défi en raison de la complexité de leurs attributs physiques. Dans cet article, nous proposons Physics3D, une méthode novatrice pour apprendre diverses propriétés physiques d'objets 3D à travers un modèle de diffusion vidéo. Notre approche consiste à concevoir un système de simulation physique hautement généralisable basé sur un modèle de matériau viscoélastique, ce qui nous permet de simuler une large gamme de matériaux avec des capacités de haute fidélité. De plus, nous distillons les connaissances physiques préalables à partir d'un modèle de diffusion vidéo qui contient une meilleure compréhension des matériaux réalistes des objets. Des expériences approfondies démontrent l'efficacité de notre méthode avec des matériaux à la fois élastiques et plastiques. Physics3D montre un grand potentiel pour combler le fossé entre le monde physique et l'espace neuronal virtuel, offrant une meilleure intégration et application des principes physiques réalistes dans les environnements virtuels. Page du projet : https://liuff19.github.io/Physics3D.
Cet article présente PowerInfer-2, un cadre conçu pour l'inférence rapide de modèles de langage de grande taille (LLM) sur les smartphones, particulièrement efficace pour les modèles dont la taille dépasse la capacité mémoire de l'appareil. L'idée clé de PowerInfer-2 est d'exploiter les ressources hétérogènes de calcul, de mémoire et d'E/S des smartphones en décomposant les calculs matriciels traditionnels en calculs granulaires par clusters de neurones. Plus précisément, PowerInfer-2 intègre un moteur de neurones polymorphe qui adapte les stratégies de calcul pour les différentes étapes de l'inférence des LLM. De plus, il introduit un cache segmenté des neurones et un pipelining granulaire au niveau des clusters de neurones, ce qui minimise et masque efficacement les surcharges causées par les opérations d'E/S. L'implémentation et l'évaluation de PowerInfer-2 démontrent sa capacité à prendre en charge une large gamme de modèles LLM sur deux smartphones, atteignant une accélération allant jusqu'à 29,2 fois par rapport aux cadres les plus avancés. Notamment, PowerInfer-2 est le premier système à servir le modèle TurboSparse-Mixtral-47B avec un taux de génération de 11,68 tokens par seconde sur un smartphone. Pour les modèles qui tiennent entièrement en mémoire, PowerInfer-2 peut réduire l'utilisation de la mémoire d'environ 40 % tout en maintenant des vitesses d'inférence comparables à llama.cpp et MLC-LLM. Pour plus de détails, y compris une vidéo de démonstration, veuillez visiter le site du projet à l'adresse www.powerinfer.ai/v2.
Peut-être pas. Nous identifions et analysons les erreurs dans le benchmark populaire Massive Multitask Language Understanding (MMLU). Bien que MMLU soit largement adopté, notre analyse révèle de nombreuses erreurs dans les réponses de référence, ce qui obscurcit les véritables capacités des LLM. Par exemple, nous constatons que 57 % des questions analysées dans le sous-ensemble de Virologie contiennent des erreurs. Pour résoudre ce problème, nous introduisons un cadre complet pour identifier les erreurs dans les ensembles de données en utilisant une nouvelle taxonomie des erreurs. Ensuite, nous créons MMLU-Redux, un sous-ensemble de 3 000 questions réannotées manuellement couvrant 30 sujets de MMLU. En utilisant MMLU-Redux, nous démontrons des écarts significatifs par rapport aux métriques de performance des modèles initialement rapportées. Nos résultats plaident fortement pour une révision des questions erronées de MMLU afin d'améliorer son utilité et sa fiabilité futures en tant que benchmark. Par conséquent, nous ouvrons MMLU-Redux pour des annotations supplémentaires : https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
Dans cet article, nous présentons VideoLLaMA 2, un ensemble de modèles de langage de grande taille pour la vidéo (Video-LLMs) conçus pour améliorer la modélisation spatio-temporelle et la compréhension audio dans les tâches orientées vidéo et audio. S'appuyant sur son prédécesseur, VideoLLaMA 2 intègre un connecteur de convolution spatio-temporelle (STC) sur mesure, qui capture efficacement les dynamiques spatiales et temporelles complexes des données vidéo. De plus, nous intégrons une branche audio dans le modèle grâce à un apprentissage conjoint, enrichissant ainsi les capacités de compréhension multimodale du modèle en incorporant de manière fluide les indices audio. Des évaluations approfondies sur des tâches de questions-réponses à choix multiples sur vidéo (MC-VQA), de questions-réponses ouvertes sur vidéo (OE-VQA) et de description de vidéo (VC) démontrent que VideoLLaMA 2 obtient systématiquement des résultats compétitifs parmi les modèles open-source et se rapproche même de certains modèles propriétaires sur plusieurs benchmarks. Par ailleurs, VideoLLaMA 2 montre des améliorations notables sur les benchmarks de questions-réponses audio uniquement et audio-vidéo (AQA & OE-AVQA) par rapport aux modèles existants. Ces avancées soulignent la performance supérieure de VideoLLaMA 2 en matière de compréhension multimodale, établissant ainsi une nouvelle référence pour les systèmes d'analyse vidéo intelligents. Tous les modèles sont rendus publics pour faciliter les recherches ultérieures.
L'intégration du langage et de la perception 3D est cruciale pour le développement d'agents incarnés et de robots capables de comprendre et d'interagir avec le monde physique. Bien que les grands modèles de langage (LLMs) aient démontré des capacités impressionnantes en compréhension et génération de langage, leur adaptation aux environnements 3D (3D-LLMs) en est encore à ses débuts. Un défi majeur réside dans l'absence de jeux de données à grande échelle fournissant un ancrage dense entre le langage et les scènes 3D. Dans cet article, nous présentons 3D-GRAND, un jeu de données pionnier à grande échelle comprenant 40 087 scènes domestiques associées à 6,2 millions d'instructions langagières ancrées de manière dense. Nos résultats montrent que l'ajustement par instruction avec 3D-GRAND améliore significativement les capacités d'ancrage et réduit les hallucinations dans les 3D-LLMs. Dans le cadre de nos contributions, nous proposons un benchmark complet, 3D-POPE, pour évaluer systématiquement les hallucinations dans les 3D-LLMs, permettant des comparaisons équitables entre les futurs modèles. Nos expériences mettent en évidence un effet d'échelle entre la taille du jeu de données et la performance des 3D-LLMs, soulignant le rôle critique des jeux de données texte-3D à grande échelle dans l'avancement de la recherche en IA incarnée. Notamment, nos résultats montrent des signaux précoces de transfert efficace du simulé au réel, indiquant que les modèles entraînés sur de grandes quantités de données synthétiques peuvent bien performer sur des scans 3D du monde réel. À travers 3D-GRAND et 3D-POPE, nous visons à fournir à la communauté de l'IA incarnée des ressources et des insights essentiels, posant les bases pour des 3D-LLMs plus fiables et mieux ancrés. Site du projet : https://3d-grand.github.io
Les modèles de langage multimodaux (MLLMs) démontrent les capacités émergentes des "modèles du monde" — interprétant et raisonnant sur les dynamiques complexes du monde réel. Pour évaluer ces capacités, nous considérons que les vidéos constituent le support idéal, car elles encapsulent des représentations riches des dynamiques et causalités du monde réel. Dans cette optique, nous introduisons MMWorld, un nouveau benchmark pour la compréhension multimodale et multifacette de vidéos multidisciplinaires. MMWorld se distingue des précédents benchmarks de compréhension vidéo par deux avantages uniques : (1) multidisciplinarité, couvrant diverses disciplines qui nécessitent souvent une expertise spécifique pour une compréhension approfondie ; (2) raisonnement multifacette, incluant l'explication, la pensée contrefactuelle, la prédiction future, etc. MMWorld comprend un ensemble de données annotées manuellement pour évaluer les MLLMs avec des questions portant sur des vidéos entières, ainsi qu'un ensemble de données synthétiques pour analyser les MLLMs dans une seule modalité de perception. Ensemble, MMWorld englobe 1 910 vidéos couvrant sept grandes disciplines et 69 sous-disciplines, accompagnées de 6 627 paires question-réponse et de légendes associées. L'évaluation inclut 2 MLLMs propriétaires et 10 open-source, qui peinent sur MMWorld (par exemple, GPT-4V obtient la meilleure performance avec seulement 52,3 % de précision), montrant une marge d'amélioration significative. Des études d'ablation supplémentaires révèlent d'autres résultats intéressants, tels que les différences de compétences entre les modèles et les humains. Nous espérons que MMWorld pourra servir d'étape essentielle vers l'évaluation des modèles du monde dans les vidéos.
Exploiter la parcimonie des activations est une approche prometteuse pour accélérer significativement le processus d'inférence des grands modèles de langage (LLMs) sans compromettre leurs performances. Cependant, la parcimonie des activations est déterminée par les fonctions d'activation, et celles couramment utilisées comme SwiGLU et GeGLU présentent une parcimonie limitée. Remplacer simplement ces fonctions par ReLU ne permet pas d'atteindre une parcimonie suffisante. De plus, des données d'entraînement inadéquates peuvent augmenter le risque de dégradation des performances. Pour relever ces défis, nous proposons une nouvelle fonction dReLU, conçue pour améliorer la parcimonie des activations des LLMs, ainsi qu'un ratio de mélange de données d'entraînement de haute qualité pour faciliter une sparsification efficace. Par ailleurs, nous exploitons les motifs d'activation parcimonieux au sein des experts du réseau feed-forward (FFN) des modèles Mixture-of-Experts (MoE) pour accroître encore l'efficacité. En appliquant notre méthode de sparsification neuronale aux modèles Mistral et Mixtral, seulement 2,5 milliards et 4,3 milliards de paramètres sont activés par itération d'inférence, respectivement, tout en obtenant des performances de modèle encore plus puissantes. Les résultats d'évaluation montrent que cette parcimonie permet une accélération du décodage de 2 à 5 fois. De manière remarquable, sur les téléphones mobiles, notre TurboSparse-Mixtral-47B atteint une vitesse d'inférence de 11 tokens par seconde. Nos modèles sont disponibles à l'adresse https://huggingface.co/PowerInfer.
Récemment, l'application des modèles modernes de génération d'images à partir de texte basés sur la diffusion pour la création de polices artistiques, traditionnellement réservée aux designers professionnels, a suscité un intérêt considérable. Contrairement à la majorité des études existantes qui se concentrent sur la génération de typographies artistiques, notre recherche vise à relever un défi nouveau et plus exigeant : la génération d'effets de texte pour des polices multilingues. Cette tâche nécessite essentiellement de générer un contenu visuel cohérent et consistant dans les limites d'une toile en forme de police, par opposition à une toile rectangulaire traditionnelle. Pour aborder cette tâche, nous introduisons un nouveau modèle de diffusion adaptatif à la forme, capable d'interpréter la forme donnée et de planifier stratégiquement la distribution des pixels dans la toile irrégulière. Pour y parvenir, nous avons constitué un ensemble de données image-texte de haute qualité adaptatif à la forme et intégré le masque de segmentation comme condition visuelle pour guider le processus de génération d'image dans la toile irrégulière. Cette approche permet au modèle de diffusion traditionnellement basé sur une toile rectangulaire de produire les concepts souhaités en fonction des formes géométriques fournies. Deuxièmement, pour maintenir la cohérence entre plusieurs lettres, nous présentons également une méthode de transfert d'effets adaptative à la forme et sans entraînement, permettant de transférer les textures d'une lettre de référence générée à d'autres. Les idées clés consistent à construire un a priori de bruit d'effet de police et à propager l'information sur l'effet de police dans un espace latent concaténé. L'efficacité de notre système FontStudio est confirmée par des études de préférence utilisateur, qui montrent une préférence marquée (78 % de taux de victoire sur l'esthétique) pour notre système, même comparé au dernier produit commercial inégalé, Adobe Firefly.
Les récents Transformers de Diffusion (DiTs) ont démontré des capacités impressionnantes dans la génération de contenu monomodal de haute qualité, incluant des images, des vidéos et de l'audio. Cependant, il reste encore à explorer si le diffuseur basé sur les transformers peut débruiter efficacement les bruits gaussiens pour une création multimodale exceptionnelle. Pour combler cette lacune, nous introduisons AV-DiT, un nouveau et efficace transformer de diffusion audio-visuel conçu pour générer des vidéos réalistes de haute qualité avec des pistes visuelles et audio. Pour minimiser la complexité du modèle et les coûts de calcul, AV-DiT utilise un backbone DiT partagé pré-entraîné sur des données uniquement visuelles, avec seulement des adaptateurs légers et nouvellement insérés étant entraînables. Ce backbone partagé facilite la génération à la fois audio et vidéo. Plus précisément, la branche vidéo intègre une couche d'attention temporelle entraînable dans un bloc DiT pré-entraîné gelé pour assurer la cohérence temporelle. De plus, un petit nombre de paramètres entraînables adapte le bloc DiT basé sur les images pour la génération audio. Un bloc DiT partagé supplémentaire, équipé de paramètres légers, facilite l'interaction des caractéristiques entre les modalités audio et visuelles, assurant leur alignement. Des expériences approfondies sur les ensembles de données AIST++ et Landscape démontrent qu'AV-DiT atteint des performances de pointe dans la génération audio-visuelle conjointe avec un nombre significativement réduit de paramètres ajustables. De plus, nos résultats soulignent qu'un seul backbone génératif d'images partagé avec des adaptations spécifiques à chaque modalité est suffisant pour construire un générateur audio-vidéo conjoint. Notre code source et nos modèles pré-entraînés seront publiés.
L'optimisation des préférences hors ligne est une méthode clé pour améliorer et contrôler la qualité des sorties des modèles de langage de grande taille (LLM). Typiquement, l'optimisation des préférences est abordée comme une tâche d'apprentissage supervisé hors ligne utilisant des fonctions de perte convexes conçues manuellement. Bien que ces méthodes s'appuient sur des insights théoriques, elles sont intrinsèquement limitées par la créativité humaine, de sorte que le vaste espace de recherche des fonctions de perte possibles reste sous-exploré. Nous abordons ce problème en effectuant une découverte d'objectifs pilotée par un LLM pour découvrir automatiquement de nouveaux algorithmes d'optimisation des préférences de pointe sans intervention humaine (experte). Plus précisément, nous incitons itérativement un LLM à proposer et implémenter de nouvelles fonctions de perte pour l'optimisation des préférences basées sur des métriques de performance précédemment évaluées. Ce processus conduit à la découverte d'algorithmes d'optimisation des préférences performants et jusqu'alors inconnus. Le meilleur de ces algorithmes, que nous appelons Discovered Preference Optimization (DiscoPOP), est un nouvel algorithme qui combine de manière adaptative les pertes logistiques et exponentielles. Les expériences démontrent la performance de pointe de DiscoPOP et son transfert réussi à des tâches non vues.
Les modèles de diffusion ont démontré des performances remarquables dans la synthèse d'images et de vidéos. Cependant, leur mise à l'échelle pour des entrées haute résolution est un défi et nécessite une restructuration du pipeline de diffusion en plusieurs composants indépendants, ce qui limite l'évolutivité et complique les applications en aval. Cela les rend très efficaces pendant l'entraînement et permet une optimisation de bout en bout sur des vidéos haute résolution. Nous améliorons les PDM (Patch Diffusion Models) de deux manières fondamentales. Premièrement, pour assurer la cohérence entre les patches, nous développons la fusion contextuelle profonde -- une technique architecturale qui propage l'information contextuelle des patches à basse échelle vers ceux à haute échelle de manière hiérarchique. Deuxièmement, pour accélérer l'entraînement et l'inférence, nous proposons le calcul adaptatif, qui alloue davantage de capacité et de calcul du réseau vers les détails grossiers de l'image. Le modèle résultant établit un nouveau record avec un score FVD de 66,32 et un score Inception de 87,68 dans la génération de vidéos conditionnées par classe sur UCF-101 256^2, surpassant les méthodes récentes de plus de 100%. Ensuite, nous montrons qu'il peut être rapidement affiné à partir d'un générateur de base 36 fois 64 en basse résolution pour la synthèse de vidéos texte-à-vidéo haute résolution 64 fois 288 fois 512. À notre connaissance, notre modèle est la première architecture basée sur la diffusion entraînée sur de telles hautes résolutions entièrement de bout en bout. Page du projet : https://snap-research.github.io/hpdm.
Voir clairement avec une haute résolution constitue un fondement essentiel des Modèles Multimodaux de Grande Taille (LMMs), ce qui s'est avéré crucial pour la perception visuelle et le raisonnement. Les travaux existants utilisent généralement une méthode simple de suréchantillonnage de la résolution, où l'image est composée de branches globale et locale, cette dernière étant constituée de patches d'image découpés mais redimensionnés à la même résolution que la première. Cela signifie qu'une résolution plus élevée nécessite davantage de patches locaux, entraînant des coûts de calcul exorbitants, tandis que la dominance des tokens d'image locaux peut diminuer le contexte global. Dans cet article, nous explorons ces problèmes et proposons un nouveau cadre ainsi qu'une stratégie d'optimisation élaborée. Plus précisément, nous extrayons les informations contextuelles de la vue globale en utilisant un mélange d'adaptateurs, basé sur l'observation que différents adaptateurs excellent à différentes tâches. Concernant les patches locaux, des embeddings de requêtes apprenables sont introduits pour réduire les tokens d'image, les tokens les plus importants correspondant à la question de l'utilisateur étant ensuite sélectionnés par un sélecteur basé sur la similarité. Nos résultats empiriques démontrent un schéma "moins c'est plus", où l'utilisation de moins de tokens d'image locaux mais plus informatifs conduit à une amélioration des performances. Par ailleurs, un défi majeur réside dans la stratégie d'entraînement, car un entraînement simultané de bout en bout du bloc d'extraction globale et du bloc de compression locale ne donne pas de résultats optimaux. Nous préconisons donc une méthode d'entraînement alternée, assurant un apprentissage équilibré entre les aspects globaux et locaux. Enfin, nous introduisons également un jeu de données exigeant en termes de détails d'image, renforçant l'entraînement de la couche de compression locale. La méthode proposée, nommée LMM avec Tâches Sophistiquées, Compression d'Image Locale et Mélange d'Experts Globaux (SliME), atteint des performances de pointe sur divers benchmarks avec seulement 2 millions de données d'entraînement.
Nous introduisons la Restauration de Légendes Visuelles (Visual Caption Restoration, VCR), une nouvelle tâche vision-langage qui consiste à restaurer avec précision des textes partiellement obscurcis en utilisant des indices au niveau des pixels dans les images. Cette tâche découle de l'observation que les textes intégrés dans les images diffèrent intrinsèquement des éléments visuels courants et du langage naturel, en raison de la nécessité d'aligner les modalités de la vision, du texte et du texte intégré dans les images. Bien que de nombreux travaux aient intégré des textes dans des images pour des tâches de question-réponse visuelle, les approches utilisées reposent généralement sur la reconnaissance optique de caractères ou le modèle de langage masqué, réduisant ainsi la tâche à un traitement principalement basé sur le texte. Cependant, le traitement basé sur le texte devient inefficace dans VCR, car la restauration précise du texte dépend des informations combinées provenant des images fournies, du contexte et des indices subtils des petites zones exposées des textes masqués. Nous développons un pipeline pour générer des images synthétiques pour la tâche VCR en utilisant des paires image-légende, avec une visibilité ajustable des légendes pour contrôler la difficulté de la tâche. Avec ce pipeline, nous construisons un ensemble de données pour VCR appelé VCR-Wiki en utilisant des images avec légendes provenant de Wikipédia, comprenant 2,11 millions d'entités en anglais et 346 000 en chinois, dans des variantes faciles et difficiles. Nos résultats révèlent que les modèles actuels de vision-langage sont nettement en retard par rapport aux performances humaines dans la tâche VCR, et que le simple affinement des modèles sur notre ensemble de données ne conduit pas à des améliorations notables. Nous publions VCR-Wiki et le code de construction des données pour faciliter les recherches futures.
La modélisation de séries temporelles multivariées est un problème bien établi avec un large éventail d'applications, allant de la santé aux marchés financiers. Les modèles d'espace d'état (SSM) traditionnels sont des approches classiques pour la modélisation de séries temporelles univariées en raison de leur simplicité et de leur puissance expressive pour représenter les dépendances linéaires. Cependant, ils ont une puissance expressive fondamentalement limitée pour capturer les dépendances non linéaires, sont lents en pratique et ne parviennent pas à modéliser le flux d'information inter-varié. Malgré les récentes tentatives pour améliorer la puissance expressive des SSM en utilisant des SSM structurés profonds, les méthodes existantes sont soit limitées aux séries temporelles univariées, ne parviennent pas à modéliser des motifs complexes (par exemple, les motifs saisonniers), ne parviennent pas à modéliser dynamiquement les dépendances des dimensions variées et temporelles, et/ou sont indépendantes de l'entrée. Nous présentons Chimera, qui utilise deux têtes SSM 2D dépendantes de l'entrée avec des processus de discrétisation différents pour apprendre la progression à long terme et les motifs saisonniers. Pour améliorer l'efficacité de la récurrence 2D complexe, nous présentons un entraînement rapide utilisant un nouveau scan sélectif parallèle en 2 dimensions. Nous présentons et discutons également Mamba 2D et Mamba-2 comme cas particuliers de notre SSM 2D. Notre évaluation expérimentale montre la performance supérieure de Chimera sur des benchmarks étendus et diversifiés, incluant la classification de séries temporelles ECG et vocales, la prévision de séries temporelles à court et long terme, et la détection d'anomalies dans les séries temporelles.
Les grands modèles de langage (LLMs) ont progressé pour englober des connaissances étendues dans divers domaines. Cependant, contrôler ce qu'un grand modèle de langage ne devrait pas savoir est crucial pour garantir l'alignement et ainsi une utilisation sûre. Néanmoins, désapprendre de manière précise et efficace des connaissances d'un LLM reste un défi en raison des dommages collatéraux potentiels causés par la frontière floue entre la rétention et l'oubli, ainsi que des importantes exigences computationnelles pour l'optimisation à travers les modèles de pointe comportant des centaines de milliards de paramètres. Dans ce travail, nous présentons les prompts Embedding-COrrupted (ECO), un cadre léger de désapprentissage pour les grands modèles de langage afin de relever les défis de l'enchevêtrement des connaissances et de l'efficacité du désapprentissage. Au lieu de s'appuyer sur le LLM lui-même pour désapprendre, nous imposons un état de désapprentissage pendant l'inférence en utilisant un classificateur de prompts pour identifier et protéger les prompts à oublier. Nous apprenons des corruptions ajoutées aux embeddings de prompts via une optimisation d'ordre zéro vers l'objectif de désapprentissage hors ligne, et nous corrompons les prompts signalés par le classificateur pendant l'inférence. Nous constatons que ces prompts corrompus au niveau des embeddings non seulement conduisent à des sorties souhaitables qui satisfont l'objectif de désapprentissage, mais se rapprochent également étroitement de la sortie d'un modèle qui n'a jamais été entraîné sur les données destinées à être oubliées. À travers des expériences approfondies sur le désapprentissage, nous démontrons la supériorité de notre méthode pour atteindre un désapprentissage prometteur avec presque aucun effet secondaire dans les domaines généraux et les domaines étroitement liés à ceux désappris. De plus, nous mettons en évidence l'évolutivité de notre méthode pour 100 LLMs, allant de 0,5B à 236B paramètres, sans coût supplémentaire à mesure que le nombre de paramètres augmente.
La pathologie, qui consiste en l'examen microscopique des tissus malades, est essentielle pour diagnostiquer diverses conditions médicales, en particulier les cancers. Les méthodes traditionnelles sont laborieuses et sujettes à des erreurs humaines. La pathologie numérique, qui convertit les lames de verre en images numériques haute résolution pour analyse par des algorithmes informatiques, révolutionne ce domaine en améliorant la précision diagnostique, la cohérence et l'efficacité grâce à l'analyse automatisée d'images et au traitement de données à grande échelle. Le pré-entraînement des transformateurs de base est crucial pour développer des modèles robustes et généralisables, car il permet d'apprendre à partir de vastes quantités de données non annotées. Cet article présente la famille Hibou de transformateurs de vision de base pour la pathologie, en exploitant le cadre DINOv2 pour pré-entraîner deux variantes de modèles, Hibou-B et Hibou-L, sur un ensemble de données propriétaire de plus d'un million d'images de lames entières (WSIs) représentant divers types de tissus et techniques de coloration. Nos modèles pré-entraînés démontrent des performances supérieures sur les benchmarks au niveau des patches et des lames, surpassant les méthodes existantes de pointe. Notamment, Hibou-L atteint la précision moyenne la plus élevée sur plusieurs ensembles de données de référence. Pour soutenir la recherche et les applications dans ce domaine, nous avons rendu open-source le modèle Hibou-B, accessible à l'adresse suivante : https://github.com/HistAI/hibou.
La diffusion masquée (ou absorbante) est activement explorée comme alternative aux modèles autorégressifs pour la modélisation générative de données discrètes. Cependant, les travaux existants dans ce domaine ont été entravés par des formulations de modèles inutilement complexes et des relations obscures entre différentes perspectives, conduisant à une paramétrisation sous-optimale, des objectifs d'entraînement peu clairs et des ajustements ad hoc pour contrer ces problèmes. Dans ce travail, nous visons à fournir un cadre simple et général qui libère tout le potentiel des modèles de diffusion masquée. Nous montrons que l'objectif variationnel en temps continu des modèles de diffusion masquée est une simple intégrale pondérée de pertes d'entropie croisée. Notre cadre permet également d'entraîner des modèles de diffusion masquée généralisés avec des plans de masquage dépendants de l'état. Évalués en termes de perplexité, nos modèles entraînés sur OpenWebText surpassent les précédents modèles de diffusion linguistique à l'échelle GPT-2 et démontrent des performances supérieures sur 4 des 5 tâches de modélisation linguistique en zero-shot. De plus, nos modèles surpassent largement les précédents modèles de diffusion discrète sur la modélisation d'images au niveau des pixels, atteignant 2,78 (CIFAR-10) et 3,42 (ImageNet 64×64) bits par dimension, des résultats comparables ou supérieurs à ceux des modèles autorégressifs de tailles similaires.