Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Transfusion, une recette pour entraîner un modèle multi-modal sur des données discrètes et continues. Transfusion combine la perte de modélisation du langage (prédiction du prochain jeton) avec la diffusion pour entraîner un seul transformateur sur des séquences de modalités mixtes. Nous pré-entraînons plusieurs modèles Transfusion jusqu'à 7 milliards de paramètres à partir de zéro sur un mélange de données textuelles et d'images, établissant des lois d'échelle par rapport à une variété de références uni- et cross-modales. Nos expériences montrent que Transfusion évolue de manière significativement meilleure que la quantification des images et l'entraînement d'un modèle de langage sur des jetons d'image discrets. En introduisant des couches d'encodage et de décodage spécifiques à la modalité, nous pouvons améliorer encore les performances des modèles Transfusion, et même compresser chaque image en seulement 16 patchs. Nous démontrons en outre que l'évolution de notre recette Transfusion à 7 milliards de paramètres et 2 billions de jetons multi-modaux produit un modèle capable de générer des images et du texte au niveau des modèles de diffusion de taille similaire et des modèles de langage, récoltant les avantages des deux mondes.
Les récents progrès des Modèles de Langage de Grande Taille (MLGT) ont considérablement amélioré l'interprétation et le traitement des données tabulaires, introduisant des capacités auparavant inimaginables. Malgré ces réalisations, les MLGT rencontrent encore des défis significatifs lorsqu'ils sont appliqués dans des scénarios industriels, notamment en raison de la complexité accrue du raisonnement requis avec des données tabulaires du monde réel, soulignant une disparité notable entre les références académiques et les applications pratiques. Pour résoudre cette disparité, nous menons une enquête détaillée sur l'application des données tabulaires dans des scénarios industriels et proposons un banc d'essai complet et complexe, TableBench, comprenant 18 champs répartis en quatre grandes catégories de capacités de réponse aux questions tabulaires (TableQA). De plus, nous introduisons TableMLGT, formé sur notre ensemble d'entraînement méticuleusement construit, TableInstruct, atteignant des performances comparables à celles de GPT-3.5. Des expériences massives menées sur TableBench indiquent que tant les MLGT open-source que propriétaires ont encore un important potentiel d'amélioration pour répondre aux exigences du monde réel, où le modèle le plus avancé, GPT-4, n'obtient qu'un score modeste par rapport aux humains.
Inclure du code dans le mélange de données de pré-entraînement, même pour les modèles non spécifiquement conçus pour le code, est devenu une pratique courante dans la pré-entraînement des LLMs. Alors qu'il existe un consensus anecdotique parmi les praticiens selon lequel les données de code jouent un rôle vital dans les performances générales des LLMs, il n'existe que peu de travaux analysant l'impact précis du code sur des tâches non liées au code. Dans ce travail, nous étudions systématiquement l'impact des données de code sur les performances générales. Nous nous demandons "quel est l'impact des données de code utilisées en pré-entraînement sur une grande variété de tâches ultérieures au-delà de la génération de code". Nous menons des ablations approfondies et évaluons un large éventail de tâches de raisonnement en langage naturel, de tâches de connaissances du monde, de référentiels de code et de taux de réussite des LLM en tant que juges pour des modèles de tailles allant de 470M à 2,8B de paramètres. Dans tous les contextes, nous constatons des résultats cohérents selon lesquels le code est un élément constitutif essentiel pour la généralisation bien au-delà des tâches de codage, et les améliorations de la qualité du code ont un impact disproportionné sur l'ensemble des tâches. En particulier, par rapport à un pré-entraînement basé uniquement sur du texte, l'ajout de code entraîne une augmentation relative allant jusqu'à 8,2% dans le raisonnement en langage naturel (NL), 4,2% dans les connaissances du monde, une amélioration de 6,6% dans les taux de réussite génératifs, et respectivement un gain de 12 fois dans les performances de code. Notre travail suggère que les investissements dans la qualité du code et la préservation du code pendant le pré-entraînement ont des impacts positifs.
Nous proposons de trier les représentations de patchs à travers les vues comme un nouveau signal d'apprentissage auto-supervisé pour améliorer les représentations pré-entraînées. À cette fin, nous introduisons NeCo : Cohérence des Voisins de Patchs, une nouvelle perte d'entraînement qui impose une cohérence des voisins de patchs au niveau du patch entre un modèle étudiant et un modèle enseignant, par rapport aux lots de référence. Notre méthode exploite une méthode de tri différenciable appliquée sur des représentations pré-entraînées, telles que DINOv2-registers, pour amorcer le signal d'apprentissage et les améliorer davantage. Ce post-entraînement dense conduit à des performances supérieures sur divers modèles et ensembles de données, malgré le besoin de seulement 19 heures sur un seul GPU. Nous démontrons que cette méthode génère des codeurs de caractéristiques denses de haute qualité et établissons plusieurs nouveaux résultats de pointe : +5,5 % et +6 % pour la segmentation sémantique non paramétrique en contexte sur ADE20k et Pascal VOC, et +7,2 % et +5,7 % pour les évaluations de segmentation linéaire sur COCO-Things et -Stuff.
Les grands modèles de langage (LLM) sont devenus de plus en plus courants dans les applications à long contexte telles que les chatbots interactifs, l'analyse de documents et les flux de travail des agents, mais il est difficile de répondre aux demandes à long contexte avec une faible latence et un débit élevé. Le décodage spéculatif (SD) est une technique largement utilisée pour réduire la latence sans compromettre les performances, mais la sagesse conventionnelle suggère que son efficacité est limitée aux petites tailles de lots. Dans MagicDec, nous montrons que, de manière surprenante, le SD peut accélérer même pour un régime d'inférence à débit élevé pour des séquences de longueur modérée à longue. Plus intéressant encore, une stratégie de rédaction intelligente peut obtenir une meilleure accélération avec l'augmentation de la taille du lot selon notre analyse rigoureuse. MagicDec identifie d'abord les changements de goulot d'étranglement avec l'augmentation de la taille du lot et de la longueur de séquence, et utilise ces informations pour déployer le décodage spéculatif de manière plus efficace pour l'inférence à débit élevé. Ensuite, il exploite des modèles de brouillon avec un cache KV clairsemé pour résoudre le goulot d'étranglement KV qui évolue avec à la fois la longueur de séquence et la taille du lot.
Les modèles de diffusion se sont imposés comme des leaders dans la génération de texte vers image pour leurs capacités impressionnantes. Néanmoins, leur résolution d'image fixe pendant l'entraînement entraîne souvent des défis dans la génération d'images haute résolution, tels que des inexactitudes sémantiques et la réplication d'objets. Cet article présente MegaFusion, une approche novatrice qui étend les modèles de génération de texte vers image basés sur la diffusion existants vers une génération efficace à plus haute résolution sans ajustement fin supplémentaire ou adaptation supplémentaire. Plus précisément, nous utilisons une stratégie innovante de troncature et de relais pour relier les processus de débruitage à travers différentes résolutions, permettant la génération d'images haute résolution de manière grossière à fine. De plus, en intégrant des convolutions dilatées et une reprogrammation du bruit, nous adaptons davantage les a priori du modèle pour une résolution plus élevée. La polyvalence et l'efficacité de MegaFusion le rendent universellement applicable aux modèles de diffusion dans l'espace latent et dans l'espace des pixels, ainsi qu'à d'autres modèles dérivés. Des expériences approfondies confirment que MegaFusion améliore significativement la capacité des modèles existants à produire des images de mégapixels et de divers rapports d'aspect, tout en ne nécessitant qu'environ 40 % du coût informatique original.
À l'ère actuelle, où les grands modèles de langage (GML) sont intégrés dans de nombreuses applications du monde réel, garantir leur sécurité et leur robustesse est crucial pour une utilisation responsable de l'IA. Les méthodes automatisées de red teaming jouent un rôle clé dans ce processus en générant des attaques adverses pour identifier et atténuer les vulnérabilités potentielles de ces modèles. Cependant, les méthodes existantes ont souvent du mal avec les performances lentes, une diversité catégorielle limitée et des exigences élevées en termes de ressources. Alors que le Rainbow Teaming, une approche récente, aborde le défi de la diversité en encadrant la génération d'incitations adverses comme une recherche qualité-diversité, il reste lent et nécessite un mutateur finement réglé pour des performances optimales. Pour surmonter ces limitations, nous proposons Ferret, une nouvelle approche qui s'appuie sur le Rainbow Teaming en générant plusieurs mutations d'incitations adverses par itération et en utilisant une fonction de notation pour classer et sélectionner l'incitation adversaire la plus efficace. Nous explorons diverses fonctions de notation, y compris des modèles de récompense, Llama Guard et GML-comme-juge, pour classer les mutations adverses en fonction de leur potentiel de nuisance afin d'améliorer l'efficacité de la recherche de mutations nuisibles. Nos résultats démontrent que Ferret, en utilisant un modèle de récompense comme fonction de notation, améliore le taux de réussite global de l'attaque (ASR) à 95 %, ce qui est 46 % plus élevé que le Rainbow Teaming. De plus, Ferret réduit le temps nécessaire pour atteindre un ASR de 90 % de 15,2 % par rapport à la référence et génère des incitations adverses transférables, c'est-à-dire efficaces sur d'autres GML de plus grande taille. Nos codes sont disponibles sur https://github.com/declare-lab/ferret.
Un "match cut" est une technique courante de montage vidéo où une paire de plans ayant une composition similaire transitionne de manière fluide l'un vers l'autre. Bien que les match cuts soient souvent visuels, certains match cuts impliquent la transition fluide de l'audio, où des sons provenant de différentes sources se fondent en une transition indiscernable entre deux plans. Dans cet article, nous explorons la capacité de trouver et créer automatiquement des "match cuts audio" au sein de vidéos et de films. Nous créons une représentation audio auto-supervisée pour le découpage audio en match et développons un pipeline audio grossier à fin qui recommande des plans correspondants et crée l'audio fusionné. Nous annotons en outre un ensemble de données pour la tâche de match cut audio proposée et comparons la capacité de plusieurs représentations audio à trouver des candidats au match cut audio. Enfin, nous évaluons plusieurs méthodes pour fusionner deux candidats audio correspondants dans le but de créer une transition fluide. La page du projet et des exemples sont disponibles sur : https://denfed.github.io/audiomatchcut/
Les grands modèles de langage basés sur les transformers (LLM) présentent des limitations telles que la génération de réponses non sécurisées, un raisonnement peu fiable, etc. Les approches d'intervention en inférence existantes tentent de pallier ces problèmes en affinant des modèles supplémentaires pour produire des signaux de calibration (tels que des récompenses) qui guident le processus de décodage du LLM. Cependant, cette solution introduit des surcharges substantielles en termes de temps et d'espace en raison des modèles séparés requis. Ce travail propose l'insertion de paramètres non perturbatrice (Otter), qui consiste à insérer des paramètres supplémentaires dans l'architecture du transformer pour prédire des signaux de calibration en plus de la sortie originale du LLM. Otter offre des performances de pointe sur plusieurs tâches exigeantes tout en économisant jusqu'à 86,5\% d'espace supplémentaire et 98,5\% de temps supplémentaire. De plus, Otter s'intègre de manière transparente avec les moteurs d'inférence existants, ne nécessitant qu'un changement de code d'une seule ligne, et la réponse du modèle original reste accessible après l'insertion des paramètres. Notre code est publiquement disponible sur https://github.com/chenhan97/Otter
Le rapide progrès des systèmes de génération de texte en image, illustré par des modèles tels que Stable Diffusion, Midjourney, Imagen et DALL-E, a accru les préoccupations concernant leur potentiel de mauvais usage. En réponse, des entreprises telles que Meta et Google ont intensifié leurs efforts pour mettre en œuvre des techniques de tatouage numérique sur les images générées par l'IA afin de limiter la circulation de visuels potentiellement trompeurs. Cependant, dans cet article, nous soutenons que les méthodes actuelles de tatouage numérique d'images sont fragiles et susceptibles d'être contournées par des attaques de paraphrase visuelle. Le paraphraseur visuel proposé fonctionne en deux étapes. Tout d'abord, il génère une légende pour l'image donnée en utilisant KOSMOS-2, l'un des derniers systèmes de légendage d'images de pointe. Ensuite, il transmet à la fois l'image originale et la légende générée à un système de diffusion d'image en image. Lors de l'étape de débruitage du pipeline de diffusion, le système génère une image visuellement similaire guidée par la légende textuelle. L'image résultante est un paraphrase visuel et est exempte de tout tatouage numérique. Nos résultats empiriques démontrent que les attaques de paraphrase visuelle peuvent efficacement éliminer les tatouages numériques des images. Cet article fournit une évaluation critique, révélant empiriquement la vulnérabilité des techniques de tatouage numérique existantes aux attaques de paraphrase visuelle. Bien que nous ne proposions pas de solutions à ce problème, cet article sert d'appel à l'action pour la communauté scientifique afin de prioriser le développement de techniques de tatouage numérique plus robustes. Notre ensemble de données de paraphrase visuelle unique en son genre et le code associé sont disponibles publiquement.
Le langage spécialisé et les concepts complexes en physique posent des défis importants pour l'extraction d'informations via le Traitement Automatique du Langage Naturel (TALN). Au cœur des applications efficaces de TALN se trouve le modèle d'incorporation de texte, qui convertit le texte en représentations vectorielles denses pour une récupération d'informations efficace et une analyse sémantique. Dans ce travail, nous présentons PhysBERT, le premier modèle d'incorporation de texte spécifique à la physique. Pré-entraîné sur un corpus sélectionné de 1,2 million d'articles de physique arXiv et affiné avec des données supervisées, PhysBERT surpasse les principaux modèles polyvalents sur des tâches spécifiques à la physique, y compris l'efficacité dans l'affinage pour des sous-domaines de la physique spécifiques.
Le suivi visuel basé sur une caméra événementielle a attiré de plus en plus d'attention ces dernières années en raison du principe d'imagerie unique et des avantages en termes de faible consommation d'énergie, de plage dynamique élevée et de résolution temporelle dense. Les algorithmes actuels de suivi basés sur des événements atteignent progressivement leurs limites de performance, en raison de l'utilisation du Vision Transformer et du modèle de référence statique pour la localisation de l'objet cible. Dans cet article, nous proposons un nouveau cadre de suivi visuel basé sur Mamba qui adopte le modèle d'espace d'état avec une complexité linéaire comme réseau de base. Les régions de recherche et le modèle de référence de la cible sont introduits dans le réseau Vision Mamba pour une extraction de caractéristiques et une interaction simultanées. Les jetons de sortie des régions de recherche seront introduits dans la tête de suivi pour la localisation de la cible. Plus important encore, nous envisageons d'introduire une stratégie de mise à jour dynamique du modèle de référence dans le cadre de suivi en utilisant le réseau Memory Mamba. En tenant compte de la diversité des échantillons dans la bibliothèque de modèles de référence et en apportant des ajustements appropriés au module de mémoire du modèle de référence, un modèle de référence dynamique plus efficace peut être intégré. La combinaison efficace de modèles de référence dynamiques et statiques permet à notre algorithme de suivi basé sur Mamba d'atteindre un bon équilibre entre précision et coût computationnel sur plusieurs ensembles de données à grande échelle, notamment EventVOT, VisEvent et FE240hz. Le code source sera publié sur https://github.com/Event-AHU/MambaEVT.
Il a longtemps été un objectif de recherche de doter les mains des robots d'une dextérité de niveau humain. Jouer du piano avec un robot bimanuel constitue une tâche qui combine des défis issus de tâches dynamiques, tels que la génération de mouvements rapides et précis, avec des problèmes de manipulation plus lents mais riches en contacts. Bien que les approches basées sur l'apprentissage par renforcement aient montré des résultats prometteurs en termes de performances sur des tâches uniques, ces méthodes rencontrent des difficultés dans un cadre multi-chansons. Notre travail vise à combler ce fossé et, par conséquent, à permettre des approches d'apprentissage par imitation pour jouer du piano avec un robot à grande échelle. À cette fin, nous introduisons l'ensemble de données Robot Piano 1 Million (RP1M), contenant des données de mouvement de jeu de piano robotique bimanuel de plus d'un million de trajectoires. Nous formulons les emplacements des doigts comme un problème de transport optimal, permettant ainsi l'annotation automatique de vastes quantités de chansons non étiquetées. La comparaison des approches d'apprentissage par imitation existantes montre que de telles approches atteignent des performances de jeu de piano robotique de pointe en exploitant RP1M.
Le Splatting Gaussien en 3D (3DGS) est devenu la méthode de représentation en 3D de facto dans de nombreuses tâches de vision. Cela nécessite une compréhension en 3D directement dans cet espace de représentation. Pour faciliter la recherche dans cette direction, nous avons d'abord construit un ensemble de données à grande échelle de 3DGS en utilisant les ensembles de données ShapeNet et ModelNet couramment utilisés. Notre ensemble de données ShapeSplat se compose de 65 000 objets issus de 87 catégories uniques, dont les étiquettes sont conformes aux ensembles de données respectifs. La création de cet ensemble de données a nécessité l'équivalent de calcul de 2 années de GPU sur un GPU TITAN XP. Nous utilisons notre ensemble de données pour un pré-entraînement non supervisé et un fine-tuning supervisé pour des tâches de classification et de segmentation. À cette fin, nous introduisons \textit{Gaussian-MAE}, qui met en avant les avantages uniques de l'apprentissage de la représentation à partir des paramètres gaussiens. À travers des expériences exhaustives, nous fournissons plusieurs insights précieux. En particulier, nous montrons que (1) la distribution des centroïdes GS optimisés diffère significativement de celle du nuage de points échantillonné uniformément (utilisé pour l'initialisation) ; (2) ce changement de distribution entraîne une dégradation de la classification mais une amélioration des tâches de segmentation lors de l'utilisation uniquement des centroïdes ; (3) pour exploiter des paramètres gaussiens supplémentaires, nous proposons un regroupement de caractéristiques gaussiennes dans un espace de caractéristiques normalisé, ainsi qu'une couche de regroupement de splats, offrant une solution sur mesure pour regrouper et intégrer efficacement des gaussiennes similaires, ce qui conduit à une amélioration notable des tâches de fine-tuning.
La mobilité urbaine et les systèmes de transport ont été profondément transformés par l'avancée des technologies de véhicules autonomes. Baidu Apollo Go, un service pionnier de robotaxis du géant technologique chinois Baidu, a récemment été largement déployé dans des grandes villes comme Beijing et Wuhan, suscitant une conversation accrue et offrant un aperçu de l'avenir de la mobilité urbaine. Cette étude examine les attitudes du public envers Apollo Go à travers la Chine en utilisant l'Analyse de Sentiments avec un modèle BERT hybride sur 36 096 publications Weibo de janvier à juillet 2024. L'analyse montre que 89,56\% des publications liées à Apollo Go sont regroupées en juillet. De janvier à juillet, le sentiment du public était principalement positif, mais des commentaires négatifs ont commencé à augmenter après être devenu un sujet brûlant le 21 juillet. L'analyse spatiale indique une forte corrélation entre les provinces avec une forte intensité de discussion et celles où Apollo Go opère. Initialement, Hubei et Guangdong dominaient le volume de publications en ligne, mais en juillet, Guangdong, Beijing et des régions internationales avaient dépassé Hubei. Les attitudes variaient significativement entre les provinces, Xinjiang et Qinghai montrant de l'optimisme et le Tibet et Gansu exprimant des préoccupations concernant l'impact sur les services de taxis traditionnels. L'analyse de sentiment a révélé que les commentaires positifs se concentraient sur les applications technologiques et les expériences personnelles, tandis que les commentaires négatifs portaient sur le remplacement d'emplois et les préoccupations en matière de sécurité. En résumé, cette étude met en lumière la divergence dans les perceptions publiques des services de covoiturage autonome, offrant des perspectives précieuses pour les planificateurs, les décideurs politiques et les prestataires de services. Le modèle est publié sur Hugging Face à l'adresse https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao et le dépôt sur GitHub à l'adresse https://github.com/GIStudio/trb2024.