Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage par diffusion offrent des avantages uniques par rapport aux modèles autorégressifs grâce à leur potentiel de génération parallélisée et de contrôlabilité, mais ils sont moins performants en modélisation de vraisemblance et limités à la génération de séquences de longueur fixe. Dans ce travail, nous introduisons une classe de modèles de langage par diffusion par blocs qui interpolent entre la diffusion discrète de débruitage et les modèles autorégressifs. La diffusion par blocs surmonte les limitations clés des deux approches en permettant une génération de longueur flexible et en améliorant l'efficacité de l'inférence grâce à la mise en cache KV et à l'échantillonnage parallèle de tokens. Nous proposons une méthode pour construire des modèles de diffusion par blocs efficaces, incluant un algorithme d'entraînement performant, des estimateurs de variance de gradient et des plannings de bruit basés sur les données pour minimiser la variance. La diffusion par blocs établit un nouvel état de l'art parmi les modèles de diffusion sur les benchmarks de modélisation du langage et permet la génération de séquences de longueur arbitraire. Nous mettons à disposition le code, ainsi que les poids des modèles et un article de blog sur la page du projet : https://m-arriola.com/bd3lms/
Le développement des modèles de diffusion vidéo révèle un défi majeur : les exigences computationnelles substantielles. Pour atténuer ce défi, nous observons que le processus inverse de diffusion présente une nature intrinsèque de réduction d'entropie. Compte tenu de la redondance inter-images dans la modalité vidéo, maintenir des fréquences d'images complètes dans les étapes à haute entropie n'est pas nécessaire. Sur la base de cette observation, nous proposons TPDiff, un cadre unifié pour améliorer l'efficacité de l'entraînement et de l'inférence. En divisant la diffusion en plusieurs étapes, notre cadre augmente progressivement la fréquence d'images tout au long du processus de diffusion, avec seulement la dernière étape opérant à pleine fréquence d'images, optimisant ainsi l'efficacité computationnelle. Pour entraîner le modèle de diffusion multi-étapes, nous introduisons un cadre d'entraînement dédié : la diffusion par étapes. En résolvant les équations différentielles ordinaires (EDO) de flux de probabilité partitionnées de la diffusion sous des données et bruit alignés, notre stratégie d'entraînement est applicable à diverses formes de diffusion et améliore encore l'efficacité de l'entraînement. Des évaluations expérimentales complètes valident la généralité de notre méthode, démontrant une réduction de 50 % des coûts d'entraînement et une amélioration de 1,5x de l'efficacité de l'inférence.
La génération conditionnelle de mouvements a été largement étudiée en vision par ordinateur, mais deux défis majeurs persistent. Premièrement, bien que les méthodes autoregressives masquées aient récemment surpassé les approches basées sur la diffusion, les modèles de masquage existants ne disposent pas d'un mécanisme pour prioriser les images dynamiques et les parties du corps en fonction des conditions données. Deuxièmement, les méthodes existantes pour différentes modalités de conditionnement échouent souvent à intégrer efficacement plusieurs modalités, limitant ainsi le contrôle et la cohérence des mouvements générés. Pour relever ces défis, nous proposons Motion Anything, un cadre de génération de mouvements multimodal qui introduit une approche de modélisation de masquage basée sur l'attention, permettant un contrôle spatio-temporel fin des images clés et des actions. Notre modèle encode de manière adaptative les conditions multimodales, incluant le texte et la musique, améliorant ainsi la contrôlabilité. De plus, nous introduisons Text-Music-Dance (TMD), un nouveau jeu de données de mouvements composé de 2 153 paires de texte, musique et danse, ce qui représente le double de la taille d'AIST++, comblant ainsi une lacune critique dans la communauté. Des expériences approfondies démontrent que Motion Anything surpasse les méthodes de pointe sur plusieurs benchmarks, obtenant une amélioration de 15 % du FID sur HumanML3D et affichant des gains de performance constants sur AIST++ et TMD. Consultez notre site web de projet : https://steve-zeyu-zhang.github.io/MotionAnything
Nous présentons Reangle-A-Video, un cadre unifié pour générer des vidéos multi-vues synchronisées à partir d'une seule vidéo d'entrée. Contrairement aux approches dominantes qui entraînent des modèles de diffusion de vidéos multi-vues sur des ensembles de données 4D à grande échelle, notre méthode reformule la tâche de génération de vidéos multi-vues comme une traduction vidéo-à-vidéos, en exploitant des préalables de diffusion d'images et de vidéos disponibles publiquement. En substance, Reangle-A-Video fonctionne en deux étapes. (1) Apprentissage du mouvement multi-vues : Un transformateur de diffusion image-à-vidéo est affiné de manière synchrone et auto-supervisée pour distiller un mouvement invariant à la vue à partir d'un ensemble de vidéos déformées. (2) Traduction image-à-images cohérente multi-vues : La première image de la vidéo d'entrée est déformée et inpainée dans diverses perspectives de caméra sous une guidance de cohérence inter-vues en temps d'inférence utilisant DUSt3R, générant ainsi des images de départ cohérentes multi-vues. Des expériences approfondies sur le transport de vue statique et le contrôle dynamique de caméra montrent que Reangle-A-Video surpasse les méthodes existantes, établissant une nouvelle solution pour la génération de vidéos multi-vues. Nous rendrons notre code et nos données publics. Page du projet : https://hyeonho99.github.io/reangle-a-video/
L'acquisition efficace de connaissances externes et d'informations à jour est essentielle pour un raisonnement et une génération de texte efficaces dans les grands modèles de langage (LLM). Les approches d'augmentation par recherche et de formation à l'utilisation d'outils, où un moteur de recherche est traité comme un outil, manquent de flexibilité pour des recherches multi-tours complexes ou nécessitent des données supervisées à grande échelle. Inciter des LLM avancés dotés de capacités de raisonnement à utiliser des moteurs de recherche lors de l'inférence n'est pas optimal, car le LLM n'apprend pas à interagir de manière optimale avec le moteur de recherche. Ce papier présente Search-R1, une extension du modèle DeepSeek-R1 où le LLM apprend — uniquement par apprentissage par renforcement (RL) — à générer de manière autonome (plusieurs) requêtes de recherche lors d'un raisonnement étape par étape avec une récupération en temps réel. Search-R1 optimise les déploiements de LLM avec des interactions de recherche multi-tours, en exploitant le masquage des tokens récupérés pour un entraînement RL stable et une fonction de récompense simple basée sur les résultats. Les expériences sur sept ensembles de données de questions-réponses montrent que Search-R1 améliore les performances de 26 % (Qwen2.5-7B), 21 % (Qwen2.5-3B) et 10 % (LLaMA3.2-3B) par rapport aux meilleures méthodes de référence. Ce papier fournit également des insights empiriques sur les méthodes d'optimisation RL, les choix de LLM et la dynamique de la longueur des réponses dans le raisonnement augmenté par recherche. Le code et les points de contrôle du modèle sont disponibles à l'adresse https://github.com/PeterGriffinJin/Search-R1.
L'apprentissage par renforcement avec récompenses vérifiables sur les résultats (RLVR) a efficacement permis de mettre à l'échelle le raisonnement en chaîne de pensées (CoT) dans les grands modèles de langage (LLMs). Cependant, son efficacité dans l'entraînement d'agents de modèles vision-langage (VLM) pour le raisonnement d'actions orientées vers un but dans des environnements visuels est moins établie. Ce travail explore ce problème à travers des expériences approfondies sur des jeux de cartes complexes, tels que le jeu des 24 points, et des tâches incarnées issues d'ALFWorld. Nous constatons que lorsque les récompenses sont basées uniquement sur les résultats des actions, le RL échoue à inciter le raisonnement CoT dans les VLMs, conduisant plutôt à un phénomène que nous avons nommé effondrement de la pensée, caractérisé par une perte rapide de diversité dans les pensées de l'agent, un raisonnement incomplet et non pertinent par rapport à l'état, et des actions invalides subséquentes, entraînant des récompenses négatives. Pour contrer cet effondrement de la pensée, nous soulignons la nécessité d'un guidage du processus et proposons un correcteur automatisé qui évalue et affine le raisonnement de l'agent à chaque étape du RL. Ce cadre simple et scalable, appelé GTR (Guided Thought Reinforcement), entraîne simultanément le raisonnement et l'action sans nécessiter un étiquetage humain dense et par étape. Nos expériences démontrent que GTR améliore significativement les performances et la généralisation du modèle LLaVA-7b dans divers environnements visuels, atteignant des taux de réussite des tâches 3 à 5 fois supérieurs par rapport aux modèles de l'état de l'art (SoTA) avec des tailles de modèles notablement plus petites.
La génération augmentée par récupération (RAG) fournit aux LLMs des documents pertinents. Bien que des études antérieures aient noté que la récupération d'un grand nombre de documents peut dégrader les performances, elles n'ont pas isolé l'impact de la quantité de documents sur les performances tout en contrôlant la longueur du contexte. Nous évaluons divers modèles de langage sur des ensembles de données personnalisés dérivés d'une tâche de question-réponse multi-sauts. Nous maintenons la longueur du contexte et la position des informations pertinentes constantes tout en faisant varier le nombre de documents, et constatons que l'augmentation du nombre de documents dans les configurations RAG pose des défis significatifs pour les LLMs. De plus, nos résultats indiquent que le traitement de plusieurs documents constitue un défi distinct de la gestion de contextes longs. Nous mettons également à disposition les ensembles de données et le code : https://github.com/shaharl6000/MoreDocsSameLen.
Le Score Distillation Sampling (SDS) s'est imposé comme une technique efficace pour exploiter des modèles de diffusion 2D dans des tâches telles que la génération de texte en 3D. Bien que puissant, le SDS peine à atteindre un alignement précis avec l'intention de l'utilisateur. Pour surmonter cette limitation, nous introduisons RewardSDS, une approche novatrice qui pondère les échantillons de bruit en fonction des scores d'alignement provenant d'un modèle de récompense, produisant ainsi une perte SDS pondérée. Cette perte privilégie les gradients issus d'échantillons de bruit qui génèrent des sorties alignées et hautement récompensées. Notre approche est largement applicable et peut étendre les méthodes basées sur SDS. En particulier, nous démontrons son applicabilité à la Distillation de Score Variationnelle (VSD) en introduisant RewardVSD. Nous évaluons RewardSDS et RewardVSD sur des tâches de génération d'images à partir de texte, d'édition 2D et de génération de texte en 3D, montrant des améliorations significatives par rapport à SDS et VSD sur un ensemble diversifié de métriques mesurant la qualité de génération et l'alignement aux modèles de récompense souhaités, permettant ainsi des performances de pointe. La page du projet est disponible à l'adresse suivante : https://itaychachy.github.io/reward-sds/.
Bien que les grands modèles de langage (LLMs) aient atteint des performances remarquables sur diverses tâches, ils restent sujets à des erreurs. Un défi majeur consiste à leur permettre de s'auto-corriger. Alors que les recherches précédentes s'appuyaient sur des outils externes ou de grands modèles propriétaires, ce travail explore l'auto-correction dans les petits modèles de langage (SLMs) grâce à un affinage itératif utilisant uniquement des données auto-générées. Nous introduisons l'algorithme Self-Taught Self-Correction (STaSC), qui intègre plusieurs choix de conception algorithmique. Les résultats expérimentaux sur une tâche de question-réponse démontrent que STaSC apprend efficacement l'auto-correction, conduisant à des améliorations significatives des performances. Notre analyse fournit en outre des insights sur les mécanismes d'auto-correction et l'impact des différents choix de conception sur la dynamique d'apprentissage et les performances globales. Pour soutenir les recherches futures, nous mettons à disposition notre codebase conviviale et nos modèles légers.
Les modèles de langage récents (LLMs) ont démontré un succès remarquable dans le suivi des instructions utilisateur, mais la gestion d'instructions comportant de multiples contraintes reste un défi majeur. Dans ce travail, nous présentons WildIFEval - un jeu de données à grande échelle contenant 12 000 instructions réelles d'utilisateurs avec des conditions diverses et multi-contraintes. Contrairement aux jeux de données précédents, notre collection couvre un large spectre lexical et thématique de contraintes, dans des prompts utilisateur naturels. Nous catégorisons ces contraintes en huit classes de haut niveau pour capturer leur distribution et leur dynamique dans des scénarios réels. En exploitant WildIFEval, nous menons des expériences approfondies pour évaluer les capacités de suivi d'instructions des principaux LLMs. Nos résultats révèlent que tous les modèles évalués subissent une dégradation des performances avec l'augmentation du nombre de contraintes. Ainsi, nous montrons que tous les modèles ont une marge d'amélioration importante sur de telles tâches. De plus, nous observons que le type spécifique de contrainte joue un rôle critique dans la performance des modèles. Nous publions notre jeu de données pour encourager des recherches supplémentaires sur le suivi d'instructions dans des conditions complexes et réalistes.
Les activités quotidiennes humaines peuvent être narrées de manière concise sous forme de séquences d'événements routiniers (par exemple, éteindre une alarme) dans des flux vidéo, formant ainsi un vocabulaire d'événements. Motivés par cela, nous introduisons VLog, un nouveau cadre de compréhension vidéo qui définit les narrations vidéo comme un vocabulaire, allant au-delà des vocabulaires de sous-mots typiques dans les modèles génératifs vidéo-langage existants. Basé sur le modèle de langage léger GPT-2, VLog présente trois innovations clés : (i) Un modèle de récupération génératif, combinant les capacités de raisonnement complexe du modèle de langage avec la recherche de similarité efficace de la récupération contrastive. (ii) Un vocabulaire hiérarchique dérivé de narrations vidéo à grande échelle en utilisant notre algorithme d'encodage de paires de narrations, permettant un indexage efficace d'événements spécifiques (par exemple, couper une tomate) en identifiant des scénarios plus larges (par exemple, la cuisine) avec des postfixes expressifs (par exemple, de la main gauche). (iii) Une stratégie de mise à jour du vocabulaire exploitant les modèles génératifs pour étendre le vocabulaire aux événements nouveaux rencontrés lors de l'inférence. Pour valider notre approche, nous introduisons VidCap-Eval, un ensemble de développement nécessitant des narrations concises avec des relations de raisonnement (par exemple, avant et après). Les expériences sur EgoSchema, COIN et HiREST démontrent en outre l'efficacité de VLog, mettant en évidence sa capacité à générer des narrations concises, contextuellement précises et efficaces, offrant une nouvelle perspective sur la compréhension vidéo. Les codes sont disponibles à l'adresse https://github.com/showlab/VLog.
Les grands modèles de langage (LLM) ont démontré une capacité impressionnante en génération de code, et plus spécifiquement, à implémenter automatiquement des exigences décrites en langage naturel. L'efficacité des LLM augmente généralement avec leur taille : plus le nombre de paramètres entraînables du LLM est élevé, meilleure est sa capacité à générer du code. Cependant, lorsqu'il s'agit de déployer des générateurs de code basés sur des LLM, les modèles plus volumineux posent des défis importants liés à leur empreinte mémoire (et, par conséquent, carbone). Un travail précédent de Wei et al. a proposé d'exploiter des techniques de quantification pour réduire l'empreinte mémoire des générateurs de code basés sur des LLM sans dégrader substantiellement leur efficacité. En bref, ils ont étudié des LLM comportant jusqu'à 16 milliards de paramètres, en quantifiant leur précision de 32 bits en virgule flottante à 8 bits en entier, et ont montré leur impact limité sur les performances de génération de code. Compte tenu du rythme rapide auquel les capacités des LLM et les techniques de quantification évoluent, dans ce travail, nous présentons une réplication différenciée de l'étude de Wei et al. dans laquelle nous considérons (i) d'une part, des LLM plus récents et plus volumineux, allant jusqu'à 34 milliards de paramètres ; (ii) les dernières avancées en matière de techniques de quantification de modèles, qui permettent de pousser la compression jusqu'au niveau extrême de 2 bits par paramètre de modèle ; et (iii) différents types de jeux de données de calibration pour guider le processus de quantification, y compris des jeux de données spécifiques au code. Notre évaluation empirique révèle que la nouvelle frontière pour la quantification des LLM est une précision de 4 bits, entraînant une réduction moyenne de l'empreinte mémoire de 70 % par rapport au modèle original, sans observer de diminution significative des performances. De plus, lorsque la quantification devient encore plus extrême (3 et 2 bits), un jeu de données de calibration spécifique au code aide à limiter la perte de performance.
Les capacités de traduction image-à-image des modèles d'apprentissage génératif ont récemment réalisé des progrès significatifs dans l'estimation de correspondances complexes (guidées) entre distributions d'images. Alors que les tâches basées sur l'apparence comme la complétion d'images ou le transfert de style ont été largement étudiées, nous proposons d'explorer le potentiel des modèles génératifs dans le contexte des simulations physiques. En fournissant un jeu de données de 300 000 paires d'images et des évaluations de référence pour trois tâches différentes de simulation physique, nous proposons un benchmark pour étudier les questions de recherche suivantes : i) les modèles génératifs sont-ils capables d'apprendre des relations physiques complexes à partir de paires d'images entrée-sortie ? ii) quelles accélérations peuvent être obtenues en remplaçant les simulations basées sur des équations différentielles ? Alors que les évaluations de référence de différents modèles actuels montrent un potentiel d'accélération important (ii), ces résultats révèlent également de fortes limitations concernant la justesse physique (i). Cela souligne la nécessité de nouvelles méthodes pour garantir la justesse physique. Données, modèles de référence et code d'évaluation disponibles sur http://www.physics-gen.org.
La compréhension efficace vision-langage des grandes images de télédétection (RSI) est significative mais complexe. Les modèles de vision-langage à grande échelle (LVLM) actuels utilisent généralement des grilles prédéfinies limitées pour traiter les images, entraînant une perte d'information lors de la manipulation de RSI gigapixels. À l'inverse, l'utilisation de grilles illimitées augmente considérablement les coûts de calcul. Pour préserver les détails de l'image tout en réduisant la complexité computationnelle, nous proposons une méthode d'élagage de tokens guidée par le texte avec intégration d'une Pyramide d'Images Dynamique (DIP). Notre méthode introduit : (i) un Module de Focalisation Régionale (RFM) qui exploite la capacité de localisation de régions sensible au texte pour identifier les tokens visuels critiques, et (ii) une stratégie de sélection de tuiles d'image et d'élagage de tokens visuels allant du grossier au fin, basée sur la DIP, guidée par les sorties du RFM et évitant de traiter directement l'intégralité de la grande image. De plus, les benchmarks existants pour évaluer la capacité de perception des LVLM sur les grandes RSI souffrent d'une diversité limitée des questions et de tailles d'images contraintes. Nous construisons un nouveau benchmark nommé LRS-VQA, qui contient 7 333 paires de questions-réponses réparties en 8 catégories, avec des images atteignant jusqu'à 27 328 pixels de longueur. Notre méthode surpasse les stratégies existantes de haute résolution sur quatre ensembles de données utilisant les mêmes données. Par ailleurs, comparée aux méthodes existantes de réduction de tokens, notre approche démontre une efficacité supérieure dans des contextes de haute résolution. Le jeu de données et le code sont disponibles sur https://github.com/VisionXLab/LRS-VQA.
Les modèles d'action à grande échelle (LAMs) ont révolutionné l'automatisation intelligente, mais leur application dans le domaine de la santé est confrontée à des défis liés aux préoccupations de confidentialité, à la latence et à la dépendance à l'accès à Internet. Ce rapport présente un assistant de santé multi-agent embarqué qui surmonte ces limitations. Le système utilise des agents plus petits et spécifiques à des tâches pour optimiser les ressources, garantir l'évolutivité et des performances élevées. Notre système proposé agit comme une solution tout-en-un pour les besoins de soins de santé, avec des fonctionnalités telles que la prise de rendez-vous, la surveillance de la santé, les rappels de médicaments et les rapports de santé quotidiens. Alimenté par le modèle Qwen Code Instruct 2.5 7B, les agents Planificateur et Appelant atteignent un score RougeL moyen de 85,5 pour la planification et de 96,5 pour les appels dans nos tâches, tout en étant légers pour un déploiement embarqué. Cette approche innovante combine les avantages des systèmes embarqués avec les architectures multi-agents, ouvrant la voie à des solutions de santé centrées sur l'utilisateur.
Les modèles de diffusion latente (LDMs) sont connus pour avoir un processus de génération instable, où même de petites perturbations ou décalages dans le bruit d'entrée peuvent conduire à des résultats significativement différents. Cela limite leur applicabilité dans les scénarios nécessitant des résultats cohérents. Dans ce travail, nous redéfinissons les LDMs pour améliorer leur cohérence en les rendant équivariants par translation. Bien que l'introduction d'opérations d'anti-crénelage puisse partiellement améliorer l'équivariance par translation, des problèmes importants de crénelage et d'incohérence persistent en raison des défis spécifiques aux LDMs, notamment 1) l'amplification du crénelage pendant l'entraînement du VAE et les multiples inférences du U-Net, et 2) les modules d'auto-attention qui manquent intrinsèquement d'équivariance par translation. Pour résoudre ces problèmes, nous redéfinissons les modules d'attention pour les rendre équivariants par translation et proposons une perte d'équivariance qui supprime efficacement la bande passante fréquentielle des caractéristiques dans le domaine continu. Le LDM sans crénelage résultant (AF-LDM) atteint une forte équivariance par translation et est également robuste aux déformations irrégulières. Des expériences approfondies démontrent que l'AF-LDM produit des résultats significativement plus cohérents que le LDM standard dans diverses applications, y compris l'édition vidéo et la traduction d'image à image. Le code est disponible à l'adresse : https://github.com/SingleZombie/AFLDM
La construction de modèles de langage de grande taille (LLMs) basés sur les Transformers, à la fois efficaces et performants, est récemment devenue un axe de recherche majeur, nécessitant de maximiser les capacités linguistiques des modèles tout en minimisant les coûts d'entraînement et de déploiement. Les travaux existants ont principalement décrit les relations complexes entre la performance du modèle, la taille des paramètres et la quantité de données, ainsi que recherché l'allocation optimale de calcul pour entraîner les LLMs. Cependant, ils négligent les impacts de la longueur du contexte et de la configuration des têtes d'attention (le nombre de têtes de requête et de clé-valeur dans l'attention par requêtes groupées) sur l'entraînement et l'inférence. Dans cet article, nous comparons systématiquement des modèles avec différentes tailles de paramètres, longueurs de contexte et configurations de têtes d'attention en termes de performance du modèle, de coût computationnel et de coût mémoire. Ensuite, nous étendons les méthodes de mise à l'échelle existantes, qui se basent uniquement sur la taille des paramètres et le calcul d'entraînement, pour guider la construction de LLMs optimaux en coût lors de l'entraînement et de l'inférence. Nos études quantitatives de mise à l'échelle montrent que, lors du traitement de séquences suffisamment longues, un modèle plus grand avec moins de têtes d'attention peut atteindre une perte plus faible tout en engendrant des coûts computationnels et mémoire réduits. Nos résultats fournissent des insights précieux pour le développement de LLMs pratiques, en particulier dans des scénarios de traitement de contextes longs. Nous rendrons publiquement disponibles notre code et nos données.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG), bien qu'elle serve de complément viable aux grands modèles de langage (LLMs), néglige souvent l'aspect crucial du découpage de texte dans son pipeline. Ce papier introduit initialement une méthode d'évaluation à double métrique, comprenant la Clarté des Limites et l'Adhérence des Segments, permettant de quantifier directement la qualité du découpage. En exploitant cette méthode d'évaluation, nous mettons en lumière les limitations inhérentes des méthodes traditionnelles et sémantiques de découpage dans la gestion des nuances contextuelles complexes, justifiant ainsi la nécessité d'intégrer les LLMs dans le processus de découpage. Pour aborder le compromis inhérent entre l'efficacité computationnelle et la précision du découpage dans les approches basées sur les LLMs, nous concevons le cadre Granularité-Aware Mixture-of-Chunkers (MoC), qui consiste en un mécanisme de traitement en trois étapes. Notamment, notre objectif est de guider le découpeur vers la génération d'une liste structurée d'expressions régulières de découpage, qui sont ensuite utilisées pour extraire les segments du texte original. Des expériences approfondies démontrent que nos métriques proposées ainsi que le cadre MoC résolvent efficacement les défis de la tâche de découpage, révélant le noyau de découpage tout en améliorant les performances du système RAG.
Les modèles de langage pré-entraînés (PLMs) ont révolutionné la recherche scientifique, mais leur application à l'analyse unicellulaire reste limitée. Les PLMs textuels ne peuvent pas traiter les données de séquençage d'ARN unicellulaire, tandis que les PLMs cellulaires ne parviennent pas à gérer le texte libre, ce qui restreint leur utilisation dans les tâches multimodales. Les efforts existants pour combler ces modalités souffrent souvent d'une perte d'information ou d'un pré-entraînement unimodal inadéquat, conduisant à des performances sous-optimales. Pour relever ces défis, nous proposons le Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), un PLM unifié pour la modélisation conjointe des cellules et du texte. scMMGPT intègre efficacement les PLMs cellulaires et textuels de pointe, facilitant le partage de connaissances intermodales pour une performance améliorée. Pour combler l'écart de modalité entre le texte et les cellules, scMMGPT s'appuie sur des projecteurs intermodaux dédiés et subit un pré-entraînement extensif sur 27 millions de cellules — le plus grand ensemble de données pour les PLMs multimodaux texte-cellule à ce jour. Ce pré-entraînement à grande échelle permet à scMMGPT d'exceller dans les tâches conjointes texte-cellule, obtenant une amélioration relative de 84 % de la divergence textuelle pour la génération de descriptions cellulaires, une précision 20,5 % plus élevée pour l'annotation des types cellulaires, et une amélioration de 4 % de la précision k-NN pour la génération de pseudo-cellules conditionnées par le texte, surpassant ainsi les modèles de référence.
Le Question-Réponse Vidéo (VQA) dans les vidéos longues présente le défi majeur d'extraire des informations pertinentes et de modéliser les dépendances à long terme à partir de nombreux plans redondants. Le mécanisme d'auto-attention offre une solution générale pour la modélisation de séquences, mais son coût devient prohibitif lorsqu'il est appliqué à un nombre massif de tokens spatio-temporels dans les vidéos longues. La plupart des méthodes antérieures reposent sur des stratégies de compression pour réduire le coût computationnel, comme la réduction de la longueur d'entrée via un échantillonnage de plans clairsemés ou la compression de la séquence de sortie transmise au grand modèle de langage (LLM) via un pooling spatio-temporel. Cependant, ces approches naïves surreprésentent les informations redondantes et manquent souvent des événements saillants ou des motifs spatio-temporels rapides. Dans ce travail, nous introduisons BIMBA, un modèle efficace à espace d'états pour traiter les vidéos longues. Notre modèle exploite l'algorithme de balayage sélectif pour apprendre à sélectionner efficacement les informations critiques à partir de vidéos de haute dimension et les transformer en une séquence de tokens réduite pour un traitement efficace par le LLM. Des expériences approfondies démontrent que BIMBA atteint une précision de pointe sur plusieurs benchmarks de VQA pour vidéos longues, notamment PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench et Video-MME. Le code et les modèles sont disponibles publiquement à l'adresse https://sites.google.com/view/bimba-mllm.
Le consensus par échantillonnage aléatoire (RANSAC) est une approche fondamentale pour estimer de manière robuste des modèles paramétriques à partir de données bruitées. Les méthodes existantes de RANSAC basées sur l'apprentissage utilisent l'apprentissage profond pour améliorer la robustesse de RANSAC face aux valeurs aberrantes. Cependant, ces approches sont entraînées et testées sur des données générées par les mêmes algorithmes, ce qui limite leur généralisation à des données hors distribution lors de l'inférence. Par conséquent, dans cet article, nous introduisons un nouveau paradigme basé sur la diffusion qui injecte progressivement du bruit dans les données de référence, simulant ainsi les conditions bruitées pour l'entraînement du RANSAC basé sur l'apprentissage. Pour améliorer la diversité des données, nous intégrons un échantillonnage de Monte Carlo dans le paradigme de diffusion, en approximant diverses distributions de données en introduisant différents types de hasard à plusieurs étapes. Nous évaluons notre approche dans le contexte de l'appariement de caractéristiques à travers des expériences approfondies sur les ensembles de données ScanNet et MegaDepth. Les résultats expérimentaux montrent que notre mécanisme de diffusion Monte Carlo améliore significativement la capacité de généralisation du RANSAC basé sur l'apprentissage. Nous développons également des études d'ablation approfondies qui mettent en évidence l'efficacité des composants clés de notre cadre.
Les champs de force par apprentissage automatique (MLFFs) constituent une alternative prometteuse aux simulations moléculaires quantiques ab initio coûteuses. Compte tenu de la diversité des espaces chimiques d'intérêt et du coût lié à la génération de nouvelles données, il est important de comprendre comment les MLFFs généralisent au-delà de leurs distributions d'entraînement. Afin de caractériser et de mieux comprendre les décalages de distribution dans les MLFFs, nous menons des expériences diagnostiques sur des ensembles de données chimiques, révélant des décalages courants qui posent des défis significatifs, même pour les grands modèles de base entraînés sur des données étendues. Sur la base de ces observations, nous émettons l'hypothèse que les méthodes actuelles d'entraînement supervisé régularisent insuffisamment les MLFFs, entraînant un surajustement et l'apprentissage de représentations médiocres pour les systèmes hors distribution. Nous proposons ensuite deux nouvelles méthodes comme premières étapes pour atténuer les décalages de distribution dans les MLFFs. Nos méthodes se concentrent sur des stratégies de raffinement au moment du test qui engendrent un coût computationnel minimal et n'utilisent pas d'étiquettes de référence ab initio coûteuses. La première stratégie, basée sur la théorie des graphes spectraux, modifie les arêtes des graphes de test pour les aligner avec les structures de graphes observées pendant l'entraînement. Notre deuxième stratégie améliore les représentations pour les systèmes hors distribution au moment du test en effectuant des pas de gradient à l'aide d'un objectif auxiliaire, tel qu'un a priori physique peu coûteux. Nos stratégies de raffinement au moment du test réduisent significativement les erreurs sur les systèmes hors distribution, suggérant que les MLFFs sont capables de modéliser des espaces chimiques divers et peuvent progresser dans cette direction, mais ne sont pas efficacement entraînés pour le faire. Nos expériences établissent des références claires pour évaluer les capacités de généralisation de la prochaine génération de MLFFs. Notre code est disponible à l'adresse suivante : https://tkreiman.github.io/projects/mlff_distribution_shifts/.