Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération en contexte est un composant clé de la capacité de généralisation des modèles de langage volumineux (LLM) aux tâches ouvertes. En exploitant quelques exemples en tant que contexte, les LLM peuvent effectuer des tâches à la fois dans et hors du domaine. Les récentes avancées dans les modèles vision-langage auto-régressifs (VLM) construits sur les LLM ont démontré des performances impressionnantes dans la génération texte-image. Cependant, le potentiel de l'apprentissage en contexte pour les tâches générales de génération d'images reste largement inexploré. Pour remédier à cela, nous présentons X-Prompt, un modèle de langage visionnel volumineux entièrement auto-régressif conçu pour offrir des performances compétitives sur un large éventail de tâches de génération d'images, vues ou non, le tout dans un cadre unifié d'apprentissage en contexte. X-Prompt intègre une conception spécialisée qui compresse efficacement les caractéristiques précieuses des exemples en contexte, soutenant des séquences de jetons en contexte plus longues et améliorant sa capacité à généraliser à des tâches non vues. Une tâche d'entraînement unifiée pour la prédiction de texte et d'image permet à X-Prompt de gérer la génération d'images générales avec une conscience de tâche améliorée à partir des exemples en contexte. Des expériences approfondies valident les performances du modèle sur diverses tâches de génération d'images vues et sa capacité à généraliser à des tâches précédemment non vues.
Le rapport technique présente O1-CODER, une tentative de reproduire le modèle o1 d'OpenAI en se concentrant sur les tâches de codage. Il intègre l'apprentissage par renforcement (RL) et la recherche arborescente Monte Carlo (MCTS) pour améliorer les capacités de réflexion du Système-2 du modèle. Le cadre comprend la formation d'un Générateur de Cas de Test (TCG) pour des tests de code standardisés, en utilisant MCTS pour générer des données de code avec des processus de raisonnement, et en affinant de manière itérative le modèle de politique pour produire initialement du pseudocode, suivi de la génération du code complet. Le rapport aborde également les opportunités et les défis liés au déploiement de modèles similaires à o1 dans des applications du monde réel, suggérant une transition vers le paradigme du Système-2 et soulignant l'impératif des mises à jour de l'état de l'environnement. Les progrès du modèle mis à jour et les résultats expérimentaux seront rapportés dans les versions ultérieures. Tout le code source, les ensembles de données sélectionnés, ainsi que les modèles dérivés seront divulgués sur https://github.com/ADaM-BJTU/O1-CODER.
Ce travail présente Switti, un transformateur à échelle pour la génération de texte vers image. En partant des modèles AR existants de prédiction à l'échelle suivante, nous les explorons d'abord pour la génération de T2I et proposons des modifications architecturales pour améliorer leur convergence et leurs performances globales. Nous observons ensuite que les cartes d'auto-attention de notre modèle AR à échelle pré-entraîné montrent une faible dépendance par rapport aux échelles précédentes. Sur la base de cette observation, nous proposons un homologue non-AR facilitant un échantillonnage environ 11% plus rapide et une utilisation de mémoire plus faible tout en obtenant une qualité de génération légèrement meilleure. De plus, nous révélons que l'orientation sans classificateur aux échelles de haute résolution est souvent inutile et peut même dégrader les performances. En désactivant l'orientation à ces échelles, nous obtenons une accélération supplémentaire de l'échantillonnage d'environ 20% et améliorons la génération de détails fins. Des études approfondies de préférence humaine et des évaluations automatisées montrent que Switti surpasse les modèles AR T2I existants et rivalise avec les modèles de diffusion T2I de pointe tout en étant jusqu'à 7 fois plus rapide.
Nous présentons le Plan Open-Sora, un projet open source qui vise à contribuer à un grand modèle de génération pour produire des vidéos haute résolution souhaitées avec de longues durées basées sur diverses entrées utilisateur. Notre projet comprend plusieurs composants pour l'ensemble du processus de génération de vidéos, comprenant un Autoencodeur Variationnel Wavelet-Flow, un Débruiteur Joint Image-Video Skiparse, et divers contrôleurs de conditions. De plus, de nombreuses stratégies d'assistance pour un entraînement et une inférence efficaces sont conçues, et un pipeline de curation de données multidimensionnelles est proposé pour obtenir des données de haute qualité souhaitées. Bénéficiant de réflexions efficaces, notre Plan Open-Sora obtient des résultats impressionnants en matière de génération de vidéos dans des évaluations qualitatives et quantitatives. Nous espérons que notre conception soignée et notre expérience pratique pourront inspirer la communauté de recherche en génération de vidéos. Tous nos codes et poids de modèles sont disponibles publiquement sur https://github.com/PKU-YuanGroup/Open-Sora-Plan.
Avec l'avancée rapide des modèles génératifs basés sur la diffusion, l'animation d'images de portrait a obtenu des résultats remarquables. Cependant, elle doit encore relever des défis en matière de génération vidéo temporellement cohérente et d'échantillonnage rapide en raison de sa nature d'échantillonnage itératif. Ce document présente FLOAT, une méthode de génération de vidéos de portrait parlant basée sur un modèle génératif de correspondance de flux. Nous déplaçons la modélisation générative de l'espace latent basé sur les pixels vers un espace latent de mouvement appris, permettant la conception efficace de mouvements temporellement cohérents. Pour ce faire, nous introduisons un prédicteur de champ vectoriel basé sur un transformateur avec un mécanisme de conditionnement simple mais efficace au niveau des images. De plus, notre méthode prend en charge l'amélioration des émotions pilotées par la parole, permettant une incorporation naturelle de mouvements expressifs. Des expériences approfondies démontrent que notre méthode surpasse les méthodes de portrait parlant pilotées par l'audio de pointe en termes de qualité visuelle, de fidélité des mouvements et d'efficacité.
Les modèles multimodaux larges actuels (LMM) rencontrent d'importants défis dans le traitement et la compréhension de vidéos de longue durée ou haute résolution, principalement en raison du manque de jeux de données de haute qualité. Pour résoudre ce problème d'un point de vue centré sur les données, nous proposons VISTA, un cadre d'augmentation vidéo spatiotemporelle simple mais efficace qui synthétise des paires d'instructions vidéo de longue durée et haute résolution à partir de jeux de données existants de légendes vidéo. VISTA combine spatialement et temporellement des vidéos pour créer de nouvelles vidéos synthétiques avec des durées étendues et des résolutions améliorées, puis génère des paires question-réponse concernant ces nouvelles vidéos synthétisées. Sur la base de ce paradigme, nous développons sept méthodes d'augmentation vidéo et constituons VISTA-400K, un jeu de données d'instructions vidéo visant à améliorer la compréhension des vidéos de longue durée et haute résolution. Le réglage fin de divers LMM vidéo sur nos données a entraîné une amélioration moyenne de 3,3 % sur quatre benchmarks difficiles pour la compréhension des longues vidéos. De plus, nous introduisons le premier benchmark complet de compréhension de vidéos haute résolution, HRVideoBench, sur lequel nos modèles affinés obtiennent un gain de performance de 6,5 %. Ces résultats mettent en évidence l'efficacité de notre cadre.
Les êtres humains sont des animaux sociaux. Comment équiper les personnages autonomes en 3D d'une intelligence sociale similaire leur permettant de percevoir, comprendre et interagir avec les humains reste un problème ouvert mais fondamental. Dans cet article, nous présentons SOLAMI, le premier cadre de modélisation Vision-Langage-Action sociale de bout en bout (VLA) pour une interaction immersive avec des personnages autonomes en 3D. Plus précisément, SOLAMI construit des personnages autonomes en 3D selon trois aspects : (1) Architecture sociale VLA : Nous proposons un cadre social VLA unifié pour générer une réponse multimodale (parole et mouvement) basée sur l'entrée multimodale de l'utilisateur pour conduire le personnage dans l'interaction sociale. (2) Données multimodales interactives : Nous présentons SynMSI, un ensemble de données d'interaction sociale multimodale synthétique généré par un pipeline automatique utilisant uniquement des ensembles de données de mouvement existants pour résoudre le problème de la rareté des données. (3) Interface VR immersive : Nous développons une interface VR qui permet aux utilisateurs d'interagir de manière immersive avec ces personnages pilotés par diverses architectures. Des expériences quantitatives approfondies et des études utilisateur démontrent que notre cadre conduit à des réponses de personnage plus précises et naturelles (à la fois en parole et en mouvement) qui correspondent aux attentes des utilisateurs avec une latence plus faible.
Dans cet article, nous présentons TAPTRv3, qui est construit sur la base de TAPTRv2 pour améliorer la robustesse du suivi de points dans les longues vidéos. TAPTRv2 est un cadre simple similaire à DETR qui peut suivre avec précision n'importe quel point dans des vidéos du monde réel sans nécessiter de volume de coût. TAPTRv3 améliore TAPTRv2 en abordant sa lacune dans la requête de caractéristiques de haute qualité à partir de longues vidéos, où les points de suivi cibles subissent normalement une variation croissante au fil du temps. Dans TAPTRv3, nous proposons d'utiliser à la fois le contexte spatial et temporel pour améliorer la requête de caractéristiques le long des dimensions spatiales et temporelles pour un suivi plus robuste dans les longues vidéos. Pour une meilleure requête de caractéristiques spatiales, nous présentons l'Attention Croisée Sensible au Contexte (CCA), qui exploite le contexte spatial environnant pour améliorer la qualité des scores d'attention lors de la requête des caractéristiques de l'image. Pour une meilleure requête de caractéristiques temporelles, nous introduisons l'Attention Longue-Temporelle Sensible à la Visibilité (VLTA) pour effectuer une attention temporelle sur tous les trames passées tout en considérant leurs visibilités correspondantes, ce qui adresse efficacement le problème de dérive des caractéristiques dans TAPTRv2 causé par sa modélisation temporelle longue de type RNN. TAPTRv3 surpasse largement TAPTRv2 sur la plupart des ensembles de données difficiles et obtient des performances de pointe. Même comparé à des méthodes entraînées avec des données internes supplémentaires à grande échelle, TAPTRv3 reste compétitif.
Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont réalisé des avancées significatives dans les tâches de compréhension et de génération visuelles. Cependant, la génération de contenu image-texte entrelacé reste un défi, nécessitant des capacités intégrées de compréhension et de génération multimodales. Alors que les progrès des modèles unifiés offrent de nouvelles solutions, les bancs d'essai existants sont insuffisants pour évaluer ces méthodes en raison de limitations de taille et de diversité des données. Pour combler ce fossé, nous présentons GATE OpenING (OpenING), un banc d'essai complet comprenant 5 400 instances annotées par des humains de haute qualité sur 56 tâches du monde réel. OpenING couvre divers scénarios quotidiens tels que le guide de voyage, la conception et le remue-méninges, offrant une plateforme robuste pour des méthodes de génération entrelacées stimulantes. De plus, nous présentons IntJudge, un modèle juge pour évaluer les méthodes de génération multimodales ouvertes. Entraîné avec un nouveau pipeline de données, notre IntJudge atteint un taux d'accord de 82,42% avec les jugements humains, surpassant les évaluateurs basés sur GPT de 11,34%. Des expériences approfondies sur OpenING révèlent que les méthodes actuelles de génération entrelacée ont encore un potentiel d'amélioration substantiel. Les principales conclusions sur la génération image-texte entrelacée sont en outre présentées pour guider le développement des modèles de prochaine génération. L'OpenING est open source sur https://opening.github.io.
Les modèles de substitution basés sur l'apprentissage automatique offrent aux chercheurs des outils puissants pour accélérer les flux de travail basés sur la simulation. Cependant, comme les ensembles de données standard dans ce domaine couvrent souvent de petites classes de comportements physiques, il peut être difficile d'évaluer l'efficacité de nouvelles approches. Pour combler cette lacune, nous présentons le Well : une collection à grande échelle d'ensembles de données contenant des simulations numériques d'une grande variété de systèmes physiques spatiotemporels. Le Well s'appuie sur des experts du domaine et des développeurs de logiciels numériques pour fournir 15 To de données réparties sur 16 ensembles de données couvrant des domaines divers tels que les systèmes biologiques, la dynamique des fluides, la diffusion acoustique, ainsi que les simulations magnétohydrodynamiques de fluides extragalactiques ou d'explosions de supernovae. Ces ensembles de données peuvent être utilisés individuellement ou dans le cadre d'une suite de référence plus large. Pour faciliter l'utilisation du Well, nous fournissons une interface PyTorch unifiée pour l'entraînement et l'évaluation des modèles. Nous démontrons le fonctionnement de cette bibliothèque en introduisant des bases d'exemples qui mettent en lumière les nouveaux défis posés par la dynamique complexe du Well. Le code et les données sont disponibles sur https://github.com/PolymathicAI/the_well.
Le modèle Segment Anything Model 2 (SAM 2) s'est imposé comme un outil puissant pour la segmentation d'objets vidéo et le suivi de tout objet. Les principaux composants de SAM 2 qui contribuent à ses performances impressionnantes en matière de segmentation d'objets vidéo comprennent un grand encodeur d'image à plusieurs étages pour l'extraction des caractéristiques des images et un mécanisme de mémoire qui stocke des contextes de mémoire des images passées pour aider à la segmentation de l'image actuelle. La complexité de calcul élevée de l'encodeur d'image à plusieurs étages et du module de mémoire a limité ses applications dans des tâches réelles, telles que la segmentation d'objets vidéo sur des appareils mobiles. Pour pallier cette limitation, nous proposons EfficientTAMs, des modèles légers de suivi d'objets qui produisent des résultats de haute qualité avec une faible latence et une taille de modèle réduite. Notre idée repose sur la révision du Vision Transformer (ViT) simple et non hiérarchique en tant qu'encodeur d'image pour la segmentation d'objets vidéo, et l'introduction d'un module de mémoire efficace, qui réduit la complexité à la fois pour l'extraction des caractéristiques des images et le calcul de la mémoire pour la segmentation de l'image actuelle. Nous utilisons des ViTs légers de base et un module de mémoire efficace pour construire EfficientTAMs, et entraînons les modèles sur les ensembles de données SA-1B et SA-V pour la segmentation d'objets vidéo et les tâches de suivi d'objets. Nous évaluons sur plusieurs benchmarks de segmentation vidéo, y compris la VOS semi-supervisée et la segmentation vidéo promptable, et constatons que notre EfficientTAM proposé avec ViT de base se comporte de manière comparable au modèle SAM 2 (HieraB+SAM 2) avec un gain de vitesse d'environ 2x sur A100 et une réduction des paramètres d'environ 2,4x. Sur les tâches d'images de segmentation d'objets, nos EfficientTAMs se comportent également favorablement par rapport au SAM original avec un gain de vitesse d'environ 20x sur A100 et une réduction des paramètres d'environ 20x. Sur des appareils mobiles tels que l'iPhone 15 Pro Max, nos EfficientTAMs peuvent fonctionner à environ 10 images par seconde pour effectuer la segmentation d'objets vidéo avec une qualité raisonnable, mettant en avant la capacité des petits modèles pour les applications de segmentation d'objets vidéo sur appareils.
Les modèles de diffusion (DM) excellent dans le photoréalisme, l'édition d'images et la résolution de problèmes inverses, grâce à des techniques de guidage sans classificateur et d'inversion d'images. Cependant, les modèles de flux rectifié (RFMs) restent peu explorés pour ces tâches. Les méthodes existantes basées sur les DM nécessitent souvent une formation supplémentaire, manquent de généralisation aux modèles latents pré-entraînés, sous-performent et exigent des ressources computationnelles significatives en raison de la rétropropagation intensive à travers les solveurs d'EDO et les processus d'inversion. Dans ce travail, nous développons d'abord une compréhension théorique et empirique de la dynamique des champs de vecteurs des RFMs pour guider efficacement la trajectoire de débruitage. Nos résultats révèlent que nous pouvons naviguer dans le champ de vecteurs de manière déterministe et sans gradient. En exploitant cette propriété, nous proposons FlowChef, qui tire parti du champ de vecteurs pour diriger la trajectoire de débruitage pour des tâches de génération d'images contrôlées, facilitée par le saut de gradient. FlowChef est un cadre unifié pour la génération d'images contrôlées qui, pour la première fois, aborde simultanément le guidage par classificateur, les problèmes inverses linéaires et l'édition d'images sans nécessiter de formation supplémentaire, d'inversion ou de rétropropagation intensive. Enfin, nous effectuons des évaluations approfondies et montrons que FlowChef surpasse significativement les bases en termes de performances, de mémoire et d'exigences temporelles, atteignant de nouveaux résultats de pointe. Page du projet : https://flowchef.github.io.
La récente vague d'échantillons d'accord visuel de haute qualité provenant de modèles vision-langage à code source fermé (VLM) tels que GPT-4V a accéléré la publication de VLM à code source ouvert de différentes tailles de modèle. Cependant, l'augmentation de la taille des VLM pour améliorer les performances pose des défis computationnels importants, notamment pour le déploiement sur des appareils aux ressources limitées tels que les plateformes mobiles et les robots. Pour remédier à cela, nous proposons VLsI : Verbalized Layers-to-Interactions, une nouvelle famille de VLM de tailles de modèle 2B et 7B, qui privilégie l'efficacité sans compromettre la précision. VLsI exploite un processus de distillation unique par couche, introduisant des "verbaliseurs" intermédiaires qui cartographient les caractéristiques de chaque couche dans l'espace de langage naturel, permettant aux petits VLM de s'aligner de manière flexible sur les processus de raisonnement des grands VLM. Cette approche atténue l'instabilité d'entraînement souvent rencontrée dans l'imitation de sortie et va au-delà de l'accord habituel de la couche finale en alignant la progression par couche des petits VLM sur celle des grands. Nous validons VLsI sur dix benchmarks vision-langage difficiles, obtenant des gains de performance notables (11,0 % pour 2B et 17,4 % pour 7B) par rapport à GPT-4V sans nécessiter de mise à l'échelle, fusion ou modifications architecturales du modèle.
Les transformateurs de diffusion ont démontré des capacités remarquables dans la génération d'images, mais sont souvent caractérisés par une paramétrisation excessive, entraînant un surcoût significatif lors de l'inférence dans des applications réelles. Dans ce travail, nous présentons TinyFusion, une méthode d'élagage en profondeur conçue pour éliminer les couches redondantes des transformateurs de diffusion via un apprentissage de bout en bout. Le principe fondamental de notre approche est de créer un modèle élagué avec une capacité de récupération élevée, lui permettant de retrouver de bonnes performances après un affinage. Pour ce faire, nous introduisons une technique d'échantillonnage différenciable pour rendre l'élagage apprenable, associée à un paramètre co-optimisé pour simuler un affinage futur. Alors que les travaux antérieurs se concentrent sur la minimisation de la perte ou de l'erreur après l'élagage, notre méthode modélise et optimise explicitement les performances post-affinage des modèles élagués. Les résultats expérimentaux indiquent que ce paradigme apprenable offre des avantages substantiels pour l'élagage des couches des transformateurs de diffusion, surpassant les méthodes existantes basées sur l'importance et l'erreur. De plus, TinyFusion présente une forte généralisation à travers diverses architectures, telles que DiTs, MARs et SiTs. Les expériences avec DiT-XL montrent que TinyFusion peut créer un transformateur de diffusion peu profond pour moins de 7% du coût de pré-entraînement, atteignant un gain de vitesse de 2 fois avec un score FID de 2,86, surpassant les concurrents avec une efficacité comparable. Le code est disponible sur https://github.com/VainF/TinyFusion.
La différence de performance des grands modèles de langage (LLM) entre les langues entrave leur déploiement efficace dans de nombreuses régions, limitant la valeur économique et sociétale potentielle des outils d'IA générative dans de nombreuses communautés. Cependant, le développement de LLM fonctionnels dans de nombreuses langues (c'est-à-dire, des LLM multilingues) est bloqué par le manque de ressources d'évaluation de haute qualité dans des langues autres que l'anglais. De plus, les pratiques actuelles dans la construction de bancs d'essai multilingues traduisent souvent des ressources en anglais, ignorant les connaissances régionales et culturelles des environnements dans lesquels les systèmes multilingues seraient utilisés. Dans ce travail, nous construisons une suite d'évaluation de 197 243 paires de questions-réponses à partir de sources d'examens locaux pour mesurer les capacités des LLM multilingues dans divers contextes régionaux. Notre nouvelle ressource, INCLUDE, est un banc d'essai complet centré sur la connaissance et le raisonnement à travers 44 langues écrites qui évalue les LLM multilingues pour leur performance dans les environnements linguistiques réels où ils seraient déployés.
Le Variational Autoencoder Vidéo (VAE) encode des vidéos dans un espace latent de faible dimension, devenant un composant clé de la plupart des Modèles de Diffusion Vidéo Latente (LVDM) pour réduire les coûts d'entraînement du modèle. Cependant, à mesure que la résolution et la durée des vidéos générées augmentent, le coût d'encodage des VAE Vidéo devient un goulot d'étranglement limitant dans l'entraînement des LVDM. De plus, la méthode d'inférence par bloc adoptée par la plupart des LVDM peut entraîner des discontinuités de l'espace latent lors du traitement de vidéos de longue durée. La clé pour résoudre le goulot d'étranglement computationnel réside dans la décomposition des vidéos en composants distincts et l'encodage efficace des informations critiques. La transformée en ondelettes peut décomposer les vidéos en plusieurs composants de domaine fréquentiel et améliorer significativement l'efficacité, nous proposons donc le Variational Autoencoder à Flux d'Ondelettes (WF-VAE), un autoencodeur qui exploite la transformée en ondelettes multi-niveaux pour faciliter le flux d'énergie à basse fréquence dans la représentation latente. De plus, nous introduisons une méthode appelée Causal Cache, qui maintient l'intégrité de l'espace latent lors de l'inférence par bloc. Comparé aux VAE Vidéo de pointe, le WF-VAE démontre des performances supérieures à la fois en termes de PSNR et de métriques LPIPS, atteignant un débit 2 fois plus élevé et une consommation de mémoire 4 fois inférieure tout en maintenant une qualité de reconstruction compétitive. Notre code et nos modèles sont disponibles sur https://github.com/PKU-YuanGroup/WF-VAE.
Les préoccupations en matière de sécurité des grands modèles de langage multimodaux (MLLM) sont progressivement devenues un problème important dans diverses applications. De manière surprenante, des travaux antérieurs indiquent un phénomène contre-intuitif selon lequel l'utilisation du désapprentissage textuel pour aligner les MLLM permet d'obtenir des performances de sécurité comparables à celles des MLLM entraînés avec des paires image-texte. Pour expliquer un tel phénomène contre-intuitif, nous découvrons un problème de fuite d'informations de sécurité visuelle (VSIL) dans les benchmarks de sécurité multimodaux existants, c'est-à-dire que le contenu potentiellement risqué et sensible dans l'image a été révélé dans la requête textuelle. De cette manière, les MLLM peuvent facilement refuser ces requêtes texte-image sensibles en fonction des requêtes textuelles. Cependant, les paires image-texte sans VSIL sont courantes dans les scénarios du monde réel et sont négligées par les benchmarks de sécurité multimodaux existants. À cette fin, nous avons construit un benchmark de sécurité visuelle multimodal sans fuite (VLSBench) empêchant la fuite de sécurité visuelle de l'image à la requête textuelle avec 2,4k paires image-texte. Les résultats expérimentaux indiquent que VLSBench pose un défi significatif à la fois pour les MLLM open-source et close-source, y compris LLaVA, Qwen2-VL, Llama3.2-Vision et GPT-4o. Cette étude démontre que l'alignement textuel est suffisant pour les scénarios de sécurité multimodaux avec VSIL, tandis que l'alignement multimodal est une solution plus prometteuse pour les scénarios de sécurité multimodaux sans VSIL. Veuillez consulter notre code et nos données sur : http://hxhcreate.github.io/VLSBench
Nous présentons Presto, un nouveau modèle de diffusion vidéo conçu pour générer des vidéos de 15 secondes avec une cohérence à long terme et un contenu riche. Étendre les méthodes de génération de vidéos pour maintenir la diversité des scénarios sur de longues durées présente des défis importants. Pour y remédier, nous proposons une stratégie d'Attention Croisée Segmentée (SCA), qui divise les états cachés en segments le long de la dimension temporelle, permettant à chaque segment de s'attarder sur une sous-légende correspondante. SCA ne nécessite aucun paramètre supplémentaire, ce qui permet une incorporation transparente dans les architectures actuelles basées sur DiT. Pour faciliter la génération de vidéos longues de haute qualité, nous avons construit le jeu de données LongTake-HD, composé de 261 000 vidéos riches en contenu avec une cohérence de scénario, annotées avec une légende vidéo globale et cinq sous-légendes progressives. Les expériences montrent que notre Presto atteint 78,5 % sur le score sémantique VBench et 100 % sur le Degré Dynamique, surpassant les méthodes de génération de vidéos de pointe existantes. Cela démontre que notre Presto proposé améliore significativement la richesse du contenu, maintient une cohérence à long terme et capture des détails textuels complexes. Plus de détails sont disponibles sur notre page de projet : https://presto-video.github.io/.
Nous explorons la question : "Combien de connaissances préalables en art sont nécessaires pour créer de l'art ?" Pour étudier cela, nous proposons un modèle de génération de texte en image entraîné sans accès à du contenu lié à l'art. Nous introduisons ensuite une méthode simple mais efficace pour apprendre un adaptateur artistique en n'utilisant que quelques exemples de styles artistiques sélectionnés. Nos expériences montrent que l'art généré en utilisant notre méthode est perçu par les utilisateurs comme comparable à l'art produit par des modèles entraînés sur de grands ensembles de données riches en art. Enfin, à travers des techniques d'attribution de données, nous illustrons comment des exemples provenant à la fois d'ensembles de données artistiques et non artistiques ont contribué à la création de nouveaux styles artistiques.
Les erreurs de compréhension des informations visuelles dans les images (c'est-à-dire les erreurs de perception visuelle) demeurent une source majeure d'erreurs dans les Grands Modèles de Langage Vision (LVLM). Bien qu'une analyse plus approfondie soit essentielle, il existe une insuffisance de jeux de données pour évaluer la perception visuelle des LVLM. Dans ce travail, nous introduisons VisOnlyQA, un nouveau jeu de données conçu pour évaluer directement les capacités de perception visuelle des LVLM sur des questions portant sur des informations géométriques et numériques dans des figures scientifiques. Notre jeu de données nous permet d'analyser la perception visuelle des LVLM pour des informations visuelles détaillées, indépendamment d'autres capacités telles que le raisonnement. L'ensemble d'évaluation de VisOnlyQA comprend 1 200 questions à choix multiples réparties en 12 tâches sur quatre catégories de figures. Nous fournissons également des données d'entraînement synthétiques comprenant 70 000 exemples. Nos expériences sur VisOnlyQA mettent en évidence les conclusions suivantes : (i) 20 LVLM que nous évaluons, y compris GPT-4o et Gemini 1.5 Pro, fonctionnent mal sur les tâches de perception visuelle dans VisOnlyQA, tandis que les performances humaines sont presque parfaites. (ii) Le fine-tuning sur des données d'entraînement synthétiques démontre le potentiel d'amélioration de la perception visuelle des LVLM, mais les améliorations observées sont limitées à certaines tâches et à des modèles spécifiques. (iii) Des modèles de langage plus puissants améliorent la perception visuelle des LVLM. En résumé, nos expériences suggèrent que à la fois les données d'entraînement et les architectures de modèles devraient être améliorées pour renforcer les capacités de perception visuelle des LVLM. Les jeux de données, le code et les réponses des modèles sont fournis sur https://github.com/psunlpgroup/VisOnlyQA.
Les récentes avancées dans les modèles de langage à grande échelle basés sur la vidéo (Video LLMs) ont vu émerger des capacités diverses pour raisonner et interpréter le contenu visuel dynamique. Parmi celles-ci, les vidéos de gameplay se distinguent en tant que source de données particulière, contenant souvent des anomalies qui défient le bon sens physique. Cette caractéristique en fait un banc d'essai efficace pour évaluer la capacité peu explorée de compréhension du bon sens physique dans les Video LLMs. Dans cet article, nous proposons PhysGame comme un banc d'essai novateur pour évaluer les violations du bon sens physique dans les vidéos de gameplay. PhysGame comprend 880 vidéos associées à des anomalies couvrant quatre domaines fondamentaux (c'est-à-dire, la mécanique, la cinématique, l'optique et les propriétés des matériaux) et à travers 12 bons sens physiques distincts. En évaluant de manière approfondie divers Video LLMs de pointe, nos résultats révèlent que les performances des Video LLMs open source actuels sont nettement inférieures à celles des homologues propriétaires. Pour combler cet écart, nous constituons un ensemble de données d'accord d'instructions, PhysInstruct, avec 140 057 paires question-réponse pour faciliter l'apprentissage du bon sens physique. De plus, nous proposons également un ensemble de données d'optimisation des préférences, PhysDPO, avec 34 358 paires d'entraînement, où les réponses non préférées sont générées en fonction de titres trompeurs (c'est-à-dire, piratage des métadonnées), de moins d'images (c'est-à-dire, piratage temporel) et de résolutions spatiales plus faibles (c'est-à-dire, piratage spatial). Sur la base de la série d'ensembles de données, nous proposons PhysVLM comme un Video LLM enrichi de connaissances physiques. Des expériences approfondies à la fois sur le banc d'essai orienté vers la physique PhysGame et sur les bancs d'essai généraux de compréhension vidéo démontrent les performances de pointe de PhysVLM.
Nous proposons un algorithme général en deux étapes qui bénéficie d'une loi d'échelle prouvable pour le calcul en temps de test de grands modèles de langage (LLM). Étant donné un problème d'entrée, l'algorithme proposé génère d'abord N solutions candidates, puis choisit la meilleure via un tournoi à élimination multiple où chaque paire de candidats est comparée K fois et seuls les gagnants passent au tour suivant. Dans une implémentation minimaliste, les deux étapes peuvent être exécutées uniquement avec un LLM en boîte noire et rien d'autre (par exemple, sans vérificateur externe ou modèle de récompense), et un total de N fois (K + 1) appels LLM hautement parallélisables sont nécessaires pour résoudre un problème d'entrée. En supposant qu'une solution candidate générée est correcte avec une probabilité p_{gen} > 0 et qu'une comparaison entre une paire de solutions correcte et incorrecte identifie le bon gagnant avec une probabilité p_{comp} > 0,5 (c'est-à-dire mieux qu'une supposition aléatoire), nous prouvons théoriquement que la probabilité d'échec de l'algorithme proposé décroît exponentiellement avec N et K : $P(la sortie finale est incorrecte) \leq (1 - p_{gen})^N + \lceil \log_2 N \rceil e^{-2 K (p_{comp} - 0,5)^2}$. Nos résultats empiriques avec le défi MMLU-Pro confirment les hypothèses techniques, ainsi que l'efficacité de l'algorithme proposé et les avantages de l'augmentation de son calcul en temps de test.
Les tâches existantes de navigation d'objectif d'instance incarnée, basées sur le langage naturel, supposent que les utilisateurs humains fournissent des descriptions d'instance complètes et nuancées avant la navigation, ce qui peut être impraticable dans le monde réel car les instructions humaines peuvent être brèves et ambiguës. Pour combler cet écart, nous proposons une nouvelle tâche, la Navigation d'Instance Collaborative (CoIN), avec une interaction dynamique agent-humain pendant la navigation pour résoudre activement les incertitudes sur l'instance cible dans des dialogues naturels, sans modèle prédéfini et ouverts. Pour aborder CoIN, nous proposons une nouvelle méthode, Interaction Agent-utilisateur avec Conscience de l'Incertitude (AIUTA), exploitant la capacité de perception des Modèles de Langage Vision (VLMs) et la capacité des Grands Modèles de Langage (LLMs). Tout d'abord, suite à la détection d'objet, un modèle Auto-Questionneur initie un auto-dialogue pour obtenir une description d'observation complète et précise, tandis qu'une nouvelle technique d'estimation d'incertitude atténue la perception inexacte des VLMs. Ensuite, un module de Déclencheur d'Interaction détermine s'il faut poser une question à l'utilisateur, continuer ou arrêter la navigation, minimisant l'entrée de l'utilisateur. Pour l'évaluation, nous introduisons CoIN-Bench, un banc d'essai prenant en charge à la fois des humains réels et simulés. AIUTA atteint des performances compétitives en matière de navigation d'instance par rapport aux méthodes de pointe, démontrant une grande flexibilité dans le traitement des entrées utilisateur.
Les récents progrès dans les modèles de diffusion ont établi de nouveaux standards en matière de génération d'images et de vidéos, permettant une synthèse visuelle réaliste à travers des contextes à un seul ou plusieurs images. Cependant, ces modèles peinent encore à générer efficacement et explicitement du contenu 3D cohérent. Pour remédier à cela, nous proposons la Diffusion Vidéo Cohérente avec le Monde (WVD), un nouveau cadre qui intègre une supervision 3D explicite en utilisant des images XYZ, qui codent les coordonnées 3D globales pour chaque pixel d'image. Plus précisément, nous entraînons un transformateur de diffusion à apprendre la distribution conjointe des trames RGB et XYZ. Cette approche soutient l'adaptabilité multi-tâches via une stratégie d'inpainting flexible. Par exemple, le WVD peut estimer les trames XYZ à partir des trames RGB réelles ou générer de nouvelles trames RGB en utilisant des projections XYZ le long d'une trajectoire de caméra spécifiée. Ce faisant, le WVD unifie des tâches telles que la génération d'images vers la 3D, la stéréo multi-vue et la génération de vidéos contrôlées par caméra. Notre approche démontre des performances compétitives à travers plusieurs référentiels, offrant une solution évolutive pour la génération d'images et de vidéos cohérentes en 3D avec un seul modèle pré-entraîné.
Faire des analogies est fondamental pour la cognition. Les analogies proportionnelles, qui se composent de quatre termes, sont souvent utilisées pour évaluer les capacités linguistiques et cognitives. Par exemple, compléter des analogies comme "L'oxygène est au gaz ce que <vide> est au <vide>" nécessite d'identifier la relation sémantique (par exemple, "type de") entre le premier couple de termes ("Oxygène" et "Gaz") et de trouver un deuxième couple partageant la même relation (par exemple, "Aluminium" et "Métal"). Dans ce travail, nous introduisons un ensemble de données de 15 000 questions à choix multiples (MCQA) pour l'achèvement d'analogies proportionnelles et évaluons les performances des modèles de langue de grande taille (LLM) contemporains dans divers contextes de requêtes améliorés par la connaissance. Plus précisément, nous enrichissons les requêtes avec trois types de connaissances : exemplaire, structurée et ciblée. Nos résultats montrent qu'en dépit de données d'entraînement étendues, résoudre des analogies proportionnelles reste un défi pour les LLM actuels, le meilleur modèle atteignant une précision de 55 %. Notamment, nous constatons que fournir une connaissance ciblée peut mieux aider les modèles à compléter des analogies proportionnelles par rapport à la fourniture d'exemples ou de collections de connaissances structurées.
Au cours des dernières décennies, les algorithmes de conduite autonome ont réalisé des progrès significatifs en matière de perception, de planification et de contrôle. Cependant, l'évaluation des composants individuels ne reflète pas pleinement les performances des systèmes entiers, soulignant ainsi le besoin de méthodes d'évaluation plus holistiques. Cela motive le développement de HUGSIM, un simulateur en boucle fermée, photoréaliste et en temps réel pour évaluer les algorithmes de conduite autonome. Nous y parvenons en transformant les images 2D RVB capturées dans l'espace 3D via le Splatting gaussien en 3D, améliorant ainsi la qualité de rendu pour les scénarios en boucle fermée, et en construisant l'environnement en boucle fermée. En termes de rendu, nous relevons les défis de la synthèse de nouvelles vues dans les scénarios en boucle fermée, y compris l'extrapolation du point de vue et le rendu des véhicules à 360 degrés. Au-delà de la synthèse de nouvelles vues, HUGSIM permet en outre la boucle de simulation complète, mettant à jour dynamiquement les états et observations de l'ego et des acteurs en fonction des commandes de contrôle. De plus, HUGSIM propose un benchmark complet sur plus de 70 séquences provenant de KITTI-360, Waymo, nuScenes et PandaSet, ainsi que plus de 400 scénarios variés, offrant une plateforme d'évaluation équitable et réaliste pour les algorithmes de conduite autonome existants. HUGSIM ne sert pas seulement de référence d'évaluation intuitive, mais ouvre également la voie à l'optimisation des algorithmes de conduite autonome dans un environnement en boucle fermée photoréaliste.
Atteindre un alignement précis entre les instructions textuelles et les images générées dans la génération texte-image est un défi majeur, en particulier pour rendre du texte écrit dans les images. Les modèles de pointe tels que Stable Diffusion 3 (SD3), Flux et AuraFlow ont encore du mal avec la représentation précise du texte, ce qui entraîne des fautes d'orthographe ou un texte incohérent. Nous introduisons une méthode sans entraînement avec une surcharge computationnelle minimale qui améliore significativement la qualité de rendu du texte. Plus précisément, nous introduisons un échantillonneur de dépassement pour les modèles de flux rectifié (RF) pré-entraînés, en alternant entre la sur-simulation de l'équation différentielle ordinaire (ODE) apprise et la réintroduction de bruit. Comparé à l'échantillonneur d'Euler, l'échantillonneur de dépassement introduit efficacement un terme de dynamique de Langevin supplémentaire qui peut aider à corriger l'erreur cumulative des étapes d'Euler successives et donc améliorer le rendu du texte. Cependant, lorsque la force de dépassement est élevée, nous observons des artefacts de lissage excessif sur les images générées. Pour résoudre ce problème, nous proposons un échantillonneur de dépassement modulé par l'attention (AMO), qui contrôle de manière adaptative la force de dépassement pour chaque patch d'image en fonction de leur score d'attention avec le contenu textuel. AMO démontre une amélioration de 32,3 % et 35,9 % de la précision du rendu du texte sur SD3 et Flux sans compromettre la qualité globale de l'image ou augmenter le coût d'inférence.
La détection de contenu abusif en ligne, en particulier dans des environnements à ressources limitées et dans la modalité audio, reste peu explorée. Nous étudions le potentiel des représentations audio pré-entraînées pour détecter le langage abusif dans des langues à faibles ressources, dans ce cas, dans les langues indiennes en utilisant l'Apprentissage à Faible Nombre d'Exemples (FSL). En exploitant des représentations puissantes de modèles tels que Wav2Vec et Whisper, nous explorons la détection d'abus interlingue en utilisant l'ensemble de données ADIMA avec FSL. Notre approche intègre ces représentations dans le cadre d'Apprentissage Méta-Agnostique de Modèle (MAML) pour classer le langage abusif dans 10 langues. Nous expérimentons avec diverses tailles d'échantillons (50-200) en évaluant l'impact des données limitées sur les performances. De plus, une étude de visualisation des caractéristiques a été menée pour mieux comprendre le comportement du modèle. Cette étude met en lumière la capacité de généralisation des modèles pré-entraînés dans des scénarios à faibles ressources et offre des perspectives précieuses pour détecter le langage abusif dans des contextes multilingues.
Un système de vérification de locuteur (SV) offre un service d'authentification conçu pour confirmer si un échantillon de parole donné provient d'un locuteur spécifique. Cette technologie a ouvert la voie à diverses applications personnalisées qui répondent aux préférences individuelles. Un défi notable auquel sont confrontés les systèmes SV est leur capacité à fonctionner de manière cohérente sur une gamme de spectres émotionnels. La plupart des modèles existants présentent des taux d'erreur élevés lorsqu'ils traitent des énoncés émotionnels par rapport à des énoncés neutres. Par conséquent, ce phénomène conduit souvent à passer à côté de discours d'intérêt. Ce problème découle principalement de la disponibilité limitée de données vocales émotionnelles étiquetées, entravant le développement de représentations robustes des locuteurs qui englobent divers états émotionnels. Pour répondre à cette préoccupation, nous proposons une approche novatrice utilisant le cadre CycleGAN comme méthode d'augmentation de données. Cette technique synthétise des segments de parole émotionnelle pour chaque locuteur spécifique tout en préservant l'identité vocale unique. Nos résultats expérimentaux soulignent l'efficacité de l'incorporation de données émotionnelles synthétiques dans le processus d'entraînement. Les modèles entraînés à l'aide de cet ensemble de données augmenté surpassent de manière cohérente les modèles de référence dans la tâche de vérification des locuteurs dans des scénarios de discours émotionnels, réduisant le taux d'erreur égal jusqu'à 3,64% en relatif.