Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

X-Prompt : Vers une génération d'images universelle en contexte dans les modèles fondamentaux de vision et de langage auto-régressifs
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2, 2024

Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

662

La génération en contexte est un composant clé de la capacité de généralisation des modèles de langage volumineux (LLM) aux tâches ouvertes. En exploitant quelques exemples en tant que contexte, les LLM peuvent effectuer des tâches à la fois dans et hors du domaine. Les récentes avancées dans les modèles vision-langage auto-régressifs (VLM) construits sur les LLM ont démontré des performances impressionnantes dans la génération texte-image. Cependant, le potentiel de l'apprentissage en contexte pour les tâches générales de génération d'images reste largement inexploré. Pour remédier à cela, nous présentons X-Prompt, un modèle de langage visionnel volumineux entièrement auto-régressif conçu pour offrir des performances compétitives sur un large éventail de tâches de génération d'images, vues ou non, le tout dans un cadre unifié d'apprentissage en contexte. X-Prompt intègre une conception spécialisée qui compresse efficacement les caractéristiques précieuses des exemples en contexte, soutenant des séquences de jetons en contexte plus longues et améliorant sa capacité à généraliser à des tâches non vues. Une tâche d'entraînement unifiée pour la prédiction de texte et d'image permet à X-Prompt de gérer la génération d'images générales avec une conscience de tâche améliorée à partir des exemples en contexte. Des expériences approfondies valident les performances du modèle sur diverses tâches de génération d'images vues et sa capacité à généraliser à des tâches précédemment non vues.

o1-Coder : une réplication o1 pour la programmation
o1-Coder: an o1 Replication for Coding

Nov 29, 2024

Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

452

Le rapport technique présente O1-CODER, une tentative de reproduire le modèle o1 d'OpenAI en se concentrant sur les tâches de codage. Il intègre l'apprentissage par renforcement (RL) et la recherche arborescente Monte Carlo (MCTS) pour améliorer les capacités de réflexion du Système-2 du modèle. Le cadre comprend la formation d'un Générateur de Cas de Test (TCG) pour des tests de code standardisés, en utilisant MCTS pour générer des données de code avec des processus de raisonnement, et en affinant de manière itérative le modèle de politique pour produire initialement du pseudocode, suivi de la génération du code complet. Le rapport aborde également les opportunités et les défis liés au déploiement de modèles similaires à o1 dans des applications du monde réel, suggérant une transition vers le paradigme du Système-2 et soulignant l'impératif des mises à jour de l'état de l'environnement. Les progrès du modèle mis à jour et les résultats expérimentaux seront rapportés dans les versions ultérieures. Tout le code source, les ensembles de données sélectionnés, ainsi que les modèles dérivés seront divulgués sur https://github.com/ADaM-BJTU/O1-CODER.

FLAOT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2, 2024

Taekyung Ki, Dongchan Min, Gyoungsu Chae

428

Avec l'avancée rapide des modèles génératifs basés sur la diffusion, l'animation d'images de portrait a obtenu des résultats remarquables. Cependant, elle doit encore relever des défis en matière de génération vidéo temporellement cohérente et d'échantillonnage rapide en raison de sa nature d'échantillonnage itératif. Ce document présente FLOAT, une méthode de génération de vidéos de portrait parlant basée sur un modèle génératif de correspondance de flux. Nous déplaçons la modélisation générative de l'espace latent basé sur les pixels vers un espace latent de mouvement appris, permettant la conception efficace de mouvements temporellement cohérents. Pour ce faire, nous introduisons un prédicteur de champ vectoriel basé sur un transformateur avec un mécanisme de conditionnement simple mais efficace au niveau des images. De plus, notre méthode prend en charge l'amélioration des émotions pilotées par la parole, permettant une incorporation naturelle de mouvements expressifs. Des expériences approfondies démontrent que notre méthode surpasse les méthodes de portrait parlant pilotées par l'audio de pointe en termes de qualité visuelle, de fidélité des mouvements et d'efficacité.

Switti : Conception de transformateurs à différentes échelles pour la synthèse texte-image
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2, 2024

Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

363

Ce travail présente Switti, un transformateur à échelle pour la génération de texte vers image. En partant des modèles AR existants de prédiction à l'échelle suivante, nous les explorons d'abord pour la génération de T2I et proposons des modifications architecturales pour améliorer leur convergence et leurs performances globales. Nous observons ensuite que les cartes d'auto-attention de notre modèle AR à échelle pré-entraîné montrent une faible dépendance par rapport aux échelles précédentes. Sur la base de cette observation, nous proposons un homologue non-AR facilitant un échantillonnage environ 11% plus rapide et une utilisation de mémoire plus faible tout en obtenant une qualité de génération légèrement meilleure. De plus, nous révélons que l'orientation sans classificateur aux échelles de haute résolution est souvent inutile et peut même dégrader les performances. En désactivant l'orientation à ces échelles, nous obtenons une accélération supplémentaire de l'échantillonnage d'environ 20% et améliorons la génération de détails fins. Des études approfondies de préférence humaine et des évaluations automatisées montrent que Switti surpasse les modèles AR T2I existants et rivalise avec les modèles de diffusion T2I de pointe tout en étant jusqu'à 7 fois plus rapide.

Plan Open-Sora : Modèle de Génération de Vidéo de Grande Taille en Open Source
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28, 2024

Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan

342

Nous présentons le Plan Open-Sora, un projet open source qui vise à contribuer à un grand modèle de génération pour produire des vidéos haute résolution souhaitées avec de longues durées basées sur diverses entrées utilisateur. Notre projet comprend plusieurs composants pour l'ensemble du processus de génération de vidéos, comprenant un Autoencodeur Variationnel Wavelet-Flow, un Débruiteur Joint Image-Video Skiparse, et divers contrôleurs de conditions. De plus, de nombreuses stratégies d'assistance pour un entraînement et une inférence efficaces sont conçues, et un pipeline de curation de données multidimensionnelles est proposé pour obtenir des données de haute qualité souhaitées. Bénéficiant de réflexions efficaces, notre Plan Open-Sora obtient des résultats impressionnants en matière de génération de vidéos dans des évaluations qualitatives et quantitatives. Nous espérons que notre conception soignée et notre expérience pratique pourront inspirer la communauté de recherche en génération de vidéos. Tous nos codes et poids de modèles sont disponibles publiquement sur https://github.com/PKU-YuanGroup/Open-Sora-Plan.

VISTA : Amélioration de la compréhension des vidéos de longue durée et haute résolution par augmentation spatiotemporelle de la vidéo
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1, 2024

Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

282

Les modèles multimodaux larges actuels (LMM) rencontrent d'importants défis dans le traitement et la compréhension de vidéos de longue durée ou haute résolution, principalement en raison du manque de jeux de données de haute qualité. Pour résoudre ce problème d'un point de vue centré sur les données, nous proposons VISTA, un cadre d'augmentation vidéo spatiotemporelle simple mais efficace qui synthétise des paires d'instructions vidéo de longue durée et haute résolution à partir de jeux de données existants de légendes vidéo. VISTA combine spatialement et temporellement des vidéos pour créer de nouvelles vidéos synthétiques avec des durées étendues et des résolutions améliorées, puis génère des paires question-réponse concernant ces nouvelles vidéos synthétisées. Sur la base de ce paradigme, nous développons sept méthodes d'augmentation vidéo et constituons VISTA-400K, un jeu de données d'instructions vidéo visant à améliorer la compréhension des vidéos de longue durée et haute résolution. Le réglage fin de divers LMM vidéo sur nos données a entraîné une amélioration moyenne de 3,3 % sur quatre benchmarks difficiles pour la compréhension des longues vidéos. De plus, nous introduisons le premier benchmark complet de compréhension de vidéos haute résolution, HRVideoBench, sur lequel nos modèles affinés obtiennent un gain de performance de 6,5 %. Ces résultats mettent en évidence l'efficacité de notre cadre.

SOLAMI : Modélisation sociale de la vision-langage-action pour une interaction immersive avec des personnages autonomes en 3D
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29, 2024

Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

232

Les êtres humains sont des animaux sociaux. Comment équiper les personnages autonomes en 3D d'une intelligence sociale similaire leur permettant de percevoir, comprendre et interagir avec les humains reste un problème ouvert mais fondamental. Dans cet article, nous présentons SOLAMI, le premier cadre de modélisation Vision-Langage-Action sociale de bout en bout (VLA) pour une interaction immersive avec des personnages autonomes en 3D. Plus précisément, SOLAMI construit des personnages autonomes en 3D selon trois aspects : (1) Architecture sociale VLA : Nous proposons un cadre social VLA unifié pour générer une réponse multimodale (parole et mouvement) basée sur l'entrée multimodale de l'utilisateur pour conduire le personnage dans l'interaction sociale. (2) Données multimodales interactives : Nous présentons SynMSI, un ensemble de données d'interaction sociale multimodale synthétique généré par un pipeline automatique utilisant uniquement des ensembles de données de mouvement existants pour résoudre le problème de la rareté des données. (3) Interface VR immersive : Nous développons une interface VR qui permet aux utilisateurs d'interagir de manière immersive avec ces personnages pilotés par diverses architectures. Des expériences quantitatives approfondies et des études utilisateur démontrent que notre cadre conduit à des réponses de personnage plus précises et naturelles (à la fois en parole et en mouvement) qui correspondent aux attentes des utilisateurs avec une latence plus faible.

TAPTRv3 : Le contexte spatial et temporel favorise le suivi robuste de n'importe quel point dans une longue vidéo
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27, 2024

Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

202

Dans cet article, nous présentons TAPTRv3, qui est construit sur la base de TAPTRv2 pour améliorer la robustesse du suivi de points dans les longues vidéos. TAPTRv2 est un cadre simple similaire à DETR qui peut suivre avec précision n'importe quel point dans des vidéos du monde réel sans nécessiter de volume de coût. TAPTRv3 améliore TAPTRv2 en abordant sa lacune dans la requête de caractéristiques de haute qualité à partir de longues vidéos, où les points de suivi cibles subissent normalement une variation croissante au fil du temps. Dans TAPTRv3, nous proposons d'utiliser à la fois le contexte spatial et temporel pour améliorer la requête de caractéristiques le long des dimensions spatiales et temporelles pour un suivi plus robuste dans les longues vidéos. Pour une meilleure requête de caractéristiques spatiales, nous présentons l'Attention Croisée Sensible au Contexte (CCA), qui exploite le contexte spatial environnant pour améliorer la qualité des scores d'attention lors de la requête des caractéristiques de l'image. Pour une meilleure requête de caractéristiques temporelles, nous introduisons l'Attention Longue-Temporelle Sensible à la Visibilité (VLTA) pour effectuer une attention temporelle sur tous les trames passées tout en considérant leurs visibilités correspondantes, ce qui adresse efficacement le problème de dérive des caractéristiques dans TAPTRv2 causé par sa modélisation temporelle longue de type RNN. TAPTRv3 surpasse largement TAPTRv2 sur la plupart des ensembles de données difficiles et obtient des performances de pointe. Même comparé à des méthodes entraînées avec des données internes supplémentaires à grande échelle, TAPTRv3 reste compétitif.

OUVERTURE DE GATE : Un banc d'essai exhaustif pour évaluer la génération d'images et de texte entrelacée ouverte
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27, 2024

Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang

182

Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont réalisé des avancées significatives dans les tâches de compréhension et de génération visuelles. Cependant, la génération de contenu image-texte entrelacé reste un défi, nécessitant des capacités intégrées de compréhension et de génération multimodales. Alors que les progrès des modèles unifiés offrent de nouvelles solutions, les bancs d'essai existants sont insuffisants pour évaluer ces méthodes en raison de limitations de taille et de diversité des données. Pour combler ce fossé, nous présentons GATE OpenING (OpenING), un banc d'essai complet comprenant 5 400 instances annotées par des humains de haute qualité sur 56 tâches du monde réel. OpenING couvre divers scénarios quotidiens tels que le guide de voyage, la conception et le remue-méninges, offrant une plateforme robuste pour des méthodes de génération entrelacées stimulantes. De plus, nous présentons IntJudge, un modèle juge pour évaluer les méthodes de génération multimodales ouvertes. Entraîné avec un nouveau pipeline de données, notre IntJudge atteint un taux d'accord de 82,42% avec les jugements humains, surpassant les évaluateurs basés sur GPT de 11,34%. Des expériences approfondies sur OpenING révèlent que les méthodes actuelles de génération entrelacée ont encore un potentiel d'amélioration substantiel. Les principales conclusions sur la génération image-texte entrelacée sont en outre présentées pour guider le développement des modèles de prochaine génération. L'OpenING est open source sur https://opening.github.io.

Le Puits : une vaste collection de simulations physiques diverses pour l'apprentissage automatique
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30, 2024

Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho

172

Les modèles de substitution basés sur l'apprentissage automatique offrent aux chercheurs des outils puissants pour accélérer les flux de travail basés sur la simulation. Cependant, comme les ensembles de données standard dans ce domaine couvrent souvent de petites classes de comportements physiques, il peut être difficile d'évaluer l'efficacité de nouvelles approches. Pour combler cette lacune, nous présentons le Well : une collection à grande échelle d'ensembles de données contenant des simulations numériques d'une grande variété de systèmes physiques spatiotemporels. Le Well s'appuie sur des experts du domaine et des développeurs de logiciels numériques pour fournir 15 To de données réparties sur 16 ensembles de données couvrant des domaines divers tels que les systèmes biologiques, la dynamique des fluides, la diffusion acoustique, ainsi que les simulations magnétohydrodynamiques de fluides extragalactiques ou d'explosions de supernovae. Ces ensembles de données peuvent être utilisés individuellement ou dans le cadre d'une suite de référence plus large. Pour faciliter l'utilisation du Well, nous fournissons une interface PyTorch unifiée pour l'entraînement et l'évaluation des modèles. Nous démontrons le fonctionnement de cette bibliothèque en introduisant des bases d'exemples qui mettent en lumière les nouveaux défis posés par la dynamique complexe du Well. Le code et les données sont disponibles sur https://github.com/PolymathicAI/the_well.

Suivi Efficace de Tout
Efficient Track Anything

Nov 28, 2024

Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra

173

Le modèle Segment Anything Model 2 (SAM 2) s'est imposé comme un outil puissant pour la segmentation d'objets vidéo et le suivi de tout objet. Les principaux composants de SAM 2 qui contribuent à ses performances impressionnantes en matière de segmentation d'objets vidéo comprennent un grand encodeur d'image à plusieurs étages pour l'extraction des caractéristiques des images et un mécanisme de mémoire qui stocke des contextes de mémoire des images passées pour aider à la segmentation de l'image actuelle. La complexité de calcul élevée de l'encodeur d'image à plusieurs étages et du module de mémoire a limité ses applications dans des tâches réelles, telles que la segmentation d'objets vidéo sur des appareils mobiles. Pour pallier cette limitation, nous proposons EfficientTAMs, des modèles légers de suivi d'objets qui produisent des résultats de haute qualité avec une faible latence et une taille de modèle réduite. Notre idée repose sur la révision du Vision Transformer (ViT) simple et non hiérarchique en tant qu'encodeur d'image pour la segmentation d'objets vidéo, et l'introduction d'un module de mémoire efficace, qui réduit la complexité à la fois pour l'extraction des caractéristiques des images et le calcul de la mémoire pour la segmentation de l'image actuelle. Nous utilisons des ViTs légers de base et un module de mémoire efficace pour construire EfficientTAMs, et entraînons les modèles sur les ensembles de données SA-1B et SA-V pour la segmentation d'objets vidéo et les tâches de suivi d'objets. Nous évaluons sur plusieurs benchmarks de segmentation vidéo, y compris la VOS semi-supervisée et la segmentation vidéo promptable, et constatons que notre EfficientTAM proposé avec ViT de base se comporte de manière comparable au modèle SAM 2 (HieraB+SAM 2) avec un gain de vitesse d'environ 2x sur A100 et une réduction des paramètres d'environ 2,4x. Sur les tâches d'images de segmentation d'objets, nos EfficientTAMs se comportent également favorablement par rapport au SAM original avec un gain de vitesse d'environ 20x sur A100 et une réduction des paramètres d'environ 20x. Sur des appareils mobiles tels que l'iPhone 15 Pro Max, nos EfficientTAMs peuvent fonctionner à environ 10 images par seconde pour effectuer la segmentation d'objets vidéo avec une qualité raisonnable, mettant en avant la capacité des petits modèles pour les applications de segmentation d'objets vidéo sur appareils.

Modèles de flux rectifiés de direction dans le champ vectoriel pour la génération d'images contrôlée
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27, 2024

Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

168

Les modèles de diffusion (DM) excellent dans le photoréalisme, l'édition d'images et la résolution de problèmes inverses, grâce à des techniques de guidage sans classificateur et d'inversion d'images. Cependant, les modèles de flux rectifié (RFMs) restent peu explorés pour ces tâches. Les méthodes existantes basées sur les DM nécessitent souvent une formation supplémentaire, manquent de généralisation aux modèles latents pré-entraînés, sous-performent et exigent des ressources computationnelles significatives en raison de la rétropropagation intensive à travers les solveurs d'EDO et les processus d'inversion. Dans ce travail, nous développons d'abord une compréhension théorique et empirique de la dynamique des champs de vecteurs des RFMs pour guider efficacement la trajectoire de débruitage. Nos résultats révèlent que nous pouvons naviguer dans le champ de vecteurs de manière déterministe et sans gradient. En exploitant cette propriété, nous proposons FlowChef, qui tire parti du champ de vecteurs pour diriger la trajectoire de débruitage pour des tâches de génération d'images contrôlées, facilitée par le saut de gradient. FlowChef est un cadre unifié pour la génération d'images contrôlées qui, pour la première fois, aborde simultanément le guidage par classificateur, les problèmes inverses linéaires et l'édition d'images sans nécessiter de formation supplémentaire, d'inversion ou de rétropropagation intensive. Enfin, nous effectuons des évaluations approfondies et montrons que FlowChef surpasse significativement les bases en termes de performances, de mémoire et d'exigences temporelles, atteignant de nouveaux résultats de pointe. Page du projet : https://flowchef.github.io.

VLsI : De la verbalisation des couches aux interactions des grands aux petits modèles de langage vision.
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2, 2024

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

152

La récente vague d'échantillons d'accord visuel de haute qualité provenant de modèles vision-langage à code source fermé (VLM) tels que GPT-4V a accéléré la publication de VLM à code source ouvert de différentes tailles de modèle. Cependant, l'augmentation de la taille des VLM pour améliorer les performances pose des défis computationnels importants, notamment pour le déploiement sur des appareils aux ressources limitées tels que les plateformes mobiles et les robots. Pour remédier à cela, nous proposons VLsI : Verbalized Layers-to-Interactions, une nouvelle famille de VLM de tailles de modèle 2B et 7B, qui privilégie l'efficacité sans compromettre la précision. VLsI exploite un processus de distillation unique par couche, introduisant des "verbaliseurs" intermédiaires qui cartographient les caractéristiques de chaque couche dans l'espace de langage naturel, permettant aux petits VLM de s'aligner de manière flexible sur les processus de raisonnement des grands VLM. Cette approche atténue l'instabilité d'entraînement souvent rencontrée dans l'imitation de sortie et va au-delà de l'accord habituel de la couche finale en alignant la progression par couche des petits VLM sur celle des grands. Nous validons VLsI sur dix benchmarks vision-langage difficiles, obtenant des gains de performance notables (11,0 % pour 2B et 17,4 % pour 7B) par rapport à GPT-4V sans nécessiter de mise à l'échelle, fusion ou modifications architecturales du modèle.

TinyFusion : Transformateurs de Diffusion Peu Profonds Appris
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2, 2024

Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

142

Les transformateurs de diffusion ont démontré des capacités remarquables dans la génération d'images, mais sont souvent caractérisés par une paramétrisation excessive, entraînant un surcoût significatif lors de l'inférence dans des applications réelles. Dans ce travail, nous présentons TinyFusion, une méthode d'élagage en profondeur conçue pour éliminer les couches redondantes des transformateurs de diffusion via un apprentissage de bout en bout. Le principe fondamental de notre approche est de créer un modèle élagué avec une capacité de récupération élevée, lui permettant de retrouver de bonnes performances après un affinage. Pour ce faire, nous introduisons une technique d'échantillonnage différenciable pour rendre l'élagage apprenable, associée à un paramètre co-optimisé pour simuler un affinage futur. Alors que les travaux antérieurs se concentrent sur la minimisation de la perte ou de l'erreur après l'élagage, notre méthode modélise et optimise explicitement les performances post-affinage des modèles élagués. Les résultats expérimentaux indiquent que ce paradigme apprenable offre des avantages substantiels pour l'élagage des couches des transformateurs de diffusion, surpassant les méthodes existantes basées sur l'importance et l'erreur. De plus, TinyFusion présente une forte généralisation à travers diverses architectures, telles que DiTs, MARs et SiTs. Les expériences avec DiT-XL montrent que TinyFusion peut créer un transformateur de diffusion peu profond pour moins de 7% du coût de pré-entraînement, atteignant un gain de vitesse de 2 fois avec un score FID de 2,86, surpassant les concurrents avec une efficacité comparable. Le code est disponible sur https://github.com/VainF/TinyFusion.

Inclure : Évaluation de la compréhension multilingue du langage avec des connaissances régionales
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29, 2024

Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut

142

La différence de performance des grands modèles de langage (LLM) entre les langues entrave leur déploiement efficace dans de nombreuses régions, limitant la valeur économique et sociétale potentielle des outils d'IA générative dans de nombreuses communautés. Cependant, le développement de LLM fonctionnels dans de nombreuses langues (c'est-à-dire, des LLM multilingues) est bloqué par le manque de ressources d'évaluation de haute qualité dans des langues autres que l'anglais. De plus, les pratiques actuelles dans la construction de bancs d'essai multilingues traduisent souvent des ressources en anglais, ignorant les connaissances régionales et culturelles des environnements dans lesquels les systèmes multilingues seraient utilisés. Dans ce travail, nous construisons une suite d'évaluation de 197 243 paires de questions-réponses à partir de sources d'examens locaux pour mesurer les capacités des LLM multilingues dans divers contextes régionaux. Notre nouvelle ressource, INCLUDE, est un banc d'essai complet centré sur la connaissance et le raisonnement à travers 44 langues écrites qui évalue les LLM multilingues pour leur performance dans les environnements linguistiques réels où ils seraient déployés.

WF-VAE : Amélioration de Video VAE par Flux d'Énergie Piloté par Ondelettes pour le Modèle de Diffusion Vidéo Latent
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26, 2024

Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

112

Le Variational Autoencoder Vidéo (VAE) encode des vidéos dans un espace latent de faible dimension, devenant un composant clé de la plupart des Modèles de Diffusion Vidéo Latente (LVDM) pour réduire les coûts d'entraînement du modèle. Cependant, à mesure que la résolution et la durée des vidéos générées augmentent, le coût d'encodage des VAE Vidéo devient un goulot d'étranglement limitant dans l'entraînement des LVDM. De plus, la méthode d'inférence par bloc adoptée par la plupart des LVDM peut entraîner des discontinuités de l'espace latent lors du traitement de vidéos de longue durée. La clé pour résoudre le goulot d'étranglement computationnel réside dans la décomposition des vidéos en composants distincts et l'encodage efficace des informations critiques. La transformée en ondelettes peut décomposer les vidéos en plusieurs composants de domaine fréquentiel et améliorer significativement l'efficacité, nous proposons donc le Variational Autoencoder à Flux d'Ondelettes (WF-VAE), un autoencodeur qui exploite la transformée en ondelettes multi-niveaux pour faciliter le flux d'énergie à basse fréquence dans la représentation latente. De plus, nous introduisons une méthode appelée Causal Cache, qui maintient l'intégrité de l'espace latent lors de l'inférence par bloc. Comparé aux VAE Vidéo de pointe, le WF-VAE démontre des performances supérieures à la fois en termes de PSNR et de métriques LPIPS, atteignant un débit 2 fois plus élevé et une consommation de mémoire 4 fois inférieure tout en maintenant une qualité de reconstruction compétitive. Notre code et nos modèles sont disponibles sur https://github.com/PKU-YuanGroup/WF-VAE.

VLSBench : Révéler les Fuites Visuelles dans la Sécurité Multimodale
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29, 2024

Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

102

Les préoccupations en matière de sécurité des grands modèles de langage multimodaux (MLLM) sont progressivement devenues un problème important dans diverses applications. De manière surprenante, des travaux antérieurs indiquent un phénomène contre-intuitif selon lequel l'utilisation du désapprentissage textuel pour aligner les MLLM permet d'obtenir des performances de sécurité comparables à celles des MLLM entraînés avec des paires image-texte. Pour expliquer un tel phénomène contre-intuitif, nous découvrons un problème de fuite d'informations de sécurité visuelle (VSIL) dans les benchmarks de sécurité multimodaux existants, c'est-à-dire que le contenu potentiellement risqué et sensible dans l'image a été révélé dans la requête textuelle. De cette manière, les MLLM peuvent facilement refuser ces requêtes texte-image sensibles en fonction des requêtes textuelles. Cependant, les paires image-texte sans VSIL sont courantes dans les scénarios du monde réel et sont négligées par les benchmarks de sécurité multimodaux existants. À cette fin, nous avons construit un benchmark de sécurité visuelle multimodal sans fuite (VLSBench) empêchant la fuite de sécurité visuelle de l'image à la requête textuelle avec 2,4k paires image-texte. Les résultats expérimentaux indiquent que VLSBench pose un défi significatif à la fois pour les MLLM open-source et close-source, y compris LLaVA, Qwen2-VL, Llama3.2-Vision et GPT-4o. Cette étude démontre que l'alignement textuel est suffisant pour les scénarios de sécurité multimodaux avec VSIL, tandis que l'alignement multimodal est une solution plus prometteuse pour les scénarios de sécurité multimodaux sans VSIL. Veuillez consulter notre code et nos données sur : http://hxhcreate.github.io/VLSBench

Génération de diffusion vidéo longue avec attention croisée segmentée et Curatelle de données vidéo riches en contenu
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2, 2024

Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

Nous présentons Presto, un nouveau modèle de diffusion vidéo conçu pour générer des vidéos de 15 secondes avec une cohérence à long terme et un contenu riche. Étendre les méthodes de génération de vidéos pour maintenir la diversité des scénarios sur de longues durées présente des défis importants. Pour y remédier, nous proposons une stratégie d'Attention Croisée Segmentée (SCA), qui divise les états cachés en segments le long de la dimension temporelle, permettant à chaque segment de s'attarder sur une sous-légende correspondante. SCA ne nécessite aucun paramètre supplémentaire, ce qui permet une incorporation transparente dans les architectures actuelles basées sur DiT. Pour faciliter la génération de vidéos longues de haute qualité, nous avons construit le jeu de données LongTake-HD, composé de 261 000 vidéos riches en contenu avec une cohérence de scénario, annotées avec une légende vidéo globale et cinq sous-légendes progressives. Les expériences montrent que notre Presto atteint 78,5 % sur le score sémantique VBench et 100 % sur le Degré Dynamique, surpassant les méthodes de génération de vidéos de pointe existantes. Cela démontre que notre Presto proposé améliore significativement la richesse du contenu, maintient une cohérence à long terme et capture des détails textuels complexes. Plus de détails sont disponibles sur notre page de projet : https://presto-video.github.io/.

Modèles génératifs sans art : création artistique sans connaissance en art graphique
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29, 2024

Hui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

Nous explorons la question : "Combien de connaissances préalables en art sont nécessaires pour créer de l'art ?" Pour étudier cela, nous proposons un modèle de génération de texte en image entraîné sans accès à du contenu lié à l'art. Nous introduisons ensuite une méthode simple mais efficace pour apprendre un adaptateur artistique en n'utilisant que quelques exemples de styles artistiques sélectionnés. Nos expériences montrent que l'art généré en utilisant notre méthode est perçu par les utilisateurs comme comparable à l'art produit par des modèles entraînés sur de grands ensembles de données riches en art. Enfin, à travers des techniques d'attribution de données, nous illustrons comment des exemples provenant à la fois d'ensembles de données artistiques et non artistiques ont contribué à la création de nouveaux styles artistiques.

VisOnlyQA : Les grands modèles de vision et de langage ont encore du mal avec la perception visuelle des informations géométriques.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1, 2024

Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

Les erreurs de compréhension des informations visuelles dans les images (c'est-à-dire les erreurs de perception visuelle) demeurent une source majeure d'erreurs dans les Grands Modèles de Langage Vision (LVLM). Bien qu'une analyse plus approfondie soit essentielle, il existe une insuffisance de jeux de données pour évaluer la perception visuelle des LVLM. Dans ce travail, nous introduisons VisOnlyQA, un nouveau jeu de données conçu pour évaluer directement les capacités de perception visuelle des LVLM sur des questions portant sur des informations géométriques et numériques dans des figures scientifiques. Notre jeu de données nous permet d'analyser la perception visuelle des LVLM pour des informations visuelles détaillées, indépendamment d'autres capacités telles que le raisonnement. L'ensemble d'évaluation de VisOnlyQA comprend 1 200 questions à choix multiples réparties en 12 tâches sur quatre catégories de figures. Nous fournissons également des données d'entraînement synthétiques comprenant 70 000 exemples. Nos expériences sur VisOnlyQA mettent en évidence les conclusions suivantes : (i) 20 LVLM que nous évaluons, y compris GPT-4o et Gemini 1.5 Pro, fonctionnent mal sur les tâches de perception visuelle dans VisOnlyQA, tandis que les performances humaines sont presque parfaites. (ii) Le fine-tuning sur des données d'entraînement synthétiques démontre le potentiel d'amélioration de la perception visuelle des LVLM, mais les améliorations observées sont limitées à certaines tâches et à des modèles spécifiques. (iii) Des modèles de langage plus puissants améliorent la perception visuelle des LVLM. En résumé, nos expériences suggèrent que à la fois les données d'entraînement et les architectures de modèles devraient être améliorées pour renforcer les capacités de perception visuelle des LVLM. Les jeux de données, le code et les réponses des modèles sont fournis sur https://github.com/psunlpgroup/VisOnlyQA.

PhysGame : Découverte des violations du bon sens physique dans les vidéos de gameplay
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2, 2024

Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

Les récentes avancées dans les modèles de langage à grande échelle basés sur la vidéo (Video LLMs) ont vu émerger des capacités diverses pour raisonner et interpréter le contenu visuel dynamique. Parmi celles-ci, les vidéos de gameplay se distinguent en tant que source de données particulière, contenant souvent des anomalies qui défient le bon sens physique. Cette caractéristique en fait un banc d'essai efficace pour évaluer la capacité peu explorée de compréhension du bon sens physique dans les Video LLMs. Dans cet article, nous proposons PhysGame comme un banc d'essai novateur pour évaluer les violations du bon sens physique dans les vidéos de gameplay. PhysGame comprend 880 vidéos associées à des anomalies couvrant quatre domaines fondamentaux (c'est-à-dire, la mécanique, la cinématique, l'optique et les propriétés des matériaux) et à travers 12 bons sens physiques distincts. En évaluant de manière approfondie divers Video LLMs de pointe, nos résultats révèlent que les performances des Video LLMs open source actuels sont nettement inférieures à celles des homologues propriétaires. Pour combler cet écart, nous constituons un ensemble de données d'accord d'instructions, PhysInstruct, avec 140 057 paires question-réponse pour faciliter l'apprentissage du bon sens physique. De plus, nous proposons également un ensemble de données d'optimisation des préférences, PhysDPO, avec 34 358 paires d'entraînement, où les réponses non préférées sont générées en fonction de titres trompeurs (c'est-à-dire, piratage des métadonnées), de moins d'images (c'est-à-dire, piratage temporel) et de résolutions spatiales plus faibles (c'est-à-dire, piratage spatial). Sur la base de la série d'ensembles de données, nous proposons PhysVLM comme un Video LLM enrichi de connaissances physiques. Des expériences approfondies à la fois sur le banc d'essai orienté vers la physique PhysGame et sur les bancs d'essai généraux de compréhension vidéo démontrent les performances de pointe de PhysVLM.

Une loi d'échelle simple et démontrable pour le calcul du temps de test des grands modèles de langage
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29, 2024

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Nous proposons un algorithme général en deux étapes qui bénéficie d'une loi d'échelle prouvable pour le calcul en temps de test de grands modèles de langage (LLM). Étant donné un problème d'entrée, l'algorithme proposé génère d'abord N solutions candidates, puis choisit la meilleure via un tournoi à élimination multiple où chaque paire de candidats est comparée K fois et seuls les gagnants passent au tour suivant. Dans une implémentation minimaliste, les deux étapes peuvent être exécutées uniquement avec un LLM en boîte noire et rien d'autre (par exemple, sans vérificateur externe ou modèle de récompense), et un total de N fois (K + 1) appels LLM hautement parallélisables sont nécessaires pour résoudre un problème d'entrée. En supposant qu'une solution candidate générée est correcte avec une probabilité p_{gen} > 0 et qu'une comparaison entre une paire de solutions correcte et incorrecte identifie le bon gagnant avec une probabilité p_{comp} > 0,5 (c'est-à-dire mieux qu'une supposition aléatoire), nous prouvons théoriquement que la probabilité d'échec de l'algorithme proposé décroît exponentiellement avec N et K : $P(la sortie finale est incorrecte) \leq (1 - p_{gen})^N + \lceil \log_2 N \rceil e^{-2 K (p_{comp} - 0,5)^2}$. Nos résultats empiriques avec le défi MMLU-Pro confirment les hypothèses techniques, ainsi que l'efficacité de l'algorithme proposé et les avantages de l'augmentation de son calcul en temps de test.

Navigation d'instance collaborative : Exploiter le dialogue interne de l'agent pour minimiser l'entrée de l'utilisateur
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2, 2024

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

Les tâches existantes de navigation d'objectif d'instance incarnée, basées sur le langage naturel, supposent que les utilisateurs humains fournissent des descriptions d'instance complètes et nuancées avant la navigation, ce qui peut être impraticable dans le monde réel car les instructions humaines peuvent être brèves et ambiguës. Pour combler cet écart, nous proposons une nouvelle tâche, la Navigation d'Instance Collaborative (CoIN), avec une interaction dynamique agent-humain pendant la navigation pour résoudre activement les incertitudes sur l'instance cible dans des dialogues naturels, sans modèle prédéfini et ouverts. Pour aborder CoIN, nous proposons une nouvelle méthode, Interaction Agent-utilisateur avec Conscience de l'Incertitude (AIUTA), exploitant la capacité de perception des Modèles de Langage Vision (VLMs) et la capacité des Grands Modèles de Langage (LLMs). Tout d'abord, suite à la détection d'objet, un modèle Auto-Questionneur initie un auto-dialogue pour obtenir une description d'observation complète et précise, tandis qu'une nouvelle technique d'estimation d'incertitude atténue la perception inexacte des VLMs. Ensuite, un module de Déclencheur d'Interaction détermine s'il faut poser une question à l'utilisateur, continuer ou arrêter la navigation, minimisant l'entrée de l'utilisateur. Pour l'évaluation, nous introduisons CoIN-Bench, un banc d'essai prenant en charge à la fois des humains réels et simulés. AIUTA atteint des performances compétitives en matière de navigation d'instance par rapport aux méthodes de pointe, démontrant une grande flexibilité dans le traitement des entrées utilisateur.

Diffusion vidéo cohérente avec le monde en utilisant une modélisation 3D explicite
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2, 2024

Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

Les récents progrès dans les modèles de diffusion ont établi de nouveaux standards en matière de génération d'images et de vidéos, permettant une synthèse visuelle réaliste à travers des contextes à un seul ou plusieurs images. Cependant, ces modèles peinent encore à générer efficacement et explicitement du contenu 3D cohérent. Pour remédier à cela, nous proposons la Diffusion Vidéo Cohérente avec le Monde (WVD), un nouveau cadre qui intègre une supervision 3D explicite en utilisant des images XYZ, qui codent les coordonnées 3D globales pour chaque pixel d'image. Plus précisément, nous entraînons un transformateur de diffusion à apprendre la distribution conjointe des trames RGB et XYZ. Cette approche soutient l'adaptabilité multi-tâches via une stratégie d'inpainting flexible. Par exemple, le WVD peut estimer les trames XYZ à partir des trames RGB réelles ou générer de nouvelles trames RGB en utilisant des projections XYZ le long d'une trajectoire de caméra spécifiée. Ce faisant, le WVD unifie des tâches telles que la génération d'images vers la 3D, la stéréo multi-vue et la génération de vidéos contrôlées par caméra. Notre approche démontre des performances compétitives à travers plusieurs référentiels, offrant une solution évolutive pour la génération d'images et de vidéos cohérentes en 3D avec un seul modèle pré-entraîné.

Exploration des capacités des grands modèles de langage pour résoudre des analogies proportionnelles via l'incitation renforcée par la connaissance
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1, 2024

Thilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

Faire des analogies est fondamental pour la cognition. Les analogies proportionnelles, qui se composent de quatre termes, sont souvent utilisées pour évaluer les capacités linguistiques et cognitives. Par exemple, compléter des analogies comme "L'oxygène est au gaz ce que <vide> est au <vide>" nécessite d'identifier la relation sémantique (par exemple, "type de") entre le premier couple de termes ("Oxygène" et "Gaz") et de trouver un deuxième couple partageant la même relation (par exemple, "Aluminium" et "Métal"). Dans ce travail, nous introduisons un ensemble de données de 15 000 questions à choix multiples (MCQA) pour l'achèvement d'analogies proportionnelles et évaluons les performances des modèles de langue de grande taille (LLM) contemporains dans divers contextes de requêtes améliorés par la connaissance. Plus précisément, nous enrichissons les requêtes avec trois types de connaissances : exemplaire, structurée et ciblée. Nos résultats montrent qu'en dépit de données d'entraînement étendues, résoudre des analogies proportionnelles reste un défi pour les LLM actuels, le meilleur modèle atteignant une précision de 55 %. Notamment, nous constatons que fournir une connaissance ciblée peut mieux aider les modèles à compléter des analogies proportionnelles par rapport à la fourniture d'exemples ou de collections de connaissances structurées.

Échantillonneur AMO : Amélioration du rendu de texte avec dépassement
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28, 2024

Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

Atteindre un alignement précis entre les instructions textuelles et les images générées dans la génération texte-image est un défi majeur, en particulier pour rendre du texte écrit dans les images. Les modèles de pointe tels que Stable Diffusion 3 (SD3), Flux et AuraFlow ont encore du mal avec la représentation précise du texte, ce qui entraîne des fautes d'orthographe ou un texte incohérent. Nous introduisons une méthode sans entraînement avec une surcharge computationnelle minimale qui améliore significativement la qualité de rendu du texte. Plus précisément, nous introduisons un échantillonneur de dépassement pour les modèles de flux rectifié (RF) pré-entraînés, en alternant entre la sur-simulation de l'équation différentielle ordinaire (ODE) apprise et la réintroduction de bruit. Comparé à l'échantillonneur d'Euler, l'échantillonneur de dépassement introduit efficacement un terme de dynamique de Langevin supplémentaire qui peut aider à corriger l'erreur cumulative des étapes d'Euler successives et donc améliorer le rendu du texte. Cependant, lorsque la force de dépassement est élevée, nous observons des artefacts de lissage excessif sur les images générées. Pour résoudre ce problème, nous proposons un échantillonneur de dépassement modulé par l'attention (AMO), qui contrôle de manière adaptative la force de dépassement pour chaque patch d'image en fonction de leur score d'attention avec le contenu textuel. AMO démontre une amélioration de 32,3 % et 35,9 % de la précision du rendu du texte sur SD3 et Flux sans compromettre la qualité globale de l'image ou augmenter le coût d'inférence.

HUGSIM : un simulateur en temps réel, photoréaliste et en boucle fermée pour la conduite autonome
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2, 2024

Hongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

Au cours des dernières décennies, les algorithmes de conduite autonome ont réalisé des progrès significatifs en matière de perception, de planification et de contrôle. Cependant, l'évaluation des composants individuels ne reflète pas pleinement les performances des systèmes entiers, soulignant ainsi le besoin de méthodes d'évaluation plus holistiques. Cela motive le développement de HUGSIM, un simulateur en boucle fermée, photoréaliste et en temps réel pour évaluer les algorithmes de conduite autonome. Nous y parvenons en transformant les images 2D RVB capturées dans l'espace 3D via le Splatting gaussien en 3D, améliorant ainsi la qualité de rendu pour les scénarios en boucle fermée, et en construisant l'environnement en boucle fermée. En termes de rendu, nous relevons les défis de la synthèse de nouvelles vues dans les scénarios en boucle fermée, y compris l'extrapolation du point de vue et le rendu des véhicules à 360 degrés. Au-delà de la synthèse de nouvelles vues, HUGSIM permet en outre la boucle de simulation complète, mettant à jour dynamiquement les états et observations de l'ego et des acteurs en fonction des commandes de contrôle. De plus, HUGSIM propose un benchmark complet sur plus de 70 séquences provenant de KITTI-360, Waymo, nuScenes et PandaSet, ainsi que plus de 400 scénarios variés, offrant une plateforme d'évaluation équitable et réaliste pour les algorithmes de conduite autonome existants. HUGSIM ne sert pas seulement de référence d'évaluation intuitive, mais ouvre également la voie à l'optimisation des algorithmes de conduite autonome dans un environnement en boucle fermée photoréaliste.

Vers la détection des abus audio interlingues dans des environnements à faibles ressources avec l'apprentissage à quelques exemples
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2, 2024

Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

La détection de contenu abusif en ligne, en particulier dans des environnements à ressources limitées et dans la modalité audio, reste peu explorée. Nous étudions le potentiel des représentations audio pré-entraînées pour détecter le langage abusif dans des langues à faibles ressources, dans ce cas, dans les langues indiennes en utilisant l'Apprentissage à Faible Nombre d'Exemples (FSL). En exploitant des représentations puissantes de modèles tels que Wav2Vec et Whisper, nous explorons la détection d'abus interlingue en utilisant l'ensemble de données ADIMA avec FSL. Notre approche intègre ces représentations dans le cadre d'Apprentissage Méta-Agnostique de Modèle (MAML) pour classer le langage abusif dans 10 langues. Nous expérimentons avec diverses tailles d'échantillons (50-200) en évaluant l'impact des données limitées sur les performances. De plus, une étude de visualisation des caractéristiques a été menée pour mieux comprendre le comportement du modèle. Cette étude met en lumière la capacité de généralisation des modèles pré-entraînés dans des scénarios à faibles ressources et offre des perspectives précieuses pour détecter le langage abusif dans des contextes multilingues.

Améliorer la robustesse de la vérification de locuteur avec des énoncés émotionnels synthétiques
Improving speaker verification robustness with synthetic emotional utterances

Nov 30, 2024

Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke

Un système de vérification de locuteur (SV) offre un service d'authentification conçu pour confirmer si un échantillon de parole donné provient d'un locuteur spécifique. Cette technologie a ouvert la voie à diverses applications personnalisées qui répondent aux préférences individuelles. Un défi notable auquel sont confrontés les systèmes SV est leur capacité à fonctionner de manière cohérente sur une gamme de spectres émotionnels. La plupart des modèles existants présentent des taux d'erreur élevés lorsqu'ils traitent des énoncés émotionnels par rapport à des énoncés neutres. Par conséquent, ce phénomène conduit souvent à passer à côté de discours d'intérêt. Ce problème découle principalement de la disponibilité limitée de données vocales émotionnelles étiquetées, entravant le développement de représentations robustes des locuteurs qui englobent divers états émotionnels. Pour répondre à cette préoccupation, nous proposons une approche novatrice utilisant le cadre CycleGAN comme méthode d'augmentation de données. Cette technique synthétise des segments de parole émotionnelle pour chaque locuteur spécifique tout en préservant l'identité vocale unique. Nos résultats expérimentaux soulignent l'efficacité de l'incorporation de données émotionnelles synthétiques dans le processus d'entraînement. Les modèles entraînés à l'aide de cet ensemble de données augmenté surpassent de manière cohérente les modèles de référence dans la tâche de vérification des locuteurs dans des scénarios de discours émotionnels, réduisant le taux d'erreur égal jusqu'à 3,64% en relatif.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

X-Prompt : Vers une génération d'images universelle en contexte dans les modèles fondamentaux de vision et de langage auto-régressifs
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2, 2024

Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

662

o1-Coder : une réplication o1 pour la programmation
o1-Coder: an o1 Replication for Coding

Nov 29, 2024

Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

452

FLAOT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2, 2024

Taekyung Ki, Dongchan Min, Gyoungsu Chae

428

Switti : Conception de transformateurs à différentes échelles pour la synthèse texte-image
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2, 2024

Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

363

Plan Open-Sora : Modèle de Génération de Vidéo de Grande Taille en Open Source
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28, 2024

342

VISTA : Amélioration de la compréhension des vidéos de longue durée et haute résolution par augmentation spatiotemporelle de la vidéo
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1, 2024

Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

282

SOLAMI : Modélisation sociale de la vision-langage-action pour une interaction immersive avec des personnages autonomes en 3D
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29, 2024

Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

232

TAPTRv3 : Le contexte spatial et temporel favorise le suivi robuste de n'importe quel point dans une longue vidéo
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27, 2024

Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

202

OUVERTURE DE GATE : Un banc d'essai exhaustif pour évaluer la génération d'images et de texte entrelacée ouverte
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27, 2024

182

Le Puits : une vaste collection de simulations physiques diverses pour l'apprentissage automatique
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30, 2024

172

Suivi Efficace de Tout
Efficient Track Anything

Nov 28, 2024

173

Modèles de flux rectifiés de direction dans le champ vectoriel pour la génération d'images contrôlée
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27, 2024

Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

168

VLsI : De la verbalisation des couches aux interactions des grands aux petits modèles de langage vision.
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2, 2024

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

152

TinyFusion : Transformateurs de Diffusion Peu Profonds Appris
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2, 2024

Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

142

Inclure : Évaluation de la compréhension multilingue du langage avec des connaissances régionales
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29, 2024

142

WF-VAE : Amélioration de Video VAE par Flux d'Énergie Piloté par Ondelettes pour le Modèle de Diffusion Vidéo Latent
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26, 2024

Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

112

VLSBench : Révéler les Fuites Visuelles dans la Sécurité Multimodale
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29, 2024

Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

102

Génération de diffusion vidéo longue avec attention croisée segmentée et Curatelle de données vidéo riches en contenu
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2, 2024

Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

Modèles génératifs sans art : création artistique sans connaissance en art graphique
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29, 2024

Hui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

VisOnlyQA : Les grands modèles de vision et de langage ont encore du mal avec la perception visuelle des informations géométriques.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1, 2024

Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

PhysGame : Découverte des violations du bon sens physique dans les vidéos de gameplay
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2, 2024

Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

Une loi d'échelle simple et démontrable pour le calcul du temps de test des grands modèles de langage
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29, 2024

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Navigation d'instance collaborative : Exploiter le dialogue interne de l'agent pour minimiser l'entrée de l'utilisateur
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2, 2024

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

Diffusion vidéo cohérente avec le monde en utilisant une modélisation 3D explicite
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2, 2024

Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

Exploration des capacités des grands modèles de langage pour résoudre des analogies proportionnelles via l'incitation renforcée par la connaissance
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1, 2024

Thilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

Échantillonneur AMO : Amélioration du rendu de texte avec dépassement
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28, 2024

Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

HUGSIM : un simulateur en temps réel, photoréaliste et en boucle fermée pour la conduite autonome
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2, 2024

Hongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

Vers la détection des abus audio interlingues dans des environnements à faibles ressources avec l'apprentissage à quelques exemples
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2, 2024

Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

Améliorer la robustesse de la vérification de locuteur avec des énoncés émotionnels synthétiques
Improving speaker verification robustness with synthetic emotional utterances

Nov 30, 2024

Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke