papers.title

papers.description

Loi de représentation visuelle dans les MLLM
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

Nous présentons la « Loi de la Représentation Visuelle » dans les modèles de langage multimodaux de grande taille (MLLMs). Elle révèle une forte corrélation entre la combinaison de l'alignement intermodal, la correspondance dans la représentation visuelle et la performance des MLLMs. Nous quantifions ces deux facteurs à l'aide du score d'Alignement et de Correspondance intermodale (score AC). À travers des expériences approfondies impliquant treize configurations différentes de représentation visuelle et des évaluations sur huit benchmarks, nous constatons que le score AC est linéairement corrélé à la performance du modèle. En exploitant cette relation, nous sommes en mesure d'identifier et d'entraîner uniquement la représentation visuelle optimale, ce qui ne nécessite pas de réajuster le modèle de langage à chaque fois, entraînant ainsi une réduction de 99,7 % des coûts de calcul.

CogVLM2 : Modèles de Langage Visuel pour la Compréhension d'Images et de Vidéos
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

ByWenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang

En commençant par VisualGLM et CogVLM, nous explorons continuellement les modèles vision-langage (VLM) afin d'améliorer la fusion vision-langage, de développer des architectures efficaces pour des résolutions plus élevées, et d'élargir les modalités et les applications. Nous présentons ici la famille CogVLM2, une nouvelle génération de modèles visio-linguistiques pour la compréhension d'images et de vidéos, comprenant CogVLM2, CogVLM2-Video et GLM-4V. En tant que modèle de compréhension d'images, CogVLM2 hérite de l'architecture d'expert visuel avec des méthodes d'entraînement améliorées aux étapes de pré-entraînement et de post-entraînement, prenant en charge une résolution d'entrée allant jusqu'à 1344 x 1344 pixels. En tant que modèle de compréhension vidéo, CogVLM2-Video intègre une entrée multi-images avec des horodatages et propose une construction automatisée de données d'ancrage temporel. Notamment, la famille CogVLM2 a obtenu des résultats state-of-the-art sur des benchmarks tels que MMBench, MM-Vet, TextVQA, MVBench et VCGBench. Tous les modèles sont open-source sur https://github.com/THUDM/CogVLM2 et https://github.com/THUDM/GLM-4, contribuant ainsi à l'avancement du domaine.

WavTokenizer : un tokeniseur efficace de code discret acoustique pour la modélisation du langage audio
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

Les modèles de langage ont été appliqués avec succès à la modélisation de signaux naturels, tels que les images, la vidéo, la parole et l'audio. Un composant crucial de ces modèles est le tokeniseur de codec, qui compresse les signaux naturels de haute dimension en tokens discrets de dimension inférieure. Dans cet article, nous présentons WavTokenizer, qui offre plusieurs avantages par rapport aux modèles de codec acoustique précédents de l'état de l'art dans le domaine audio : 1) une compression extrême. En compressant les couches de quantificateurs et la dimension temporelle du codec discret, une seconde d'audio à une fréquence d'échantillonnage de 24 kHz ne nécessite qu'un seul quantificateur avec 40 ou 75 tokens. 2) une qualité subjective améliorée. Malgré la réduction du nombre de tokens, WavTokenizer atteint une qualité de reconstruction à la pointe de l'état de l'art avec d'excellents scores UTMOS et contient intrinsèquement des informations sémantiques plus riches. Plus précisément, nous obtenons ces résultats en concevant un espace VQ plus large, des fenêtres contextuelles étendues et des réseaux d'attention améliorés, ainsi qu'en introduisant un discriminateur multi-échelle puissant et une structure de transformée de Fourier inverse. Nous avons mené des expériences de reconstruction approfondies dans les domaines de la parole, de l'audio et de la musique. WavTokenizer a démontré de solides performances sur diverses métriques objectives et subjectives par rapport aux modèles de l'état de l'art. Nous avons également testé les informations sémantiques, l'utilisation de VQ et l'adaptabilité aux modèles génératifs. Des études d'ablation complètes confirment la nécessité de chaque module dans WavTokenizer. Le code associé, les démonstrations et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/jishengpeng/WavTokenizer.

ReconX : Reconstruction de n'importe quelle scène à partir de vues éparses avec un modèle de diffusion vidéo
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

Les avancées en reconstruction de scènes 3D ont permis de transformer des images 2D du monde réel en modèles 3D, produisant des résultats réalistes à partir de centaines de photos d'entrée. Malgré les grands succès dans les scénarios de reconstruction à vues denses, le rendu d'une scène détaillée à partir d'un nombre insuffisant de vues capturées reste un problème d'optimisation mal posé, générant souvent des artéfacts et des distorsions dans les zones non observées. Dans cet article, nous proposons ReconX, un nouveau paradigme de reconstruction de scènes 3D qui reformule le défi de reconstruction ambiguë en une tâche de génération temporelle. L'idée clé est d'exploiter le fort a priori génératif des grands modèles de diffusion vidéo pré-entraînés pour la reconstruction à vues éparses. Cependant, la cohérence 3D entre les vues peine à être préservée avec précision dans les images vidéo générées directement par les modèles pré-entraînés. Pour résoudre ce problème, étant donné un nombre limité de vues d'entrée, ReconX construit d'abord un nuage de points global et l'encode dans un espace contextuel comme condition de structure 3D. Guidé par cette condition, le modèle de diffusion vidéo synthétise ensuite des images vidéo qui préservent les détails tout en présentant un haut degré de cohérence 3D, garantissant la cohérence de la scène sous diverses perspectives. Enfin, nous reconstruisons la scène 3D à partir de la vidéo générée grâce à un schéma d'optimisation par Gaussian Splatting 3D tenant compte de la confiance. Des expériences approfondies sur divers jeux de données du monde réel démontrent la supériorité de notre méthode ReconX par rapport aux méthodes de l'état de l'art en termes de qualité et de généralisabilité.

SAM2Point : Segmentation 3D sans entraînement et pilotable par prompts, traitant les données comme des vidéos
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

Nous présentons SAM2Point, une exploration préliminaire visant à adapter le Segment Anything Model 2 (SAM 2) pour la segmentation 3D sans apprentissage préalable (zero-shot) et pilotable par invites. SAM2Point interprète toute donnée 3D comme une série de vidéos multidirectionnelles et exploite SAM 2 pour la segmentation dans l'espace 3D, sans entraînement supplémentaire ni projection 2D-3D. Notre framework prend en charge divers types d'invites, notamment des points 3D, des boîtes englobantes et des masques, et peut généraliser à divers scénarios, tels que des objets 3D, des scènes intérieures, des environnements extérieurs et des données LiDAR brutes et éparses. Des démonstrations sur plusieurs jeux de données 3D, par exemple Objaverse, S3DIS, ScanNet, Semantic3D et KITTI, mettent en évidence les solides capacités de généralisation de SAM2Point. À notre connaissance, nous présentons l'implémentation la plus fidèle de SAM en 3D, qui pourrait servir de point de départ pour les futures recherches sur la segmentation 3D pilotable par invites. Démonstration en ligne : https://huggingface.co/spaces/ZiyuG/SAM2Point . Code : https://github.com/ZiyuGuo99/SAM2Point .

Physique des modèles linguistiques : Partie 2.2, Comment apprendre de ses erreurs sur des problèmes de mathématiques de niveau primaire
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

Les modèles de langage ont démontré des performances remarquables dans la résolution de tâches de raisonnement ; cependant, même les modèles les plus performants commettent encore occasionnellement des erreurs de raisonnement. Des recherches actives ont récemment émergé pour améliorer la précision du raisonnement, notamment en utilisant des modèles de langage pré-entraînés pour "auto-corriger" leurs erreurs via des sollicitations multi-tours. Dans cet article, nous suivons cette ligne de travail mais nous nous concentrons sur la compréhension de l'utilité d'incorporer directement des données de "correction d'erreurs" dès l'étape de pré-entraînement. Ces données consistent en des étapes de solution erronées, immédiatement suivies de leurs corrections. En utilisant un jeu de données mathématiques synthétiques, nous obtenons des résultats prometteurs : ce type de données de pré-entraînement peut aider les modèles de langage à atteindre une plus grande précision de raisonnement de manière directe (c'est-à-dire par simple auto-régression, sans sollicitation multi-tours) par rapport à un pré-entraînement sur la même quantité de données exemptes d'erreurs. Nous examinons également de nombreux détails, tels que (1) en quoi cette approche diffère de la recherche en faisceau, (2) comment de telles données peuvent être préparées, (3) si un masquage est nécessaire sur les tokens erronés, (4) la quantité d'erreurs requise, (5) si ces données peuvent être reportées à l'étape de fine-tuning, et bien d'autres.

CSGO : Composition Contenu-Style dans la Génération d'Images par Texte
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

Le modèle de diffusion a démontré des capacités exceptionnelles en génération d'images contrôlée, ce qui a accru l'intérêt pour le transfert de style d'image. Les travaux existants se concentrent principalement sur des méthodes sans entraînement (par exemple, l'inversion d'image) en raison de la rareté des données spécifiques. Dans cette étude, nous présentons un pipeline de construction de données pour des triplets d'images contenu-style-stylisé qui génère et nettoie automatiquement des triplets de données stylisées. Sur la base de ce pipeline, nous construisons IMAGStyle, le premier jeu de données de transfert de style à grande échelle contenant 210 000 triplets d'images, mis à disposition de la communauté pour exploration et recherche. Équipé d'IMAGStyle, nous proposons CSGO, un modèle de transfert de style basé sur un entraînement de bout en bout, qui découple explicitement les caractéristiques de contenu et de style en utilisant une injection de caractéristiques indépendante. Le système unifié CSGO met en œuvre le transfert de style piloté par l'image, la synthèse stylisée pilotée par le texte et la synthèse stylisée pilotée par l'édition textuelle. Des expériences approfondies démontrent l'efficacité de notre approche pour améliorer les capacités de contrôle du style dans la génération d'images. Des visualisations supplémentaires et l'accès au code source sont disponibles sur la page du projet : https://csgo-gen.github.io/.

Reconstruction 3D avec mémoire spatiale
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

Nous présentons Spann3R, une nouvelle approche pour la reconstruction 3D dense à partir de collections d'images ordonnées ou non ordonnées. Construit sur le paradigme de DUSt3R, Spann3R utilise une architecture basée sur des transformers pour régresser directement des cartes de points à partir des images, sans aucune connaissance préalable de la scène ou des paramètres de la caméra. Contrairement à DUSt3R, qui prédit des cartes de points par paire d'images, chacune exprimée dans son propre repère local, Spann3R peut prédire des cartes de points par image exprimées dans un système de coordonnées global, éliminant ainsi le besoin d'un alignement global par optimisation. L'idée clé de Spann3R est de gérer une mémoire spatiale externe qui apprend à garder une trace de toutes les informations 3D pertinentes précédentes. Spann3R interroge ensuite cette mémoire spatiale pour prédire la structure 3D de l'image suivante dans un système de coordonnées global. En tirant parti des poids pré-entraînés de DUSt3R et en effectuant un affinage supplémentaire sur un sous-ensemble de jeux de données, Spann3R démontre des performances compétitives et une capacité de généralisation sur divers jeux de données non vus, et peut traiter des collections d'images ordonnées en temps réel. Page du projet : https://hengyiwang.github.io/projects/spanner

StyleRemix : Obfuscation interprétable de l’auteur par distillation et perturbation d’éléments stylistiques
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

L'obscurcissement de la paternité, qui consiste à réécrire un texte pour dissimuler intentionnellement l'identité de son auteur, est une tâche importante mais difficile. Les méthodes actuelles utilisant les grands modèles de langage (LLM) manquent d'interprétabilité et de contrôlabilité, ignorant souvent les caractéristiques stylistiques spécifiques à l'auteur, ce qui entraîne des performances globales moins robustes. Pour remédier à cela, nous développons StyleRemix, une méthode d'obscurcissement adaptative et interprétable qui perturbe des éléments stylistiques spécifiques et granulaires du texte source. StyleRemix utilise des modules de LoRA (Low Rank Adaptation) pré-entraînés pour réécrire un texte d'entrée spécifiquement selon différents axes stylistiques (par exemple, le formalisme et la longueur) tout en maintenant un faible coût computationnel. StyleRemix surpasse les méthodes de référence de l'état de l'art et des LLM bien plus grands dans divers domaines, selon des évaluations automatiques et humaines. De plus, nous publions AuthorMix, un vaste ensemble de 30 000 textes longs et de haute qualité provenant d'un panel diversifié de 14 auteurs et 4 domaines, ainsi que DiSC, un corpus parallèle de 1 500 textes couvrant sept axes stylistiques selon 16 directions uniques.

Mise à l'échelle des modèles XGBoost basés sur la diffusion et les flux
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

Les nouvelles méthodes d'apprentissage automatique pour la génération de données tabulaires sont souvent développées sur de petits jeux de données qui ne correspondent pas à l'échelle requise pour les applications scientifiques. Nous étudions une proposition récente visant à utiliser XGBoost comme approximateur de fonction dans les modèles de diffusion et d'appariement de flux sur des données tabulaires, qui s'est avérée extrêmement gourmande en mémoire, même sur des jeux de données minuscules. Dans ce travail, nous menons une analyse critique de l'implémentation existante d'un point de vue ingénierie, et montrons que ces limitations ne sont pas fondamentales à la méthode ; avec une meilleure implémentation, elle peut être mise à l'échelle sur des jeux de données 370 fois plus grands que ceux utilisés précédemment. Notre implémentation efficace permet également de passer à l'échelle des modèles de tailles bien supérieures, ce qui, comme nous le démontrons, améliore directement les performances sur des tâches de référence. Nous proposons également des améliorations algorithmiques pouvant further bénéficier à l'utilisation des ressources et aux performances du modèle, notamment des arbres à sorties multiples bien adaptés à la modélisation générative. Enfin, nous présentons des résultats sur des jeux de données scientifiques à grande échelle issus de la physique des particules expérimentale dans le cadre du Fast Calorimeter Simulation Challenge. Le code est disponible à l'adresse https://github.com/layer6ai-labs/calo-forest.

Meta Flow Matching : Intégration de champs vectoriels sur la variété de Wasserstein
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov

De nombreux processus biologiques et physiques peuvent être modélisés comme des systèmes d'entités en interaction évoluant de manière continue dans le temps, par exemple la dynamique de cellules en communication ou de particules physiques. Apprendre la dynamique de tels systèmes est essentiel pour prédire l'évolution temporelle des populations dans de nouveaux échantillons et environnements non observés. Les modèles à base de flux permettent d'apprendre ces dynamiques au niveau de la population - ils modélisent l'évolution de la distribution entière des échantillons. Cependant, les modèles actuels à base de flux se limitent à une population initiale unique et à un ensemble de conditions prédéfinies qui décrivent différentes dynamiques. Nous soutenons que de multiples processus dans les sciences naturelles doivent être représentés comme des champs de vecteurs sur la variété de Wasserstein des densités de probabilité. Autrement dit, le changement de la population à tout instant dépend de la population elle-même en raison des interactions entre les échantillons. Ceci est particulièrement crucial pour la médecine personnalisée où le développement des maladies et leur réponse respective au traitement dépendent du microenvironnement cellulaire spécifique à chaque patient. Nous proposons Meta Flow Matching (MFM), une approche pratique pour intégrer le long de ces champs de vecteurs sur la variété de Wasserstein en amortissant le modèle de flux sur les populations initiales. À savoir, nous intégrons la population d'échantillons à l'aide d'un Réseau de Neurones Graphiques (GNN) et utilisons ces intégrations pour entraîner un modèle Flow Matching. Cela confère à MFM la capacité de généraliser sur les distributions initiales, contrairement aux méthodes proposées précédemment. Nous démontrons la capacité de MFM à améliorer la prédiction des réponses individuelles aux traitements sur un jeu de données à grande échelle de criblage médicamenteux unicellulaire multi-patients.

papers.title

papers.description

Loi de représentation visuelle dans les MLLM
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

CogVLM2 : Modèles de Langage Visuel pour la Compréhension d'Images et de Vidéos
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

WavTokenizer : un tokeniseur efficace de code discret acoustique pour la modélisation du langage audio
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

ReconX : Reconstruction de n'importe quelle scène à partir de vues éparses avec un modèle de diffusion vidéo
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

SAM2Point : Segmentation 3D sans entraînement et pilotable par prompts, traitant les données comme des vidéos
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

Physique des modèles linguistiques : Partie 2.2, Comment apprendre de ses erreurs sur des problèmes de mathématiques de niveau primaire
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

CSGO : Composition Contenu-Style dans la Génération d'Images par Texte
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

Reconstruction 3D avec mémoire spatiale
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

StyleRemix : Obfuscation interprétable de l’auteur par distillation et perturbation d’éléments stylistiques
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

Mise à l'échelle des modèles XGBoost basés sur la diffusion et les flux
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

Meta Flow Matching : Intégration de champs vectoriels sur la variété de Wasserstein
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov