papers.title

papers.description

Seaweed-7B : Entraînement économique d'un modèle de base pour la génération vidéo
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

ByTeam Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang

130

Ce rapport technique présente une stratégie rentable pour entraîner un modèle de base de génération vidéo. Nous introduisons un modèle de recherche de taille moyenne, nommé Seaweed-7B, comprenant environ 7 milliards de paramètres (7B), entraîné à partir de zéro en utilisant 665 000 heures de GPU H100. Bien qu'ayant été entraîné avec des ressources computationnelles modérées, Seaweed-7B démontre des performances très compétitives par rapport aux modèles contemporains de génération vidéo de taille bien plus importante. Les choix de conception sont particulièrement cruciaux dans un contexte de ressources limitées. Ce rapport technique met en lumière les décisions clés de conception qui améliorent les performances de ce modèle de diffusion de taille moyenne. Empiriquement, nous faisons deux observations : (1) Seaweed-7B atteint des performances comparables, voire supérieures, à celles de modèles plus grands entraînés avec des ressources GPU bien plus importantes, et (2) notre modèle, qui présente une forte capacité de généralisation, peut être efficacement adapté à un large éventail d'applications en aval, que ce soit par un ajustement fin léger ou par un entraînement continu. Consultez la page du projet à l'adresse suivante : https://seaweed.video/

GigaTok : Mise à l'échelle des tokenizers visuels à 3 milliards de paramètres pour la génération d'images autorégressive
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

Dans la génération d'images autorégressive (AR), les tokeniseurs visuels compressent les images en jetons latents discrets compacts, permettant un entraînement efficace des modèles autorégressifs en aval pour la génération visuelle via la prédiction du jeton suivant. Bien que la mise à l'échelle des tokeniseurs visuels améliore la qualité de reconstruction des images, elle dégrade souvent la qualité de génération en aval — un défi qui n'est pas suffisamment abordé dans la littérature existante. Pour y remédier, nous introduisons GigaTok, la première approche à améliorer simultanément la reconstruction d'images, la génération et l'apprentissage de représentation lors de la mise à l'échelle des tokeniseurs visuels. Nous identifions la complexité croissante de l'espace latent comme le facteur clé derrière le dilemme reconstruction vs. génération. Pour atténuer cela, nous proposons une régularisation sémantique, qui aligne les caractéristiques du tokeniseur avec des caractéristiques sémantiquement cohérentes provenant d'un encodeur visuel pré-entraîné. Cette contrainte empêche une complexité excessive de l'espace latent lors de la mise à l'échelle, entraînant des améliorations constantes à la fois dans la reconstruction et dans la génération autorégressive en aval. En nous appuyant sur la régularisation sémantique, nous explorons trois pratiques clés pour la mise à l'échelle des tokeniseurs : (1) l'utilisation de tokeniseurs 1D pour une meilleure évolutivité, (2) la priorisation de la mise à l'échelle du décodeur lors de l'expansion à la fois de l'encodeur et du décodeur, et (3) l'emploi d'une perte d'entropie pour stabiliser l'entraînement des tokeniseurs à l'échelle du milliard. En atteignant 3 milliards de paramètres, GigaTok obtient des performances de pointe en reconstruction, en génération AR en aval et en qualité de représentation AR en aval.

MineWorld : un modèle de monde interactif en temps réel et open-source sur Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

La modélisation du monde est une tâche cruciale pour permettre aux agents intelligents d'interagir efficacement avec les humains et d'opérer dans des environnements dynamiques. Dans ce travail, nous proposons MineWorld, un modèle de monde interactif en temps réel sur Minecraft, un jeu bac à sable ouvert qui a été utilisé comme banc d'essai commun pour la modélisation du monde. MineWorld est piloté par un Transformer autorégressif visuo-actionnel, qui prend en entrée des scènes de jeu et les actions correspondantes, et génère de nouvelles scènes consécutives suivant les actions. Plus précisément, en transformant les scènes visuelles du jeu et les actions en identifiants de jetons discrets avec un tokeniseur d'images et un tokeniseur d'actions respectivement, nous constituons l'entrée du modèle avec la concaténation intercalée des deux types d'identifiants. Le modèle est ensuite entraîné avec une prédiction de jeton suivant pour apprendre des représentations riches des états du jeu ainsi que les conditions entre les états et les actions simultanément. En inférence, nous développons un nouvel algorithme de décodage parallèle qui prédit les jetons spatiaux redondants dans chaque image en même temps, permettant aux modèles de différentes échelles de générer 4 à 7 images par seconde et d'activer des interactions en temps réel avec les joueurs. En évaluation, nous proposons de nouvelles métriques pour évaluer non seulement la qualité visuelle mais aussi la capacité à suivre les actions lors de la génération de nouvelles scènes, ce qui est crucial pour un modèle de monde. Notre évaluation complète montre l'efficacité de MineWorld, surpassant significativement les modèles de monde basés sur la diffusion open-source de l'état de l'art. Le code et le modèle ont été publiés.

VLM-R1 : Un modèle de vision et langage de grande taille de style R1 stable et généralisable
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

Récemment, DeepSeek R1 a démontré que l'apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement des grands modèles de langage (LLMs) grâce à une conception simple mais efficace. Le cœur de R1 réside dans sa formulation de récompense basée sur des règles, qui exploite des tâches avec des réponses de vérité terrain déterministes pour permettre un calcul de récompense précis et stable. Dans le domaine visuel, nous observons de manière similaire qu'un large éventail de tâches de compréhension visuelle est intrinsèquement équipé d'annotations de vérité terrain bien définies. Cette propriété les rend naturellement compatibles avec des mécanismes de récompense basés sur des règles. Motivés par cette observation, nous étudions l'extension de l'apprentissage par renforcement de style R1 aux modèles vision-langage (VLMs), dans le but d'améliorer leurs capacités de raisonnement visuel. À cette fin, nous développons VLM-R1, un cadre dédié conçu pour exploiter le RL afin d'améliorer les performances des VLMs sur des tâches générales de vision-langage. En utilisant ce cadre, nous explorons davantage la faisabilité de l'application du RL au domaine visuel. Les résultats expérimentaux indiquent que le modèle basé sur le RL non seulement offre des performances compétitives sur les tâches de compréhension visuelle, mais dépasse également le réglage fin supervisé (SFT) en termes de capacité de généralisation. De plus, nous menons des études d'ablation approfondies qui révèlent une série d'observations notables, notamment la présence de triche de récompense dans la détection d'objets, l'émergence du "moment eurêka OD", l'impact de la qualité des données d'entraînement, et le comportement de mise à l'échelle du RL pour différentes tailles de modèles. À travers ces analyses, nous visons à approfondir la compréhension de la manière dont l'apprentissage par renforcement améliore les capacités des modèles vision-langage, et nous espérons que nos découvertes et contributions open-source soutiendront les progrès continus dans la communauté RL vision-langage. Notre code et modèle sont disponibles à l'adresse https://github.com/om-ai-lab/VLM-R1.

SQL-R1 : Entraînement d'un modèle de raisonnement de langage naturel vers SQL par apprentissage par renforcement
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Apr 11

ByPeixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo

La conversion du langage naturel en SQL (NL2SQL) permet des interactions intuitives avec les bases de données en transformant des requêtes en langage naturel en instructions SQL structurées. Malgré les avancées récentes visant à améliorer l'interaction homme-machine dans les applications de bases de données, des défis majeurs subsistent, notamment en ce qui concerne les performances d'inférence dans des scénarios complexes impliquant des jointures multi-tables et des requêtes imbriquées. Les méthodologies actuelles utilisent principalement le fine-tuning supervisé (SFT) pour entraîner les modèles NL2SQL, ce qui peut limiter l'adaptabilité et l'interprétabilité dans de nouveaux environnements (par exemple, la finance et la santé). Afin d'améliorer les performances de raisonnement du modèle NL2SQL dans ces situations complexes, nous introduisons SQL-R1, un nouveau modèle de raisonnement NL2SQL entraîné à l'aide d'algorithmes d'apprentissage par renforcement (RL). Nous concevons une fonction de récompense basée sur le RL, spécialement adaptée aux tâches NL2SQL, et examinons l'impact du démarrage à froid sur l'efficacité de l'entraînement intensif. De plus, nous obtenons une précision compétitive en utilisant seulement une petite quantité de données NL2SQL synthétiques pour l'entraînement augmenté et explorons davantage l'ingénierie des données pour le RL. Dans les expériences existantes, SQL-R1 atteint une précision d'exécution de 88,6 % et 66,6 % sur les benchmarks Spider et BIRD, respectivement, en utilisant uniquement le modèle de base de 7 milliards de paramètres.

PixelFlow : Modèles génératifs dans l'espace des pixels avec des flux
PixelFlow: Pixel-Space Generative Models with Flow

Apr 10

ByShoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo

Nous présentons PixelFlow, une famille de modèles de génération d'images opérant directement dans l'espace des pixels bruts, contrairement aux modèles dominants basés sur l'espace latent. Cette approche simplifie le processus de génération d'images en éliminant le besoin d'un Autoencodeur Variationnel (VAE) pré-entraîné et en permettant l'entraînement end-to-end de l'ensemble du modèle. Grâce à une modélisation efficace des flux en cascade, PixelFlow atteint un coût de calcul abordable dans l'espace des pixels. Il obtient un FID de 1,98 sur le benchmark de génération d'images conditionnelles par classe ImageNet en 256x256. Les résultats qualitatifs en génération d'images à partir de texte démontrent que PixelFlow excelle en termes de qualité d'image, d'artistique et de contrôle sémantique. Nous espérons que ce nouveau paradigme inspirera et ouvrira de nouvelles opportunités pour les modèles de génération visuelle de nouvelle génération. Le code et les modèles sont disponibles à l'adresse https://github.com/ShoufaChen/PixelFlow.

ZipIR : Transformateur de diffusion pyramidale latente pour la restauration d'images haute résolution
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Apr 11

ByYongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo

Les récents progrès des modèles génératifs ont considérablement amélioré les capacités de restauration d'images, en particulier grâce aux puissants modèles de diffusion qui offrent une récupération remarquable des détails sémantiques et de la fidélité locale. Cependant, le déploiement de ces modèles à des résolutions ultra-élevées se heurte à un compromis critique entre qualité et efficacité en raison des exigences computationnelles des mécanismes d'attention à longue portée. Pour résoudre ce problème, nous introduisons ZipIR, un nouveau cadre qui améliore l'efficacité, la scalabilité et la modélisation à longue portée pour la restauration d'images haute résolution. ZipIR utilise une représentation latente hautement compressée qui réduit l'image d'un facteur 32, diminuant ainsi le nombre de tokens spatiaux et permettant l'utilisation de modèles à haute capacité comme le Transformer de Diffusion (DiT). Pour atteindre cet objectif, nous proposons une conception de VAE à Pyramide Latente (LP-VAE) qui structure l'espace latent en sous-bandes pour faciliter l'entraînement de la diffusion. Entraîné sur des images complètes jusqu'à une résolution de 2K, ZipIR surpasse les méthodes existantes basées sur la diffusion, offrant une vitesse et une qualité inégalées pour restaurer des images haute résolution à partir d'entrées fortement dégradées.

Les LLM de niveau doctorat comprennent-ils vraiment l'addition élémentaire ? Exploration de l'apprentissage de règles versus la mémorisation dans les grands modèles de langage
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Apr 7

ByYang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

Malgré des scores élevés aux benchmarks, les grands modèles de langage (LLMs) échouent souvent sur des problèmes simples, soulevant une question cruciale : les LLMs apprennent-ils des principes mathématiques ou se contentent-ils de mémoriser des motifs ? Plutôt que de concevoir des benchmarks de plus en plus complexes comme le font les travaux récents, nous explorons cette question en utilisant l'addition élémentaire de deux entiers (de 0 à 2^{64}), en examinant deux propriétés fondamentales : la commutativité (A+B=B+A) et la généralisation compositionnelle (via des mappages symboliques isomorphes, par exemple, 7 → y). Bien que les LLMs de pointe atteignent une précision de 73,8 à 99,8 % sur l'addition numérique, leur performance s'effondre à ≤7,5 % sous un mappage symbolique, indiquant un échec à généraliser les règles apprises. Une mise à l'échelle non monotone des performances avec le nombre de chiffres et de fréquentes violations de la commutativité (plus de 1 700 cas où A+B ≠ B+A) renforcent cette conclusion. Fournir explicitement les règles d'addition dégrade les performances de 81,2 % en moyenne, tandis que l'auto-explication maintient la précision de base, suggérant que le traitement arithmétique des LLMs est mal aligné avec les principes définis par l'homme. Nos résultats indiquent que les LLMs actuels s'appuient davantage sur la mémorisation de motifs que sur un véritable apprentissage de règles, mettant en lumière les limitations architecturales et la nécessité de nouvelles approches pour atteindre un véritable raisonnement mathématique.

Chroniques Visuelles : Utilisation de Modèles de Langage Multimodaux pour Analyser des Collections Massives d'Images
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Apr 11

ByBoyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser

Nous présentons un système utilisant des modèles de langage multimodaux (MLLMs) pour analyser une vaste base de données contenant des dizaines de millions d'images capturées à différents moments, dans le but de découvrir des motifs dans les changements temporels. Plus précisément, nous cherchons à identifier les changements fréquemment co-occurrents ("tendances") à travers une ville sur une période donnée. Contrairement aux analyses visuelles précédentes, notre analyse répond à des requêtes ouvertes (par exemple, "quels sont les types de changements fréquents dans la ville ?") sans aucun sujet cible prédéterminé ni étiquette d'apprentissage. Ces caractéristiques rendent les outils d'analyse visuelle basés sur l'apprentissage ou non supervisés antérieurs inadaptés. Nous identifions les MLLMs comme un nouvel outil pour leurs capacités de compréhension sémantique ouverte. Cependant, nos ensembles de données sont quatre ordres de grandeur trop volumineux pour qu'un MLLM puisse les ingérer en tant que contexte. Nous introduisons donc une procédure ascendante qui décompose le problème massif d'analyse visuelle en sous-problèmes plus gérables. Nous concevons soigneusement des solutions basées sur les MLLMs pour chaque sous-problème. Lors des expériences et études d'ablation avec notre système, nous constatons qu'il surpasse significativement les bases de référence et est capable de découvrir des tendances intéressantes à partir d'images capturées dans de grandes villes (par exemple, "ajout de terrasses de restauration", "le passage supérieur a été peint en bleu", etc.). Consultez plus de résultats et des démonstrations interactives sur https://boyangdeng.com/visual-chronicles.

FlexIP : Contrôle dynamique de la préservation et de la personnalité pour une génération d'images personnalisée
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Apr 10

ByLinyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao

Avec les progrès rapides des modèles génératifs 2D, la préservation de l'identité du sujet tout en permettant des modifications diversifiées est devenue un axe de recherche crucial. Les méthodes existantes se heurtent généralement à des compromis inhérents entre la préservation de l'identité et la manipulation personnalisée. Nous présentons FlexIP, un nouveau cadre qui découple ces objectifs grâce à deux composants dédiés : un Adaptateur de Personnalisation pour la manipulation stylistique et un Adaptateur de Préservation pour le maintien de l'identité. En injectant explicitement ces deux mécanismes de contrôle dans le modèle génératif, notre cadre permet un contrôle paramétré flexible lors de l'inférence grâce à un réglage dynamique de l'adaptateur de poids. Les résultats expérimentaux montrent que notre approche dépasse les limitations de performance des méthodes conventionnelles, offrant une préservation supérieure de l'identité tout en supportant des capacités de génération personnalisée plus diversifiées (Page du projet : https://flexip-tech.github.io/flexip/).

In-2-4D : Interpolation d'images à vue unique pour la génération 4D
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Apr 11

BySauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri

Nous proposons un nouveau problème, In-2-4D, pour l'interpolation générative en 4D (c'est-à-dire 3D + mouvement) à partir d'une configuration d'entrée minimaliste : deux images monocaptures représentant un objet dans deux états de mouvement distincts. Étant donné deux images représentant les états de début et de fin d'un objet en mouvement, notre objectif est de générer et de reconstruire le mouvement en 4D. Nous utilisons un modèle d'interpolation vidéo pour prédire le mouvement, mais de grands écarts entre les images peuvent conduire à des interprétations ambiguës. Pour surmonter cela, nous employons une approche hiérarchique pour identifier des images clés visuellement proches des états d'entrée et montrant un mouvement significatif, puis générons des fragments fluides entre elles. Pour chaque fragment, nous construisons la représentation 3D de l'image clé en utilisant le Gaussian Splatting. Les images temporelles au sein du fragment guident le mouvement, permettant leur transformation en Gaussiennes dynamiques via un champ de déformation. Pour améliorer la cohérence temporelle et affiner le mouvement 3D, nous étendons l'auto-attention de la diffusion multi-vues à travers les pas de temps et appliquons une régularisation par transformation rigide. Enfin, nous fusionnons les segments de mouvement 3D générés indépendamment en interpolant les champs de déformation aux limites et en les optimisant pour s'aligner avec la vidéo guide, assurant ainsi des transitions fluides et sans scintillement. À travers des expériences qualitatives et quantitatives approfondies ainsi qu'une étude utilisateur, nous démontrons l'efficacité de notre méthode et de ses composants. La page du projet est disponible à l'adresse https://in-2-4d.github.io/

ModernBERT ou DeBERTaV3 ? Examen de l'influence de l'architecture et des données sur les performances des modèles encodeurs Transformer
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Apr 11

ByWissam Antoun, Benoît Sagot, Djamé Seddah

Les modèles pré-entraînés à encodeur de type transformateur comme DeBERTaV3 et ModernBERT introduisent des avancées architecturales visant à améliorer l'efficacité et les performances. Bien que les auteurs de ModernBERT rapportent de meilleures performances par rapport à DeBERTaV3 sur plusieurs benchmarks, l'absence de données d'entraînement divulguées et le manque de comparaisons utilisant un jeu de données partagé rendent difficile la détermination de savoir si ces gains sont dus à des améliorations architecturales ou à des différences dans les données d'entraînement. Dans ce travail, nous menons une étude contrôlée en pré-entraînant ModernBERT sur le même jeu de données que CamemBERTaV2, un modèle DeBERTaV3 en français, afin d'isoler l'effet de la conception du modèle. Nos résultats montrent que la génération précédente de modèles reste supérieure en termes d'efficacité d'échantillonnage et de performances globales sur les benchmarks, avec comme principal avantage de ModernBERT une vitesse d'entraînement et d'inférence plus rapide. Cependant, le nouveau modèle proposé apporte tout de même des améliorations architecturales significatives par rapport aux modèles antérieurs tels que BERT et RoBERTa. De plus, nous observons que des données de pré-entraînement de haute qualité accélèrent la convergence mais n'améliorent pas significativement les performances finales, suggérant une possible saturation des benchmarks. Ces résultats soulignent l'importance de dissocier les données de pré-entraînement des innovations architecturales lors de l'évaluation des modèles de transformateurs.

CoRAG : Génération Augmentée par Récupération Collaborative
CoRAG: Collaborative Retrieval-Augmented Generation

Apr 2

ByAashiq Muhamed, Mona Diab, Virginia Smith

Les modèles de Génération Augmentée par Récupération (RAG) excellent dans les tâches nécessitant une connaissance approfondie, en particulier dans des conditions d'apprentissage avec peu d'exemples. Nous présentons CoRAG, un cadre étendant RAG à des contextes collaboratifs, où les clients entraînent conjointement un modèle partagé en utilisant un référentiel de passages collaboratif. Pour évaluer CoRAG, nous introduisons CRAB, un benchmark pour le question-réponse ouvert collaboratif et homogène. Nos expériences démontrent que CoRAG surpasse systématiquement à la fois les méthodes d'apprentissage collaboratif paramétriques et les modèles RAG entraînés localement dans des scénarios à faibles ressources. Une analyse approfondie révèle l'importance cruciale des passages pertinents dans le référentiel partagé, les avantages surprenants de l'intégration de passages non pertinents, et le potentiel impact négatif des exemples négatifs difficiles sur la performance. Cela introduit une nouvelle considération dans le RAG collaboratif : le compromis entre l'exploitation d'une base de connaissances collectivement enrichie et le risque potentiel d'intégrer des passages nuisibles provenant d'autres clients. Nos résultats soulignent la viabilité de CoRAG, tout en mettant en lumière des défis clés de conception et des pistes prometteuses pour de futures recherches.

UKBOB : Un milliard de masques annotés par IRM pour la segmentation généralisable d'images médicales 3D
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Apr 9

ByEmmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi

En imagerie médicale, le principal défi consiste à collecter des données annotées à grande échelle en raison des préoccupations liées à la confidentialité, des contraintes logistiques et des coûts élevés d'annotation. Dans ce travail, nous présentons UK Biobank Organs and Bones (UKBOB), le plus grand ensemble de données annotées d'organes corporels, comprenant 51 761 échantillons IRM 3D (équivalant à 17,9 millions d'images 2D) et plus de 1,37 milliard de masques de segmentation 2D pour 72 organes, tous basés sur le jeu de données IRM de la UK Biobank. Nous utilisons un étiquetage automatique, introduisons un pipeline automatisé de nettoyage des étiquettes avec des filtres spécifiques aux organes, et annotons manuellement un sous-ensemble de 300 IRM avec 11 classes abdominales pour valider la qualité (appelé UKBOB-manuel). Cette approche permet d'augmenter la collecte de données tout en maintenant la confiance dans les étiquettes. Nous confirmons en outre la validité des étiquettes en démontrant la généralisation en zero-shot des modèles entraînés sur UKBOB filtré à d'autres petits ensembles de données annotées provenant de domaines similaires (par exemple, l'IRM abdominale). Pour atténuer davantage l'effet des étiquettes bruyantes, nous proposons une nouvelle méthode appelée Entropy Test-time Adaptation (ETTA) pour affiner la sortie de segmentation. Nous utilisons UKBOB pour entraîner un modèle de base, Swin-BOB, pour la segmentation d'images médicales 3D basé sur l'architecture Swin-UNetr, obtenant des résultats de pointe dans plusieurs benchmarks en imagerie médicale 3D, notamment le défi BRATS sur les tumeurs cérébrales en IRM (avec une amélioration de 0,4 %) et le benchmark BTCV sur les scanners abdominaux en tomodensitométrie (avec une amélioration de 1,3 %). Les modèles pré-entraînés et le code sont disponibles à l'adresse https://emmanuelleb985.github.io/ukbob, et les étiquettes filtrées seront mises à disposition avec la UK Biobank.

Guidance sans entraînement dans la génération texte-vidéo via une planification multimodale et une initialisation structurée du bruit
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Apr 11

ByJialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal

Les récents progrès des modèles de diffusion texte-vidéo (T2V) ont considérablement amélioré la qualité visuelle des vidéos générées. Cependant, même les modèles T2V les plus récents rencontrent des difficultés à suivre avec précision les descriptions textuelles, en particulier lorsque l'instruction nécessite un contrôle précis des dispositions spatiales ou des trajectoires d'objets. Une récente ligne de recherche utilise des guidages de mise en page pour les modèles T2V, qui nécessitent un ajustement fin ou une manipulation itérative de la carte d'attention pendant le temps d'inférence. Cela augmente significativement les besoins en mémoire, rendant difficile l'adoption d'un grand modèle T2V comme architecture de base. Pour résoudre ce problème, nous introduisons Video-MSG, une méthode de guidage sans ajustement pour la génération T2V, basée sur une planification multimodale et une initialisation structurée du bruit. Video-MSG se compose de trois étapes : dans les deux premières étapes, Video-MSG crée un croquis vidéo, un plan spatio-temporel détaillé pour la vidéo finale, spécifiant l'arrière-plan, l'avant-plan et les trajectoires d'objets sous forme de trames vidéo préliminaires. Dans la dernière étape, Video-MSG guide un modèle de diffusion T2V en aval avec le croquis vidéo via une inversion du bruit et un débruitage. Notamment, Video-MSG ne nécessite ni ajustement fin ni manipulation de l'attention avec une mémoire supplémentaire pendant le temps d'inférence, facilitant ainsi l'adoption de grands modèles T2V. Video-MSG démontre son efficacité à améliorer l'alignement textuel avec plusieurs architectures T2V (VideoCrafter2 et CogVideoX-5B) sur des benchmarks populaires de génération T2V (T2VCompBench et VBench). Nous fournissons des études d'ablation approfondies sur le ratio d'inversion du bruit, différents générateurs d'arrière-plan, la détection d'objets en arrière-plan et la segmentation d'objets en avant-plan.

BlenderGym : Évaluation des systèmes de modèles fondamentaux pour l'édition graphique
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Apr 2

ByYunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas

L'édition graphique 3D est cruciale dans des applications telles que la production de films et la conception de jeux, mais elle reste un processus chronophage qui exige une expertise hautement spécialisée. Automatiser ce processus est complexe, car l'édition graphique nécessite l'exécution de diverses tâches, chacune requérant des compétences distinctes. Récemment, les modèles vision-langage (VLMs) sont apparus comme un cadre puissant pour automatiser le processus d'édition, mais leur développement et leur évaluation sont freinés par l'absence d'un benchmark complet exigeant une perception de niveau humain et présentant une complexité d'édition réaliste. Dans ce travail, nous présentons BlenderGym, le premier benchmark complet de système VLM pour l'édition graphique 3D. BlenderGym évalue les systèmes VLM à travers des tâches de reconstruction 3D basées sur du code. Nous évaluons des systèmes VLM propriétaires et open source et observons que même le système VLM le plus avancé peine à accomplir des tâches relativement simples pour les utilisateurs humains de Blender. Grâce à BlenderGym, nous étudions comment les techniques de mise à l'échelle de l'inférence impactent les performances des VLMs sur les tâches d'édition graphique. Notamment, nos résultats révèlent que le vérificateur utilisé pour guider la mise à l'échelle de la génération peut lui-même être amélioré par la mise à l'échelle de l'inférence, complétant les récentes découvertes sur la mise à l'échelle de l'inférence dans la génération de LLM pour les tâches de codage et de mathématiques. Nous montrons en outre que le calcul d'inférence n'est pas uniformément efficace et peut être optimisé en le répartissant stratégiquement entre la génération et la vérification.

InteractVLM : Raisonnement sur les interactions 3D à partir de modèles fondamentaux 2D
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Apr 7

BySai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

Nous présentons InteractVLM, une méthode novatrice pour estimer les points de contact 3D sur les corps humains et les objets à partir d'images uniques en conditions réelles, permettant une reconstruction précise des interactions humain-objet en 3D. Ce défi est complexe en raison des occlusions, des ambiguïtés de profondeur et de la grande variété des formes d'objets. Les méthodes existantes s'appuient sur des annotations de contact 3D collectées via des systèmes de capture de mouvement coûteux ou un étiquetage manuel fastidieux, limitant ainsi leur évolutivité et leur généralisation. Pour surmonter cela, InteractVLM exploite les vastes connaissances visuelles des grands modèles vision-langage (VLMs), affinés avec des données de contact 3D limitées. Cependant, appliquer directement ces modèles n'est pas trivial, car ils raisonnent uniquement en 2D, alors que le contact humain-objet est intrinsèquement 3D. Ainsi, nous introduisons un module innovant Render-Localize-Lift qui : (1) intègre les surfaces 3D du corps et des objets dans l'espace 2D via un rendu multi-vues, (2) entraîne un nouveau modèle de localisation multi-vues (MV-Loc) pour inférer les contacts en 2D, et (3) projette ces contacts en 3D. De plus, nous proposons une nouvelle tâche appelée estimation sémantique du contact humain, où les prédictions de contact humain sont explicitement conditionnées par la sémantique des objets, permettant une modélisation plus riche des interactions. InteractVLM surpasse les travaux existants en matière d'estimation de contact et facilite également la reconstruction 3D à partir d'une image en conditions réelles. Le code et les modèles sont disponibles à l'adresse https://interactvlm.is.tue.mpg.de.

SpecReason : Calcul rapide et précis à l'inférence via un raisonnement spéculatif
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Apr 10

ByRui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali

Les récents progrès en matière de calcul au moment de l'inférence ont considérablement amélioré les performances sur des tâches complexes en générant de longues chaînes de raisonnement (CoTs) à l'aide de modèles de raisonnement à grande échelle (LRMs). Cependant, cette amélioration de la précision se fait au prix d'une latence d'inférence élevée en raison de la longueur des séquences de raisonnement générées et de la nature autorégressive du décodage. Notre idée clé pour surmonter ces surcharges est que l'inférence des LRM, ainsi que le raisonnement qu'elle intègre, est très tolérante aux approximations : les tâches complexes sont généralement décomposées en étapes plus simples, chacune apportant une utilité basée sur l'aperçu sémantique qu'elle fournit pour les étapes suivantes plutôt que sur les tokens exacts qu'elle génère. En conséquence, nous introduisons SpecReason, un système qui accélère automatiquement l'inférence des LRM en utilisant un modèle léger pour effectuer (de manière spéculative) les étapes de raisonnement intermédiaires plus simples et en réservant le modèle de base coûteux uniquement pour évaluer (et potentiellement corriger) les sorties spéculées. Il est important de noter que l'accent de SpecReason sur l'exploitation de la flexibilité sémantique des tokens de pensée pour préserver la précision de la réponse finale est complémentaire aux techniques de spéculation antérieures, notamment le décodage spéculatif, qui exige une équivalence au niveau des tokens à chaque étape. Sur une variété de benchmarks de raisonnement, SpecReason atteint une accélération de 1,5 à 2,5 fois par rapport à l'inférence LRM standard tout en améliorant la précision de 1,0 à 9,9 %. Par rapport au décodage spéculatif sans SpecReason, leur combinaison permet une réduction supplémentaire de la latence de 19,4 à 44,2 %. Nous mettons SpecReason en open-source à l'adresse https://github.com/ruipeterpan/specreason.

Autoencodeurs à Diffusion Latente : Vers un Apprentissage de Représentations Non Supervisé Efficace et Significatif en Imagerie Médicale
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Apr 11

ByGabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman

Cette étude présente le Latent Diffusion Autoencoder (LDAE), un nouveau cadre encoder-décodeur basé sur la diffusion pour un apprentissage non supervisé efficace et significatif en imagerie médicale, en se concentrant sur la maladie d'Alzheimer (MA) en utilisant l'IRM cérébrale de la base de données ADNI comme étude de cas. Contrairement aux autoencodeurs de diffusion conventionnels opérant dans l'espace image, le LDAE applique le processus de diffusion dans une représentation latente compressée, améliorant ainsi l'efficacité computationnelle et rendant l'apprentissage de représentation en imagerie médicale 3D réalisable. Pour valider l'approche proposée, nous explorons deux hypothèses clés : (i) le LDAE capture efficacement des représentations sémantiques significatives sur les IRM cérébrales 3D associées à la MA et au vieillissement, et (ii) le LDAE atteint une génération et une reconstruction d'images de haute qualité tout en étant computationnellement efficace. Les résultats expérimentaux soutiennent ces deux hypothèses : (i) les évaluations par sonde linéaire démontrent des performances diagnostiques prometteuses pour la MA (ROC-AUC : 90 %, ACC : 84 %) et la prédiction de l'âge (MAE : 4,1 ans, RMSE : 5,2 ans) ; (ii) les représentations sémantiques apprises permettent une manipulation des attributs, produisant des modifications anatomiquement plausibles ; (iii) les expériences d'interpolation sémantique montrent une reconstruction solide des scans manquants, avec un SSIM de 0,969 (MSE : 0,0019) pour un écart de 6 mois. Même pour des écarts plus longs (24 mois), le modèle maintient des performances robustes (SSIM > 0,93, MSE < 0,004), indiquant une capacité à capturer les tendances de progression temporelle ; (iv) comparé aux autoencodeurs de diffusion conventionnels, le LDAE augmente significativement le débit d'inférence (20 fois plus rapide) tout en améliorant également la qualité de la reconstruction. Ces résultats positionnent le LDAE comme un cadre prometteur pour des applications d'imagerie médicale évolutives, avec le potentiel de servir de modèle de base pour l'analyse d'images médicales. Le code est disponible à l'adresse suivante : https://github.com/GabrieleLozupone/LDAE.

Les SAE peuvent améliorer le désapprentissage : Autoencodeurs Sparse Dynamiques comme garde-fous pour un désapprentissage précis dans les LLM
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Apr 11

ByAashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith

Le désapprentissage machine est une approche prometteuse pour améliorer la sécurité des modèles de langage (LLM) en supprimant les connaissances indésirables du modèle. Cependant, les méthodes de désapprentissage basées sur les gradients souffrent de problèmes tels que des coûts de calcul élevés, une instabilité des hyperparamètres, une faible capacité de désapprentissage séquentiel, une vulnérabilité aux attaques de réapprentissage, une faible efficacité des données et un manque d'interprétabilité. Bien que les autoencodeurs parcimonieux (Sparse Autoencoders, SAE) soient bien adaptés pour améliorer ces aspects en permettant un désapprentissage ciblé basé sur les activations, les approches précédentes sont moins performantes que les méthodes basées sur les gradients. Ce travail démontre que, contrairement à ces résultats antérieurs, les SAE peuvent considérablement améliorer le désapprentissage lorsqu'ils sont utilisés de manière dynamique. Nous introduisons les Dynamic DAE Guardrails (DSG), une nouvelle méthode de désapprentissage de précision qui exploite une sélection de caractéristiques rigoureuse et un classifieur dynamique. Nos expériences montrent que DSG surpasse largement les principales méthodes de désapprentissage, atteignant un meilleur compromis entre oubli et utilité. DSG résout les principaux inconvénients des approches basées sur les gradients pour le désapprentissage -- offrant une efficacité et une stabilité de calcul améliorées, des performances robustes dans le désapprentissage séquentiel, une résistance accrue aux attaques de réapprentissage, une meilleure efficacité des données y compris dans des contextes zero-shot, et un désapprentissage plus interprétable.

papers.title

papers.description

Seaweed-7B : Entraînement économique d'un modèle de base pour la génération vidéo
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

130

GigaTok : Mise à l'échelle des tokenizers visuels à 3 milliards de paramètres pour la génération d'images autorégressive
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

MineWorld : un modèle de monde interactif en temps réel et open-source sur Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

VLM-R1 : Un modèle de vision et langage de grande taille de style R1 stable et généralisable
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao