ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Rapport Technique de Qwen2.5-Omni
Qwen2.5-Omni Technical Report

Mar 26
ByJin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
166
4

Dans ce rapport, nous présentons Qwen2.5-Omni, un modèle multimodal de bout en bout conçu pour percevoir diverses modalités, incluant le texte, les images, l'audio et la vidéo, tout en générant simultanément des réponses textuelles et vocales naturelles de manière fluide. Pour permettre le traitement en flux des entrées d'informations multimodales, les encodeurs audio et visuels utilisent une approche de traitement par blocs. Pour synchroniser les timestamps des entrées vidéo avec l'audio, nous organisons l'audio et la vidéo de manière séquentielle et entrelacée, et proposons une nouvelle approche d'encodage de position, nommée TMRoPE (Time-aligned Multimodal RoPE). Pour générer simultanément du texte et de la parole tout en évitant les interférences entre ces deux modalités, nous proposons une architecture Thinker-Talker. Dans ce cadre, Thinker fonctionne comme un grand modèle de langage chargé de la génération de texte, tandis que Talker est un modèle autorégressif à double voie qui utilise directement les représentations cachées de Thinker pour produire des tokens audio en sortie. Les modèles Thinker et Talker sont conçus pour être entraînés et inférés de manière end-to-end. Pour décoder les tokens audio en flux continu, nous introduisons un DiT à fenêtre glissante qui limite le champ réceptif, visant à réduire le délai initial des paquets. Qwen2.5-Omni est comparable au Qwen2.5-VL de taille similaire et surpasse Qwen2-Audio. De plus, Qwen2.5-Omni atteint des performances de pointe sur des benchmarks multimodaux comme Omni-Bench. Notamment, les performances de Qwen2.5-Omni dans le suivi d'instructions vocales de bout en bout sont comparables à ses capacités avec des entrées textuelles, comme en témoignent les benchmarks tels que MMLU et GSM8K. En ce qui concerne la génération de parole, le Talker en flux de Qwen2.5-Omni surpasse la plupart des alternatives existantes, qu'elles soient en flux ou non, en termes de robustesse et de naturalité.

2

Wan : Modèles génératifs vidéo à grande échelle ouverts et avancés
Wan: Open and Advanced Large-Scale Video Generative Models

Mar 26
ByWanTeam, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu
55
2

Ce rapport présente Wan, une suite complète et ouverte de modèles de base pour la génération vidéo, conçue pour repousser les limites de ce domaine. Basé sur le paradigme dominant des transformateurs de diffusion, Wan réalise des avancées significatives en matière de capacités génératives grâce à une série d'innovations, notamment notre nouveau VAE, des stratégies de pré-entraînement évolutives, une curation de données à grande échelle et des métriques d'évaluation automatisées. Ces contributions améliorent collectivement les performances et la polyvalence du modèle. Plus précisément, Wan se distingue par quatre caractéristiques clés : Performance de pointe : Le modèle 14B de Wan, entraîné sur un vaste ensemble de données comprenant des milliards d'images et de vidéos, illustre les lois d'échelle de la génération vidéo en termes de données et de taille de modèle. Il surpasse systématiquement les modèles open-source existants ainsi que les solutions commerciales de pointe sur plusieurs benchmarks internes et externes, démontrant une supériorité de performance claire et significative. Exhaustivité : Wan propose deux modèles performants, respectivement 1,3B et 14B de paramètres, pour l'efficacité et l'efficience. Il couvre également plusieurs applications en aval, notamment la génération d'images vers vidéo, l'édition de vidéo guidée par instructions et la génération de vidéos personnelles, englobant jusqu'à huit tâches. Efficacité grand public : Le modèle 1,3B démontre une exceptionnelle efficacité des ressources, nécessitant seulement 8,19 Go de VRAM, ce qui le rend compatible avec une large gamme de GPU grand public. Ouverture : Nous rendons open-source toute la série Wan, y compris le code source et tous les modèles, dans le but de favoriser la croissance de la communauté de génération vidéo. Cette ouverture vise à élargir considérablement les possibilités créatives de production vidéo dans l'industrie et à fournir à la communauté académique des modèles de base vidéo de haute qualité. L'ensemble du code et des modèles est disponible à l'adresse suivante : https://github.com/Wan-Video/Wan2.1.

3

Rapport Technique de Gemma 3
Gemma 3 Technical Report

Mar 25
ByGemma Team, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Rivière, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Etienne Pot, Ivo Penchev, Gaël Liu, Francesco Visin, Kathleen Kenealy, Lucas Beyer, Xiaohai Zhai, Anton Tsitsulin, Robert Busa-Fekete, Alex Feng, Noveen Sachdeva, Benjamin Coleman, Yi Gao, Basil Mustafa, Iain Barr, Emilio Parisotto, David Tian, Matan Eyal, Colin Cherry, Jan-Thorsten Peter, Danila Sinopalnikov, Surya Bhupatiraju, Rishabh Agarwal, Mehran Kazemi, Dan Malkin, Ravin Kumar, David Vilar, Idan Brusilovsky, Jiaming Luo, Andreas Steiner, Abe Friesen, Abhanshu Sharma, Abheesht Sharma, Adi Mayrav Gilady, Adrian Goedeckemeyer, Alaa Saade, Alex Feng, Alexander Kolesnikov, Alexei Bendebury, Alvin Abdagic, Amit Vadi, András György, André Susano Pinto, Anil Das, Ankur Bapna, Antoine Miech, Antoine Yang, Antonia Paterson, Ashish Shenoy, Ayan Chakrabarti, Bilal Piot, Bo Wu, Bobak Shahriari, Bryce Petrini, Charlie Chen, Charline Le Lan, Christopher A. Choquette-Choo, CJ Carey, Cormac Brick, Daniel Deutsch, Danielle Eisenbud, Dee Cattle, Derek Cheng, Dimitris Paparas, Divyashree Shivakumar Sreepathihalli, Doug Reid, Dustin Tran, Dustin Zelle, Eric Noland, Erwin Huizenga, Eugene Kharitonov, Frederick Liu, Gagik Amirkhanyan, Glenn Cameron, Hadi Hashemi, Hanna Klimczak-Plucińska, Harman Singh, Harsh Mehta, Harshal Tushar Lehri, Hussein Hazimeh, Ian Ballantyne, Idan Szpektor, Ivan Nardini, Jean Pouget-Abadie, Jetha Chan, Joe Stanton, John Wieting, Jonathan Lai, Jordi Orbay, Joseph Fernandez, Josh Newlan, Ju-yeong Ji, Jyotinder Singh, Kat Black, Kathy Yu, Kevin Hui, Kiran Vodrahalli, Klaus Greff, Linhai Qiu, Marcella Valentine, Marina Coelho, Marvin Ritter, Matt Hoffman, Matthew Watson, Mayank Chaturvedi, Michael Moynihan, Min Ma, Nabila Babar, Natasha Noy, Nathan Byrd, Nick Roy, Nikola Momchev, Nilay Chauhan, Noveen Sachdeva, Oskar Bunyan, Pankil Botarda, Paul Caron, Paul Kishan Rubenstein, Phil Culliton, Philipp Schmid, Pier Giuseppe Sessa, Pingmei Xu, Piotr Stanczyk, Pouya Tafti, Rakesh Shivanna, Renjie Wu, Renke Pan, Reza Rokni, Rob Willoughby, Rohith Vallu, Ryan Mullins, Sammy Jerome, Sara Smoot, Sertan Girgin, Shariq Iqbal, Shashir Reddy, Shruti Sheth, Siim Põder, Sijal Bhatnagar, Sindhu Raghuram Panyam, Sivan Eiger, Susan Zhang, Tianqi Liu, Trevor Yacovone, Tyler Liechty, Uday Kalra, Utku Evci, Vedant Misra, Vincent Roseberry, Vlad Feinberg, Vlad Kolesnikov, Woohyun Han, Woosuk Kwon, Xi Chen, Yinlam Chow, Yuvein Zhu, Zichuan Wei, Zoltan Egyed, Victor Cotruta, Minh Giang, Phoebe Kirk, Anand Rao, Kat Black, Nabila Babar, Jessica Lo, Erica Moreira, Luiz Gustavo Martins, Omar Sanseviero, Lucas Gonzalez, Zach Gleicher, Tris Warkentin, Vahab Mirrokni, Evan Senter, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, Yossi Matias, D. Sculley, Slav Petrov, Noah Fiedel, Noam Shazeer, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Jean-Baptiste Alayrac, Rohan Anil, Dmitry, Lepikhin, Sebastian Borgeaud, Olivier Bachem, Armand Joulin, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot
54
4

Nous présentons Gemma 3, une extension multimodale de la famille Gemma de modèles légers et ouverts, allant de 1 à 27 milliards de paramètres. Cette version introduit des capacités de compréhension visuelle, une couverture linguistique élargie et un contexte plus long - au moins 128 000 tokens. Nous avons également modifié l'architecture du modèle pour réduire la mémoire du cache KV, qui a tendance à exploser avec un contexte long. Cela est réalisé en augmentant le ratio de couches d'attention locale par rapport à l'attention globale et en maintenant une portée courte pour l'attention locale. Les modèles Gemma 3 sont entraînés par distillation et surpassent les performances de Gemma 2, tant pour les versions pré-entraînées que pour celles affinées par instructions. En particulier, notre nouvelle méthode post-entraînement améliore significativement les capacités en mathématiques, en conversation, en suivi d'instructions et en multilingue, rendant Gemma3-4B-IT compétitif avec Gemma2-27B-IT et Gemma3-27B-IT comparable à Gemini-1.5-Pro sur les benchmarks. Nous mettons tous nos modèles à disposition de la communauté.

4

Dita : Mise à l'échelle du Transformer de Diffusion pour une Politique Généraliste Vision-Langue-Action
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Mar 25
ByZhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen
51
2

Alors que les modèles récents vision-langue-action entraînés sur des ensembles de données robotiques diversifiés montrent des capacités prometteuses de généralisation avec des données limitées dans le domaine, leur dépendance à des têtes d'action compactes pour prédire des actions discrètes ou continues limite leur adaptabilité à des espaces d'action hétérogènes. Nous présentons Dita, un cadre évolutif qui exploite les architectures Transformer pour débruiter directement des séquences d'action continues via un processus de diffusion multimodale unifié. S'écartant des méthodes antérieures qui conditionnent le débruitage sur des embeddings fusionnés via des réseaux peu profonds, Dita utilise un conditionnement contextuel -- permettant un alignement fin entre les actions débruitées et les tokens visuels bruts issus des observations historiques. Cette conception modélise explicitement les deltas d'action et les nuances environnementales. En mettant à l'échelle le débruiteur d'action par diffusion parallèlement à l'évolutivité du Transformer, Dita intègre efficacement des ensembles de données inter-embodiments couvrant diverses perspectives de caméra, scènes d'observation, tâches et espaces d'action. Une telle synergie renforce la robustesse face à diverses variances et facilite l'exécution réussie de tâches à long horizon. Les évaluations sur des benchmarks étendus démontrent des performances de pointe ou comparables en simulation. Notamment, Dita réalise une adaptation robuste en monde réel aux variances environnementales et aux tâches complexes à long horizon grâce à un finetuning en 10-shot, utilisant uniquement des entrées de caméra à la troisième personne. L'architecture établit une base légère, polyvalente et open-source pour l'apprentissage de politiques robotiques généralistes. Page du projet : https://robodita.github.io.

5

Open Deep Search : Démocratiser la recherche avec des agents de raisonnement open-source
Open Deep Search: Democratizing Search with Open-source Reasoning Agents

Mar 26
BySalaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi, Pramod Viswanath
48
3

Nous présentons Open Deep Search (ODS) pour combler le fossé croissant entre les solutions propriétaires de recherche basées sur l'IA, telles que Sonar Reasoning Pro de Perplexity et GPT-4o Search Preview d'OpenAI, et leurs équivalents open source. L'innovation principale d'ODS consiste à renforcer les capacités de raisonnement des derniers modèles de langage (LLM) open source avec des agents de raisonnement capables d'utiliser judicieusement des outils de recherche web pour répondre aux requêtes. Concrètement, ODS se compose de deux éléments qui fonctionnent avec un LLM de base choisi par l'utilisateur : Open Search Tool et Open Reasoning Agent. Open Reasoning Agent interprète la tâche donnée et l'accomplit en orchestrant une séquence d'actions incluant l'appel d'outils, dont l'un est Open Search Tool. Open Search Tool est un nouvel outil de recherche web qui surpasse ses équivalents propriétaires. Associé à des LLM open source puissants pour le raisonnement, comme DeepSeek-R1, ODS atteint, voire dépasse parfois, les performances des meilleures solutions existantes sur deux benchmarks : SimpleQA et FRAMES. Par exemple, sur le benchmark d'évaluation FRAMES, ODS améliore la précision de la meilleure solution existante, GPT-4o Search Preview récemment publié, de 9,7 %. ODS est un cadre général permettant d'augmenter de manière transparente n'importe quel LLM — par exemple, DeepSeek-R1 qui atteint 82,4 % sur SimpleQA et 30,1 % sur FRAMES — avec des capacités de recherche et de raisonnement pour obtenir des performances de pointe : 88,3 % sur SimpleQA et 75,3 % sur FRAMES.

6

LEGO-Puzzles : Quelle est la performance des MLLM en matière de raisonnement spatial multi-étapes ?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

Mar 25
ByKexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
35
2

Le raisonnement spatial multi-étapes implique la compréhension et l'analyse des relations spatiales à travers plusieurs étapes séquentielles, ce qui est crucial pour aborder des applications complexes du monde réel, telles que la manipulation robotique, la navigation autonome et l'assemblage automatisé. Pour évaluer dans quelle mesure les modèles de langage multimodaux de grande taille (MLLMs) actuels ont acquis cette capacité fondamentale, nous introduisons LEGO-Puzzles, un benchmark évolutif conçu pour évaluer à la fois la compréhension spatiale et le raisonnement séquentiel des MLLMs à travers des tâches basées sur LEGO. LEGO-Puzzles comprend 1 100 échantillons soigneusement sélectionnés de questions-réponses visuelles (VQA) couvrant 11 tâches distinctes, allant de la compréhension spatiale de base au raisonnement multi-étapes complexe. Sur la base de LEGO-Puzzles, nous menons une évaluation approfondie des MLLMs de pointe et révélons des limitations significatives dans leurs capacités de raisonnement spatial : même les MLLMs les plus puissants ne peuvent répondre qu'à environ la moitié des cas de test, alors que les participants humains atteignent une précision de plus de 90 %. En plus des tâches VQA, nous évaluons les capacités des MLLMs à générer des images LEGO en suivant des illustrations d'assemblage. Nos expériences montrent que seuls Gemini-2.0-Flash et GPT-4o présentent une capacité limitée à suivre ces instructions, tandis que les autres MLLMs reproduisent l'image d'entrée ou génèrent des sorties complètement non pertinentes. Globalement, LEGO-Puzzles met en lumière des lacunes critiques dans la compréhension spatiale et les capacités de raisonnement séquentiel des MLLMs existants, et souligne la nécessité de progrès supplémentaires dans le raisonnement spatial multimodal.

7

Gemini Robotics : Intégrer l'IA dans le monde physique
Gemini Robotics: Bringing AI into the Physical World

Mar 25
ByGemini Robotics Team, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Travis Armstrong, Ashwin Balakrishna, Robert Baruch, Maria Bauza, Michiel Blokzijl, Steven Bohez, Konstantinos Bousmalis, Anthony Brohan, Thomas Buschmann, Arunkumar Byravan, Serkan Cabi, Ken Caluwaerts, Federico Casarini, Oscar Chang, Jose Enrique Chen, Xi Chen, Hao-Tien Lewis Chiang, Krzysztof Choromanski, David D'Ambrosio, Sudeep Dasari, Todor Davchev, Coline Devin, Norman Di Palo, Tianli Ding, Adil Dostmohamed, Danny Driess, Yilun Du, Debidatta Dwibedi, Michael Elabd, Claudio Fantacci, Cody Fong, Erik Frey, Chuyuan Fu, Marissa Giustina, Keerthana Gopalakrishnan, Laura Graesser, Leonard Hasenclever, Nicolas Heess, Brandon Hernaez, Alexander Herzog, R. Alex Hofer, Jan Humplik, Atil Iscen, Mithun George Jacob, Deepali Jain, Ryan Julian, Dmitry Kalashnikov, M. Emre Karagozler, Stefani Karp, Chase Kew, Jerad Kirkland, Sean Kirmani, Yuheng Kuang, Thomas Lampe, Antoine Laurens, Isabel Leal, Alex X. Lee, Tsang-Wei Edward Lee, Jacky Liang, Yixin Lin, Sharath Maddineni, Anirudha Majumdar, Assaf Hurwitz Michaely, Robert Moreno, Michael Neunert, Francesco Nori, Carolina Parada, Emilio Parisotto, Peter Pastor, Acorn Pooley, Kanishka Rao, Krista Reymann, Dorsa Sadigh, Stefano Saliceti, Pannag Sanketi, Pierre Sermanet, Dhruv Shah, Mohit Sharma, Kathryn Shea, Charles Shu, Vikas Sindhwani, Sumeet Singh, Radu Soricut, Jost Tobias Springenberg, Rachel Sterneck, Razvan Surdulescu, Jie Tan, Jonathan Tompson, Vincent Vanhoucke, Jake Varley, Grace Vesom, Giulia Vezzani, Oriol Vinyals, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Fei Xia, Ted Xiao, Annie Xie, Jinyu Xie, Peng Xu, Sichun Xu, Ying Xu, Zhuo Xu, Yuxiang Yang, Rui Yao, Sergey Yaroshenko, Wenhao Yu, Wentao Yuan, Jingwei Zhang, Tingnan Zhang, Allan Zhou, Yuxiang Zhou
29
2

Les récentes avancées dans les modèles multimodaux de grande taille ont conduit à l'émergence de capacités généralistes remarquables dans les domaines numériques, mais leur transposition à des agents physiques tels que les robots reste un défi majeur. Ce rapport présente une nouvelle famille de modèles d'IA spécialement conçus pour la robotique et construits sur la base de Gemini 2.0. Nous introduisons Gemini Robotics, un modèle généraliste avancé Vision-Langue-Action (VLA) capable de contrôler directement les robots. Gemini Robotics exécute des mouvements fluides et réactifs pour accomplir une large gamme de tâches de manipulation complexes, tout en étant robuste aux variations de types et de positions d'objets, en gérant des environnements inconnus et en suivant des instructions diverses et en vocabulaire ouvert. Nous montrons qu'avec un ajustement supplémentaire, Gemini Robotics peut être spécialisé pour acquérir de nouvelles capacités, notamment la résolution de tâches à long terme et hautement dextres, l'apprentissage de nouvelles tâches à court terme à partir d'aussi peu que 100 démonstrations, et l'adaptation à des incarnations robotiques complètement nouvelles. Cela est rendu possible car Gemini Robotics s'appuie sur le modèle Gemini Robotics-ER, le second modèle que nous introduisons dans ce travail. Gemini Robotics-ER (Raisonnement Embarqué) étend les capacités de raisonnement multimodal de Gemini au monde physique, avec une compréhension spatiale et temporelle améliorée. Cela permet des capacités pertinentes pour la robotique, notamment la détection d'objets, le pointage, la prédiction de trajectoire et de préhension, ainsi que la correspondance multi-vues et la prédiction de boîtes englobantes 3D. Nous montrons comment cette combinaison novatrice peut soutenir une variété d'applications robotiques. Nous discutons et abordons également des considérations importantes de sécurité liées à cette nouvelle classe de modèles de base pour la robotique. La famille Gemini Robotics marque une étape significative vers le développement de robots à usage général qui réalisent le potentiel de l'IA dans le monde physique.

8

Les priors inconditionnels comptent ! Amélioration de la génération conditionnelle dans les modèles de diffusion affinés
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

Mar 26
ByPrin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung
22
3

Le Classifier-Free Guidance (CFG) est une technique fondamentale dans l'entraînement des modèles de diffusion conditionnels. La pratique courante pour l'entraînement basé sur CFG consiste à utiliser un seul réseau pour apprendre à la fois la prédiction du bruit conditionnel et inconditionnel, avec un faible taux de dropout pour le conditionnement. Cependant, nous observons que l'apprentissage conjoint du bruit inconditionnel avec une bande passante limitée lors de l'entraînement entraîne de mauvais a priori pour le cas inconditionnel. Plus important encore, ces mauvaises prédictions de bruit inconditionnel deviennent une raison sérieuse de la dégradation de la qualité de la génération conditionnelle. Inspirés par le fait que la plupart des modèles conditionnels basés sur CFG sont entraînés par affinage d'un modèle de base avec une meilleure génération inconditionnelle, nous montrons d'abord que le simple remplacement du bruit inconditionnel dans CFG par celui prédit par le modèle de base peut considérablement améliorer la génération conditionnelle. De plus, nous montrons qu'un modèle de diffusion autre que celui sur lequel le modèle affiné a été entraîné peut être utilisé pour le remplacement du bruit inconditionnel. Nous vérifions expérimentalement notre affirmation avec une gamme de modèles conditionnels basés sur CFG pour la génération d'images et de vidéos, y compris Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter et InstructPix2Pix.

9

GenHancer : Les modèles génératifs imparfaits sont secrètement puissants Améliorateurs centrés sur la vision
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

Mar 25
ByShijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
16
2

La synergie entre les modèles génératifs et discriminatifs suscite un intérêt croissant. Alors que le pré-entraînement contrastif langage-image (CLIP) discriminatif excelle dans la sémantique de haut niveau, il peine à percevoir les détails visuels fins. Généralement, pour améliorer les représentations, les modèles génératifs utilisent les caractéristiques visuelles de CLIP comme conditions pour la reconstruction. Cependant, le principe sous-jacent reste peu exploré. Dans ce travail, nous avons empiriquement constaté que des générations visuellement parfaites ne sont pas toujours optimales pour l'amélioration des représentations. L'essence réside dans l'extraction efficace de connaissances fines à partir des modèles génératifs tout en atténuant les informations non pertinentes. Pour explorer les facteurs critiques, nous nous penchons sur trois aspects : (1) Mécanismes de conditionnement : Nous avons constaté qu'un petit nombre de tokens locaux peut considérablement réduire la difficulté de reconstruction, entraînant un effondrement de l'entraînement. Nous concluons donc que l'utilisation uniquement des tokens visuels globaux comme conditions est la stratégie la plus efficace. (2) Configurations de débruitage : Nous avons observé que l'entraînement de bout en bout introduit des informations superflues. Pour y remédier, nous proposons une stratégie d'entraînement en deux étapes pour privilégier l'apprentissage de connaissances visuelles utiles. De plus, nous démontrons que des débruiteurs légers peuvent apporter des améliorations remarquables. (3) Paradigmes de génération : Nous explorons à la fois les débruiteurs continus et discrets avec des résultats prometteurs, validant la polyvalence de notre méthode. Grâce à nos explorations approfondies, nous avons finalement abouti à une méthode efficace, nommée GenHancer, qui surpasse systématiquement les approches précédentes sur le benchmark MMVP-VLM, par exemple, 6,0 % sur OpenAICLIP. Le CLIP amélioré peut être intégré dans des modèles de langage multimodaux de grande taille pour de meilleures performances centrées sur la vision. Tous les modèles et codes sont rendus publics.

10

BizGen : Progrès dans le rendu visuel de texte au niveau de l'article pour la génération d'infographies
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Mar 26
ByYuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
14
3

Récemment, les modèles de génération texte-image de pointe, tels que Flux et Ideogram 2.0, ont réalisé des progrès significatifs dans le rendu visuel de texte au niveau de la phrase. Dans cet article, nous nous concentrons sur les scénarios plus complexes du rendu visuel de texte au niveau de l'article et abordons une nouvelle tâche consistant à générer du contenu professionnel de haute qualité, incluant des infographies et des diapositives, à partir de prompts descriptifs au niveau de l'article et de mises en page ultra-denses fournis par l'utilisateur. Les défis fondamentaux sont doubles : des contextes nettement plus longs et la rareté des données de contenu professionnel de haute qualité. Contrairement à la plupart des travaux précédents qui se concentrent sur un nombre limité de sous-régions et de prompts au niveau de la phrase, garantir une adhésion précise à des mises en page ultra-denses comportant des dizaines, voire des centaines de sous-régions dans le contenu professionnel est bien plus complexe. Nous apportons deux contributions techniques clés : (i) la construction d'un ensemble de données de contenu professionnel évolutif et de haute qualité, à savoir Infographics-650K, doté de mises en page ultra-denses et de prompts grâce à la mise en œuvre d'un schéma de génération d'infographies par récupération couche par couche ; et (ii) un schéma d'attention croisée guidé par la mise en page, qui injecte des dizaines de prompts spécifiques à chaque région dans un espace latent de régions recadrées selon les mises en page ultra-denses, et affine chaque sous-région de manière flexible lors de l'inférence en utilisant un CFG conditionnel à la mise en page. Nous démontrons les résultats solides de notre système par rapport aux systèmes SOTA précédents tels que Flux et SD3 sur notre ensemble de prompts BizEval. De plus, nous menons des expériences d'ablation approfondies pour vérifier l'efficacité de chaque composant. Nous espérons que notre Infographics-650K et BizEval construits encourageront la communauté élargie à faire progresser la génération de contenu professionnel.

11

LogQuant : Quantification à 2 bits à distribution logarithmique du cache KV avec préservation supérieure de la précision
LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

Mar 25
ByHan Chen, Zicong Jiang, Zining Zhang, Bingsheng He, Pingyi Luo, Mian Lu, Yuqiang Chen
12
2

Nous présentons LogQuant, une technique révolutionnaire de quantification à 2 bits pour le cache KV dans l'inférence des grands modèles de langage (LLM), offrant des économies de mémoire substantielles tout en préservant des performances supérieures. Les méthodes précédentes supposent soit que les tokens ultérieurs sont plus importants, soit tentent de prédire les tokens importants en se basant sur les modèles d'attention antérieurs. Cependant, ces deux approches peuvent entraîner des goulots d'étranglement de performance ou des erreurs de prédiction fréquentes. LogQuant adopte une approche différente. En appliquant un mécanisme de filtrage logarithmique, il compresse sélectivement le cache KV sur l'ensemble du contexte, obtenant de meilleures performances avec la même empreinte mémoire, voire réduite, par rapport aux méthodes existantes. Dans les tests de référence, il améliore le débit de 25 % et augmente la taille des lots de 60 % sans accroître la consommation de mémoire. Pour des tâches complexes telles que les mathématiques et la complétion de code, LogQuant améliore la précision de 40 % à 200 % au même taux de compression, surpassant les techniques comparables. LogQuant s'intègre facilement avec les frameworks d'inférence populaires comme la bibliothèque transformers de Python. L'implémentation est disponible sur https://github.com/Concyclics/LogQuantKV.

12

MCTS-RAG : Amélioration de la Génération Augmentée par Récupération grâce à la Recherche Arborescente Monte Carlo
MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search

Mar 26
ByYunhai Hu, Yilun Zhao, Chen Zhao, Arman Cohan
11
2

Nous présentons MCTS-RAG, une approche novatrice qui améliore les capacités de raisonnement des petits modèles de langage sur des tâches nécessitant une connaissance approfondie, en exploitant la génération augmentée par recherche (RAG) pour fournir un contexte pertinent et la recherche arborescente Monte Carlo (MCTS) pour affiner les chemins de raisonnement. MCTS-RAG intègre dynamiquement la recherche et le raisonnement à travers un processus décisionnel itératif. Contrairement aux méthodes RAG standard, qui récupèrent généralement des informations indépendamment du raisonnement et intègrent ainsi les connaissances de manière sous-optimale, ou au raisonnement MCTS conventionnel, qui dépend uniquement des connaissances internes du modèle sans faits externes, MCTS-RAG combine un raisonnement structuré avec une recherche adaptative. Cette approche intégrée améliore la prise de décision, réduit les hallucinations et garantit une meilleure précision factuelle et une cohérence des réponses. Les résultats expérimentaux sur plusieurs ensembles de données de raisonnement et de connaissances approfondies (c'est-à-dire ComplexWebQA, GPQA et FoolMeTwice) montrent que notre méthode permet aux petits modèles de langage d'atteindre des performances comparables à celles des modèles de langage de pointe comme GPT-4o en optimisant efficacement le calcul lors de l'inférence, établissant ainsi une nouvelle norme pour le raisonnement dans les petits modèles.

13

AccVideo : Accélération des modèles de diffusion vidéo grâce à un ensemble de données synthétiques
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

Mar 25
ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
10
2

Les modèles de diffusion ont réalisé des progrès remarquables dans le domaine de la génération vidéo. Cependant, leur nature itérative de débruitage nécessite un grand nombre d'étapes d'inférence pour générer une vidéo, ce qui est lent et coûteux en termes de calcul. Dans cet article, nous commençons par une analyse détaillée des défis présents dans les méthodes existantes de distillation de diffusion et proposons une nouvelle méthode efficace, nommée AccVideo, pour réduire les étapes d'inférence afin d'accélérer les modèles de diffusion vidéo avec un ensemble de données synthétiques. Nous exploitons le modèle de diffusion vidéo pré-entraîné pour générer plusieurs trajectoires de débruitage valides comme notre ensemble de données synthétiques, ce qui élimine l'utilisation de points de données inutiles pendant la distillation. Sur la base de l'ensemble de données synthétiques, nous concevons un guidage en quelques étapes basé sur les trajectoires qui utilise des points de données clés des trajectoires de débruitage pour apprendre la cartographie bruit-vidéo, permettant ainsi la génération de vidéos en moins d'étapes. De plus, puisque l'ensemble de données synthétiques capture la distribution des données à chaque étape de diffusion, nous introduisons une stratégie d'entraînement adversarial pour aligner la distribution de sortie du modèle étudiant avec celle de notre ensemble de données synthétiques, améliorant ainsi la qualité de la vidéo. Des expériences approfondies démontrent que notre modèle atteint une amélioration de 8,5x en vitesse de génération par rapport au modèle enseignant tout en maintenant des performances comparables. Par rapport aux méthodes d'accélération précédentes, notre approche est capable de générer des vidéos de meilleure qualité et résolution, c'est-à-dire 5 secondes, 720x1280, 24 images par seconde.

14

Débloquer un raisonnement efficace des LLM du long au court grâce à la fusion de modèles
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

Mar 26
ByHan Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
10
5

La transition du raisonnement de type Système 1 à celui de type Système 2 dans les grands modèles de langage (LLMs) a marqué des avancées significatives dans la gestion de tâches complexes grâce à une pensée délibérée et itérative. Cependant, ces progrès s'accompagnent souvent d'une perte d'efficacité, car les modèles ont tendance à trop réfléchir, générant des étapes de raisonnement redondantes sans amélioration proportionnelle de la qualité des résultats. Le raisonnement Long-à-Court (L2S) s'est imposé comme une solution prometteuse à ce défi, visant à équilibrer la profondeur du raisonnement avec une efficacité pratique. Bien que les approches existantes, telles que le fine-tuning supervisé (SFT), l'apprentissage par renforcement (RL) et l'ingénierie de prompts, aient montré un potentiel, elles sont soit coûteuses en calcul, soit instables. La fusion de modèles, en revanche, offre une alternative économique et robuste en intégrant les capacités de pensée rapide des modèles de type Système 1 avec le raisonnement méthodique des modèles de type Système 2. Dans ce travail, nous présentons une étude empirique approfondie sur la fusion de modèles pour le raisonnement L2S, explorant diverses méthodologies, notamment la fusion basée sur des vecteurs de tâches, sur la décomposition en valeurs singulières (SVD) et sur les activations. Nos expériences révèlent que la fusion de modèles peut réduire la longueur moyenne des réponses jusqu'à 55 % tout en préservant, voire en améliorant, les performances de référence. Nous identifions également une forte corrélation entre l'échelle du modèle et l'efficacité de la fusion grâce à des évaluations approfondies sur des modèles de 1,5B/7B/14B/32B. De plus, nous étudions la capacité du modèle fusionné à s'auto-critiquer et à s'auto-corriger, ainsi que sa capacité à adapter la longueur de ses réponses en fonction de la complexité de la tâche. Nos résultats mettent en évidence la fusion de modèles comme un paradigme hautement efficace et efficient pour le raisonnement L2S, offrant une solution pratique au problème de la surréflexion tout en maintenant la robustesse du raisonnement de type Système 2. Ce travail est disponible sur Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.

15

ADS-Edit : Un ensemble de données multimodales pour l'édition de connaissances dans les systèmes de conduite autonome
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

Mar 26
ByChenxi Wang, Jizhan Fang, Xiang Chen, Bozhong Tian, Ziwen Xu, Huajun Chen, Ningyu Zhang
7
2

Les récents progrès des modèles multimodaux de grande taille (LMMs) ont montré des perspectives prometteuses dans les systèmes de conduite autonome (ADS). Cependant, leur application directe aux ADS est entravée par des défis tels que la méconnaissance des règles de circulation, les conditions routières complexes et les états variés des véhicules. Pour relever ces défis, nous proposons l'utilisation de l'édition de connaissances, qui permet des modifications ciblées du comportement d'un modèle sans nécessiter un réentraînement complet. Parallèlement, nous introduisons ADS-Edit, un ensemble de données d'édition de connaissances multimodal spécialement conçu pour les ADS, qui inclut divers scénarios réels, plusieurs types de données et des métriques d'évaluation complètes. Nous menons des expériences approfondies et tirons plusieurs conclusions intéressantes. Nous espérons que notre travail contribuera à l'avancement des applications d'édition de connaissances dans le domaine de la conduite autonome. Le code et les données sont disponibles sur https://github.com/zjunlp/EasyEdit.

16

Attention IoU : Analyse des biais dans CelebA à l'aide de cartes d'attention
Attention IoU: Examining Biases in CelebA using Attention Maps

Mar 25
ByAaron Serianni, Tyler Zhu, Olga Russakovsky, Vikram V. Ramaswamy
7
1

Les modèles de vision par ordinateur ont montré qu'ils manifestent et amplifient des biais à travers une grande variété de jeux de données et de tâches. Les méthodes existantes pour quantifier les biais dans les modèles de classification se concentrent principalement sur la distribution des données et la performance du modèle sur des sous-groupes, négligeant le fonctionnement interne du modèle. Nous introduisons la métrique Attention-IoU (Attention Intersection over Union) et les scores associés, qui utilisent des cartes d'attention pour révéler les biais dans les représentations internes d'un modèle et identifier les caractéristiques d'image potentiellement responsables de ces biais. Tout d'abord, nous validons Attention-IoU sur le jeu de données synthétique Waterbirds, montrant que la métrique mesure avec précision les biais du modèle. Nous analysons ensuite le jeu de données CelebA, constatant qu'Attention-IoU met en lumière des corrélations au-delà des disparités de précision. À travers une investigation des attributs individuels via l'attribut protégé "Male", nous examinons les différentes manières dont les biais sont représentés dans CelebA. Enfin, en sous-échantillonnant l'ensemble d'entraînement pour modifier les corrélations d'attributs, nous démontrons qu'Attention-IoU révèle des variables confondantes potentielles qui ne sont pas présentes dans les étiquettes du jeu de données.

17

ViLBench : Une Suite pour la Modélisation des Récompenses dans le Traitement Vision-Langage
ViLBench: A Suite for Vision-Language Process Reward Modeling

Mar 26
ByHaoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
7
2

Les modèles de récompense supervisés par processus servent de fonction granulaire qui fournit un retour d'information détaillé étape par étape sur les réponses du modèle, facilitant ainsi la sélection efficace des trajectoires de raisonnement pour des tâches complexes. Malgré leurs avantages, l'évaluation des PRM (Process Reward Models) reste peu explorée, en particulier dans le domaine multimodal. Pour combler cette lacune, cet article commence par évaluer les modèles de langage visuel de grande taille (VLLMs) actuels en tant que deux types de modèles de récompense : les modèles de récompense de sortie (ORMs) et les modèles de récompense de processus (PRMs) sur plusieurs benchmarks vision-langage. Les résultats révèlent que ni l'ORM ni le PRM ne surpassent systématiquement l'autre sur toutes les tâches, et que les VLLMs supérieurs ne produisent pas nécessairement de meilleures performances de récompense. Pour aller plus loin dans l'évaluation, nous introduisons ViLBench, un benchmark vision-langage conçu pour nécessiter des signaux de récompense de processus intensifs. Notamment, GPT-4o d'OpenAI avec la méthode Chain-of-Thought (CoT) n'atteint qu'une précision de 27,3 %, ce qui indique le défi que représente ce benchmark pour les VLLMs actuels. Enfin, nous présentons de manière préliminaire une voie prometteuse pour combler l'écart entre les VLLMs généraux et les modèles de récompense : en collectant 73,6K données de récompense de processus vision-langage à l'aide d'un algorithme de recherche arborescente amélioré, notre modèle de 3B parvient à obtenir une amélioration moyenne de 3,3 % par rapport à la méthode CoT standard et jusqu'à 2,5 % par rapport à sa version non entraînée sur ViLBench, en sélectionnant les générations d'OpenAI o1. Nous publions les implémentations sur https://ucsc-vlaa.github.io/ViLBench avec notre code, modèle et données.

18

Échantillonnage parcimonieux des logits : Accélération de la distillation des connaissances dans les LLM
Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

Mar 21
ByAnshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee
6
3

La distillation des connaissances peut s'avérer une technique rentable pour extraire le savoir des grands modèles de langage, à condition que les logits de sortie de l'enseignant puissent être pré-calculés et mis en cache. Cependant, l'application réussie de cette méthode au pré-entraînement reste largement inexplorée. Dans ce travail, nous démontrons que les approches naïves pour la distillation parcimonieuse des connaissances, comme la mise en cache des probabilités Top-K, bien qu'intuitives, fournissent des estimations biaisées de la distribution de probabilité de l'enseignant à l'élève, entraînant des performances et une calibration sous-optimales. Nous proposons une méthode basée sur l'échantillonnage d'importance, appelée `Random Sampling Knowledge Distillation', qui fournit des estimations non biaisées, préserve le gradient en espérance, et nécessite le stockage de logits significativement plus parcimonieux. Notre méthode permet un entraînement plus rapide des modèles élèves avec une surcharge marginale (<10%) par rapport à l'entraînement basé sur l'entropie croisée, tout en maintenant des performances compétitives par rapport à la distillation complète, pour une gamme de tailles de modèles allant de 300M à 3B.

19

L'image comme une IMU : Estimation du mouvement de la caméra à partir d'une seule image floue due au mouvement
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

Mar 21
ByJerred Chen, Ronald Clark
6
2

Dans de nombreuses applications robotiques et de réalité virtuelle/augmentée, les mouvements rapides de la caméra entraînent un niveau élevé de flou de mouvement, ce qui fait échouer les méthodes existantes d'estimation de la pose de la caméra. Dans ce travail, nous proposons un nouveau cadre qui exploite le flou de mouvement comme un indice riche pour l'estimation du mouvement, plutôt que de le traiter comme un artefact indésirable. Notre approche fonctionne en prédisant un champ de flux de mouvement dense et une carte de profondeur monoculaire directement à partir d'une seule image floue due au mouvement. Nous récupérons ensuite la vitesse instantanée de la caméra en résolvant un problème de moindres carrés linéaires sous l'hypothèse de petits mouvements. En essence, notre méthode produit une mesure similaire à celle d'un IMU qui capture de manière robuste les mouvements rapides et agressifs de la caméra. Pour entraîner notre modèle, nous construisons un jeu de données à grande échelle avec un flou de mouvement synthétique réaliste dérivé de ScanNet++v2 et affinons davantage notre modèle en l'entraînant de bout en bout sur des données réelles à l'aide de notre pipeline entièrement différentiable. Des évaluations approfondies sur des benchmarks du monde réel démontrent que notre méthode atteint des estimations de vitesse angulaire et de translation de pointe, surpassant les méthodes actuelles comme MASt3R et COLMAP.

20

Équilibrage de Trajectoire avec Asynchronie : Découplage de l'Exploration et de l'Apprentissage pour un Post-Entraînement Rapide et Évolutif des LLM
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Mar 24
ByBrian R. Bartoldson, Siddarth Venkatraman, James Diffenderfer, Moksh Jain, Tal Ben-Nun, Seanie Lee, Minsu Kim, Johan Obando-Ceron, Yoshua Bengio, Bhavya Kailkhura
4
3

L'apprentissage par renforcement (RL) est un élément crucial du post-entraînement des grands modèles de langage (LLM). Cependant, les algorithmes on-policy existants utilisés pour le post-entraînement sont intrinsèquement incompatibles avec l'utilisation de tampons de relecture d'expérience, qui peuvent être remplis de manière scalable par des acteurs off-policy distribués pour améliorer l'exploration à mesure que la puissance de calcul augmente. Nous proposons d'obtenir efficacement cet avantage des tampons de relecture via le Trajectory Balance with Asynchrony (TBA), un système RL massivement scalable pour les LLM. Contrairement aux approches existantes, TBA utilise une plus grande fraction de la puissance de calcul pour la recherche, générant constamment des données off-policy pour un tampon de relecture central. Un nœud d'entraînement échantillonne simultanément des données de ce tampon en fonction de la récompense ou de la récence pour mettre à jour la politique en utilisant le Trajectory Balance (TB), un objectif RL favorisant la diversité introduit pour les GFlowNets. TBA offre trois avantages clés : (1) un entraînement et une recherche découplés, accélérant le temps d'entraînement d'un facteur 4 ou plus ; (2) une diversité améliorée grâce à un échantillonnage off-policy à grande échelle ; et (3) une recherche scalable pour des environnements à récompenses rares. Sur des tâches de raisonnement mathématique, de réglage des préférences et de red-teaming automatisé (tâches de post-entraînement diversifiées et représentatives), TBA produit des améliorations en termes de vitesse et de performance par rapport à des bases de référence solides.

21

Au-delà des mots : Faire progresser la génération d'images à partir de textes longs grâce à des modèles autorégressifs multimodaux
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models

Mar 26
ByAlex Jinpeng Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Min Li
4
3

Les récents progrès des modèles autorégressifs et de diffusion ont permis d'obtenir des performances impressionnantes dans la génération d'images contenant de courts mots ou phrases. Cependant, la génération de textes longs et cohérents dans des images, tels que des paragraphes dans des diapositives ou des documents, reste un défi majeur pour les modèles génératifs actuels. Nous présentons ici le premier travail spécifiquement dédié à la génération d'images contenant du texte long, comblant ainsi une lacune critique des systèmes texte-à-image existants qui se limitent généralement à des phrases courtes ou à des expressions isolées. À travers une analyse approfondie des modèles de génération autorégressive de pointe, nous identifions le tokenizer d'image comme un goulot d'étranglement majeur affectant la qualité de la génération de texte. Pour y remédier, nous introduisons un nouveau tokenizer binaire axé sur le texte, optimisé pour capturer les caractéristiques détaillées du texte dans les scènes. En exploitant ce tokenizer, nous développons \ModelName, un modèle autorégressif multimodal qui excelle dans la génération d'images contenant du texte long avec une fidélité sans précédent. Notre modèle offre une robuste contrôlabilité, permettant la personnalisation des propriétés du texte telles que le style de police, la taille, la couleur et l'alignement. Des expériences approfondies démontrent que \ModelName~surpasse significativement SD3.5 Large~sd3 et GPT4o~gpt4o avec DALL-E 3~dalle3 en termes de précision, de cohérence et de flexibilité dans la génération de texte long. Au-delà de ses réalisations techniques, \ModelName~ouvre des perspectives passionnantes pour des applications innovantes telles que la génération de documents entrelacés ou de présentations PowerPoint, établissant ainsi une nouvelle frontière dans la génération d'images contenant du texte long.

22

Apprentissage Auto-Supervisé de Concepts de Mouvement par Optimisation de Contrefactuels
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals

Mar 25
ByStefan Stojanov, David Wendt, Seungwoo Kim, Rahul Venkatesh, Kevin Feigelis, Jiajun Wu, Daniel LK Yamins
3
2

L'estimation du mouvement dans les vidéos est un problème fondamental en vision par ordinateur, avec de nombreuses applications en aval, telles que la génération de vidéos contrôlables et la robotique. Les solutions actuelles sont principalement entraînées à l'aide de données synthétiques ou nécessitent l'ajustement d'heuristiques spécifiques à chaque situation, ce qui limite intrinsèquement les capacités de ces modèles dans des contextes réels. Malgré les récents progrès dans l'apprentissage auto-supervisé à grande échelle à partir de vidéos, l'exploitation de telles représentations pour l'estimation du mouvement reste relativement peu explorée. Dans ce travail, nous développons Opt-CWM, une technique auto-supervisée pour l'estimation du flux et de l'occlusion à partir d'un modèle pré-entraîné de prédiction d'image suivante. Opt-CWM fonctionne en apprenant à optimiser des sondes contrefactuelles qui extraient des informations de mouvement d'un modèle vidéo de base, évitant ainsi le besoin d'heuristiques fixes tout en s'entraînant sur des entrées vidéo non restreintes. Nous obtenons des performances de pointe pour l'estimation du mouvement sur des vidéos du monde réel, sans nécessiter de données étiquetées.

23

DINeMo : Apprentissage de modèles de maillage neuronaux sans annotations 3D
DINeMo: Learning Neural Mesh Models with no 3D Annotations

Mar 26
ByWeijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
3
2

L'estimation de pose 3D/6D au niveau catégoriel est une étape cruciale vers une compréhension complète des scènes 3D, ce qui permettrait une large gamme d'applications en robotique et en IA incarnée. Les travaux récents ont exploré des modèles de maillage neuronaux qui abordent une variété de tâches 2D et 3D selon une perspective d'analyse par synthèse. Malgré une robustesse largement améliorée face aux occlusions partielles et aux changements de domaine, ces méthodes dépendaient fortement d'annotations 3D pour l'apprentissage partiel contrastif, ce qui les limite à un ensemble restreint de catégories et entrave une mise à l'échelle efficace. Dans ce travail, nous présentons DINeMo, un nouveau modèle de maillage neuronal entraîné sans annotations 3D en exploitant des pseudo-correspondances obtenues à partir de grands modèles visuels de base. Nous adoptons une méthode de génération de pseudo-correspondances bidirectionnelle, qui produit des pseudo-correspondances en utilisant à la fois des caractéristiques d'apparence locale et des informations contextuelles globales. Les résultats expérimentaux sur des ensembles de données de voitures montrent que notre DINeMo surpasse largement les méthodes précédentes d'estimation de pose 3D en zéro-shot et few-shot, réduisant l'écart avec les méthodes entièrement supervisées de 67,3 %. Notre DINeMo se met également à l'échelle de manière efficace et efficiente en incorporant davantage d'images non labellées pendant l'entraînement, ce qui démontre les avantages par rapport aux méthodes d'apprentissage supervisé qui reposent sur des annotations 3D. Notre page de projet est disponible à l'adresse suivante : https://analysis-by-synthesis.github.io/DINeMo/.

24

PathoHR : Prédiction de survie au cancer du sein sur des images pathologiques haute résolution
PathoHR: Breast Cancer Survival Prediction on High-Resolution Pathological Images

Mar 23
ByYang Luo, Shiru Wang, Jun Liu, Jiaxuan Xiao, Rundong Xue, Zeyu Zhang, Hao Zhang, Yu Lu, Yang Zhao, Yutong Xie
3
2

La prédiction de la survie au cancer du sein en pathologie computationnelle représente un défi majeur en raison de l'hétérogénéité tumorale. Par exemple, différentes régions d'une même tumeur sur une image pathologique peuvent présenter des caractéristiques morphologiques et moléculaires distinctes. Cela rend difficile l'extraction de caractéristiques représentatives à partir d'images de lames entières (WSIs) qui reflètent véritablement le potentiel agressif de la tumeur et les résultats de survie probables. Dans cet article, nous présentons PathoHR, une nouvelle pipeline pour la prédiction précise de la survie au cancer du sein, qui améliore la résolution des images pathologiques de toute taille pour permettre un apprentissage plus efficace des caractéristiques. Notre approche comprend (1) l'intégration d'un Vision Transformer (ViT) haute résolution plug-and-play pour améliorer la représentation par patchs des WSIs, permettant une extraction de caractéristiques plus détaillée et complète, (2) l'évaluation systématique de plusieurs métriques de similarité avancées pour comparer les caractéristiques extraites des WSIs, optimisant ainsi le processus d'apprentissage de représentation pour mieux capturer les caractéristiques tumorales, (3) la démonstration que des patchs d'images plus petits améliorés suivant la pipeline proposée peuvent atteindre une précision de prédiction équivalente ou supérieure à celle des patchs plus grands bruts, tout en réduisant significativement la charge de calcul. Les résultats expérimentaux valident que PathoHR offre une voie prometteuse pour intégrer une résolution d'image améliorée avec un apprentissage de caractéristiques optimisé, faisant progresser la pathologie computationnelle et ouvrant une direction prometteuse pour une prédiction de la survie au cancer du sein plus précise et efficace. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/PathoHR.

25

UniHDSA : Une approche unifiée de prédiction de relations pour l'analyse hiérarchique de la structure des documents
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis

Mar 20
ByJiawei Wang, Kai Hu, Qiang Huo
2
2

L'analyse de la structure des documents, également appelée analyse de la mise en page des documents, est essentielle pour comprendre à la fois la disposition physique et la structure logique des documents, servant des applications telles que la recherche d'information, le résumé de documents, l'extraction de connaissances, etc. L'analyse hiérarchique de la structure des documents (HDSA) vise spécifiquement à restaurer la structure hiérarchique des documents créés à l'aide de logiciels de création utilisant des schémas hiérarchiques. Les recherches précédentes ont principalement suivi deux approches : l'une se concentre sur la résolution de sous-tâches spécifiques de la HDSA de manière isolée, comme la détection de tableaux ou la prédiction de l'ordre de lecture, tandis que l'autre adopte un cadre unifié utilisant plusieurs branches ou modules, chacun conçu pour traiter une tâche distincte. Dans ce travail, nous proposons une approche unifiée de prédiction de relations pour la HDSA, appelée UniHDSA, qui traite diverses sous-tâches de la HDSA comme des problèmes de prédiction de relations et consolide les étiquettes de prédiction de relations dans un espace d'étiquettes unifié. Cela permet à un seul module de prédiction de relations de gérer plusieurs tâches simultanément, que ce soit au niveau de l'analyse de la structure d'une page ou d'un document. Pour valider l'efficacité de UniHDSA, nous développons un système multimodal de bout en bout basé sur des architectures Transformer. Les résultats expérimentaux approfondis démontrent que notre approche atteint des performances de pointe sur un benchmark d'analyse hiérarchique de la structure des documents, Comp-HRDoc, et des résultats compétitifs sur un ensemble de données à grande échelle d'analyse de la mise en page des documents, DocLayNet, illustrant efficacement la supériorité de notre méthode sur toutes les sous-tâches. Le benchmark Comp-HRDoc et les configurations de UniHDSA sont disponibles publiquement à l'adresse https://github.com/microsoft/CompHRDoc.

26

RecTable : Modélisation rapide de données tabulaires avec flux rectifié
RecTable: Fast Modeling Tabular Data with Rectified Flow

Mar 26
ByMasane Fuchi, Tomohiro Takagi
2
2

Les modèles basés sur les scores ou de diffusion génèrent des données tabulaires de haute qualité, surpassant les modèles basés sur les GAN et les VAE. Cependant, ces méthodes nécessitent un temps d'entraînement substantiel. Dans cet article, nous présentons RecTable, qui utilise la modélisation par flux rectifié, appliquée notamment dans la génération de texte à image et de texte à vidéo. RecTable se caractérise par une architecture simple composée de quelques blocs d'unités linéaires à porte. De plus, nos stratégies d'entraînement sont également simples, incorporant une distribution de bruit de type mixte et une distribution de pas de temps logit-normale. Nos expériences démontrent que RecTable atteint des performances compétitives par rapport à plusieurs modèles de diffusion et basés sur les scores de pointe, tout en réduisant le temps d'entraînement requis. Notre code est disponible à l'adresse https://github.com/fmp453/rectable.

27

RONA : Génération pragmatiquement diversifiée de légendes d'images avec relations de cohérence
RONA: Pragmatically Diverse Image Captioning with Coherence Relations

Mar 14
ByAashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
1
2

Les assistants de rédaction (par exemple, Grammarly, Microsoft Copilot) génèrent traditionnellement des légendes d'images diversifiées en employant des variations syntaxiques et sémantiques pour décrire les composants de l'image. Cependant, les légendes rédigées par des humains privilégient la transmission d'un message central tout en intégrant des descriptions visuelles à l'aide d'indices pragmatiques. Pour améliorer la diversité pragmatique, il est essentiel d'explorer des moyens alternatifs de communiquer ces messages en conjonction avec le contenu visuel. Pour relever ce défi, nous proposons RONA, une nouvelle stratégie de prompt pour les modèles de langage multi-modaux (MLLM) qui exploite les relations de cohérence comme axe de variation. Nous démontrons que RONA génère des légendes présentant une meilleure diversité globale et un meilleur alignement avec la réalité, comparé aux modèles de référence MLLM dans plusieurs domaines. Notre code est disponible à l'adresse : https://github.com/aashish2000/RONA

Mar 26
Mar 27
Mar 28