ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals
66
6
Dans ce rapport, nous présentons le dernier modèle de la famille Gemini, Gemini 1.5 Pro, un modèle multimodal à mélange d'experts hautement efficace en termes de calcul, capable de mémoriser et de raisonner sur des informations fines provenant de millions de tokens de contexte, incluant plusieurs documents longs ainsi que des heures de vidéo et d'audio. Gemini 1.5 Pro atteint un rappel quasi parfait dans les tâches de récupération de contexte long à travers différentes modalités, améliore l'état de l'art dans les domaines de la question-réponse sur des documents longs, la question-réponse sur des vidéos longues et la reconnaissance automatique de la parole (ASR) en contexte long, et égale ou dépasse les performances de pointe de Gemini 1.0 Ultra sur un large ensemble de benchmarks. En étudiant les limites de la capacité de contexte long de Gemini 1.5 Pro, nous observons une amélioration continue dans la prédiction du token suivant et un rappel quasi parfait (>99%) jusqu'à au moins 10 millions de tokens, un bond générationnel par rapport aux modèles existants tels que Claude 2.1 (200k) et GPT-4 Turbo (128k). Enfin, nous mettons en lumière des capacités surprenantes et nouvelles des grands modèles de langage à la pointe de la recherche ; lorsqu'on lui donne un manuel de grammaire pour le Kalamang, une langue parlée par moins de 200 personnes dans le monde, le modèle apprend à traduire de l'anglais vers le Kalamang à un niveau similaire à celui d'une personne ayant appris à partir du même contenu.
ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan
46
4
Nous présentons DeepSeek-VL, un modèle Vision-Langage (VL) open-source conçu pour des applications pratiques de compréhension visuelle et linguistique. Notre approche s'articule autour de trois dimensions clés :
Nous veillons à ce que nos données soient diversifiées, évolutives et couvrent largement des scénarios du monde réel, incluant des captures d'écran web, des PDFs, de la reconnaissance optique de caractères (OCR), des graphiques et des contenus basés sur des connaissances, visant ainsi une représentation exhaustive de contextes pratiques. De plus, nous établissons une taxonomie des cas d'usage à partir de scénarios utilisateurs réels et construisons un ensemble de données d'ajustement d'instructions en conséquence. Le fine-tuning avec cet ensemble améliore significativement l'expérience utilisateur du modèle dans des applications pratiques. En tenant compte de l'efficacité et des exigences de la plupart des scénarios réels, DeepSeek-VL intègre un encodeur visuel hybride qui traite efficacement des images haute résolution (1024 x 1024), tout en maintenant une charge de calcul relativement faible. Ce choix de conception garantit la capacité du modèle à capturer des informations sémantiques critiques et des détails fins dans diverses tâches visuelles.
Nous postulons qu'un modèle Vision-Langage compétent doit, avant tout, posséder de solides capacités linguistiques. Pour préserver les performances des modèles de langage (LLM) lors du pré-entraînement, nous explorons une stratégie efficace de pré-entraînement VL en intégrant l'entraînement des LLM dès le début et en gérant attentivement les dynamiques concurrentielles observées entre les modalités visuelles et linguistiques.
La famille DeepSeek-VL (incluant les modèles 1,3B et 7B) démontre des expériences utilisateur supérieures en tant que chatbot vision-langage dans des applications réelles, atteignant des performances de pointe ou compétitives sur un large éventail de benchmarks visuels-linguistiques pour une taille de modèle donnée, tout en maintenant des performances robustes sur des benchmarks centrés sur le langage. Nous avons rendu les modèles 1,3B et 7B accessibles au public pour favoriser les innovations basées sur ce modèle fondateur.
ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
45
2
Les modèles de diffusion ont démontré des performances remarquables dans le domaine de la génération d'images à partir de texte. Cependant, la plupart des modèles largement utilisés emploient encore CLIP comme encodeur de texte, ce qui limite leur capacité à comprendre des prompts denses, englobant plusieurs objets, des attributs détaillés, des relations complexes, un alignement de texte long, etc. Dans cet article, nous introduisons un adaptateur efficace pour les grands modèles de langage, nommé ELLA, qui équipe les modèles de diffusion text-to-image avec des grands modèles de langage (LLM) puissants pour améliorer l'alignement textuel sans entraînement ni du U-Net ni du LLM. Pour relier de manière transparente deux modèles pré-entraînés, nous explorons une gamme de conceptions de connecteurs d'alignement sémantique et proposons un nouveau module, le Connecteur Sémantique Sensible au Pas de Temps (TSC), qui extrait dynamiquement des conditions dépendantes du pas de temps à partir du LLM. Notre approche adapte les caractéristiques sémantiques à différentes étapes du processus de débruitage, aidant les modèles de diffusion à interpréter des prompts longs et complexes au cours des pas d'échantillonnage. De plus, ELLA peut être facilement intégré avec des modèles et outils communautaires pour améliorer leurs capacités à suivre les prompts. Pour évaluer les modèles text-to-image dans le suivi de prompts denses, nous introduisons le benchmark Dense Prompt Graph Benchmark (DPG-Bench), un benchmark exigeant composé de 1K prompts denses. Des expériences approfondies démontrent la supériorité d'ELLA dans le suivi de prompts denses par rapport aux méthodes de pointe, en particulier dans les compositions multiples d'objets impliquant divers attributs et relations.
ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou
25
1
Dans le paysage numérique en constante évolution de l'audio, Spotify, bien connu pour son contenu musical et de discussion, a récemment introduit des livres audio à sa vaste base d'utilisateurs. Bien que prometteuse, cette initiative présente des défis importants pour les recommandations personnalisées. Contrairement à la musique et aux podcasts, les livres audio, initialement disponibles moyennant un paiement, ne peuvent pas être facilement parcourus avant l'achat, ce qui augmente les enjeux liés à la pertinence des recommandations. De plus, l'introduction d'un nouveau type de contenu sur une plateforme existante se heurte à une extrême rareté des données, car la plupart des utilisateurs ne sont pas familiers avec ce nouveau type de contenu. Enfin, recommander du contenu à des millions d'utilisateurs nécessite que le modèle réagisse rapidement et soit évolutif. Pour relever ces défis, nous exploitons les préférences des utilisateurs en matière de podcasts et de musique et introduisons 2T-HGNN, un système de recommandation évolutif composé de réseaux de neurones graphiques hétérogènes (HGNN) et d'un modèle à deux tours (2T). Cette approche novatrice révèle des relations nuancées entre les éléments tout en garantissant une faible latence et une faible complexité. Nous découplons les utilisateurs du graphe HGNN et proposons un échantillonneur de voisins multi-liens innovant. Ces choix, associés au composant 2T, réduisent considérablement la complexité du modèle HGNN. Les évaluations empiriques impliquant des millions d'utilisateurs montrent une amélioration significative de la qualité des recommandations personnalisées, entraînant une augmentation de 46 % du taux de démarrage de nouveaux livres audio et une augmentation de 23 % des taux de streaming. Fait intéressant, l'impact de notre modèle s'étend au-delà des livres audio, bénéficiant également à des produits établis comme les podcasts.
ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
24
3
Les récents progrès dans les systèmes génératifs de texte-à-image ont été largement portés par les modèles de diffusion. Cependant, les modèles de diffusion de texte-à-image en une seule étape continuent de rencontrer des défis, notamment en termes d'efficacité computationnelle et de raffinement des détails de l'image. Pour résoudre ce problème, nous proposons CogView3, un cadre innovant en cascade qui améliore les performances de la diffusion de texte-à-image. CogView3 est le premier modèle à mettre en œuvre la diffusion en relais dans le domaine de la génération de texte-à-image, exécutant la tâche en créant d'abord des images à basse résolution, puis en appliquant une super-résolution basée sur le relais. Cette méthodologie permet non seulement d'obtenir des résultats compétitifs en texte-à-image, mais réduit également considérablement les coûts d'entraînement et d'inférence. Nos résultats expérimentaux montrent que CogView3 surpasse SDXL, le modèle de diffusion de texte-à-image open-source actuellement le plus avancé, de 77,0 % dans les évaluations humaines, tout en nécessitant seulement environ la moitié du temps d'inférence. La variante distillée de CogView3 atteint des performances comparables tout en n'utilisant qu'un dixième du temps d'inférence de SDXL.
ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu
22
2
Les modèles génératifs 3D à propagation directe, comme le Large Reconstruction Model (LRM), ont démontré une vitesse de génération exceptionnelle. Cependant, les méthodes basées sur les transformers n'exploitent pas les préconceptions géométriques du composant triplan dans leur architecture, ce qui conduit souvent à une qualité sous-optimale en raison de la taille limitée des données 3D et de l'entraînement lent. Dans ce travail, nous présentons le Convolutional Reconstruction Model (CRM), un modèle génératif à propagation directe haute fidélité pour la génération 3D à partir d'une seule image. Conscients des limitations imposées par la rareté des données 3D, nous soulignons la nécessité d'intégrer des préconceptions géométriques dans la conception des réseaux. CRM s'appuie sur l'observation clé que la visualisation du triplan présente une correspondance spatiale de six images orthographiques. D'abord, il génère six images de vue orthographique à partir d'une seule image d'entrée, puis alimente ces images dans un U-Net convolutif, exploitant ses fortes capacités d'alignement au niveau des pixels et sa bande passante importante pour créer un triplan haute résolution. CRM utilise en outre les Flexicubes comme représentation géométrique, facilitant l'optimisation directe de bout en bout sur des maillages texturés. Globalement, notre modèle produit un maillage texturé haute fidélité à partir d'une image en seulement 10 secondes, sans aucune optimisation au moment du test.
Les modèles de diffusion texte-image (T2I) ont démontré des capacités sans précédent pour créer des images réalistes et esthétiques. En revanche, les modèles de diffusion texte-vidéo (T2V) restent encore loin derrière en termes de qualité d'image et d'alignement avec le texte, en raison de la qualité et de la quantité insuffisantes des vidéos d'entraînement. Dans cet article, nous présentons VideoElevator, une méthode sans entraînement et prête à l'emploi, qui améliore les performances des T2V en exploitant les capacités supérieures des T2I. Contrairement à l'échantillonnage conventionnel des T2V (c'est-à-dire la modélisation temporelle et spatiale), VideoElevator décompose explicitement chaque étape d'échantillonnage en un raffinement du mouvement temporel et une élévation de la qualité spatiale. Plus précisément, le raffinement du mouvement temporel utilise un T2V encapsulé pour améliorer la cohérence temporelle, suivi d'une inversion vers la distribution de bruit requise par le T2I. Ensuite, l'élévation de la qualité spatiale exploite un T2I gonflé pour prédire directement un latent moins bruyant, ajoutant ainsi des détails plus photo-réalistes. Nous avons mené des expériences sur une variété de prompts en combinant différents T2V et T2I. Les résultats montrent que VideoElevator améliore non seulement les performances des T2V de base avec des T2I fondamentaux, mais facilite également la synthèse de vidéos stylisées avec des T2I personnalisés. Notre code est disponible à l'adresse suivante : https://github.com/YBYBZhang/VideoElevator.