ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals
66
6
В данном отчете мы представляем последнюю модель семейства Gemini, Gemini 1.5 Pro, высокоэффективную вычислительную мультимодальную модель смеси экспертов, способную извлекать и рассуждать о детализированной информации из миллионов токенов контекста, включая несколько длинных документов и часы видео и аудио. Gemini 1.5 Pro достигает почти идеального извлечения информации при выполнении задач извлечения долгого контекста в различных модальностях, улучшает существующие достижения в области QA на длинных документах, QA на длинных видео и ASR на длинном контексте, а также соответствует или превосходит современные достижения модели Gemini 1.0 Ultra по широкому набору показателей. Изучая пределы возможностей долгого контекста у Gemini 1.5 Pro, мы обнаруживаем продолжающееся улучшение в предсказании следующего токена и почти идеальное извлечение информации (>99%) до по меньшей мере 10 миллионов токенов, что представляет собой генерационный скачок по сравнению с существующими моделями, такими как Claude 2.1 (200 тыс.) и GPT-4 Turbo (128 тыс.). Наконец, мы выделяем удивительные новые возможности больших языковых моделей на передовом фронте; когда модели предоставляется грамматическое руководство по языку Каламанг, на котором говорят менее 200 человек по всему миру, она учится переводить с английского на Каламанг на уровне, сравнимом с человеком, который изучал материалы того же содержания.
ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan
46
4
Мы представляем DeepSeek-VL, открытую модель Vision-Language (VL), разработанную для приложений понимания реального мира через зрение и язык. Наш подход структурирован вокруг трех ключевых измерений:
Мы стремимся обеспечить разнообразие, масштабируемость и широкое покрытие реальных сценариев, включая веб-скриншоты, PDF-файлы, OCR, диаграммы и контент на основе знаний, нацеленное на комплексное представление практических контекстов. Кроме того, мы создаем таксономию сценариев использования на основе реальных пользовательских ситуаций и соответствующим образом формируем набор данных для настройки инструкций. Тонкая настройка с использованием этого набора данных существенно улучшает пользовательский опыт модели в практических приложениях. Учитывая эффективность и требования большинства реальных сценариев, DeepSeek-VL включает гибридный визионный кодер, который эффективно обрабатывает изображения высокого разрешения (1024 x 1024), сохраняя при этом относительно низкую вычислительную нагрузку. Этот выбор дизайна обеспечивает способность модели улавливать критическую семантику и детальную информацию по различным визуальным задачам. Мы полагаем, что компетентная модель Vision-Language должна, прежде всего, обладать сильными языковыми способностями. Для обеспечения сохранения возможностей LLM во время предварительного обучения, мы исследуем эффективную стратегию предварительного обучения VL, интегрируя обучение LLM с самого начала и тщательно управляя конкурентной динамикой между визионной и языковой модальностями.
Семейство DeepSeek-VL (модели 1.3B и 7B) демонстрирует превосходный пользовательский опыт в качестве чат-бота на основе визуального языка в реальных приложениях, достигая передовой или конкурентоспособной производительности по широкому спектру визуально-языковых бенчмарков при том же размере модели, сохраняя при этом надежную производительность на языково-центричных бенчмарках. Мы сделали обе модели 1.3B и 7B общедоступными для поощрения инноваций на основе этой фундаментальной модели.
ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
45
2
Модели диффузии продемонстрировали выдающуюся производительность в области генерации текста в изображения. Однако большинство широко используемых моделей все еще используют CLIP в качестве своего текстового кодировщика, что ограничивает их способность понимать плотные подсказки, охватывающие несколько объектов, детальные атрибуты, сложные отношения, выравнивание длинных текстов и т. д. В данной статье мы представляем Эффективный Большой Адаптер Языковой Модели, обозначенный как ELLA, который оснащает модели диффузии текста в изображение мощными Большими Языковыми Моделями (LLM) для улучшения выравнивания текста без обучения как U-Net, так и LLM. Для плавного соединения двух предварительно обученных моделей мы исследуем ряд конструкций семантического соединителя и предлагаем новый модуль, Соединитель Семантики С Осознанием Времени (TSC), который динамически извлекает временно-зависимые условия из LLM. Наш подход адаптирует семантические признаки на различных этапах процесса устранения шума, помогая моделям диффузии интерпретировать длинные и сложные подсказки на протяжении временных отсчетов. Кроме того, ELLA может легко интегрироваться с моделями и инструментами сообщества для улучшения их способностей следовать за подсказками. Для оценки моделей текста в изображение при плотном следовании за подсказками мы представляем Бенчмарк Графа Плотных Подсказок (DPG-Bench), сложный бенчмарк, состоящий из 1K плотных подсказок. Обширные эксперименты демонстрируют превосходство ELLA в плотном следовании за подсказками по сравнению с современными методами, особенно в случае составления нескольких объектов, включающих разнообразные атрибуты и отношения.
ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou
25
1
В постоянно изменяющемся цифровом аудио-ландшафте Spotify, хорошо известный своим музыкальным и разговорным контентом, недавно представил аудиокниги своей огромной пользовательской базе. Хотя это обещает быть перспективным, такой шаг представляет существенные вызовы для персонализированных рекомендаций. В отличие от музыки и подкастов, аудиокниги, изначально доступные за плату, нельзя легко просмотреть перед покупкой, что создает более высокие ставки для актуальности рекомендаций. Кроме того, внедрение нового типа контента на существующую платформу сталкивается с крайне низкой плотностью данных, поскольку большинство пользователей не знакомы с этим новым типом контента. Наконец, рекомендация контента миллионам пользователей требует от модели быстрой реакции и масштабируемости. Для решения этих проблем мы используем предпочтения пользователей подкастов и музыки и представляем 2T-HGNN, масштабируемую систему рекомендаций, включающую в себя Графовые Нейронные Сети Гетерогенного Типа (HGNN) и модель Двух Башен (2T). Этот новаторский подход раскрывает тонкие отношения между элементами, обеспечивая при этом низкую задержку и сложность. Мы разделяем пользователей от графа HGNN и предлагаем инновационный мульти-сэмплер соседей. Эти выборы, вместе с компонентом 2T, значительно снижают сложность модели HGNN. Эмпирические оценки, включающие миллионы пользователей, показывают значительное улучшение качества персонализированных рекомендаций, что приводит к увеличению стартовой частоты новых аудиокниг на +46% и увеличению частоты потокового воспроизведения на +23%. Интригующим образом, влияние нашей модели распространяется за пределы аудиокниг, принося пользу уже установившимся продуктам, таким как подкасты.
ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
24
3
Недавние достижения в системах генерации изображений по тексту в значительной степени обусловлены моделями диффузии. Однако одноэтапные модели диффузии из текста в изображение по-прежнему сталкиваются с проблемами в области вычислительной эффективности и улучшения деталей изображения. Для решения этой проблемы мы предлагаем CogView3, инновационную каскадную структуру, которая повышает производительность диффузии из текста в изображение. CogView3 является первой моделью, реализующей ретрансляцию диффузии в области генерации изображений по тексту, выполняя задачу путем создания сначала изображений низкого разрешения, а затем применения ретрансляционного суперразрешения. Этот метод не только приводит к конкурентоспособным результатам генерации изображений по тексту, но также значительно снижает как затраты на обучение, так и на вывод. Наши экспериментальные результаты показывают, что CogView3 превосходит SDXL, текущую передовую модель открытого исходного кода диффузии из текста в изображение, на 77,0\% по результатам оценки людей, при этом требуя всего примерно половины времени вывода. Упрощенный вариант CogView3 достигает сопоставимой производительности, используя всего 1/10 времени вывода по сравнению с SDXL.
ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu
22
2
Генеративные модели трехмерных изображений прямого распространения, такие как Большая Модель Восстановления (LRM), продемонстрировали исключительную скорость генерации. Однако методы на основе трансформеров не используют геометрические априорные знания о трехплоскостном компоненте в их архитектуре, что часто приводит к субоптимальному качеству из-за ограниченного размера трехмерных данных и медленного обучения. В данной работе мы представляем Модель Восстановления с использованием Сверток (CRM), высококачественную генеративную модель одного изображения в трех измерениях прямого распространения. Учитывая ограничения, накладываемые разреженными трехмерными данными, мы подчеркиваем необходимость интеграции геометрических априорных знаний в проектирование сети. CRM основана на ключевом наблюдении, что визуализация трехплоскости демонстрирует пространственное соответствие шести ортографических изображений. Сначала она генерирует шесть ортографических изображений из одного входного изображения, затем подает эти изображения на сверточную U-Net, используя ее сильные возможности выравнивания на уровне пикселей и значительную пропускную способность для создания высокоразрешенной трехплоскости. CRM также использует Flexicubes в качестве геометрического представления, облегчая прямую оптимизацию от начала до конца на текстурированных сетках. В целом, наша модель создает текстурированную сетку высокого качества из изображения всего за 10 секунд, без какой-либо оптимизации во время тестирования.
Модели диффузии текста в изображение (T2I) продемонстрировали беспрецедентные возможности в создании реалистичных и эстетических изображений. В отличие от этого, модели диффузии текста в видео (T2V) все еще значительно отстают по качеству кадра и выравниванию текста из-за недостаточного качества и количества обучающих видео. В данной статье мы представляем VideoElevator, метод без обучения и готовый к использованию, который повышает производительность T2V, используя превосходные возможности T2I. В отличие от традиционной выборки T2V (т.е. временного и пространственного моделирования), VideoElevator явно декомпозирует каждый шаг выборки на улучшение временного движения и повышение качества пространства. Конкретно, улучшение временного движения использует инкапсулированный T2V для улучшения временной согласованности, за которым следует инвертирование в распределение шума, необходимое для T2I. Затем повышение качества пространства использует раздутый T2I для прямого прогнозирования менее шумного латентного состояния, добавляя более фотореалистичные детали. Мы провели эксперименты на обширных запросах при сочетании различных T2V и T2I. Результаты показывают, что VideoElevator не только улучшает производительность базовых T2V с основным T2I, но также облегчает стилистическую синтез видео с персонализированным T2I. Наш код доступен по адресу https://github.com/YBYBZhang/VideoElevator.