AI研究論文每日精選

每日精選AI研究論文及翻譯

Gemini 1.5：在數百萬標記的上下文中實現多模式理解
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8

ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals

在本報告中，我們介紹了Gemini家族的最新模型Gemini 1.5 Pro，這是一個高效的計算多模式專家混合模型，能夠回憶和推理來自數百萬標記的上下文中的細粒度信息，包括多個長文檔以及數小時的視頻和音頻。Gemini 1.5 Pro在跨模式的長上下文檢索任務中實現了接近完美的回憶率，改進了長文檔問答、長視頻問答和長上下文語音識別的最新技術水平，並在廣泛的基準測試中與甚至超越了Gemini 1.0 Ultra的最新技術表現。通過研究Gemini 1.5 Pro在長上下文能力上的極限，我們發現在至少1000萬標記的情況下，下一標記預測和接近完美的檢索（>99%）持續改進，這是對現有模型（如Claude 2.1（200k）和GPT-4 Turbo（128k））的一代飛躍。最後，我們強調了大型語言模型在前沿的令人驚訝的新能力；當給予Kalamang語法手冊，這是一種全球擁有不到200名使用者的語言時，模型學會將英語翻譯成Kalamang的能力與從相同內容學習的人類水平相近。

DeepSeek-VL：邁向真實世界的視覺語言理解
DeepSeek-VL: Towards Real-World Vision-Language Understanding

Mar 8

ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

我們介紹了 DeepSeek-VL，這是一個針對現實世界視覺和語言理解應用而設計的開源視覺-語言（VL）模型。我們的方法圍繞三個關鍵維度展開：我們努力確保我們的數據具有多樣性、可擴展性，並廣泛涵蓋包括網頁截圖、PDF、OCR、圖表和基於知識的內容在內的現實世界場景，旨在全面呈現實際情境。此外，我們從真實用戶場景中創建了一個用例分類法，並相應地構建了一個指令調整數據集。使用這個數據集進行微調顯著提升了模型在實際應用中的用戶體驗。考慮到效率和大多數現實世界場景的需求，DeepSeek-VL融合了一個混合視覺編碼器，能夠高效處理高分辨率圖像（1024 x 1024），同時保持相對較低的計算開銷。這種設計選擇確保了模型在各種視覺任務中捕捉關鍵語義和詳細信息的能力。我們認為，一個熟練的視覺-語言模型首要應該具備強大的語言能力。為確保在預訓練期間保留LLM能力，我們通過從一開始就整合LLM訓練，並仔細管理視覺和語言模態之間觀察到的競爭動態，研究了一種有效的VL預訓練策略。 DeepSeek-VL系列（包括1.3B和7B模型）在現實應用中作為一個視覺-語言聊天機器人展示出卓越的用戶體驗，在相同模型大小下實現了視覺-語言基準測試的最新技術或具有競爭力的表現，同時在以語言為中心的基準測試上保持了穩健的表現。我們已經使1.3B和7B模型公開可訪問，以促進基於這一基礎模型的創新。

ELLA：為增強語義對齊而配備LLM的擴散模型
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Mar 8

ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu

擴散模型在文本到圖像生成領域展現出卓越的性能。然而，大多數廣泛使用的模型仍然採用 CLIP 作為其文本編碼器，這限制了它們理解密集提示（包括多個對象、詳細屬性、複雜關係、長文本對齊等）的能力。本文介紹了一種高效大型語言模型適配器，稱為 ELLA，它為文本到圖像擴散模型配備了強大的大型語言模型（LLM），以增強文本對齊，而無需對 U-Net 或 LLM 進行訓練。為了無縫地連接兩個預訓練模型，我們研究了一系列語義對齊連接器設計，並提出了一個新的模塊，即時間步感知語義連接器（TSC），它可以動態地從 LLM 中提取時間步相關條件。我們的方法在去噪過程的不同階段調適語義特徵，幫助擴散模型在採樣時間步上解釋冗長和複雜的提示。此外，ELLA 可輕鬆與社區模型和工具結合，以提高它們的提示跟隨能力。為了評估在密集提示跟隨方面的文本到圖像模型，我們引入了密集提示圖形基準（DPG-Bench），這是一個包含 1K 密集提示的具有挑戰性的基準。大量實驗證明了ELLA在密集提示跟隨方面優於最先進的方法，特別是在涉及多個對象組合、不同屬性和關係的情況下。

透過圖神經網絡在 Spotify 提供個性化有聲書推薦
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Mar 8

ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou

在不斷演進的數位音訊領域中，以其音樂和談話內容而聞名的 Spotify 近期向廣大用戶推出有聲書。儘管前景看好，這一舉措為個性化推薦帶來了重大挑戰。與音樂和播客不同，最初需要付費購買的有聲書無法在購買前輕易瀏覽，因此對推薦的相關性提出了更高的要求。此外，將新的內容類型引入現有平台面臨極端的數據稀疏性，因為大多數用戶對這種新內容類型不熟悉。最後，向數百萬用戶推薦內容需要模型快速反應並具有可擴展性。為應對這些挑戰，我們利用播客和音樂用戶偏好，引入了一個可擴展的推薦系統 2T-HGNN，其中包括異構圖神經網絡（HGNNs）和雙塔（2T）模型。這種新穎方法揭示了物品之間微妙的關係，同時確保低延遲和複雜性。我們將用戶從 HGNN 圖中分離出來，並提出了一個創新的多連接鄰居抽樣器。這些選擇，再加上 2T 元件，顯著降低了 HGNN 模型的複雜性。通過涉及數百萬用戶的實證評估，我們發現個性化推薦的質量顯著提高，導致新有聲書的啟動率增加了 +46%，流量率提高了 +23%。有趣的是，我們的模型影響不僅限於有聲書，還惠及播客等既有產品。

CogView3：通過中繼擴散實現更精細更快速的文本到圖像生成
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Mar 8

ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang

最近在文本到圖像生成系統方面的進展主要是由擴散模型推動的。然而，單階段文本到圖像擴散模型仍然面臨著計算效率和圖像細節的改進方面的挑戰。為了應對這個問題，我們提出了CogView3，這是一個創新的級聯框架，可以增強文本到圖像擴散的性能。CogView3是第一個在文本到圖像生成領域實現中繼擴散的模型，通過首先創建低分辨率圖像，然後應用基於中繼的超分辨率來執行任務。這種方法不僅產生具有競爭力的文本到圖像輸出，還大大降低了訓練和推理成本。我們的實驗結果表明，CogView3在人類評估方面比當前最先進的開源文本到圖像擴散模型SDXL表現優異，性能提高了77.0％，同時推理時間僅需SDXL的約1/2。CogView3的精煉變體實現了可比的性能，同時只利用SDXL推理時間的1/10。

CRM：使用卷積重建模型將單張影像轉換為3D紋理網格
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Mar 8

ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu

前馈式3D生成模型，如大型重建模型（LRM），已展示出卓越的生成速度。然而，基于Transformer的方法未充分利用其架构中三平面组件的几何先验，往往导致在3D数据规模有限且训练缓慢的情况下质量不佳。在本研究中，我们提出了卷积重建模型（CRM），这是一个高保真度的前馈式单图像到3D生成模型。鉴于稀疏的3D数据带来的限制，我们强调了将几何先验整合到网络设计中的必要性。CRM建立在一个关键观察的基础上，即三平面的可视化展示出六个正交图像的空间对应关系。首先，它从单个输入图像生成六个正交视图图像，然后将这些图像馈入卷积U-Net，利用其强大的像素级对齐能力和显著的带宽来创建高分辨率的三平面。CRM进一步采用Flexicubes作为几何表示，有助于在纹理网格上进行直接端到端的优化。总体而言，我们的模型仅需10秒即可从图像生成高保真度的纹理网格，无需任何测试时优化。

VideoElevator：利用多功能的文本到圖像擴散模型提升視頻生成質量
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8

ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo

文字到圖像擴散模型（T2I）展示了在創建逼真和美學圖像方面前所未有的能力。相反，文字到視頻擴散模型（T2V）在幀質和文字對齊方面仍遠遠落後，這歸因於訓練視頻的質量和數量不足。在本文中，我們介紹了VideoElevator，這是一種無需訓練且即插即用的方法，利用T2I的優越能力提升T2V的性能。與傳統的T2V抽樣（即時間和空間建模）不同，VideoElevator將每個抽樣步驟明確分解為時間運動精煉和空間質量提升。具體而言，時間運動精煉使用封裝的T2V來增強時間一致性，然後反轉為T2I所需的噪聲分佈。然後，空間質量提升利用膨脹的T2I來直接預測較少噪聲的潛在值，增加更多照片般逼真的細節。我們在各種T2V和T2I的組合下進行了大量提示的實驗。結果顯示，VideoElevator不僅改善了具有基礎T2I的T2V基準性能，還促進了具有個性化T2I的風格化視頻合成。我們的代碼可在https://github.com/YBYBZhang/VideoElevator找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

VideoElevator：利用多功能的文本到圖像擴散模型提升視頻生成質量
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8

ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo