HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

7 papers found

Gemini 1.5: 수백만 토큰의 컨텍스트를 넘나드는 멀티모달 이해의 해제
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8

ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals

본 보고서에서는 Gemini 시리즈의 최신 모델인 Gemini 1.5 Pro를 소개합니다. 이 모델은 고도로 계산 효율적인 멀티모달 전문가 혼합(MoE) 모델로, 수백만 토큰의 컨텍스트에서 세밀한 정보를 기억하고 추론할 수 있으며, 여기에는 여러 장의 긴 문서와 수 시간 분량의 비디오 및 오디오가 포함됩니다. Gemini 1.5 Pro는 다양한 모달리티에서 장기 컨텍스트 검색 작업에서 거의 완벽한 회상력을 달성했으며, 장문 질의응답(QA), 장영상 QA 및 장기 컨텍스트 자동 음성 인식(ASR) 분야에서 최첨단 기술을 개선했습니다. 또한 광범위한 벤치마크에서 Gemini 1.0 Ultra의 최첨단 성능을 능가하거나 동등한 수준을 보였습니다. Gemini 1.5 Pro의 장기 컨텍스트 능력의 한계를 연구한 결과, 최소 1천만 토큰까지 다음 토큰 예측에서 지속적인 개선과 거의 완벽한 검색률(>99%)을 확인했으며, 이는 Claude 2.1(20만 토큰) 및 GPT-4 Turbo(12.8만 토큰)와 같은 기존 모델 대비 세대 차원의 도약을 이루었습니다. 마지막으로, 대규모 언어 모델의 새로운 능력을 강조합니다. 전 세계적으로 사용자가 200명 미만인 Kalamang 언어의 문법 매뉴얼을 제공받았을 때, 모델은 동일한 내용을 학습한 사람과 유사한 수준으로 영어를 Kalamang으로 번역하는 능력을 보였습니다.

DeepSeek-VL: 실세계 시각-언어 이해를 향하여
DeepSeek-VL: Towards Real-World Vision-Language Understanding

Mar 8

ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

우리는 실세계의 시각 및 언어 이해 애플리케이션을 위해 설계된 오픈소스 Vision-Language (VL) 모델인 DeepSeek-VL을 소개한다. 우리의 접근 방식은 세 가지 주요 차원을 중심으로 구성된다: 우리는 데이터가 다양하고 확장 가능하며 웹 스크린샷, PDF, OCR, 차트, 지식 기반 콘텐츠를 포함한 실세계 시나리오를 광범위하게 다루어 실용적인 맥락을 포괄적으로 표현할 수 있도록 노력한다. 더 나아가, 실제 사용자 시나리오에서 유즈 케이스 분류체계를 생성하고 이에 따라 인스트럭션 튜닝 데이터셋을 구축한다. 이 데이터셋을 활용한 미세 조정은 실용적인 애플리케이션에서 모델의 사용자 경험을 크게 향상시킨다. 효율성과 대부분의 실세계 시나리오의 요구를 고려하여, DeepSeek-VL은 고해상도 이미지(1024 x 1024)를 효율적으로 처리하면서도 비교적 낮은 계산 오버헤드를 유지하는 하이브리드 비전 인코더를 통합한다. 이러한 설계 선택은 다양한 시각적 작업에서 중요한 의미론적 정보와 세부 정보를 포착할 수 있는 모델의 능력을 보장한다. 우리는 능숙한 Vision-Language 모델은 무엇보다도 강력한 언어 능력을 가져야 한다고 주장한다. 프리트레이닝 과정에서 LLM 능력의 보존을 보장하기 위해, 초기부터 LLM 훈련을 통합하고 시각 및 언어 모달리티 간의 경쟁적 역학을 신중하게 관리하는 효과적인 VL 프리트레이닝 전략을 탐구한다. DeepSeek-VL 패밀리(1.3B 및 7B 모델)는 실세계 애플리케이션에서 시각-언어 챗봇으로서 우수한 사용자 경험을 보여주며, 동일한 모델 크기에서 다양한 시각-언어 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 달성하면서도 언어 중심 벤치마크에서도 견고한 성능을 유지한다. 우리는 이 기반 모델을 바탕으로 한 혁신을 촉진하기 위해 1.3B 및 7B 모델을 모두 공개적으로 제공한다.

ELLA: 향상된 의미 정렬을 위해 LLM을 장착한 확산 모델
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Mar 8

ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu

디퓨전 모델은 텍스트-이미지 생성 분야에서 뛰어난 성능을 입증해 왔습니다. 그러나 가장 널리 사용되는 모델들은 여전히 CLIP을 텍스트 인코더로 사용하고 있어, 다중 객체, 세부 속성, 복잡한 관계, 장문 정렬 등을 포함하는 밀집 프롬프트를 이해하는 데 제약이 있습니다. 본 논문에서는 Efficient Large Language Model Adapter(ELLA)를 소개합니다. ELLA는 텍스트-이미지 디퓨전 모델에 강력한 대형 언어 모델(LLM)을 장착하여 U-Net이나 LLM의 학습 없이도 텍스트 정렬을 강화합니다. 두 개의 사전 학습된 모델을 원활하게 연결하기 위해, 우리는 다양한 의미론적 정렬 커넥터 설계를 연구하고, LLM에서 시간 단계에 따라 조건을 동적으로 추출하는 새로운 모듈인 Timestep-Aware Semantic Connector(TSC)를 제안합니다. 우리의 접근 방식은 디노이징 과정의 다양한 단계에서 의미론적 특징을 적응시켜, 디퓨전 모델이 샘플링 시간 단계에 걸쳐 길고 복잡한 프롬프트를 해석하는 데 도움을 줍니다. 또한, ELLA는 커뮤니티 모델 및 도구와 쉽게 통합되어 프롬프트 추적 능력을 향상시킬 수 있습니다. 텍스트-이미지 모델의 밀집 프롬프트 추적 능력을 평가하기 위해, 우리는 1K개의 밀집 프롬프트로 구성된 도전적인 벤치마크인 Dense Prompt Graph Benchmark(DPG-Bench)를 도입했습니다. 광범위한 실험을 통해 ELLA가 최신 방법들에 비해 밀집 프롬프트 추적에서 우수함을 입증했으며, 특히 다양한 속성과 관계를 포함하는 다중 객체 구성에서 뛰어난 성능을 보였습니다.

그래프 신경망을 활용한 Spotify의 개인 맞춤형 오디오북 추천 시스템
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Mar 8

ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou

끊임없이 진화하는 디지털 오디오 환경에서 음악 및 토크 콘텐츠로 잘 알려진 Spotify는 최근 방대한 사용자 기반에 오디오북을 도입했습니다. 이는 유망한 움직임이지만, 개인화된 추천에 있어 상당한 과제를 제시합니다. 음악과 팟캐스트와 달리, 초기 유료로 제공되는 오디오북은 구매 전에 쉽게 훑어볼 수 없어 추천의 적절성이 더욱 중요해집니다. 또한, 기존 플랫폼에 새로운 콘텐츠 유형을 도입하는 것은 대부분의 사용자가 이 새로운 콘텐츠 유형에 익숙하지 않아 극도의 데이터 희소성 문제에 직면합니다. 마지막으로, 수백만 명의 사용자에게 콘텐츠를 추천하기 위해서는 모델이 빠르게 반응하고 확장 가능해야 합니다. 이러한 과제를 해결하기 위해 우리는 팟캐스트와 음악 사용자 선호도를 활용하고, 이질적 그래프 신경망(HGNN)과 투 타워(2T) 모델로 구성된 확장 가능한 추천 시스템인 2T-HGNN을 소개합니다. 이 새로운 접근 방식은 낮은 지연 시간과 복잡성을 보장하면서도 미묘한 아이템 관계를 발견합니다. 우리는 사용자를 HGNN 그래프에서 분리하고 혁신적인 다중 링크 이웃 샘플러를 제안합니다. 이러한 선택은 2T 구성 요소와 함께 HGNN 모델의 복잡성을 크게 줄입니다. 수백만 명의 사용자를 포함한 실증적 평가 결과, 개인화된 추천의 품질이 크게 개선되어 새로운 오디오북 시작률이 +46% 증가하고 스트리밍률이 +23% 상승했습니다. 흥미롭게도, 우리 모델의 영향은 오디오북을 넘어 팟캐스트와 같은 기존 제품에도 혜택을 미쳤습니다.

CogView3: 릴레이 디퓨전을 통한 더 정밀하고 빠른 텍스트-이미지 생성
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Mar 8

ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang

최근 텍스트-이미지 생성 시스템의 발전은 주로 확산 모델(diffusion models)에 의해 주도되어 왔습니다. 그러나 단일 단계 텍스트-이미지 확산 모델은 여전히 계산 효율성과 이미지 세부 사항의 정제 측면에서 어려움에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 텍스트-이미지 확산의 성능을 향상시키는 혁신적인 캐스케이드 프레임워크인 CogView3를 제안합니다. CogView3는 텍스트-이미지 생성 분야에서 릴레이 확산(relay diffusion)을 구현한 첫 번째 모델로, 먼저 저해상도 이미지를 생성한 후 릴레이 기반 초해상도(super-resolution)를 적용하여 작업을 수행합니다. 이 방법론은 경쟁력 있는 텍스트-이미지 출력을 생성할 뿐만 아니라, 훈련 및 추론 비용을 크게 절감합니다. 우리의 실험 결과는 CogView3가 현재 최첨단 오픈소스 텍스트-이미지 확산 모델인 SDXL을 인간 평가에서 77.0% 앞서며, 추론 시간은 약 1/2만 소요됨을 보여줍니다. CogView3의 증류(distilled) 버전은 SDXL의 1/10 추론 시간만 사용하면서도 비슷한 성능을 달성합니다.

CRM: 컨볼루션 재구성을 통한 단일 이미지에서 3D 텍스처 메쉬 생성
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Mar 8

ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu

Large Reconstruction Model(LRM)과 같은 피드포워드(feed-forward) 3D 생성 모델은 탁월한 생성 속도를 보여주었습니다. 그러나 트랜스포머(transformer) 기반 방법론은 아키텍처 내에서 트라이플레인(triplane) 구성 요소의 기하학적 사전 정보(geometric priors)를 활용하지 않아, 제한된 3D 데이터 크기와 느린 학습 속도로 인해 최적의 품질을 달성하지 못하는 경우가 많습니다. 본 연구에서는 고해상도 피드포워드 단일 이미지-to-3D 생성 모델인 Convolutional Reconstruction Model(CRM)을 제안합니다. 희소한 3D 데이터로 인한 한계를 인식하고, 네트워크 설계에 기하학적 사전 정보를 통합할 필요성을 강조합니다. CRM은 트라이플레인의 시각화가 6개의 직교 투영 이미지(orthographic images) 간의 공간적 대응 관계를 보인다는 핵심 관찰에 기반합니다. 먼저, 단일 입력 이미지로부터 6개의 직교 투영 이미지를 생성한 후, 이러한 이미지를 컨볼루셔널 U-Net(convolutional U-Net)에 입력하여 강력한 픽셀 수준 정렬 능력과 높은 대역폭을 활용해 고해상도 트라이플레인을 생성합니다. CRM은 또한 기하학적 표현으로 Flexicubes를 사용하여 텍스처가 적용된 메시(textured mesh)에 대한 직접적인 종단간(end-to-end) 최적화를 용이하게 합니다. 전반적으로, 우리의 모델은 테스트 시간 최적화 없이도 단 10초 만에 이미지로부터 고해상도의 텍스처가 적용된 메시를 제공합니다.

VideoElevator: 다용도 텍스트-이미지 확산 모델을 활용한 비디오 생성 품질 향상
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8

ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo

텍스트-이미지 확산 모델(T2I)은 사실적이고 미학적인 이미지를 생성하는 데 있어 전례 없는 능력을 보여주고 있습니다. 반면, 텍스트-비디오 확산 모델(T2V)은 여전히 프레임 품질과 텍스트 정렬 면에서 크게 뒤처져 있는데, 이는 훈련 비디오의 품질과 양이 부족하기 때문입니다. 본 논문에서는 T2I의 우수한 능력을 활용하여 T2V의 성능을 향상시키는, 훈련이 필요 없고 플러그 앤 플레이 방식의 VideoElevator를 소개합니다. 기존의 T2V 샘플링(즉, 시간적 및 공간적 모델링)과 달리, VideoElevator는 각 샘플링 단계를 시간적 모션 정제와 공간적 품질 향상으로 명시적으로 분해합니다. 구체적으로, 시간적 모션 정제는 캡슐화된 T2V를 사용하여 시간적 일관성을 강화한 후, T2I가 요구하는 잡음 분포로 역변환합니다. 그런 다음, 공간적 품질 향상은 확장된 T2I를 활용하여 덜 노이즈가 있는 잠재 변수를 직접 예측함으로써 더욱 사실적인 세부 사항을 추가합니다. 다양한 T2V와 T2I의 조합 하에서 광범위한 프롬프트에 대한 실험을 수행했습니다. 결과는 VideoElevator가 기본 T2I를 사용하여 T2V 베이스라인의 성능을 개선할 뿐만 아니라, 개인화된 T2I를 사용하여 스타일리시한 비디오 합성을 용이하게 한다는 것을 보여줍니다. 우리의 코드는 https://github.com/YBYBZhang/VideoElevator에서 확인할 수 있습니다.

Gemini 1.5: 수백만 토큰의 컨텍스트를 넘나드는 멀티모달 이해의 해제
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8