papers.title

papers.description

Gemini 1.5: Erschließung multimodaler Verständnisfähigkeiten über Millionen von Kontexttoken
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8

ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals

In diesem Bericht präsentieren wir das neueste Modell der Gemini-Familie, Gemini 1.5 Pro, ein hochgradig rechen-effizientes multimodales Mixture-of-Experts-Modell, das in der Lage ist, feinkörnige Informationen aus Millionen von Tokens des Kontexts abzurufen und zu begründen, einschließlich mehrerer langer Dokumente sowie Stunden von Video- und Audioinhalten. Gemini 1.5 Pro erzielt eine nahezu perfekte Abrufgenauigkeit bei Aufgaben zur Langkontext-Abrufung über Modalitäten hinweg, verbessert den Stand der Technik bei Langdokumenten-F&A, Langvideo-F&A und Langkontext-ASR und erreicht oder übertrifft die Leistung des Standes der Technik von Gemini 1.0 Ultra über eine breite Palette von Benchmarks. Bei der Untersuchung der Grenzen der Langkontext-Fähigkeit von Gemini 1.5 Pro stellen wir eine kontinuierliche Verbesserung bei der Vorhersage des nächsten Tokens fest und eine nahezu perfekte Abrufung (>99%) von mindestens 10 Millionen Tokens, ein generationeller Sprung gegenüber bestehenden Modellen wie Claude 2.1 (200k) und GPT-4 Turbo (128k). Abschließend heben wir überraschende neue Fähigkeiten großer Sprachmodelle an der Front hervor; wenn dem Modell ein Grammatikhandbuch für Kalamang, eine Sprache mit weniger als 200 Sprechern weltweit, gegeben wird, lernt es, Englisch in Kalamang auf einem ähnlichen Niveau wie eine Person zu übersetzen, die aus demselben Inhalt gelernt hat.

DeepSeek-VL: Auf dem Weg zu einer Vision-Sprach-Verständnis in der realen Welt
DeepSeek-VL: Towards Real-World Vision-Language Understanding

Mar 8

ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

Wir präsentieren DeepSeek-VL, ein Open-Source Vision-Language (VL) Modell, das für Vision- und Sprachverständnisanwendungen in der realen Welt entwickelt wurde. Unser Ansatz ist strukturiert um drei Schlüsseldimensionen: Wir streben danach, sicherzustellen, dass unsere Daten vielfältig, skalierbar und umfassend verschiedene reale Szenarien abdecken, einschließlich Web-Screenshots, PDFs, OCR, Diagramme und wissensbasierte Inhalte, mit dem Ziel einer umfassenden Darstellung praktischer Kontexte. Darüber hinaus erstellen wir eine Anwendungsfalldatenbank aus realen Benutzerszenarien und konstruieren entsprechend einen Anleitungsfine-Tuning-Datensatz. Das Feintuning mit diesem Datensatz verbessert signifikant die Benutzererfahrung des Modells in praktischen Anwendungen. Unter Berücksichtigung von Effizienz und den Anforderungen der meisten realen Szenarien integriert DeepSeek-VL einen hybriden Vision-Encoder, der hochauflösende Bilder (1024 x 1024) effizient verarbeitet, während er einen relativ geringen Rechenaufwand aufrechterhält. Diese Designentscheidung gewährleistet die Fähigkeit des Modells, kritische semantische und detaillierte Informationen über verschiedene visuelle Aufgaben hinweg zu erfassen. Wir behaupten, dass ein kompetentes Vision-Language Modell in erster Linie über starke Sprachfähigkeiten verfügen sollte. Um die Erhaltung der LLM-Fähigkeiten während des Pretrainings sicherzustellen, untersuchen wir eine effektive VL-Pretraining-Strategie, indem wir das LLM-Training von Anfang an integrieren und die beobachteten Wettbewerbsdynamiken zwischen den Modalitäten Vision und Sprache sorgfältig verwalten. Die DeepSeek-VL-Familie (sowohl 1,3B als auch 7B Modelle) zeigt überlegene Benutzererfahrungen als Vision-Sprach-Chatbot in realen Anwendungen und erzielt bei gleicher Modellgröße eine Spitzenleistung oder wettbewerbsfähige Leistungen über eine Vielzahl von visuell-sprachlichen Benchmarks hinweg, während sie robuste Leistungen bei sprachzentrierten Benchmarks beibehält. Wir haben sowohl die 1,3B- als auch die 7B-Modelle öffentlich zugänglich gemacht, um Innovationen auf der Grundlage dieses Modells zu fördern.

ELLA: Ausstattung von Diffusionsmodellen mit LLM zur Verbesserung der semantischen Ausrichtung
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Mar 8

ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu

Diffusionsmodelle haben eine bemerkenswerte Leistung im Bereich der Text-zu-Bild-Generierung gezeigt. Die meisten weit verbreiteten Modelle verwenden jedoch immer noch CLIP als ihren Text-Encoder, was ihre Fähigkeit einschränkt, dichte Anfragen zu verstehen, die mehrere Objekte, detaillierte Attribute, komplexe Beziehungen, Langtextausrichtung usw. umfassen. In diesem Paper stellen wir einen Effizienten Großen Sprachmodell-Adapter vor, genannt ELLA, der Text-zu-Bild-Diffusionsmodelle mit leistungsstarken Großen Sprachmodellen (LLM) ausstattet, um die Textausrichtung ohne Training von U-Net oder LLM zu verbessern. Um zwei vorab trainierte Modelle nahtlos zu verbinden, untersuchen wir eine Reihe von semantischen Ausrichtungsverbindungsdesigns und schlagen ein neuartiges Modul vor, den Zeitpunkt-bewussten Semantischen Verbinder (TSC), der zeitabhängige Bedingungen dynamisch aus LLM extrahiert. Unser Ansatz passt semantische Merkmale in verschiedenen Stadien des Rauschunterdrückungsprozesses an und unterstützt Diffusionsmodelle bei der Interpretation langer und komplexer Anfragen über Abtastzeitpunkte hinweg. Darüber hinaus kann ELLA problemlos in Community-Modelle und -Tools integriert werden, um deren Fähigkeiten zur Anfrageverfolgung zu verbessern. Zur Bewertung von Text-zu-Bild-Modellen bei dichter Anfrageverfolgung stellen wir den Dichten Anfragegraphen-Benchmark (DPG-Bench) vor, einen anspruchsvollen Benchmark bestehend aus 1K dichten Anfragen. Umfangreiche Experimente zeigen die Überlegenheit von ELLA bei dichter Anfrageverfolgung im Vergleich zu State-of-the-Art-Methoden, insbesondere bei mehreren Objektkompositionen mit vielfältigen Attributen und Beziehungen.

Personalisierte Hörbuchempfehlungen bei Spotify durch Graph-Neuronale Netzwerke
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Mar 8

ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou

In der sich ständig weiterentwickelnden digitalen Audiolandschaft hat Spotify, bekannt für seine Musik- und Gesprächsinhalte, kürzlich Hörbücher seiner umfangreichen Nutzerbasis vorgestellt. Obwohl vielversprechend, birgt dieser Schritt bedeutende Herausforderungen für personalisierte Empfehlungen. Im Gegensatz zu Musik und Podcasts, die anfangs kostenpflichtig sind, können Hörbücher nicht einfach vor dem Kauf überflogen werden, was höhere Einsätze für die Relevanz von Empfehlungen bedeutet. Darüber hinaus führt die Einführung eines neuen Inhaltstyps in eine bestehende Plattform zu extremen Datenlücken, da die meisten Nutzer mit diesem neuen Inhaltstyp nicht vertraut sind. Schließlich erfordert die Empfehlung von Inhalten an Millionen von Nutzern, dass das Modell schnell reagiert und skalierbar ist. Um diesen Herausforderungen zu begegnen, nutzen wir die Vorlieben der Nutzer für Podcasts und Musik und stellen 2T-HGNN vor, ein skalierbares Empfehlungssystem, das aus Heterogenen Graph-Neuronalen Netzen (HGNNs) und einem Zwei-Turm (2T)-Modell besteht. Dieser neuartige Ansatz deckt fein abgestufte Artikelbeziehungen auf und gewährleistet dabei eine geringe Latenzzeit und Komplexität. Wir entkoppeln die Nutzer vom HGNN-Graphen und schlagen einen innovativen Multi-Link-Nachbarsampler vor. Diese Entscheidungen, zusammen mit dem 2T-Bestandteil, reduzieren die Komplexität des HGNN-Modells signifikant. Empirische Bewertungen mit Millionen von Nutzern zeigen eine signifikante Verbesserung der Qualität personalisierter Empfehlungen, was zu einer Steigerung der Startrate neuer Hörbücher um +46% und einer Erhöhung der Streamingraten um +23% führt. Interessanterweise erstreckt sich die Auswirkung unseres Modells über Hörbücher hinaus und kommt etablierten Produkten wie Podcasts zugute.

CogView3: Feinere und schnellere Text-zu-Bild-Erzeugung durch Relay-Diffusion
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Mar 8

ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang

In jüngster Zeit wurden Fortschritte bei generativen Systemen zur Text-zu-Bild-Erstellung weitgehend durch Diffusionsmodelle vorangetrieben. Allerdings stehen Ein-Stufen-Text-zu-Bild-Diffusionsmodelle immer noch vor Herausforderungen hinsichtlich der Rechenleistung und der Verfeinerung von Bilddetails. Um dieses Problem anzugehen, schlagen wir CogView3 vor, ein innovatives gestuftes Rahmenwerk, das die Leistung der Text-zu-Bild-Diffusion verbessert. CogView3 ist das erste Modell, das Relay-Diffusion im Bereich der Text-zu-Bild-Erzeugung implementiert, indem es die Aufgabe zunächst durch die Erstellung von Niedrigauflösungsbildern und anschließend durch die Anwendung von Relay-basierter Superauflösung ausführt. Diese Methodik führt nicht nur zu wettbewerbsfähigen Text-zu-Bild-Ausgaben, sondern reduziert auch erheblich sowohl die Schulungs- als auch die Inferenzkosten. Unsere experimentellen Ergebnisse zeigen, dass CogView3 SDXL, das derzeit modernste Open-Source-Text-zu-Bild-Diffusionsmodell, um 77,0\% in menschlichen Bewertungen übertrifft und dabei nur etwa die Hälfte der Inferenzzeit benötigt. Die destillierte Variante von CogView3 erzielt vergleichbare Leistungen, während sie nur 1/10 der Inferenzzeit von SDXL benötigt.

CRM: Von einem einzelnen Bild zu einer 3D-texturierten Mesh mit konvolutioneller Rekonstruktion Modell
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Mar 8

ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu

Feed-Forward 3D-generative Modelle wie das Large Reconstruction Model (LRM) haben eine außergewöhnliche Generierungsgeschwindigkeit gezeigt. Die auf Transformer basierenden Methoden nutzen jedoch nicht die geometrischen Prioritäten des Triplane-Komponenten in ihrer Architektur, was häufig zu suboptimaler Qualität führt, aufgrund der begrenzten Größe der 3D-Daten und des langsamen Trainings. In dieser Arbeit präsentieren wir das Convolutional Reconstruction Model (CRM), ein hochwertiges Feed-Forward-Einzelbild-zu-3D-generative Modell. Unter Berücksichtigung der Einschränkungen durch spärliche 3D-Daten betonen wir die Notwendigkeit, geometrische Prioritäten in das Netzwerkdesign zu integrieren. CRM baut auf der Schlüsselbeobachtung auf, dass die Visualisierung des Triplanes eine räumliche Übereinstimmung von sechs orthografischen Bildern aufweist. Zunächst generiert es sechs orthografische Ansichtsbilder aus einem einzigen Eingabebild und speist diese Bilder dann in ein Convolutional U-Net ein, wobei es seine starken Pixel-Ebene-Ausrichtungsfähigkeiten und die signifikante Bandbreite nutzt, um einen hochauflösenden Triplane zu erstellen. CRM verwendet außerdem Flexicubes als geometrische Darstellung, die eine direkte End-to-End-Optimierung auf texturierten Netzen ermöglichen. Insgesamt liefert unser Modell in nur 10 Sekunden ein hochwertiges texturiertes Netz aus einem Bild, ohne jegliche Testzeit-Optimierung.

VideoElevator: Steigerung der Video-Generierungsqualität mit vielseitigen Text-zu-Bild-Diffusionsmodellen
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8

ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo

Text-zu-Bild-Diffusionsmodelle (T2I) haben beispiellose Fähigkeiten bei der Erstellung realistischer und ästhetischer Bilder gezeigt. Im Gegensatz dazu hinken Text-zu-Video-Diffusionsmodelle (T2V) immer noch weit hinterher in Bezug auf die Bildqualität und Textausrichtung, aufgrund der unzureichenden Qualität und Quantität der Trainingsvideos. In diesem Paper stellen wir VideoElevator vor, eine trainingsfreie und Plug-and-Play-Methode, die die Leistung von T2V mithilfe der überlegenen Fähigkeiten von T2I verbessert. Im Gegensatz zum herkömmlichen T2V-Sampling (d. h. zeitliche und räumliche Modellierung) zerlegt VideoElevator jeden Probenahmeschritt explizit in zeitliche Bewegungsoptimierung und räumliche Qualitätssteigerung. Speziell verwendet die zeitliche Bewegungsoptimierung verkapselte T2V, um die zeitliche Konsistenz zu verbessern, gefolgt von der Umkehrung zur Rauschverteilung, die von T2I benötigt wird. Anschließend nutzt die räumliche Qualitätssteigerung aufgeblasene T2I, um direkt weniger rauschige Latente vorherzusagen und fügt mehr fotorealistische Details hinzu. Wir haben Experimente unter umfangreichen Anfragen in Kombination verschiedener T2V und T2I durchgeführt. Die Ergebnisse zeigen, dass VideoElevator nicht nur die Leistung von T2V-Baselines mit grundlegendem T2I verbessert, sondern auch die stilistische Videosynthese mit personalisiertem T2I erleichtert. Unser Code ist verfügbar unter https://github.com/YBYBZhang/VideoElevator.

papers.title

papers.description

Gemini 1.5: Erschließung multimodaler Verständnisfähigkeiten über Millionen von Kontexttoken
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8

DeepSeek-VL: Auf dem Weg zu einer Vision-Sprach-Verständnis in der realen Welt
DeepSeek-VL: Towards Real-World Vision-Language Understanding

Mar 8

ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

ELLA: Ausstattung von Diffusionsmodellen mit LLM zur Verbesserung der semantischen Ausrichtung
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Mar 8

ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu

Personalisierte Hörbuchempfehlungen bei Spotify durch Graph-Neuronale Netzwerke
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Mar 8

CogView3: Feinere und schnellere Text-zu-Bild-Erzeugung durch Relay-Diffusion
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Mar 8

ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang

CRM: Von einem einzelnen Bild zu einer 3D-texturierten Mesh mit konvolutioneller Rekonstruktion Modell
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Mar 8

ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu

VideoElevator: Steigerung der Video-Generierungsqualität mit vielseitigen Text-zu-Bild-Diffusionsmodellen
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8

ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo