papers.title

papers.description

Die Llama 3 Herde von Modellen
The Llama 3 Herd of Models

Jul 31

ByAbhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao

116

Moderne Künstliche-Intelligenz- (KI-) Systeme werden von Grundlagenmodellen angetrieben. Dieses Papier stellt eine neue Reihe von Grundlagenmodellen vor, die Llama 3 genannt werden. Es handelt sich um eine Herde von Sprachmodellen, die nativ Mehrsprachigkeit, Kodierung, Schlussfolgerung und Werkzeugnutzung unterstützen. Unser größtes Modell ist ein dichter Transformer mit 405 Milliarden Parametern und einem Kontextfenster von bis zu 128.000 Token. Diese Arbeit präsentiert eine umfangreiche empirische Bewertung von Llama 3. Wir stellen fest, dass Llama 3 auf einer Vielzahl von Aufgaben eine vergleichbare Qualität wie führende Sprachmodelle wie GPT-4 liefert. Wir veröffentlichen Llama 3 öffentlich, einschließlich vorab trainierter und nachträglich trainierter Versionen des 405-Milliarden-Parameter-Sprachmodells und unseres Llama Guard 3-Modells für die Eingabe- und Ausgabesicherheit. Das Papier präsentiert auch die Ergebnisse von Experimenten, in denen wir Bild-, Video- und Sprachfähigkeiten in Llama 3 über einen kompositorischen Ansatz integrieren. Wir beobachten, dass dieser Ansatz auf Bild-, Video- und Spracherkennungsaufgaben wettbewerbsfähig mit dem Stand der Technik ist. Die resultierenden Modelle werden noch nicht breit veröffentlicht, da sie sich noch in der Entwicklung befinden.

Tora: Trajektorieorientierter Diffusions-Transformer für die Videogenerierung
Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Jul 31

ByZhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang

In jüngster Zeit haben Fortschritte im Bereich des Diffusion Transformers (DiT) eine bemerkenswerte Leistungsfähigkeit bei der Erzeugung hochwertiger Videoinhalte gezeigt. Dennoch bleibt das Potenzial transformerbasierter Diffusionsmodelle zur effektiven Generierung von Videos mit steuerbarer Bewegung ein Bereich von begrenzter Erkundung. Dieses Papier stellt Tora vor, das erste auf Trajektorien ausgerichtete DiT-Framework, das textuelle, visuelle und Trajektoriebedingungen gleichzeitig für die Videogenerierung integriert. Konkret besteht Tora aus einem Trajektorie-Extraktor (TE), einem räumlich-zeitlichen DiT und einem Bewegungssteuerungs-Fuser (MGF). Der TE kodiert beliebige Trajektorien in hierarchische Raum-Zeit-Bewegungspatches mit einem 3D-Videokompressionsnetzwerk. Der MGF integriert die Bewegungspatches in die DiT-Blöcke, um konsistente Videos gemäß den Trajektorien zu generieren. Unser Entwurf passt nahtlos zur Skalierbarkeit von DiT und ermöglicht eine präzise Steuerung der Dynamik von Videoinhalten mit unterschiedlichen Dauern, Seitenverhältnissen und Auflösungen. Umfangreiche Experimente zeigen Toras Exzellenz bei der Erzielung hoher Bewegungsqualität, während gleichzeitig die Bewegung der physischen Welt akribisch simuliert wird. Die Seite ist unter https://ali-videoai.github.io/tora_video zu finden.

MoMa: Effizientes Frühfusion-Vortraining mit einer Mischung von modalitätssensiblen Experten
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

Jul 31

ByXi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan

Wir stellen MoMa vor, eine neuartige Modality-aware Mixture-of-Experts (MoE)-Architektur, die für das Pre-Training von gemischt-modalen, frühfusionierten Sprachmodellen entwickelt wurde. MoMa verarbeitet Bilder und Text in beliebigen Sequenzen, indem Expertenmodule in modalitätsspezifische Gruppen unterteilt werden. Diese Gruppen verarbeiten ausschließlich zugewiesene Tokens und nutzen erlerntes Routing innerhalb jeder Gruppe, um semantisch informierte Anpassungsfähigkeit zu gewährleisten. Unsere empirischen Ergebnisse zeigen signifikante Effizienzgewinne beim Pre-Training durch diese modalitätsspezifische Parameterzuweisung. Unter einem Trainingsbudget von 1 Billion Tokens erreicht das MoMa 1.4B-Modell mit 4 Textexperten und 4 Bildexperten beeindruckende FLOPs-Einsparungen: Insgesamt 3,7-fach, mit 2,6-fach für Text und 5,2-fach für die Bildverarbeitung im Vergleich zu einem rechenäquivalenten dichten Baseline, gemessen am Pre-Training-Verlust. Dies übertrifft das Standard-Expertenauswahl-MoE mit 8 gemischt-modalen Experten, das 3-fache FLOPs-Einsparungen insgesamt erreicht (3-fach für Text, 2,8-fach für Bild). Die Kombination von MoMa mit Mixture-of-Depths (MoD) verbessert die FLOPs-Einsparungen beim Pre-Training auf insgesamt 4,2-fach (Text: 3,4-fach, Bild: 5,3-fach), obwohl diese Kombination die Leistung bei kausaler Inferenz aufgrund erhöhter Empfindlichkeit gegenüber der Routergenauigkeit beeinträchtigt. Diese Ergebnisse zeigen das Potenzial von MoMa auf, die Effizienz des Pre-Trainings von gemischt-modalen, frühfusionierten Sprachmodellen signifikant voranzutreiben und den Weg für ressourceneffizientere und leistungsfähigere multimodale KI-Systeme zu ebnen.

Auf dem Weg zur Erreichung menschlicher Parität bei der simultanen End-to-End-Sprachübersetzung mittels LLM-Agenten.
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Jul 31

ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang

In diesem Paper präsentieren wir Cross Language Agent - Simultaneous Interpretation, CLASI, ein hochwertiges und menschenähnliches Simultaneous Speech Translation (SiST) System. Inspiriert von professionellen menschlichen Dolmetschern nutzen wir eine neuartige datengesteuerte Lese-Schreib-Strategie, um die Übersetzungsqualität und Latenz auszubalancieren. Um die Herausforderung der Übersetzung von in-domain Terminologien anzugehen, setzt CLASI ein Multi-Modal-Retrieving-Modul ein, um relevante Informationen zu erhalten, die die Übersetzung ergänzen. Unterstützt durch LLMs kann unser Ansatz fehlertolerante Übersetzungen generieren, indem er den Eingangston, den historischen Kontext und die abgerufenen Informationen berücksichtigt. Experimentelle Ergebnisse zeigen, dass unser System andere Systeme signifikant übertrifft. Im Einklang mit professionellen menschlichen Dolmetschern bewerten wir CLASI anhand eines besseren menschlichen Bewertungskriteriums, dem validen Informationsanteil (VIP), der misst, wie viel Information erfolgreich an die Zuhörer vermittelt werden kann. In realen Szenarien, in denen Reden oft stockend, informell und unklar sind, erreicht CLASI einen VIP von 81,3 % bzw. 78,0 % für die Übersetzungsrichtungen Chinesisch-Englisch und Englisch-Chinesisch. Im Gegensatz dazu erreichen führende kommerzielle oder Open-Source-Systeme nur 35,4 % bzw. 41,6 %. Auf dem extrem schwierigen Datensatz, auf dem andere Systeme unter 13 % VIP erreichen, kann CLASI immer noch 70 % VIP erreichen.

ShieldGemma: Generative KI-Inhaltsmoderation basierend auf Gemma
ShieldGemma: Generative AI Content Moderation Based on Gemma

Jul 31

ByWenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez

Wir präsentieren ShieldGemma, eine umfassende Suite von auf Gemma2 aufbauenden Sicherheitsmodellierungsmodellen auf Basis von LLM. Diese Modelle bieten robuste, modernste Vorhersagen von Sicherheitsrisiken über verschiedene Schadensarten (sexuell explizite, gefährliche Inhalte, Belästigung, Hassrede) sowohl in Benutzereingaben als auch in LLM-generierten Ausgaben. Durch die Evaluation an öffentlichen und internen Benchmarks zeigen wir eine überlegene Leistung im Vergleich zu bestehenden Modellen wie Llama Guard (+10,8\% AU-PRC bei öffentlichen Benchmarks) und WildCard (+4,3\%). Darüber hinaus präsentieren wir eine neuartige LLM-basierte Datenkuratierungspipeline, die an verschiedene sicherheitsrelevante Aufgaben und darüber hinaus anpassbar ist. Wir haben eine starke Generalisierungsleistung für Modelle gezeigt, die hauptsächlich auf synthetischen Daten trainiert wurden. Durch die Veröffentlichung von ShieldGemma stellen wir der Forschungsgemeinschaft eine wertvolle Ressource zur Verfügung, die die Sicherheit von LLM vorantreibt und die Entwicklung effektiverer Inhaltsmoderationslösungen für Entwickler ermöglicht.

Datenkontaminationsbericht aus der CONDA Shared Task 2024
Data Contamination Report from the 2024 CONDA Shared Task

Jul 31

ByOscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang

Der 1. Workshop zum Thema Datenkontamination (CONDA 2024) konzentriert sich auf alle relevanten Aspekte der Datenkontamination in der natürlichen Sprachverarbeitung, wobei Datenkontamination als Situationen verstanden wird, in denen Evaluierungsdaten in die Vorabtrainingscorpora einbezogen sind, die zur Schulung von Modellen im großen Maßstab verwendet werden, was die Evaluierungsergebnisse beeinträchtigt. Der Workshop förderte eine gemeinsame Aufgabe, um Beweise für Datenkontamination in aktuellen verfügbaren Datensätzen und Modellen zu sammeln. Das Ziel der gemeinsamen Aufgabe und der zugehörigen Datenbank besteht darin, der Gemeinschaft zu helfen, das Ausmaß des Problems zu verstehen und Forschern zu helfen, Evaluierungsergebnisse auf bekannten kontaminierten Ressourcen zu vermeiden. Die gemeinsame Aufgabe stellt eine strukturierte, zentralisierte öffentliche Datenbank für die Sammlung von Kontaminationsbeweisen bereit, die über GitHub-Poolanfragen von der Gemeinschaft beigetragen werden kann. Dieses erste Kompilationspapier basiert auf 566 gemeldeten Einträgen über 91 kontaminierte Quellen von insgesamt 23 Beitragenden. Die Details der einzelnen Kontaminationsereignisse sind auf der Plattform verfügbar. Die Plattform bleibt online und steht für Beiträge aus der Gemeinschaft offen.

Offene Vokabular Audio-Visuelle Semantische Segmentierung
Open-Vocabulary Audio-Visual Semantic Segmentation

Jul 31

ByRuohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying

Die audiovisuelle semantische Segmentierung (AVSS) zielt darauf ab, klingende Objekte in Videos anhand akustischer Hinweise zu segmentieren und zu klassifizieren. Die meisten Ansätze arbeiten jedoch unter der Annahme eines geschlossenen Satzes und identifizieren nur vordefinierte Kategorien aus Trainingsdaten, wodurch die Verallgemeinerungsfähigkeit zur Erkennung neuer Kategorien in praktischen Anwendungen fehlt. In diesem Artikel stellen wir eine neue Aufgabe vor: die offene Vokabelaudiovisuelle semantische Segmentierung, die die AVSS-Aufgabe auf Szenarien in einer offenen Welt jenseits des annotierten Labelraums erweitert. Dies ist eine anspruchsvollere Aufgabe, die erfordert, alle Kategorien zu erkennen, auch solche, die während des Trainings weder gesehen noch gehört wurden. Darüber hinaus schlagen wir das erste Framework für offene Vokabel-AVSS, OV-AVSS, vor, das hauptsächlich aus zwei Teilen besteht: 1) einem universellen Soundquellenlokalisierungsmodul zur Durchführung von Audio-Visual-Fusion und Lokalisierung aller potenziellen klingenden Objekte und 2) einem offenen Vokabelklassifikationsmodul zur Vorhersage von Kategorien mit Hilfe des Vorwissens aus groß angelegten vortrainierten Vision-Sprach-Modellen. Um die offene Vokabel-AVSS angemessen zu bewerten, haben wir Null-Shot-Trainings- und Testteilmengen basierend auf dem AVSBench-semantischen Benchmark aufgeteilt, nämlich AVSBench-OV. Umfangreiche Experimente zeigen die starke Segmentierungs- und Null-Shot-Verallgemeinerungsfähigkeit unseres Modells für alle Kategorien. Auf dem AVSBench-OV-Datensatz erreicht OV-AVSS 55,43% mIoU bei Basis-Kategorien und 29,14% mIoU bei neuen Kategorien, was die state-of-the-art Null-Shot-Methode um 41,88%/20,61% und die offene Vokabelmethode um 10,2%/11,6% übertrifft. Der Code ist verfügbar unter https://github.com/ruohaoguo/ovavss.

TAROT: Aufgabenorientierte Autorenschaftsverschleierung mit Hilfe von Richtlinienoptimierungsmethoden
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods

Jul 31

ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi

Die Autorenschaftsverschleierung zielt darauf ab, die Identität eines Autors innerhalb eines Textes zu verschleiern, indem der Schreibstil, der Wortschatz, die Syntax und andere linguistische Merkmale, die mit dem Textautor in Verbindung stehen, verändert werden. Diese Veränderung muss die Balance zwischen Datenschutz und Nützlichkeit wahren. Während starke Verschleierungstechniken die Identität des Autors effektiv verbergen können, führen sie oft zu einer Verschlechterung der Qualität und Nützlichkeit des Textes für seinen beabsichtigten Zweck. Im Gegensatz dazu führt die Aufrechterhaltung hoher Nützlichkeit tendenziell zu unzureichendem Datenschutz, was es einem Angreifer erleichtert, den Autor zu de-anonymisieren. Daher ist es entscheidend, einen optimalen Kompromiss zwischen diesen beiden sich widersprechenden Zielen zu erreichen. In diesem Paper schlagen wir TAROT vor: Task-Oriented Autorenschaftsverschleierung unter Verwendung von Policy-Optimierung, eine neue unüberwachte Autorenschaftsverschleierungsmethode, deren Ziel es ist, den Datenschutz-Nützlichkeits-Kompromiss zu optimieren, indem der gesamte Text unter Berücksichtigung seiner nachgelagerten Nützlichkeit neu generiert wird. Unser Ansatz nutzt die Policy-Optimierung als Feinabstimmungsparadigma über kleinen Sprachmodellen, um Texte umzuschreiben, indem die Autorenidentität und die nachgelagerte Aufgabennützlichkeit erhalten bleiben. Wir zeigen, dass unser Ansatz die Genauigkeit von Angreifern weitgehend reduziert, während die Nützlichkeit erhalten bleibt. Wir stellen unseren Code und unsere Modelle öffentlich zur Verfügung.

Berkeley Humanoid: Eine Forschungsplattform für lernbasierte Steuerung
Berkeley Humanoid: A Research Platform for Learning-based Control

Jul 31

ByQiayuan Liao, Bike Zhang, Xuanyu Huang, Xiaoyu Huang, Zhongyu Li, Koushil Sreenath

Wir stellen Berkeley Humanoid vor, eine zuverlässige und kostengünstige humanoiden Forschungsplattform mittlerer Größe für lernbasierte Steuerung. Unser leichter, intern entwickelter Roboter ist speziell für Lernalgorithmen mit geringer Simulationskomplexität, anthropomorpher Bewegung und hoher Zuverlässigkeit gegen Stürze konzipiert. Der schmale Sim-zu-Real-Unterschied des Roboters ermöglicht agiles und robustes Fortbewegen über verschiedene Gelände in Außenumgebungen, erreicht mit einem einfachen Verstärkungslernregler unter Verwendung von leichter Domänenrandomisierung. Darüber hinaus zeigen wir, wie der Roboter Hunderte von Metern zurücklegt, auf einem steilen unbefestigten Pfad geht und mit einem und zwei Beinen hüpft, als Beweis für seine hohe Leistungsfähigkeit beim dynamischen Gehen. Mit der Fähigkeit zur omnidirektionalen Fortbewegung und der Fähigkeit, große Störungen mit einer kompakten Konfiguration standzuhalten, zielt unser System auf eine skalierbare, sim-zu-real Bereitstellung von lernbasierten humanoiden Systemen ab. Bitte besuchen Sie http://berkeley-humanoid.com für weitere Details.

Ausdrucksstarker Ganzkörper-3D-Gauß-Avatar
Expressive Whole-Body 3D Gaussian Avatar

Jul 31

ByGyeongsik Moon, Takaaki Shiratori, Shunsuke Saito

Gesichtsausdrucke und Handbewegungen sind notwendig, um unsere Emotionen auszudrücken und mit der Welt zu interagieren. Dennoch unterstützen die meisten 3D-Menschendarstellungen, die aus zufällig aufgenommenen Videos modelliert wurden, nur Körperbewegungen ohne Gesichtsausdrücke und Handbewegungen. In dieser Arbeit präsentieren wir ExAvatar, einen ausdrucksstarken Ganzkörper-3D-Menschendarsteller, der aus einem kurzen monokularen Video gelernt wurde. Wir gestalten ExAvatar als eine Kombination des Ganzkörper-parametrischen Mesh-Modells (SMPL-X) und des 3D-Gauß-Splattings (3DGS). Die Hauptprobleme sind 1) eine begrenzte Vielfalt an Gesichtsausdrücken und Posen im Video und 2) das Fehlen von 3D-Beobachtungen wie 3D-Scans und RGBD-Bilder. Die begrenzte Vielfalt im Video macht Animationen mit neuen Gesichtsausdrücken und Posen nicht trivial. Darüber hinaus könnte das Fehlen von 3D-Beobachtungen zu erheblichen Unklarheiten bei menschlichen Teilen führen, die im Video nicht beobachtet werden, was zu deutlichen Artefakten bei neuen Bewegungen führen kann. Um diese Probleme anzugehen, führen wir unsere hybride Darstellung des Mesh und der 3D-Gaußschen ein. Unsere hybride Darstellung behandelt jeden 3D-Gaußschen als einen Vertex auf der Oberfläche mit vordefinierten Verbindungsinformationen (d.h. Dreiecksflächen) zwischen ihnen, die der Mesh-Topologie von SMPL-X folgen. Dadurch wird unser ExAvatar animierbar mit neuen Gesichtsausdrücken, die durch den Gesichtsausdrucksraum von SMPL-X gesteuert werden. Darüber hinaus reduzieren wir durch die Verwendung von verbindungsbezogenen Regularisierern signifikant Artefakte bei neuen Gesichtsausdrücken und Posen.

Verbesserung von 2D-Merkmalrepräsentationen durch feinabgestimmtes Training unter Berücksichtigung von 3D
Improving 2D Feature Representations by 3D-Aware Fine-Tuning

Jul 29

ByYuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen

Aktuelle visuelle Grundlagenmodelle werden ausschließlich auf unstrukturierten 2D-Daten trainiert, was ihr Verständnis der 3D-Struktur von Objekten und Szenen einschränkt. In dieser Arbeit zeigen wir, dass Feinabstimmung auf 3D-bewussten Daten die Qualität der entstehenden semantischen Merkmale verbessert. Wir entwickeln eine Methode, um semantische 2D-Merkmale in eine effiziente 3D-Gaußsche Darstellung zu überführen, die es uns ermöglicht, sie für beliebige Ansichten neu zu rendern. Unter Verwendung der gerenderten 3D-bewussten Merkmale entwerfen wir eine Feinabstimmungsstrategie, um dieses 3D-Bewusstsein in ein 2D-Grundlagenmodell zu übertragen. Wir zeigen, dass Modelle, die auf diese Weise feinabgestimmt wurden, Merkmale erzeugen, die die Leistung bei nachgelagerten Aufgaben wie semantischer Segmentierung und Tiefenschätzung durch einfaches lineares Sondieren deutlich verbessern. Bemerkenswert ist, dass, obwohl auf einem einzigen Innenraum-Datensatz feinabgestimmt, die Verbesserung auf eine Vielzahl von Innenraum-Datensätzen und Datensätzen außerhalb des Domänen übertragbar ist. Wir hoffen, dass unsere Studie die Community dazu ermutigt, 3D-Bewusstsein in Betracht zu ziehen, wenn sie 2D-Grundlagenmodelle trainiert. Projektseite: https://ywyue.github.io/FiT3D.

Feinkörnige Nullschuss-Videostichproben
Fine-gained Zero-shot Video Sampling

Jul 31

ByDengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu

Die Integration einer zeitlichen Dimension in vortrainierte Bildverdünnungsmodelle für die Videogenerierung ist ein gängiger Ansatz. Allerdings ist diese Methode rechenintensiv und erfordert umfangreiche Videodatensätze. Vor allem führt die Heterogenität zwischen Bild- und Videodatensätzen oft zu einem katastrophalen Vergessen der Bildexpertise. Aktuelle Versuche, Videosequenzen direkt aus Bildverdünnungsmodellen zu extrahieren, haben diese Probleme teilweise gemildert. Dennoch können diese Methoden nur kurze Videoclips mit einfachen Bewegungen generieren und sind nicht in der Lage, fein abgestufte Bewegungen oder nicht-gitterförmige Verformungen zu erfassen. In diesem Artikel schlagen wir einen neuartigen Zero-Shot-Video-Sampling-Algorithmus vor, bezeichnet als ZS^2, der in der Lage ist, hochwertige Videoclips direkt aus bestehenden Bildsynthesemethoden wie Stable Diffusion ohne Training oder Optimierung zu sampeln. Speziell nutzt ZS^2 das Abhängigkeitsrauschmodell und die zeitliche Momentum-Aufmerksamkeit, um die Inhaltskonsistenz bzw. Animationskohärenz sicherzustellen. Diese Fähigkeit ermöglicht es, in verwandten Aufgaben wie bedingter und kontextspezialisierter Videogenerierung sowie anweisungsgesteuerter Videobearbeitung herausragende Leistungen zu erbringen. Experimentelle Ergebnisse zeigen, dass ZS^2 eine Spitzenleistung in der Zero-Shot-Videogenerierung erzielt und gelegentlich aktuelle überwachte Methoden übertrifft. Homepage: https://densechen.github.io/zss/.

NeRF-MAE: Maskierte Autoencoder für selbstüberwachtes 3D-Repräsentationslernen für neurale Strahlungsfelder
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

Apr 1

ByMuhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus

Neuronale Felder zeichnen sich in der Computer Vision und Robotik durch ihre Fähigkeit aus, die 3D-Visionswelt zu verstehen, indem sie Semantik, Geometrie und Dynamik ableiten. Angesichts der Fähigkeiten neuronaler Felder, eine 3D-Szene dicht aus 2D-Bildern darzustellen, stellen wir die Frage: Können wir ihr selbstüberwachtes Vortraining, insbesondere unter Verwendung von maskierten Autoencodern, skalieren, um effektive 3D-Repräsentationen aus aufgenommenen RGB-Bildern zu generieren? Aufgrund des beeindruckenden Erfolgs der Erweiterung von Transformatoren auf neue Datenmodalitäten verwenden wir standardmäßige 3D-Vision-Transformatoren, um der einzigartigen Formulierung von NeRFs gerecht zu werden. Wir nutzen NeRFs volumetrisches Gitter als dichte Eingabe für den Transformer und setzen es von anderen 3D-Repräsentationen wie Punktwolken ab, bei denen die Informationsdichte ungleichmäßig ist und die Repräsentation unregelmäßig ist. Aufgrund der Schwierigkeit, maskierte Autoencoder auf eine implizite Repräsentation wie NeRF anzuwenden, entscheiden wir uns dafür, eine explizite Repräsentation zu extrahieren, die Szenen über Domänen hinweg kanonisiert, indem wir die Kameratrajektorie für die Abtastung verwenden. Unser Ziel wird durch das Maskieren zufälliger Patches aus NeRFs Strahlungs- und Dichtegitter und die Verwendung eines standardmäßigen 3D Swin Transformers zur Rekonstruktion der maskierten Patches erreicht. Auf diese Weise kann das Modell die semantische und räumliche Struktur vollständiger Szenen erlernen. Wir trainieren diese Repräsentation im großen Maßstab an unseren vorgeschlagenen kuratierten aufgenommenen RGB-Daten, die insgesamt über 1,8 Millionen Bilder umfassen. Sobald das Vortraining abgeschlossen ist, wird der Encoder für effektives 3D-Transferlernen verwendet. Unser neuartiges selbstüberwachtes Vortraining für NeRFs, NeRF-MAE, skaliert bemerkenswert gut und verbessert die Leistung bei verschiedenen anspruchsvollen 3D-Aufgaben. Durch die Verwendung von unbeschrifteten aufgenommenen 2D-Daten für das Vortraining übertrifft NeRF-MAE signifikant selbstüberwachtes 3D-Vortraining und NeRF-Szenenverständnis-Baselines auf den Front3D- und ScanNet-Datensätzen mit einer absoluten Leistungssteigerung von über 20% AP50 und 8% AP25 für die 3D-Objekterkennung.

papers.title

papers.description

Die Llama 3 Herde von Modellen
The Llama 3 Herd of Models

Jul 31

116

Tora: Trajektorieorientierter Diffusions-Transformer für die Videogenerierung
Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Jul 31

ByZhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang

MoMa: Effizientes Frühfusion-Vortraining mit einer Mischung von modalitätssensiblen Experten
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

Jul 31

ByXi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan

Auf dem Weg zur Erreichung menschlicher Parität bei der simultanen End-to-End-Sprachübersetzung mittels LLM-Agenten.
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Jul 31

ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang

ShieldGemma: Generative KI-Inhaltsmoderation basierend auf Gemma
ShieldGemma: Generative AI Content Moderation Based on Gemma

Jul 31

ByWenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez