AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Llama 3 モデル群
The Llama 3 Herd of Models

Jul 31

ByAbhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao

116

現代の人工知能（AI）システムは、基盤モデルによって支えられています。本論文では、Llama 3と呼ばれる新しい基盤モデルのセットを紹介します。Llama 3は、多言語対応、コーディング、推論、ツール使用をネイティブにサポートする言語モデルの集合体です。最大のモデルは、4050億のパラメータと最大128Kトークンのコンテキストウィンドウを備えた密なTransformerです。本論文では、Llama 3の広範な実証評価を提示します。Llama 3は、GPT-4などの主要な言語モデルと同等の品質を多数のタスクで提供することがわかりました。Llama 3を公開し、4050億パラメータの言語モデルの事前学習版と事後学習版、および入力と出力の安全性のためのLlama Guard 3モデルを含めます。本論文では、画像、ビデオ、音声の機能をLlama 3に組み込む実験の結果も提示します。このアプローチは、画像、ビデオ、音声認識タスクにおいて最先端の性能を発揮することが観察されました。結果として得られたモデルは、まだ開発中であるため、広く公開されていません。

Tora: 映像生成のための軌道指向拡散トランスフォーマー
Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Jul 31

ByZhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang

最近のDiffusion Transformer（DiT）の進展は、高品質な動画コンテンツの生成において顕著な能力を示しています。しかしながら、Transformerベースの拡散モデルを用いて、制御可能な動きを持つ動画を効果的に生成する可能性は、まだ十分に探求されていない領域です。本論文では、テキスト、視覚、軌跡の条件を同時に統合した初の軌跡指向型DiTフレームワークであるToraを紹介します。具体的には、ToraはTrajectory Extractor（TE）、Spatial-Temporal DiT、およびMotion-guidance Fuser（MGF）で構成されています。TEは、3D動画圧縮ネットワークを用いて任意の軌跡を階層的な時空間モーションパッチにエンコードします。MGFは、これらのモーションパッチをDiTブロックに統合し、軌跡に従った一貫性のある動画を生成します。我々の設計はDiTのスケーラビリティとシームレスに整合し、動画コンテンツのダイナミクスを多様な時間、アスペクト比、解像度で精密に制御することを可能にします。大規模な実験により、Toraが高いモーション忠実度を達成しつつ、物理世界の動きを緻密にシミュレートする優れた能力を実証しています。詳細はhttps://ali-videoai.github.io/tora_videoをご覧ください。

MoMa: モダリティ認識エキスパートの混合による効率的な早期融合事前学習
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

Jul 31

ByXi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan

我々は、混合モーダルな早期融合言語モデルの事前学習のために設計された、新しいモダリティ認識型エキスパート混合（MoE）アーキテクチャであるMoMaを紹介する。MoMaは、画像とテキストを任意の順序で処理するために、エキスパートモジュールをモダリティ固有のグループに分割する。これらのグループは、指定されたトークンを排他的に処理しながら、各グループ内で学習されたルーティングを採用し、意味的に情報化された適応性を維持する。我々の実験結果は、このモダリティ固有のパラメータ割り当てを通じて、事前学習の効率が大幅に向上することを明らかにしている。1兆トークンのトレーニング予算の下で、4つのテキストエキスパートと4つの画像エキスパートを備えたMoMa 1.4Bモデルは、事前学習損失で測定された計算等価な密なベースラインと比較して、全体で3.7倍、テキスト処理で2.6倍、画像処理で5.2倍のFLOPs節約を達成する。これは、8つの混合モーダルエキスパートを備えた標準的なエキスパート選択型MoEを上回り、後者は全体で3倍（テキスト：3倍、画像：2.8倍）のFLOPs節約を達成する。MoMaと深さ混合（MoD）を組み合わせることで、事前学習のFLOPs節約は全体で4.2倍（テキスト：3.4倍、画像：5.3倍）にさらに向上するが、ルーターの精度に対する感度が高まるため、因果推論の性能が低下する。これらの結果は、MoMaが混合モーダルな早期融合言語モデルの事前学習の効率を大幅に向上させる可能性を示しており、よりリソース効率的で能力の高いマルチモーダルAIシステムへの道を開くものである。

大規模言語モデルエージェントによるエンドツーエンド同時音声翻訳における人間並みの性能達成に向けて
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Jul 31

ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang

本論文では、高品質で人間らしい同時音声翻訳（SiST）システムであるCross Language Agent -- Simultaneous Interpretation（CLASI）を提案する。プロの人間通訳者に着想を得て、翻訳品質と遅延のバランスを取るために、新しいデータ駆動型の読み書き戦略を採用している。ドメイン固有の用語翻訳の課題に対処するため、CLASIはマルチモーダル検索モジュールを利用して関連情報を取得し、翻訳を強化する。大規模言語モデル（LLMs）のサポートにより、本アプローチは入力音声、過去の文脈、および検索された情報を考慮して、エラー耐性のある翻訳を生成することができる。実験結果は、本システムが他のシステムを大幅に上回ることを示している。プロの人間通訳者に準拠して、CLASIをより優れた人間評価指標である有効情報伝達率（VIP）で評価し、リスナーに成功裏に伝達される情報量を測定する。現実世界のシナリオでは、スピーチがしばしば不流暢で、非公式で、不明瞭であるが、CLASIは中国語から英語、英語から中国語の翻訳方向でそれぞれ81.3％と78.0％のVIPを達成する。対照的に、最先端の商用またはオープンソースシステムは35.4％と41.6％しか達成できない。他のシステムが13％未満のVIPしか達成できない極めて難しいデータセットにおいても、CLASIは70％のVIPを達成することができる。

ShieldGemma: Gemmaベースの生成AIコンテンツモデレーション
ShieldGemma: Generative AI Content Moderation Based on Gemma

Jul 31

ByWenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez

私たちは、Gemma2を基盤とした包括的なLLMベースの安全なコンテンツモデレーションモデル群であるShieldGemmaを紹介します。これらのモデルは、ユーザー入力とLLM生成出力の両方において、主要な有害カテゴリ（性的表現、危険なコンテンツ、ハラスメント、ヘイトスピーチ）にわたる堅牢で最先端の安全リスク予測を提供します。公開ベンチマークと内部ベンチマークの両方で評価を行い、Llama Guard（公開ベンチマークで+10.8% AU-PRC）やWildCard（+4.3%）などの既存モデルと比較して優れた性能を示しています。さらに、安全性に関連する多様なタスクやそれ以外にも適応可能な、新しいLLMベースのデータキュレーションパイプラインを提示します。主に合成データでトレーニングされたモデルにおいて、強力な汎化性能を示しました。ShieldGemmaを公開することで、研究コミュニティに貴重なリソースを提供し、LLMの安全性を向上させ、開発者向けにより効果的なコンテンツモデレーションソリューションの創出を可能にします。

2024年CONDA共有タスクにおけるデータ汚染レポート
Data Contamination Report from the 2024 CONDA Shared Task

Jul 31

ByOscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang

第1回データ汚染ワークショップ（CONDA 2024）は、自然言語処理におけるデータ汚染のあらゆる関連側面に焦点を当てています。ここでデータ汚染とは、大規模モデルの学習に使用される事前学習コーパスに評価データが含まれる状況を指し、これにより評価結果が損なわれることを意味します。本ワークショップでは、現在利用可能なデータセットとモデルにおけるデータ汚染の証拠を収集するための共有タスクを推進しました。この共有タスクと関連データベースの目的は、コミュニティが問題の範囲を理解し、研究者が既知の汚染されたリソースでの評価結果を報告することを避けるのを支援することです。共有タスクは、GitHubのプールリクエストを通じてコミュニティからの貢献を受け付ける、構造化された中央集権的な公開データベースを提供します。この最初のコンパイル論文は、23名の貢献者から報告された91の汚染源にわたる566件のエントリーに基づいています。個々の汚染イベントの詳細はプラットフォームで閲覧可能です。プラットフォームは引き続きオンラインで、コミュニティからの貢献を受け付けています。

オープン語彙オーディオビジュアル意味分割
Open-Vocabulary Audio-Visual Semantic Segmentation

Jul 31

ByRuohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying

音響視覚的セマンティックセグメンテーション（AVSS）は、音響的キューを用いてビデオ内の音源オブジェクトをセグメント化し分類することを目的としています。しかし、ほとんどのアプローチは閉じた集合の仮定に基づいて動作し、トレーニングデータから事前に定義されたカテゴリのみを識別するため、実用的なアプリケーションにおける新規カテゴリの検出に対する汎化能力が欠如しています。本論文では、新しいタスクとしてオープンボキャブラリー音響視覚的セマンティックセグメンテーションを導入し、AVSSタスクを注釈されたラベル空間を超えたオープンワールドシナリオに拡張します。これは、トレーニング中に見たことも聞いたこともないカテゴリを含むすべてのカテゴリを認識する必要がある、より挑戦的なタスクです。さらに、最初のオープンボキャブラリーAVSSフレームワークであるOV-AVSSを提案します。このフレームワークは主に2つの部分で構成されています：1）音響視覚的融合を実行し、すべての潜在的な音源オブジェクトを特定するユニバーサル音源ローカライゼーションモジュール、2）大規模事前学習済み視覚言語モデルからの事前知識を活用してカテゴリを予測するオープンボキャブラリー分類モジュールです。オープンボキャブラリーAVSSを適切に評価するために、AVSBench-semanticベンチマークに基づいてゼロショットトレーニングとテストサブセットを分割し、AVSBench-OVと名付けました。広範な実験により、我々のモデルがすべてのカテゴリにおいて強力なセグメンテーション能力とゼロショット汎化能力を発揮することが実証されました。AVSBench-OVデータセットにおいて、OV-AVSSはベースカテゴリで55.43%のmIoU、新規カテゴリで29.14%のmIoUを達成し、最先端のゼロショット手法を41.88%/20.61%、オープンボキャブラリー手法を10.2%/11.6%上回りました。コードはhttps://github.com/ruohaoguo/ovavssで公開されています。

TAROT: ポリシー最適化を用いたタスク指向型著者匿名化手法
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods

Jul 31

ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi

著作権隠蔽は、テキスト内の著者のアイデンティティを、そのテキストの著者に関連する文体、語彙、構文、その他の言語的特徴を変更することで偽装することを目的としています。この変更は、プライバシーと有用性のバランスを取る必要があります。強力な隠蔽技術は著者のアイデンティティを効果的に隠すことができますが、しばしばテキストの品質とその目的に対する有用性を低下させます。逆に、高い有用性を維持すると、プライバシーが不十分になり、攻撃者が著者を特定しやすくなります。したがって、これらの相反する目的の間で最適なトレードオフを達成することが重要です。本論文では、TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimizationを提案します。これは、下流の有用性を考慮してテキスト全体を再生成することで、プライバシーと有用性のトレードオフを最適化することを目的とした新しい教師なし著作権隠蔽手法です。私たちのアプローチは、ポリシー最適化を活用し、小さな言語モデルを微調整するパラダイムとして使用して、著者のアイデンティティと下流タスクの有用性を保持しながらテキストを書き換えます。私たちのアプローチが、有用性を保持しながら攻撃者の精度を大幅に低減することを示します。私たちは、コードとモデルを公開しています。

バークレイヒューマノイド：学習ベース制御のための研究プラットフォーム
Berkeley Humanoid: A Research Platform for Learning-based Control

Jul 31

ByQiayuan Liao, Bike Zhang, Xuanyu Huang, Xiaoyu Huang, Zhongyu Li, Koushil Sreenath

私たちは、学習ベースの制御のための信頼性が高く低コストな中型ヒューマノイド研究プラットフォーム「Berkeley Humanoid」を紹介します。この軽量で内製されたロボットは、シミュレーションの複雑さが低く、人間の動きに近い動作が可能で、転倒に対する高い信頼性を備えるように特別に設計されています。このロボットは、シミュレーションと現実のギャップが小さいため、屋外環境のさまざまな地形での俊敏で堅牢な移動を実現し、軽いドメインランダム化を用いたシンプルな強化学習コントローラーで達成されています。さらに、数百メートルの移動、急勾配の未舗装路での歩行、片足および両足でのホッピングを実演し、動的な歩行における高い性能を証明しています。全方位移動が可能で、コンパクトなセットアップながら大きな外乱にも耐えられるこのシステムは、学習ベースのヒューマノイドシステムのスケーラブルなシミュレーションから現実への展開を目指しています。詳細はhttp://berkeley-humanoid.comをご覧ください。

表現力豊かな全身3Dガウシアンアバター
Expressive Whole-Body 3D Gaussian Avatar

Jul 31

ByGyeongsik Moon, Takaaki Shiratori, Shunsuke Saito

表情や手の動きは、私たちの感情を表現し、世界と相互作用するために必要不可欠です。しかし、カジュアルに撮影されたビデオからモデル化された3D人間アバターのほとんどは、身体の動きのみをサポートしており、表情や手の動きは含まれていません。本研究では、短い単眼ビデオから学習した表現力豊かな全身3D人間アバター「ExAvatar」を提案します。ExAvatarは、全身パラメトリックメッシュモデル（SMPL-X）と3Dガウシアンスプラッティング（3DGS）を組み合わせて設計されています。主な課題は、1）ビデオ内の表情やポーズの多様性が限られていること、2）3DスキャンやRGBD画像などの3D観測データが欠如していることです。ビデオ内の多様性が限られているため、新しい表情やポーズでのアニメーション作成は容易ではありません。さらに、3D観測データが欠如しているため、ビデオ内で観測されなかった人体部分に大きな曖昧さが生じ、新しい動きの下で目立つアーティファクトが発生する可能性があります。これらの課題に対処するため、メッシュと3Dガウシアンのハイブリッド表現を導入しました。このハイブリッド表現では、各3DガウシアンをSMPL-Xのメッシュトポロジーに従って事前に定義された接続情報（つまり三角形の面）を持つ表面上の頂点として扱います。これにより、SMPL-Xの表情空間に基づいて駆動される新しい表情でのExAvatarのアニメーションが可能になります。さらに、接続ベースの正則化器を使用することで、新しい表情やポーズでのアーティファクトを大幅に削減します。

3D認識による微調整による2D特徴表現の改善
Improving 2D Feature Representations by 3D-Aware Fine-Tuning

Jul 29

ByYuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen

現在の視覚基盤モデルは、非構造化の2Dデータのみで訓練されており、物体やシーンの3D構造の理解が制限されています。本研究では、3Dを意識したデータによるファインチューニングが、新たに出現する意味的特徴の品質を向上させることを示します。私たちは、意味的2D特徴を効率的な3Dガウス表現に変換する手法を設計し、任意の視点でそれらを再レンダリングできるようにしました。レンダリングされた3Dを意識した特徴を用いて、2D基盤モデルにそのような3D認識を転移するファインチューニング戦略を設計しました。この方法でファインチューニングされたモデルは、単純な線形プローブを通じて、セマンティックセグメンテーションや深度推定などの下流タスクの性能を容易に向上させる特徴を生成することを実証します。特に、単一の屋内データセットでファインチューニングされたにもかかわらず、その改善はさまざまな屋内データセットやドメイン外のデータセットに転移可能です。私たちの研究が、2D基盤モデルの訓練において3D認識を注入することをコミュニティに検討させることを期待しています。プロジェクトページ: https://ywyue.github.io/FiT3D。

細粒度ゼロショットビデオサンプリング
Fine-gained Zero-shot Video Sampling

Jul 31

ByDengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu

事前学習済みの画像拡散モデルに時間次元を組み込んで動画生成を行う手法は広く普及しています。しかし、この方法は計算コストが高く、大規模な動画データセットを必要とします。さらに重要な点として、画像と動画のデータセット間の異質性により、画像に関する専門知識が壊滅的に忘れ去られることがしばしば発生します。最近では、画像拡散モデルから直接動画スニペットを抽出する試みが行われ、これらの問題をある程度緩和しています。それでも、これらの手法では単純な動きしか持たない短い動画クリップしか生成できず、細かい動きやグリッド以外の変形を捉えることができません。本論文では、既存の画像合成手法（例えばStable Diffusion）から、学習や最適化を一切行わずに高品質な動画クリップを直接サンプリングできる新しいZero-Shot動画サンプリングアルゴリズム、ZS^2を提案します。具体的には、ZS^2は依存性ノイズモデルと時間的モーメンタムアテンションをそれぞれ用いて、内容の一貫性とアニメーションの連続性を保証します。この能力により、条件付きや文脈特化型の動画生成、指示に基づく動画編集といった関連タスクにおいて優れた性能を発揮します。実験結果は、ZS^2がゼロショット動画生成において最先端の性能を達成し、時には最近の教師あり手法を上回ることを示しています。ホームページ: https://densechen.github.io/zss/

NeRF-MAE: ニューラルラジアンスフィールドのための自己教師あり3D表現学習におけるマスクドオートエンコーダ
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

Apr 1

ByMuhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus

ニューラルフィールドは、セマンティクス、ジオメトリ、ダイナミクスを推論するなど、3D視覚世界を理解する能力により、コンピュータビジョンとロボティクスにおいて優れた性能を発揮します。2D画像から3Dシーンを密に表現するニューラルフィールドの能力を踏まえ、我々は次の疑問を投げかけます：マスクドオートエンコーダを用いて、特にポーズ付きRGB画像から効果的な3D表現を生成するために、それらの自己教師あり事前学習をスケールアップできるか？トランスフォーマーを新しいデータモダリティに拡張する驚異的な成功を受けて、我々は標準的な3D Vision TransformersをNeRFの独特な定式化に適合させることを試みます。NeRFのボリュメトリックグリッドをトランスフォーマーへの密な入力として活用し、情報密度が不均一で表現が不規則な点群などの他の3D表現と対比します。NeRFのような暗黙的表現にマスクドオートエンコーダを適用する難しさから、我々はカメラ軌道を用いてサンプリングすることでドメイン間でシーンを正規化する明示的表現を抽出することを選択します。我々の目標は、NeRFの放射輝度と密度グリッドからランダムなパッチをマスキングし、標準的な3D Swin Transformerを用いてマスクされたパッチを再構築することで達成されます。これにより、モデルは完全なシーンのセマンティックおよび空間構造を学習することができます。我々は、提案したキュレーションされたポーズ付きRGBデータ（合計180万枚以上の画像）でこの表現を大規模に事前学習します。事前学習後、エンコーダは効果的な3D転移学習に使用されます。我々の新しいNeRFの自己教師あり事前学習手法、NeRF-MAEは、驚くほどよくスケールし、さまざまな困難な3Dタスクで性能を向上させます。ラベルなしのポーズ付き2Dデータを事前学習に活用することで、NeRF-MAEはFront3DおよびScanNetデータセットにおいて、自己教師あり3D事前学習およびNeRFシーン理解ベースラインを大幅に上回り、3D物体検出においてAP50で20%以上、AP25で8%の絶対的性能向上を達成します。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

大規模言語モデルエージェントによるエンドツーエンド同時音声翻訳における人間並みの性能達成に向けて
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Jul 31

ByShanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang

NeRF-MAE: ニューラルラジアンスフィールドのための自己教師あり3D表現学習におけるマスクドオートエンコーダ
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

Apr 1

ByMuhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus