ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev
78
3
本研究では、Gemmaファミリーに新たに加わったGemma 2を紹介します。これは、20億から270億パラメータの規模にわたる軽量で最先端のオープンモデル群です。この新バージョンでは、Transformerアーキテクチャに対していくつかの既知の技術的改良を適用しました。具体的には、ローカル・グローバル注意機構の交互適用(Beltagy et al., 2020a)やグループクエリ注意機構(Ainslie et al., 2023)などが含まれます。また、20億パラメータと90億パラメータのモデルについては、次のトークン予測ではなく知識蒸留(Hinton et al., 2015)を用いて学習を行いました。その結果、これらのモデルはその規模において最高の性能を発揮し、2~3倍大きなモデルに対しても競争力のある代替案を提供します。私たちはすべてのモデルをコミュニティに公開します。
条件付き拡散モデルは、主に分類器不要ガイダンス(CFG)の導入により、視覚コンテンツ生成において顕著な成功を収め、様々な領域で高品質なサンプルを生成してきました。最近では、無条件モデルへのガイダンス拡張の試みがヒューリスティックな手法に依存しており、生成品質の低下や意図しない効果が生じていました。本研究では、自己注意機構のエネルギーに基づく視点を活用し、画像生成を向上させる新しいトレーニング不要かつ条件不要のアプローチであるSmoothed Energy Guidance(SEG)を提案します。自己注意のエネルギーを定義することで、注意のエネルギーランドスケープの曲率を低減する手法を導入し、その出力を無条件予測として使用します。実践的には、ガイダンススケールパラメータを固定したまま、ガウシアンカーネルパラメータを調整することでエネルギーランドスケープの曲率を制御します。さらに、トークン数の二次的な複雑さを伴わずに、全体の注意重みをぼかすことに等しいクエリぼかし手法を提示します。実験では、SEGが品質と副作用の低減の両方においてパレート改善を達成しました。コードはhttps://github.com/SusungHong/SEG-SDXLで公開されています。