AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

「BF16を与えよ、さもなくば死を！」？LLM量子化における精度と性能のトレードオフ
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Nov 4

ByEldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh

大規模言語モデル（LLM）の量子化は推論の高速化において人気がありますが、さまざまな量子化フォーマットに関連する精度と性能のトレードオフについては依然として重要な不確実性が残っています。本研究では、一連の学術ベンチマークと実世界のタスクで人気のある量子化フォーマット（FP8、INT8、INT4）を評価し、Llama-3.1モデルファミリー全体で量子化された精度について包括的な実証的研究を行います。さらに、本研究では、量子化モデルによって生成されたテキストと非圧縮の対応物との違いも検討します。ベンチマークに加えて、最先端の精度回復結果を得るために行ったいくつかの量子化改善策も紹介します。50万以上の個別評価を含む当該調査により、以下のいくつかの重要な結果が得られました：（1）FP8の重みと活性化量子化（W8A8-FP）はすべてのモデルスケールで損失がないこと、（2）INT8の重みと活性化量子化（W8A8-INT）は適切に調整された場合、驚くほど1-3%の精度低下しか発生せず、（3）INT4の重みのみの量子化（W4A16-INT）は8ビット整数の重みと活性化量子化と競合しています。特定の展開環境に最適なフォーマットに関する問題に対処するため、一般的なオープンソースのvLLMフレームワークを使用してさまざまなGPUアーキテクチャで推論性能を分析します。その結果、W4A16が同期展開において最もコスト効率が良く、中堅GPUでの非同期展開に最適であることがわかりました。同時に、W8A8フォーマットは高性能GPUでの中規模および大規模モデルの非同期「連続バッチング」展開に優れています。我々の結果は、さまざまなスケールと性能要件にわたる量子化されたLLMの展開に関する実用的なガイドラインを提供しています。

AndroidLab：Android自律エージェントのトレーニングと体系的なベンチマーキング
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

Oct 31

ByYifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong

自律エージェントは、現実世界とのやり取りにおいてますます重要になっています。特に、Android エージェントは最近、頻繁に言及されるやり取り方法となっています。ただし、既存の Android エージェントのトレーニングと評価に関する研究は、オープンソースおよびクローズドソースのモデルの両方について系統的な研究が不足しています。本研究では、Android エージェントのシステム的なフレームワークとして AndroidLab を提案します。これには、異なるモダリティ、アクションスペース、再現可能なベンチマークを備えた操作環境が含まれています。また、同じアクションスペースで大規模言語モデル（LLMs）とマルチモーダルモデル（LMMs）の両方をサポートしています。AndroidLab ベンチマークには、事前定義された Android 仮想デバイスとこれらのデバイス上に構築された 9 つのアプリにまたがる 138 のタスクが含まれています。AndroidLab 環境を使用して、Android Instruction データセットを開発し、6 つのオープンソースの LLMs および LMMs をトレーニングしました。これにより、LLMs の平均成功率が 4.59% から 21.50%、LMMs の平均成功率が 1.93% から 13.28% に向上しました。AndroidLab はオープンソースであり、https://github.com/THUDM/Android-Lab で公開されています。

ダイナソー：事前定義されたアクションを超える大規模言語エージェント
DynaSaur: Large Language Agents Beyond Predefined Actions

Nov 4

ByDang Nguyen, Viet Dac Lai, Seunghyun Yoon, Ryan A. Rossi, Handong Zhao, Ruiyi Zhang, Puneet Mathur, Nedim Lipka, Yu Wang, Trung Bui, Franck Dernoncourt, Tianyi Zhou

既存のLLMエージェントシステムは通常、各ステップで固定および事前定義されたセットからアクションを選択します。このアプローチは閉じられた、狭い範囲の環境では効果的ですが、LLMエージェントを実世界のシナリオに展開する際には、2つの主要な課題が生じると主張します。第1に、固定されたアクションセットから選択することは、LLMエージェントの計画および行動能力を著しく制限する。第2に、このアプローチは、潜在的なアクションの数が膨大な複雑な環境において、すべての可能なアクションを列挙して実装するために膨大な人間の労力を必要とするため、実用的ではありません。本研究では、オンラインでアクションの動的作成および組み合わせを可能にするLLMエージェントフレームワークを提案します。このフレームワークでは、エージェントは各ステップで一般的なプログラミング言語で書かれたプログラムを生成および実行することで環境と対話します。さらに、生成されたアクションは将来の再利用のために時間とともに蓄積されます。GAIAベンチマークでの幅広い実験により、このフレームワークが大幅な柔軟性を提供し、以前の手法を凌駕することが示されました。特筆すべきは、LLMエージェントが事前定義されたセットに関連するアクションが存在しない場合や既存のアクションが予期せぬエッジケースによって失敗した場合に、シナリオで回復できることです。執筆時点では、GAIAのパブリックリーダーボードでトップの位置を維持しています。当該コードは以下で入手可能です：https://github.com/adobe-research/dynasaur{https://github.com/adobe-research/dynasaur}。

WebRL: 自己進化オンラインカリキュラムを通じたLLM Web エージェントのトレーニング強化学習
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Nov 4

ByZehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong

大規模言語モデル（LLM）は、特にウェブベースのタスクにおいて自律エージェントとして顕著な潜在能力を示しています。しかし、既存のLLMウェブエージェントは、高価なプロプライエタリLLM APIに大きく依存しており、一方でオープンなLLMには必要な意思決定能力が欠如しています。本論文では、オープンなLLMを用いて高性能なウェブエージェントを訓練するために設計された、自己進化オンラインカリキュラム強化学習フレームワークであるWebRLを紹介します。WebRLは、LLMウェブエージェントの構築における3つの主要な課題、つまりトレーニングタスクの不足、希薄なフィードバック信号、オンライン学習におけるポリシー分布のドリフトという課題に取り組んでいます。具体的には、WebRLは、1) 成功しなかった試行から新しいタスクを生成する自己進化カリキュラム、2) 頑健なアウトカム監督報酬モデル（ORM）、および3) 一貫した改善を確実にする適応型強化学習戦略を組み込んでいます。我々は、WebRLを用いてオープンなLlama-3.1およびGLM-4モデルを熟練したウェブエージェントに変換しました。WebArena-Lite上で、WebRLはLlama-3.1-8Bの成功率を4.8%から42.4%に、GLM-4-9Bの成功率を6.1%から43%に向上させました。これらのオープンモデルは、GPT-4-Turbo（17.6%）およびGPT-4o（13.9%）を大きく上回り、オープンなLLMで訓練された以前の最先端ウェブエージェント（AutoWebGLM、18.2%）を凌駕しています。我々の調査結果は、WebRLがオープンとプロプライエタリなLLMベースのウェブエージェントとのギャップを埋める効果的な手段であり、よりアクセス可能で強力な自律ウェブインタラクションシステムへの道を開いていることを示しています。

ビデオ生成とワールドモデルの距離：物理法則の観点から
How Far is Video Generation from World Model: A Physical Law Perspective

Nov 4

ByBingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng

OpenAIのSoraは、ビデオ生成の可能性を強調し、基本的な物理法則に従うワールドモデルの開発に貢献しています。しかし、ビデオ生成モデルが視覚データだけから人間の先入観なしでこれらの法則を発見する能力は疑問視され得ます。真の法則を学習するワールドモデルは、微妙な点に強い予測を提供し、見慣れないシナリオに正しく外挿するはずです。本研究では、三つの主要シナリオを横断的に評価します：分布内、分布外、および組み合わせ一般化。物体の移動と衝突のための2Dシミュレーションテストベッドを開発し、古典力学の一つ以上の法則によって決定論的に制御されたビデオを生成しました。これにより、大規模な実験のための無制限のデータ供給が可能となり、生成されたビデオが物理法則に従っているかどうかを定量評価することができます。初期フレームに基づいて物体の移動を予測するために拡散ベースのビデオ生成モデルを訓練しました。スケーリング実験では、分布内での完全な一般化、組み合わせ一般化における計測可能なスケーリング動作、しかし分布外シナリオでの失敗が示されました。さらなる実験から、これらのモデルの一般化メカニズムについて二つの重要な洞察が明らかになりました：(1) モデルは一般的な物理法則を抽象化することに失敗し、代わりに「ケースベース」の一般化行動、つまり、最も近い訓練例を模倣することが観察されました；(2) 新しいケースに一般化する際、モデルは訓練データを参照する際に異なる要因を優先することが観察されました：色 > サイズ > 速度 > 形状。私たちの研究は、単独のスケーリングだけでは、ビデオ生成モデルが基本的な物理法則を発見するのに十分ではないことを示唆していますが、これはSoraの広範な成功において果たす役割にもかかわらずです。プロジェクトページはこちらhttps://phyworld.github.io をご覧ください。

Hunyuan-Large: テンセントによる520億のアクティブパラメータを持つオープンソースのMoEモデル
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Nov 4

ByXingwu Sun, Yanfeng Chen, Yiqing Huang, Ruobing Xie, Jiaqi Zhu, Kai Zhang, Shuaipeng Li, Zhen Yang, Jonny Han, Xiaobo Shu, Jiahao Bu, Zhongzhi Chen, Xuemeng Huang, Fengzong Lian, Saiyong Yang, Jianfeng Yan, Yuyuan Zeng, Xiaoqin Ren, Chao Yu, Lulu Wu, Yue Mao, Tao Yang, Suncong Zheng, Kan Wu, Dian Jiao, Jinbao Xue, Xipeng Zhang, Decheng Wu, Kai Liu, Dengpeng Wu, Guanghui Xu, Shaohua Chen, Shuang Chen, Xiao Feng, Yigeng Hong, Junqiang Zheng, Chengcheng Xu, Zongwei Li, Xiong Kuang, Jianglu Hu, Yiqi Chen, Yuchi Deng, Guiyang Li, Ao Liu, Chenchen Zhang, Shihui Hu, Zilong Zhao, Zifan Wu, Yao Ding, Weichao Wang, Han Liu, Roberts Wang, Hao Fei, Peijie She, Ze Zhao, Xun Cao, Hai Wang, Fusheng Xiang, Mengyuan Huang, Zhiyuan Xiong, Bin Hu, Xuebin Hou, Lei Jiang, Jiajia Wu, Yaping Deng, Yi Shen, Qian Wang, Weijie Liu, Jie Liu, Meng Chen, Liang Dong, Weiwen Jia, Hu Chen, Feifei Liu, Rui Yuan, Huilin Xu, Zhenxiang Yan, Tengfei Cao, Zhichao Hu, Xinhua Feng, Dong Du, Tinghao She, Yangyu Tao, Feng Zhang, Jianchen Zhu, Chengzhong Xu, Xirui Li, Chong Zha, Wen Ouyang, Yinben Xia, Xiang Li, Zekun He, Rongpeng Chen, Jiawei Song, Ruibin Chen, Fan Jiang, Chongqing Zhao, Bo Wang, Hao Gong, Rong Gan, Winston Hu, Zhanhui Kang, Yong Yang, Yuhong Liu, Di Wang, Jie Jiang

本論文では、現在最大のオープンソースTransformerベースの専門家モデルであるHunyuan-Largeを紹介します。総パラメータ数は3890億、活性化パラメータ数は520億で、最大256Kトークンを処理できます。Hunyuan-Largeの優れた性能を言語理解と生成、論理推論、数学的問題解決、コーディング、長文脈、および集約タスクを含むさまざまなベンチマークで徹底的に評価し、LLama3.1-70Bを上回り、はるかに大きなLLama3.1-405Bモデルと比較して同等の性能を発揮します。Hunyuan-Largeの主な実践には、従来の文献よりもはるかに大きい大規模な合成データ、混合専門家ルーティング戦略、キー値キャッシュ圧縮技術、および専門家固有の学習率戦略が含まれます。さらに、専門家モデルのスケーリング則と学習率スケジュールについても調査し、将来のモデル開発と最適化に貴重な知見と指針を提供します。Hunyuan-Largeのコードとチェックポイントは、将来のイノベーションと応用を促進するために公開されています。コード: https://github.com/Tencent/Hunyuan-Large モデル: https://huggingface.co/tencent/Tencent-Hunyuan-Large

トレーニング不要の地域プロンプティングによるディフュージョントランスフォーマー
Training-free Regional Prompting for Diffusion Transformers

Nov 4

ByAnthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang

拡散モデルは、テキストから画像を生成する際に優れた能力を示しています。彼らの意味理解（つまり、プロンプトに従う）能力も、大規模言語モデル（例：T5、Llama）によって大幅に向上しています。ただし、既存のモデルは、特にテキストプロンプトがさまざまなオブジェクトを多数含み、相互に関連する空間関係を持つ場合など、長く複雑なテキストプロンプトを完璧に処理することができません。UNetベースのモデル（SD1.5、SDXLなど）には多くの地域プロンプティング手法が提案されていますが、最近のDiffusion Transformer（DiT）アーキテクチャに基づいた実装はまだありません。例えば、SD3やFLUX.1などです。このレポートでは、我々はFLUX.1向けの地域プロンプティングを提案し、実装しています。これは、アテンション操作に基づくもので、トレーニング不要でDiTに微細な構成テキストから画像を生成する能力を提供します。コードは以下で入手可能です：https://github.com/antonioo-c/Regional-Prompting-FLUX。

言語モデルにおける文化的認識の調査：テキストとその先
Survey of Cultural Awareness in Language Models: Text and Beyond

Oct 30

BySiddhesh Pawar, Junyeong Park, Jiho Jin, Arnav Arora, Junho Myung, Srishti Yadav, Faiz Ghifari Haznitrama, Inhwa Song, Alice Oh, Isabelle Augenstein

さまざまなアプリケーションでの大規模な大規模言語モデル（LLM）の展開は、チャットボットやバーチャルアシスタントなど、ユーザーに対して文化的に敏感で包括的であることを要求します。文化は心理学や人類学で広く研究されており、最近では、多言語性を超えて心理学や人類学の知見に基づいたLLMの文化的包括性を高める研究が急増しています。本論文では、テキストベースおよびマルチモーダルなLLMに文化的意識を組み込む取り組みについて調査します。まず、人類学と心理学から文化の定義を出発点として文化的意識をLLMで定義し、横断的なデータセットの作成に採用された方法、下流タスクでの文化的包括性の戦略、そしてLLMにおける文化的意識のベンチマーク化に使用された方法論を検討します。さらに、文化的整合性の倫理的側面、ヒューマンコンピュータインタラクションの役割、LLMにおける文化的包括性を促進する役割、文化的整合性が社会科学研究を促進する役割について議論します。最後に、文献の空白に関する私たちの調査結果に基づいて将来の研究への示唆を提供します。

MVPaint: 3D物体のペイントのための同期されたマルチビュー拡散
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Nov 4

ByWei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan

テクスチャリングは、3Dアセットの制作ワークフローにおける重要な段階であり、3Dアセットの視覚的魅力と多様性を向上させます。最近のText-to-Texture（T2T）生成の進歩にもかかわらず、既存の方法はしばしば劣る結果をもたらします。これは主に局所的な不連続性、複数のビュー間の不一致、およびUV展開の結果に大きく依存しているためです。これらの課題に対処するために、私たちはMVPaintと呼ばれる新しい生成-洗練3Dテクスチャリングフレームワークを提案します。これは、高解像度でシームレスなテクスチャを生成し、マルチビューの一貫性を重視しています。MVPaintは主に3つの主要モジュールで構成されています。1）同期マルチビュー生成（SMG）。3Dメッシュモデルが与えられると、MVPaintはまずSMGモデルを用いてマルチビュー画像を同時に生成し、観測の欠落により塗られていない部分を含む粗いテクスチャリング結果を導きます。2）空間認識3D補完（S3I）。完全な3Dテクスチャリングを確保するために、未観測の領域に効果的にテクスチャを施すために、S3I手法を導入しています。3）UVリファインメント（UVR）。さらに、MVPaintは、UV空間でのテクスチャ品質を向上させるためにUVRモジュールを使用しています。これは、まずUV空間の超解像度を実行し、次にUV展開によって引き起こされる空間テクスチャリングの不連続性を修正するために空間認識シームスムージングアルゴリズムを実行します。さらに、Objaverseデータセットから選択された高品質の3Dメッシュに基づくObjaverse T2Tベンチマークと、GSOデータセット全体に基づくGSO T2Tベンチマークの2つのT2T評価ベンチマークを確立しています。幅広い実験結果は、MVPaintが既存の最先端の方法を凌駕していることを示しています。特に、MVPaintは、最小限のジャヌス問題と高度に向上したクロスビューの一貫性を持つ高忠実度のテクスチャを生成できることがわかりました。

拡散トランスフォーマーを用いた高速ビデオ生成のための適応キャッシング
Adaptive Caching for Faster Video Generation with Diffusion Transformers

Nov 4

ByKumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie

高品質な動画を時間的に一貫性のあるものに生成することは、特に長い時間スパンにわたっては計算コストが高くなる可能性があります。より最近の拡散トランスフォーマー（DiTs）は、この文脈において重要な進展を遂げてきましたが、より大きなモデルや重い注意機構に依存するため、推論速度が遅くなるという課題をさらに増幅させています。本論文では、ビデオDiTsを加速するためのトレーニングフリーな手法であるAdaptive Caching（AdaCache）を紹介します。この手法は、「すべての動画が同じように生成されるわけではない」という事実に基づいており、つまり、一部の動画は他の動画よりも適切な品質を達成するためにノイズ除去ステップが少なくて済むということを意味しています。これに基づいて、拡散プロセスを介して計算をキャッシュするだけでなく、各ビデオ生成に合わせたキャッシュスケジュールを考案し、品質とレイテンシのトレードオフを最大化します。さらに、Motion Regularization（MoReg）スキームを導入して、AdaCache内でビデオ情報を活用し、基本的に動きの内容に基づいて計算割り当てを制御します。これらのプラグアンドプレイの貢献により、複数のビデオDiTベースラインにわたって、推論速度を著しく向上させることが可能となります（例：Open-Sora 720p - 2sビデオ生成において最大4.7倍）。

GenXD: 任意の3Dおよび4Dシーンの生成
GenXD: Generating Any 3D and 4D Scenes

Nov 4

ByYuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang

2Dビジュアル生成の最近の進展は非常に成功しています。しかし、3Dおよび4D生成は、大規模な4Dデータと効果的なモデル設計の不足により、実世界のアプリケーションで依然として課題が残っています。本論文では、日常生活でよく見られるカメラと物体の動きを活用して、一般的な3Dおよび4D生成を共同で調査することを提案します。コミュニティ内での実世界の4Dデータの不足により、まずビデオからカメラの位置姿勢と物体の動きの強度を取得するデータキュレーションパイプラインを提案します。このパイプラインに基づいて、大規模な実世界の4DシーンデータセットであるCamVid-30Kを導入します。3Dおよび4Dデータを活用して、どんな3Dまたは4Dシーンでも生成できるようにするために、GenXDというフレームワークを開発します。我々は、カメラと物体の動きを分離し、3Dおよび4Dデータの両方からシームレスに学習するためのマルチビュー・テンポラルモジュールを提案します。さらに、GenXDは、様々な条件付きビューをサポートするためにマスクされた潜在条件を使用します。GenXDは、カメラの軌跡に従うビデオや、3D表現に昇華できる一貫した3Dビューを生成することができます。我々は、さまざまな実世界および合成データセットで包括的な評価を行い、3Dおよび4D生成において従来の手法と比較してGenXDの効果と汎用性を示しました。

AutoVFX：自然言語からの物理的にリアルなビデオ編集指示
AutoVFX: Physically Realistic Video Editing from Natural Language Instructions

Nov 4

ByHao-Yu Hsu, Zhi-Hao Lin, Albert Zhai, Hongchi Xia, Shenlong Wang

現代のビジュアルエフェクト（VFX）ソフトウェアは、熟練したアーティストがほぼ何でものイメージを作成できるようにしました。ただし、作成プロセスは引き続き労力を要し、複雑であり、一般ユーザーにはほとんどアクセスできません。本研究では、単一のビデオと自然言語の指示からリアルなダイナミックVFXビデオを自動的に作成するAutoVFXフレームワークを提案します。ニューラルシーンモデリング、LLMベースのコード生成、物理シミュレーションを注意深く統合することで、AutoVFXは物理的に基礎付けられた、写実的な編集効果を提供し、自然言語の指示を直接制御できます。様々なビデオと指示にわたるAutoVFXの有効性を検証するために包括的な実験を実施します。定量的および定性的な結果は、AutoVFXが生成品質、指示の整合性、編集の柔軟性、物理的な妥当性において、他のすべての競合手法を大きく上回ることを示唆しています。

PPLLaVA: プロンプトガイダンスによる多様なビデオシーケンス理解
PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Nov 4

ByRuyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang

過去1年間、ビデオベースの大規模言語モデルの重要な進展が見られました。しかし、短いビデオと長いビデオの両方に対応する統一されたモデルを開発するという課題は未解決のままです。既存のビデオLLMのほとんどは1時間のビデオを処理できず、長いビデオ向けのカスタムメソッドは短いビデオや画像には効果がありません。本論文では、ビデオ内の冗長なコンテンツを問題の中心と位置付けます。この問題に対処するため、トークンの圧縮と指示に注意した視覚特徴の集約を同時に実現する新しいプーリング戦略を提案します。当該モデルはPrompt-guided Pooling LLaVA（略してPPLLaVA）と呼ばれます。具体的には、PPLLaVAには3つの中核コンポーネントが含まれています。ユーザーの指示に関連する視覚情報を抽出するCLIPベースの視覚プロンプトアラインメント、畳み込みスタイルのプーリングを使用して視覚シーケンスを任意のスケールに圧縮するプロンプトガイド付きプーリング、およびビジュアルダイアログで一般的な長いプロンプト向けに設計されたクリップコンテキスト拡張が含まれます。さらに、当該コードベースには、最先端のビデオDirect Preference Optimization（DPO）およびビジュアルインターリーブトレーニングも統合されています。幅広い実験により、当該モデルの性能が検証されました。PPLLaVAは、1024の視覚コンテキストのみで優れたスループットを実現し、ビデオLLMとして画像ベンチマークでより良い結果を達成すると同時に、キャプション生成から多肢選択問題までの様々なビデオベンチマークで最先端の性能を発揮し、秒から時間までのビデオ長に対応しています。コードは以下で入手可能です：https://github.com/farewellthree/PPLLaVA.

スパース化法：より高い活性化を持つ大規模言語モデルに向けてスパーシティ
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

Nov 4

ByYuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

活性化スパース性は、活性化出力内に存在する重要でない要素を排除することで多くの重要な応用に利益をもたらすことを示しています。大規模言語モデル（LLM）に関連する多くの重要なアプリケーションがその対象です。LLM内の活性化スパース性を促進することは深い研究が必要ですが、既存の研究は活性化スパース性と潜在的に影響を与える要因との相関に関する包括的で定量的な研究が不足しています。本論文では、デコーダーのみを持つTransformerベースのLLM内の活性化スパース性の定量的スケーリング特性と影響要因に関する包括的な研究を提案します。具体的には、任意の活性化関数に適用可能な正確でパフォーマンスを考慮した活性化スパース性メトリクスであるPPL-p%スパース性を提案します。広範な実験を通じて、いくつかの重要な現象を発見しました。まず、異なる活性化関数は類似のパフォーマンスを示しますが、トレーニング時のスパース性の傾向は対照的です。活性化比率（すなわち、1-スパース比率）は、SiLU活性化およびReLU活性化されたLLMに対して、トレーニングデータの量に応じて収束する増加べき乗則と減少する対数空間べき乗則として進化します。これらは、ReLUがSiLUよりも活性化関数として効率的であり、より多くのトレーニングデータを活用して活性化スパース性を向上させることができることを示しています。第二に、特定のボトルネックポイント以下では、幅-深さ比率と活性化比率が線形に増加し、固定されたパラメータスケールでより深いアーキテクチャの潜在的な利点を示しています。最後に、類似の幅-深さ比率で、活性化スパース性の限界値がパラメータスケールに弱く変化することを驚くべきことに発見しました。つまり、LLM内の活性化パターンはパラメータスケールに対して鈍感です。これらのLLMにおける活性化スパース性に関する経験則は、LLMをより効率的かつ解釈可能にするための重要な示唆を提供しています。

IGOR：画像目標表現は、具体的な制御ユニットであり、具体的なAIの基盤モデルにおいて重要です。
IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI

Oct 17

ByXiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian

私たちは、Image-GOal Representations（IGOR）を導入し、人間とさまざまなロボット間で統一された意味論的に整合したアクション空間を学習することを目指しています。この統一された潜在的なアクション空間を通じて、IGORは大規模なロボットおよび人間の活動データ間での知識転送を可能にします。初期画像と目標状態との視覚的な変化を潜在的なアクションに圧縮することで、IGORはインターネット規模のビデオデータに対する潜在的なアクションラベルの生成を可能にします。この統一された潜在的なアクション空間により、ロボットと人間の両方によって実行されるさまざまなタスクにわたる基礎ポリシーとワールドモデルのトレーニングが可能となります。私たちは次のことを実証しています：（1）IGORは、人間とロボットの両方に対して意味論的に整合したアクション空間を学習し、物理的相互作用知識を表現するオブジェクトのさまざまな可能な動きを特徴付けます；（2）IGORは、潜在的なアクションモデルとワールドモデルを共同して使用することで、1つのビデオ内のオブジェクトの動きを他のビデオに「移行」させることができ、人間とロボットを越えて移動させることができます；（3）IGORは、基礎ポリシーモデルを介して潜在的なアクションを自然言語と整合させることを学習し、低レベルのポリシーモデルと統合して効果的なロボット制御を実現します。私たちは、IGORが人間からロボットへの知識転送と制御の新たな可能性を開くと信じています。

SALSA: 強化学習におけるより強力な適応のためのスープベースのアラインメント学習
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

Nov 4

ByAtoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh

大規模言語モデル（LLM）の開発において、人間のフィードバックからの強化学習（RLHF）は、モデルを人間の価値観や選好に合わせるために重要です。RLHFは、通常、現在のポリシーと凍結された初期ポリシーとの間のKullback-Leibler（KL）ダイバージェンスを参照として使用し、これはProximal Policy Optimization（PPO）などのポリシー最適化アルゴリズムにペナルティとして追加されます。この制約により、モデルが初期チェックポイントから大きく逸脱することを防ぎますが、報酬の領域の探索を制限し、モデルがより高品質な解を発見する能力を低下させます。その結果、ポリシー最適化は、パラメータ空間の狭い領域に閉じ込められ、最適でないアライメントとパフォーマンスをもたらします。本論文では、SALSA（Soup-based Alignment Learning for Stronger Adaptation）という新しいアプローチを提案し、これらの制約を克服するために、2つの独立した教師ありファインチューニング（SFT）モデルの重み空間の平均化によって、より柔軟で適切な参照モデルを作成します。このモデルスープにより、KLダイバージェンスでの大きな逸脱と、安定性を犠牲にすることなく解の空間の有望な領域の探索が可能となります。このより堅牢な参照モデルを活用することで、SALSAはより良い探索を促進し、より高い報酬を達成し、モデルの堅牢性、分布外汎化、およびパフォーマンスを向上させます。我々は、人気のあるオープンモデル（Llama2-7B、Mistral-7B、Gemma-2B）に対する幅広いベンチマーク（MT-Bench、Arena-Hard、UltraFeedback）での詳細な実験を通じて、SALSAの効果を検証し、LLMにおいてPPOを常に上回る深い探索を促進し、優れたアライメントを達成します。

ダークマターの解読：ファウンデーションモデルにおける希少概念の解釈のための特殊なスパースオートエンコーダ
Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models

Nov 1

ByAashiq Muhamed, Mona Diab, Virginia Smith

基盤モデル（FMs）に関連する潜在的なリスクを理解し軽減するためには、効果的な解釈手法の開発が重要です。Sparse Autoencoders（SAEs）は、FMの表現を分解するための有望なツールとして登場していますが、データ内の希少でありながら重要な概念を捉えるのに苦労しています。私たちは、特化型Sparse Autoencoders（SSAEs）を紹介しました。これは、特定のサブドメインに焦点を当てることで、これらの難解なダークマター的特徴を明らかにすることを目的としています。SSAEsのトレーニングのための実用的な手順を提示し、データ選択のための密な検索と概念のリコールを改善するための傾斜付き経験リスク最小化の利点を示しています。我々のSSAEsの標準的なメトリクス（下流のPerplexityやL_0スパース性など）での評価によると、これらはサブドメインのテール概念を効果的に捉え、汎用SAEsの能力を上回っています。Bias in Biosデータセットのケーススタディでの実用的な有用性を紹介し、SSAEsが誤った性別情報を除去する際に最悪グループの分類精度を12.5％向上させることを示しています。SSAEsは、サブドメインにおけるFMsの内部機能をのぞくための強力な新しいレンズを提供します。

マルチエキスパートプロンプティングは、大規模言語モデルの信頼性、安全性、および有用性を向上させます。
Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models

Nov 1

ByDo Xuan Long, Duong Ngoc Yen, Anh Tuan Luu, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen

私たちは、大規模言語モデル（LLM）の生成を改善するために設計されたExpertPromptingの新しい拡張であるMulti-expert Promptingを提案します（Xuら、2023）。具体的には、複数の専門家をシミュレートし、その回答を集約し、個々の回答および集約された回答の中から最良のものを選択することで、LLMに入力指示を達成させるように誘導します。このプロセスは、Nominal Group Technique（Ven and Delbecq、1974）から派生した7つの慎重に設計されたサブタスクを通じて、一連の思考の中で実行されます。これは、確立された意思決定フレームワークであるNominal Group Technique（Ven and Delbecq、1974）から派生した7つの慎重に設計されたサブタスクを通じて行われます。私たちの評価は、Multi-expert Promptingが、回答の真実性、事実性、情報量、有用性を向上させると同時に、有害性と攻撃性を減少させる点で、ExpertPromptingおよび比較対象のベースラインを大幅に上回ることを示しています。さらに、ChatGPTを使用して、最高のベースラインを8.69%上回ることで、最先端の真実性を達成しています。Multi-expert Promptingは効率的で説明可能であり、多様なシナリオに高度に適応可能であり、手動のプロンプト構築の必要性を排除します。

制約拡散暗黙モデル
Constrained Diffusion Implicit Models

Nov 1

ByVivek Jayaram, Ira Kemelmacher-Shlizerman, Steven M. Seitz, John Thickstun

この論文では、事前学習された拡散モデルを用いてノイズのある線形逆問題を解く効率的なアルゴリズムについて説明します。Denoising diffusion implicit models (DDIM) のパラダイムを拡張し、最終出力に制約を課すために拡散更新を修正したConstrained Diffusion Implicit Models (CDIM) を提案します。ノイズのない逆問題では、CDIM は制約を完全に満たします。ノイジーな場合、CDIM を一般化してノイズの残差分布に対する厳密な制約を満たすようにします。様々なタスクとメトリクスでの実験結果は、CDIM の強力な性能を示し、無制約のDDIM と同様の推論加速度を持ちます。先行する条件付き拡散法よりも10〜50倍高速です。超解像、ノイズ除去、インペインティング、ぼかし除去、3D ポイントクラウド再構築を含む多くの問題に対するアプローチの汎用性を示します。

SwanとArabicMTEB：方言を意識した、アラビア中心の、クロスリンガル、およびクロスカルチャーな埋め込みモデルとベンチマーク
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

Nov 2

ByGagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed

Swanは、アラビア語を中心とした埋め込みモデルファミリーであり、小規模および大規模なユースケースの両方に対応しています。Swanには、ARBERTv2に基づくSwan-Smallと、事前学習されたアラビア語大規模言語モデルであるArMistralに基づくSwan-Largeの2つのバリアントが含まれています。これらのモデルを評価するために、アラビア語MTEBを提案しています。これは、クロスリンガル、マルチダイアレクト、マルチドメイン、マルチカルチャーのアラビア語テキスト埋め込みのパフォーマンスを評価する包括的なベンチマークスイートであり、8つの多様なタスクをカバーし、94のデータセットにわたります。Swan-Largeは最先端の結果を達成し、ほとんどのアラビア語タスクでMultilingual-E5-largeを上回ります。一方、Swan-Smallは一貫してMultilingual-E5 baseを凌駕しています。私たちの包括的な評価は、Swanモデルが方言的にも文化的にも意識しており、さまざまなアラビア領域で優れた性能を発揮し、著しい貨幣的効率を提供していることを示しています。この研究はアラビア語言語モデリングの分野を大きく前進させ、アラビア語自然言語処理の将来の研究や応用に貴重なリソースを提供しています。私たちのモデルとベンチマークは、研究用に公開されます。

大規模なマルチモーダルモデルの長文理解のためのLoRA-文脈適応
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

Nov 2

ByJian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun

大規模多モーダルモデル（LMMs）は、最近、テキスト豊かな画像理解において大きな進歩を遂げていますが、複雑で複数ページ、視覚的に豊かな文書にはまだ苦労しています。文書パーサーを使用した従来の方法は、検索増強生成においてパフォーマンスと効率の制限に苦しんでいますが、すべてのページを直接LMMsに提示すると、特に長文書では効率が損なわれます。本研究では、大規模多モーダルモデル（LMM）をサポートするための新しいフレームワークであるLoRA-Contextualizing Adaptation of Large multimodal models（LoCAL）を提案します。我々は、LMMsが効果的に多モーダルリトリーバーとして機能し、ユーザーの質問に回答するために関連ページを取得することができることを実証します。LoCALは、2つの特定のLMMアダプターで実装されています：証拠ページの検索用と質問回答用のものです。実証結果は、公開ベンチマークで最先端のパフォーマンスを示し、LoCALの効果を実証しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

「BF16を与えよ、さもなくば死を！」？LLM量子化における精度と性能のトレードオフ
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Nov 4

ByEldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh

AndroidLab：Android自律エージェントのトレーニングと体系的なベンチマーキング
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

Oct 31

ByYifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong

ダイナソー：事前定義されたアクションを超える大規模言語エージェント
DynaSaur: Large Language Agents Beyond Predefined Actions

Nov 4

ByDang Nguyen, Viet Dac Lai, Seunghyun Yoon, Ryan A. Rossi, Handong Zhao, Ruiyi Zhang, Puneet Mathur, Nedim Lipka, Yu Wang, Trung Bui, Franck Dernoncourt, Tianyi Zhou

WebRL: 自己進化オンラインカリキュラムを通じたLLM Web エージェントのトレーニング強化学習
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Nov 4

ByZehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong

ビデオ生成とワールドモデルの距離：物理法則の観点から
How Far is Video Generation from World Model: A Physical Law Perspective

Nov 4

ByBingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng

Hunyuan-Large: テンセントによる520億のアクティブパラメータを持つオープンソースのMoEモデル
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Nov 4

トレーニング不要の地域プロンプティングによるディフュージョントランスフォーマー
Training-free Regional Prompting for Diffusion Transformers

Nov 4

ByAnthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang

言語モデルにおける文化的認識の調査：テキストとその先
Survey of Cultural Awareness in Language Models: Text and Beyond

Oct 30

BySiddhesh Pawar, Junyeong Park, Jiho Jin, Arnav Arora, Junho Myung, Srishti Yadav, Faiz Ghifari Haznitrama, Inhwa Song, Alice Oh, Isabelle Augenstein

MVPaint: 3D物体のペイントのための同期されたマルチビュー拡散
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Nov 4

ByWei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan

拡散トランスフォーマーを用いた高速ビデオ生成のための適応キャッシング
Adaptive Caching for Faster Video Generation with Diffusion Transformers

Nov 4

ByKumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie

GenXD: 任意の3Dおよび4Dシーンの生成
GenXD: Generating Any 3D and 4D Scenes

Nov 4

ByYuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang

AutoVFX：自然言語からの物理的にリアルなビデオ編集指示
AutoVFX: Physically Realistic Video Editing from Natural Language Instructions

Nov 4

ByHao-Yu Hsu, Zhi-Hao Lin, Albert Zhai, Hongchi Xia, Shenlong Wang

PPLLaVA: プロンプトガイダンスによる多様なビデオシーケンス理解
PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Nov 4

ByRuyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang

スパース化法：より高い活性化を持つ大規模言語モデルに向けてスパーシティ
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

Nov 4

ByYuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

IGOR：画像目標表現は、具体的な制御ユニットであり、具体的なAIの基盤モデルにおいて重要です。
IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI

Oct 17

ByXiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian

SALSA: 強化学習におけるより強力な適応のためのスープベースのアラインメント学習
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

Nov 4

ByAtoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh

ダークマターの解読：ファウンデーションモデルにおける希少概念の解釈のための特殊なスパースオートエンコーダ
Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models

Nov 1

ByAashiq Muhamed, Mona Diab, Virginia Smith

マルチエキスパートプロンプティングは、大規模言語モデルの信頼性、安全性、および有用性を向上させます。
Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models

Nov 1

ByDo Xuan Long, Duong Ngoc Yen, Anh Tuan Luu, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen

制約拡散暗黙モデル
Constrained Diffusion Implicit Models

Nov 1

ByVivek Jayaram, Ira Kemelmacher-Shlizerman, Steven M. Seitz, John Thickstun

SwanとArabicMTEB：方言を意識した、アラビア中心の、クロスリンガル、およびクロスカルチャーな埋め込みモデルとベンチマーク
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

Nov 2

ByGagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed

大規模なマルチモーダルモデルの長文理解のためのLoRA-文脈適応
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

Nov 2

ByJian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun