HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

26 papers found

WALL-E: ルール学習によるワールドアライメントがワールドモデルベースのLLMエージェントを向上させる
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Oct 9

BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang

大規模言語モデル（LLM）は、モデルベースのエージェントにとって強力なワールドモデルとして直接利用できるでしょうか？LLMの事前知識と指定された環境のダイナミクスとの間にはギャップが存在しますが、当研究では、LLMを展開された環境と整合させることでこれらのギャップを埋めることができ、そのような「ワールドアライメント」はLLM上でのルール学習によって効率的に達成できることを明らかにしました。LLMの豊富な事前知識を考慮すると、指定された環境のダイナミクスとLLMの予測を整合させるのにわずかな追加ルールが十分です。このため、我々は、LLM上でルールを勾配なしに学習するためのニューロシンボリックアプローチを提案します。エージェントが探索した軌跡とワールドモデルの予測との比較に基づいてルールを誘導し、更新し、剪定します。得られるワールドモデルは、LLMと学習されたルールから構成されます。当社の具現化されたLLMエージェント「WALL-E」は、モデル予測制御（MPC）に基づいて構築されています。正確なワールドモデルに基づいて先読みアクションを最適化することで、MPCは探索と学習の効率を大幅に向上させます。既存のLLMエージェントと比較して、WALL-Eの推論には、LLM入力に含まれる冗長なバッファード軌跡ではなく、わずかな主要ルールだけが必要です。MinecraftとALFWorldのオープンワールドの課題では、WALL-Eは既存の手法よりも高い成功率を達成し、再計画時間と推論に使用されるトークンの数を削減します。Minecraftでは、WALL-Eは成功率でベースラインを15-30%上回り、再計画ラウンドが8-20回少なく、トークンの数が60-80%しか必要ありません。ALFWorldでは、その成功率はたった6回の反復の後に新記録の95%に急上昇します。

MathCoder2: モデルによる数学的コードの翻訳を継続的に事前学習することで、より優れた数学的推論を実現
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Oct 10

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li

コードは、その精度と正確性により、大規模言語モデルの数学的推論能力を向上させるのに効果的であることが示されています。以前の研究では、数学的事前トレーニングを継続的に行う際には、主にエンジニアリング、機械学習、信号処理、モジュールテストなどの分野向けに設計された数学関連のパッケージを使用するコードが含まれていましたが、直接的に数学的推論に焦点を当てたものではありませんでした。本論文では、数学的コードとそれに付随する推論手順を生成するための新しい手法を紹介します。我々のアプローチは、数学関連のウェブデータ、数学的パッケージを使用したコード、数学の教科書、合成データを組み込むことで、高品質な数学的事前トレーニングデータセットを構築することから始まります。次に、以前に収集したデータセットからLaTeX式、式に必要な条件、および式の結果を抽出して推論手順を構築します。この抽出された情報に基づいて、数学的推論プロセスを正確に捉えるための対応するコードを生成します。生成されたコードを各推論手順に追加することで、自然言語の推論手順とそれに対応するコードからなるデータが得られます。このデータを元のデータセットと組み合わせることで、19.2Bトークンの高性能数学事前トレーニングコーパス「MathCode-Pile」が生成されます。このコーパスを使用していくつかの人気ベースモデルをトレーニングすると、彼らの数学的能力が著しく向上し、MathCoder2モデルファミリーが作成されます。すべてのデータ処理とトレーニングコードはオープンソースで公開されており、データ収集およびトレーニングパイプライン全体の透明性と再現性を確保しています。コードは https://github.com/mathllm/MathCoder2 で公開されています。

MLLMをリトリーバーとして: 具現エージェントのためのマルチモーダル検索のインタラクティブな学習
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Oct 4

ByJunpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu

MLLM エージェントは、多様なモーダルのタスクにおいて複雑な能力を示し、タスクに関連する軌跡データを取得することができます。しかし、現在の取得方法は、主に軌跡内のテキストやビジュアルの手掛かりの表層レベルの類似性に焦点を当てており、その特定のタスクに対する効果を無視しています。この問題に対処するため、我々は新しい手法、MART（MLLM as ReTriever）を提案します。この手法は、相互作用データを活用して MLLM 取得器を好みの学習に基づいて微調整し、取得器が軌跡の効果を十分に考慮し、未知のタスクに対して優先順位を付けるようにします。また、Trajectory Abstraction を導入し、MLLM の要約能力を活用して、トークン数を減らしつつ主要な情報を保持し、エージェントが軌跡内のマイルストーンをよりよく理解できるようにします。さまざまな環境での実験結果は、当社の手法がベースライン手法と比較して未知のシーンにおけるタスク成功率を大幅に向上させることを示しています。この研究は、一般的な目的の MLLM を取得器として微調整し、軌跡の効果を評価することで、エンボディドエージェントにおける多様なモーダルの取得の新たなパラダイムを提示しています。すべてのベンチマークタスクセットおよびアクションおよび観測空間のシミュレータコードの変更は公開されます。

PrefixQuant：LLMにおいて、静的量子化が動的量子化をプレフィックス付きの外れ値を通じて上回る
PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

Oct 7

ByMengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo

大規模言語モデル（LLM）を展開するためには、量子化が必要であり、メモリ効率と推論速度を向上させます。既存の活性化量子化手法は主にチャネル単位の外れ値に対処しており、しばしばトークン単位の外れ値を無視しており、結果としてコストのかかるトークン単位の動的量子化に依存しています。これを解決するために、我々はPrefixQuantという新しい技術を導入し、再トレーニングを必要とせずにオフラインで外れ値トークンを分離します。具体的には、PrefixQuantは高頻度の外れ値トークンを特定し、それらをKVキャッシュにプレフィックスして、推論時に外れ値トークンの生成を防ぎ、量子化を簡素化します。PrefixQuantは、高価なトークン単位の動的量子化を上回る効率的なテンソル単位の静的量子化を可能にする最初の手法であると私たちは認識しています。例えば、W4A4KV4（4ビットの重み、4ビットの活性化、4ビットのKVキャッシュ）Llama-3-8Bでは、PrefixQuantを使用したテンソル単位の静的量子化により、5つの常識的な推論タスクで7.43のWikiText2難解さと71.08%の平均精度を達成し、QuaRotなどの従来のトークン単位の動的量子化手法を上回りました（難解さが0.98改善し、精度が+5.98ポイント向上）。さらに、PrefixQuantを使用したW4A4量子化モデルの推論速度は、FP16モデルより1.60倍から2.81倍速く、QuaRotモデルより1.2倍から1.3倍速いです。私たちのコードはhttps://github.com/ChenMnZ/PrefixQuantで入手可能です。

エージェンティックワークフロー生成のベンチマーキング
Benchmarking Agentic Workflow Generation

Oct 10

ByShuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

大規模言語モデル（LLM）は、幅広いタスクを処理する卓越した能力を持つことから、推論や計画タスクの解決において重要な進展をもたらしてきました。複雑な問題を実行可能なワークフローに分解することがこのプロセスにおいて重要なステップです。既存のワークフロー評価フレームワークは、全体的なパフォーマンスに焦点を当てるか、制限されたシナリオカバレッジ、単純化されたワークフロー構造、緩い評価基準などの制約を抱えています。このため、私たちは、多面的なシナリオと入り組んだグラフワークフロー構造を備えた統一されたワークフロー生成ベンチマークであるWorFBenchを紹介します。さらに、LLMエージェントのワークフロー生成能力を正確に定量化するために、部分系列および部分グラフマッチングアルゴリズムを利用した体系的な評価プロトコルであるWorFEvalを提案します。さまざまな種類のLLMについて包括的な評価を行った結果、LLMエージェントのシーケンス計画能力とグラフ計画能力の間に明確なギャップが存在することが分かりました。GPT-4でも約15％のギャップが見られます。さらに、2つのオープンソースモデルを訓練し、保持されたタスクでの汎化能力を評価しました。さらに、生成されたワークフローが下流タスクを向上させ、推論中により少ない時間で優れたパフォーマンスを達成できることが観察されました。コードとデータセットはhttps://github.com/zjunlp/WorFBenchで入手可能です。

エージェントS：人間のようにコンピュータを使用するオープンなエージェンティックフレームワーク
Agent S: An Open Agentic Framework that Uses Computers Like a Human

Oct 10

BySaaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang

オープンなエージェントフレームワークであるエージェントSを紹介します。このフレームワークは、グラフィカルユーザーインターフェース（GUI）を介してコンピュータとの自律的な対話を可能にし、複雑で多段階のタスクを自動化することを目的としています。エージェントSは、コンピュータタスクの自動化における3つの主要な課題に取り組んでいます：特定のドメイン知識の取得、長期のタスク計画、および動的で一様でないインターフェースの処理。このため、エージェントSは、外部知識検索と内部経験取得から学習する経験拡張型階層的計画を導入し、効率的なタスク計画とサブタスク実行を促進します。さらに、マルチモーダル大規模言語モデル（MLLMs）に基づくGUIエージェントの推論および制御能力をより適切に引き出すために、エージェントコンピュータインターフェース（ACI）を採用しています。OSWorldベンチマークでの評価では、エージェントSが成功率でベースラインを9.37％上回り（83.6％の相対改善）、新しい最先端を達成しています。包括的な分析は、個々のコンポーネントの効果を強調し、将来の改善のための示唆を提供しています。さらに、エージェントSは、新しくリリースされたWindowsAgentArenaベンチマークで異なるオペレーティングシステムに対する広範な汎用性を示しています。コードはhttps://github.com/simular-ai/Agent-Sで入手可能です。

DART: スケーラブルなテキストから画像へのノイズ除去自己回帰トランスフォーマー
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Oct 10

ByJiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai

拡散モデルは、視覚生成における主要なアプローチとなっています。これらは、入力に徐々にノイズを加えるマルコフ過程をノイズ除去することで訓練されます。我々は、マルコフ性質がモデルが生成軌跡を十分に活用する能力を制限し、訓練および推論中の効率を低下させると主張します。本論文では、非マルコフなフレームワーク内で自己回帰（AR）と拡散を統合する、トランスフォーマーベースのモデルであるDARTを提案します。DARTは、標準言語モデルと同じアーキテクチャを持つARモデルを使用して、画像パッチを空間的およびスペクトル的に反復的にノイズ除去します。DARTは画像の量子化に依存せず、柔軟性を維持しながらより効果的な画像モデリングを実現します。さらに、DARTはテキストと画像データの両方を統一されたモデルでシームレスに訓練します。当社の手法は、クラス条件付きおよびテキストから画像への生成タスクで競争力のあるパフォーマンスを示し、従来の拡散モデルに対するスケーラブルで効率的な代替手段を提供します。この統一されたフレームワークを通じて、DARTはスケーラブルで高品質な画像合成の新たな基準を確立します。

DICE: 多項分布拡散とマスク生成モデルのための制御可能な編集を可能にする離散逆変換
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

Oct 10

ByXiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas

離散拡散モデルは、画像生成やマスク言語モデリングなどのタスクで成功を収めてきましたが、制御されたコンテンツ編集においては制約があります。私たちは、離散拡散モデル（多項式拡散やマスク生成モデルを含む）に対する正確な逆操作を可能にする初めてのアプローチであるDICE（Discrete Inversion for Controllable Editing）を紹介します。逆拡散プロセス中にノイズシーケンスとマスキングパターンを記録することで、DICEは事前定義されたマスクや注意の操作を必要とせずに、離散データの正確な再構築と柔軟な編集を実現します。VQ-Diffusion、Paella、RoBERTaなどのモデルでDICEの効果を実証し、画像およびテキスト領域の両方で評価します。私たちの結果は、DICEが高いデータの忠実度を維持しながら編集能力を向上させ、離散空間における細かいコンテンツ操作の新たな機会を提供していることを示しています。プロジェクトのウェブページはこちらをご覧ください：https://hexiaoxiao-cs.github.io/DICE/.

修正拡散：修正フローにおいては、まっすぐさは必要ない
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

Oct 9

ByFu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li

拡散モデルは視覚生成を大幅に向上させましたが、生成速度が遅いため、生成的ODEの解を求める計算上の負荷が大きいという問題があります。広く認識されている解決策であるRectified flowは、ODEパスをまっすぐにすることで生成速度を向上させます。その主要な構成要素は次のとおりです：1）流れ合わせの拡散形式の使用、2）太字のv-予測の利用、および3）整流（別名：リフロー）の実行。本論文では、整流の成功は、事前学習された拡散モデルを使用してノイズとサンプルの対を取得し、これらの対による再学習を行うことに主にあると主張します。このため、構成要素1）および2）は不要です。さらに、整流のための本質的なトレーニング目標はまっすぐさではなく、流れ合わせモデルの特定のケースであることを強調します。より重要なトレーニング目標は、DDPMやSub-VPのようなモデルでは本質的に曲がっている第1近似ODEパスを達成することです。この洞察を基に、Rectified Diffusionを提案し、整流の設計空間と適用範囲を拡大し、流れ合わせモデルに制限されるのではなく、より広い拡散モデルのカテゴリを包括するようにします。我々はStable Diffusion v1-5およびStable Diffusion XLで当該手法を検証します。我々の手法は、Rectified flowベースの以前の作業（例：InstaFlow）のトレーニング手順を大幅に簡素化するだけでなく、トレーニングコストをさらに低く抑えながら優れた性能を達成します。我々のコードはhttps://github.com/G-U-N/Rectified-Diffusionで入手可能です。

プログレッシブ・オートレグレッシブ・ビデオ拡散モデル
Progressive Autoregressive Video Diffusion Models

Oct 10

ByDesai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou

現在の最先端のビデオ拡散モデルは、高品質のビデオを生成する際に顕著な結果を示しています。ただし、トレーニング中の計算制限のため、通常は約10秒または240フレーム程度の短いビデオクリップしか生成できません。本研究では、既存のモデルをアーキテクチャを変更せずに自己回帰的ビデオ拡散モデルに自然に拡張できることを示します。私たちの主要なアイデアは、潜在フレームに単一のノイズレベルではなく、段階的に増加するノイズレベルを割り当てることで、潜在変数間の微細な条件と注目ウィンドウ間の大きな重複を可能にすることです。このような段階的ビデオノイズ除去により、モデルは画質の低下や急激なシーンの変化なしにビデオフレームを自己回帰的に生成できます。私たちは、1分（24 FPSで1440フレーム）の長いビデオ生成において最先端の結果を提示します。本論文のビデオは、https://desaixie.github.io/pa-vdm/ で入手可能です。

GLOV: 視覚のための暗黙の最適化子としてのガイド付き大規模言語モデル
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Oct 8

ByM. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass

本研究では、大規模言語モデル（LLM）が視覚言語モデル（VLM）の暗黙の最適化器として機能するための新しい手法（GLOV）を提案します。GLOVは、LLMに下流タスクの説明をメタプロンプトし、適切なVLMプロンプト（例：CLIPを使用したゼロショット分類など）を問い合わせます。これらのプロンプトは、フィットネス関数を介して得られた純度測定に従ってランク付けされます。各最適化ステップでは、ランク付けされたプロンプトがコンテキスト内の例（およびその精度）として提供され、LLMに下流VLMが好むテキストプロンプトの知識を与えます。さらに、各最適化ステップで、LLMの生成プロセスを明示的に誘導するために、LLMによって見つかった前の最適化ステップでの正解と不正解の解の埋め込みからのオフセット差ベクトルを次世代ステップのためのネットワークの中間層に特に追加します。このオフセットベクトルは、LLMの生成を下流VLMが好む言語の方向に誘導し、下流の視覚タスクでの性能を向上させます。私たちは、16の異なるデータセットでGLOVを評価し、デュアルエンコーダー（例：CLIP）およびエンコーダーデコーダー（例：LLaVa）モデルの2つのファミリーを使用して、発見された解がこれらのモデルに対して最大15.0％および57.5％（平均で3.8％および21.6％）の認識性能を向上させることを示しました。

大規模言語およびビジョンモデルの興味深い特性
Intriguing Properties of Large Language and Vision Models

Oct 7

ByYoung-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi

最近、大規模言語およびビジョンモデル（LLVMs）は、知覚と認知能力を必要とする幅広いタスクにおいて顕著な汎化性能を発揮し、注目と開発の努力を受けています。彼らの成功の鍵となる要因は、ビジョンエンコーダ、プロジェクタ、そして大規模言語モデル（LLM）から構成されるシンプルなアーキテクチャです。高度な推論タスクでの成果にもかかわらず、基本的な知覚関連タスク（例：MMVP）でのパフォーマンスは驚くほど低いままです。この相違は、LLVMが画像をどのように認識し、ビジョンエンコーダの利点をどのように活用しているかという問題を提起しています。この問題に取り組むため、我々はいくつかの側面に関してこの問いに系統的に調査し、順列不変性、頑健性、数学的推論、アラインメントの保持と重要性などを評価することで、最も一般的なLLVMファミリー（すなわちLLaVA）を10の評価ベンチマークで評価しました。我々の包括的な実験により、現在のLLVMのいくつかの興味深い特性が明らかになりました：（1）視覚パッチの順序がランダムに置換された場合でも、彼らは画像をグローバルに内部処理する；（2）時折、詳細な数値情報を完全に認識することなく数学問題を解決することができる；（3）クロスモーダルアラインメントは複雑な推論タスクに過学習しており、それにより、彼らはビジョンエンコーダの元々の知覚能力の一部を失ってしまう；（4）下位層の表現空間（25％未満）は、パフォーマンスを決定し視覚理解を向上させる上で重要な役割を果たしています。最後に、上記の観察に基づき、より優れたLLVMの構築とより厳しい評価ベンチマークの構築に向けた潜在的な将来方向を提案しています。

LLMの自己改善に向けたMCTSを通じて: ステップバイズ知識を活用したカリキュラム優先学習
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

Oct 9

ByXiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu

モンテカルロ木探索（MCTS）は、最近、LLMの推論能力を向上させるための強力な手法として台頭しています。SFTやDPOなどの手法により、LLMはMCTSから高品質な振る舞いを抽出し、その推論パフォーマンスを向上させることが可能となりました。ただし、既存の蒸留手法は、MCTSによって生成された豊富な軌跡情報を不十分に活用しており、LLMの推論能力向上の可能性が制限されています。本論文では、LLMがMCTSの振る舞い蒸留を通じて自己改善することを可能にする新しいペアワイズトレーニングフレームワークであるAlphaLLM-CPLを提案します。AlphaLLM-CPLは、MCTSの軌跡を効率的に活用するための2つの主要な革新を行います：（1）AlphaLLM-CPLは、探索木内で同じ親を共有する子ノードから段階的な軌跡ペアを構築し、より効果的なMCTS振る舞い蒸留のための段階レベルの情報を提供します。（2）AlphaLLM-CPLは、カリキュラム優先学習を導入し、オーバーフィッティングを緩和し、重要な学習ステップを優先し、各オフライントレーニングエポックで軌跡ペアのトレーニングシーケンスを動的に調整します。数学的推論タスクにおける実験結果は、AlphaLLM-CPLが従来のMCTS振る舞い蒸留手法を大幅に上回り、LLMの推論能力を著しく向上させることを示しています。

すべての場所ですべてを一度に：LLMsは重ね合わせで複数のタスクをコンテキスト内で学習できます
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Oct 8

ByZheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos

大規模言語モデル（LLM）は、コンテキスト内学習（ICL）能力において顕著な成果を示しています。本研究では、ICLに関連する驚くべき現象を探求します。LLMは、1回の推論呼び出し中に複数の計算的に異なるICLタスクを同時に実行できる能力、つまり「タスク重畳」と呼ぶこの能力を持つことができます。我々は、この現象の実証的証拠をさまざまなLLMファミリーやスケールで提供し、この現象がモデルを1つずつコンテキスト内で学習させても発生することを示します。我々は、この能力がトランスフォーマーの表現力の範囲内であるという理論的説明を提供します。また、LLMがタスクベクトルをタスク重畳中に内部的にどのように構成するかを探求します。さらに、より大きなモデルは、より多くのICLタスクを並行して解決し、出力分布をより適切にキャリブレートできることを示します。我々の研究結果は、LLMの潜在的な能力に関する洞察を提供し、"LLMはシミュレータの重畳"の観点をさらに裏付け、同時タスク実行を可能にするメカニズムについて疑問を投げかけます。

事前学習されたVLMのマルチモーダル能力を維持し、視覚言語の合成性を向上させる
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

Oct 7

ByYoungtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim

本論文では、事前学習されたビジョンと言語のモデル（VLMs）における合成理解を向上させる新しい手法を提案します。従来のファインチューニング手法は、しばしば合成的推論を向上させる一方で、ゼロショットのマルチモーダルタスクのパフォーマンスを損なうことがあります。これは、主に画像とテキストのグローバルなハードネガティブ（HN）損失の使用によるもので、これにより画像とテキストのグローバルな表現が対照されます。このグローバルなHN損失は、元のテキストに非常に類似したHNテキストを押しやり、モデルのマルチモーダル表現を損ないます。この制限を克服するために、私たちはFine-grained Selective Calibrated CLIP（FSC-CLIP）を提案します。これは、ローカルなハードネガティブ損失と選択的なキャリブレーション正則化を統合しています。これらの革新は、モデルの表現的整合性を保ちながら、細かい粒度のネガティブな監督を提供します。合成性とマルチモーダルタスクの多様なベンチマークを通じた幅広い評価により、FSC-CLIPは最先端のモデルと同等の合成性を達成するだけでなく、強力なマルチモーダル能力を維持します。コードは以下で入手可能です：https://github.com/ytaek-oh/fsc-clip。

SFTMix: Mixup レシピを用いた言語モデルインストラクションチューニングの向上
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

Oct 7

ByYuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao

大規模言語モデル（LLM）に所望の振る舞いを誘導するためには、インタラクション駆動型タスク向けの指示チューニング段階では、通常、次トークン予測（NTP）損失を使用してLLMを指示-応答ペアでトレーニングします。指示チューニングのパフォーマンスを向上させることを目指した以前の研究では、通常、高品質の教師付きファインチューニング（SFT）データセットの必要性が強調されており、これには通常、プロプライエタリLLMを使用した高価なデータフィルタリングや人間の注釈付け者による労働集約的なデータ生成が含まれます。しかし、これらのアプローチはデータセットの固有の特性を十分に活用しておらず、高い計算コストや労働コストをもたらし、それによりスケーラビリティとパフォーマンスの向上が制限されます。本論文では、従来のNTPパラダイムを超えた指示チューニングのパフォーマンスを向上させるために、適切に整備されたデータセットを必要とせずに、SFTMixという新しい手法を提案します。LLMが意味表現空間全体で信頼度にばらつきがあることを観察し、異なる信頼度レベルを持つ例が指示チューニングプロセス中に異なる役割を果たすべきであると主張します。この洞察に基づき、SFTMixは、トレーニングダイナミクスを活用して異なる信頼度レベルを持つ例を特定し、Mixupベースの正則化を適用して、自信のある例での過学習を緩和しつつ、比較的自信のない例での学習を改善するための監督信号を伝播させます。このアプローチにより、SFTMixは、幅広い指示遵守および医療領域固有のSFTタスクにわたって、NTPを大幅に上回るパフォーマンスを発揮し、多様なLLMファミリーに適応し、任意のサイズのデータセットにスケーラビリティを示します。包括的な削除研究は、SFTMixの設計選択の堅牢性をさらに検証し、広範な自然言語処理アプリケーションにおいて、異なるLLMおよびデータセット全体でパフォーマンスを一貫して向上させる柔軟性を強調しています。

オプティマ：LLMベースのマルチエージェントシステムの効果と効率の最適化
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

Oct 10

ByWeize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun

大規模言語モデル（LLM）ベースのマルチエージェントシステム（MAS）は、協力的な問題解決において顕著な潜在能力を示していますが、依然として重要な課題に直面しています：低い通信効率、スケーラビリティの低さ、および効果的なパラメータ更新最適化手法の不足です。本研究では、これらの問題に取り組む新しい枠組みであるOptimaを提案します。Optimaは、LLMトレーニングを通じてLLMベースのMASにおいて通信効率とタスク効果を著しく向上させることでこれらの問題に対処します。Optimaは、タスクのパフォーマンス、トークン効率、および通信の可読性をバランスする報酬関数を用いた反復的な生成、ランク付け、選択、トレーニングのパラダイムを採用しています。我々は、Supervised Fine-Tuning、Direct Preference OptimizationなどのさまざまなRLアルゴリズムを探究し、それらの有効性と効率性のトレードオフに関する洞察を提供します。DPOデータ生成のためにMonte Carlo Tree Searchに着想を得た手法を統合し、会話のターンを木のノードとして扱い、多様な相互作用経路を探索します。情報非対称な質問応答や複雑な推論を含む一般的なマルチエージェントタスクで評価した結果、Optimaは、情報交換が多いタスクにおいて最大2.8倍のパフォーマンス向上を実現し、トークン数が10％未満であることを示しました。さらに、Optimaの効率的な利点は、推論コンピュートをより効果的に活用する新たな可能性を切り開き、改善された推論時間のスケーリング則につながります。LLMベースのMASにおける基本的な課題に取り組むことで、Optimaはスケーラブルで効率的かつ効果的なMASへの潜在性を示しています。

カーネルのスケーリングアップ：ConvNetsにおける大規模カーネル設計に向けて普遍的表現へ
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Oct 10

ByYiyuan Zhang, Xiaohan Ding, Xiangyu Yue

本論文では、現代の畳み込みニューラルネットワーク（ConvNets）の設計において大規模な畳み込みカーネルのパラダイムを提案しています。複数の小さなカーネルを積み重ねる代わりに、数個の大規模なカーネルを使用することが優れた設計戦略であることを確立しています。本研究では、大規模なカーネルを用いたConvNetsのための効率とパフォーマンスを最適化するための設計ガイドラインを導入しています。UniRepLKNetアーキテクチャを提案し、大規模なカーネルConvNets向けに特別に作成された体系的なアーキテクチャ設計原則を強調し、深い層の積み重ねを必要とせずに広範囲な空間情報を捉える能力を特に強調しています。これにより、ImageNetの精度が88.0％、ADE20K mIoUが55.6％、COCOボックスAPが56.4％という数値を達成し、さらに時系列予測、音声、ポイントクラウド、ビデオ認識などのさまざまなモダリティにおいて印象的な拡張性とパフォーマンスを示します。これらの結果は、視覚トランスフォーマーと比較して高速な推論速度を持つ大規模なカーネルConvNetsの普遍的なモデリング能力を示しています。我々の調査結果は、大規模なカーネルConvNetsがより大きな効果的な受容野とより高い形状バイアスを持ち、より小さなカーネルCNNの典型的なテクスチャバイアスから離れていることを明らかにしています。すべてのコードとモデルはhttps://github.com/AILab-CVC/UniRepLKNetで公開されており、コミュニティ内でのさらなる研究と開発を促進しています。

自動LLMベンチマークの不正行為：ヌルモデルが高い勝率を達成
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Oct 9

ByXiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin

自動LLMベンチマーク、例えばAlpacaEval 2.0、Arena-Hard-Auto、およびMT-Benchなどは、人間の評価と比較してコスト効率が高くスケーラブルであるため、言語モデルの評価において人気があります。これらのベンチマークで高い勝率を達成することは、新しくリリースされた言語モデルの宣伝効果を大幅に向上させることができます。この宣伝上の利点は、出力長やスタイルを操作して勝率を操作するなどのトリックを促す可能性がありますが、出力長を制御しスタイルを分離するためのいくつかのメカニズムが開発されているにもかかわらず、ゲーム性を低減させるために。それにもかかわらず、私たちは、入力の指示に関係ない一定の応答を常に出力する「ヌルモデル」でさえ、自動ベンチマークをだまし、トップランクの勝率を達成できることを示します：AlpacaEval 2.0で86.5％のLC勝率、Arena-Hard-Autoで83.0のスコア、MT-Benchで9.55のスコア。さらに、作成された不正行為の出力は移植可能であり、これらのベンチマークの指示（例：AlpacaEval 2.0の805サンプル）がプライベートでアクセスできないと仮定しています。私たちの実験は主に概念実証ですが、敵対者はLLMを使用してより認識しにくい不正行為の応答を生成し、高い勝率と宣伝効果を不正に利用する可能性があります。私たちの発見は、信頼性のある自動ベンチマークのための不正防止メカニズムの開発を求めています。コードは以下で入手可能です：https://github.com/sail-sg/Cheating-LLM-Benchmarks。

繰り返しの例による新興性質
Emergent properties with repeated examples

Oct 9

ByFrançois Charton, Julia Kempe

我々は、アルゴリズムによって生成されたデータセットを用いて、トランスフォーマーの性能を訓練例の反復回数の関数として研究しています。最大公約数、モジュラー乗算、行列固有値の3つの数学問題において、一定の訓練ステップ数に対して、反復使用される例のセットよりも一度だけ使用される例のセットの方が性能が優れていることを示しています。また、2つのセットのトレーニング、つまり、一部の例を繰り返し使用する小さなランダムサブセットと、残りのトレーニングセットで通常のサンプリングを行うことが、より速い学習と優れた性能をもたらすことを示しています。これにより、反復の利点がデータの多様性の利点を上回ることが示されています。これらのデータセットと問題は、ディープラーニングにおける一般化と記憶の相互作用について、まだ十分に理解されていない点を明らかにするための制御された環境を提供しています。

大規模言語モデルの整合性のための加速された選好最適化
Accelerated Preference Optimization for Large Language Model Alignment

Oct 8

ByJiafan He, Huizhuo Yuan, Quanquan Gu

人間のフィードバックからの強化学習（RLHF）は、大規模言語モデル（LLMs）を人間の好みと整合させるための重要なツールとして台頭しています。最も人気のあるアプローチの1つである直接選好最適化（DPO）は、RLHFを報酬関数を明示的に推定せずにポリシー最適化問題として定式化します。通常、報酬関数をまず推定し、次にポリシーをプロキシマルポリシー最適化（PPO）を介して最適化する2段階アプローチの安定性と効率性の問題を克服します。RLHFは基本的に最適化問題であり、理論的にも経験的にも最適化を加速させることができるモメンタム技術がよく知られているため、自然な疑問が生じます。RLHFはモメンタムによって加速することができるのか？本論文はこの問いに肯定的に答えます。具体的には、反復的選好最適化法がプロキシマル点法と見なせることをまず示します。この観察に基づいて、多くの既存の選好最適化アルゴリズムを統一し、Nesterovのモメンタム技術を用いてLLMsの整合化を加速する一般的な加速選好最適化（APO）フレームワークを提案します。理論的には、APOがDPOやセルフプレイ選好最適化（SPPO）を含む標準的な反復選好最適化法よりも速い収束率を達成できることを示します。経験的には、APOがAlpacaEval 2.0ベンチマークでのRLHFにおいてDPO、反復DPO、および他の強力なベースラインよりも優れていることを示します。

MotionGS：変形可能な3Dガウスへの明示的なモーションガイダンスの探索
MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting

Oct 10

ByRuijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang

3Dビジョンの分野における長期的な課題である動的シーン再構築。最近、3Dガウススプラッティングの登場により、この問題に新たな示唆が与えられました。静的な3Dガウスを動的シーンに迅速に拡張する後続の取り組みはありますが、オブジェクトの動きに明示的な制約が欠如しており、最適化の困難さや性能の低下が生じています。上記の問題に対処するために、私たちはMotionGSと呼ばれる新しい変形可能な3Dガウススプラッティングフレームワークを提案します。このフレームワークは、3Dガウスの変形を導くために明示的な動きの事前情報を探求します。具体的には、最初に光流をカメラフローとモーションフローに分離する光流分離モジュールを導入し、それぞれカメラの移動とオブジェクトの動きに対応させます。その後、モーションフローは3Dガウスの変形を効果的に制約し、動的オブジェクトの動きをシミュレートします。さらに、カメラポーズの改良モジュールが提案され、3Dガウスとカメラポーズを交互に最適化することで、不正確なカメラポーズの影響を軽減します。単眼動的シーンでの幅広い実験により、MotionGSが最先端の手法を凌駕し、質的および量的な結果の両方で著しい優位性を示すことが検証されました。プロジェクトページ：https://ruijiezhu94.github.io/MotionGS_page

ベクトル-ICL: 連続ベクトル表現を用いた文脈学習
Vector-ICL: In-context Learning with Continuous Vector Representations

Oct 8

ByYufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao

大規模言語モデル（LLMs）は、テキストデータにおける文脈学習（ICL）能力において顕著な成果を示しています。我々は、これらの能力が、ブラックボックスの事前学習エンコーダから得られた多様なドメインの連続ベクトルにも拡張可能かどうかを探究します。軽量なプロジェクタを介して入力データをLLMの埋め込み空間に整列させることで、LLMsがこれらの射影されたベクトルを効果的に処理し、学習できることを観察しました。これをVector-ICLと呼びます。特に、一般的な言語モデリング目的でプロジェクタを事前学習することが、Vector-ICLを可能にし、タスク固有のファインチューニングはさらなるパフォーマンス向上につながります。様々なタスクやモダリティを対象とした実験において、テキスト再構築、数値関数回帰、テキスト分類、要約、分子キャプショニング、時系列分類、グラフ分類、fMRIデコーディングなどで、Vector-ICLはしばしば少数ショットICLや特定ドメインのモデルや調整を上回ることがあります。さらに、分析や事例研究を行い、LLMsが従来のトークンベースのパラダイムを超えたベクトル表現を処理する可能性を示しています。

データアドバイザー：大規模言語モデルの安全整合のためのダイナミックデータキュレーション
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

Oct 7

ByFei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan

大規模言語モデル（LLM）の整合性において、データは重要な要素です。最近の研究では、LLMを使用して効率的なデータ収集を探る試みが行われています。しかし、LLMによって生成されるデータはしばしば質の問題に直面し、表現されていない側面や質の低いデータポイントが存在します。これらの問題に対処するために、我々は「データアドバイザー」を提案します。これは、望ましいデータセットの特性を考慮したデータ生成のための強化されたLLMベースの手法です。予め定義された原則のセットを元に、データアドバイザーは生成されたデータの状況を監視し、現在のデータセットの弱点を特定し、次のデータ生成のイテレーションに応じてアドバイスを提供します。データアドバイザーは既存のデータ生成方法に容易に統合でき、データの品質とカバレッジを向上させることができます。三つの代表的なLLM（Mistral、Llama2、Falcon）の安全整合性に関する実験は、データアドバイザーのモデルの安全性を向上させる効果を示し、様々な細かい安全性の問題に対してモデルの有用性を犠牲にすることなく安全性を高めることができることを示しています。

LPZero: ゼロからのゼロコストプロキシ検索言語モデル
LPZero: Language Model Zero-cost Proxy Search from Zero

Oct 7

ByPeijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu

優れた性能にもかかわらず、ニューラルアーキテクチャサーチ（NAS）は計算量が膨大であると批判されています。最近、ゼロショットNASが登場し、ゼロコスト（ZC）プロキシを活用することで計算要件を著しく削減する有望なアプローチとなっています。しかしながら、既存のZCプロキシは専門家の知識に大きく依存し、大きな試行錯誤コストがかかります。特に自然言語処理（NLP）のタスクでは、ほとんどの既存のZCプロキシが素朴なベースラインの性能を上回ることができません。これらの課題に対処するために、我々はLPZeroという新しいフレームワークを導入します。これは、さまざまなタスクのために自動的にZCプロキシを設計する初めての手法であり、人間が設計したプロキシよりも高いランキングの一貫性を実現しています。具体的には、ZCプロキシを象徴的な方程式としてモデル化し、既存のZCプロキシを含む統一されたプロキシ検索空間を組み込んでいます。これらは、あらかじめ定義された数学記号のセットで構成されています。最適なZCプロキシを探索するために、LPZeroは遺伝プログラミングを組み込んで最適な象徴的な構成を見つけます。我々は、プロキシの劣化のリスクを軽減するために、ルールベースの剪定戦略（RPS）を提案しています。FlexiBERT、GPT-2、LLaMA-7Bに関する幅広い実験は、LPZeroの優れたランキング能力と現行手法と比較してダウンストリームタスクでのパフォーマンスを示しています。

Zebra: パラメトリックPDEの解決のためのインコンテキストおよび生成プリトレーニング
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs

Oct 4

ByLouis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari

時間依存パラメトリック偏微分方程式（PDE）を解くことは困難であり、係数、強制項、境界条件などのパラメータの変動に適応する必要があります。データ駆動型ニューラルソルバーは、PDEパラメータの分布からサンプリングされたデータでトレーニングするか、勾配ベースの適応やメタラーニングに依存して観測から動態を暗黙的にエンコードすることで、新しいインスタンスに汎化することを期待します。これには推論の複雑さが伴います。大規模言語モデル（LLM）のインコンテキスト学習能力に触発され、我々はZebraという新しい生成オートレグレッシブトランスフォーマーを紹介します。Zebraは、勾配適応を推論時に必要とせずにパラメトリックPDEを解決するよう設計されています。事前トレーニングと推論の両方でインコンテキスト情報を活用することで、Zebraは、入力シーケンスに基づいて動的に新しいタスクに適応し、コンテキストの軌跡や直前の状態を組み込んだ入力シーケンスに条件付けることで、任意のサイズのコンテキスト入力を柔軟に処理し、複数の解軌跡をサンプリングすることによる不確実性の定量化をサポートします。我々は、Zebraをさまざまな困難なPDEシナリオで評価し、既存の手法と比較してその適応性、堅牢性、および優れた性能を示しています。