翻訳付きの日次キュレーションされたAI研究論文
最近リリースされたDeepSeek-R1は、大規模言語モデル(LLM)の汎用的な推論能力を強化するための強化学習(RL)の多大な可能性を実証しました。DeepSeek-R1やその他の後続研究は主に競技プログラミングや数学問題へのRLの適用に焦点を当てていますが、本論文では、現実世界のソフトウェアエンジニアリング向けにRLベースのLLM推論をスケールする初のアプローチであるSWE-RLを紹介します。軽量なルールベースの報酬(例えば、正解とLLMが生成したソリューション間の類似度スコア)を活用することで、SWE-RLはLLMがオープンソースソフトウェアの進化データ(ソフトウェアのライフサイクル全体の記録、コードスナップショット、コード変更、イシューやプルリクエストなどのイベントを含む)から学習し、開発者の推論プロセスとソリューションを自律的に復元することを可能にします。Llama 3をベースにトレーニングされた我々の推論モデル、Llama3-SWE-RL-70Bは、SWE-bench Verified(現実世界のGitHubイシューの人間による検証済みコレクション)において41.0%の解決率を達成しました。我々の知る限り、これは中規模(<100B)LLMにおいてこれまで報告された最高の性能であり、GPT-4oのような主要なプロプライエタリLLMにも匹敵するものです。驚くべきことに、ソフトウェア進化データのみでRLを行ったにもかかわらず、Llama3-SWE-RLは汎用的な推論スキルも獲得しました。例えば、関数コーディング、ライブラリ使用、コード推論、数学、一般的な言語理解という5つのドメイン外タスクにおいて改善された結果を示し、一方で教師ありファインチューニングのベースラインは平均的に性能低下を招きました。全体として、SWE-RLは大規模なソフトウェアエンジニアリングデータを用いた強化学習を通じてLLMの推論能力を向上させる新たな方向性を切り開きました。
オープンソースのマルチモーダル大規模言語モデル(MLLMs)の最近の進展は、主に基盤能力の強化に焦点を当てており、人間の嗜好との整合性において大きなギャップが残されています。本論文では、多様な画像、複雑な質問、および様々な応答形式を特徴とする20万件の高品質なトレーニングサンプルからなる包括的なデータセット「OmniAlign-V」を紹介し、MLLMsの人間の嗜好との整合性を向上させます。また、MLLMsの人間の価値観との整合性を評価するために特別に設計された人間による注釈付きベンチマーク「MM-AlignBench」を提示します。実験結果は、OmniAlign-Vを使用して教師ありファインチューニング(SFT)または直接嗜好最適化(DPO)を行うことで、MLLMsの人間の嗜好との整合性が大幅に向上し、標準的なVQAベンチマークでの性能を維持または向上させながら、その基本的な能力を保持することを示しています。私たちのデータセット、ベンチマーク、コード、およびチェックポイントは、https://github.com/PhoenixZ810/OmniAlign-V で公開されています。
大規模モデルにおいて、その二次的な時間計算量のため、効率的なアテンション実装は不可欠です。幸いなことに、アテンションはしばしばスパース性を示し、すなわちアテンションマップ内の多くの値がゼロに近いため、対応する計算を省略することが可能です。多くの研究がこのスパースパターンを活用してアテンションを加速してきました。しかし、既存の研究のほとんどは、特定のモデル内でアテンションマップの特定のスパースパターンを利用してアテンションを最適化することに焦点を当てています。多様なモデルにおいて速度向上とエンドツーエンドの性能を両立する普遍的なスパースアテンションは、まだ実現されていません。本論文では、任意のモデルに適用可能な普遍的なスパースかつ量子化されたアテンションであるSpargeAttnを提案します。私たちの手法は、二段階のオンラインフィルタを使用します。第一段階では、アテンションマップを迅速かつ正確に予測し、アテンション内のいくつかの行列乗算をスキップできるようにします。第二段階では、追加のオーバーヘッドを発生させず、さらにいくつかの行列乗算をスキップするオンラインソフトマックス対応フィルタを設計します。実験結果から、私たちの手法が言語、画像、動画生成を含む多様なモデルをエンドツーエンドのメトリクスを犠牲にすることなく大幅に加速することが示されています。コードはhttps://github.com/thu-ml/SpargeAttnで公開されています。
画像編集タスクにおいて、背景の一貫性は依然として重要な課題です。これまでの多くの進展にもかかわらず、既存の手法では、元の画像との類似性を維持することと、ターゲットに沿ったコンテンツを生成することの間でトレードオフが生じています。本論文では、KV-Editを提案します。これは、DiT(Diffusion Transformers)におけるKVキャッシュを利用したトレーニング不要のアプローチであり、背景トークンを再生成するのではなく保持することで、複雑なメカニズムや高コストなトレーニングを必要とせず、ユーザーが指定した領域内で背景とシームレスに統合された新しいコンテンツを生成します。さらに、編集時のKVキャッシュのメモリ消費量を調査し、反転を必要としない方法で空間計算量をO(1)に最適化しました。このアプローチは、追加のトレーニングを必要とせず、あらゆるDiTベースの生成モデルと互換性があります。実験結果は、KV-Editが背景と画像品質の両面において既存の手法を大幅に上回り、トレーニングベースの手法さえも凌駕することを示しています。プロジェクトのウェブページは以下で公開されています:https://xilluill.github.io/projectpages/KV-Edit
多層画像生成は、ユーザーが特定の画像レイヤーを分離、選択、編集することを可能にする基本的なタスクであり、生成モデルとのインタラクションに革命をもたらします。本論文では、グローバルなテキストプロンプトと匿名領域レイアウトに基づいて、可変多層透明画像を直接生成するAnonymous Region Transformer (ART)を紹介します。スキーマ理論に着想を得たこの匿名領域レイアウトは、生成モデルがどの視覚トークンをどのテキストトークンに紐付けるかを自律的に決定することを可能にし、従来の画像生成タスクで主流であった意味的レイアウトとは対照的です。さらに、各匿名領域に属する視覚トークンのみを選択するレイヤー単位の領域切り抜きメカニズムにより、注意計算コストが大幅に削減され、多数の異なるレイヤー(例:50以上)を持つ画像の効率的な生成が可能になります。完全な注意アプローチと比較して、我々の手法は12倍以上高速で、レイヤー間の競合も少ないです。さらに、可変多層透明画像の透明度を直接的に共同でエンコードおよびデコードする高品質な多層透明画像オートエンコーダを提案します。ARTは、正確な制御とスケーラブルなレイヤー生成を可能にすることで、インタラクティブなコンテンツ作成の新たなパラダイムを確立します。
コンピューティング技術の急速な進歩により、大規模言語モデル(LLM)のトレーニングの規模とコストが劇的に増大しています。モデルトレーニング前に下流タスクの性能を正確に予測することは、効率的なリソース配分において極めて重要ですが、以下の2つの主要な制約により依然として困難な課題となっています:(1)「創発現象」、つまり下流の性能指標が大規模なトレーニングを経て初めて意味を持つため、小規模モデルを用いた予測が制限されること;(2)タスク難易度の不均一な分布と一貫したスケーリング則の欠如により、メトリックの変動が大きくなること。既存の性能予測手法は精度と信頼性に限界があり、LLMの潜在能力の評価を妨げています。これらの課題に対処するため、我々は「難易度に基づくクラスタリング(Clustering-On-Difficulty, COD)」を用いた下流性能予測フレームワークを提案します。CODはまず、難易度特徴に基づいてタスクをクラスタリングし、非創発的かつ非スケーラブルなクラスターを戦略的に除外することで、予測可能なサポートサブセットを構築します。選択されたサブセット上のスコアは、完全な評価セットにおける下流性能の効果的な中間予測指標として機能します。理論的裏付けに基づき、我々は予測可能なサブセットから完全な評価セットへの性能メトリックを変換するマッピング関数を導出し、LLMの下流性能を正確に外挿することを保証します。提案手法は70B LLMの性能スケーリング予測に適用され、トレーニングリソース配分のための実用的な洞察を提供し、トレーニングプロセスの監視を支援しました。特に、CODは小規模モデルのアンサンブルを活用することで70B LLMにおいて顕著な予測精度を達成し、8つの重要なLLM評価ベンチマークにおいて1.36%の絶対平均偏差を示しています。
科学実験は、人類の進歩の礎石であり、信頼性、体系的な制御、解釈可能性に厳密さを求めることで、有意義な結果を生み出します。大規模言語モデル(LLM)が科学プロセスのさまざまな側面を自動化する能力が高まっているにもかかわらず、厳密な実験の自動化は依然として大きな課題です。このギャップを埋めるため、私たちはCurieを提案します。これは、実験プロセスに厳密さを組み込むためのAIエージェントフレームワークで、信頼性を高めるためのエージェント内厳密性モジュール、体系的な制御を維持するためのエージェント間厳密性モジュール、解釈可能性を高めるための実験知識モジュールの3つの主要コンポーネントを備えています。Curieを評価するために、影響力のある研究論文や広く採用されているオープンソースプロジェクトから導出された、コンピュータサイエンスの4つの分野にわたる46の質問からなる新しい実験ベンチマークを設計しました。テストされた最も強力なベースラインと比較して、実験的な質問に正しく答える能力が3.4倍向上しました。Curieはhttps://github.com/Just-Curieous/Curieでオープンソースとして公開されています。
近年の研究では、異なるLoRAを組み合わせて学習されたスタイルとコンテンツを共同生成する手法が探求されています。しかし、既存の手法では、元の被写体とスタイルを同時に効果的に保存することができないか、追加の訓練が必要となるという課題があります。本論文では、LoRAの本質的な特性が拡散モデルにおいて学習された被写体とスタイルの融合を効果的に導くことができると主張します。この洞察に基づき、我々はK-LoRAを提案します。これは、訓練不要のシンプルかつ効果的なLoRA融合アプローチです。各アテンションレイヤーにおいて、K-LoRAは融合される各LoRAのTop-K要素を比較し、最適な融合のためにどのLoRAを選択するかを決定します。この選択メカニズムにより、融合プロセス中に被写体とスタイルの最も代表的な特徴が保持され、それらの貢献が効果的にバランスされます。実験結果は、提案手法が元のLoRAによって学習された被写体とスタイル情報を効果的に統合し、定性的および定量的な結果において最先端の訓練ベースのアプローチを上回ることを示しています。
for more details.
大規模言語モデル(LLM)の事前学習における訓練の安定性は、特に勾配爆発や勾配消失が起こりやすいPost-Norm Transformerなどのアーキテクチャにおいて、継続的な課題となっています。本論文では、全結合層における重み行列のスケールと分布を明示的に分離することで訓練を安定化する新しいアプローチ、Scale-Distribution Decoupling(SDD)を提案します。SDDは、活性化を調整するための正規化メカニズムと、良好な勾配状態を維持するための学習可能なスケーリングベクトルを適用し、勾配爆発と勾配消失を効果的に防ぎます。この分離により、特に深層ネットワークにおいて、安定した勾配伝播を確保することで最適化効率が向上します。実験結果は、本手法が様々なLLMアーキテクチャにおいて訓練を安定化し、異なる正規化設定において既存の手法を上回ることを示しています。さらに、提案手法は軽量で既存のフレームワークと互換性があり、LLM訓練の安定化における実用的なソリューションとなっています。コードはhttps://github.com/kaihemo/SDDで公開されています。
私たちは、50以上のインタラクティブな課題を通じて汎用ウェブブラウジングAIエージェントを評価するために設計された包括的なベンチマークスイート「WebGames」を紹介します。これらの課題は、人間にとっては簡単である一方で、現在のAIシステムの限界を体系的にテストするように特別に設計されており、基本的なブラウザ操作、高度な入力処理、認知タスク、ワークフロー自動化、インタラクティブエンターテインメントといった領域を網羅しています。私たちのフレームワークは、密閉されたテスト環境を通じて外部依存を排除し、検証可能な正解を用いた再現性のある評価を保証します。GPT-4o、Claude Computer-Use、Gemini-1.5-Pro、Qwen2-VLといった主要な視覚言語モデルを人間のパフォーマンスと比較して評価しました。結果は、最良のAIシステムでも成功率が43.1%にとどまり、人間の95.7%と比較して大きな能力差があることを示しており、人間にとって直感的な一般的なウェブインタラクションパターンを処理する現在のAIシステムの根本的な限界を浮き彫りにしています。このベンチマークはwebgames.convergence.aiで公開されており、軽量なクライアントサイド実装により迅速な評価サイクルを可能にしています。モジュール型アーキテクチャと標準化された課題仕様を通じて、WebGamesはより高度なウェブブラウジングエージェントの開発における進歩を測定するための堅牢な基盤を提供します。
大規模言語モデル(LLM)の計算コストとストレージコストの削減を目的として、モデル圧縮とKVキャッシュ圧縮が研究者の注目を集めています。しかし、現在の手法は主に、圧縮されたLLMの性能を維持することに重点を置いており、その性能は、常識知識QAや基本的な算術推論タスクにおけるパープレキシティや単純な精度によって測定されています。このブログでは、検索拡張生成、多段階推論、外部ツール、計算表現力に関連するLLMの最近の進歩について簡単にレビューし、これらがLLMの性能を大幅に向上させることを示します。その後、特定のLLMとタスクに対して、多段階推論と外部ツールの助けを借りて、元のLLMと同じ性能を発揮できるより小さな「宝くじLLM」が存在するという仮説を提案します。LLMの現在の進歩をレビューした上で、既存の手法では見落とされている、宝くじLLMとKVキャッシュ圧縮が備えるべき重要な能力について議論し、まとめます。
マルチモーダル大規模言語モデル(MLLMs)は、近年の視覚認識タスクにおいて急速な進展を遂げています。多くの重要なアプリケーションへの統合が期待される中、その視覚的知覚の限界を理解することが重要です。本研究では、MLLMsが画像に関する質問に答える際に、小さな視覚的詳細を大きなものと同様に効果的に認識できるかどうかを検証します。その結果、MLLMsの性能は質問の視覚的主題のサイズに非常に敏感であり、介入研究を通じてこの効果が実際に因果的であることを示します。次に、MLLMsが視覚的質問に答える際の注意パターンを調査し、興味深いことに、誤った答えを提供する場合でも、常にどこに注目すべきかを知っていることがわかりました。これらの知見に基づいて、我々はMLLMsの内部知識を活用したトレーニング不要の視覚的介入手法を提案します。具体的には、注意マップと勾配マップを利用して、小さな視覚的詳細の知覚を向上させます。提案手法を2つの広く使用されているMLLMsと7つの視覚的質問応答ベンチマークで評価し、トレーニングを必要とせずにMLLMsの精度を大幅に向上できることを示します。我々の結果は、小さな詳細に関連する視覚認識タスクにMLLMsを適用するリスクを明らかにし、モデルの内部状態を利用した視覚的介入がこのリスクを軽減する有望な方向性であることを示唆しています。
大規模言語モデル(LLM)の評価は通常、精度や人間の選好といった集約された指標に依存し、ユーザーやプロンプト全体の平均値を取ります。この平均化により、モデルのパフォーマンスにおけるユーザーやプロンプト固有の変動が隠されてしまいます。この問題に対処するため、我々はプロンプト固有のリーダーボードを生成するPrompt-to-Leaderboard(P2L)という手法を提案します。この手法の核となるアイデアは、自然言語プロンプトを入力として受け取り、Bradley-Terry係数のベクトルを出力するLLMを訓練し、それを人間の選好投票を予測するために使用することです。これにより得られるプロンプト依存のリーダーボードは、教師なしのタスク固有評価、クエリの最適なモデルへのルーティング、パーソナライゼーション、およびモデルの強みと弱みの自動評価を可能にします。Chatbot Arenaからのデータは、P2Lが平均化されたリーダーボードよりも言語モデルのパフォーマンスの微妙な違いをよりよく捉えていることを示唆しています。さらに、我々の研究結果は、P2Lがプロンプト固有の評価を生成する能力が、LLM自体で観察されるものと同様のべき乗則スケーリングに従っていることを示唆しています。2025年1月、この方法論に基づいて訓練されたルーターは、Chatbot Arenaのリーダーボードで第1位を獲得しました。我々のコードは以下のGitHubリンクで公開されています:https://github.com/lmarena/p2l。
大規模言語モデル(LLM)のアライメントには、反復的なデータ生成とモデルの再学習が広く用いられています。これには通常、オンラインポリシーに基づく応答を生成するポリシーモデルと、学習データの選択を導く報酬モデルが関与します。Direct Preference Optimization(DPO)は、選択された応答と拒否された応答のペアを構築することで、このプロセスをさらに強化します。本研究では、ランダムサンプリングを繰り返すことでオンラインポリシーサンプルの数をスケールアップし、アライメント性能の向上を目指します。従来の手法では、DPOにおいて最も高い報酬を持つサンプルを選択し、最も低い報酬を持つサンプルを拒否します。しかし、我々の実験では、サンプルサイズが増加するにつれてこの戦略が性能の低下を招くことが明らかになりました。この問題に対処するため、サンプル報酬の正規分布に基づいて選好データの構築を調査します。報酬空間を7つの代表点に分類し、21通り(C_7^2)のペアワイズ組み合わせを体系的に探索します。AlpacaEval 2を用いた4つのモデルでの評価を通じて、最小報酬ではなく、報酬位置mu - 2sigmaで拒否された応答を選択することが最適な性能を発揮するために重要であることを発見しました。最後に、サンプルスケールが増加するにつれてモデル性能を一貫して向上させるスケーラブルな選好データ構築戦略を提案します。
本論文では、既存のテキストから画像への拡散モデルに大規模言語モデル(LLMs)を統合する革新的な手法であるLDGenを紹介します。従来のテキストエンコーダーであるCLIPやT5は、多言語処理において制約があり、異なる言語間での画像生成を妨げています。私たちは、LLMsの高度な機能を活用することでこれらの課題に取り組んでいます。私たちのアプローチは、階層的なキャプション最適化と人間の指示技術を適用した言語表現戦略を採用し、正確な意味情報を導き出します。その後、軽量なアダプターとクロスモーダルリファイナーを組み込み、LLMsと画像特徴の効率的な特徴整列と相互作用を促進します。LDGenはトレーニング時間を短縮し、ゼロショットの多言語画像生成を可能にします。実験結果は、当社の手法がプロンプトの遵守と画像の美的品質の両方でベースラインモデルを上回り、複数の言語をシームレスにサポートしていることを示しています。プロジェクトページ: https://zrealli.github.io/LDGen.
聴覚基盤モデル、特に聴覚大規模言語モデル(LLM)は、リスナーの知覚とは独立して、すべての音声入力を均等に処理します。しかし、人間の聴覚知覚は本質的に選択的です:リスナーは複雑な聴覚シーンにおいて特定の話者に焦点を当て、他の話者を無視します。既存のモデルはこの選択性を取り入れていないため、知覚に沿った応答を生成する能力が制限されています。この問題に対処するため、我々は意図を考慮した聴覚シーン理解(II-ASU)を導入し、リスナーの注意を推測するために脳信号を統合したプロトタイプシステムである聴覚注意駆動型LLM(AAD-LLM)を提案します。AAD-LLMは、頭蓋内脳波(iEEG)記録を組み込むことで、リスナーがどの話者に注意を向けているかをデコードし、それに応じて応答を精緻化するように聴覚LLMを拡張します。このモデルはまず、神経活動から注意を向けている話者を予測し、次にこの推測された注意状態に基づいて応答生成を行います。我々はAAD-LLMを、複数話者シナリオにおける話者記述、音声書き起こしと抽出、質問応答について評価し、客観的および主観的評価の両方でリスナーの意図との整合性が向上することを示しました。意図を意識した聴覚AIへの第一歩を踏み出すことで、この研究はリスナーの知覚が機械聴取を導く新たなパラダイムを探求し、将来的なリスナー中心の聴覚システムへの道を開きます。デモとコードは以下で利用可能です:https://aad-llm.github.io。
大規模言語モデル(LLMs)は、人工知能(AI)分野において革新的なツールとして登場し、テキスト生成、推論、意思決定など多様なタスクで顕著な能力を発揮しています。その成功は主に計算能力の向上と深層学習アーキテクチャの進展によってもたらされましたが、不確実性の定量化、意思決定、因果推論、分布シフトといった領域で新たに生じる問題は、統計学の分野とのより深い関わりを必要としています。本論文では、統計学者がLLMsの発展に重要な貢献を果たす可能性のある領域、特に人間のユーザーに対する信頼性と透明性を実現することを目指す領域について探求します。具体的には、不確実性の定量化、解釈可能性、公平性、プライバシー、ウォーターマーキング、モデル適応といった課題に焦点を当てます。また、統計分析におけるLLMsの役割についても考察します。AIと統計学を橋渡しすることで、LLMsの理論的基盤と実用的応用の両方を推進し、複雑な社会的課題への対応におけるその役割を形作ることを目指します。
状態空間モデル(SSMs)、特にMambaは、長文脈系列モデリングにおいてTransformerに代わる効率的な選択肢として台頭してきました。しかし、その採用が拡大しているにもかかわらず、SSMsには、アテンションベースのアーキテクチャの理解と改善に不可欠であった解釈可能性ツールが欠如しています。最近の研究ではMambaの内部メカニズムに関する洞察が提供されていますが、トークンレベルの寄与を明示的に分解しておらず、Mambaが層を跨いで系列を選択的に処理する方法の理解にギャップが残っています。本研究では、Mamba-1およびMamba-2の両方に対して、きめ細かい解釈可能性を可能にする新しいトークンレベル分解手法であるLaTIMを提案します。機械翻訳、コピー、検索ベース生成など多様なタスクにおいて本手法を広範に評価し、Mambaのトークン間相互作用パターンを明らかにする有効性を実証します。
私たちは、マルチモーダル学習におけるデータ効率の課題に対処するために設計された、1Bおよび4Bパラメータ規模のビジョン・ランゲージモデル(VLM)ファミリーであるShakti VLMを紹介します。最近のVLMは大規模なトレーニングデータを通じて高い性能を達成していますが、Shaktiモデルはアーキテクチャの革新を活用し、より少ないトークンで競争力のある結果を実現します。主な進歩には、アテンションの安定性のためのQK正規化、ハイブリッド正規化技術、そして強化された位置エンコーディングが含まれます。さらに、3段階のトレーニング戦略が学習効率を最適化します。評価結果では、Shakti-VLM-1BとShakti-VLM-4Bが、ドキュメント理解、視覚的推論、OCR抽出、および一般的なマルチモーダル推論において優れていることが示されています。私たちの結果は、高い性能がデータ量ではなく、モデル設計とトレーニング戦略を通じて達成できることを強調し、Shaktiを企業規模のマルチモーダルタスクにおける効率的なソリューションとしています。
WiCkeDを紹介します。これは、既存の多肢選択式ベンチマークの複雑さを増すためのシンプルな方法で、教育テストでよく使われる「どれでもない」という選択肢をランダムに追加するものです。WiCkeDは、既存のどのベンチマークにも自動的に適用でき、より挑戦的なものにすることができます。私たちはWiCkeDを6つの人気ベンチマークに適用し、18のオープンウェイトLLMを評価しました。その結果、モデルのパフォーマンスは、元のデータセットに比べて平均12.1ポイント低下しました。3つのMMLUデータセットでチェイン・オブ・ソートを使用した場合、WiCkeDバリアントのパフォーマンス低下は、LLMを直接使用した場合と同程度であり、WiCkeDが推論能力を強化したモデルにとっても挑戦的であることが示されました。WiCkeDはまた、一部のモデルが追加の推論に特に敏感であることを明らかにし、元のベンチマークに比べて追加の情報を提供します。私たちはコードとデータをhttps://github.com/ahmedselhady/wicked-benchmarksで公開しています。
現代の言語モデルは、人間の言語学習で観察される適応的語彙獲得とは対照的に、事前学習前に固定された静的語彙に依存しています。このギャップを埋めるために、語彙カリキュラム学習を導入します。このアプローチは、語彙サイズに対する対数線形スケーリングの利点を持ち、事前学習の効率を向上させます。当社の手法は、エントロピーによる語彙拡張とモデル最適化を交互に行い、モデルが異なるトークン化の粒度間で移転可能な表現を学習できるようにします。このアプローチは、最適な計算割り当てパターンを自然に生み出します。つまり、より長いトークンは予測可能なコンテンツを捉え、一方でより短いトークンはより複雑で予測が難しい文脈に焦点を当てます。小規模のGPTモデルに対する実験は、スケーリング効率の向上を示し、動的トークン化の効果を補強します。当社のコードを公開して、さらなる研究をサポートし、より大規模なモデルや多様な領域への実験拡大を計画しています。