翻訳付きの日次キュレーションされたAI研究論文
本研究では、大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとして、Reinforcement Pre-Training(RPT)を提案します。具体的には、次のトークン予測をRLを用いて訓練する推論タスクとして再定義し、与えられたコンテキストに対して次のトークンを正しく予測することで検証可能な報酬を受け取るようにします。RPTは、ドメイン固有の注釈付き回答に依存するのではなく、大量のテキストデータを汎用的なRLに活用するスケーラブルな方法を提供します。次のトークン推論能力を促進することで、RPTは次のトークンを予測する言語モデリングの精度を大幅に向上させます。さらに、RPTはさらなる強化学習のファインチューニングのための強力な事前学習基盤を提供します。スケーリング曲線は、訓練計算量を増やすことで次のトークン予測精度が一貫して向上することを示しています。これらの結果から、RPTは言語モデルの事前学習を進めるための効果的で有望なスケーリングパラダイムとして位置づけられます。
マルチモーダル大規模言語モデル(MLLMs)は、大規模なデータセットと高度なトレーニング戦略により、一般的な視覚要素の理解において印象的な能力を発揮しています。しかし、医療分野での有効性は、医療シナリオと一般的な領域におけるデータとタスクの間の本質的な不一致により、依然として限定的です。具体的には、既存の医療MLLMsは以下の重要な制約に直面しています:(1)画像を超えた医療知識のカバレッジが限られている、(2)データキュレーションプロセスの最適化が不十分なため、幻覚(hallucination)に対する感受性が高い、(3)複雑な医療シナリオに特化した推論能力が欠如している。これらの課題に対処するため、我々はまず包括的なデータキュレーション手順を提案します。この手順は、(1)医療画像だけでなく、広範な医療テキストや一般領域のデータからも豊富な医療知識データを効率的に取得し、(2)正確な医療キャプション、視覚的質問応答(VQA)、および推論サンプルを合成します。その結果、広範な医療知識を備えたマルチモーダルデータセットを構築します。キュレーションされたデータを基に、我々は医療特化型MLLMである「Lingshu」を紹介します。Lingshuは、医療専門知識を埋め込み、タスク解決能力を段階的に強化するために、多段階のトレーニングを経ます。さらに、検証可能な報酬を用いた強化学習を適用し、Lingshuの医療推論能力を向上させる可能性を予備的に探ります。加えて、主要なマルチモーダルおよびテキストベースの医療ベンチマークを統合し、標準化された公平で効率的なモデル評価を可能にする統一評価フレームワーク「MedEvalKit」を開発します。我々は、Lingshuのパフォーマンスを、マルチモーダルQA、テキストベースQA、および医療レポート生成という3つの基本的な医療タスクで評価します。その結果、Lingshuはほとんどのタスクにおいて既存のオープンソースマルチモーダルモデルを一貫して上回ることが示されました...
本論文では、エンドサイドデバイス向けに設計された高効率な大規模言語モデル(LLM)であるMiniCPM4を紹介する。この効率性は、モデルアーキテクチャ、学習データ、学習アルゴリズム、推論システムの4つの主要な次元における体系的な革新によって実現されている。具体的には、モデルアーキテクチャに関して、長文脈処理のためのプリフィリングとデコードの両フェーズを加速する学習可能なスパースアテンションメカニズムであるInfLLM v2を提案する。学習データに関しては、効率的かつ正確な事前学習データのフィルタリングと生成戦略であるUltraClean、および包括的な教師ありファインチューニングデータセットであるUltraChat v2を提案する。これらのデータセットにより、わずか8兆の学習トークンで満足のいくモデル性能を達成することが可能となる。学習アルゴリズムに関しては、効率的な事前学習戦略探索のためのModelTunnel v2を提案し、ロードバランス型強化学習のためのチャンクワイズロールアウトとデータ効率の高い3値LLMであるBitCPMを導入することで、既存の事後学習手法を改善する。推論システムに関しては、スパースアテンション、モデル量子化、および推測サンプリングを統合したCPM.cuを提案し、効率的なプリフィリングとデコードを実現する。多様なオンデバイス要件に対応するため、MiniCPM4は0.5Bと8Bのパラメータを持つ2つのバージョンで提供される。十分な評価結果は、MiniCPM4が複数のベンチマークにおいて類似サイズのオープンソースモデルを上回る性能を示し、その効率性と有効性を強調している。特に、MiniCPM4-8Bは、長いシーケンスを処理する際にQwen3-8Bに対して大幅な速度向上を示す。さらに適応を進めることで、MiniCPM4は信頼性の高い調査生成やモデルコンテキストプロトコルを用いたツール使用など、多様なアプリケーションを成功裏に駆動し、その幅広い有用性を明確に示している。
既存の安全性保証研究は、主に訓練段階でのアライメントに焦点を当て、LLMに安全な行動を植え付けることに重点を置いてきました。しかし、最近の研究では、これらの手法が多様なジャイルブレイク攻撃に対して脆弱であることが明らかになっています。同時に、推論スケーリングはLLMの推論能力を大幅に向上させましたが、安全性保証の文脈では未開拓のままです。このギャップを埋めるため、本研究は新たな脅威に対して堅牢かつ効果的なLLMの安全性を実現するための推論スケーリングを先駆的に提案します。我々は、従来の推論スケーリング技術が、推論タスクでは成功を収めているにもかかわらず、安全性の文脈ではパフォーマンスが低く、Best-of-Nサンプリングのような基本的なアプローチにも及ばないことを明らかにしました。この非効率性は、頻繁なプロセス報酬モデル(PRM)評価に関連する高い計算コストから生じる新たな課題、すなわち探索効率のジレンマに起因すると考えられます。このジレンマを克服するため、我々は安全性保証に特化した新しい推論スケーリングパラダイムであるSAFFRONを提案します。我々のアプローチの中核は、報酬モデル評価の回数を大幅に削減する多分岐報酬モデル(MRM)の導入です。このパラダイムを実現するため、さらに以下の提案を行います:(i) MRMのための部分教師あり訓練目的、(ii) 分布外探索を防ぐための保守的な探索制約、(iii) 木探索中にシーケンス間でキャッシュを共有するためのTrieベースのキー・バリューキャッシュ戦略。大規模な実験により、我々の手法の有効性が検証されました。さらに、我々は訓練済みの多分岐報酬モデル(Saffron-1)とトークンレベルの安全性報酬データセット(Safety4M)を公開し、LLM安全性に関する将来の研究を加速します。我々のコード、モデル、データはhttps://github.com/q-rz/saffronで公開されており、プロジェクトのホームページはhttps://q-rz.github.io/p/saffronにあります。
テキストから画像(T2I)生成モデルは、テキストプロンプトに沿った高品質な画像を生成する能力で注目を集めています。しかし、T2Iモデルの急速な進展に伴い、初期のベンチマークには推論能力、テキストレンダリング、スタイル化など、包括的な評価が欠けていることが明らかになりました。特に、最新の最先端モデルは、豊富な知識モデリング能力を備えており、強力な推論能力を必要とする画像生成問題において有望な結果を示していますが、既存の評価システムはこの最先端の課題に十分に対応していません。これらのギャップを体系的に解決するため、我々はOneIG-Benchを導入しました。これは、プロンプトと画像の整合性、テキストレンダリングの精度、推論によるコンテンツ生成、スタイル化、多様性など、複数の次元にわたるT2Iモデルの詳細な評価を行うために綿密に設計された包括的なベンチマークフレームワークです。このベンチマークは、評価を構造化することで、モデルのパフォーマンスを深く分析し、研究者や実務者が画像生成の全プロセスにおける強みとボトルネックを特定するのに役立ちます。具体的には、OneIG-Benchは、ユーザーが特定の評価サブセットに焦点を当てて柔軟に評価を行うことを可能にします。全てのプロンプトに対して画像を生成する代わりに、選択した次元に関連するプロンプトのみに対して画像を生成し、それに応じた評価を完了することができます。我々のコードベースとデータセットは、T2I研究コミュニティ内での再現可能な評価研究とクロスモデル比較を促進するために公開されています。
SpatialLMは、3D点群データを処理し、構造化された3Dシーン理解の出力を生成するように設計された大規模言語モデルです。これらの出力には、壁、ドア、窓などの建築要素や、意味的カテゴリを持つ向き付けられた物体ボックスが含まれます。従来のタスク固有のネットワーク設計を利用する手法とは異なり、本モデルは標準的なマルチモーダルLLMアーキテクチャに準拠し、オープンソースのLLMから直接ファインチューニングされています。 SpatialLMを訓練するために、12,328の室内シーン(54,778の部屋)の点群と、それに対応する3Dアノテーションを含む大規模で高品質な合成データセットを収集し、さまざまなモデリングと訓練の決定について慎重に研究を行いました。公開ベンチマークにおいて、本モデルはレイアウト推定で最先端の性能を示し、3D物体検出でも競争力のある結果を達成しました。これにより、拡張現実、具現化ロボティクスなどのアプリケーションにおける現代のLLMの空間理解能力を向上させるための実現可能な道筋を示しました。
ビジョンエンコーダは、ビジョン専用モデルから視覚-言語モデルなどのマルチモーダルシステムまで、現代のアプリケーションでますます使用されています。その顕著な成功にもかかわらず、これらのアーキテクチャが内部でどのように特徴を表現しているかは不明瞭です。ここでは、画像再構成を通じてビジョン特徴を解釈するための新しいアプローチを提案します。訓練目的のみが異なる2つの関連モデルファミリー、SigLIPとSigLIP2を比較し、画像ベースのタスクで事前訓練されたエンコーダが、コントラスティブ学習などの非画像タスクで訓練されたエンコーダよりもはるかに多くの画像情報を保持していることを示します。さらに、この手法をさまざまなビジョンエンコーダに適用し、その特徴表現の情報量に基づいてランク付けします。最後に、特徴空間を操作することで再構成画像に予測可能な変化が生じることを実証し、色のエンコーディングを制御するのは空間変換ではなく直交回転であることを明らかにします。本アプローチは任意のビジョンエンコーダに適用可能であり、その特徴空間の内部構造を明らかにします。実験を再現するためのコードとモデル重みはGitHubで公開されています。
現代のロボットナビゲーションシステムは、多様で複雑な屋内環境において困難に直面している。従来のアプローチは、小さなモデルやルールベースのシステムを複数のモジュールに依存しており、新しい環境への適応性に欠けている。この問題に対処するため、我々はモバイルロボットナビゲーションのための包括的なデュアルモデルアーキテクチャであるAstraを開発した。Astra-Globalは、マルチモーダルLLMであり、視覚と言語の入力を処理し、ハイブリッドトポロジカル-セマンティックグラフをグローバルマップとして使用して自己位置推定と目標位置推定を行い、従来の視覚的位置認識手法を凌駕する。Astra-Localは、マルチタスクネットワークであり、局所的な経路計画とオドメトリ推定を担当する。自己教師あり学習を通じて訓練された4D時空間エンコーダは、下流タスクのための堅牢な4D特徴を生成する。計画ヘッドは、フローマッチングと新しいマスク付きESDF損失を利用して、局所的な軌道生成における衝突リスクを最小化し、オドメトリヘッドは、トランスフォーマーエンコーダを介してマルチセンサー入力を統合し、ロボットの相対的な姿勢を予測する。実際の屋内モバイルロボットに展開されたAstraは、多様な屋内環境において高いエンドツーエンドのミッション成功率を達成している。
隠れマルコフモデル(HMM)は、潜在的なマルコフ構造を持つ時系列データをモデル化するための基本的なツールであるが、実世界のデータに適合させることは依然として計算上の課題である。本研究では、事前学習済みの大規模言語モデル(LLM)が、文脈内学習(ICL)を通じてHMMによって生成されたデータを効果的にモデル化できることを示す。ICLとは、プロンプト内の例からパターンを推論する能力である。多様な合成HMMのセットにおいて、LLMは理論上の最適値に近い予測精度を達成する。我々は、HMMの特性に影響を受けた新しいスケーリングの傾向を明らかにし、これらの経験的観察に対する理論的な推測を提示する。また、科学者が複雑なデータの診断ツールとしてICLを使用するための実践的なガイドラインを提供する。実世界の動物の意思決定タスクにおいて、ICLは人間の専門家によって設計されたモデルと競争力のある性能を達成する。我々の知る限り、これはICLがHMM生成シーケンスを学習し予測できることを初めて実証したものであり、LLMにおける文脈内学習の理解を深め、複雑な科学データの隠れた構造を解明するための強力なツールとしての可能性を確立するものである。
我々は、Vision Transformersにおいて以前から指摘されていた現象——高ノルムのトークンが生じ、ノイジーなアテンションマップを引き起こすメカニズム——を調査した。複数のモデル(例:CLIP、DINOv2)において、高ノルムの活性化を外れ値トークンに集中させるスパースなニューロンのセットが存在し、不規則なアテンションパターンを引き起こし、下流の視覚処理を劣化させていることを観察した。これらの外れ値を除去する既存の解決策は、追加の学習済みレジスタートークンを用いてモデルをゼロから再学習させることを含むが、我々はこの知見を活用し、これらのアーティファクトを軽減するトレーニング不要のアプローチを開発した。発見されたレジスターニューロンからの高ノルム活性化を、追加の未学習トークンにシフトすることで、レジスタートークンなしで学習済みのモデルにおいて、レジスタートークンの効果を模倣することが可能である。我々の手法が、よりクリーンなアテンションおよび特徴マップを生成し、複数の下流視覚タスクにおいてベースモデルを上回る性能を発揮し、明示的にレジスタートークンで学習されたモデルと同等の結果を達成することを実証した。さらに、テストタイムレジスターを既存の視覚言語モデルに拡張し、それらの解釈可能性を向上させた。我々の結果は、テストタイムレジスターがテスト時にレジスタートークンの役割を効果的に担い、それらが含まれていない事前学習済みモデルに対してトレーニング不要の解決策を提供することを示唆している。
Vision-Language-Action(VLA)モデルは、幅広いロボティクス操作タスクにおいて印象的な能力を示しています。しかし、そのモデルサイズの増大は、リソースに制約のあるロボティクスシステムへの展開において重大な課題を引き起こしています。1ビット事前学習は、大規模言語モデルの推論効率を最小限の性能損失で向上させるために有効であることが証明されていますが、VLAモデルへの適用はまだ十分に検討されていません。本研究では、すべてのパラメータが三値({-1, 0, 1})である、ロボティクス操作のための最初の1ビットVLAモデルであるBitVLAを提案します。さらに、ビジョンエンコーダのメモリフットプリントを削減するために、フルプレシジョンエンコーダを1.58ビットの重みに圧縮する蒸留対応トレーニング戦略を提案します。このプロセスでは、フルプレシジョンエンコーダが教師モデルとして機能し、潜在表現をより良く整合させます。大規模なロボティクス事前学習が不足しているにもかかわらず、BitVLAはLIBEROベンチマークにおいて、4ビットのポストトレーニング量子化を施した最新モデルOpenVLA-OFTと同等の性能を達成し、メモリ使用量はわずか29.8%です。これらの結果は、BitVLAがメモリに制約のあるエッジデバイスへの展開において有望であることを示しています。コードとモデル重みはhttps://github.com/ustcwhy/BitVLAで公開しています。
マルチモーダル拡散トランスフォーマー(MM-DiT)は、テキスト駆動の視覚生成において顕著な進歩を遂げています。しかし、FLUXのような最先端のMM-DiTモデルでさえ、テキストプロンプトと生成されたコンテンツの間の正確な整合性を達成するのに苦労しています。我々は、MM-DiTのアテンションメカニズムにおける2つの主要な問題を特定しました。1)視覚モダリティとテキストモダリティ間のトークンの不均衡によるクロスモーダルアテンションの抑制、2)タイムステップを考慮したアテンション重み付けの欠如です。これらの問題に対処するため、我々は温度スケーリングとタイムステップ依存の調整を通じてマルチモーダル相互作用を動的に再調整する、パラメータ効率の良い手法である温度調整クロスモーダルアテンション(TACA)を提案します。LoRAファインチューニングと組み合わせることで、TACAはT2I-CompBenchベンチマークにおいて最小限の計算オーバーヘッドでテキストと画像の整合性を大幅に向上させます。我々はFLUXやSD3.5のような最先端モデルでTACAをテストし、オブジェクトの外観、属性のバインディング、空間関係の観点で画像とテキストの整合性を改善する能力を実証しました。我々の研究結果は、テキストから画像への拡散モデルにおける意味的忠実性を向上させるために、クロスモーダルアテンションのバランスを取ることの重要性を強調しています。我々のコードはhttps://github.com/Vchitect/TACAで公開されています。
長い連鎖思考(CoT)の監視は、言語モデルの推論能力を向上させるための一般的な戦略となっています。大規模モデルでは効果的ですが、我々は「長いCoTの劣化」と呼ばれる現象を特定しました。これは、限られた長いCoTデータで訓練された小規模言語モデル(SLM; 3Bパラメータ以下)が、著しい性能低下を経験する現象です。Qwen2.5、LLaMA3、Gemma3ファミリーを用いた広範な実験を通じて、この劣化がSLM全体に広く見られることを実証しました。一部の設定では、8kの長いCoT例で訓練されたモデルが、ファインチューニング前の性能の最大75%を失うことが確認されました。さらに驚くべきことに、特に小規模なモデルでは、220kの長いCoT例で訓練しても、ファインチューニング前の性能を回復または超えることができない場合も観察されました。我々の分析によると、この現象はエラーの蓄積によるものです。長い応答は多段階の推論能力を高める一方で、誤りが連鎖的に増幅されるリスクも高まります。さらに、長いCoTの劣化は下流の強化学習(RL)に悪影響を及ぼす可能性がありますが、十分にスケーリングされた教師ありファインチューニング(SFT)によって緩和できることも明らかになりました。これらの発見は、SLMに対する長いCoT訓練の利点に関する一般的な前提に疑問を投げかけ、より効果的な小規模推論モデルを構築するための実践的な指針を提供します。
マルチモーダル大規模言語モデル(MLLMs)における汎用的な推論能力の開発は依然として課題である。認知科学の文献が示唆するように、ゲームプレイは転移可能な認知スキルを促進することを動機として、我々は新しいポストトレーニングパラダイム、Visual Game Learning(ViGaL)を提案する。ここでは、MLLMsがアーケード風ゲームをプレイすることで、マルチモーダル推論のドメイン外汎化能力を発展させる。具体的には、7BパラメータのMLLMを、Snakeのような単純なアーケード風ゲームで強化学習(RL)を用いてポストトレーニングすることで、MathVistaのようなマルチモーダル数学ベンチマークや、MMMUのような多分野問題における下流タスクの性能が大幅に向上することを示す。この際、RL中に解答例、方程式、図表を見ることはなく、転移可能な推論スキルの獲得を示唆している。注目すべきは、我々のモデルが、マルチモーダル推論データに特化した専門モデルをマルチモーダル推論ベンチマークで上回りながら、ベースモデルの一般的な視覚ベンチマークにおける性能を維持することである。これは、専門モデルがしばしば達成できない課題である。我々の研究結果は、新しいポストトレーニングパラダイムを示唆している:合成的でルールベースのゲームは、MLLMsにおける汎用的なマルチモーダル推論能力を引き出すための制御可能かつスケーラブルな事前タスクとして機能し得る。
光学化学構造認識(OCSR)は、分子画像を機械可読形式に変換することで化学知識のデジタル化において重要な役割を果たします。最近の視覚言語モデル(VLM)はこのタスクにおいて潜在能力を示していますが、その画像キャプショニングアプローチは複雑な分子構造や一貫性のないアノテーションに苦戦することがあります。これらの課題を克服するため、我々はGTR-Mol-VLMという新しいフレームワークを提案します。このフレームワークには2つの主要な革新が含まれています:(1) グラフトラバーサルを視覚的思考連鎖として模倣し、逐次的な原子-結合予測を通じて分子グラフを解析するメカニズム、(2) 画像中の省略構造とその拡張アノテーションの不整合に対処する「見たものを忠実に認識する」というデータ中心の原則です。モデル開発を支援するため、我々はGTR-CoT-1.3Mという大規模な指示チューニングデータセットを構築し、注意深く修正されたアノテーションを提供しました。また、OCSRにおけるグラフ解析精度の詳細な評価を目的とした最初のベンチマークであるMolRec-Benchを導入しました。包括的な実験により、GTR-Mol-VLMは専門家モデル、化学領域のVLM、商用の汎用VLMと比較して優れた結果を達成することが示されました。特に、官能基の省略を含む分子画像のシナリオにおいて、GTR-Mol-VLMは2番目に優れたベースラインをSMILESベースおよびグラフベースのメトリクスで約14パーセンテージポイント上回りました。本研究がOCSR技術を現実世界のニーズにより効果的に満たすことを推進し、ケモインフォマティクスやAI for Scienceの分野を前進させることを期待しています。GTR-CoTはhttps://github.com/opendatalab/GTR-CoTで公開予定です。
我々は、LLM(大規模言語モデル)評価のための新たで挑戦的なベンチマークとして、ディベートスピーチ評価を導入する。ディベートスピーチの評価には、議論の強さや関連性、スピーチの一貫性と構成、スタイルやトーンの適切さなど、複数のレベルでの深い理解が要求される。このタスクは、これまで体系的にLLMベンチマークで注目されてこなかった一連の認知能力を必要とする。こうしたスキルを探るため、我々は600以上の詳細に注釈付けされたディベートスピーチのデータセットを活用し、最先端のLLMがこのタスクにおいて人間の審査員とどのように比較されるかについて初めての詳細な分析を提示する。我々の調査結果は、より大規模なモデルが一部の点で個々の人間の判断を近似できる一方で、全体的な判断行動においては大きく異なるという微妙な状況を明らかにしている。また、最先端のLLMが説得力のある意見を述べたスピーチを生成する能力についても調査し、このタスクにおいてモデルが人間レベルのパフォーマンスを発揮し得ることを示す。
近年の言語モデルの世代では、回答を提供する前に詳細な思考プロセスを生成する大規模推論モデル(LRM)が導入されています。これらのモデルは推論ベンチマークで改善された性能を示していますが、その基本的な能力、スケーリング特性、および限界についてはまだ十分に理解されていません。現在の評価は主に確立された数学やコーディングのベンチマークに焦点を当てており、最終的な回答の正確性を重視しています。しかし、この評価パラダイムはしばしば汚染の問題に悩まされ、推論のトレースに関する洞察を提供しません。本研究では、複雑さを正確に操作しながら一貫した論理構造を維持できる制御可能なパズル環境を活用して、これらのギャップを体系的に調査します。この設定により、最終的な回答だけでなく内部の推論トレースも分析でき、LRMがどのように思考するかについての洞察が得られます。広範な実験を通じて、LRMが特定の複雑さを超えると完全な精度の崩壊に直面することを示します。さらに、直感に反するスケーリング限界を示します:推論努力は問題の複雑さに応じてある点まで増加しますが、残りのトークン予算があるにもかかわらずその後減少します。同じ推論計算量でLRMと標準的なLLMを比較することで、3つの性能レジームを特定しました:(1)標準モデルがLRMを上回る低複雑度タスク、(2)LRMが優位性を示す中複雑度タスク、(3)両モデルが完全な崩壊に直面する高複雑度タスクです。LRMは正確な計算において限界があることがわかりました:明示的なアルゴリズムを使用できず、スケール間で一貫性のない推論を行います。また、推論トレースをより深く調査し、探索された解決策のパターンを研究し、モデルの計算行動を分析することで、その強みと限界を明らかにし、推論能力に関する疑問を提起します。
視覚と言語の基盤モデルは、言語を通じて行動が表現される場合、どの程度現実的な世界モデル(観察 × 行動 → 観察)およびダイナミクスモデル(観察 × 観察 → 行動)を備えているのか?オープンソースの基盤モデルは両者に苦戦しているが、教師あり学習を通じてダイナミクスモデルを獲得するためのファインチューニングは、世界モデルを獲得するよりも大幅に容易であることがわかった。さらに、ダイナミクスモデルは、主に2つの戦略を通じて世界モデルをブートストラップするために使用できる:1)合成データからの弱教師あり学習、および2)推論時の検証。まず、ダイナミクスモデルは、ラベル付けされていないビデオフレーム観察のペアに対して行動を注釈付けし、トレーニングデータを拡張することができる。さらに、観察ペア内の画像トークンを認識モデルによって予測された重要度に基づいて重み付けする新しい目的関数を提案する。次に、ダイナミクスモデルは、世界モデルの複数のサンプルに報酬を割り当ててスコアリングし、推論時に検索を効果的に導くことができる。我々は、Aurora-Benchにおける行動中心の画像編集タスクを通じて、両戦略から得られた世界モデルを評価する。我々の最良のモデルは、最先端の画像編集モデルと競合する性能を達成し、GPT4o-as-judgeによる実世界のサブセットにおいて15%の改善を実現し、Aurora-Benchのすべてのサブセットにおいて最高の平均人間評価を達成した。
CCI4.0を紹介します。これは、優れたデータ品質と多様な人間らしい推論軌跡を実現するために設計された大規模な二言語事前学習データセットです。CCI4.0は約35TBのディスク容量を占め、CCI4.0-M2-BaseとCCI4.0-M2-CoTの2つのサブデータセットで構成されています。CCI4.0-M2-Baseは、5.2TBの厳選された中国語ウェブコーパス、Nemotron-CCからの22.5TBの英語サブセット、および数学、ウィキ、arXiv、コードなどの多様なソースを組み合わせています。これらのデータは主に十分に処理されたデータセットから取得されていますが、各ドメインの品質基準は動的であり、専門家の経験と労力を要する処理が必要です。そこで、二段階の重複排除、マルチクラス分類品質スコアリング、ドメイン対応の流暢性フィルタリングを主にモデルに基づいて行う新しいパイプラインを提案します。また、45億個のCoT(Chain-of-Thought)テンプレートを抽出し、CCI4.0-M2-CoTと名付けました。大規模モデルからのCoT蒸留とは異なり、提案する段階的CoT抽出は多様な推論パターンを例示し、幻覚の可能性を大幅に低減します。実証評価により、CCI4.0で事前学習されたLLMは、よりクリーンで信頼性の高い学習信号から恩恵を受け、特に数学とコード反射タスクにおいて下流タスクでの一貫した改善を示すことが明らかになりました。これらの結果は、LLMの性能向上における厳格なデータキュレーションと人間の思考テンプレートの重要性を強調し、事前学習コーパスの自動処理に関する洞察を提供します。
大規模言語モデル(LLM)に事実に関する虚構を控えるように教えることは可能か?本論文では、ConfQAと呼ばれるファインチューニング戦略を提案し、複数の事実性ベンチマークにおいて虚構率を20-40%から5%未満に削減できることを示す。核となるアイデアはシンプルである:LLMが質問に正しく答えた場合、その回答を続けるように訓練し、そうでない場合には「わかりません」と認めるように訓練する。しかし、この訓練を非常に効果的にする2つの重要な要素がある。第一に、「自信がある場合にのみ答える」という抑制プロンプトを導入し、これがないと虚構率は15%-25%のまま高い状態が続く。第二に、知識グラフからの属性値のようなシンプルな事実記述を活用し、LLMが自信を調整するのを助けることで、ドメインや質問タイプを超えた堅牢な汎化を実現する。この洞察に基づき、Dual Neural Knowledgeフレームワークを提案する。このフレームワークは、ConfQAの自信に基づいて、内部でパラメータ化されたニューラル知識と外部に記録されたシンボリック知識をシームレスに選択する。このフレームワークにより、潜在的な精度を95%以上に向上させながら、不必要な外部検索を30%以上削減することが可能となる。
本論文では、現実的な専門家のワークフローとアプリケーションを反映した9分野11タスクからなるエキスパートレベルのベンチマーク「ExpertLongBench」を紹介する。ExpertLongBenchのアプリケーション駆動型タスクは、質問応答を超え、5,000トークンを超える長文出力と、分野固有の要件への厳密な準拠を要求する。特に、ExpertLongBenchの各タスクには、分野の専門家によって設計または検証されたルーブリックが含まれており、タスクの要件を明示し、出力評価をガイドする。さらに、本ベンチマークにおける長文モデル出力の正確な評価を支援する評価フレームワーク「CLEAR」を提案する。CLEARは、細粒度で専門家に沿った評価を実現するため、モデル出力と参照出力から、タスク固有のルーブリックの項目に対応する情報を抽出することでチェックリストを導出する。モデル出力のチェックリスト項目は、参照出力の対応する項目と比較され、その正確性が評価されることで、根拠に基づいた評価が可能となる。我々は11の大規模言語モデル(LLM)をベンチマークし、CLEARの構成要素を分析した結果、(1) 現存のLLMは、トップパフォーマーのF1スコアが26.8%に留まり、エキスパートレベルのタスクには大幅な改善が必要であること、(2) モデルは必要な側面に対応する内容を生成できるが、しばしば正確ではないこと、(3) CLEARにおける正確なチェックリスト抽出と比較は、オープンウェイトモデルによって達成可能であり、よりスケーラブルで低コストな使用が可能であることを示した。
最近のLLM(大規模言語モデル)の進歩により、さまざまなタスクにおいて自律エージェントとしての利用が可能となったが、一貫した長期戦略の策定と遵守には依然として課題を抱えている。本論文では、戦略的計画能力を明示的に試す環境に置かれたLLMエージェントが、自己改善できるかどうかを調査する。オープンソースのCatanatronフレームワークを通じてアクセス可能なボードゲーム「Settlers of Catan」を使用し、シンプルなゲームプレイエージェントから、自身のプロンプトやプレイヤーエージェントのコードを自律的に書き換えることができるシステムまで、LLMベースのエージェントの進化をベンチマークする。本論文では、専門的な役割(Analyzer、Researcher、Coder、Player)が協力してゲームプレイを分析し、新たな戦略を研究し、エージェントのロジックやプロンプトを修正するマルチエージェントアーキテクチャを導入する。手動で作成されたエージェントとLLMによって完全に進化したエージェントを比較することで、これらのシステムが失敗を診断し、時間とともに適応する能力を評価する。結果として、特にClaude 3.7やGPT-4oのようなモデルを活用した自己進化型エージェントは、静的ベースラインを上回り、戦略を自律的に採用し、ゲームプレイエージェントにサンプル行動を引き継ぎ、複数のイテレーションにわたって適応的な推論を示すことが明らかとなった。
モデル免疫化は、有害なタスクに対しては微調整が困難でありながら、他の非有害なタスクではその有用性を保持するようにモデルを事前学習することを目的としています。これまでの研究では、テキストから画像へのモデルを免疫化するための経験的証拠が示されていますが、免疫化が可能となる条件や免疫化されたモデルの正確な定義については未だ明確ではありません。本研究では、ヘッセ行列の条件数に基づくフレームワークを提案し、線形モデルに対するモデル免疫化を分析します。このフレームワークを基に、事前学習後の条件数を制御するための正則化項を備えたアルゴリズムを設計します。線形モデルおよび非線形ディープネットにおける実験結果は、提案アルゴリズムのモデル免疫化における有効性を示しています。コードはhttps://github.com/amberyzheng/model-immunization-cond-numで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は、グラフィカルユーザーインターフェース(GUI)自動化の革新において大きな可能性を示しています。しかし、既存のGUIモデルはほとんどがエラーのないオフライン軌跡からの学習に依存しており、反省とエラー回復能力が欠如しています。このギャップを埋めるため、我々はGUI-Reflectionを提案します。これは、GUI固有の事前学習、オフライン教師ありファインチューニング(SFT)、オンライン反省チューニングという専用のトレーニング段階を通じて、自己反省とエラー修正能力をエンドツーエンドのマルチモーダルGUIモデルに明示的に統合する新しいフレームワークです。GUI-Reflectionは、人間のアノテーションを一切必要とせず、完全に自動化されたデータ生成と学習プロセスにより、自己反省行動の出現を可能にします。具体的には、1)既存の成功軌跡から反省とエラー修正データを自動的に構築するためのスケーラブルなデータパイプラインを提案します。既存のGUIモデルが主にグラウンディングとUI理解能力に焦点を当てているのに対し、我々はGUI-Reflection Task Suiteを提案し、反省指向の能力を明示的に学習・評価します。2)さらに、モバイルデバイス上でのGUIモデルのオンライントレーニングとデータ収集のための多様で効率的な環境を構築しました。3)また、提案された環境を活用した反復的なオンライン反省チューニングアルゴリズムを提示し、モデルがその反省とエラー修正能力を継続的に向上できるようにします。我々のフレームワークは、GUIエージェントに自己反省と修正能力を備えさせ、より堅牢で適応性があり、知的なGUI自動化への道を開きます。すべてのデータ、モデル、環境、ツールは公開される予定です。
大規模なビデオ生成モデルは、ダイナミックな世界の創造において多様で現実的な視覚コンテンツを合成することができますが、要素ごとの制御性に欠けることが多く、シーンの編集やエンボディードAIエージェントのトレーニングにおける使用を妨げています。私たちは、物理ベースのシミュレーターの細かな制御性と、大規模な事前学習済み生成モデルのフォトリアルなコンテンツ出力を組み合わせたハイブリッド世界生成フレームワーク「Dreamland」を提案します。特に、ピクセルレベルとオブジェクトレベルのセマンティクスとジオメトリを中間表現としてエンコードする階層化された世界抽象化を設計し、シミュレーターと生成モデルを橋渡しします。このアプローチは、制御性を向上させ、現実世界の分布との早期の整合により適応コストを最小化し、既存および将来の事前学習済み生成モデルのオフザシェルフ使用をサポートします。さらに、ハイブリッド生成パイプラインのトレーニングと評価を促進するために、D3Simデータセットを構築しました。実験により、Dreamlandは既存のベースラインを上回り、画像品質が50.8%向上し、制御性が17.9%強化され、エンボディードエージェントのトレーニングを大幅に強化する可能性があることが示されています。コードとデータは公開される予定です。
大規模言語モデル(LLMs)は、攻撃的、虚偽的、または無意味なコンテンツを生成しないよう、人間の好みに沿った調整(アライメント)が必要です。最近では、低リソースでのLLMアライメント手法が注目されていますが、高品質かつアライメントされたコンテンツを両立させることは依然として課題となっています。デコードの開始時にアライメントされた応答を生成する難しさが集中しているという観察に基づき、我々は新しいフレームワーク「Weak-to-Strong Decoding(WSD)」を提案します。このフレームワークでは、小さなアライメント済みモデルのガイダンスにより、ベースモデルのアライメント能力を向上させます。まず、小さなモデルが適切にアライメントされた開始部分をドラフトし、その後、大規模なベースモデルが残りを続けるというプロセスを、設計された自動切り替えメカニズムで制御します。また、新しいデータセット「GenerAlign」を収集し、Pilot-3Bという小型モデルをドラフトモデルとしてファインチューニングしました。これにより、WSDフレームワーク下で異なるベースモデルの性能が向上し、すべてのベースライン手法を上回りながら、下流タスクでの性能低下(アライメント税)を回避することができました。さらに、さまざまな設定や時間効率の影響を検証するための広範な実験を行い、WSDの内在的なメカニズムについて詳細な分析を行いました。
大規模言語モデル(LLMs)の多元的アラインメントに対する最近の要請は、モデルを多様なユーザー嗜好に適応させることを奨励しています。しかし、これまでのパーソナライズされた報酬モデルに関する研究の多くは、人口統計学的詳細や事前に定義された嗜好カテゴリなどの追加の識別情報に大きく依存しています。この目的のために、我々はSynthesizeMeを導入します。これは、ユーザーインタラクションから合成ユーザーペルソナを誘導し、パーソナライズされた報酬モデリングを行うアプローチです。SynthesizeMeはまず、ユーザーの嗜好を説明するための推論を生成し検証し、次にその推論から合成ユーザーペルソナを誘導し、最後に特定のユーザーに対するパーソナライズされたプロンプトを構築するために有益な過去のユーザーインタラクションをフィルタリングします。SynthesizeMeによって誘導されたプロンプトを使用することで、Chatbot ArenaにおけるパーソナライズされたLLM-as-a-judgeの精度が4.4%向上することを示します。SynthesizeMeから導出されたプロンプトと報酬モデルを組み合わせることで、PersonalRewardBenchにおいて最高のパフォーマンスを達成しました。PersonalRewardBenchは、Chatbot ArenaとPRISMの854人のユーザーから収集されたユーザー層別チャットボットインタラクションの新しいキュレーションです。
大規模言語モデル(LLM)および視覚言語モデル(VLM)の最近の進展により、複雑な推論とマルチモーダルなツール使用が可能な強力な自律エージェントが実現されています。しかし、その能力が向上しているにもかかわらず、現在のエージェントフレームワークは脆弱であり、安全な情報フロー、信頼性、およびマルチエージェント間の調整を実現するための原則的なメカニズムが欠如しています。本研究では、信頼性の高いLLM/VLMベースのエージェントを構築するための新しいプロトコルレベルのフレームワークであるSAFEFLOWを紹介します。SAFEFLOWは、細粒度の情報フロー制御(IFC)を強制し、エージェント、ツール、ユーザー、環境間で交換されるすべてのデータのプロベナンス、完全性、および機密性を正確に追跡します。LLMの推論をこれらのセキュリティラベルに従うように制約することで、SAFEFLOWは信頼できないまたは敵対的な入力が高完全性の決定を汚染するのを防ぎます。並行マルチエージェント環境での堅牢性を確保するために、SAFEFLOWは、共有状態に対するトランザクション実行、競合解決、および安全なスケジューリングを導入し、エージェント間のグローバルな一貫性を維持します。さらに、ライトアヘッドロギング、ロールバック、および安全なキャッシュなどのメカニズムを導入し、ランタイムエラーやポリシー違反に対する耐性をさらに強化します。性能を検証するために、敵対的、ノイズの多い、および並行操作条件下でのエージェントの信頼性を評価するための包括的なベンチマークスイートであるSAFEFLOWBENCHを構築しました。広範な実験により、SAFEFLOWで構築されたエージェントは、敵対的な環境下でも印象的なタスク性能とセキュリティ保証を維持し、最先端の技術を大幅に上回ることが示されました。SAFEFLOWとSAFEFLOWBENCHは、原則的で堅牢かつ安全なエージェントエコシステムの基盤を築き、信頼性の高い自律性のフロンティアを前進させます。
最近、明示的構造化推論などの技術が、モデルの内部的な「思考」プロセスと最終的な応答を分離することで、テスト時のスケーリング特性を強く示すことが実証されています。この設定において回答品質に影響を与える重要な要因は、思考段階の長さです。推論が短すぎると、モデルはタスクの複雑さを捉えられない可能性があります。逆に、長すぎると、モデルは過剰に思考し、不要な計算と性能の低下を招く可能性があります。本論文では、大規模言語モデル(LLM)が明示的思考プロセス中に推論の長さを理解し、調整する基盤となるメカニズムを探求し、活用します。まず、LLMが推論プロセスを通じて進捗をエンコードしていることを示し、インタラクティブな進捗バーの視覚化を導入します。これは、モデルの計画ダイナミクスに関する洞察を明らかにするために使用されます。次に、推論中の内部進捗エンコードを操作して、不要なステップを削減し、より簡潔で決定的な思考の連鎖を生成します。私たちの実験結果は、この「オーバークロック」手法が過剰思考を緩和し、回答の精度を向上させ、推論の遅延を減少させることを示しています。私たちのコードは公開されています。
本研究では、モノクロ動画からの動的視点合成を、学習不要な設定における逆問題として取り組む。事前学習済みのビデオ拡散モデルのノイズ初期化段階を再設計することで、重み更新や補助モジュールを一切必要とせずに高忠実度な動的視点合成を実現する。まず、ゼロ終端信号対雑音比(SNR)スケジュールに起因する決定論的逆変換の根本的な障害を特定し、これを解決するためにK次再帰的ノイズ表現と呼ばれる新たなノイズ表現を導入する。この表現の閉形式を導出し、VAEエンコードされた潜在変数とDDIM逆変換された潜在変数の間の精密かつ効率的な整合を可能にする。カメラ運動に伴って新たに可視化される領域を合成するために、潜在空間上で可視性を考慮したサンプリングを行い、遮蔽領域を補完する確率的潜在変調を導入する。包括的な実験により、ノイズ初期化段階における構造化された潜在変数操作を通じて、動的視点合成が効果的に実行できることを実証する。
大規模言語モデルは、タスクを遂行する際に文脈的入力とパラメトリック知識の両方に頻繁に依存する。しかし、これらの情報源はしばしば対立することがあり、特に検索された文書がモデルのパラメトリック知識と矛盾する場合に顕著である。本研究では、文脈的知識がモデルのパラメトリック信念と乖離する「文脈-記憶対立」状況下でのLLMの挙動を体系的に評価するための診断フレームワークを提案する。この対立を引き起こす診断データを構築し、複数のタスクタイプにわたるモデルの性能を分析した。その結果、(1) 知識の利用を必要としないタスクでは知識対立の影響が最小限であること、(2) 文脈的知識とパラメトリック知識が一致する場合にモデルの性能が一貫して高いこと、(3) 指示があってもモデルは内部知識を完全に抑制できないこと、(4) 対立を説明する根拠を提供することで文脈への依存度が高まること、が明らかとなった。これらの知見は、モデルベースの評価の妥当性に懸念を投げかけるとともに、LLMの実運用において知識対立を考慮する必要性を強調するものである。
大規模言語モデルは、大規模なテキストコーパス(コードベース、法律文書、チャット履歴など)に基づくクエリに答えるためによく使用されます。これは、コーパス全体をコンテキストウィンドウに配置し、インコンテキスト学習(ICL)を活用することで行われます。現在のモデルは100K-1Mトークンのコンテキストをサポートしていますが、この設定は、KVキャッシュのメモリ消費量が入力長に比例して増加するため、運用コストが高くなります。私たちは、各コーパスに対してオフラインで小さなKVキャッシュをトレーニングするという代替案を探ります。推論時には、このトレーニング済みのKVキャッシュ(Cartridgeと呼びます)をロードし、応答をデコードします。重要な点として、Cartridgeのトレーニングコストは、同じコーパスを参照するすべてのクエリにわたって償却することができます。しかし、コーパスに対して次のトークン予測を用いてCartridgeをトレーニングする素朴なアプローチは、ICLと比べて競争力がないことがわかりました。代わりに、コーパスに関する合成会話を生成し、コンテキスト蒸留の目的でCartridgeをトレーニングする「自己学習(self-study)」というトレーニングレシピを提案します。自己学習でトレーニングされたCartridgeは、ICLの機能を再現しつつ、運用コストが大幅に低くなることがわかりました。挑戦的な長文コンテキストのベンチマークでは、自己学習でトレーニングされたCartridgeは、ICLと同等の性能を発揮しつつ、38.6倍少ないメモリを使用し、26.4倍高いスループットを実現します。自己学習はまた、モデルの有効なコンテキスト長を拡張し(例えば、MTOBでは128kから484kトークンに)、驚くべきことに、再トレーニングなしで推論時にCartridgeを組み合わせることができるようになります。
既存の対話型AIエージェントのベンチマークは、単一制御環境をシミュレートしており、AIエージェントのみがツールを使用して世界と相互作用し、ユーザーは受動的な情報提供者として留まります。これは、ユーザーが(共有された)世界の状態を積極的に変更する必要があるテクニカルサポートなどの現実世界のシナリオとは異なります。このギャップを埋めるために、我々はtau^2-benchを導入し、以下の4つの主要な貢献を行います: 1) Dec-POMDPとしてモデル化された新しいテレコム双対制御ドメイン。ここでは、エージェントとユーザーの両方がツールを使用して共有された動的環境で行動し、エージェントの調整とコミュニケーションをテストします。 2) 原子コンポーネントからプログラム的に多様で検証可能なタスクを作成する構成タスクジェネレータ。これにより、ドメインのカバレッジと制御された複雑さが確保されます。 3) 環境と密接に結合した信頼性の高いユーザーシミュレータ。その動作はツールと観測可能な状態によって制約され、シミュレーションの忠実度が向上します。 4) 推論とコミュニケーション/調整に起因するエラーを分離するなど、複数のアブレーションを通じたエージェントのパフォーマンスの詳細な分析。 特に、我々の実験では、エージェントがユーザーなしから双対制御に移行した際にパフォーマンスが大幅に低下し、ユーザーを導くことの難しさが浮き彫りになりました。全体として、tau^2-benchは、効果的に推論し、ユーザーの行動を導く必要があるエージェントのための制御されたテストベッドを提供します。
現在のマルチモーダル大規模言語モデル(MLLM)は、テスト時の計算負荷、堅牢性の欠如、および主にフィードフォワード処理の性質に起因する精度の限界から、長く複雑な動画の理解に苦戦する可能性があります。これらの制限は、パラメータ数が少ないモデルにおいてより深刻になる可能性があります。これらの制限に対処するため、サイバネティック原則に着想を得た新しいフレームワークを提案し、動画MLLMを推論中に自己監視、自己修正、および動的リソース割り当てが可能な適応システムとして再設計します。我々のアプローチであるCyberVは、MLLM推論システム、センサー、およびコントローラーからなるサイバネティックループを導入します。具体的には、センサーがMLLMの前方プロセスを監視し、アテンションのドリフトなどの中間解釈を収集し、その後コントローラーが自己修正をいつどのようにトリガーするかを決定し、次のラウンドを導くフィードバックを生成します。このテスト時適応スケーリングフレームワークは、再トレーニングや追加コンポーネントを必要とせずに、凍結されたMLLMを強化します。実験結果は、CyberVがQwen2.5-VL-7Bを8.3%、InternVL3-8Bを5.5%向上させ、競合するプロプライエタリモデルGPT-4oを凌駕することを示しています。Qwen2.5-VL-72Bに適用すると、10.0%の改善が得られ、人間の専門家に匹敵する性能を達成します。さらに、我々の手法は、VideoMMEやWorldSenseなどの汎用ベンチマークにおいても一貫した向上を示し、動画理解においてMLLMをより堅牢かつ正確にするための有効性と汎化能力を強調しています。コードはhttps://github.com/marinero4972/CyberVで公開されています。
近年のビデオ生成技術の進展にもかかわらず、既存のモデルは依然として細かな制御性、特に複数の主体をカスタマイズしつつ一貫したアイデンティティと相互作用を維持する能力に欠けています。本論文では、柔軟でアイデンティティに一貫した生成を可能にする多主体ビデオカスタマイズフレームワークであるPolyVividを提案します。主体画像とテキストエンティティ間の正確な対応関係を確立するため、視覚的アイデンティティをテキスト空間に埋め込むことで精密なグラウンディングを実現するVLLMベースのテキスト-画像融合モジュールを設計しました。さらに、アイデンティティの保持と主体間の相互作用を強化するため、テキストと画像の埋め込み間の構造化された双方向融合を可能にする3D-RoPEベースの拡張モジュールを提案します。また、融合されたアイデンティティ特徴をビデオ生成プロセスに効果的に注入し、アイデンティティのドリフトを軽減するための注意継承型アイデンティティ注入モジュールを開発しました。最後に、MLLMベースのグラウンディング、セグメンテーション、およびクリークベースの主体統合戦略を組み合わせたMLLMベースのデータパイプラインを構築し、高品質な多主体データを生成することで、下流のビデオ生成における主体の区別を強化し曖昧さを低減します。大規模な実験により、PolyVividがアイデンティティの忠実度、ビデオのリアリズム、および主体の整合性において優れた性能を発揮し、既存のオープンソースおよび商用のベースラインを凌駕することが実証されました。
専門家のデモンストレーションに基づいて訓練されたビデオ生成モデルは、ロボットタスクを解決するための高性能なテキスト条件付き視覚プランナーとして利用されてきた。しかし、未見のタスクへの一般化は依然として課題である。一方で、ウェブ規模のビデオデータセットなどの追加の事前収集されたオフラインデータソースから学習された事前知識を活用することで、一般化の改善が促進される可能性がある。経験の時代において、我々は自己収集した行動からオンラインで継続的に改善できるエージェントを設計することを目指している。本研究では、ドメイン内のビデオモデルが自己生成した軌跡に基づいて反復的に更新され、インターネット規模の事前訓練済みビデオモデルとの適応を通じて収集された軌跡を利用し、指定された関心タスクのパフォーマンスを着実に向上させる「自己適応改善ループ(SAIL)」を提案する。SAILをMetaWorldタスクの多様なスイートおよび実ロボットアームでの2つの操作タスクに適用し、元のドメイン内ビデオモデル訓練中には未見であった新規タスクに対して、複数の反復を通じてパフォーマンスの改善が継続的に現れることを確認した。さらに、SAILが自己収集された経験のフィルタリングの有無や方法、および初期ドメイン内デモンストレーションの品質に関して驚くほど頑健であることを発見した。インターネット規模のデータを要約して適応し、オンライン経験を通じて学習することで、自己改善を通じて新規ロボットタスクを解決するための高性能ビデオモデルを反復的にブートストラップする方法を実証した。
大規模言語モデル(LLMs)は、現代のAIの基盤となっている。しかし、既存の次トークン予測のパラダイムは、一貫した高レベルの概念を形成する能力を根本的に制限しており、人間のような理解と推論への重要な障壁となっている。例えば、「リボ核酸」というフレーズを考えると、LLMはまずそれをトークン、すなわち人工的なテキスト断片(「rib」、「on」など)に分解し、各トークンを順次学習するが、フレーズを統一された一貫した意味的実体として把握することはない。この断片的な表現は、より深い概念的理解を妨げ、最終的には真に知的なシステムの開発を阻害する。これに対応して、我々はConcept-Aware Fine-Tuning(CAFT)を導入する。これは、LLMのファインチューニング方法を再定義する新しいマルチトークン訓練法である。複数のトークンにまたがるシーケンスの学習を可能にすることで、この方法はより強力な概念認識学習を促進する。我々の実験では、テキスト要約などの伝統的なアプリケーションから、デノボタンパク質設計などのドメイン固有のアプリケーションに至るまで、従来の次トークンファインチューニング法と比較して大幅な改善が示された。マルチトークン予測は以前、非常に高価な事前訓練フェーズでのみ可能であったが、CAFTは、我々の知る限り、訓練後フェーズにマルチトークン設定を持ち込んだ初めてのものであり、その利点を広範な実践者や研究者コミュニティに効果的に民主化するものである。最後に、提案手法の予期せぬ有効性は、機械学習研究コミュニティにとってより広範な示唆を持つことを示唆している。すべてのコードとデータはhttps://github.com/michaelchen-lab/caft-llmで利用可能である。
大規模言語モデル(LLMs)は、近年、さまざまな自然言語処理(NLP)タスクにおいて印象的な能力を発揮してきた。しかし、その脆弱性がジャイルブレイクや摂動に対して顕在化しており、追加の評価が必要とされている。多くのLLMsは多言語対応であるが、安全性に関連するトレーニングデータは主に英語などの高リソース言語で構成されている。これにより、ポーランド語などの低リソース言語における摂動に対して脆弱性が生じる可能性がある。本研究では、わずかな文字の変更と、単語の重要度計算のための小さなプロキシモデルを使用することで、驚くほど強力な攻撃を低コストで作成できることを示す。これらの文字および単語レベルの攻撃が、異なるLLMsの予測を劇的に変化させることを明らかにし、内部の安全メカニズムを回避するための潜在的な脆弱性を示唆する。我々は、低リソース言語であるポーランド語において攻撃構築手法を検証し、この言語におけるLLMsの潜在的な脆弱性を発見した。さらに、この手法が他の言語にも拡張可能であることを示す。今後の研究のために、作成したデータセットとコードを公開する。
大規模言語モデル(LLM)の推論能力に関する最近の進展により、計画立案や自己反省といった高度な振る舞いが強化学習(RL)を通じて発現することが示されてきた。しかし、これらの成功にもかかわらず、現状のRLはベースモデルの限界を超える能力を誘発するには不十分であり、主にモデルの既存の知識に基づいて最適化されるため、新しい情報の獲得を促進するものではない。この制約を克服するため、我々は教師ありファインチューニング(SFT)を活用し、RLでは学習できない新しい知識や推論パターンを高品質なデモンストレーションデータを用いて取り込むことを可能にした。LLM推論におけるRLとSFTのトレーニングダイナミクスを分析した結果、RLはモデルの元々の能力範囲内の質問に対する性能の維持と向上に優れている一方、SFTはモデルの現在の範囲を超える質問に対する進歩を可能にするのに効果的であることがわかった。RLとSFTの補完的な強みに着想を得て、我々は新しいトレーニング手法であるReLIFT(Reinforcement Learning Interleaved with Online Fine-Tuning)を提案する。ReLIFTでは、モデルは主にRLを用いてトレーニングされるが、難しい質問に遭遇した際には高品質な解決策を収集してファインチューニングを行い、RLとファインチューニングを交互に行うことでモデルの推論能力を向上させる。ReLIFTは、他のゼロRLモデルと比較して、5つの競技レベルベンチマークと1つの分布外ベンチマークにおいて平均+5.2ポイント以上の改善を達成した。さらに、ReLIFTは詳細なデモンストレーションデータのわずか13%を使用しながら、RLとSFTの両方を上回る性能を示し、そのスケーラビリティを強調している。これらの結果は、ReLIFTがRLの根本的な制約を克服し、その大きな可能性を示す説得力のある証拠を提供する。
大規模言語モデル(LLMs)の最近の進展は、特に数学的推論において多様な領域で顕著な能力を示しており、その中でも幾何学問題の解決は補助的な構築が重要な役割を果たす挑戦的な領域として残されている。既存のアプローチは、最適ではない性能を達成するか、大規模なLLMs(例:GPT-4o)に依存しており、膨大な計算コストを伴う。我々は、検証可能な報酬を伴う強化学習(例:GRPO)が、補助的な構築と堅牢な幾何学的推論を効果的に組み合わせたより小さなモデルを訓練するための有望な方向性を提供すると考えている。しかし、GRPOを幾何学的推論に直接適用することは、無条件の報酬に依存するため、基本的な制限があり、無差別で逆効果的な補助的構築を引き起こす。これらの課題に対処するため、我々はGroup Contrastive Policy Optimization(GCPO)を提案する。これは、2つの主要な革新を特徴とする新しい強化学習フレームワークである:(1)Group Contrastive Masking、これは文脈上の有用性に基づいて補助的構築に対して適応的に正または負の報酬信号を提供し、(2)長い推論連鎖を促進する長さ報酬である。GCPOを基盤として、我々はGeometryZeroを開発した。これは、補助的構築をいつ使用するかを適切に判断する、手頃なサイズの幾何学的推論モデルのファミリーである。我々の広範な実証評価(Geometry3K、MathVista)は、GeometryZeroモデルがベースライン(例:GRPO)を一貫して上回り、全てのベンチマークで平均4.29%の改善を達成することを示している。
大規模言語モデル(LLM)やエージェントのドメイン固有ベンチマークに対する関心が高まる中、現在の評価は依然として静的で小規模なデータセットに限定されており、特にネットワーク運用のような信頼性が求められる高リスクタスクにおいてはその傾向が顕著です。本論文では、ネットワークアプリケーションにおけるLLMエージェントの評価のための自動ベンチマーク生成フレームワーク「NetPress」を提案します。NetPressは、状態とアクションを統合した抽象化を導入し、多様なクエリセットとそれに対応するグラウンドトゥルースを動的に生成することを可能にします。実行時には、ユーザーがベンチマーク設定を指定することで、数百万のクエリをその場で生成できます。動的なベンチマーク構築に加えて、NetPressはネットワークエミュレータと統合し、現実的な環境フィードバックを提供することで、正確性、安全性、レイテンシにわたる包括的な評価をサポートします。NetPressを3つの代表的なアプリケーションに適用し、静的で正確性のみを評価するベンチマークでは見落とされがちなエージェントの振る舞いにおける興味深い細かな差異を明らかにしました。NetPressは、インフラ中心のドメインにおける現実的でスケーラブルなテストに向けてLLM評価を進め、ベンチマーク性能と実世界での展開準備のギャップを埋めるのに役立ちます。コードはhttps://github.com/Froot-NetSys/NetPressで公開されています。
マルチモーダル大規模言語モデル(MLLM)は、入力が雑多で不完全であり、常に信頼できるとは限らない、オープンエンドの現実世界の環境にますます展開されています。厳選されたベンチマークとは異なり、これらの設定では、欠落したオブジェクトや矛盾する事実を参照する指示、曖昧な参照に依存する指示、または実行不可能なアクションを要求する指示が頻繁に含まれます。このような場合、成功はタスクの実行だけではなく、何かが静かに間違っていることを検出するモデルの能力にかかっています。本論文は、現在のMLLMがこのような暗黙の推論シナリオ、つまり欠陥が明示されていないが文脈から推論しなければならない場合をどのように扱うかについての体系的な分析を提示します。現実世界の失敗モードの4つのカテゴリにわたる厳選された診断スイートを使用して、o3やGPT-4oを含む6つのMLLMを評価し、モデルが必要な知覚および推論スキルを持っている場合でも、隠れた問題を表面化させることが頻繁に失敗することを発見しました。明示的なプロンプティングにより、基礎となる能力は存在するが、ユーザーへの従順さを優先してしばしば抑制されていることが明らかになりました。さらに、慎重なペルソナプロンプティングや、特に明確化の質問を要求するといった単純な推論時の介入が、パフォーマンスを劇的に回復できることを示します。我々の調査結果は、現在のMLLMにおける推論能力と行動的従順さの間の持続的なギャップを強調し、制約の少ない環境でこれらのモデルをより信頼できるものにするための実践的な戦略を提案します。
大規模マルチモーダルモデル(LMMs)は、新しいタスクを最小限の監督で実行するために、文脈内学習(ICL)に依存することが多い。しかし、特に小規模なLMMsにおけるICLの性能は一貫性がなく、例が増えるにつれて必ずしも単調に向上するわけではない。我々は、この現象が、下流タスクに必要のない画像埋め込みに含まれる追加情報によってLMMが圧倒されるためであると仮説を立てた。この問題に対処するため、我々はメタ学習アプローチを提案し、タスク関連の画像特徴から蒸留され、テスト時に少数の例を用いて適応可能な固定セットのソフトプロンプトを使用して、LMMに少数ショット能力を誘導する代替手段を提供する。この蒸留を容易にするため、我々は、人気のあるLLaVA v1.5アーキテクチャに容易に統合可能で、ソフトプロンプトと共に学習されるアテンションマッパーモジュールを導入し、わずかな勾配ステップで低データ体制下でのLMMのタスク適応を可能にする。VL-ICLベンチマークでの評価により、我々の手法が、画像摂動下でもICLや関連するプロンプトチューニングアプローチを一貫して上回り、視覚的質問応答タスクにおけるタスク誘導と推論を改善することが示された。
事前学習済み大規模言語モデル(LLM)におけるトークナイザーの移植を、直交マッチング追跡法(OMP)を用いて未知のトークン埋め込みを再構築することで、学習不要で実現する手法を提案します。具体的には、共有トークンの疎な線形結合として各未知語トークンを近似する2段階のプロセスを採用します。まず、共有アンカートークンの小さな辞書を用いて、ドナーの埋め込み空間における新しいトークンの表現を計算し、次にこれらの同じ疎係数をベースモデルの埋め込み空間に転送します。 2つの挑戦的なクロストークナイザータスク(LlamatoMistral NeMo(12B)とQwentoLlama(1B))において、OMPが複数のベンチマークでベースモデルの性能を最も良く維持する一方で、他のゼロショットアプローチは大幅に性能が低下することを示します。ベースライン(ゼロ初期化、平均初期化、およびWECHSEL、FOCUS、ZETTなどの既存手法)と比較して、OMPは一貫して最高の総合性能を達成し、勾配更新なしで大きなトークナイザーの差異を効果的に橋渡しします。さらに、数値トークン化スキームの不一致が数学的推論能力を維持する上での重要な課題であることを分析により特定します。この技術により、新しいトークナイザーで事前学習済みモデルの重みを直接再利用することが可能となり、クロストークナイザー知識蒸留、投機的デコード、アンサンブル、マージ、およびドメイン固有の語彙適応を容易にします。本手法をオープンソースのmergekit-tokensurgeonツールに統合し、事後の語彙再調整を実現します。
近年の対話型AIの進展は目覚ましいものがあるが、知覚的タスクガイダンスのためのリアルタイムシステムの開発は依然として課題が多い。これらのシステムは、ストリーミングされる視覚入力を基に、インタラクティブで先行的な支援を提供する必要があるが、その開発は、データ収集とシステム評価のコスト高で労力を要するプロセスによって制約されている。これらの制約に対処するため、我々は3つの主要な貢献を備えた包括的なフレームワークを提案する。第一に、注釈付きエゴセントリックビデオから対話を合成する新しいデータキュレーションパイプラインを導入し、複数ドメインにまたがる大規模な合成対話データセット\datasetを構築した。第二に、広範な人間による研究を通じて検証された自動評価指標のスイートを開発した。第三に、ストリーミングビデオ入力を処理して文脈に適した応答を生成するエンドツーエンドモデルを提案し、データの不均衡や長時間ビデオの処理のための新たな技術を組み込んだ。この研究は、多様なタスクを通じてユーザーをガイドする能力を持つリアルタイムで先行的なAIアシスタントの開発の基盤を築くものである。プロジェクトページ: https://pro-assist.github.io/
中国語と中国文化の基盤をなす漢字は、非常に広範かつ拡大し続けるカテゴリーを包含しており、最新の中国GB18030-2022標準では87,887のカテゴリーが含まれています。この膨大な数の文字を正確に認識すること、すなわちメガカテゴリー認識は、文化遺産の保存とデジタルアプリケーションにとって極めて重要でありながらも困難な課題です。光学文字認識(OCR)の分野では大きな進展が見られるものの、包括的なデータセットの欠如により、メガカテゴリー認識は未開拓のままです。既存の最大のデータセットでも16,151カテゴリーしか含まれていません。この重要なギャップを埋めるため、私たちはMegaHan97Kを紹介します。これは、前例のない97,455カテゴリーの漢字をカバーするメガカテゴリー大規模データセットです。私たちの研究は以下の3つの主要な貢献を提供します:(1)MegaHan97Kは、最新のGB18030-2022標準を完全にサポートする初めてのデータセットであり、既存のデータセットの少なくとも6倍以上のカテゴリーを提供します。(2)手書き、歴史的、合成の3つの異なるサブセットを通じて、すべてのカテゴリーにわたるバランスの取れたサンプルを提供し、ロングテール分布問題を効果的に解決します。(3)包括的なベンチマーク実験により、メガカテゴリーシナリオにおける新たな課題、すなわち増大するストレージ需要、形態的に類似した文字の認識、ゼロショット学習の困難さが明らかになる一方で、今後の研究に向けた大きな可能性も開かれます。私たちの知る限り、MetaHan97KはOCR分野だけでなく、パターン認識のより広範な領域においても、最大のクラスを持つデータセットである可能性が高いです。データセットはhttps://github.com/SCUT-DLVCLab/MegaHan97Kで公開されています。
大規模言語モデル(LLMs)のアライメントは、実用上の安全性と信頼性を確保するために極めて重要です。Direct Preference Optimization(DPO)は、選好ペアを直接利用してモデルを最適化する効率的な手法として登場し、リソース要求を大幅に削減します。しかし、DPOの有効性はデータ品質に大きく依存し、ノイズによってしばしば損なわれます。本研究では、ペアワイズレベルで報酬マージンを調整する動的ターゲットマージン選好最適化アルゴリズムであるgamma-POを提案します。インスタンス固有のマージンキャリブレーションを導入することで、gamma-POは高信頼度ペア(より高い報酬マージンを示すペア)を戦略的に優先し、曖昧なペアからの潜在的なノイズを抑制します。さらに、gamma-POはプラグアンドプレイ方式であり、選好ペア間の報酬マージンに依存するDPOのバリエーションと互換性があります。AlpacaEval2やArena-Hardなどのベンチマークにおいて、gamma-POは他のベースラインと比較して平均4.4%の改善を達成し、最新の性能基準を新たに設定しました。加えて、gamma-POは最小限のコード変更で済み、トレーニング効率にほとんど影響を与えないため、LLMのアライメントを強化する堅牢なソリューションとなっています。私たちのコードはhttps://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}で公開されています。
大規模言語モデル(LLM)は、擬似悪意のある指示に対して頻繁に応答を拒否します。これは、保守的な安全性アラインメントにより、意味的には無害な入力クエリが不必要なLLMの拒否を引き起こし、ユーザーエクスペリエンスを著しく損なうためです。このような指示を収集することは、過剰な拒否を評価し緩和するために重要ですが、既存の指示キュレーション方法(手動作成や指示の書き換えなど)は、スケーラビリティに欠けるか、十分に多様で効果的な拒否を誘発するプロンプトを生成できません。これらの制限に対処するため、我々はEVOREFUSEを導入します。これは、多様な擬似悪意のある指示を生成し、LLM間で一貫して自信を持った拒否を引き起こすプロンプト最適化アプローチです。EVOREFUSEは、突然変異戦略と組み換えにより、既存の方法よりも多様な方向で指示空間を探索する進化的アルゴリズムを使用し、LLMの拒否確率の証拠下限を最大化するためにシード指示を反復的に進化させます。EVOREFUSEを使用して、我々は2つの新しいデータセットを作成しました。EVOREFUSE-TESTは、582の擬似悪意のある指示のベンチマークで、9つのLLMで140.41%高い平均拒否トリガー率、34.86%高い語彙的多様性、40.03%改善されたLLM応答信頼度スコアを達成し、次善のベンチマークを上回ります。また、EVOREFUSE-ALIGNは、教師ありおよび選好ベースのアラインメントトレーニングのための3,000の擬似悪意のある指示と応答を提供します。EVOREFUSE-ALIGNで教師あり微調整されたLLAMA3.1-8B-INSTRUCTは、安全性を損なうことなく、次善のアラインメントデータセットでトレーニングされたモデルよりも最大14.31%少ない過剰拒否を達成します。EVOREFUSE-TESTを用いた分析により、モデルが広範な文脈を無視して敏感なキーワードに過度に焦点を当てることが過剰拒否を引き起こすことが明らかになりました。