翻訳付きの日次キュレーションされたAI研究論文
視覚-言語-行動(VLA)モデルは、ロボットが言語指示に従い精密な動作を実行する能力を実現する上で、最近大きな可能性を示している。しかし、ほとんどのVLAモデルは2Dデータのみで事前学習された視覚-言語モデルに基づいて構築されており、正確な空間認識を欠いており、3D物理世界での動作能力を妨げている。既存の解決策は、深度マップや点群などの明示的な3Dセンサー入力を組み込むことを試みているが、これらのアプローチはセンサー雑音、ハードウェアの多様性、既存データセットにおける深度カバレッジの不完全さといった課題に直面している。2D画像から3D手がかりを推定する代替手法も、深度推定器の性能の限界に悩まされている。本研究では、明示的な3D入力や深度推定器に依存せずに、VLAモデルが空間理解能力を発展させることを暗黙的に促す、シンプルかつ効果的なアラインメント戦略であるSpatial Forcing(SF)を提案する。SFは、事前学習された3D基盤モデルによって生成された幾何学的表現と、VLAの中間視覚埋め込みを整合させる。中間層での整合を強制することで、SFはVLAがより豊かな空間表現をエンコードし、動作精度を向上させるよう導く。シミュレーションおよび実環境における広範な実験により、SFが2Dおよび3DベースのVLAモデルを上回る最先端の結果を達成することが示された。さらに、SFはトレーニングを最大3.8倍加速し、多様なロボットタスクにおけるデータ効率を向上させる。プロジェクトページはhttps://spatial-forcing.github.io/にて公開されている。
ピクセル空間の生成モデルは、潜在空間のモデルと比較して、訓練がより困難であり、一般的に性能が劣る傾向があり、持続的な性能と効率のギャップが存在する。本論文では、ピクセル空間の拡散モデルおよび一貫性モデルにおいてこのギャップを埋める新しい二段階の訓練フレームワークを提案する。第一段階では、クリーンな画像から意味のあるセマンティクスを捕捉し、それらを同じ決定論的サンプリング軌跡上の点と整合させるエンコーダを事前訓練する。この軌跡は、事前分布からデータ分布へと点を進化させるものである。第二段階では、エンコーダをランダムに初期化されたデコーダと統合し、拡散モデルおよび一貫性モデルの両方に対して完全なモデルをエンドツーエンドで微調整する。我々の訓練フレームワークは、ImageNetデータセットにおいて強力な実証性能を示す。具体的には、我々の拡散モデルは、ImageNet-256でFID 2.04、ImageNet-512でFID 2.35を75回の関数評価(NFE)で達成し、生成品質と効率の両面で従来のピクセル空間手法を大幅に上回り、同等の訓練コストで主要なVAEベースのモデルに匹敵する。さらに、ImageNet-256において、我々の一貫性モデルは単一のサンプリングステップでFID 8.82という印象的な結果を達成し、潜在空間のモデルを大幅に上回る。我々の知る限り、これは事前訓練されたVAEや拡散モデルに依存せずに高解像度画像上で直接一貫性モデルを成功裏に訓練した初めての例である。
大規模言語モデル(LLM)は機械翻訳(MT)を大幅に進化させてきたが、ウェブ小説の翻訳における有効性は依然として不明確である。既存のベンチマークは表面的な指標に依存しており、このジャンルの特徴を捉えることができていない。これらの課題を解決するため、我々はDITINGを導入した。これはウェブ小説翻訳のための初の包括的評価フレームワークであり、慣用句翻訳、語彙の曖昧性、用語のローカライゼーション、時制の一貫性、ゼロ代名詞の解決、文化的安全性の6つの次元にわたって物語と文化の忠実度を評価する。18,000以上の専門家による注釈付き中国語-英語文ペアに基づいており、さらにAgentEvalを提案する。これは推論を駆使したマルチエージェント評価フレームワークで、専門家の審議をシミュレートし、語彙の重なりを超えた翻訳品質を評価する。7つの自動評価指標の中で人間の判断との最も高い相関を達成した。指標の比較を可能にするため、MetricAlignを開発した。これは300の文ペアからなるメタ評価データセットで、エラーレベルとスカラー品質スコアが注釈されている。14のオープン、クローズド、商用モデルの包括的評価により、中国語で訓練されたLLMがより大規模な外国製モデルを上回り、DeepSeek-V3が最も忠実で文体的一貫性のある翻訳を提供することが明らかになった。我々の研究は、LLMベースのウェブ小説翻訳を探求するための新たなパラダイムを確立し、将来の研究を進めるための公開リソースを提供するものである。
最近のマルチモーダル埋め込みアプローチでは、コントラスティブ学習(CL)でファインチューンされたマルチモーダル大規模言語モデル(MLLM)を活用することで有望な結果が示されているが、その優位性の根本的な理由はまだ十分に解明されていない。本研究では、MLLMベースのアプローチの重要な利点は、生成的な事前学習中に達成される暗黙的なクロスモーダルアラインメントに起因すると主張する。ここでは、言語デコーダが共有表現空間内のマルチモーダル信号を活用してユニモーダル出力を生成することを学習する。異方性とカーネル類似性構造の分析を通じて、MLLM表現内に潜在的なアラインメントが生じ、CLが軽量な改良段階として機能することを実証的に確認した。この洞察を活かし、Language-Centric Omnimodal Embeddingフレームワーク(LCO-Emb)を提案する。多様なバックボーンとベンチマークでの広範な実験により、その有効性が実証され、モダリティを超えた最先端の性能を達成した。さらに、生成-表現スケーリング則(GRSL)を特定し、コントラスティブ改良を通じて得られる表現能力がMLLMの生成能力と正の相関を持つことを示した。これは、生成能力の向上が表現品質を高めるための効果的なパラダイムとして進化することを示唆している。GRSLの理論的説明を提供し、MLLMの生成品質とその表現性能の上限を形式的に結びつけ、低リソースの視覚-文書検索タスクで検証した。その結果、CLの前に継続的な生成的な事前学習を行うことで、モデルの埋め込み能力の潜在能力をさらに高められることが示された。コード、モデル、リソースはhttps://github.com/LCO-Embedding/LCO-Embeddingで公開されている。
ロボット学習は、機械学習の急速な進歩と大規模なロボティクスデータの利用可能性の高まりによって、転換点を迎えています。従来のモデルベースの手法から、データ駆動型の学習ベースのパラダイムへのこのシフトは、自律システムにおいて前例のない能力を解き放っています。本チュートリアルは、現代のロボット学習の全体像を概観し、強化学習や行動クローニングの基礎原理から、多様なタスクや異なるロボットの形態にわたって動作可能な汎用言語条件付きモデルまでの道筋を示します。この研究は、研究者や実務者向けのガイドとして意図されており、読者がロボット学習の進展に貢献するために必要な概念的理解と実用的なツールを提供することを目的としています。具体的な例として、lerobotで実装されたすぐに使えるサンプルを用意しています。
大規模言語モデル(LLM)の進化は、コード生成支援から自律的なコーディングエージェントへのパラダイムシフトを引き起こし、「Vibe Coding」と呼ばれる新しい開発方法論を可能にしました。この方法論では、開発者がAIが生成した実装を、コードを一行ずつ理解するのではなく、結果の観察を通じて検証します。この革新的なパラダイムには変革の可能性があるものの、その有効性はまだ十分に検証されておらず、実証研究では予期せぬ生産性の低下や人間とAIの協業における根本的な課題が明らかになっています。このギャップを埋めるため、本調査は大規模言語モデルを用いたVibe Codingに関する初の包括的かつ体系的なレビューを提供し、この変革的な開発アプローチの理論的基盤と実践的フレームワークを確立します。1000以上の研究論文の体系的分析に基づき、Vibe Codingのエコシステム全体を調査し、コーディング用LLM、LLMベースのコーディングエージェント、コーディングエージェントの開発環境、フィードバックメカニズムといった重要なインフラストラクチャ要素を検証します。まず、Vibe Codingを正式な学問分野として紹介し、人間の開発者、ソフトウェアプロジェクト、コーディングエージェントの間の動的な三者関係を捉える制約付きマルコフ決定過程を通じて形式化します。この理論的基盤を踏まえ、既存の実践を5つの異なる開発モデル(無制限自動化、反復的対話型協業、計画主導型、テスト駆動型、コンテキスト強化型モデル)に統合し、この領域で初の包括的な分類体系を提供します。重要な点として、我々の分析は、Vibe Codingの成功が単にエージェントの能力に依存するのではなく、体系的なコンテキストエンジニアリング、確立された開発環境、人間とエージェントの協業開発モデルに依存することを明らかにしています。
物体検出は長らく、YOLO、DETR、Grounding DINOなどの伝統的な座標回帰ベースのモデルが支配してきた。近年、MLLM(大規模言語モデル)を活用してこのタスクに取り組む試みがなされているが、低い再現率、重複予測、座標の不一致などの課題に直面している。本研究では、このギャップを埋めるために、3BスケールのMLLMであるRex-Omniを提案し、最先端の物体認識性能を達成する。COCOやLVISなどのベンチマークにおいて、Rex-Omniはゼロショット設定で回帰ベースのモデル(例:DINO、Grounding DINO)に匹敵するか、それを上回る性能を示す。これを可能にしたのは、以下の3つの主要な設計である:1)タスク定式化:0から999までの量子化された座標を表す特別なトークンを使用し、モデルの学習難易度を低減し、座標予測のためのトークン効率を向上させる。2)データエンジン:高品質なグラウンディング、参照、ポイントデータを生成するために複数のデータエンジンを構築し、意味的に豊かな教師データを提供する。3)トレーニングパイプライン:2段階のトレーニングプロセスを採用し、2200万データに対する教師あり微調整とGRPOベースの強化学習によるポストトレーニングを組み合わせる。このRLポストトレーニングは、幾何学的に意識した報酬を活用して、離散から連続への座標予測のギャップを効果的に埋め、ボックスの精度を向上させ、初期SFT段階の教師ガイド性質に起因する重複予測などの望ましくない挙動を軽減する。従来の検出を超えて、Rex-Omniの内在的な言語理解能力は、物体参照、ポイント、視覚的プロンプティング、GUIグラウンディング、空間参照、OCR、キーポイントなど、多様な機能を可能にし、専用のベンチマークで体系的に評価されている。我々は、Rex-Omniがより多機能で言語を意識した視覚認識システムへの道を開くものと信じている。
検索拡張生成(RAG)は、大規模言語モデルをその静的な学習限界を超えて拡張するための基本的なパラダイムとして登場した。しかし、現在のRAGの能力と現実世界の情報環境との間には重大な不整合が存在する。現代の知識リポジトリは本質的にマルチモーダルであり、テキストコンテンツ、視覚的要素、構造化された表、数学的表現などの豊かな組み合わせを含んでいる。しかし、既存のRAGフレームワークはテキストコンテンツに限定されており、マルチモーダルドキュメントを処理する際に根本的なギャップを生じさせている。本論文では、すべてのモダリティにわたる包括的な知識検索を可能にする統一フレームワークであるRAG-Anythingを提案する。我々のアプローチは、マルチモーダルコンテンツを孤立したデータタイプではなく、相互接続された知識エンティティとして再概念化する。このフレームワークは、クロスモーダル関係とテキスト意味論の両方を統一された表現内で捕捉するためのデュアルグラフ構築を導入する。構造的な知識ナビゲーションと意味的マッチングを組み合わせたクロスモーダルハイブリッド検索を開発し、関連する証拠が複数のモダリティにまたがる異種コンテンツに対する効果的な推論を可能にする。RAG-Anythingは、挑戦的なマルチモーダルベンチマークにおいて、最先端の手法を大幅に上回る性能を示す。特に、従来のアプローチが失敗する長文ドキュメントにおいて、性能向上が顕著である。本フレームワークは、現在のシステムを制約するアーキテクチャの断片化を解消し、マルチモーダル知識アクセスの新たなパラダイムを確立する。本フレームワークは、https://github.com/HKUDS/RAG-Anything でオープンソースとして公開されている。
拡散モデルは最近、映像修復の分野で進展を遂げていますが、実世界のビデオ超解像(VSR)に適用する際には、高いレイテンシ、膨大な計算量、超高解像度への汎化性能の低さといった課題が残っています。本研究の目的は、効率性、スケーラビリティ、リアルタイム性能を実現することで、拡散モデルに基づくVSRを実用的なものにすることです。この目的のために、我々はFlashVSRを提案します。これは、リアルタイムVSRを目指した初の拡散モデルベースのワンステームストリーミングフレームワークです。FlashVSRは、単一のA100 GPU上で768x1408のビデオに対して約17 FPSで動作し、以下の3つの補完的なイノベーションを組み合わせています:(i) ストリーミング超解像を可能にするトレーニングフレンドリーな3段階蒸留パイプライン、(ii) 冗長な計算を削減しつつトレーニングとテストの解像度ギャップを埋める局所性制約付きスパースアテンション、(iii) 品質を犠牲にすることなく再構築を加速する小型の条件付きデコーダ。大規模なトレーニングをサポートするために、120kのビデオと180kの画像を含む新しいデータセットVSR-120Kも構築しました。広範な実験により、FlashVSRが超高解像度に確実にスケールし、従来のワンステップ拡散VSRモデルと比較して最大12倍の高速化を達成しつつ、最先端の性能を発揮することが示されました。効率的な拡散モデルベースのVSR研究を促進するため、コード、事前学習済みモデル、データセットを公開する予定です。
拡散モデルは生成モデルとして顕著な成功を収めている。しかし、十分に訓練されたモデルであっても、生成プロセス全体を通じて誤差が蓄積する可能性がある。これらの誤差は、サンプルを所望の特性に向けて誘導するために任意のガイダンスを適用する際に特に問題となり、サンプルの忠実性を損なうことが多い。本論文では、拡散モデルで観察されるオフマニフォールド現象に対処するための一般的な解決策を提案する。我々のアプローチでは、タイムステップごとに所望のデータマニフォールドからの偏差を推定するために時間予測器を活用し、時間ギャップが大きいほど生成品質が低下することを特定する。次に、生成プロセス中の各タイムステップでサンプルを所望のマニフォールドに引き戻す新しいガイダンス機構「Temporal Alignment Guidance」(TAG)を設計する。広範な実験を通じて、TAGが各タイムステップで所望のマニフォールドに密接に整合したサンプルを一貫して生成し、様々な下流タスクにおける生成品質の大幅な向上をもたらすことを実証する。
大規模言語モデル(LLMs)は、すべてのトークンをトランスフォーマーの全層を通じて処理するため、単純なクエリでは計算が無駄になり、より深い推論を必要とする難しいクエリには柔軟性が不足します。適応的な深さの手法は効率を向上させることができますが、従来のアプローチは高コストな推論時の検索、アーキテクチャの変更、または大規模な再学習に依存しており、実際には効率の向上にもかかわらず精度が低下することがよくあります。我々は、Dr.LLM(Dynamic routing of Layers for LLMs)を紹介します。これは、事前学習済みモデルに軽量な層ごとのルーターを装備し、ブロックをスキップ、実行、または繰り返すかを決定する後付け可能なフレームワークです。ルーターは明示的な監督で訓練されます:モンテカルロ木探索(MCTS)を使用して、計算予算の下で精度を維持または向上させる高品質な層構成を導出します。我々の設計、安定したルーティングのためのウィンドウプーリング、クラスバランスを考慮した焦点損失、およびボトルネックMLPルーターは、クラスの不均衡や長いシーケンスの下での堅牢性を確保します。ARC(論理)とDART(数学)では、Dr.LLMは精度を最大+3.4%p向上させながら、平均して1例あたり5層を節約します。ルーターは、ドメイン外のタスク(MMLU、GSM8k、AIME、TruthfulQA、SQuADv2、GPQA、PIQA、AGIEval)にも一般化し、効率を維持しながらわずか0.85%の精度低下で、従来のルーティング手法を最大+7.7%p上回ります。全体として、Dr.LLMは、明示的に監督されたルーターが、ベースの重みを変更することなく、予算を意識した精度主導の推論のために凍結されたLLMsを後付けできることを示しています。
近年のエンボディドAIの進展は、複雑な環境における知覚、推論、相互作用が可能なエージェントとしての視覚言語モデル(VLM)の可能性を浮き彫りにしている。しかし、最高性能のシステムは大規模モデルに依存しており、展開コストが高く、一方で小規模なVLMは成功に必要な知識とスキルを欠いている。このギャップを埋めるため、我々は事前知識学習とオンライン強化学習(RL)を統合した二段階フレームワークであるEmbodied Reasoning Agent(ERA)を提案する。第一段階のEmbodied Prior Learningでは、三種類のデータから基礎知識を蒸留する:(1)Trajectory-Augmented Priorsは、既存の軌跡データをより強力なモデルによって生成された構造化推論で強化する;(2)Environment-Anchored Priorsは、環境内の知識とグラウンディング監視を提供する;(3)External Knowledge Priorsは、環境外のデータセットから一般的な知識を転移する。第二段階では、これらの事前知識を基盤としてエージェントの性能をさらに向上させるオンラインRLパイプラインを開発する。エージェントRLに内在する課題、すなわち長い時間軸、疎な報酬、訓練の不安定性を克服するため、我々は三つの主要な設計を導入する:コンテキスト管理のための自己要約、密な報酬形成、ターンレベルのポリシー最適化である。高レベルの計画(EB-ALFRED)と低レベルの制御(EB-Manipulation)タスクにおける広範な実験により、ERA-3Bがプロンプトベースの大規模モデルや従来の訓練ベースのベースラインを凌駕することが示された。具体的には、EB-ALFREDで8.4%、EB-Manipulationで19.4%の全体的な改善をGPT-4oに対して達成し、未見のタスクに対する強い汎化能力を示した。全体として、ERAはスケーラブルなエンボディドインテリジェンスに向けた実用的な道筋を提供し、将来のエンボディドAIシステムに対する方法論的洞察を与えるものである。
大規模言語モデル(LLMs)は、将来の状態をシミュレートし、行動の結果を予測することで、デジタル環境におけるエージェントの意思決定を強化するための世界モデルとして機能し得る。これにより、コストのかかる試行錯誤的な探索を排除する可能性がある。しかし、この能力は、LLMsが幻覚を起こしやすい傾向や、静的な訓練知識に依存する性質によって根本的に制限されており、長期的なシミュレーションを阻害する誤差の累積を引き起こす可能性がある。LLMsが世界モデリングに適しているかどうかを体系的に調査するため、我々は世界モデルの2つの核心的な能力――将来の状態予測と報酬推定――を、次の3つのタスクを通じて探る:次の状態の識別、全手順の計画整合、マイルストーン遷移の認識。分析の結果、LLMsは直近の次の状態を効果的に捉え、意味のある状態遷移を識別するものの、全手順の計画においては性能が急速に低下することが明らかとなった。これは、LLMsが長期的な環境ダイナミクスを信頼性高くモデル化する能力に限界があることを示している。これらの限界を克服するため、我々は外部のチュートリアルから取得した事実に基づく最新の知識を組み込むことでLLMシミュレーションを基盤化する「検索拡張型世界モデル(R-WoM)」を提案する。実験の結果、R-WoMはベースラインと比較して最大25.3%(OSWorld)および18.1%(WebArena)の大幅な改善を達成し、特に長期的なシミュレーションにおいて優位性を示した。
近年、視覚と言語の生成および理解能力を単一のフレームワークに統合する統一マルチモーダルモデル(UMMs)において、顕著な進展が見られている。しかし、モデルの強力な視覚理解能力が視覚生成に必ずしも転移しないという大きなギャップが存在する。モデルはユーザーの指示に基づいて画像を正しく理解できる一方で、テキストプロンプトから忠実な画像を生成できない場合がある。この現象は、モデルが理解モジュールを用いて生成モジュールを報酬することで自己改善を達成できるか、という興味深い疑問を直接的に提起する。このギャップを埋め、自己改善を実現するため、我々はSRUM(Self-Rewarding Post-Training Framework)を提案する。SRUMは、既存のさまざまな設計のUMMsに直接適用可能な自己報酬型のポストトレーニングフレームワークであり、追加の人間によるラベルデータを必要とせず、モデル自身の理解モジュールが内部「評価者」として機能し、生成モジュールを改善するための修正信号を提供するフィードバックループを構築する。このフィードバックを包括的なものとするため、我々はグローバル-ローカルの二重報酬システムを設計した。画像の本質的な構造的複雑性に対処するため、このシステムはマルチスケールのガイダンスを提供する。グローバル報酬は全体の視覚的意味論とレイアウトの正確性を保証し、ローカル報酬は細粒度のオブジェクトレベルの忠実度を洗練する。SRUMは強力な能力を発揮し、高い汎化性能を示し、T2I-CompBenchにおける性能を82.18から88.37に、T2I-ReasonBenchにおける性能を43.82から46.75に向上させた。全体として、我々の研究は、UMMsの理解モジュールが自己報酬を通じて自身の生成を導き強化するための強力な新たなパラダイムを確立するものである。
近年、視覚生成の進展は目覚ましいものがあるが、既存のアーキテクチャの多くは依然として画像とテキストのための別個のエンコーダに依存している。この分離は、拡散モデルがクロスモーダル推論や知識転移を行う能力を制約している。このギャップを埋めるための従来の試みでは、VLM(大規模視覚言語モデル)の最終層情報を利用したり、複数の視覚エンコーダを採用したり、テキストと画像生成のための大規模な統合モデルを共同で訓練したりすることが多いが、これらは多大な計算資源と大規模なデータを必要とし、アクセシビリティを制限している。本論文では、凍結された大規模視覚言語モデル(VLM)を統一的なマルチモーダルエンコーダとして利用する、拡散ベースの生成モデルUniFusionを提案する。UniFusionの中核となるのは、凍結されたVLMのテキストおよび視覚トークンから高レベルのセマンティクスと低レベルの詳細を抽出し、拡散生成モデルを条件付けるLayerwise Attention Pooling(LAP)メカニズムである。LAPは、生成におけるテキストと画像の整合性や、VLMから拡散モデルへの視覚情報の忠実な転送において、他の浅い融合アーキテクチャを凌駕することを示す。さらに、VLM-Enabled Rewriting Injection with Flexibile Inference(VERIFI)を提案し、モデル内プロンプト書き換え中にVLMによって生成されたテキストトークンのみを条件として拡散トランスフォーマー(DiT)を条件付ける。VERIFIは、条件付け分布の整合性とVLMの推論能力を組み合わせることで、推論時の能力と柔軟性を向上させる。さらに、編集タスクに対するファインチューニングは、生成におけるテキストと画像の整合性を改善するだけでなく、クロスモダリティ知識転移を示し、驚異的な汎化能力を発揮する。単一画像編集で訓練された我々のモデルは、複数の画像参照に対してゼロショットで汎化し、UniFusionの統一エンコーダ設計をさらに動機づける。
学習後のアラインメントは、しばしば大規模言語モデル(LLM)の多様性を減少させ、モード崩壊として知られる現象を引き起こす。従来の研究では、この効果をアルゴリズムの制約に帰着させてきたが、本研究では、認知心理学における確立された知見に基づき、アノテーターが慣れ親しんだテキストを体系的に選好するという、データレベルでの根本的かつ普遍的な要因を特定する。このバイアスを理論的に形式化し、選好データセット上で実証的に検証し、モード崩壊において中心的な役割を果たすことを示す。この分析に基づき、モード崩壊を回避するためのシンプルで学習不要なプロンプト戦略である「Verbalized Sampling(VS)」を提案する。VSは、モデルに対して一連の応答に対する確率分布を言語化するよう促す(例:「コーヒーに関するジョークを5つ生成し、それぞれの確率を示してください」)。包括的な実験により、VSが創造的執筆(詩、物語、ジョーク)、対話シミュレーション、オープンエンド質問応答、および合成データ生成において、事実の正確性や安全性を損なうことなく、性能を大幅に向上させることが示された。例えば、創造的執筆において、VSは直接プロンプトと比較して多様性を1.6~2.1倍向上させる。さらに、能力の高いモデルほどVSの恩恵をより大きく受けるという新たな傾向も観察された。総じて、本研究はモード崩壊に対する新たなデータ中心の視点と、事前学習済み生成モデルの多様性を引き出すための実践的な推論時対策を提供する。
Transformer言語モデルの成功は、そのドット積アテンションメカニズムに広く帰因されており、このメカニズムはいくつかの重要な設計原則を織り交ぜています。これらの原則には、位置間での情報の混合(複数のトークン間の相互作用を可能にする)、シーケンス依存の活性化(アテンションの重みが各入力に適応する)、特定の数学的形式(ドット積類似度とソフトマックス重み付け)、およびクエリとキーを進化する隠れ状態に結合すること(現在の層に基づいたアテンションを実現する)が含まれます。しかし、これらの各原則の必要性はほとんど検証されていません。本研究では、これらの原則を選択的に緩和する制御されたバリアントを設計し、すべての層に均一に適用する場合と、一部の層のみが標準的なアテンションを保持するハイブリッドアーキテクチャにおいて、アテンションを体系的に分解します。我々の実証分析によれば、トークンを混合するメカニズムは不可欠であり、その欠如はモデルをほぼランダムな挙動に陥らせますが、正確な数学的形式やシーケンス依存性は大幅に緩和可能であり、特に一部の層でのみ保持される場合に顕著です。驚くべきことに、単独では失敗するバリアントでも、標準的なアテンションと交互に配置されることで堅牢な性能を達成し、協調効果が明らかになりました。これらの発見は、アテンションの有効性を真に支える要素についての理解を深め、性能を犠牲にすることなく言語モデルを簡素化する新たな道を開きます。
大規模言語モデルは、長期的なエージェントタスクにおいて、制約されたメモリが雑多または無関係な文脈に容易に圧倒されるという課題に直面しています。既存のワーキングメモリ手法は、通常、エージェントのコアポリシーから切り離された外部のヒューリスティックなメカニズムに依存しています。本研究では、ワーキングメモリ管理を学習可能な内在的な能力として再定義します。我々は、エージェントが統一されたポリシーの一部として明示的な編集操作を実行することで、能動的にワーキングメモリを管理する新しいフレームワーク「Memory-as-Action」を提案します。この定式化により、強化学習によって訓練されたエージェントは、与えられたリソース制約の下で、メモリのキュレーションと長期的なタスク目標のバランスを取ることができます。しかし、このようなメモリ編集操作は、LLMインタラクションにおける連続的に成長するプレフィックスの標準的な仮定を破り、我々が「軌道の分断」と呼ぶ現象を引き起こします。これらの非プレフィックス変更は、標準的なポリシー勾配法に必要な因果的連続性を妨げ、それらの手法を適用不可能にします。この問題に対処するため、我々は新しいアルゴリズム「Dynamic Context Policy Optimization」を提案します。このアルゴリズムは、メモリアクションポイントで軌道を分割し、結果として得られるアクションセグメントに軌道レベルのアドバンテージを適用することで、安定したエンドツーエンドの強化学習を可能にします。我々の結果は、タスク推論とメモリ管理をエンドツーエンドで最適化することが、全体的な計算消費を削減するだけでなく、モデルの内在的な能力に適応した文脈キュレーション戦略によってタスク性能を向上させることを示しています。
拡散型大規模言語モデル(dLLM)に強化学習(RL)を適用する際の主要な課題は、RLの目的関数に不可欠な尤度関数の計算困難性にあり、各訓練ステップで対応する近似が必要となります。既存の手法では、カスタマイズされたモンテカルロ(MC)サンプリングを通じて対数尤度をその証拠下界(ELBO)で近似していますが、RL目的関数の非線形項の勾配計算のために、すべてのMCサンプルの順方向計算グラフを保持する必要があり、これが大きなメモリオーバーヘッドを引き起こします。この制約により、実行可能なサンプルサイズが制限され、不正確な尤度近似が生じ、最終的にRL目的関数が歪んでしまいます。この制限を克服するため、我々はメモリ効率の良いRLアルゴリズムであるBoundary-Guided Policy Optimization(BGPO)を提案します。BGPOは、ELBOベースの目的関数の特別に構築された下界を最大化します。この下界は、以下の2つの重要な特性を満たすように慎重に設計されています:(1)線形性:各項が単一のMCサンプルにのみ依存する線形和として定式化されており、サンプル間での勾配累積を可能にし、メモリ使用量を一定に保ちます;(2)等価性:この下界の値と勾配は、オン方策訓練においてELBOベースの目的関数のそれらと等しく、元のRL目的関数の効果的な近似としても機能します。これらの特性により、BGPOは大きなMCサンプルサイズを採用することができ、より正確な尤度近似と改善されたRL目的関数の推定が可能となり、結果として性能が向上します。実験結果は、BGPOが数学問題解決、コード生成、および計画タスクにおいて、従来のRLアルゴリズムを大幅に上回ることを示しています。
現実世界のアプリケーションにおけるマルチモーダル大規模言語モデル(MLLMs)は、外部の知識源へのアクセスを必要とし、情報探索や知識集約型のユーザークエリに対応するために、動的かつ絶えず変化する現実世界の情報に対応し続けなければなりません。既存のアプローチ、例えば検索拡張生成(RAG)手法、検索エージェント、検索機能を備えたMLLMsは、しばしば硬直的なパイプライン、過剰な検索呼び出し、不適切に構築された検索クエリに悩まされ、非効率性と最適でない結果を招いています。これらの制限に対処するため、我々はDeepMMSearch-R1を提案します。これは、オンデマンドでマルチターンのウェブ検索を実行し、画像およびテキスト検索ツールのためのクエリを動的に作成できる初のマルチモーダルLLMです。具体的には、DeepMMSearch-R1は入力画像の関連部分に基づいてウェブ検索を開始し、画像検索をより効果的にし、検索された情報に基づいてテキスト検索クエリを反復的に適応させ、自己反映と自己修正を可能にします。我々のアプローチは、二段階のトレーニングパイプラインに依存しています:コールドスタートの教師ありファインチューニングフェーズと、オンライン強化学習最適化です。トレーニングのために、我々はDeepMMSearchVQAを導入します。これは、ウェブ検索ツールからの現実世界の情報と自動化されたパイプラインを組み合わせて作成された新しいマルチモーダルVQAデータセットです。このデータセットには、テキストと視覚情報を統合した多様なマルチホップクエリが含まれており、モデルにいつ検索するか、何を検索するか、どの検索ツールを使用するか、検索された情報をどのように推論するかを教えます。我々は、知識集約型のベンチマークの範囲で広範な実験を行い、我々のアプローチの優位性を実証します。最後に、結果を分析し、マルチモーダルウェブ検索を進めるための貴重な洞察を提供します。
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクを可能にする情報豊かな統一表現を生成することを目指している。CLIPベースのデュアルタワーアーキテクチャから大規模視覚言語モデルへの進化において有望な進展が見られるものの、従来の研究は現実世界のアプリケーションやビジネスシナリオにおいて、限られたモダリティサポート、不安定なトレーニングメカニズム、産業ドメイン間のギャップといった避けられない課題に直面している。本研究では、これらの課題を解決するために、特化したトレーニング戦略とアーキテクチャ設計を採用したオムニモーダル埋め込み基盤モデルであるSAIL-Embeddingを紹介する。最適化プロセスにおいて、表現学習の多面的な効果を高めるために、多段階トレーニングスキームを提案する。具体的には、コンテンツ認識型の漸進的トレーニングにより、モデルの多様な下流タスクへの適応性を向上させ、豊富なクロスモーダル能力を習得することを目指す。また、コラボレーション認識型の推薦強化トレーニングにより、シーケンスからアイテムへの埋め込みやIDからアイテムへの埋め込みから知識を蒸留し、ユーザーの過去の興味を掘り下げることで、推薦シナリオに適したマルチモーダル表現をさらに適応させる。同時に、確率的専門化とデータセット駆動型のパターンマッチングを開発し、モデルトレーニングの柔軟性と汎化性を強化する。実験結果は、SAIL-Embeddingが異なる検索タスクにおいて他の手法と比較してSOTA性能を達成することを示している。我々のモデルを統合した様々な現実世界のシナリオにおけるオンライン実験では、推薦体験の重要な指標であるLifetime(LT)の著しい増加が観察された。例えば、Douyin-Selectedシナリオでは、7日間のLTゲインが+0.158%、14日間のLTゲインが+0.144%となった。Douyinフィードランクモデルでは、SAIL-Embeddingが生成するマッチ特徴により、+0.08%のAUCゲインが得られた。
近年、視覚言語モデル(VLM)の進展により、推論タスクにおける高い有効性が実証されている。しかし、高性能なVLM推論トレーニングデータセットの構築原理については、依然として理解が不十分である。本研究では、複数のデータキュレーション手法を導入し、トレーニングと評価の設定を慎重に制御することで、それらがVLMの推論能力に与える影響を調査した。具体的には、コンテキスト(画像と質問のペア)のソースの影響を分析し、ターゲットを絞ったデータ介入を実施し、画像、質問、および連鎖的思考(CoT)ソリューションのスケールアップを探求した。その結果、(a) コンテキストソース戦略がVLMの性能に大きく影響すること、(b) 画像キャプションからの補助信号やテキストのみの推論の包含といった介入が大幅な向上をもたらすこと、(c) すべてのデータ次元(例:画像ごとのユニークな質問や画像-質問ペアごとのユニークなCoT)をスケールアップすることが推論能力を一貫して向上させることが明らかとなった。これらの知見に基づき、350Kの画像-質問ペアからなる2.5Mの例を含む大規模で高品質なCoT推論データセット「HoneyBee」を導入した。HoneyBeeでトレーニングされたVLMは、モデルサイズを問わず、最先端のモデルを凌駕する。例えば、3BパラメータのHoneyBeeトレーニングVLMは、MathVerseにおいて、SOTAモデルおよびベースモデルをそれぞれ7.8%および24.8%上回った。さらに、デコードコストを73%削減しつつ精度を維持するテストタイムスケーリング戦略を提案した。全体として、本研究はVLM推論データセットキュレーション研究の改善戦略を示すものである。
マルチインスタンス画像生成(MIG)は、オブジェクトのレイアウトを正確に制御し、複数の異なる対象の同一性を維持する上での主要な制約により、現代の拡散モデルにとって依然として重要な課題である。これらの制約に対処するため、我々はレイアウトと参照画像の両方に基づいてガイドされる新しいDiffusion TransformerフレームワークであるContextGenを提案する。本アプローチは、2つの重要な技術的貢献を統合している。1つ目は、生成コンテキストに複合レイアウト画像を組み込み、オブジェクトを所望の位置に確実に固定するContextual Layout Anchoring(CLA)メカニズムであり、2つ目は、複数のインスタンスの同一性を保証するためにコンテキスト参照画像を活用する革新的なアテンションメカニズムであるIdentity Consistency Attention(ICA)である。このタスクのための大規模で階層的に構造化されたデータセットの不足を認識し、我々は詳細なレイアウトと同一性アノテーションを備えた初のデータセットであるIMIG-100Kを導入する。広範な実験により、ContextGenが制御精度、同一性の忠実度、および全体的な視覚的品質において既存の手法を上回り、新たな最先端を確立することが実証された。
AIの進歩は、必要な機能をすべて備えたプログラミング言語の欠如によって妨げられています。PyTorchやTensorFlowのようなライブラリは自動微分と効率的なGPU実装を提供しますが、これらはAIを意図して設計されたわけではないPythonへの追加機能に過ぎません。これらのライブラリは自動推論や知識獲得をサポートしておらず、その結果、これらの機能を無理やり追加しようとする長くてコストのかかる試みが繰り返されてきました。一方、LISPやPrologのようなAI言語は、スケーラビリティと学習のサポートに欠けています。本論文では、これらの問題を解決するために、ニューラルAIとシンボリックAIを根本的なレベルで統合するテンソル論理という言語を提案します。テンソル論理の唯一の構成要素はテンソル方程式であり、これは論理規則とアインシュタインの縮約記法が本質的に同じ操作であるという観察に基づいており、他のすべての操作はこれらに還元できます。本論文では、トランスフォーマー、形式的推論、カーネルマシン、グラフィカルモデルなど、ニューラル、シンボリック、統計的AIの主要な形式をテンソル論理でエレガントに実装する方法を示します。最も重要なのは、テンソル論理が新しい方向性を可能にすることです。例えば、埋め込み空間での健全な推論が挙げられます。これにより、ニューラルネットワークのスケーラビリティと学習可能性と、シンボリック推論の信頼性と透明性が組み合わされ、AIのより広範な採用の基盤となる可能性があります。
物理シーンのダイナミクスを理解するには、特に局所的な相互作用の結果として生じる多様な変化の可能性について推論することが必要です。本論文では、Flow Poke Transformer(FPT)という新しいフレームワークを提案します。これは、「ポーク」と呼ばれる疎な相互作用を条件として、局所的な運動の分布を直接予測するものです。従来の手法では通常、シーンダイナミクスの単一の実現を密にサンプリングすることしかできませんでしたが、FPTは、多様なシーン運動、物理的相互作用への依存性、およびシーンダイナミクスの内在的な不確実性を解釈可能で直接アクセス可能な形で表現します。また、我々のモデルをいくつかの下流タスクで評価し、従来の手法との比較を可能にするとともに、我々のアプローチの柔軟性を強調します。密な顔の運動生成において、我々の汎用的な事前学習モデルは、専門的なベースラインを上回ります。FPTは、合成データセットのような強く分布外のタスクでも微調整が可能であり、関節物体の運動推定において、ドメイン内の手法を大幅に改善することができます。さらに、明示的な運動分布を直接予測することで、ポークからの可動部分のセグメンテーションのようなタスクにおいても競争力のある性能を達成し、FPTの汎用性をさらに実証しています。コードとモデルはhttps://compvis.github.io/flow-poke-transformerで公開されています。
指示に基づく画像編集は、自然言語を通じて画像を操作する強力で直感的な方法を提供する。しかし、テキスト指示のみに依存することは、編集の範囲に対する細かな制御を制限する。本論文では、Kontinuous Kontextを紹介する。これは、編集の強度を新たな次元で制御する指示駆動型編集モデルであり、ユーザーが編集を徐々に調整し、変更なしから完全な結果まで滑らかで連続的な方法で実現できるようにする。Kontinuous Kontextは、最先端の画像編集モデルを拡張し、編集指示とペアになる追加の入力としてスカラー編集強度を受け入れることで、編集の範囲を明示的に制御する。このスカラー情報を注入するために、入力スカラーと編集指示をモデルの変調空間の係数にマッピングする軽量なプロジェクターネットワークを訓練する。モデルの訓練のために、既存の生成モデルを使用して多様な画像-編集-指示-強度の四つ組データセットを合成し、品質と一貫性を確保するためのフィルタリング段階を経る。Kontinuous Kontextは、スタイライゼーション、属性、素材、背景、形状変更など多様な操作において、属性固有の訓練を必要とせずに、指示駆動型編集の編集強度を微調整する統一的なアプローチを提供する。
大規模言語モデル(LLM)がその表現空間においてどのように「思考」するかを研究する。我々は、LLMの推論をフローとしてモデル化する新しい幾何学的フレームワークを提案する。これは、論理が進むにつれて進化する埋め込み軌道を表すものである。同じ自然演繹命題を異なる意味的キャリアで使用することで、論理構造を意味論から切り離し、LLMが表面形式を超えて論理を内在化しているかどうかをテストする。この視点は、推論を位置、速度、曲率などの幾何学的量と結びつけ、表現空間と概念空間における形式的分析を可能にする。我々の理論は以下のことを確立する:(1)LLMの推論は表現空間における滑らかなフローに対応し、(2)論理命題はこれらのフローの速度を局所的に制御する役割を果たす。学習された表現プロキシを使用して、制御された実験を設計し、推論フローを可視化・定量化することで、我々の理論的フレームワークを実証的に検証する。本研究は、推論現象を研究するための概念的基盤と実用的ツールの両方を提供し、LLMの振る舞いの解釈可能性と形式的分析のための新しい視点を提供する。
理想的なデザインパイプラインにおいては、ユーザーインターフェース(UI)デザインは、意思決定を検証するためのユーザーリサーチと密接に結びついている。しかし、初期の探索段階では、リソースが制約されることが多い。近年のマルチモーダル大規模言語モデル(MLLMs)の進展は、正式なテストの前にデザイナーが選択肢を絞り込むための早期評価者としての役割を果たす有望な機会を提供している。従来の研究が、クリック数やコンバージョン率などの指標を用いて、eコマースのような狭い領域におけるユーザー行動に焦点を当てていたのに対し、本研究では、多様なインターフェースにわたる主観的なユーザー評価に着目する。MLLMsが、個々のUIを評価し、それらを比較する際に、人間の選好を模倣できるかどうかを調査する。クラウドソーシングプラットフォームからのデータを用いて、GPT-4o、Claude、Llamaを30のインターフェースでベンチマークし、複数のUI要因に関する人間の判断との整合性を検証する。結果として、MLLMsは一部の次元では人間の選好に近似するが、他の次元では乖離が見られ、UX研究の初期段階を補完する上での可能性と限界が浮き彫りになった。
シンボリックな世界モデリングは、環境の遷移ダイナミクスを実行可能なプログラムとして推論し表現することを必要とする。従来の研究は、主に決定論的な環境に焦点を当てており、豊富なインタラクションデータ、単純なメカニクス、および人間のガイダンスが前提とされていた。本研究では、より現実的で挑戦的な設定、すなわち複雑で確率的な環境において、エージェントが人間のガイダンスなしに敵対的な環境を探索する「一度きりの命」しか持たない状況での学習に取り組む。我々は、確率的プログラミングフレームワーク内で条件付きで活性化されるプログラム的な法則を通じて世界のダイナミクスをモデル化するOneLifeフレームワークを提案する。各法則は、前提条件-効果の構造を通じて動作し、関連する世界の状態で活性化される。これにより、動的な計算グラフが形成され、推論と最適化が関連する法則のみを通じてルーティングされるため、複雑で階層的な状態に関する予測に全ての法則が寄与する際のスケーリング課題を回避し、疎なルール活性化においても確率的ダイナミクスの学習を可能にする。これらの厳しい制約下で我々のアプローチを評価するために、新しい評価プロトコルを導入し、(a)状態ランキング、すなわち妥当な将来の状態と非妥当な状態を区別する能力、および(b)状態忠実度、すなわち現実に近い将来の状態を生成する能力を測定する。我々は、Crafter環境を再実装したCrafter-OO上でフレームワークを開発し評価する。Crafter-OOは、構造化されたオブジェクト指向のシンボリック状態と、その状態のみを操作する純粋な遷移関数を提供する。OneLifeは、最小限のガイダンスなしのインタラクションから主要な環境ダイナミクスを成功裏に学習し、テストされた23のシナリオのうち16において強力なベースラインを上回る性能を示した。また、OneLifeの計画能力をテストし、シミュレーションされたロールアウトが優れた戦略を特定することに成功した。本研究は、未知の複雑な環境に対するプログラム的な世界モデルを自律的に構築するための基盤を確立するものである。
大規模推論モデル(LRM)は、クエリに答える前に自然言語の思考プロセスを考案することにより、問題解決の新たな可能性を開拓してきた。数学やコーディングタスクにおけるその能力は広く知られているが、機械翻訳(MT)タスクへの影響は未だ十分に検討されていない。本研究では、異なるリソースレベルの複数言語ペアおよび複数セットアップにおいて、中間トークンの生成がMTに与える利点を探る。その結果、「思考トークン」はLRMがMTをより良く行うことに寄与しないことが明らかとなった。この結果は、人間の翻訳者の実践に着想を得た蒸留連鎖思考(CoT)を用いて翻訳前に推論するようにファインチューニングされたモデルにも一般化される。具体的には、段階的な翻訳方法を詳細に説明する合成CoT説明を用いてモデルをファインチューニングしても、標準的な入力-出力ファインチューニングを上回る性能は得られなかった。しかし、モジュール化された翻訳固有のプロンプト戦略の出力を組み合わせて中間トークンを構築することで改善が認められた。我々の知見は、ファインチューニング中の中間トークンの寄与が、その中に翻訳の試みが含まれているかどうかに大きく依存することを強調している。より広く言えば、我々の結果は、ターゲット翻訳を洗練させたり並列コーパスを拡張するために教師モデルを使用することが、そのCoT説明を「思考する」MTモデルに蒸留することよりも効果的であることを示唆している。
本研究では、Cautious Weight Decay(CWD)を提案する。これは、最適化手法に依存しない一行の修正であり、重み減衰を最適化更新の符号と一致するパラメータ座標にのみ適用するものである。標準的な分離型減衰が暗黙的に正則化または制約付き目的関数を最適化するのに対し、CWDは元の損失関数を保持し、二段階解釈を可能にする。具体的には、CWDは定常多様体に到達した際にスライディングモード挙動を誘発し、修正されていない目的関数の局所パレート最適な定常点を探索することを可能にする。実際には、CWDはAdamW、Lion、Muonなどの最適化手法にそのまま適用可能であり、新たなハイパーパラメータや追加のチューニングを必要としない。言語モデルの事前学習およびImageNet分類において、CWDは百万から数十億パラメータ規模において最終的な損失と精度を一貫して向上させることが確認された。
大規模言語モデル(LLM)エージェントは、長期的なタスクにおいてコンテキスト長に根本的に制約を受けます。本論文では、エージェントが自身の作業コンテキストを積極的に管理できるようにするフレームワーク「Context-Folding」を提案します。このフレームワークでは、エージェントはサブタスクを処理するために手続き的にサブトラジェクトリに分岐し、完了後にそれを折りたたむことで、中間ステップを圧縮しながら結果の簡潔な要約を保持します。この動作を学習可能にするため、効果的なタスク分解とコンテキスト管理を促進する特定のプロセス報酬を備えたエンドツーエンドの強化学習フレームワーク「FoldGRPO」を開発しました。複雑な長期的タスク(Deep ResearchおよびSWE)において、フォールディングエージェントはReActベースラインと同等以上の性能を発揮しつつ、アクティブなコンテキストを10分の1のサイズで使用し、要約ベースのコンテキスト管理に依存するモデルを大幅に上回りました。
近年、大規模言語モデル(LLMs)が科学的な方程式発見に応用され、その中に埋め込まれた科学的知識を活用して仮説生成が行われている。しかし、現在の手法では、LLMsは遺伝的プログラミングなどの探索アルゴリズム内で方程式提案者としての役割に限定されることが一般的である。本論文では、LLMsを単なる方程式提案者から、データを分析するコードを記述し、方程式をコードとして実装し、評価のために提出し、実験的フィードバックに基づいて方程式を最適化する自律的なAI科学者へと昇華させるフレームワーク「SR-Scientist」を提案する。具体的には、コードインタプリタをデータ分析および方程式評価のための一連のツールとしてラップする。エージェントは、人間が定義したパイプラインを最小限に抑えながら、これらのツールを長期的に活用して方程式を最適化するよう指示される。実験結果は、SR-Scientistが4つの科学分野をカバーするデータセットにおいて、ベースライン手法を6%から35%の絶対差で上回ることを示している。さらに、本手法のノイズに対する頑健性、発見された方程式のドメイン外データへの一般化、およびその記号的精度を実証する。加えて、エージェントの能力を向上させるためのエンドツーエンドの強化学習フレームワークを開発する。
長期的なマルチターンのツール使用を目的とした大規模言語モデル(LLM)エージェントの強化学習(RL)ファインチューニングを研究する中で、コンテキスト長が迅速に根本的なボトルネックとなることが明らかになりました。既存のRLパイプラインでは、指示の追従が低下したり、過剰なロールアウトコストが発生したり、最も重要なことに、厳格なコンテキスト制限に直面する可能性があります。これらの課題に対処するため、トレーニングに要約ベースのコンテキスト管理を導入します。具体的には、タスクに関連する情報を保持するLLM生成の要約によって、ツール使用履歴を定期的に圧縮し、コンパクトなコンテキストを維持しながら、エージェントが固定されたコンテキストウィンドウを超えてスケールできるようにします。この定式化を基に、標準的なLLM RLインフラストラクチャがツール使用行動と要約戦略をエンドツーエンドで最適化できるようにするポリシー勾配表現を導出します。このフレームワークを、固定されたコンテキスト制限を超えた長期的なトレーニングを可能にするLLM RLアルゴリズムであるSUmmarization augmented Policy Optimization(SUPO)として具体化します。インタラクティブな関数呼び出しと検索タスクにおける実験では、SUPOがベースラインと比較して成功率を大幅に向上させながら、同じまたはさらに低い作業コンテキスト長を維持することが示されています。また、複雑な検索タスクにおいて、SUPOがトレーニング時の要約ラウンド数を超えてテスト時の最大要約ラウンド数をスケールすることで、評価性能をさらに向上させることができることも示しています。これらの結果は、要約ベースのコンテキスト管理が、固定されたコンテキスト長制限を超えたRLエージェントのトレーニングにおける原則的でスケーラブルなアプローチであることを確立します。
マルチモーダル大規模言語モデル(MLLMs)は、複雑な実験手順を解釈することで科学的発見を加速する可能性を秘めている。しかし、既存のベンチマークは、特にウェットラボ環境における実際の実験作業の細粒度かつ長期的な性質を無視しており、その真の能力は十分に理解されていない。このギャップを埋めるため、我々は科学実験動画においてMLLMsを体系的に評価する初のベンチマークであるExpVidを導入する。ExpVidは、査読付き動画出版物から厳選され、科学的プロセスを反映した新しい3段階のタスク階層を特徴とする:(1)ツール、材料、および行動の細粒度知覚、(2)手順の順序と完全性の理解、(3)実験全体をその公表された結論に結びつける科学的推論。自動生成と多分野の専門家による検証を組み合わせた視覚中心のアノテーションパイプラインにより、タスクが視覚的基盤を必要とすることを保証する。我々は19の主要なMLLMsをExpVidで評価し、粗粒度の認識では優れているものの、細部の曖昧さの解消、時間経過に伴う状態変化の追跡、実験手順と科学的成果の関連付けにおいて苦戦することを明らかにした。その結果、特に高次推論において、プロプライエタリモデルとオープンソースモデルの間に顕著な性能差が存在することが判明した。ExpVidは、診断ツールとしてだけでなく、科学的実験において信頼できるパートナーとなるMLLMsの開発に向けたロードマップを提供するものである。
データ汚染は、大規模言語モデル(LLMs)の信頼性ある評価において重大な脅威をもたらす。この問題は、ベンチマークサンプルが訓練セットに意図せず含まれてしまうことで、報告された性能の妥当性が損なわれる場合に生じる。事前学習段階や教師あり微調整段階における検出手法は開発されているが、強化学習(RL)ポストトレーニングという重要性を増す段階においては、重要な研究ギャップが存在する。LLMの推論能力を向上させる上でRLポストトレーニングが重要な役割を果たす中、このパラダイムにおける専門的な汚染検出手法の欠如は重大な脆弱性を引き起こしている。この問題に対処するため、我々はRLポストトレーニングシナリオにおけるデータ検出の初の体系的な研究を行い、Self-Critiqueを提案する。本手法は、RL段階後のLLMの出力エントロピー分布が特定の狭いモードに収束する傾向があるという重要な観察に基づいている。Self-Critiqueは、このエントロピー減少を引き起こす、モデルが狭い推論経路に収束するという基盤的なポリシー崩壊を探るものである。この研究を促進するため、我々はRL-MIAというベンチマークも導入し、特定の汚染シナリオをシミュレートする。大規模な実験により、Self-Critiqueが複数のモデルと汚染タスクにおいてベースライン手法を大幅に上回り、AUCの改善率が最大30%に達することが示された。既存の手法がRL段階の汚染に対してほぼランダムな推測に近いのに対し、本手法は検出を可能にするものである。
既存のマルチモーダル大規模言語モデル(MLLM)は、画像入力によって導入される追加の視覚トークンにより、推論コストが増大するという課題を抱えている。本研究では、Visual Consistency Learning(ViCO)と呼ばれる新しい訓練アルゴリズムを提案する。この手法により、モデルは異なるセマンティック複雑度を持つ画像を、異なる数の視覚トークンで表現することが可能となる。本手法の核心は、複数のMLPコネクタを採用し、それぞれ異なる画像圧縮率を用いて、画像のセマンティック複雑度に基づいて視覚トークンをダウンサンプリングすることである。訓練中には、異なるMLPコネクタに基づく応答間のKLダイバージェンスを最小化する。推論時には、Visual Resolution Router(ViR)と呼ばれる画像ルータを導入し、各画像パッチに対して適切な圧縮率を自動的に選択する。既存の動的高解像度戦略が画像解像度に基づいて視覚トークンの数を調整するのに対し、本手法はセマンティック複雑度に応じて視覚トークンの数を動的に適応させる。実験結果から、本手法はモデルの知覚、推論、OCR能力を維持しつつ、視覚トークンの数を最大50%削減できることが示された。本研究がより効率的なMLLMの開発に寄与することを期待する。今後の研究を促進するため、コードとモデルを公開する予定である。
長い連鎖思考(CoT)推論における最近の進展は、主に回答精度とトークン効率を優先しており、信頼性に不可欠な側面を見落としてきた。我々は、実用的な推論システムは信頼できるものでなければならないと主張し、それを解釈可能性、忠実性、信頼性という3つの特性で特徴づける。この目的のために、我々はReFIneという新しいトレーニングフレームワークを提案する。このフレームワークは、教師ありファインチューニングとGRPOを統合し、モデルに以下のことを促す:(i) 構造化されたタグベースのトレースと高レベルの計画を生成することで、人間が追いやすい解釈可能性を向上させる;(ii) 各解決策を導く決定的な情報を明示的に開示し、一貫した断面参照を行うことで忠実性を高める;(iii) 導出の健全性と最終回答の信頼度の両方について自己評価を提供することで信頼性を促進する。我々はReFIneをQwen3モデル(1.7B/4B/8B)に適用し、難易度の異なる数学的ベンチマークで評価を行った。実験結果は、ReFIneモデルがより明確で構造化された推論トレースを生成し(解釈可能性 +44.0%)、基盤となる意思決定プロセスをより忠実に開示し(忠実性 +18.8%)、有益な信頼度推定を提供する(信頼性 +42.4%)ことを示している。これらの発見は、推論モデルが精度だけでなく、信頼性のより広範な次元についても最適化されるべきであるという、見過ごされていたが重要な方向性を強調している。我々のコードは以下で公開されている: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
時系列予測(TSF)は、大規模言語モデル(LLM)を活用した最近の多大な努力にもかかわらず、機械学習において依然として困難で未解決の問題であり続けています。これらのLLMは主にTransformerアーキテクチャに依存していますが、実証的な証拠は一貫して、強力なTransformerでさえも、TSFタスクにおいてはるかに単純なモデル(例えば線形モデル)を凌駕できないことを示しています。しかし、この現象に対する厳密な理論的理解は依然として限られています。本論文では、In-Context Learning(ICL)理論の観点から、TSFにおけるTransformerの限界について理論的分析を提供します。具体的には、AR(p)データの下で、(1) 線形自己注意(LSA)モデルは、コンテキスト内予測において古典的な線形モデルよりも低い期待MSEを達成できないこと、(2) コンテキスト長が無限大に近づくにつれて、LSAは最適な線形予測子を漸近的に回復すること、(3) Chain-of-Thought(CoT)スタイルの推論の下では、予測が指数関数的に平均値に収束することを示します。これらの発見を、慎重に設計された実験を通じて実証的に検証します。我々の理論は、これまで十分に探求されていなかったいくつかの現象に光を当てるだけでなく、より効果的な予測アーキテクチャを設計するための実践的な洞察も提供します。我々の研究が、TSFの基本的な理論的限界を再検討し、より洗練されたアーキテクチャの直接的な適用を深く検証することなく批判的に評価することを、広範な研究コミュニティに促すことを願っています。
大規模言語モデル(LLMs)の最近の進展により、推論チェーンの長さを拡張することが複雑なタスクにおける性能を大幅に向上させることが示されています。これらの推論過程を明らかにすることは、ユーザーがモデルの問題解決プロセスをよりよく追跡し、検証し、学ぶのに役立ちますが、同時に不正な蒸留に対して非常に脆弱にもなります。このリスクを軽減するため、プロプライエタリモデルの提供者は、詳細な推論を簡潔な要約に置き換えるなど、積極的な保護戦略を採用することが多く、これによりユーザーは貴重な中間情報を失うことになります。このトレードオフに対処するため、我々はPART(情報を保持する抗蒸留推論再構成)を提案します。人間が推論過程を理解する方法とLLMsがそれらを教師あり微調整に利用する方法の違いに着目し、自己対話行動の削除とサブ結論の並べ替えというシンプルだが効果的な2段階の再構成を設計しました。この再構成を行うために、最小限の計算オーバーヘッドで済む小さな補助モデルを訓練します。広範な実験により、PARTがさまざまな推論ベンチマークにおいて、異なるサイズやタイプの学生モデルに対する蒸留を一貫して妨げることが実証されています。例えば、再構成された推論過程で訓練した場合、32Bの大規模学生モデルの性能でさえ、AIME 2024において54.17から46.88に低下し、13.5%の性能劣化が確認されました。
チャットボットプロバイダー(例:OpenAI)は、階層型のサブスクリプションスキームに依存して収益を生み出しており、基本モデルを無料ユーザーに提供し、高度なモデルを有料サブスクライバーに提供しています。しかし、プレミアム機能(例:数学、コーディング)に対するより細かいペイ・トゥ・アンロックスキームは、プロバイダーにとってより経済的に持続可能であると考えられています。このようなスキームには、機能ロック技術(FLoTE)が必要であり、それは(i)ロックされた機能を拒否する効果的であること、(ii)アンロックされた機能の有用性を維持すること、(iii)回避や不正な認証情報の共有に対して堅牢であること、(iv)複数の機能とユーザーに拡張可能であることが求められます。しかし、既存のFLoTEs(例:パスワードロックされたモデル)は堅牢性や拡張性に欠けています。本研究では、ペイ・トゥ・アンロックスキームを可能にする初の堅牢で拡張可能なFLoTEであるLocketを提案します。Locketは、未承認の機能を拒否するためにLLMにアダプターを接続する新しいマージングアプローチを使用します。包括的な評価により、Locketが効果的(ロックされた機能に対する100%の拒否率)、有用性維持(アンロックされた機能での7%以下の有用性低下)、堅牢性(5%以下の攻撃成功率)、および複数の機能とクライアントへの拡張性を有することを示しました。
近年、大規模推論モデル(LRMs)に対する推論ベースの安全ガードレール、例えば熟慮的アライメントなどは、ジャイルブレイク攻撃に対する強力な防御を示してきた。これらのガードレールは、LRMsの推論能力を活用し、ユーザー入力の安全性を評価してから最終的な応答を生成することを支援する。強力な推論能力は、入力クエリの意図を分析し、ジャイルブレイク手法によって隠された有害な意図を検出すると、支援を拒否する。このようなガードレールは、オープンソースのgpt-ossシリーズでのほぼ完璧な拒否率など、防御力の大幅な向上を示している。しかし、これらの強力な推論ベースのガードレールは、入力プロンプトの微妙な操作に対して極めて脆弱であり、一旦ハイジャックされると、さらに有害な結果を引き起こす可能性があることがわかった。具体的には、まず、これらのガードレールの驚くほど脆弱な側面を明らかにする:入力プロンプトにわずかなテンプレートトークンを追加するだけで、一見強力なガードレールをバイパスし、明示的で有害な応答を引き起こすことができる。さらに探求するために、推論ベースのガードレールを覆すジャイルブレイク手法のバッグを導入する。我々の攻撃は、ホワイトボックス、グレーボックス、ブラックボックスの設定にまたがり、手軽なテンプレート操作から完全に自動化された最適化まで多岐にわたる。スケーラブルな実装の可能性とともに、これらの手法は、ローカルホストモデルとオンラインAPIサービスの両方でgpt-ossシリーズの5つの異なるベンチマークで90%を超える驚異的に高い攻撃成功率を達成している。主要なオープンソースLRMsにわたる評価は、これらの脆弱性が体系的であることを確認し、悪意のある誤用を防ぐためのオープンソースLRMsに対するより強力なアライメント技術の緊急の必要性を強調している。コードはhttps://chenxshuo.github.io/bag-of-tricksで公開されている。
本論文では、AI生成画像に不可視の透かしを埋め込むための深層学習ベースのシステム「SynthID-Image」を紹介する。本稿では、インターネット規模でのシステム展開における技術的要件、脅威モデル、実践的課題を記述し、有効性、忠実度、堅牢性、セキュリティといった主要な要件に対処する。SynthID-Imageは、Googleのサービス全体で100億枚以上の画像およびビデオフレームに透かしを付与するために使用されており、信頼されたテスター向けに検証サービスが提供されている。完全性を期すため、パートナーシップを通じて利用可能な外部モデルバリアント「SynthID-O」の実験的評価も提示する。SynthID-Oを文献に基づく他の事後透かし手法と比較し、視覚品質および一般的な画像摂動に対する堅牢性において最先端の性能を実証する。本作業は視覚メディアを中心としているが、展開、制約、脅威モデリングに関する結論は音声を含む他のモダリティにも一般化可能である。本論文は、深層学習ベースのメディア出所追跡システムの大規模展開に関する包括的なドキュメントを提供する。
対照的な音声-言語事前学習は強力な結合表現を生み出すが、音声とテキストのモダリティ間のギャップが持続的に存在し、マルチモーダルエンコーダと大規模言語モデル(LLM)の結合の利点を制限している。本論文では、Diffusion-Linkを提案する。これは、拡散ベースのモダリティブリッジングモジュールであり、音声埋め込みをテキスト埋め込み分布に生成的に対応付けるものである。このモジュールは、凍結されたマルチモーダルエンコーダの出力埋め込みにおいて訓練され、3つの残差MLPブロックからなる軽量ネットワークとして実装されている。Diffusion-LinkがマルチモーダルエンコーダとLLMの結合に及ぼす効果を評価するため、自動音声キャプショニング(AAC)において評価を行った。我々の知る限り、これは拡散ベースのモダリティブリッジングをAACに適用した初めての例である。2つの結果を報告する。(1) モダリティギャップ分析:類似性および幾何学的基準において、Diffusion-Linkは既存の拡散ベース手法の中で最もモダリティギャップを縮小し、音声埋め込みがテキスト分布に向かって集団的に移行することを示した。(2) 下流タスクとしてのAAC:Diffusion-Linkを同じマルチモーダルLLMベースラインに接続することで、外部知識なしにAudioCapsにおいてゼロショットおよび完全教師ありキャプショニングの両方で最先端の性能を達成し、それぞれ相対的な改善率が最大52.5%および7.5%であった。これらの結果は、モダリティギャップを縮小することがマルチモーダルエンコーダとLLMの効果的な結合において重要であり、拡散ベースのモダリティブリッジングが知識検索中心の設計を超えた有望な方向性を提供することを示している。コードは受理後に公開予定である。https://github.com/DevKiHyun/Diffusion-Link
大規模言語モデル(LLM)を基盤とした深層研究(DR)エージェントは、タスクの分解、オンライン情報の検索、詳細なレポートの合成を通じて、複雑で多段階の研究を実行することが可能である。しかし、このような強力な能力を持つLLMの誤用は、さらなるリスクを引き起こす可能性がある。これは特に、バイオセキュリティのようなハイステークスで知識集約的な領域において懸念される。DRは、詳細な禁止知識を含む専門的なレポートを生成することができる。残念ながら、我々は実際にそのようなリスクを確認した:単に有害なクエリを提出するだけで、スタンドアロンのLLMが直接拒否するようなクエリであっても、DRエージェントから詳細で危険なレポートを引き出すことができる。これはリスクの高まりを示し、より深い安全性分析の必要性を強調している。しかし、LLM向けに設計されたジェイルブレイク手法は、DRエージェントの研究能力をターゲットとしていないため、このような独自のリスクを明らかにするには不十分である。このギャップを埋めるために、我々は2つの新しいジェイルブレイク戦略を提案する:エージェントの計画に悪意のあるサブゴールを注入する「プランインジェクション」と、有害なクエリを学術研究の質問として再構成する「インテントハイジャック」である。我々は、さまざまなLLMと、一般的な禁止プロンプトやバイオセキュリティ禁止プロンプトを含むさまざまな安全性ベンチマークで広範な実験を行った。これらの実験から3つの重要な発見が得られた:(1)LLMのアラインメントはDRエージェントではしばしば失敗し、学術用語で構成された有害なプロンプトがエージェントの意図をハイジャックする可能性がある;(2)多段階の計画と実行はアラインメントを弱め、プロンプトレベルの安全対策では対処できないシステム的な脆弱性を明らかにする;(3)DRエージェントは拒否を回避するだけでなく、スタンドアロンのLLMと比較して、より一貫性があり、専門的で危険なコンテンツを生成する。これらの結果は、DRエージェントにおける根本的なミスアラインメントを示しており、DRエージェントに特化したより良いアラインメント技術の必要性を訴えている。コードとデータセットはhttps://chenxshuo.github.io/deeper-harmで公開されている。
既存のノイズ除去生成モデルは、離散化された逆時間SDEまたはODEを解くことに依存している。本論文では、このファミリーモデルにおいて長年見過ごされてきたが広く存在する問題、すなわちサンプリング中の中間状態にエンコードされた実際のノイズレベルと事前に定義されたノイズレベルの間の不整合を特定する。我々はこの不整合をノイズシフトと呼ぶ。実証分析を通じて、ノイズシフトが現代の拡散モデルにおいて広く存在し、分布外汎化と不正確なノイズ除去更新の両方により、最適でない生成を引き起こす系統的なバイアスを示すことを明らかにする。この問題に対処するため、我々はNoise Awareness Guidance (NAG)を提案する。これは、サンプリング軌跡が事前に定義されたノイズスケジュールと一貫性を保つように明示的に導く、シンプルでありながら効果的な補正手法である。さらに、ノイズ条件付きモデルとノイズ無条件モデルをノイズ条件付きドロップアウトを介して共同で学習する、分類器不要のNAGのバリアントを導入し、外部分類器の必要性を排除する。ImageNet生成や様々な教師ありファインチューニングタスクを含む広範な実験により、NAGがノイズシフトを一貫して軽減し、主流の拡散モデルの生成品質を大幅に向上させることを示す。
拡散ベースの大規模言語モデル(dLLM)は、ノイズ除去ベースの生成を活用して内在的な並列性を実現し、自己回帰型(AR)LLMの有望な代替として登場した。さらに、オープンソースのdLLMモデルが増え続けているが、標準化された効率的な推論フレームワークの欠如により、その広範な採用は制約されている。本論文では、dLLM推論のための効率的で拡張可能なフレームワークであるdInferを提案する。dInferは、推論パイプラインをモデル、拡散反復マネージャー、デコード戦略、KVキャッシュマネージャーの4つのモジュールコンポーネントに分解し、各コンポーネントに対する新規アルゴリズムとシステムレベルの最適化を統合する。このアルゴリズム革新とシステム強化の組み合わせにより、dInferはLLaDA-MoEにおいて出力品質を損なうことなく、大幅な効率向上を実現する。バッチサイズ1では、HumanEvalで1,100トークン/秒を超え、8台のH800 GPU上で6つのベンチマークにおいて平均800トークン/秒以上を達成する。既存のシステムと比較して、dInferはFast-dLLMに対して10倍の高速化を実現しつつ、同様のモデル性能を維持する。さらに、最新のvLLM推論エンジンで高度に最適化されたARモデルQWen2.5-3B(同程度の活性化パラメータ数と性能を持つ)と比較しても、dInferは2~3倍の高速化を提供する。dInferの実装はhttps://github.com/inclusionAI/dInferでオープンソースとして公開されている。