翻訳付きの日次キュレーションされたAI研究論文
金融市場はノイズが多く非定常的なため、アルファ発掘はバックテスト結果のノイズや市場レジームの急激な変化に敏感です。近年のエージェント型フレームワークはアルファ発掘の自動化を進化させていますが、制御可能なマルチラウンド検索や検証済み経験の信頼性高い再利用が不足しがちです。こうした課題に対処するため、我々はQuantaAlphaを提案します。これは各エンドツーエンドの採掘実行を軌道として扱い、軌道レベルの突然変異と交叉操作によって因子を改善する進化的アルファ発掘フレームワークです。QuantaAlphaは各軌道内の最適でないステップを特定して標的修正を施し、補完的な高報酬セグメントを再結合することで有効なパターンを再利用し、採掘反復を跨ぐ構造化された探索と洗練を実現します。因子生成時には、仮説・因子表現・実行可能コード間の意味的整合性を強制し、生成因子の複雑性と冗長性を制約することで混雑化を緩和します。中国証券指数300(CSI 300)における大規模な実験により、強力なベースラインモデルや従来のエージェント型システムを一貫して上回る成果を実証しました。GPT-5.2を利用した場合、QuantaAlphaは情報係数(IC)0.1501、年率換算収益率(ARR)27.75%、最大ドローダウン(MDD)7.98%を達成しました。さらに、CSI 300で発掘された因子は中国証券指数500(CSI 500)およびS&P 500指数へ効果的に転移し、4年間でそれぞれ160%、137%の累積超過リターンを付与し、市場分布変化下におけるQuantaAlphaの強固なロバスト性を示しています。
ポストトレーニング最適化が大規模言語モデルの改善において中心的な役割を果たすにつれ、一貫した飽和ボトルネックが観察されている:モデルが高い確信度を持つようになると、それ以降のトレーニングでは収穫逓減が生じる。既存手法がターゲット予測の強化を続ける中で、情報量の多い教師信号がモデル自身の過去の弱い状態に潜在したまま残されていることがわかった。この観察に動機づけられて、我々はWMSS(弱いエージェントが強いエージェントをさらに強くできる)を提案する。これは弱いチェックポイントを活用して継続的な最適化を導くポストトレーニングのパラダイムである。エントロピー動態を通じて回復可能な学習ギャップを特定し、補償学習によってそれを強化することで、WMSSは強いエージェントが従来のポストトレーニング飽和を超えて改善することを可能にする。数学的推論とコード生成データセットでの実験により、本手法でトレーニングされたエージェントが効果的な性能向上を達成し、追加の推論コストを一切発生させないことが示された。
音声は実世界のビデオにおいて不可欠であるにもかかわらず、生成モデルはこれまで音声コンポーネントを軽視してきた。現在の視聴覚コンテンツ生成手法は、カスケード型パイプラインに依存する場合が多く、コストの増加、誤差の累積、全体品質の低下を招いている。Veo 3やSora 2などのシステムが同時生成の価値を強調する一方で、マルチモーダル共同モデリングは、アーキテクチャ・データ・訓練において独自の課題を伴う。さらに、既存システムのクローズドソース性が分野の進展を制限している。本研究では、高品質で同期された視聴覚コンテンツ(現実的な唇同期音声、環境を考慮した効果音、コンテンツに連動した音楽を含む)を生成可能なオープンソースモデルMOVA(MOSS Video and Audio)を提案する。MOVAはMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数320億(推論時活性化180億)を有する。IT2VA(画像・テキストから映像・音声への生成)タスクをサポートし、モデル重みとコードを公開することで研究の促進と活発な創作コミュニティの形成を目指す。公開コードベースは、効率的な推論、LoRAファインチューニング、プロンプト拡張への包括的なサポートを特徴とする。
マルチモーダル対比学習が視覚と言語の表現の整合に成功しているにもかかわらず、頑固な幾何学的異常である「モダリティギャップ」が残存している:同一の意味内容を表現する異なるモダリティの埋め込みが、体系的に偏移した領域を占めるという現象である。従来のギャップ解消手法は、過度に単純化された等方性の仮定に大きく制限され、大規模シナリオへの応用を妨げてきた。本論文では、モダリティギャップの幾何学的形状を精密に特徴付け、それを効率的なモデル拡張に活用することでこれらの限界に取り組む。まず、固定枠組みモダリティギャップ理論を提案し、凍結された参照枠内でのモダリティギャップを安定的なバイアスと異方性残差に分解する。この精密なモデリングに導かれ、学習不要のモダリティ整合戦略であるReAlignを導入する。ReAlignは大規模な非ペアデータから得られる統計量を利用し、Anchor、Trace、Centroid Alignmentの3段階プロセスを通じてテキスト表現を画像表現分布に整合させ、幾何学的な不一致を明示的に補正する。ReAlignを基盤として、マルチモーダル大規模言語モデル(MLLM)のための拡張性のある学習パラダイムReVisionを提案する。ReVisionはReAlignを事前学習段階に統合し、大規模な高品質な画像-テキストペアを必要とせず、視覚的指示チューニング前に非ペアテキストから視覚表現の分布を学習させる。我々のフレームワークは、統計的に整合された非ペアデータが高価な画像-テキストペアを効果的に代替しうることを実証し、MLLMの効率的なスケーリングへの堅牢な道筋を提供する。
現在のVision-Language-Action(VLA)モデルは固定の計算深度に依存しており、単純な調整と複雑な多段階操作に同じ量の計算リソースを消費している。Chain-of-Thought(CoT)プロンプティングは可変計算を可能にするが、メモリ使用量が線形に増加し、連続行動空間には不向きである。本研究では、明示的なトークン生成ではなく潜在的な反復改良によって計算適応性を実現するRecurrent-Depth VLA(RD-VLA)アーキテクチャを提案する。RD-VLAは重み共有型の再帰的行動ヘッドを採用し、一定のメモリ使用量で任意の推論深度をサポートする。このモデルは時間方向の truncated backpropagation(TBPTT)により訓練され、改良プロセスを効率的に監督する。推論時には、RD-VLAは潜在空間の収束に基づく適応的停止基準を用いて計算リソースを動的に割り当てる。困難なマニピュレーション課題による実験では、再帰的深度が決定的に重要であることが示された:単一反復推論では完全に失敗(0%成功率)する課題が、4反復では90%以上の成功率を達成し、より単純な課題では急速に飽和する。RD-VLAはトークンベースの推論を潜在推論に置き換えることで、ロボティクスにおけるテスト時計算のスケーラブルな道筋を提供し、一定のメモリ使用量を実現し、従来の推論ベースVLAモデル比で最大80倍の推論高速化を達成する。プロジェクトページ:https://rd-vla.github.io/
LLMエージェントは科学的研究を推進する上で大きな可能性を秘めています。この進展を加速するため、我々はAIRS-Bench(AI Research Science Benchmark)を提案します。これは最先端の機械学習論文から抽出した20のタスクから構成されるベンチマークスイートです。これらのタスクは、言語モデリング、数学、バイオインフォマティクス、時系列予測など、多様な領域にわたります。AIRS-Benchのタスクは、ベースラインコードを提供せずに、研究ライフサイクル全体(アイデア生成、実験分析、反復的な改善を含む)にわたるエージェント能力を評価します。AIRS-Benchのタスク形式は汎用性が高く、新規タスクの容易な統合と様々なエージェントフレームワーク間の厳密な比較を可能にします。我々は、逐次的および並列的なスキャフォールドと組み合わせたフロンティアモデルを用いてベースラインを確立しました。結果は、エージェントが4つのタスクで人間のSOTAを上回る一方、他の16のタスクでは人間の記録に及ばないことを示しています。エージェントが人間のベンチマークを超える場合でも、基礎となるタスクの理論的性能限界には到達しません。これらの発見は、AIRS-Benchが飽和状態から程遠く、大幅な改善の余地があることを示唆しています。自律的な科学研究のさらなる発展を促進するため、AIRS-Benchのタスク定義と評価コードをオープンソースで公開します。
本論文では、計算科学と実証科学の領域を横断するエンドツーエンドの科学的発見を目的とした統合システム、InternAgent-1.5を提案する。本システムは、生成、検証、進化の3つの調整されたサブシステムから構成される構造化アーキテクチャに基づいて構築されている。これらのサブシステムは、深層リサーチ、ソリューション最適化、長期記憶といった基盤能力によって支えられている。このアーキテクチャにより、InternAgent-1.5は、一貫性を保ちながら行動を改善しつつ、長期にわたる発見サイクルを通じて継続的に動作することが可能となる。また、単一の統合システム内で計算モデリングと実験室での実験を調整することも可能にする。我々は、GAIA、HLE、GPQA、FrontierScienceなどの科学的推論ベンチマークでInternAgent-1.5を評価し、本システムが強力な基盤能力を示す最高水準のパフォーマンスを達成することを確認した。これらのベンチマークを超えて、さらに2種類の発見タスクを評価した。アルゴリズム発見タスクでは、InternAgent-1.5は核心的な機械学習問題に対して競争力のある手法を自律的に設計した。実証的な発見タスクでは、地球科学、生命科学、生物学、物理学の領域において、完全な計算実験またはウェットラボ実験を実行し、科学的知見を産出した。全体として、これらの結果は、InternAgent-1.5が自律的科学発見のための汎用的かつスケーラブルなフレームワークを提供することを示している。
LLaDA2.0は100Bレベルのブロック拡散モデルのスケーリング可能性とその本質的な並列化能力を示したが、デコード速度と生成品質の間の微妙な均衡は未だ捉えがたい課題として残されていた。本日、我々はこのトレードオフを超越するパラダイムシフトとなるLLaDA2.1を発表する。従来のMask-to-Token(M2T)スキームにToken-to-Token(T2T)編集をシームレスに織り交ぜることで、共同で設定可能な閾値デコード方式を導入した。この構造的革新により、二つの異なる動作モードが誕生する。一つは、従来の制約を回避するためにM2T閾値を大胆に下げ、T2Tに出力の洗練を依存する「スピーディーモード(Sモード)」。もう一つは、管理可能な効率低下の範囲で優れたベンチマーク性能を確保するため、保守的な閾値設定に傾倒する「クオリティモード(Qモード)」である。 この進化をさらに推し進め、大規模なコンテキストウィンドウを基盤として、拡散大型言語モデル(dLLM)に特化した初の大規模強化学習(RL)フレームワークを実装した。これは安定した勾配推定のための専門技術によって支えられている。このアライメントは推論精度を鋭くするだけでなく、指示追従の忠実度を高め、拡散ダイナミクスと複雑な人間の意図との間の隔たりを埋める。本研究成果の集大成として、LLaDA2.1-Mini(16B)とLLaDA2.1-Flash(100B)を公開する。33の厳格なベンチマークにおいて、LLaDA2.1は強力なタスク性能と lightning-fast なデコード速度を実現した。100Bという規模にもかかわらず、コーディングタスクでは、HumanEval+で驚異的な892 TPS、BigCodeBenchで801 TPS、LiveCodeBenchで663 TPSを達成している。
物理世界における直接的なオンラインポリシー学習は、具現化知能にとって有望でありながら困難な方向性である。シミュレーションとは異なり、実世界システムは任意に高速化できず、安価にリセットしたり大規模に複製したりすることもできない。これにより、スケーラブルなデータ収集、異種システムの展開、長期的な効果的な学習が困難となる。これらの課題は、実世界のポリシー学習が単なるアルゴリズム上の問題ではなく、本質的にシステム設計上の問題であることを示唆している。本論文では、実世界オンラインポリシー学習のための統一拡張可能システム「USER」を提案する。USERは物理ロボットをGPUと同様の第一級ハードウェアリソースとして扱う統一ハードウェア抽象化層を提供し、異種ロボットの自動発見、管理、スケジューリングを実現する。クラウドエッジ通信に対処するため、USERはトンネリングベースのネットワーク技術、トラフィック局所化のための分散データチャネル、GPU側オーバーヘッドを調整するストリーミングマルチプロセッサ対応の重み同期を備えた適応通信プレーンを導入する。この基盤の上に、USERは永続的でキャッシュを意識したバッファを備えた完全非同期フレームワークとして学習を組織化し、堅牢なクラッシュ回復と履歴データの再利用を可能にしながら、効率的な長期的実験を実現する。さらにUSERは報酬、アルゴリズム、ポリシーの拡張可能な抽象化を提供し、CNN/MLP、生成ポリシー、大規模視覚言語行動モデルといった多様な手法のオンライン模倣学習や強化学習を統一パイプライン内でサポートする。シミュレーションと実世界の両方での実験結果は、USERが複数ロボット協調、異種マニピュレータ、大規模モデルを用いたエッジクラウド連携、長時間非同期学習を可能にし、実世界オンラインポリシー学習のための統一的なシステム基盤を提供することを示している。
人工知能と材料科学の融合は革新的な可能性を秘めているが、真の発見の加速を達成するには、タスクごとに分離されたファインチューニング済みモデルを超え、発見プロセス全体を通じて計画・実行・学習を行うエージェント型システムへ移行する必要がある。本調査は、コーパスの構築と事前学習から、ドメイン適応と指示チューニングを経て、シミュレーション及び実験プラットフォームと連携する目標条件付きエージェントに至る、パイプライン中心の独自の視点を提唱する。従来のレビューとは異なり、我々はプロセス全体を、代理ベンチマークではなく具体的な発見の成果に向けて最適化されるエンドツーエンドのシステムとして扱う。この視点により、データキュレーションや学習目標といった上流の設計選択が、効果的な信用配分を通じて下流の実験的成功にどう結びつくかを追跡することが可能となる。 コミュニティ間の隔たりを埋め、共通の参照枠組みを確立するため、まずAIと材料科学にわたる用語、評価、ワークフローの段階を整合させる統合的な視点を提示する。次に、二つの焦点を絞ったレンズを通して分野を分析する。AIの視点からは、文献マイニング、材料特性評価、物性予測におけるパターン認識、予測分析、自然言語処理というLLMの強みを詳述する。材料科学の視点からは、材料設計、プロセス最適化、外部ツール(例:DFT、ロボット実験室)との連携による計算ワークフローの加速への応用に焦点を当てる。最後に、受動的・反応的なアプローチとエージェント型設計を対比させ、自律性、記憶、ツール利用をもって長期的目標を追求するシステムの必要性を説きながら、現在の貢献を分類する。本調査は、新規で有用な材料の発見を目指す、安全性を考慮した自律型LLMエージェントへの実践的なロードマップを描くものである。
Flow MatchingモデルへのGRPOの適用は、テキストから画像への生成において有効性が実証されている。しかし、既存のパラダイムでは通常、結果ベースの報酬を全ての前処理ステップに伝播させており、各ステップの局所的効果を区別していない。さらに、現在のグループ単位のランキングは、主に同一時間ステップの軌道を比較するものであり、軌道内の依存関係を無視している。特定の初期のノイズ除去動作が、遅延した暗黙的な相互作用を通じて後続の状態に影響を与える可能性がある。我々は、ステップ単位の報酬の疎性を緩和し、ノイズ除去軌道内の長期的効果を明示的にモデル化するGRPOフレームワークであるTurningPoint-GRPO(TP-GRPO)を提案する。TP-GRPOは二つの重要な革新点を持つ:(i)結果ベースの報酬をステップレベルの増分報酬に置き換え、各ノイズ除去動作の「純粋な」効果をより良く分離する、密なステップ認識学習信号を提供する。(ii)転換点——局所的な報酬トレンドを反転させ、その後の報酬の変化を軌道全体のトレンドと一致させるステップ——を特定し、これらの動作に集約された長期的報酬を割り当て、その遅延影響を捕捉する。転換点は増分報酬の符号変化のみを通じて検出されるため、TP-GRPOは効率的でハイパーパラメータが不要である。大規模な実験により、TP-GRPOが報酬信号をより効果的に利用し、生成品質を一貫して向上させることも実証されている。デモコードはhttps://github.com/YunzeTong/TurningPoint-GRPO で公開されている。
画像生成モデルの最近の進歩により、ユーザー指示に基づいた将来のグラフィカルユーザーインターフェース(GUI)状態の予測が可能になってきました。しかし、既存のベンチマークは主に一般領域の視覚的忠実度に焦点を当てており、GUI特有の文脈における状態遷移や時間的一貫性の評価は十分に検討されていません。この課題を解決するため、我々はGUI生成における動的インタラクションと時間的一貫性を評価する包括的ベンチマークであるGEBenchを提案します。GEBenchは5つのタスクカテゴリにわたる700の注意深く選別されたサンプルで構成され、現実世界と架空のシナリオにおける単一ステップのインタラクションと多段階の軌道、ならびにグラウンディングポイントの位置特定を網羅しています。 体系的評価を支援するため、目標達成度、インタラクション論理、内容の一貫性、UIの妥当性、視覚的品質の5次元で評価する新しい指標GE-Scoreを提案します。現行モデルに対する大規模な評価により、単一ステップ遷移では良好な性能を示すものの、長いインタラクション系列における時間的一貫性と空間的グラウンディングの維持に大きな課題があることが明らかになりました。我々の分析結果は、アイコン解釈、テキストレンダリング、位置特定精度が重要なボトルネックであることを示しています。本研究は体系的な評価の基盤を提供し、高忠実度の生成型GUI環境構築に向けた将来研究の有望な方向性を示唆します。コードは以下で公開されています:https://github.com/stepfun-ai/GEBench
大規模言語モデルにとって、科学分野のオープンエンドな設問を解くことは、特に本質的に信頼性の低い教師信号と評価の課題から、依然として困難な課題です。このボトルネックは、科学分野の事後学習におけるデータ構築と報酬設計に存在します。我々は、異種混在のオープンソース科学データを大規模かつ体系的に処理するパイプラインを開発し、Dr. SCIデータセットを構築しました。このデータセットは8つのSTEM科目にわたる100万問の設問から構成され、検証可能な設問とオープンエンドな設問の明示的な分割、拡張可能な難易度注釈、およびオープンエンドな回答の評価を具体化する詳細な評価基準を備えています。このデータセットに基づき、標準的なSFT→RLのワークフローを再設計するDr. SCI事後学習パイプラインを提案します。このパイプラインは以下の3つの構成要素からなります:(i) 探索拡張型SFT:RLの前にモデルの推論パターンの網羅性を拡大する、(ii) 動的難易度カリキュラム:モデルの科学的能力の変化に応じて学習データを適応させる、(iii) 科学評価基準に基づくRL:回答の正しさを明示的に評価するルーブリックベースの評価により、オープンエンドな科学設問に対する安定した強化学習を実現する。Dr. SCIパイプラインを用いて学習したQwen3-4B-Baseは、GPQA-diamondで63.2、GPQA-generalで32.4を達成し、o1-miniやGPT-4oといった強力な事後学習ベースラインを一貫して上回り、特にオープンエンドな設定において科学的推論能力が大幅に向上していることを示しています。
近年のマルチモーダル大規模言語モデル(MLLM)のビデオ理解能力は急速に発展しているが、既存のビデオベンチマークは主に、モデルの静的な内部知識に基づく理解を評価するものであり、少数の例から動的で新奇な文脈を学習・適応する能力を測るものではない。この課題を解決するため、我々はデモ駆動型ビデオ文脈内学習(Demo-driven Video In-Context Learning)を提案する。これは、文脈内のデモンストレーションから学習し、対象ビデオに関する質問に答える新たなタスクである。同時に、デモ駆動型ビデオ文脈内学習能力を評価するために設計された挑戦的なベンチマーク「Demo-ICL-Bench」を構築した。本ベンチマークは、関連する質問付きの1200本のYouTube教育ビデオから構成され、以下の2種類のデモンストレーションを派生させている:(i)テキストデモ用にビデオ字幕を要約したもの、(ii)ビデオデモとして対応する教育ビデオ。この新たな課題に効果的に取り組むため、我々は2段階の学習戦略(ビデオ教師ありファインチューニングと情報支援型直接選好最適化)を採用したMLLM「Demo-ICL」を開発し、文脈内事例からの学習能力を共同で強化する。先進的なMLLMを用いた大規模な実験により、Demo-ICL-Benchの難易度の高さが確認され、Demo-ICLの有効性が実証された。これにより、将来の研究方向性が明らかとなった。
大規模言語モデル(LLM)エージェントが単一のコンテキストウィンドウを超えて動作する際、メモリの重要性が高まっている。しかし、既存のシステムの多くはオフラインかつクエリ非依存のメモリ構築に依存しており、非効率であったり、クエリにとって重要な情報を見落としたりする可能性がある。ランタイムでのメモリ利用は自然な代替手段であるが、従来の研究では多大なオーバーヘッドが生じ、性能とコストのトレードオフに対する明示的な制御が限定的であった。本研究では、明示的かつクエリを考慮した性能コスト制御のためのランタイムエージェントメモリフレームワークであるBudgetMemを提案する。BudgetMemはメモリ処理を一連のメモリモジュールとして構造化し、各モジュールは3つの予算階層(低/中/高)で提供される。軽量なルーターがモジュール間で予算階層のルーティングを行い、タスク性能とメモリ構築コストのバランスを取る。このルーティングは、強化学習で訓練されたコンパクトなニューラルポリシーとして実装される。BudgetMemを統一的なテストベッドとして用い、予算階層を実現する3つの相補的な戦略(実装手法の複雑さ、推論動作、モジュールモデルサイズ)を検討する。LoCoMo、LongMemEval、HotpotQAにおける実験では、性能を優先する場合(高予算設定)に強力なベースラインを上回り、より厳しい予算条件下でも優れた精度とコストのトレードオフを実現した。さらに、分析を通じて異なる階層化戦略の長所と短所を明らかにし、様々な予算体制において各軸が最も好ましいトレードオフをもたらす条件を明確にする。
大規模言語モデル(LLM)は、長期間にわたる実世界のタスクを遂行する能力がますます高まっている。しかし、コンテキスト量が増加するにつれて、その信頼性はしばしば低下する。これは「コンテキスト腐敗」として知られる現象である。既存の長文コンテキストベンチマークは、主に長文スニペットからの情報検索能力を評価する単一ステップ設定に焦点を当てている。しかし現実的なシナリオでは、LLMは多くの場合、環境を探索し、指示や計画に従い、有用な情報を抽出し、動的に成長するコンテキスト下で正しい行動を予測するエージェントとして動作する必要がある。このような設定で言語エージェントを評価するため、我々はLOCA-bench(LOng-Context Agentsのベンチマーク)を提案する。タスクプロンプトが与えられると、LOCA-benchは環境状態の自動化されたスケーラブルな制御を活用し、エージェントのコンテキスト長を調整する。この設計により、LOCA-benchは基礎となるタスク意味を固定したまま、制御された方法でコンテキスト長を理論上無限に拡張することが可能となる。LOCA-benchは、モデルとスキャフォールド(様々なコンテキスト管理戦略を含む)の組み合わせとして言語エージェントを評価する。環境状態が複雑化するにつれてエージェントの性能は一般に低下するが、高度なコンテキスト管理技術は全体の成功率を大幅に向上させうる。我々はLOCA-benchをオープンソース化し、長文コンテキストにおけるエージェントシナリオでのモデルとスキャフォールド評価のためのプラットフォームを提供する:https://github.com/hkust-nlp/LOCA-bench
大規模言語モデル(LLM)の進展により、マルチターンのWeb対話を通じて自律的に情報を収集可能な検索エージェントの開発が大幅に加速している。このようなエージェントを評価するため、様々なベンチマークが提案されてきた。しかし、既存のベンチマークはしばしば回答から逆方向にクエリを構築するため、現実のニーズに合わない不自然なタスクを生み出している。さらに、これらのベンチマークは特定情報の位置特定か複数情報源からの集約のいずれかに偏りがちで、データ汚染を受けやすい静的な回答セットに依存する傾向がある。これらのギャップを埋めるため、我々は実際の情報探索シナリオを反映した373の人手作成クエリから構成される、汎用情報探索アシスタント向けベンチマークGISAを提案する。GISAは4つの構造化回答形式(項目、集合、リスト、表)を特徴とし、確定的な評価を可能にする。深い推論と広範な情報集約を統合タスク内に統合し、記憶化を防ぐために定期的に回答が更新されるライブサブセットを含む。特筆すべきは、GISAが全クエリに対し完全な人間の検索軌跡を提供し、プロセスレベルでの監督学習および模倣学習のためのゴールドスタンダードな参照を可能にすることである。主流LLMおよび商用検索製品を用いた実験では、最高性能モデルでも完全一致スコアが19.30%に留まり、複雑な計画立案と包括的な情報収集を要するタスクでは性能が顕著に低下することが明らかになった。これらの知見は、将来の改善余地が大きいことを示唆している。
複雑なターミナルタスクの実行は、オープンウェイトLLMにとって依然として大きな課題であり、2つの根本的な制約に直面しています。第一に、高精度で実行可能な訓練環境が不足しています。実世界のリポジトリから合成された環境は多様性と拡張性に欠け、LLMによって合成された軌跡は虚構に陥りがちです。第二に、標準的な指示チューニングでは、小さなモデルに共通する単純なミラーが稀にしか現れない専門家軌跡が使用されます。これにより分布の不一致が生じ、生徒モデル自身の実行時失敗からの回復能力が不十分になります。これらの隔たりを埋めるため、検証可能な環境と回復力のある専門家軌跡を合成するエンドツーエンドパイプラインであるTermiGenを提案します。TermiGenはまず、反復的なマルチエージェント改良ループを通じて機能的に有効なタスクとDockerコンテナを生成します。続いて、軌跡収集中に能動的にエラーを注入するGenerator-Criticプロトコルを採用し、エラー修正サイクルに富んだデータを合成します。このTermiGen生成データセットでファインチューニングされたTermiGen-Qwen2.5-Coder-32Bは、TerminalBenchにおいて31.3%のパス率を達成しました。これはオープンウェイトにおける新たなstate-of-the-artを確立し、既存のベースラインを凌駕し、特にo4-miniのような有力なプロプライエタリモデルを顕著に上回る結果です。データセットはhttps://github.com/ucsb-mlsec/terminal-bench-envで公開されています。
深い調査報告書の生成には、大規模な情報収集と洞察に基づく分析の統合が必要であり、現在の言語モデルにとって大きな課題となっている。既存の手法の多くは「計画してから執筆する」パラダイムに従っており、その性能は初期アウトラインの質に大きく依存する。しかし、包括的なアウトラインの構築自体に高度な推論能力が要求されるため、現在の深い調査システムはほぼ独占的にクローズドソースまたはオンラインの大規模モデルに依存している。この依存関係は実用上の導入障壁を生み出し、ユーザーデータの安全性とプライバシーに関する懸念を引き起こしている。本研究では、人間の執筆プロセスを模倣するフレームワークと80億パラメータの深い調査エージェントで構成される、軽量でありながら高性能なローカルソリューション「AgentCPM-Report」を提案する。本フレームワークは、報告書生成中に動的にアウトラインを修正可能にするWriting As Reasoning Policy(WARP)を採用する。このポリシーの下、エージェントは証拠に基づく草案作成と推論主導の深化を交互に行い、情報収集、知識精緻化、反復的なアウトライン進化を共同で支援する。この能力を小規模モデルに効果的に付与するため、コールドスタート、原子スキル強化学習、統合パイプライン強化学習からなる多段階エージェント訓練戦略を導入した。DeepResearch Bench、DeepConsult、DeepResearch Gymにおける実験により、AgentCPM-Reportは主要なクローズドソースシステムを凌駕し、特にInsight指標で大幅な向上を示すことを実証した。
空間的 embodied intelligence は、部分観測下においてエージェントが情報獲得のために能動的に行動することを要求する。マルチモーダル基盤モデルは受動的知覚において優れた性能を示すが、能動的かつ自己主導的な探索能力については未解明の部分が多い。我々は「空間理論」を提案する。これは、エージェントが自己主導的な能動探索を通じて情報を能動的に獲得し、連続的かつ部分的な観測から空間的信念を構築・修正・利用する能力と定義する。これを評価するため、好奇心駆動型探索によって正確な認知地図を構築することを目的としたベンチマークを開発した。重要な革新は空間的信念 probing であり、各ステップでモデルに内部の空間的表現を明示させる。最先端モデルの評価により、いくつかの重大なボトルネックが明らかになった。第一に、エージェントが自律的に情報収集する必要がある場合に性能が大幅に低下する「能動-受動ギャップ」を特定した。第二に、モデルがプログラムベースの代理と比較して非体系的な探索を行うため、非効率性が高いことが判明した。信念 probing を通じて、知覚が初期のボトルネックである一方、大域的信念は不安定性に悩まされ、空間知識が時間とともに劣化することを診断した。最後に、誤った信念パラダイムを用いて、エージェントが新しい証拠で時代遅れの事前分布を更新できない「信念の慣性」を明らかにした。この問題はテキストベースのエージェントにも存在するが、視覚ベースのモデルでは特に深刻である。我々の発見は、現在の基盤モデルが能動的探索中に一貫性があり修正可能な空間的信念を維持するのに苦戦していることを示唆する。
本論文では、長期的でインタラクティブなビデオベースの世界モデル向けに、新たな強化学習(RL)ポストトレーニングフレームワーク「WorldCompass」を提案する。このフレームワークは、インタラクション信号に基づいて世界モデルがより正確かつ一貫して世界を探索できるようにする。世界モデルの探索を効果的に「誘導」するために、自己回帰的ビデオ生成パラダイムに特化した三つの核心的革新を導入する:1)クリップ単位のロールアウト戦略:単一のターゲットクリップで複数のサンプルを生成・評価し、ロールアウト効率を大幅に向上させ、きめ細かい報酬信号を提供する。2)補完的報酬関数:インタラクション追従の正確性と視覚的品質の両方に対する報酬関数を設計し、直接的な監督を提供するとともに、報酬ハッキング行動を効果的に抑制する。3)効率的なRLアルゴリズム:負例を意識したファインチューニング戦略と様々な効率化最適を組み合わせ、モデルの能力を効率的かつ効果的に強化する。SoTAオープンソース世界モデル「WorldPlay」を用いた評価により、WorldCompassが様々なシナリオにおいてインタラクションの正確性と視覚的忠実度を大幅に改善することが実証された。
化学分野の大規模言語モデル(LLM)は、複雑な推論を実行する際に自然言語による明示的な連鎖思考(CoT)に依存することが主流である。しかし、化学推論は本質的に連続的かつ構造的な性質を持ち、これを離散的な言語トークンに強制的に変換することは、効率と性能の両方を制限する根本的な表現のミスマッチを引き起こす。本論文ではLatentChemを提案する。これは潜在推論インターフェースであり、化学計算をテキスト生成から分離することで、モデルが連続的な潜在空間内で直接多段階推論を実行し、最終出力のみを言語として生成することを可能にする。特筆すべきは、タスクの成功のみを最適化した場合、モデルが自発的に推論を内部化し、冗長なテキストによる導出を次第に放棄して、暗黙的な潜在計算を優先するという一貫した創発的振る舞いが観察された点である。この転換は単なるスタイルの変化ではなく、計算上有利である。多様な化学推論ベンチマークにおいて、LatentChemはChemCoTBenchにおいて強力なCoTベースのベースラインに対し59.88%の非引き分け勝率を達成し、平均10.84倍の推論速度向上を実現した。我々の結果は、化学推論が離散化された言語の軌跡ではなく、連続的な潜在ダイナミクスとしてより自然かつ効果的に実現されるという経験的証拠を提供する。
大規模言語モデル(LLM)における長文脈推論は、注意機構の計算量が文長の二乗に比例することや、キー・バリューキャッシュの肥大化に伴いコストが高く、文脈圧縮の動機となっている。本研究では、長い文脈を少数の連続的表現に凝縮する「ソフト文脈圧縮」に着目する。既存手法では、通常、LLM自体を学習可能な圧縮器として流用し、層ごとの自己注意機構を用いて情報を反復的に集約する。我々は、このパラダイムが2つの構造的限界、(i)層を跨ぐ進行的な表現の上書き、(ii)トークン間での圧縮容量の非協調的配分、を有すると主張する。本論文では、ComprExIT(明示的情報伝達による文脈圧縮)を提案する。これは、ソフト圧縮を「凍結されたLLMの隠れ状態を介した明示的情報伝達」という新たなパラダイムとして定式化する軽量フレームワークであり、圧縮処理をモデル内部の自己注意の動きから分離する。ComprExITは、(i)**深さ方向の伝達**により、複数層の情報をトークンアンカーへ選択的に伝達し、進行する上書きを軽減し、(ii)**幅方向の伝達**により、グローバルに最適化された伝達計画を経てアンカーを少数のスロットに集約し、情報の協調的配分を保証する。6つの質問応答ベンチマークにおいて、ComprExITは、最先端の文脈圧縮手法を一貫して上回り、追加パラメータは約1%のみであることを示した。これは、明示的かつ協調的な情報伝達が、より効率的でロバストな長文脈圧縮を実現することを実証している。
演繹、帰納、アブダクションは、人間の論理的思考の中核をなす基本的な推論パラダイムである。大規模言語モデル(LLM)の推論能力向上には多大な研究努力が払われているが、これらの基本パラダイムが一般化をどの程度誘導するかは、体系的に検証されていなかった。本研究では、これらの核心的パラダイム間の相互作用がLLMの推論行動に与える影響を明らかにする。まず、具体的な世界知識を抽象化するため、3つの基本パラダイムのそれぞれを対象とした記号論理タスクからなる新しい推論軌跡データセットを構築した。次に、これらのスキルをLLMに誘導する効果的手法を検討する。単純なファインチューニングから、モデル深度の増加や密なモデルから専門家混合モデルへの変換といった複雑な手法まで、様々な方法を実験した。現実的な知識を含み自然言語で完全に形式化された実世界の領域外タスクにおいて、誘導されたモデルを包括的に評価した結果、本アプローチが実践タスク全体で大幅な性能向上(最大14.60ポイント)を伴う強力な一般化能力を生み出すことが明らかとなった。
大規模推論モデル(LRM)は、長い多段階の推論軌道を生成することで複雑な推論タスクにおいて高い性能を達成するが、推論時のスケーリングには多大な導入コストが伴う。重要な課題は、生成の難易度が単一の出力内で変動することである。一方、効率性を重視した既存の手法は、この生成内変動を無視するか、高いシステム複雑性を伴う教師付きトークンレベルのルーティングに依存している。本論文では、長文推論における難易度変動を利用する、訓練不要なセグメントレベル実行時モデル切替フレームワーク「RelayGen」を提案する。トークン確率マージンを用いた生成不確実性のオフライン分析を通じて、粗い粒度のセグメントレベル制御が推論軌道内の難易度遷移を捉えるのに十分であることを示す。RelayGenは、低難易度セグメントへの遷移を示すモデル固有の切替キューを識別し、その継続をより小規模なモデルに動的に委譲する一方、高難易度の推論は大規模モデルで維持する。複数の推論ベンチマークにおいて、RelayGenは大規模モデルの精度を大部分維持しつつ、推論遅延を大幅に削減する。投機的デコーディングと組み合わせることで、RelayGenは追加の訓練や学習済みルーティングコンポーネントを必要とせず、精度劣化2%未満でエンドツーエンドの速度を最大2.2倍向上させる。
重みのみの量子化は、大規模言語モデル(LLM)を効率的に運用するための標準的な手法となっている。しかし、既存の手法では、大量のデータと計算資源を必要とするか、あるいは追加の記憶領域を必要とするため、モデルをバイナリ(1ビット)レベルまで効率的に圧縮することに失敗している。本研究では、LLMをバイナリおよびサブ1ビットレベルまで圧縮する、最初の学習後量子化(PTQ)手法であるNanoQuantを提案する。NanoQuantは量子化を低ランクの二値分解問題として定式化し、全精度の重みを低ランクの二値行列とスケールに圧縮する。具体的には、効率的な交互方向乗数法(ADMM)を利用して潜在的な二値行列とスケールを高精度に初期化し、ブロックおよびモデル再構築プロセスを通じて初期化されたパラメータを調整する。その結果、NanoQuantは低メモリ学習後量子化において新たなパレートフロンティアを確立し、サブ1ビットの圧縮率においても最先端の精度を達成する。NanoQuantは、消費者向けハードウェア上での大規模なデプロイを可能にする。例えば、単一のH100上でわずか13時間でLlama2-70Bを25.8倍圧縮し、70Bモデルを8GBの消費者向けGPU上で動作させることを可能にする。
大規模言語モデル(LLM)、マルチモーダル大規模言語モデル(MLLM)、画像生成モデル(テキスト画像生成モデル・画像編集モデル)、動画生成モデルなどの基盤モデルは、法律、医療、教育、金融、科学など多岐にわたる分野で不可欠なツールとなっている。こうしたモデルの実社会での展開が進むにつれ、その信頼性と責任ある利用の確保は、学界・産業界・政府にとって極めて重要となっている。本調査は、基盤モデルの信頼性と責任ある開発に焦点を当てる。我々は、バイアスと公平性、セキュリティとプライバシー、不確実性、説明可能性、分布シフトといった重要課題を探求する。また、幻覚(ハルシネーション)のようなモデルの限界や、アライメント手法、AI生成コンテンツ(AIGC)検出手法についても検討する。各領域において、学界の現状をレビューし、具体的な将来の研究方向性を提示する。加えて、これらの領域間の相互関係を論じ、それらの関連性と共通の課題を明らかにする。本調査が、単に強力であるだけでなく、倫理的、信頼性が高く、社会的責任を果たす基盤モデルの開発を促進することを願う。
近年、自己回帰型(AR)ビデオ拡散モデルは顕著な性能を達成している。しかし、その限られた学習期間により、長時間のテスト時には学習-テスト間の乖離が生じ、急速な画質劣化を引き起こす。本研究は、学習期間内における学習-テスト乖離を研究したSelf Forcingに続き、学習期間を超えた部分、すなわち学習時の限定的な時間範囲とテスト時のオープンエンドな時間範囲との間の乖離に着目する。オープンエンドなテストは任意の有限な学習ウィンドウを超えて拡張可能であり、長尺ビデオの学習は計算コストが高いため、我々はこの乖離を埋める学習不要なソリューションを追求する。学習不要なソリューションを探るため、ARキャッシュ維持に関する体系的分析を行い、その知見に基づきRolling Sinkを提案する。Self Forcing(5秒クリップのみで学習)上に構築されたRolling Sinkは、テスト時にARビデオ合成を超長時間(例:16 FPSで5-30分)へ効果的に拡張し、一貫した被写体、安定した色彩、首尾一貫した構造、滑らかな動きを実現する。大規模な実験により示されるように、Rolling SinkはSOTAベースラインと比較して、優れた長時間視覚的忠実度と時間的一貫性を達成する。プロジェクトページ: https://rolling-sink.github.io/
マルチモーダル大規模言語モデル(MLLM)の急速な進展にも関わらず、視覚的空間推論は、正解が未観測または代替視点における情景の見え方に依存する場合、依然として信頼性に欠ける。この問題に対処するため、視覚的想像のために世界モデルを用いて推論を拡張する最近の研究があるが、想像が実際に必要な場合、どの程度の想像が有益か、そしていつ有害となるかについては、未解明のままである。実際には、無差別な想像は計算量を増大させるだけでなく、誤った証拠を導入することで性能を劣化させうる。本研究では、空間推論のための制御可能なリソースとして、テスト時における視覚的想像力に関する詳細な分析を行う。静的視覚的証拠で十分な場合、想像が推論を改善する場合、そして過度または不必要な想像が精度と効率にどのように影響するかを検討する。この分析を支援するため、我々はAVICを提案する。これは世界モデルを備えた適応的テスト時フレームワークであり、現在の視覚的証拠の十分性を明示的に推論した上で、選択的に視覚的想像を呼び出し、その規模を調整する。空間推論ベンチマーク(SAT, MMSI)および具身化ナビゲーションベンチマーク(R2R)における結果は、想像が決定的、限定的、または有害となる明確なシナリオを明らかにし、選択的制御が固定の想像戦略を、大幅に少ない世界モデル呼び出しと言語トークン数で同等または上回る性能を発揮することを示す。全体として、我々の発見は、効率的かつ信頼性の高い空間推論のためのテスト時想像力の分析と制御の重要性を浮き彫りにする。
段階的な「ハウツー」手順の生成は、LLMの重要な能力である。チャットボットではハウツーに関する助言が頻繁に要求され、複雑なタスクに対する推論には段階的な計画が不可欠だからだ。しかし、実世界のタスクにおける手続きの正当性を大規模に測定・改善することは、依然として困難で研究も不十分である。この問題に対処するため、我々は目標条件付き手順生成を評価・改善するスケーラブルなフレームワーク「How2Everything」を提案する。本フレームワークには、14のトピックにわたる98万のウェブページから35万1千の手順を抽出し、より大規模なコーパスへの容易な拡張を可能とする「How2Mine」を含む。この抽出結果から、トピック間でバランスの取れた7千例の評価セット「How2Bench」を構築した。モデル出力を確実に評価するため、生成結果に目標達成を妨げる重大な欠陥が含まれるかを検出するLLM審査員を用いた評価プロトコル「How2Score」を開発した。低コストで再現性の高い評価のために、フロンティアモデルをオープンな8Bモデルに蒸留し、人間の注釈者との一致率80.5%を達成した。How2Benchにより、モデルサイズと訓練段階にわたる明確なスケーリング則が明らかになり、事前学習の早期段階から評価信号が得られることが示された。最後に、How2Scoreを報酬として用いた強化学習により、3つのモデルすべてでHow2Benchの性能が10ポイント以上向上し、標準ベンチマークでの体系的後退は見られなかった。この改善効果は、表面的な原文の記憶や形式への適合に頑健であった。総合すると、How2Everythingは、ウェブデータの事前学習が如何に大規模な能力評価と改善のクローズドループを支え得るかを示している。
推論の誘導は、思考を誘発することで複雑なタスクにおける大規模言語モデル(LLM)の性能を向上させる強力な技術として登場した。しかし、現実的なユーザー関与型エージェントシナリオにおけるその有効性は未だ不明確である。本論文では、ユーザー関与型LLMエージェントにおける明示的思考の効果について包括的な研究を行う。我々の実験は、7つのモデル、3つのベンチマーク、2つの思考の具体化に及び、定量的な応答分類分析と定性的な失敗伝播ケーススタディを通じて評価を行う。予想に反して、ユーザー関与型設定では、強制的な思考がしばしばエージェントに逆効果となり、様々なLLMで異常な性能劣化を引き起こすことを発見した。我々の重要な発見は、思考がエージェントをより「内向的」にし、応答を短くし、ユーザーへの情報開示を減らすことで、エージェントとユーザー間の情報交換を弱め、下流タスクの失敗につながることを明らかにした。さらに、情報開示を明示的に促すことが、多様なモデルファミリーにわたって確実に性能を向上させることを実証し、能動的な透明性がエージェント最適化のための重要な手段であることを示唆する。全体として、我々の研究は、情報透明性の認識が、現実世界シナリオにおける推論エージェントの将来の設計にとって、重要でありながら十分に探求されていない視点であることを示唆する。コードはhttps://github.com/deeplearning-wisc/Thinking-Agent で公開されている。
現在のコード検証のパラダイムは、実行ベースの単体テストや補助的LLM評価など、外部メカニズムに大きく依存している。これらは労力を要するか、評価モデル自身の能力に制限されることが多い。この状況は、基本的でありながら未探査の疑問を提起する:LLMの機能的正しさを、その内部計算構造のみから評価することは可能か?本研究の主目的は、コード生成時にモデルの神経ダイナミクスが、論理的正当性を予測可能な内部復号可能な信号を符号化しているかどうかを調査することである。機械論的解釈可能性に着想を得て、我々はコード検証を機械論的診断タスクと見なし、モデルの明示的アルゴリズム軌跡を行単位の帰属グラフにマッピングすることを提案する。複雑な残留フローを分解することで、モデル内部回路において、健全な推論と論理的失敗を区別する構造的シグネチャの同定を目指す。Python、C++、Javaにわたる分析により、内在的正しさの信号が多様な構文にわたって頑健であることを確認した。これらの内部グラフから得られる位相的特徴は、表面的ヒューリスティックスよりも信頼性高く正しさを予測し、誤った論理を修正するための標的型因果介入を可能にする。これらの発見は、生成コードを検証するための手段として、内部内省が復号可能な特性であることを立証する。コードはhttps://github.com/bruno686/CodeCircuitにある。
人工知能の発展は、データ駆動学習パラダイムの進化として捉えることができ、データの組織化と利用の連続的な変化が、モデル能力の進歩を絶えず推進してきた。現在の大規模言語モデル(LLM)研究は、データサイズの一方向的スケーリングに大きく依存するパラダイムが支配的であり、データの入手可能性、取得コスト、学習効率においてボトルネックに直面しつつある。本研究では、人工汎用知能(AGI)の発展が、モデルが積極的にデータ管理を導きながら、高品質なデータがモデル能力を増幅する、データとモデルの共進化の新たな段階に入りつつあると論じる。このビジョンを実現するため、異種混合の学習目標とコスト制約にわたるLLM学習ライフサイクル全体を支援するように設計された、階層化データ管理フレームワークを提案する。具体的には、未整理の生リソースから体系的で検証可能な知識までを範囲とするL0-L5の階層化データ管理フレームワークを導入する。重要な点として、品質スコアリングや内容編集などのデータ管理プロセスにおいてLLMを完全に活用し、各階層のデータを精緻化する。各階層は、異なるデータ特性、管理戦略、学習役割によって特徴づけられ、データが事前学習、中間学習、アライメントを含むLLM学習段階全体に戦略的に配分されることを可能にする。本フレームワークは、データ品質、取得コスト、限界的学習効果のバランスを取り、スケーラブルかつ持続可能なデータ管理への体系的なアプローチを提供する。提案フレームワークの有効性を実証研究により検証し、生コーパスから構築された階層化データセットが複数の学習段階で使用される。実験結果は、階層を意識したデータ利用が学習効率とモデル性能を大幅に改善することを示す。さらなる研究の促進のため、階層化データセットと処理ツールをコミュニティに公開する。
強化学習(RL)はヒューマノイド制御に広く用いられており、近接方策最適化(PPO)などの方策オン手法は、大規模並列シミュレーションによるロバストな学習と、場合によっては実機へのゼロショット展開を可能にします。しかし、方策オンアルゴリズムのサンプル効率の低さは、新たな環境への安全な適応を制限します。方策オフRLやモデルベースRLはサンプル効率の向上を示していますが、ヒューマノイドにおける大規模事前学習と効率的なファインチューニングの間には依然として隔たりが存在します。本論文では、大規模バッチ更新と高い更新対データ(UTD)比を備えた方策オフ手法であるSoft Actor-Critic(SAC)が、ヒューマノイドの歩行方策の大規模事前学習を確実に支え、実機へのゼロショット展開を達成できることを明らかにします。適応に関しては、SACで事前学習した方策が、モデルベース手法を用いて新環境や分布外タスクでファインチューニング可能であることを実証します。新環境でのデータ収集は決定論的方策で実行し、確率的探索は物理情報に基づく世界モデル内に閉じ込めます。この分離により、適応中のランダム探索のリスクを軽減しつつ、改善のための探索的カバレッジを維持します。全体として、本手法は事前学習における大規模シミュレーションの壁時間効率と、ファインチューニングにおけるモデルベース学習のサンプル効率を結合したものと言えます。
本論文では、単眼ビデオから4Dジオメトリを再構築し、密なモーションを推定するビデオ拡散ベースのフレームワーク「MotionCrafter」を提案する。本手法の中核は、共有座標系における密な3Dポイントマップと3Dシーンフローの新規結合表現、およびこの表現を効果的に学習する新しい4D VAEである。根本的に分布が異なるにもかかわらず、3Dの値と潜在変数をRGB VAEの潜在変数に厳密に一致させる従来研究とは異なり、我々はそのような一致が不必要であり、最適でない性能を招くことを示す。代わりに、拡散事前分布をより良く転送し、再構築品質を大幅に改善する、新しいデータ正規化とVAE学習戦略を導入する。複数のデータセットにおける広範な実験により、MotionCrafterがジオメトリ再構築と密なシーンフロー推定の両方で最先端の性能を達成し、ポスト最適化を一切行うことなく、それぞれジオメトリで38.64%、モーション再構築で25.0%の改善を実現することを実証する。プロジェクトページ: https://ruijiezhu94.github.io/MotionCrafter_Page
近年、音声合成技術は急速な進歩を遂げているが、オープンソースの歌声合成(SVS)システムは、特にロバスト性とゼロショット汎化性能の点で、産業応用に向けた大きな課題に直面している。本報告では、実用展開を意識して設計された高品質オープンソースSVSシステム「SoulX-Singer」を紹介する。SoulX-Singerは、記号的な楽譜(MIDI)または旋律表現のいずれかを条件とした制御可能な歌声生成をサポートし、実世界の制作ワークフローにおいて柔軟で表現力豊かな制御を可能にする。42,000時間以上の歌声データで学習された本システムは、中国語(普通話)、英語、広東語をサポートし、多様な音楽条件下において言語を問わず常に最先端の合成品質を達成する。さらに、実用的なシナリオにおけるゼロショットSVS性能の信頼性高い評価を可能にするため、厳密な訓練-テスト分離を特徴とする専用ベンチマーク「SoulX-Singer-Eval」を構築し、ゼロショット設定における体系的な評価を容易にした。
安定かつエネルギー効率の良い歩行の実現は、ヒューマノイドロボットが実世界の応用で連続的に動作するために不可欠である。既存のMPCやRLのアプローチでは、エネルギー関連の指標を多目的最適化フレームワーク内に組み込むことが多いが、これは広範なハイパーパラメータ調整を必要とし、しばしば最適とは言えないポリシーをもたらす。これらの課題に対処するため、我々はECO(Energy-Constrained Optimization)を提案する。これは、エネルギー関連の指標を報酬から分離し、明示的な不等式制約として再定式化する制約付きRLフレームワークである。この手法は、エネルギーコストを明確かつ解釈可能な物理的表現として提供し、エネルギー効率向上のため、より効率的で直感的なハイパーパラメータ調整を可能にする。ECOは、エネルギー消費量と参照動作に対する専用の制約をラグランジュ未定乗数法により課すことで、ヒューマノイドロボットの安定、対称、かつエネルギー効率の高い歩行を実現する。我々はECOを、MPC、報酬整形を用いた標準RL、および4つの最先端制約付きRL手法と比較評価した。子供サイズのヒューマノイドロボットBRUCEを用いたシミュレーション間転移およびシミュレーションから実機への転移を含む実験により、ECOがロバストな歩行性能を維持しつつ、ベースラインと比較してエネルギー消費を大幅に削減することを実証した。これらの結果は、エネルギー効率の良いヒューマノイドロボットの歩行における大きな進歩を示している。全ての実験デモはプロジェクトウェブサイト(https://sites.google.com/view/eco-humanoid )で公開されている。
報酬モデル(RM)は大規模言語モデル(LLM)の訓練において重要であるが、通常は大規模な人手による注釈付き選好ペアに依存している。LLMの広範な展開に伴い、実環境でのインタラクションが暗黙的な報酬信号の豊富な源として登場している。これにより、実環境インタラクションから直接報酬モデルを構築できるかという疑問が生じる。本研究では、この可能性を探るため、WildChatをインタラクション源として採用し、信頼性の高い人間のフィードバックを抽出するパイプラインを提案する。これにより、選好ペアを介さずユーザーフィードバックに対して順序回帰を直接行うことで、WildRewardを訓練するための186kの高品質なインスタンスが得られた。大規模な実験により、WildRewardは従来の報酬モデルと比較して同等あるいは優れた性能を達成し、較正とサンプル間の一貫性が向上していることが示された。また、WildRewardはユーザーの多様性から直接恩恵を受けており、より多くのユーザーがより強力な報酬モデルをもたらすことを観察した。最後に、WildRewardをオンラインDPO訓練に適用し、様々なタスクで顕著な改善を確認した。コードとデータはhttps://github.com/THU-KEG/WildReward で公開されている。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化する重要な手法として登場している。しかし、継続的な学習は政策エントロピーの崩壊を引き起こしやすく、エントロピーの急激な減衰によって早期の過信状態、出力多様性の低下、学習を阻害する勾配ノルムの消失が生じる。勾配保存型クリッピングはこれらの動態に影響を与える主要因であるが、既存の対策戦略は静的で、クリッピング機構と精密なエントロピー制御を結びつける枠組みを欠いている。本論文は、勾配保存型クリッピングの観点からRLにおけるエントロピー制御を再構築する。まず理論的・実証的に、特定の重要度サンプリング比領域がエントロピーの増減に与える影響を検証する。これらの知見を活用し、動的クリッピング閾値を用いた新規の調整機構を提案し、エントロピーを精密に管理する。さらに、増加→減少、減少→増加→減少、振動的減衰といった動的エントロピー制御戦略を設計・評価する。実験結果は、これらの戦略がエントロピー崩壊を効果的に緩和し、複数のベンチマークで優れた性能を達成することを示している。
大規模推論モデル(LRM)におけるテスト時計算リソース配分は、数学的問題解決、コード合成、計画立案など様々な応用分野で広く利用されている。近年の研究では、自己一貫性のスケーリングや並列思考、汎用的な「思考トークン」の追加、回答前の問題再読プロンプトなどによってこの問題に取り組んできた。しかしこれらの手法は、タスク非依存のトークンを注入するか、多くのLRMが内部連鎖の先頭で自然に示す反復現象を説明できず無視しがちなヒューリスティックを強要するものであった。これに対し我々は、プロンプトの反響(Echo of Prompt: EOP)と名付けた、モデルが問題文を言い直す傾向を、計算資源形成メカニズムとして前方配置で分析・活用する。反響除去を棄却ベースの条件付けとして定式化し、計算可能な代理指標として反響尤度格差ΔLを定義することで、EOPの確率的コストを形式化する。これにより、早期反復と尤度向上・下流精度との理論的関連が初めて明らかになった。ただしこれだけではEOPの活用方法は特定できない。そこで我々は、教師ありファインチューニングを通じて「反響→推論」パターンを注入するEcho-Distilled SFT (ED-SFT)と、訓練なしで推論途中にモデルを再接地させるEchoic Prompting (EP)を開発した。有望とはいえ、冗長性以外の効果を定量化するのは容易ではない。このため我々は、長さと接尾辞を制御した尤度分析と層別注意機構の研究を実施し、EOPが中間層における回答から回答接頭部への注意を増加させること、つまり注意の再焦点化メカニズムと整合的な現象を明らかにした。GSM8K、MathQA、Hendrycks-MATH、AIME24、MATH-500において、デコード設定と計算予算を統一して評価した結果、ベースラインを一貫して上回る性能向上を確認した。コードはhttps://github.com/hhh2210/echoes-as-anchorsで公開されている。
エージェントシステムの評価は、エージェントが環境と相互作用してタスクを解決するベンチマークで行われる。多くの論文では、タスクごとに単一の実行から算出されたpass@1スコアが報告され、これが信頼性の高い性能推定値を提供すると仮定されている。我々はこの仮定を検証するため、SWE-Bench-Verifiedにおいて3つのモデルと2つのスキャフォールドにまたがる60,000のエージェント軌道を収集した。その結果、大幅な分散が認められた:単一実行のpass@1推定値は、どの実行を選択するかに応じて2.2から6.0パーセントポイント変動し、温度0においても標準偏差は1.5パーセントポイントを超えた。この分散は重大な意味を持つ:報告される2~3パーセントポイントの改善は、真のアルゴリズム的進歩ではなく、評価ノイズを反映している可能性がある。トークンレベルの分析を通じて、軌道は早期(多くの場合、最初の数パーセントのトークン内)に分岐し、これらの小さな差異が異なる解決戦略へと連鎖することを示す。エージェントシステムの信頼性の高い評価を実現するため、我々は以下3つの具体的な実践を推奨する:(1) 特に小幅な改善を測定する場合、タスクごとに複数の独立した実行からpass@1を推定する、(2) 期待される効果量を検出するために必要な実行数を統計的検定力分析を用いて決定する、(3) k>1としたpass@k(楽観的下限)やpass^k(悲観的下限)などの指標を検討し、性能エンベロープ全体をより適切に特徴付ける。これらの実践は評価コストを増加させるが、統計的ノイズと真の科学的進歩を区別する上で不可欠である。
トークン化は、トルコ語のような形態素豊富な言語(MRL)におけるニューラル言語モデリングの重要な設計選択である。このような言語では、生産的な膠着構造が語彙効率と形態素忠実性の両方に課題をもたらす。従来の研究では、トークナイザファミリーや語彙サイズが探究されてきたが、一般的に(i)トークナイザの訓練コーパスを体系的に制御せずに語彙を変更し、(ii)限定的な内在的診断しか提供せず、(iii)下流タスクのごく一部のみを評価している。本研究は、トルコ語のサブワードトークン化に関する初の包括的かつ原理に基づいた研究、「サブワードマニフェスト」を提示する。これは、語彙サイズとトークナイザ訓練コーパスサイズ(データと語彙の連動)を同時に変化させ、同一のパラメータ予算下で複数のトークナイザファミリー(WordPiece、形態素レベル、文字ベースライン)を比較し、意味的(NLI、STS、感情分析、NER)、統語的(品詞タグ付け、依存関係解析)、形態素に敏感なプローブ課題にわたって評価する。トークナイザの成功・失敗理由を説明するため、粗い集計値を超えて、境界レベルでのミクロ/マクロF1、分離された語幹原子性と表層境界ヒット、過剰/過少分割指標、文字/単語編集距離(CER/WER)、継続率、接辞タイプのカバレッジおよびトークンレベル原子性を分析する、形態素を考慮した診断ツールキットを導入する。我々の貢献は四つある:(i) 語彙-コーパス-成功の三要素に関する体系的な調査;(ii) 内在的診断と外在的結果を結び付ける統合された形態素考慮評価フレームワーク;(iii) 文字レベルおよび形態素レベルのトークン化が効果を発揮する条件を特定する制御比較;(iv) 評価コード、トークナイザパイプライン、モデルのオープンソース公開。この種の研究としては初めてとなる本「サブワードマニフェスト」は、MRLにおいて効果的なトークナイザを構築するための実践的な指針を提供し、将来の研究のための再現可能な基盤を確立するものである。
感情理解は、社会的に知的なエージェントを構築する上で不可欠である。近年のマルチモーダル大規模言語モデルはこのタスクで高い性能を示しているが、2つの重要な課題が残っている。すなわち、感情と無関係な視聴覚的手がかりとの間の擬似相関、および言語モデル基盤におけるテキスト事前分布によって駆動される視聴覚的手がかりの幻覚である。これらの問題を定量化し理解するため、我々はEmoReAlMを導入する。これは、手がかりと感情の関連性、幻覚、およびモダリティ間の一致を評価するために設計されたベンチマークである。次に、モデルの応答を視聴覚入力と感情中心のクエリの両方に整合させる選好最適化手法であるAVEm-DPOを提案する。具体的には、擬似相関や幻覚を示す応答と、テキストプロンプトによって導かれる視聴覚入力ペアに対する選好を構築する。さらに、テキスト事前分布への依存にペナルティを課す正則化項を含めることで、モダリティ固有の手がかり幻覚を軽減する。DFEW、RAVDESS、EMERにおける実験結果は、本手法が参照ベースラインモデルの性能をゼロショット設定において6~19%の相対的性能向上で有意に改善することを示している。厳密なベンチマークと堅牢な最適化フレームワークの両方を提供することにより、本研究は感情理解と社会的人工知能のためのMLLMの原理的な評価と改善を可能にする。コード、モデル、ベンチマークはhttps://avere-iclr.github.ioで公開予定である。
専門家混合(Mixture-of-Experts)アーキテクチャの最近の進展により、個々の専門家モデルは、共通の基盤モデルを用いて調整を促進することで、他の専門家から分離して(連合的に)訓練できることが示されている。しかし我々は、すべての領域においてフルサイズの専門家が必要とは限らず、代わりに低ランクのアダプタで十分であると仮説を立てる。本論文では、フルサイズの専門家または適切なランクのアダプタのいずれかであり得る、柔軟なランク不均一専門家混合モデル「FlexMoRE」を提案する。我々は、ランク2^0から2^14までの6種類の専門家を評価し、120のタスクで評価される150の混合(2専門家の混合96通り、7専門家の混合54通り)を網羅する実験を通じて、専門家のランクと下流タスク性能のトレードオフを系統的に調査する。実験ではFlexOlmoを基盤とし、その事前学習済み専門家を低ランク版に変換する。専門家のランクから下流タスク性能への回帰分析により、推論が重視されるベンチマークでは、知識が重視されるベンチマークに比べて、最高性能をもたらすランクが大幅に高いことが明らかになった。このランク感度に関する知見は、メモリ効率に直接的な示唆を与えるものとなる:最適なランクを用いることで、FlexMoREは、ベースラインであるFlexOlmoスタイルのフルサイズ専門家混合モデル(平均スコア45.46)と比較して、パラメータ数が3分の1未満(FlexMoREが10.75B、FlexOlmoが33.27B)でありながら、改善された下流タスク性能(平均スコア47.18)を達成する。すべてのコードは公開予定である。
現代の言語モデル(LM)は、学習データの一部を記憶し、逐語的なスパンを出力する傾向があります。基盤となるソースが機密情報や著作権で保護されている場合、このような複製行為は、創作者に対する同意と補償の問題、および開発者に対するコンプライアンスリスクを引き起こします。本論文では、逐語的コピーを抑制するためのプラグアンドプレイ型推論時手法であるAnchored Decodingを提案します。この手法は、許諾ライセンスで学習された安全なLMへの近接性を保ちながら生成を行うことで、混合ライセンスデータで学習された任意のリスクのあるLMからのデコードを可能にします。Anchored Decodingは、ユーザーが設定した情報予算を生成軌道上で適応的に割り当て、シーケンスレベルの保証をもたらすステップ単位の制約を適用し、調整可能なリスクと効用のトレードオフを実現します。 Anchored Decodingを実用的にするため、新たに許諾ライセンスで学習された安全なモデル(TinyComma 1.8B)と、ByteSamplerフレームワーク(Hayase et al., 2025)を介した語彙横断的な融合を可能にするバイトレベル変種手法であるAnchored_{Byte} Decodingを導入します。6つのモデルペアを用いた長文評価により、著作権リスクと効用性について手法を評価しました。AnchoredおよびAnchored_{Byte} Decodingは新たなパレートフロンティアを定義し、控えめな推論オーバーヘッドで、元のLMに近い流暢さと事実正確性を維持しつつ、リスクのあるベースラインと安全な参照モデルとの間の測定可能なコピーギャップ(6つのコピー指標の平均)を最大75%削減します。
大規模言語モデルは、自己回帰的なデコード処理における冗長な計算を回避するためにキーバリューキャッシュ(KVキャッシュ)に依存しているが、コンテキスト長が増大するにつれて、キャッシュの読み書きがGPUメモリ帯域幅を急速に飽和させる可能性がある。近年、KVキャッシュ圧縮の手法が探求されているが、ほとんどのアプローチはKVキャッシュのデータ依存性や層間での変動を考慮していない。本研究では、KVキャッシュのデータ依存的な低ランク圧縮性を定量化するSVDベースの手法であるKV-CoRE(Rank EvaluationによるKVキャッシュ圧縮性評価)を提案する。KV-CoREはフロベニウスノルムにおける最適な低ランク近似を計算し、勾配不要かつ増分的な処理により、データセットレベルでの層ごとの効率的な評価を可能とする。本手法を用いて、5つの英語ドメインおよび16言語にわたる複数のモデルとデータセットを分析し、圧縮性とモデルアーキテクチャ、学習データ、言語カバレッジを結びつける体系的なパターンを明らかにする。この分析の一環として、正規化有効ランクを圧縮性の指標として採用し、圧縮時の性能劣化と強い相関があることを示す。本研究は、LLMにおけるKVキャッシュ圧縮性の原則的な評価フレームワークと初の大規模ベンチマークを確立し、動的かつデータを考慮した圧縮技術およびデータ中心のモデル開発への示唆を提供する。
ColBERTに代表されるマルチベクトル後相互作用型検索モデルは、最先端の検索精度を実現するが、クエリ時の計算コストは、候補文書ごとのトークンレベルMaxSim相互作用を網羅的に計算する処理が支配的である。単一ベクトル表現による後相互作用の近似はコストを削減するが、精度の大幅な低下を招くことが多い。本論文では、この計算負荷を軽減するクエリ時枝刈りアルゴリズム「Col-Bandit」を提案する。本手法は、再ランキングを有限母集団におけるTop-K同定問題として定式化する。Col-Banditは、部分的に観測された文書スコアに対して不確実性を考慮した境界を維持し、調整可能な緩和条件付きの統計的決定境界の下で上位結果を決定するために必要な(文書、クエリトークン)MaxSimエントリのみを適応的に抽出する。文書全体やトークンをオフラインで枝刈りする粗粒度の手法とは異なり、Col-Banditは相互作用行列をオンザフライでスパース化する。これは標準的なマルチベクトルシステム上で、インデックスの変更、オフライン前処理、またはモデルの再学習を必要とせず、ゼロショットのドロップイン層として機能する。テキストベンチマーク(BEIR)およびマルチモーダルベンチマーク(REAL-MM-RAG)による実験では、Col-Banditがランキングの正確性を維持しつつ、MaxSimのFLOPsを最大5倍削減できることが示され、密な後相互作用スコアリングには、クエリ時に効率的に特定・枝刈り可能な相当量の冗長性が含まれていることが示唆された。
エージェントスキルは、大規模言語モデル(LLM)エージェントを拡張する、再利用可能なプログラム的なモジュールであり、発動条件、手続き型ロジック、ツール連携を定義する。こうしたスキルが公開マーケットプレイスで急増する中、どのような種類が存在するのか、ユーザーがどのように採用するのか、どのようなリスクがあるのかは明らかでない。これらの疑問に答えるため、我々は主要なマーケットプレイスから公開されている40,285のスキルに対し、大規模データ駆動分析を実施した。結果から、スキルの公開はコミュニティの関心の変化に連動した短期集中型の傾向があることが示された。また、スキル内容はソフトウェアエンジニアリングワークフローに極度に集中している一方、情報検索とコンテンツ作成が採用の相当部分を占めることがわかった。コンテンツの傾向を超えて、カテゴリー間で顕著な需給不均衡を明らかにし、裾が重い長さ分布にもかかわらず、大半のスキルが典型的なプロンプト予算内に収まっていることを示す。最後に、意図レベルでの冗長性が広く見られる強いエコシステムの均質性を観察し、状態変更やシステムレベルでの操作を可能にするスキルを含む、無視できない安全性リスクを特定した。全体として、本研究の知見は、エージェントの新たなインフラ層としてのエージェントスキルの定量的な現状を提供し、スキルの再利用、標準化、安全性を考慮した設計に関する将来の研究に情報を与えるものである。
偏微分方程式は、物理・生物・グラフィカル現象のモデル化において高い精度を発揮する。しかし、数値解法は次元の呪い、高い計算コスト、領域特化した離散化といった課題を抱えている。本研究では、各種PDEソルバーの長所と短所を検討し、正問題・逆問題・方程式発見を含む特定の科学シミュレーション問題へ応用する。特に、最近提案されたCNF(NeurIPS 2023)フレームワークソルバーを、複数従属変数および非線形設定に拡張し、下流応用と統合する。成果として、選定手法の実装、自己調整技術、ベンチマーク問題による評価、ならびにニューラルPDEソルバーと科学シミュレーション応用に関する包括的調査を含む。
検索拡張生成(RAG)は知識集約型タスクにおける大規模言語モデルの推論を強化するが、既存のRAGパイプラインを大規模エンティティマッチングに適用する際には、検索と生成に多大なオーバーヘッドが生じる。この課題に対処するため、本論文ではブロッキングに基づくバッチ検索と生成により計算コストを削減する、効率的なRAGアーキテクチャCE-RAG4EMを提案する。さらに、ブロッキングを考慮した最適化と検索粒度に焦点を当てた、エンティティマッチング向けRAGシステムの分析・評価のための統一フレームワークを提示する。大規模な実験により、CE-RAG4EMが強力なベースラインと比較して、マッチング品質を同等以上に維持しつつ、エンドツーエンドの実行時間を大幅に短縮できることが示された。我々の分析はさらに、主要な設定パラメータが性能とオーバーヘッドの間の本質的なトレードオフを生み出すことを明らかにし、エンティティマッチングとデータ統合のための効率的かつスケーラブルなRAGシステム設計に実践的な指針を提供する。
自律的な科学発見を実現するAIエージェント「Aster」を紹介する。Asterは既存のフレームワークよりも最大20倍高速に動作し、タスクと初期プログラム、プログラムのパフォーマンス評価スクリプトが与えられると、反復的にプログラムを改善し、多くの場合で新たなstate-of-the-art性能を達成する。Asterは新規発見に必要な反復回数を大幅に削減することで、数時間に及ぶ機械学習トレーニングなど評価に長時間を要するタスクを含む、処理可能な問題領域を拡大する。 Asterを数学、GPUカーネルエンジニアリング、生物学、神経科学、言語モデルトレーニングの各問題に適用した。具体的には、エルデーシュの最小重複問題、TriMulカーネルの最適化、単一細胞解析のノイズ除去問題、ZAPBenchで高性能を発揮する神経活動予測モデルのトレーニング、NanoGPTスピードラン競技である。AsterはZAPBenchを除く全タスクでSOTA結果を達成し、ZAPBenchでは最高の人間の解法と同等の性能を、計算量を190分の1未満に抑えて実現した。 AsterはウェブインターフェースとAPIを通じてasterlab.aiで利用可能である。
大規模言語モデル(LLM)は、拡大を続ける科学的知見を横断的に推論することで、発見の加速が期待されている。しかし、現在の課題は情報へのアクセス自体ではなく、意味のある分野横断的な方法で情報を結びつけることにある。分子化学から機械的特性にわたる概念の統合が革新に不可欠な材料科学において、この課題は特に深刻である。人間も単一エージェントのLLMも、この情報の奔流に完全に対処することはできず、後者はしばしば虚構(ハルシネーション)を生じやすい。このボトルネックに対処するため、我々は大規模知識グラフに導かれたマルチエージェントフレームワークを導入し、現在厳格な規制の対象となっているパーフルオロアルキル物質およびポリフルオロアルキル物質(PFAS)の持続可能な代替物質の発見を目指す。フレームワーク内のエージェントは、問題分解、証拠検索、設計パラメータ抽出、グラフ走査に特化し、異なる知識領域間の潜在的な関連性を発見して仮説生成を支援する。アブレーション研究により、完全なマルチエージェントパイプラインが単一ショットプロンプティングを上回る性能を示し、分散特化と関係推論の価値を裏付けた。グラフ走査戦略を調整することで、システムは、ドメインにとって重要な結果に焦点を当てた利用的探索と、新たな横断的関連性を浮き彫りにする探索的探索を交互に行うことを実証する。生体医療用チューブの事例を通して、本フレームワークが、摩擦特性、熱安定性、耐薬品性、生体適合性をバランスさせた持続可能なPFASフリーの代替案を生成することを示す。本研究は、知識グラフとマルチエージェント推論を組み合わせることで材料設計の空間を拡大するフレームワークを確立し、本アプローチを実証するいくつかの初期設計候補を提示する。
テキスト埋め込みは多くのNLPアプリケーションを可能にするが、埋め込み逆変換攻撃による深刻なプライバシーリスクに直面しており、機微属性の暴露や生テキストの再構築を招きうる。既存の差分プライバシー防御手法は埋め込み次元間で均一な感度を仮定するため、過剰なノイズ付加と有用性の低下を招く。本論文では、テキスト埋め込みにおける概念特化型プライバシー保護のためのユーザ中心フレームワークSPARSEを提案する。SPARSEは、(1) ユーザ定義概念に対するプライバシー敏感次元を同定する微分可能マスク学習と、(2) 次元感度に基づいて調整された楕円状ノイズを適用するマハラノビスメカニズムを組み合わせる。従来の球状ノイズ注入とは異なり、SPARSEはプライバシー敏感次元を選択的に摂動させつつ、非敏感な意味情報を保持する。3種類の埋め込みモデルと攻撃シナリオを用いた6つのデータセットで評価した結果、SPARSEは既存の差分プライバシー手法と比較して、一貫してプライバシー漏洩を低減しつつ優れた下流タスク性能を達成する。
近年の研究により、選好アライメント(PA)の目的関数は、アライメント済み(選択済み)と未アライメント(却下済み)の応答分布間のダイバージェンス推定量として機能することが示されている。本研究では、このダイバージェンスに基づく視点を、環境からの報酬のみが利用可能な検証可能な報酬を用いた強化学習(RLVR)など、一般的なアライメント設定に拡張する。この統一フレームワーク内で、我々はf-ダイバージェンスの変分表現に基づく、一般的なLLMアライメントのための、オン方策強化学習の一種であるf-グループ相対方策最適化(f-GRPO)と、オン/オフ方策ハイブリッド目的関数であるf-ハイブリッドアライメント損失(f-HAL)を提案する。これらの目的関数のクラスが、アライメント後に平均報酬を改善するという理論的保証を提供する。実験的には、RLVR(数学推論)タスクとPAタスク(安全性アライメント)の両方において本フレームワークを検証し、現在の手法と比較して優れた性能と柔軟性を実証する。
本論文では、経験過程理論に基づく統計的学習理論(SLT)の最初の包括的なLean 4形式化を提示する。我々のエンドツーエンドの形式的インフラは、最新のLean 4 Mathlibライブラリで不足していた内容を実装しており、ガウシアン・リプシッツ集中性の完全な構築、部分ガウス過程に対するダドリーのエントロピー積分定理の初の形式化、およびシャープなレートを持つ最小二乗(スパース)回帰への応用を含む。本プロジェクトは、人間が証明戦略を設計しAIエージェントが戦術的証明構築を実行するという、人間とAIの協調ワークフローを用いて実施され、人間によって検証されたSLTのためのLean 4ツールボックスが作成された。実装を超えて、この形式化プロセスは標準的なSLT教科書における暗黙の仮定と欠落した詳細を明らかにし解決し、理論に対する行単位の詳細な理解を強制する。本成果は再利用可能な形式的基盤を確立し、機械学習理論における将来の発展への道を開くものである。コードはhttps://github.com/YuanheZ/lean-stat-learning-theory で公開されている。
ユニバーサルマルチモーダル検索(UMR)は、テキストと視覚情報にわたる任意間検索を目指すが、現代の埋め込みモデルは、クエリが潜在的な推論(例:未特定の参照の解決や合成的制約のマッチング)を必要とする場合に依然として脆弱である。この脆弱性は、多くの場合データに起因すると我々は主張する:画像が「暗黙的」な証拠を含み、クエリが重要な意味を暗黙的に残す場合、単一の埋め込み処理が推論と圧縮を同時に行わなければならず、偽りの特徴マッチングを促進してしまう。我々は、検索前に推論を外部化することでこれらの役割を分離する、データ中心のフレームワークを提案する。強力な視覚言語モデルを用いて、コーパスエントリ内の視覚的証拠を高密度にキャプション化し、クエリ内のあいまいなマルチモーダル参照を解決し、冗長な指示を簡潔な検索制約に書き換えることで、暗黙的な意味を明示化する。推論時の拡張だけでは不十分であり、分布シフトを回避し、追加された信号を十分に活用するためには、検索器をこれらの意味的に高密度な表現で訓練する必要がある。M-BEIRにわたる実験では、我々の推論拡張訓練手法は強力なベースラインを一貫して上回り、 ablation study により、コーパス拡張は主に知識集約型クエリに利益をもたらす一方、クエリ拡張は合成的変更要求に対して極めて重要であることが示された。コードは https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval で公開している。
魚群における集団運動は、活性物質系における創発的な自己組織化の好例であるが、これらのダイナミクスをシミュレーションし解析するための計算ツールは、研究グループ間で断片化したままである。本論文では、海洋集団行動研究に特化した包括的なエントロピー診断機能を備えた3次元クージンゾーンモデルを実装したオープンソースPythonライブラリ、dewi-kaditaを提案する。本ライブラリは、古典的な秩序パラメータでは捉えられない異なる組織化特性を特徴づける7つの情報理論的指標――群れ凝集性エントロピー、分極エントロピー、深度成層エントロピー、角運動量エントロピー、最近接個体エントロピー、速度相関エントロピー、群れ形状エントロピー――を導入する。これらの指標は、集団的無秩序の単一スカラー測定値である海洋群れ指標(OSI)に統合される。4つの標準的構成(スウォーム、トーラス、動的平行、高度平行)による検証により、既知の相挙動が正しく再現されることが確認された:スウォーム状態は分極P < 0.1、OSI ≈ 0.71で無秩序を維持するのに対し、高度平行状態はP = 0.998、OSI = 0.24を達成し、速度相関エントロピーはゼロに消失する。エントロピーフレームワークは、同等の秩序パラメータ値を示すが異なる組織化メカニズムを持つトーラス構成と動的平行構成を確実に識別することに成功した。Numbaのジャストインタイム(JIT)コンパイルにより対相互作用計算が10~100倍高速化され、標準的なワークステーション環境で150~250個体の1000~2000タイムステップにわたるシミュレーションが5分以内で実行可能である。NetCDF4出力により、海洋学解析ツールとの相互運用性が確保されている。本ライブラリは、確立された分子動力学コードと同様に、集団行動モデリングにおける標準化された再現可能なインフラストラクチャの必要性に応えるものである。
因果関係発見は、科学AIやデータ分析といったデータ駆動分野の発展に不可欠である。しかし、既存手法は大規模グラフへのスケーリングにおいて、時間効率と空間効率の重大なボトルネックに直面している。この課題に対処するため、我々は最大1000ノードまでのグラフで推論をスケール可能な、効率的な因果関係発見のために設計されたニューラルネットワークアーキテクチャ「CauScale」を提案する。CauScaleは、データ埋め込みを圧縮する縮小ユニットにより時間効率を向上させ、軸固有の注意マップの維持を回避するための結合注意重みを採用することで空間効率を改善する。高い因果発見精度を維持するため、CauScaleは二重ストリーム設計を採用している:データストリームは高次元観測データから関係的証拠を抽出し、グラフストリームは統計的グラフ事前分布を統合し、重要な構造信号を保持する。CauScaleは、空間制限により従来手法が失敗する訓練段階において、500ノードのグラフへのスケーリングに成功した。様々なグラフ規模と因果メカニズムを持つテストデータにおいて、CauScaleはインディストリビューションデータで99.6%、アウトオブディストリビューションデータで84.4%のmAPを達成し、従来手法に比べて4〜13,000倍の推論速度向上を実現した。プロジェクトページはhttps://github.com/OpenCausaLab/CauScale にある。