翻訳付きの日次キュレーションされたAI研究論文
最先端の映像生成モデルは通常、VAE空間における映像潜在変数の分布を学習し、VAEデコーダを用いてピクセルにマッピングする手法を採用しています。このアプローチは高品質な映像生成が可能ですが、収束が遅く、長尺映像の生成には計算コストが膨大になる課題があります。本論文では、意味空間での映像生成によってこれらの制約を解決する新しい手法「SemanticGen」を提案します。私たちの核心的な洞察は、映像が本来持つ冗長性を考慮すると、生成プロセスは双方向注意を用いて大量の低次元映像トークンを直接モデル化するのではなく、コンパクトな高次元意味空間での大域的な計画から始め、その後で高周波数の詳細を付加すべきであるという点です。SemanticGenは2段階の生成プロセスを採用しています。第1段階では、拡散モデルがコンパクトな意味的映像特徴を生成し、映像の大域的なレイアウトを定義します。第2段階では、別の拡散モデルがこれらの意味特徴を条件としてVAE潜在変数を生成し、最終出力を生成します。意味空間での生成は、VAE潜在空間と比較してより高速な収束をもたらすことが確認されています。本手法は長尺映像生成に拡張した場合でも効果的かつ計算効率に優れています。大規模な実験により、SemanticGenが高品質な映像を生成し、最先端の手法や強力なベースラインを凌駕することを実証しました。
既存の強化学習(RL)手法は、大規模言語モデル(LLM)を単一の統合されたポリシーとして扱い、その内部メカニズムを看過してきた。したがって、ポリシーが層やモジュール間でどのように進化するかを理解することは、より標的化された最適化を可能にし、複雑な推論メカニズムを解明する上で極めて重要である。本論文では、Transformerの残差ストリームの内在的な分割と、隠れ状態とアンエンベディング行列の合成がサンプリング可能なポリシーと等価であることを利用して、言語モデルのポリシーを分解する。この分解により、個々の層からの寄与に対応する内部層ポリシーと、各層内の自己注意機構とフィードフォワードネットワーク(FFN)コンポーネントに沿った内部モジュラーポリシーが明らかになる。内部ポリシーのエントロピーを分析することで、以下のことが明らかになった:(a) 初期層は探索のために高いエントロピーを維持し、上位層は洗練のためにゼロに近いエントロピーに収束するが、その収束パターンはモデル系列によって異なる。(b) LLamaの予測空間は最終層で急速に収束するのに対し、Qwenシリーズのモデル、特にQwen3は、より人間らしい段階的に構造化された推論パターンを示す。これらの知見に基づき、我々は訓練初期段階で内部層ポリシーを直接最適化する新しいRLパラダイムであるBottom-up Policy Optimization(BuPO)を提案する。下位層で訓練目標を整合させることで、BuPOは基礎的な推論能力を再構築し、優れた性能を達成する。複雑な推論ベンチマークにおける大規模な実験により、本手法の有効性が実証された。コードはhttps://github.com/Trae1ounG/BuPO で公開されている。
マルチモーダル大規模言語モデル(LLM)と長尺動画QAのためのツール活用システムの最近の進歩は、1時間規模のエピソードに対する推論の可能性を示しています。しかし、多くの手法では依然としてコンテンツを非可逆的な要約に圧縮したり、限定的なツールセットに依存しているため、時間的定位が弱体化し、細かな手掛かりを見逃しています。我々は、マスターLLMが質問関連セグメントを特定するグラウンディングエージェントと、対象を絞ったテキスト観察を抽出するビジョンエージェントを調整するマルチエージェントフレームワークを提案します。マスターエージェントはステップ制限付きで計画を立て、強化学習により訓練され、簡潔で正確かつ効率的なマルチエージェント協調を促進します。この設計により、マスターエージェントはグラウンディングを通じて関連クリップに集中し、字幕を視覚的詳細で補完し、解釈可能な軌跡を生成します。TVQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAおよびLongTVQA+において、当社のマルチエージェントシステムは強力な非エージェントベースラインを大幅に上回りました。実験では、強化学習が訓練済みエージェントの推論と計画をさらに強化することも示されています。コードとデータはhttps://longvideoagent.github.io/で公開予定です。
認知科学によれば、空間能力は知覚から推論、相互作用へと段階的に発達することが示唆されている。しかしマルチモーダル大規模言語モデル(MLLM)において、この階層構造は十分に理解されていない。なぜならほとんどの研究が限られたタスクに焦点を当てているからである。本研究では、空間能力を4つのレベル(低次知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェンシー能力(L4))に体系化した認知科学に着想を得た階層「SpatialTree」を提案する。この分類体系に基づき、27の下位能力にわたって主流のMLLMを徹底評価する、初の能力中心型階層ベンチマークを構築した。評価結果から明らかな構造が浮かび上がった:L1スキルはほぼ独立しているのに対し、高次スキルは強い相関を示し、相互依存性が増大することを示唆している。対象を絞った教師ありファインチューニングを通じて、驚くべき転移ダイナミクスを発見した:L1内では負の転移が生じる一方、低次から高次能力への強いクロスレベル転移が顕著な相乗効果とともに観測された。最後に、階層全体の改善方法を探求した。広範な「思考」を促す単純な強化学習(RL)は信頼性に欠けることが判明した:複雑な推論には有効だが、直感的知覚を損なうのである。不必要な考察を抑制するシンプルな自動思考戦略「auto-think」を提案し、RLが全レベルで一貫して性能を向上させることを実現した。SpatialTreeの構築により、MLLMの空間能力を理解し体系的に拡張するための概念実証フレームワークを提供する。
自己進化型メモリシステムは、大規模言語モデル(LLM)ベースのエージェントの進化的パラダイムを前例なく再構築しつつある。従来の研究では、軌跡の保存、経験の蒸留、再利用可能なツールの合成を目的として手動設計されたメモリ構造に依存することが主流であり、これによりエージェントは環境相互作用内でオンザフライに進化することが可能であった。しかし、このパラダイムはメモリシステム自体の静的な性質によって根本的に制約されている。すなわち、メモリがエージェントレベルの進化を促進する一方で、基盤となるメモリ構造は多様なタスクコンテキストにメタ適応できないのである。この課題を解決するため、我々はMemEvolveを提案する。これはエージェントの経験的知識とメモリ構造を共進化させるメタ進化フレームワークであり、エージェントシステムが経験を蓄積するだけでなく、その学習方法を漸進的に洗練させることを可能にする。MemEvolveを先行研究に位置づけ、将来の自己進化システムの開放性を促進するため、EvolveLabを導入する。これは12の代表的なメモリシステムをモジュラー設計空間(符号化、保存、検索、管理)に蒸留した統一自己進化メモリコードベースであり、標準化された実装基盤と公平な実験環境を提供する。4つの挑戦的なエージェントベンチマークにおける大規模評価により、MemEvolveが(I)SmolAgentやFlash-Searcherなどのフレームワークを最大17.06%改善する大幅な性能向上を達成し、(II)強いクロスタスク・クロスLLM一般化能力を示し、多様なベンチマークと基盤モデルに効果的に転移可能なメモリ構造を設計することを実証した。
大規模言語モデル(LLM)ベースのエージェントは、複雑な推論やマルチターン対話において顕著な能力を示す一方、新たな環境に展開された際の継続的な改善と適応には課題を抱えている。有望なアプローチの一つとして、エージェントが新たなスキルを学習・検証・適用することを可能にするスキルライブラリの実装が挙げられる。しかし、現行のスキルライブラリ手法は主にLLMのプロンプティングに依存しており、一貫性のあるスキルライブラリの実装が困難となっている。これらの課題を克服するため、我々は強化学習(RL)に基づくアプローチを提案し、スキルライブラリによるエージェントの自己改善能力を強化する。具体的には、学習プロセスにスキルを体系的に組み込む新規RLフレームワーク「Skill Augmented GRPO for self-Evolution(SAGE)」を導入する。本フレームワークの核心コンポーネントである「Sequential Rollout」は、各ロールアウトにおいて、類似タスクの連鎖に対してエージェントを反復的に展開する。エージェントがタスク連鎖を進むにつれ、前タスクで生成されたスキルがライブラリに蓄積され、後続タスクで利用可能となる。さらに、本フレームワークは元の結果ベース報酬を補完する「Skill-integrated Reward」により、スキルの生成と活用を強化する。AppWorldにおける実験結果では、専門家の経験で教師ありファインチューニングされたモデルにSAGEを適用した場合、シナリオ目標達成率が8.9%向上し、相互作用ステップ数は26%削減、生成トークン数は59%減少し、精度と効率の両面で既存手法を大幅に上回る性能を示した。
大規模言語モデルが自律エージェントへと移行する中で、「深層研究(Deep Research)」は重要な指標として台頭してきました。しかし、BrowseCompのような既存の学術ベンチマークは、意図認識、長期的な意思決定、複数情報源の検証といった堅牢なスキルを要する現実世界のオープンエンドな研究要求を満たせないことが多いです。この課題に対処するため、我々はコスト効率に優れたエンドツーエンドのエージェント「Step-DeepResearch」を提案します。計画立案とレポート作成を強化するため、原子能力(Atomic Capabilities)に基づくデータ合成戦略を導入し、エージェント的中間訓練からSFT、RLへと至る段階的訓練パスを組み合わせました。チェックリスト方式の判定器(Checklist-style Judger)による補強により、頑健性が大幅に向上しています。さらに、中国語領域における評価格差を埋めるため、現実的な深層研究シナリオ向けベンチマーク「ADR-Bench」を構築しました。実験結果では、Step-DeepResearch(32B)がScale AI Research Rubricsで61.4%を獲得。ADR-Benchでは同等規模モデルを大きく上回り、OpenAIやGemini DeepResearchといったクローズドソースのSOTAモデルに匹敵する性能を示しました。これらの結果は、洗練された訓練によって中規模モデルが業界トップレベルのコスト効率で専門家レベルの能力を達成できることを実証しています。
一般音源分離は、音を認識し推論するマルチモーダルAIシステムの中核的な機能である。近年大きな進展があったものの、既存の分離モデルは、音声や音楽といった固定カテゴリに特化したドメイン固有の設計であるか、あるいはテキストのような単一のプロンプト手法のみをサポートする制御性の限界を有している。本研究では、テキスト、視覚、時間スパンのプロンプトを単一フレームワークに統合した一般音源分離の基盤モデル「SAM Audio」を提案する。拡散トランスフォーマーアーキテクチャを基盤とし、音声・音楽・一般音を含む大規模音声データに対してフローマッチング学習を施したSAM Audioは、言語・視覚マスク・時間スパンによって記述される対象音源を柔軟に分離できる。本モデルは、実世界音声からプロフェッショナル制作音声まで、一般音・音声・音楽・楽器分離を含む多様なベンチマークにおいて最高性能を達成し、従来の汎用システム及び専門システムを大幅に上回る。さらに、人手でラベル付けされたマルチモーダルプロンプトを備えた新たな実世界分離ベンチマークと、人間の判断と強い相関を持つ参照不要評価モデルを導入する。
我々はINTELLECT-3を発表します。これは106Bパラメータ(活性化は12B)のMixture-of-Expertsモデルであり、当社のエンドツーエンドRLインフラストラクチャスタックを用いた大規模強化学習で訓練されました。INTELLECT-3は、数学、コード、科学、推論のベンチマークにおいて、その規模において最高水準の性能を達成し、多くの大規模なフロンティアモデルを凌駕しています。本モデルは、RLフレームワーク、完全なレシピ、そして当社のEnvironments Hubコミュニティプラットフォームから提供されるverifiersライブラリで構築された訓練・評価用環境の広範なコレクションを含む、その作成に使用された完全なインフラストラクチャスタックと共にオープンソース化します。この取り組みのために構築したprime-rlは、大規模非同期強化学習のためのオープンフレームワークであり、単一ノードから数千GPUへシームレスにスケールし、マルチターン相互作用とツール利用をファーストクラスサポートするエージェント的RLに特化しています。このスタックを用いて、我々はGLM-4.5-Air-Baseモデルを基盤にSFTとRL訓練を実施し、RL訓練を512 H200まで拡張し、高い訓練効率を実現しました。
コード大規模言語モデル(Code LLM)は強力であるが、学習コストが高く、スケーリング則ではモデルサイズ、データ量、計算量から性能が予測される。しかし、異なるプログラミング言語(PL)は事前学習において様々な影響を与え、ベースモデルの性能を大きく左右するため、性能予測が不正確になる。さらに、既存研究は言語非依存的な設定に焦点を当てており、現代のソフトウェア開発において本質的に多言語化が進んでいる状況を無視している。したがって、まず各PLのスケーリング則を調査し、その後それらの相互影響を考慮して最終的な多言語スケーリング則を導出する必要がある。本論文では、複数のPL、モデルサイズ(0.2B~14Bパラメータ)、データセットサイズ(1Tトークン)にわたる1,000件以上の実験(H800時間換算で336,000時間以上に相当)を通じて、多言語コード事前学習におけるスケーリング則の体系的な初の探求を行う。我々は複数のPLにわたるコードLLMの包括的なスケーリング則を確立し、インタプリタ言語(Pythonなど)はコンパイル言語(Rustなど)に比べて、モデルサイズとデータ量の増加による恩恵が大きいことを明らかにした。本研究は、特に構文的に類似したPL間において、多言語事前学習が相乗効果をもたらすことを実証している。さらに、並列ペアリング(コード片とその翻訳を連結する)という事前学習戦略が、良好なスケーリング特性を持ちながら言語横断的能力を大幅に向上させる。最後に、比例依存型多言語スケーリング則を提案し、高効率なPL(Pythonなど)を優先し、高相乗効果のペア(JavaScript-TypeScriptなど)のバランスを調整し、飽和の早い言語(Rust)への割り当てを減らすことで、同じ計算予算の下で一様分布と比較して全てのPLにわたる平均性能を優位に高める訓練トークンの最適配分を実現する。
大規模言語モデル(LLMs)の出力が忠実性に欠ける虚構(Faithfulness Hallucination)を含むかどうかを認識することは、検索拡張生成や要約など、現実世界の応用において極めて重要である。本論文では、信頼性向上のため、二値予測と対応する説明を共同で提供する、コスト効率が高く効果的な忠実性虚構検出モデル「FaithLens」を提案する。これを実現するため、我々はまず高度なLLMsを用いて説明付きの訓練データを合成し、ラベルの正確性、説明の質、データの多様性を保証するために厳格なデータフィルタリング戦略を適用する。続いて、これらの厳選された訓練データでモデルをファインチューニングしてコールドスタートし、予測の正確性と説明の質の両方を報酬とするルールベースの強化学習によってさらに最適化する。12の多様なタスクにおける結果は、80億パラメータのFaithLensがGPT-4.1やo3などの高度なモデルを凌駕することを示している。また、FaithLensは高品質な説明を生成でき、信頼性、効率性、有効性の独自のバランスを実現する。
ストリーミング音声テキスト翻訳(StreamST)は、入力される音声と同時に翻訳を生成することを要求し、厳密な遅延制約を課すとともに、部分的な情報に基づく意思決定と高品質な翻訳のバランスを取るモデルを必要とします。これまでのこの分野の研究は、もはやメンテナンスされず、出力を修正するシステムをサポートしていないSimulEvalリポジトリに依存してきました。さらに、SimulEvalは長文の音声ストリームではなく短いセグメントの処理をシミュレートするように設計されており、システムをデモンストレーションする簡単な方法を提供していません。この解決策として、我々はStreamSTシステムの統合的な評価とデモンストレーションに特化した初のオープンソースフレームワークであるsimulstreamを紹介します。長文音声処理向けに設計されたsimulstreamは、増分デコードアプローチだけでなく、再翻訳手法もサポートし、同一フレームワーク内で品質と遅延の両面からそれらを比較することを可能にします。さらに、このツール内で構築された任意のシステムをデモンストレーションするための対話型ウェブインターフェースも提供します。
長時間にわたるマルチセッション対話における時間的推論は、対話エージェントにとって極めて重要な能力である。しかし、既存の研究および我々の予備調査により、対話履歴が長くなりノイズが蓄積するにつれて、現在の長文脈モデルは時間的に適切な情報を正確に特定することが困難になり、推論性能が大幅に損なわれることが明らかになっている。この問題に対処するため、我々は強化学習を用いて時間認識メモリ選択ポリシーを学習するフレームワーク、Memory-T1を提案する。本フレームワークは粗い選択から細かい選択への戦略を採用し、まず時間的フィルタと関連性フィルタを用いて対話履歴を候補セットに刈り込み、その後RLエージェントが精密な証拠セッションを選択する。RL学習は、 (i) 回答精度、(ii) 証拠の根拠付け、(iii) 時間的一貫性を最適化するマルチレベル報酬関数によって導かれる。特に、時間的一貫性報酬は、セッションレベル(時間的近接性)と発話レベル(時間的忠実度)の両方でクエリの時間範囲との整合性を評価することにより、エージェントが微妙な時間的曖昧性を解決することを可能にする密な信号を提供する。Time-Dialogベンチマークにおいて、Memory-T1は7Bモデルを総合スコア67.0%に押し上げ、オープンソースモデルとして新たなstate-of-the-art性能を確立し、14Bベースラインを10.2%上回った。アブレーション研究は、時間的一貫性と証拠の根拠付けの報酬が共同で15.0%の性能向上に寄与することを示している。さらに、Memory-T1は128kトークンまでロバスト性を維持し(ベースラインモデルは性能が大幅に低下する)、広範な対話履歴におけるノイズに対する有効性を証明している。コードとデータセットはhttps://github.com/Elvin-Yiming-Du/Memory-T1/ で公開されている。
物理世界の理解は汎用AIエージェントにとって不可欠である。しかし、最先端の視覚認識モデル(大規模VLMなど)が物理的特性を定量的に推論できるかどうかは未だ明らかでない。既存の評価は主にVQAベースで定性的なものであり、これらのモデルが動画観察から移動物体の運動学的量を推論できるかについての知見は限られている。この問題に対処するため、VLMの物理推論能力を定量的に測定する初のベンチマーク「QuantiPhy」を提案する。3.3K以上の動画-テキストインスタンスと数値的な正解データから構成されるQuantiPhyは、特定のタイムスタンプにおける物体のサイズ、速度、加速度の推定において、これらの特性のいずれかを入力事前情報として用いたときのVLMの性能を評価する。本ベンチマークはプロンプトと採点を標準化し、数値的精度を評価することで、モデル間の公平な比較を可能にする。最先端VLMを用いた実験により、それらの定性的な尤もらしさと実際の数値的正しさの間に一貫した隔たりがあることが明らかになった。さらに、背景ノイズ、反事実的事前情報、戦略的プロンプトといった主要因に関する詳細分析を行い、最先端VLMが運動学的特性を定量的に推論する際、提供された視覚・テキスト入力を忠実に参照するよりも、事前学習された世界知識に強く依存していることを見出した。QuantiPhyは、VLMを単なる言葉上の尤もらしさを超えて、数値的に根拠ある物理理解へと進化させるための初の厳密かつ拡張可能なテストベッドを提供する。
現在のビデオアバター生成技術は、同一性の維持と動作の整合性において優れているが、真の自律性に欠けており、適応的な環境相互作用を通じて長期的な目標を自律的に追求することができない。本研究ではこの問題に対処するため、確率的生成環境における目標指向の計画策定を評価するタスクおよびベンチマークであるL-IVA(Long-horizon Interactive Visual Avatar)と、ビデオアバターに能動的知能を付与する初のフレームワークであるORCA(Online Reasoning and Cognitive Architecture)を提案する。ORCAは、内的世界モデル(IWM)の能力を具現化するために、以下の2つの革新的技術を導入する:(1)観測-思考-行動-振り返り(OTAR)からなる閉ループサイクルにより、生成的不確実性下でも予測結果と実際の生成結果を継続的に照合することで、頑健な状態追跡を実現する。(2)システム2が状態予測を伴う戦略的推論を行い、システム1が抽象的な計画をモデル固有の精密な行動キャプションに変換する、階層型二重システムアーキテクチャ。アバター制御を部分観測マルコフ決定過程(POMDP)として定式化し、結果検証を用いた継続的な信念更新を実装することで、ORCAは開放領域シナリオにおける自律的な多段階タスク完遂を可能とする。大規模な実験により、ORCAがタスク成功率と行動の一貫性において、オープンループベースラインや非内省的ベースラインを大幅に上回ることを実証し、受動的なアニメーションから能動的・目標指向の行動へとビデオアバターの知能を進化させるIWMに着想を得た設計の有効性を検証した。
質的研究は信頼性における重大な課題に直面している。従来の評価者間一致率の手法は複数の人間によるコーディングを必要とし、時間がかかる上、一貫性が中程度に留まることが多い。本研究では、LLMに基づく主題分析のための多角的検証フレームワークを提案する。これはアンサンブル検証と、評価者間一致率のコーエンのカッパ(κ)と意味的一貫性のコサイン類似度という二つの信頼性指標を組み合わせたものである。本フレームワークは設定可能な分析パラメータ(シード数1~6、温度パラメータ0.0~2.0)を可能とし、変数置換を伴うカスタムプロンプト構造をサポートし、任意のJSON形式にわたる合意主題の抽出を提供する。概念実証として、サイケデリック芸術療法のインタビュー記録を用いて3つの主要LLM(Gemini 2.5 Pro、GPT-4o、Claude 3.5 Sonnet)を評価し、モデルごとに6回の独立した実行を行った。その結果、Geminiが最高の信頼性(κ=0.907、コサイン類似度=95.3%)を達成し、次いでGPT-4o(κ=0.853、コサイン類似度=92.6%)、Claude(κ=0.842、コサイン類似度=92.1%)となった。3モデル全てが高い一致率(κ>0.80)を達成し、複数回実行アンサンブル手法の有効性が確認された。本フレームワークは実行間での合意主題の抽出に成功し、Geminiは6つの合意主題(一貫性50~83%)、GPT-4oは5つ、Claudeは4つをそれぞれ特定した。我々のオープンソース実装は、研究者に対して透明性の高い信頼性指標、柔軟な設定、構造に依存しない合意抽出を提供し、信頼性の高いAI支援質的研究の方法的基盤を確立するものである。
オープンソースソフトウェア(OSS)コミュニティにおける有害な相互作用は、貢献者の参加意欲を低下させ、プロジェクトの持続可能性を脅かす。このような有害性が顕在化する前に防止するには、有害な会話がどのように展開するかを明確に理解する必要がある。しかし、積極的なモデレーション戦略の多くは手動であり、コミュニティメンテナに多大な時間と労力を要求する。よりスケーラブルなアプローチを支援するため、我々はGitHub Discussionsから159の脱線した有害スレッドと207の非有害スレッドからなるデータセットを構築した。分析により、有害性は、緊張のトリガー、感情の変化、特定の会話パターンによって予測可能であることが明らかになった。 本論文では、2段階のプロンプティングパイプラインを用いてGitHub上の会話脱線を予測する新しい大規模言語モデル(LLM)ベースのフレームワークを提案する。まず、Least-to-Most(LtM)プロンプティングにより会話ダイナミクスの要約(SCD)を生成し、次にこれらの要約を用いて脱線の可能性を推定する。QwenモデルとLlamaモデルで評価した結果、我々のLtM戦略は決定閾値0.3において、それぞれF1スコア0.901および0.852を達成し、会話脱線タスクにおいて既存のNLPベースライン手法を凌駕した。308のGitHubイシュースレッド(有害65、非有害243)からなるデータセットを用いた外部検証では、最大0.797のF1スコアを得た。本研究の結果は、OSSにおける会話脱線の早期検出のための構造化されたLLMプロンプティングの有効性を示し、積極的かつ説明可能なモデレーションを可能にする。
焦点は写真撮影の基本要素であるが、オートフォーカスシステムは被写体を意図通りに捉えられないことが多く、ユーザーは撮影後に焦点を調整したいと頻繁に望む。本論文では、ビデオ拡散モデルを用いた写真的に自然なポストキャプチャ焦点調節の新手法を提案する。単一のボケ画像から、知覚的に正確な焦点合成(ビデオシーケンスとして表現)を生成し、インタラクティブな焦点再調整を可能とするとともに、様々な下流応用を開拓する。本研究および将来の研究を支援するため、多様な実世界のスマートフォン条件下で取得した大規模焦点合成データセットを公開する。提案手法は、困難なシナリオにおいても知覚品質とロバスト性の両面で既存手法を一貫して上回り、日常写真におけるより高度な焦点編集技術への道を開くものである。コードとデータは www.learn2refocus.github.io で公開されている。