翻訳付きの日次キュレーションされたAI研究論文
既存の深度推定手法は、本質的に離散的な画像グリッド上での深度予測に限定されています。このような表現形式は任意の解像度への拡張性を制限し、幾何学的な詳細の回復を妨げます。本論文では、深度をニューラル暗黙的表現としてモデル化するInfiniDepthを提案します。シンプルかつ効果的なローカル暗黙デコーダを通じて、連続的な2D座標における深度値をクエリ可能にし、任意解像度かつ微細な深度推定を実現します。本手法の性能を適切に評価するため、5種類のゲームから多様な幾何形状と外観詳細を備えた高品質な4K合成ベンチマークを構築しました。大規模な実験により、InfiniDepthが相対深度推定と絶対深度推定の両タスクにおいて、合成データと実世界データのベンチマークで最先端の性能を達成し、特に微細な領域で優れた結果を示すことを確認しました。さらに、大規模な視点移動を伴う新規視点合成タスクにおいても有効であり、穴やアーティファクトの少ない高品質な結果を生成します。
話者属性付き時間印記転写(SATS)は、発話内容の転写と各話者の発話タイミングの正確な特定を目的としており、会議の文字起こしにおいて特に価値が高い。既存のSATSシステムはエンドツーエンド方式をほとんど採用しておらず、さらに限られたコンテキストウィンドウ、弱い長距離話者記憶、時間印記の出力不能といった制約を受けている。これらの課題を解決するため、我々はマルチモーダル大規模言語モデル「MOSS Transcribe Diarize」を提案する。これはエンドツーエンドのパラダイムで話者属性付き時間印記転写を統合的に実行するモデルである。大規模な実世界データで学習され、90分までの入力に対応する128kトークンのコンテキストウィンドウを備えることで、MOSS Transcribe Diarizeは優れた拡張性と堅牢な一般化性能を示す。包括的評価において、複数の公開ベンチマークおよび自社ベンチマークで、現行の最先端商用システムを凌駕する性能を達成した。
近年のテキスト動画拡散モデルは説得力のある映像シーケンスを生成できるが、音声を欠いており――音響が提供する意味的・感情的・雰囲気的な手がかりが不足している。本論文では、高品質で時間的に同期した視聴覚コンテンツを統一的に生成可能なオープンソース基盤モデル「LTX-2」を提案する。LTX-2は非対称型デュアルストリームトランスフォーマー構成を採用し、140億パラメータの映像ストリームと50億パラメータの音声ストリームが、時間的位置埋め込みを備えた双方向視聴覚クロスアテンション層と、共有タイムステップ条件付けのためのクロスモダリティAdaLNによって結合されている。このアーキテクチャにより、音声生成よりも映像生成に多くの容量を割り当てつつ、統合視聴覚モデルの効率的な学習と推論を実現する。多言語テキストエンコーダーを使用してプロンプト理解の汎用性を高め、モダリティ認識型分類器不要ガイダンス(modality-CFG)機構を導入することで視聴覚の整合性と制御性を向上させた。LTX-2は音声生成に留まらず、各シーンの登場人物・環境・スタイル・感情に沿った、自然な背景音や効果音を含む豊かで一貫性のある音響トラックを生成する。評価では、オープンソースシステムにおいて最先端の視聴覚品質とプロンプト遵守性を達成し、専有モデルに比べて計算コストと推論時間を大幅に削減しつつ同等の結果を示した。すべてのモデル重みとコードを公開している。
本論文では、科学分野におけるAIモデルを多様な科学領域とタスク能力にわたって評価するための統合ベンチマーキングツールキット「SciEvalKit」を提案する。汎用評価プラットフォームとは異なり、SciEvalKitは科学的知能の核心能力に焦点を当てている。具体的には、科学的多モーダル知覚、科学的多モーダル推論、科学的多モーダル理解、科学的記号推論、科学コード生成、科学仮説生成、科学的知識理解を対象とする。物理学や化学から天文学、材料科学に至る6つの主要科学領域をカバーし、実世界の領域特化型データセットから厳選した専門家レベルの科学ベンチマークを構築することで、タスクが真に科学的な課題を反映することを保証する。 本ツールキットは柔軟で拡張可能な評価パイプラインを特徴とし、モデルやデータセットにわたる一括評価を可能にするとともに、カスタムモデルやデータセットの統合をサポートし、透明性・再現性・比較可能性を備えた結果を提供する。能力ベースの評価と学際的多様性を橋渡しすることで、SciEvalKitは次世代の科学基盤モデルと知的エージェントを評価するための標準化されながらもカスタマイズ可能な基盤を提供する。本ツールキットはオープンソースとして公開され、AI4Scienceにおけるコミュニティ主導の開発と進歩を促進するために積極的に維持されている。
統一マルチモーダルモデル(UMM)はマルチモーダル理解において顕著な成功を収めているが、その内部知識を高品質な生成に活用する能力には依然として大きな隔たりが存在する。我々はこの不一致を「伝導失語症」と形式化する。これはモデルがマルチモーダル入力を正確に解釈しながらも、その理解を忠実で制御可能な合成へ変換するのに苦戦する現象である。この問題に対処するため、我々は外部データや教師監督を必要としない簡潔かつ優雅な自己改善フレームワークUniCornを提案する。単一のUMMを提案者(Proposer)、解決者(Solver)、判定者(Judge)という3つの協調的役割に分割し、自己対戦を通じて高品質なインタラクションを生成するとともに、認知的パターン再構成によって潜在的理解を明示的な生成信号へ蒸留する。マルチモーダル一貫性の回復を検証するため、テキストから画像へ、さらにテキストへ再構成する循環一貫性ベンチマークUniCycleを導入した。大規模な実験により、UniCornが6つの一般画像生成ベンチマークにおいてベースモデルを包括的かつ大幅に改善することが実証された。特にTIIF(73.8)、DPG(86.8)、CompBench(88.5)、UniCycleでSOTA性能を達成し、さらにWISEで+5.0、OneIGで+6.5の大幅な向上を達成した。これらの結果は、本手法が堅牢な理解能力を維持しつつT2I生成を著しく強化することを示しており、統一マルチモーダル知能における完全自己監督型改良の拡張性を実証している。
我々は、1,000以上のゲームにおける4万時間のゲームプレイ動画で学習した、汎用ゲーミングエージェントのための視覚行動基盤モデル「NitroGen」を紹介する。本モデルには3つの重要な要素を組み込んでいる:1)公開されているゲームプレイ動画からプレイヤーの行動を自動抽出して構築したインターネット規模のビデオ行動データセット、2)ゲーム間の汎化性能を測定できるマルチゲームベンチマーク環境、3)大規模行動クローニングで学習した統一視覚行動モデルである。NitroGenは、3Dアクションゲームの戦闘シーン、2Dプラットフォーマーの高精度制御、手続き生成ワールドでの探索など、多様な領域で高い能力を発揮する。未見のゲームに対しても効果的に転移し、スクラッチから学習したモデルと比較してタスク成功率で最大52%の相対的改善を達成した。汎用具現化エージェントの研究推進のため、データセット、評価スイート、モデル重みを公開する。
視覚言語行動(VLA)モデルは大規模事前学習によって強力な汎化性能を達成するが、実世界での展開には広範な汎用性に加えて専門家レベルのタスク熟達度が求められる。既存のVLAモデル向け事後学習手法は、通常オフライン・単一ロボット・タスク特化型であり、効果的なオン方策適応や実世界相互作用からのスケーラブルな学習を制限している。本研究では、汎用VLAモデルの物理世界におけるオンライン分散型マルチタスク事後学習を可能にするスケーラブルオンライン事後学習(SOP)システムを提案する。SOPは、ロボット群がオン方策経験と人間介入信号を集中型クラウド学習器に継続的にストリーミングし、非同期で更新されたポリシーを受信する閉ループアーキテクチャにより、実行と学習を緊密に連携させる。この設計は即時的なオン方策修正を支援し、並列展開による経験収集をスケールさせ、適応過程中の汎用性を維持する。SOPは事後学習アルゴリズムの選択に非依存であり、対模倣学習(HG-DAgger)と強化学習(RECAP)の両方で実装した。布の畳み込み、箱の組み立て、食料品の補充を含む実世界の多様なマニピュレーションタスクにおいて、SOPが大規模事前学習VLAモデルの性能をタスク横断的な単一共存ポリシーを維持しながら大幅に改善することを示す。効果的な事後学習は数時間の実世界相互作用で達成可能であり、性能はロボット群の台数にほぼ線形にスケーリングする。これらの結果は、オンライン学習とフリート規模の展開を緊密に結合することが、物理世界における汎用ロボットポリシーの効率的・信頼性の高い・スケーラブルな事後学習を実現する上で重要であることを示唆する。
ビデオスタイライゼーションは、ビデオ生成モデルの重要な下流タスクであるにもかかわらず、未だ十分に研究が進んでいない。その入力スタイル条件には通常、テキスト、スタイル画像、スタイル化された最初のフレームが含まれる。各条件には特徴的な利点がある:テキストは柔軟性が高く、スタイル画像はより正確な視覚的アンカーを提供し、スタイル化された最初のフレームは長尺ビデオのスタイライゼーションを実現可能にする。しかし、既存手法の多くは単一のスタイル条件に限定されており、応用範囲が制限されている。さらに、高品質なデータセットの不足から、スタイルの不一致や時間的なちらつきが生じている。これらの課題を解決するため、我々は統一ビデオスタイライゼーションフレームワーク「DreamStyle」を提案する。(1)テキスト誘導型、(2)スタイル画像誘導型、(3)最初のフレーム誘導型のビデオスタイライゼーションをサポートし、高品質なペアビデオデータを取得するために設計されたデータキュレーションパイプラインを備える。DreamStyleは標準的なImage-to-Video(I2V)モデルを基盤とし、異なる条件トークン間の混同を軽減するトークン特化のアップ行列を用いたLoRA(Low-Rank Adaptation)で学習される。定性的・定量的評価の両方において、DreamStyleは3つのビデオスタイライゼーションタスクすべてで有効であり、スタイル一貫性とビデオ品質において既存手法を上回ることを実証した。
我々はMiMo-V2-Flashを発表します。これは、合計309Bパラメータ、活性化15BパラメータのMixture-of-Experts(MoE)モデルであり、高速で強力な推論能力とエージェント機能を実現するように設計されています。MiMo-V2-Flashは、Sliding Window Attention(SWA)とグローバルアテンションを5:1のハイブリッド比率で交互に配置するハイブリッドアテンションアーキテクチャを採用し、スライディングウィンドウは128トークンです。本モデルは、27兆トークンでネイティブ32kのコンテキスト長を用いてMulti-Token Prediction(MTP)により事前学習され、その後256kまで拡張されています。学習後の計算効率を高めるため、MiMo-V2-Flashは新たなMulti-Teacher On-Policy Distillation(MOPD)パラダイムを導入します。このフレームワークでは、ドメイン特化した教師モデル(例えば大規模強化学習で訓練されたもの)が密なトークンレベルの報酬を提供し、学生モデルが教師の専門知識を完全に習得できるようにします。MiMo-V2-Flashは、DeepSeek-V3.2やKimi-K2といったトップクラスのオープンウェイトモデルと同等の性能を発揮しますが、総パラメータ数はそれぞれ1/2、1/3しか使用しません。推論時には、MTPを speculative decoding のためのドラフトモデルとして再利用することで、3層のMTPを用いて最大3.6の受理長と2.6倍のデコード速度向上を実現します。我々は、オープンな研究とコミュニティの協力を促進するため、モデル重みと3層MTPの重みの両方をオープンソースとして公開します。
顕著な進展にもかかわらず、マルチモーダル大規模言語モデルは視覚的数学問題解決において依然として困難に直面している。近年の研究では視覚的数学推論において知覚がボトルネックであると認識されているが、その解決策は視覚情報の抽出と解釈の改善に限定されている。特に、抽出された視覚的手がかりが後続の推論において忠実に統合され適切に利用されているかという核心的な課題が全て無視されている。この問題意識に動機づけられ、我々は新しい認知科学に着想を得た3段階フレームワーク「CogFlow」を提案する。本枠組みは知識内化段階を組み込み、人間の推論の階層的流れ(知覚⇒内化⇒推論)を明示的に模倣する。この階層的流れに沿って、我々は全段階を総合的に強化する。記号と図形からの視覚情報抽出を共同で改善するため、パラメトリック空間と意味空間における知覚能力を高める「協調的視覚報酬」を考案する。抽出された視覚的手がかりが推論に忠実に統合されることを保証するため、内化段階において知覚と推論を橋渡しする「知識内化報酬モデル」を導入する。さらに、視覚的に接地されていないように見えるが一貫性のある推論連鎖という近道をモデルが取ることを防止し、推論が視覚的知識に基づくことを強化する「視覚ゲート政策最適化アルゴリズム」を設計する。加えて、12万以上の高品質な知覚-推論整合アノテーションを含む新しいデータセットMathCogを構築し、モデル学習に貢献する。一般的に使用される視覚的数学推論ベンチマークにおける総合的な実験と分析により、提案するCogFlowの優位性が実証された。
デジタルツインは、物理システムの精密なデジタル表現として、人工知能技術の統合により、受動的なシミュレーションツールから知的で自律的な存在へと進化を遂げている。本論文は、モデリング、ミラーリング、介入、自律的管理というデジタルツインのライフサイクル全体におけるAI統合を体系的に特徴づける、統一的な4段階フレームワークを提示する。既存の技術と実践を統合し、AI手法がデジタルツインライフサイクルにどのように組み込まれるかを体系的に特徴づける統一的な4段階フレームワークを抽出する:(1) 物理モデルに基づくAIアプローチおよび物理情報を組み込んだAIアプローチによる物理的双子のモデリング、(2) リアルタイム同期による物理システムのデジタルツインへのミラーリング、(3) 予測モデリング、異常検知、最適化戦略による物理的双子への介入、(4) 大規模言語モデル、基盤モデル、知的エージェントを通じた自律的管理の実現。物理ベースのモデリングとデータ駆動学習の相乗効果を分析し、従来の数値ソルバーから、物理情報を組み込んだモデルや物理システム向けの基盤モデルへの移行を明らかにする。さらに、大規模言語モデルや生成的世界モデルを含む生成AI技術が、推論、コミュニケーション、創造的なシナリオ生成が可能な、積極的かつ自己改善型の認知システムへとデジタルツインを変革する方法を検討する。医療、航空宇宙、スマート製造、ロボティクス、スマートシティなど11の応用分野にわたる分野横断的なレビューを通じて、スケーラビリティ、説明可能性、信頼性に関わる共通の課題を特定し、責任あるAI駆動デジタルツインシステムの方向性を概説する。
大規模言語モデル(LLM)は、複雑な数学的問題において高い性能を示す一方で、計数タスクには体系的な限界が存在する。この問題はトランスフォーマーのアーキテクチャ上の制約に起因しており、計数処理が複数の層に跨って行われるため、深さの制約から大規模な計数問題では精度が低下する。この限界を克服するため、我々はSystem-2認知プロセスに着想を得た推論時戦略を提案する。これは大規模な計数タスクを、モデルが確実に解決可能な独立した小問題に分解する手法である。本アプローチの評価には、観察的および因果的媒介分析を用い、このSystem-2的戦略の背後にあるメカニズムの解明を試みた。機構分析の結果、以下の主要要素が特定された:潜在的なカウント値は各部分の最終項目表現で計算・保存され、専用のアテンションヘッドを介して中間段階へ転送され、最終段階で集約されて総数が算出される。実験結果から、本戦略によりLLMがアーキテクチャ上の限界を超え、大規模計数タスクで高い精度を達成できることが実証された。本研究はLLMにおけるSystem-2的計数の機序解明に貢献するとともに、推論行動の改善と理解に向けた一般化可能なアプローチを提示するものである。
本論文では、これまでで最大規模のオープンソース環境であるWebGymを提案する。これは現実的な視覚的Webエージェントを訓練するための環境である。実世界のWebサイトは非定常かつ多様であるため、人工的または小規模なタスクセットではロバストな方策学習には不十分である。WebGymは、多様な実世界のWebサイトと難易度にわたる、ルーブリック評価に基づく約30万のタスクを包含する。我々は、単純な強化学習(RL)レシピを用いてエージェントを訓練する。この手法は、エージェント自身のインタラクションの軌跡(ロールアウト)に対して訓練を行い、タスクの報酬を学習を導くフィードバックとして利用する。RLのスケーリングを可能にするため、Webエージェントに特化して設計された高スループットの非同期ロールアウトシステムを開発し、WebGymにおける軌道のサンプリング速度を向上させた。本システムは、単純な実装と比較して4~5倍のロールアウト速度向上を達成する。第二に、タスクセットの広がり、深さ、サイズをスケールさせ、継続的な性能向上をもたらした。強力な基盤視覚言語モデルであるQwen-3-VL-8B-InstructをWebGymでファインチューニングした結果、分布外テストセットにおける成功率が26.2%から42.9%に向上し、それぞれ27.1%と29.8%を達成したGPT-4oやGPT-5-Thinkingなどのプロプライエタリモデルベースのエージェントを大幅に上回った。この改善は顕著である。なぜなら、我々のテストセットは、視覚的Webエージェントの訓練に関する他の多くの先行研究とは異なり、訓練中に一度も見なかったWebサイト上のタスクのみで構成されているからである。
本論文では、フィードフォワードパラダイムによる革新的な3Dクリーチャー生成において、学習を必要としない初の手法「Muses」を提案する。従来手法は、部分認識最適化、手動組み立て、または2D画像生成に依存するため、複雑な部分レベルの操作や領域外生成の限界から、非現実的あるいは不整合な3Dアセットを生成しがちであった。これに対しMusesは、生物形態の基本表現である3Dスケルトンを活用し、多様な要素を明示的かつ合理的に構成する。この骨格基盤により、3Dコンテンツ制作は構造認識型の設計・合成・生成パイプラインとして形式化される。Musesはまず、グラフ制約推論を通じて、整合性のあるレイアウトとスケールを備えた創造的に構成された3Dスケルトンを構築する。このスケルトンが構造化潜在空間内でのボクセルベース組み立てプロセスを誘導し、異なるオブジェクトからの領域を統合する。最後に、骨格条件付きの画像誘導外観モデリングを適用し、組み立て形状に対応した様式一貫性と調和のとれたテクスチャを生成する。大規模実験により、Musesが視覚的忠実度とテキスト記述との整合性において最先端の性能を達成し、柔軟な3Dオブジェクト編集への可能性を確立した。プロジェクトページ: https://luhexiao.github.io/Muses.github.io/
マルチモーダル大規模言語モデル(MLLM)の重要アプリケーションへの急速な統合は、持続的な安全性の脆弱性によってますます妨げられている。しかし、既存のレッドチーミングベンチマークは断片的で、単一ターンのテキスト相互作用に限定されることが多く、体系的な評価に必要なスケーラビリティを欠いている。この問題に対処するため、我々は包括的MLLM安全性評価のために設計された、統一化・モジュール化・高スループットのレッドチーミングフレームワーク「OpenRT」を提案する。OpenRTの中核は、自動レッドチーミングにおけるパラダイムシフトを構築する敵対的カーネルであり、モデル統合、データセット管理、攻撃戦略、判定方法、評価指標という5つの重要次元にわたるモジュール分離を可能にする。攻撃インターフェースを標準化することで、敵対的ロジックを高スループットの非同期ランタイムから分離し、多様なモデルにおける体系的なスケーリングを実現する。本フレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略にわたる37の多様な攻撃手法を統合する。20の先進モデル(GPT-5.2、Claude 4.5、Gemini 3 Proを含む)を用いた大規模な実証研究を通じて、重要な安全性のギャップを明らかにした:最先端モデルでさえ攻撃パラダイム間で一般化に失敗し、主要モデルは平均攻撃成功率が49.14%にも達する。特に、推論モデルが複雑なマルチターン脱獄攻撃に対して本質的に優れた堅牢性を持つわけではないことを発見した。OpenRTをオープンソース化することで、AI安全性の開発と標準化を加速する、持続可能で拡張性があり、継続的に維持されるインフラストラクチャを提供する。
First-Frame Propagation (FFP) は制御可能な映像編集における有望なパラダイムであるが、既存手法は煩雑な実行時ガイダンスへの依存に阻まれている。我々は、この制限の根本原因が、現在の学習データセットの不備にあると考える。既存データセットは短すぎる、解像度が低い、頑健な時間的プライアを学習させるのに必要なタスク多様性に欠ける、といった問題を抱えている。この根本的なデータギャップを解決するため、我々はまずFFP-300Kを提案する。これは、多様な局所的・大域的編集のための原理に基づいた2トラックパイプラインで構築された、720p解像度・81フレーム長の30万の高精細映像ペアからなる新たな大規模データセットである。このデータセットに基づき、我々は、ファーストフレームの外観維持とソース映像の動き保存の間の重要な緊張関係を解決する、真のガイダンス不要FFPのための新規フレームワークを提案する。アーキテクチャ面では、Adaptive Spatio-Temporal RoPE (AST-RoPE) を導入し、位置エンコーディングを動的に再マッピングすることで外観参照と動き参照を分離する。目的関数レベルでは、恒等伝播タスクが強力な正則化器として機能する自己蒸留戦略を採用し、長期的な時間的安定性を確保し意味的ドリフトを防止する。EditVerseBenchベンチマークにおける総合的な実験により、本手法が既存の学術モデル及び商用モデルを大幅に上回り、PickScoreで約0.2、VLMスコアで約0.3の改善を示すことを実証した。
地理的位置推定(Geo-localization)は、与えられた信号の地理的起源を推測することを目的とする。コンピュータビジョン分野では、地理的位置推定は合成的推論に対する要求の厳しいベンチマークとして機能し、公共の安全にも関連している。一方、オーディオ地理的位置推定の進展は、高品質な音声と位置のペアデータの不足によって制約を受けてきた。この格差を埋めるため、我々は72の国と地域にわたる、音声言語モデル(ALM)向け初のオーディオ地理的位置推定ベンチマーク「AGL1K」を提案する。クラウドソーシングプラットフォームから確実に位置推定可能なサンプルを抽出するため、各録音の情報量を定量化する「音声位置推定可能性(Audio Localizability)」指標を考案し、1,444の精選されたオーディオクリップを構築した。16のALMによる評価により、ALMがオーディオ地理的位置推定能力を獲得しつつあることが明らかになった。クローズドソースモデルがオープンソースモデルを大幅に上回り、言語的手がかりが予測のための足場として支配的になることが多いと判明した。さらに、ALMの推論過程、地域バイアス、誤り要因、および位置推定可能性指標の解釈可能性を分析する。総じて、AGL1Kはオーディオ地理的位置推定のベンチマークを確立し、より優れた地理空間推論能力を持つALMの発展を促進する可能性がある。
逐次的行動履歴から複雑なユーザ選好を抽出することは、逐次推薦における根本的な課題である。近年の潜在推論手法は、多段階推論による推論時の計算拡張により有望な成果を示しているが、これらは単一軌道に沿った深さ方向のスケーリングに依存しており、推論深度の増加に伴う収穫逓減に悩まされている。この課題を解決するため、我々は複数の多様な推論軌道を同時に探索する幅方向の計算スケーリングを実現する新規フレームワーク「並列潜在推論(PLR)」を提案する。PLRは連続潜在空間における学習可能なトリガートークンを通じて並列推論ストリームを構築し、グローバルな推論正則化によりストリーム間の多様性を維持し、混合推論ストリーム集約により適応的にマルチストリーム出力を統合する。3つの実世界データセットを用いた大規模実験により、PLRが推論効率を維持しつつ既存の最先端手法を大幅に上回ることを実証する。理論分析からも、並列推論が一般化性能向上に有効であることが確認された。本研究は、深さ方向のスケーリングを超えた逐次推薦における推論能力強化の新たな道筋を拓くものである。
高精度な画像合成において目覚ましい進展が見られる一方で、生成的モデルは依然として論理集約的な指示追従に課題を抱え、推論と実行の間の恒久的な隔たりが露呈している。一方、クローズドソースシステム(例:Nano Banana)は推論主導の画像生成で優れた性能を示しており、現在のオープンソースモデルとの間に大きな隔たりがあることを浮き彫りにしている。我々は、この隔たりを埋めるには単により優れた視覚的生成器だけでなく、高次元の意図を接地可能で検証可能な計画へと分解し、生成プロセスを直接導く「実行可能な推論」が必要であると主張する。この目的に向けて、我々は汎用的な画像生成のためのタスク非依存型推論アーキテクチャ「Unified Thinker」を提案する。これは多様な生成器やワークフローに接続可能な統一計画コアとして設計されている。Unified Thinkerは、専用のThinkerを画像Generatorから分離することで、生成モデル全体を再学習することなく推論モジュールのアップグレードを可能にする。さらに、2段階の訓練パラダイムを導入する。まずThinkerのための構造化計画インターフェースを構築し、その後、強化学習を適用してその方策をピクセルレベルのフィードバックに接地する。これにより、テキスト的な尤もらしさではなく視覚的正確さを最適化する計画が促進される。テキストからの画像生成および画像編集における広範な実験により、Unified Thinkerが画像の推論と生成品質を大幅に改善することが示された。
大規模推論モデル(LRM)は数学的推論タスクにおいて高い性能を発揮し、その要因は明示的な思考連鎖(CoT)による説明を生成できる能力に帰せられることが多い。しかし最近の研究では、LRMがこれらのテキストによる推論ステップを完了する前に正解に到達することが頻繁にあり、これは潜在推論(隠れ状態に符号化された内的・非言語的な計算)の存在を示唆している。この現象は英語では探究されているが、多言語における振る舞いはほとんど解明されていない。本論文では、11言語にわたるLRMの多言語潜在推論について体系的な調査を実施する。切り詰め戦略を用いて、部分的な推跡のみが与えられた場合に正解がどのように出現するかを検証し、段階的な潜在的な予測形成を測定する。結果は、多言語潜在推論の明確な証拠を示すものの、その強さは不均一であることが明らかになった:リソース豊富な言語では強く、低リソース言語では弱く、難易度の高いベンチマークでは全体的に観測されにくい。これらの差異が異なる内的メカニズムを反映するものか理解するため、さらに表現分析を実施した。表面的な相違にもかかわらず、予測の内的な発展プロセスは言語間で非常に一貫しており、英語と広く一致するパターンが認められた。これは、英語を中心とした潜在推論経路の存在を示唆するものである。
未知のディープフェイク操作を検出することは、顔偽造検知において最も困難な課題の一つであり続けている。現在の最先端手法は、既存のディープフェイクや擬似フェイクを用いた教師あり学習に主に依存しているため、特定の偽造パターンに過適合し、未見の操作への汎化に失敗する。一方、自己教師あり手法は汎化性能の点でより大きな可能性を秘めるが、既存研究は自己教師あり信号のみから識別的な表現を学習するのに苦戦している。本論文では、音声から表情シーケンスを生成する拡散モデルに基づく、完全自己教師あり手法であるExposeAnyoneを提案する。鍵となるアイデアは、参照セットを用いてモデルを特定人物にパーソナライズした後、拡散再構成誤差を介して疑わしい動画とパーソナライズされた人物との間の同一性距離を計算することで、特定人物を対象とした顔偽造検知を可能にする点である。大規模な実験により、以下の結果が示された:1) 我々の手法は、DF-TIMIT、DFDCP、KoDF、IDForgeデータセットにおける平均AUCで従来の最先端手法を4.22パーセントポイント上回る、2) 従来手法が性能を発揮できないSora2生成動画の検知も可能である、3) ぼやけや圧縮などの劣化に対して高いロバスト性を示し、実世界の顔偽造検知における適用性が高い。
我々は、低分子創薬に最適化された事前学習済み機械学習原子間ポテンシャル(MLIP)であるAceFFを紹介する。密度汎関数理論(DFT)の効率的な代替手法として登場したMLIPであるが、多様な化学空間にわたる一般化は依然として困難である。AceFFは、創薬候補化合物の包括的データセットで学習させた改良型TensorNet2アーキテクチャによりこの課題に取り組む。このアプローチにより、高速なスループット推論速度とDFTレベルの精度を両立する力場を実現した。AceFFは主要な医薬化学元素(H, B, C, N, O, F, Si, P, S, Cl, Br, I)を完全にサポートし、荷電状態の処理を明示的に学習している。複雑なトーションエネルギー走査、分子動力学軌跡、バッチ化された最小化計算、力及びエネルギーの精度を含む厳密なベンチマークによる検証により、AceFFが有機分子において新たな最高精度を確立することを実証した。AceFF-2のモデル重み及び推論コードはhttps://huggingface.co/Acellera/AceFF-2.0 で公開されている。
画像の脱霧はコンピュータビジョンにおける重要な課題であり、霧のかかった条件下での画像鮮明化に不可欠である。従来手法は大気散乱モデルに依存することが多いが、近年の深層学習技法、特に畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、画像特徴を効果的に分析することで性能向上を実現している。しかしCNNは長距離依存関係の処理に課題を抱え、トランスフォーマーは多大な計算資源を必要とする。これらの制約を解決するため、U-Netに似た設計とスパイキングニューラルネットワーク(SNN)を統合した新しいアーキテクチャであるDehazeSNNを提案する。DehazeSNNはマルチスケールの画像特徴を捕捉しつつ、局所的および長距離の依存関係を効率的に管理する。直交Leaky-Integrate-and-Fireブロック(OLIFBlock)の導入によりチャネル間通信が強化され、計算負荷を低減しつつ優れた脱霧性能を実現する。大規模な実験により、DehazeSNNがベンチマークデータセットにおいて最新手法と競合する性能を示し、より小型のモデルサイズかつ少ない乗算累算演算で高品質な無霧画像を生成することを確認した。提案する脱霧手法はhttps://github.com/HaoranLiu507/DehazeSNNで公開している。
ソーシャルメディアにおけるヘイトスピーチ検出は、特に研究が進んでいないインド系言語において、精度と説明可能性の両面で課題に直面している。本研究では、大規模言語モデル(LLM)からの高次セマンティック推論と従来の注意機構強化技術を組み合わせた、説明可能性に基づく新しい学習フレームワーク「X-MuTeST(eXplainable Multilingual haTe Speech deTection)」を提案する。本研究では英語に加えてヒンディー語とテルグ語にも対象を拡大し、割り当てられたクラスラベルを正当化するための単語ごとのベンチマーク人間注釈による理論的根拠を提供する。X-MuTeSTの説明可能性手法は、原文とユニグラム、バイグラム、トリグラムの予測確率の差を計算する。最終的な説明は、LLMによる説明とX-MuTeSTによる説明の和集合として計算される。学習中に人間による理論的根拠を活用することで、分類性能と説明可能性の両方が向上することを示す。さらに、人間による理論的根拠と本説明可能性手法を組み合わせてモデルの注意機構を洗練させることで、さらなる改善が得られる。説明可能性の評価には、Token-F1やIOU-F1などの妥当性指標、およびComprehensivenessやSufficiencyなどの忠実性指標を用いる。リソースの少ない言語に焦点を当てることで、多様な言語環境におけるヘイトスピーチ検出の進展に貢献する。データセットには、ヒンディー語6,004サンプル、テルグ語4,492サンプル、英語6,334サンプルに対するトークンレベルの理論的根拠注釈が含まれる。データとコードはhttps://github.com/ziarehman30/X-MuTeSTで公開している。
AIシステムの特性として、能力(システムが実行可能な内容)と制御可能性(意図した結果に向けて行動を確実に変化させられる度合い)の二点を検討する。中心的な課題は、能力の向上が制御可能性を低下させ、制御の崩壊リスクを高めるか否かである。また、正当な制御可能性(開発者が意図した行動を確実に実現できること)と不正な制御可能性(攻撃者が許可されていない行動を引き出せること)を区別する。この区別は、AIモデルにおける安全性とセキュリティの根本的ジレンマを浮き彫りにする:安全性のためには制御(例:停止/拒否)を強化する高い制御可能性が求められる一方、セキュリティのためには悪意ある行為者が有害な行動を引き出すのを防ぐ低い制御可能性が求められる。この緊張関係は、現状ではファインチューニングや敵対的攻撃といった一般的な手法により高い制御可能性を示すオープンウェイトモデルにとって重大な課題である。Qwen3とInstrumentalEvalを用いた分析では、短い反道具的プロンプト接尾辞によって測定される収束率(例:シャットダウン回避、自己複製)が急激に低下することを確認した。Qwen3-30B Instructの場合、収束率は道具的促進的接尾辞条件下の81.69%から、反道具的接尾辞条件下では2.82%にまで低下した。反道具的プロンプト条件下では、規模の大きいアライメント済みモデルは、規模の小さいモデルよりも低い収束率を示した(Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%)。コードはgithub.com/j-hoscilowicz/instrumental_steeringで公開されている。