翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)ベースのエージェントによる自律的科学発見は近年著しい進歩を遂げ、エンドツーエンドの研究ワークフローを自動化する能力を示している。しかし、既存のシステムは実行時中心のパラダイムに依存することが多く、オンライン上で大量の科学文献を繰り返し読解・要約・推論している。このその場計算戦略は高い計算コストを招き、コンテキストウィンドウの制約を受け、脆い推論や虚構生成を引き起こしがちである。我々はIdea2Storyを提案する。これは事前計算駆動型の自律的科学発見フレームワークであり、文献理解をオンライン推論からオフライン知識構築へと転換する。Idea2Storyは査読付き論文とそのレビュー情報を継続的に収集し、核心的な方法論的単位を抽出、再利用可能な研究パターンを構成し、それらを構造化された方法論的知識グラフとして組織化する。実行時には、未規定のユーザー研究意図を確立された研究パラダイムに適合させ、オープンエンドな生成や試行錯誤ではなく、高品質な研究パターンの効率的な検索と再利用を可能にする。研究計画と実行を事前構築された知識グラフに基づかせることで、Idea2StoryはLLMのコンテキストウィンドウのボトルネックを緩和し、文献に対する繰り返しの実行時推論を大幅に削減する。定性分析と予備的実証研究により、Idea2Storyが首尾一貫し、方法論的に基礎付けられた新規な研究パターンを生成可能であり、エンドツーエンド設定で複数の高品質な研究デモを生成できることを示す。これらの結果は、オフライン知識構築が信頼性の高い自律的科学発見の実用的かつスケーラブルな基盤を提供することを示唆している。
テキストから画像への生成(T2I)モデルは、高精細な画像生成において顕著な成功を収めているが、空間的知覚・推論・相互作用などの複雑な空間関係の処理では未だ課題を残している。これらの重要な側面は、既存のベンチマークが短いあるいは情報密度の低いプロンプト設計に依存しているため、十分に評価されていない。本論文では、T2Iモデルの空間的知能を体系的に評価する新しいベンチマーク「SpatialGenEval」を提案する。このベンチマークは以下の2つの核心的側面をカバーする。(1)SpatialGenEvalは、25の実世界シーンにわたる1,230の長文で情報密度の高いプロンプトを包含する。各プロンプトは10の空間的サブドメインと対応する10の多肢選択式質問応答ペアを統合し、物体の位置やレイアウトからオクルージョンや因果関係まで多岐にわたる。21の最先端モデルを用いた大規模評価により、高次空間推論が主要なボトルネックであることが明らかとなった。(2)情報密度の高い設計が単純な評価を超えた有用性を持つことを示すため、SpatialT2Iデータセットを構築した。このデータセットは15,400のテキスト-画像ペアを含み、情報密度を保ちながら画像一貫性を確保するためにプロンプトを再構築している。基盤モデル(Stable Diffusion-XL、Uniworld-V1、OmniGen2)でのファインチューニング結果は、一貫した性能向上(+4.2%、+5.7%、+4.4%)と空間関係におけるより現実的な効果をもたらし、T2Iモデルにおける空間的知能達成へのデータ中心パラダイムの有効性を実証している。
Mixture-of-Experts(MoE)アーキテクチャは大規模言語モデルのスパース性スケーリングにおける標準となっているが、収穫逓減とシステムレベルのボトルネックに直面することが増えている。本研究では、スパース性スケーリングのための強力かつ直交的な次元として、埋め込みのスケーリングを探求する。詳細な分析と実験を通じて、埋め込みスケーリングが専門家スケーリングよりも優れたパレートフロンティアを達成する特定の領域を特定する。パラメータ配分からモデルの幅と深さの相互作用まで、この有効性を支配する重要なアーキテクチャ要因を体系的に特徴付ける。さらに、専用のシステム最適化と投機的デコードを統合することで、このスパース性を実践的な推論高速化に効果的に変換する。これらの知見に基づき、68.5Bパラメータ(活性化パラメータは約3B)でスクラッチから学習したLongCat-Flash-Liteを提案する。30B以上のパラメータを埋め込みに割り当てているにもかかわらず、LongCat-Flash-Liteはパラメータ数が同等のMoEベースラインを上回るだけでなく、特にエージェント機能やコーディング領域において、同等規模の既存モデルに対しても卓越した競争力を示す。
動的物体の操作は、Vision-Language-Action(VLA)モデルにおける未解決の課題である。静的マニピュレーションでは優れた一般化能力を示すVLAモデルも、迅速な知覚・時間的予測・連続的制御を要する動的環境では困難に直面する。本論文では、動的物体操作のためのフレームワークDynamicVLAを提案する。本枠組みは、時間的推論と閉ループ適応を統合する以下の3つの核心的設計により実現されている:1)空間効率に優れ構造忠実な符号化を可能にする畳み込み視覚エンコーダを採用したコンパクトな0.4BパラメータVLAモデルによる高速マルチモーダル推論、2)推論と実行の重複処理を実現し低レイテンシと物体運動への即時適応を可能にする連続推論機構、3)知覚と実行の時間的整合性を強制することで両者のギャップを埋める潜在意識的行動ストリーミング。さらに動的マニピュレーションの基盤データ不足を解決するため、自動データ収集パイプラインで2,800シーン・206物体にわたる20万の合成エピソードを効率的に構築し、2,000の実世界エピソードを遠隔操作なしで迅速に収集可能なDynamic Object Manipulation(DOM)ベンチマークを新規に構築した。広範な評価により、応答速度・知覚性能・一般化能力において顕著な改善を実証し、DynamicVLAが具現形態を超えた汎用的な動的物体操作の統一フレームワークとして有効であることを示す。
大規模視覚言語モデルの発展は、マルチモーダルデータの大量管理と応用への需要を促進し、視覚画像から情報を抽出するOCR技術の普及を急速に進めている。しかし、既存のOCR手法は主に画像やスキャン文書からの文字要素認識(テキスト中心OCR)に焦点を当てており、図表、ウェブページ、科学プロットなどの視覚的情報が密集した画像源からの視覚要素識別(視覚中心OCR)が軽視されてきた。現実には、こうした視覚情報豊富な画像はインターネット上に広く存在し、データ可視化やウェブページ分析など実用的価値が極めて高い。本テクニカルレポートでは、テキスト中心OCRと視覚中心OCRを統合的に処理する初のエンドツーエンド方式による総合OCR手法「OCRVerse」を提案する。この実現に向け、新聞・雑誌・書籍などのテキスト中心文書から、図表・ウェブページ・科学プロットなどの視覚中心レンダリング合成データまで幅広くカバーする包括的データエンジニアリングを構築した。さらに、OCRVerseのために2段階のSFT-RLマルチドメイン訓練手法を考案した。SFT段階では異分野データを直接混合して初期ドメイン知識を構築し、RL段階では各ドメイン特性に応じた個別報酬戦略を設計する。具体的には、異なるドメインが多様な出力形式と期待出力を要求するため、RL段階で柔軟な報酬信号をカスタマイズする十分な自由度を設け、分野横断的融合を促進するとともにデータ競合を回避する。実験結果では、OCRVerseがテキスト中心と視覚中心の両データタイプで競争力のある性能を発揮し、大規模オープンソースモデルやクローズドソースモデルに匹敵する結果を得たことを実証する。
視覚言語モデル(VLM)の最近の進歩は、視覚的推論において著しい発展をもたらしています。しかし、オープンソースのVLMは依然としてプロプライエタリシステムに後れを取っており、その主な要因は高品質な推論データの不足にあります。既存のデータセットは、STEM図表や視覚パズルなどの難易度の高い領域の網羅性が限られており、強力な推論能力を引き出すために不可欠な一貫性のある長文の連鎖的思考(CoT)アノテーションを欠いています。このギャップを埋めるため、私たちは大規模マルチモーダル推論データセット「MMFineReason」を導入します。このデータセットは180万サンプル、51億ソリューショントークンから構成され、Qwen3-VL-235B-A22B-Thinkingから抽出した高品質な推論アノテーションを特徴としています。 データセットは体系的な3段階パイプラインを通じて構築されました:(1)大規模データ収集と標準化、(2)CoT理論的根拠の生成、(3)推論品質と難易度認識に基づく包括的な選別。結果として得られたデータセットはSTEM問題、視覚パズル、ゲーム、複雑な図表を網羅し、各サンプルには視覚に基づいた推論トレースが注釈付けられています。 私たちはQwen3-VL-InstructをMMFineReasonでファインチューニングし、MMFineReason-2B/4B/8Bバージョンを開発しました。これらのモデルは、そのサイズクラスにおいて新たな最先端の結果を確立しています。特に、MMFineReason-4BはQwen3-VL-8B-Thinkingを成功裏に上回り、MMFineReason-8BはQwen3-VL-30B-A3B-Thinkingを凌駕し、Qwen3-VL-32B-Thinkingに迫る性能を示し、驚異的なパラメータ効率を実証しました。 重要なことに、難易度認識フィルタリング戦略を通じて「より少ないことはより多いこと」という現象を明らかにしました:わずか7%(12万3千サンプル)のサブセットで、フルデータセットと同等の性能を達成しています。さらに、推論指向のデータ構成が一般能力を同時に向上させる相乗効果があることも明らかになりました。
大規模言語モデルは、全てのトークンに均一な計算リソースを割り当てているが、一部の系列は自明に予測可能であるのに対し、他の系列は深い推論を必要とするという事実を見落としている。本論文ではConceptMoEを提案する。これは意味的に類似したトークンを動的に概念表現に統合し、暗黙的なトークンレベルの計算割り当てを実現する。学習可能なチャンクモジュールがトークン間の類似度を測定して最適な境界を特定し、計算集約的な概念モデルに入力される前に系列を目標圧縮率Rで圧縮する。決定的に重要なのは、MoEアーキテクチャが制御された評価を可能にすることである:保存された計算リソースを再割り当てし、ベースラインの活性化FLOPs(注意マップ計算を除く)と総パラメータ数を一致させることで、真のアーキテクチャ上の利点を分離する。これらの条件下で、ConceptMoEは言語タスクと視覚言語タスクの両方において標準MoEを一貫して上回り、言語事前学習で+0.9ポイント、長文理解で+2.3ポイント、マルチモーダルベンチマークで+0.6ポイントを達成した。層ループを用いた継続学習中に事前学習済みMoEを変換する場合、利得は+5.5ポイントに達し、実用性を実証している。性能向上に加え、ConceptMoEは注意計算を最大R^2倍、KVキャッシュをR倍削減する。R=2では、長系列においてプレフィル速度が最大175%、デコード速度が最大117%向上するという実測結果が得られている。最小限のアーキテクチャ変更により既存のMoEへの直接的な統合が可能であり、適応的概念レベル処理が大規模言語モデルの有効性と効率性の両方を根本的に改善することを示している。
単眼画像シーケンスからのストリーミング再構成は依然として課題が多い。既存手法の多くは高品質なレンダリングか正確なジオメトリのいずれかを優先し、両方を同時に実現することは稀である。本論文ではPLANINGを提案する。これは、明示的幾何プリミティブとニューラルガウシアンを緩やかに結合したハイブリッド表現に基づく効率的なオンザフライ再構成フレームワークであり、ジオメトリと外観を分離してモデル化することを可能にする。この分離により、ジオメトリと外観の更新を分離したオンライン初期化・最適化戦略を実現し、構造的な冗長性を大幅に削減した安定したストリーミング再構成を実現する。PLANINGは、密メッシュのChamfer-L2距離をPGSR比18.52%改善し、PSNRでARTDECOを1.31dB上回り、ScanNetV2シーンを100秒未満で再構成する(2D Gaussian Splatting比5倍以上高速)とともに、シーン毎のオフライン最適化と同等の品質を達成する。再構成品質に加えて、\modelname~の構造的な明確さと計算効率の高さは、大規模シーン建模や具身AI向けのシミュレーション対応環境の構築など、幅広い下流アプリケーションへの適合性を可能にする。プロジェクトページ: https://city-super.github.io/PLANING/
本報告では、強力なオールインワン音声認識モデル2種と、新しい非自己回帰型音声強制アライメントモデルからなるQwen3-ASRファミリーを紹介する。Qwen3-ASR-1.7BおよびQwen3-ASR-0.6Bは、52の言語と方言における言語識別と音声認識をサポートするASRモデルである。両モデルは大規模な音声学習データと、基盤モデルであるQwen3-Omniの強力な音声理解能力を活用している。オープンソースのベンチマークスコアではASRモデル間の差が小さくても実際のシナリオでは品質に大きな差が生じうるため、公開ベンチマークに加えて包括的な内部評価を実施した。実験結果から、1.7B版はオープンソースASRモデルの中でSOTA性能を達成し最強のプロプライエタリAPIとも互角である一方、0.6B版は最高の精度と効率のトレードオフを提供することが明らかになった。Qwen3-ASR-0.6Bは平均TTFT 92msを達成可能で、128並列時に1秒で2000秒の音声を転写できる。Qwen3-ForcedAligner-0.6BはLLMベースのNARタイムスタンプ予測器であり、11言語のテキスト-音声ペアのアライメントが可能である。タイムスタンプ精度実験では、提案モデルが既存の最強3つの強制アライメントモデルを性能で上回り、効率性と汎用性でより優位であることが示された。ASR及び音声理解のコミュニティ研究をさらに加速させるため、これらのモデルをApache 2.0ライセンスの下で公開する。
大規模言語モデル(LLM)の自律エージェント化には、広範かつ動的な文脈の管理が不可欠である。しかし、現在のベンチマークは依然として静的が主流で、非線形推論や反復的フィードバックといったエージェントと環境の相互作用の複雑さを模擬できない受動的検索タスクに依存している。この問題に対処するため、本論文では Lateral Thinking Puzzles(水平思考パズル)に基づくシミュレーション環境のロールアウトを通じてエージェントを評価する AgentLongBench を提案する。この枠組みは、知識集約的シナリオと知識非依存シナリオの両方において、厳密な相互作用軌跡を生成する。最新のモデルとメモリシステム(32K ~ 4M トークン)を用いた実験により、決定的な弱点が明らかになった:エージェントは静的検索には熟達しているものの、ワークフローに本質的な動的情報統合に苦戦するのである。分析の結果、この性能低下はクエリ解決に必要な最小トークン数によって引き起こされることが示唆された。この要因は、大規模なツール応答に内在する高い情報密度が、長い対話ターンで典型的なメモリ断片化よりも、はるかに大きな課題となる理由を説明する。
エージェンシック強化学習(Agentic RL)は、エージェントに複雑な推論とツール利用を可能とする点で顕著な成功を収めている。しかし、多くの手法は依然として訓練に疎な結果ベースの報酬に依存している。このようなフィードバックは中間推論の質を区別できず、最適とは言えない訓練結果をもたらす。本論文では、エージェントの軌跡に対して構造化されたフィードバックを生成する多面的な報酬モデル、**Agent Reasoning Reward Model (Agent-RRM)** を提案する。これには、(1) 明示的な推論トレース、(2) 推論の欠陥を指摘し改善指針を与える焦点化された批評、(3) プロセスの性能を評価する総合スコアが含まれる。これらの信号を活用し、我々は三つの統合戦略を体系的に調査する:Reagent-C(テキスト拡張型改良)、Reagent-R(報酬拡張型指導)、Reagent-U(統合フィードバック統合)である。12の多様なベンチマークによる広範な評価により、Reagent-Uが大幅な性能向上をもたらし、GAIAで43.7%、WebWalkerQAで46.2%を達成し、我々の推論報酬モデルと訓練手法の有効性が実証された。将来の研究の発展のために、コード、モデル、データセットを全て公開する。
近年の長尺動画生成の研究は、双方向モデルから自己回帰モデルへと移行しているが、これらの手法には誤差蓄積と長期的な一貫性の喪失が共通して見られる。性能低下を緩和するためにアテンションシンクフレームが導入されたが、これが「シンク崩壊」と呼ばれる重大な障害を引き起こすことが多い。すなわち、生成内容がシンクフレームに繰り返し回帰し、突然のシーンリセットや循環的な動きパターンが生じる現象である。本研究の分析により、シンク崩壊の原因が、現在の生成モデルで広く用いられるRoPE(Rotary Position Embedding)の周期的構造とマルチヘッドアテンション機構の間の本質的矛盾にあることを明らかにした。この問題に対処するため、ヘッド間のアテンション均質化を打破し長尺崩壊を緩和する「マルチヘッドRoPEジッター」を導入する、軽量かつ学習不要な手法を提案する。大規模な実験により、本手法が生成品質を維持しつつシンク崩壊を効果的に抑制できることを実証した。我々の知る限り、本研究は品質劣化の少ないリアルタイム・ストリーミング・無限長動画生成の初の実現例である。この頑健性を示すため、最大12時間に及ぶ連続動画の生成に成功しており、これは公開されているストリーミング動画生成の成果として最長クラスに位置づけられる。
脳波(EEG)基盤モデルは近年、大規模で多様な記録データから転移可能な神経表現を学習することを目指し、脳コンピュータインターフェース(BCI)における有望なパラダイムとして登場している。急速な進展にもかかわらず、事前学習の目的や前処理手法、下流評価プロトコルが統一されていないため、既存のEEG基盤モデルを公平かつ包括的に比較した研究は不足していた。本論文はこの空白を埋めるものである。まず50の代表的なモデルを検討し、データ標準化、モデルアーキテクチャ、自己教師あり事前学習戦略といった設計選択を統一的な分類体系に整理する。次に、オープンソースの12の基盤モデルと競合する専門モデルを、9つのBCIパラダイムにまたがる13のEEGデータセットで評価する。実世界での応用を重視し、被験者を一人残して評価するクロス被験者一般化と、被験者内の少数事例設定による迅速な適応の両方を検討する。さらに、事前学習された表現の転移性を評価するため、全パラメータのファインチューニングと線形 probing を比較し、モデル規模と下流性能の関係も検証する。結果は以下のことを示唆している:1)線形 probing では不十分な場合が頻繁にある、2)スクラッチから学習した専門モデルが多くのタスクで依然として競争力を持つ、3)現在のデータ体制と学習手法の下では、大規模な基盤モデルが必ずしも優れた一般化性能をもたらすわけではない。
大規模言語モデル(LLM)は言語ベースのエージェントタスクで優れた性能を発揮するが、未経験の非言語環境(例:記号的または空間的タスク)への適用性は依然として限定的である。従来の研究は、この性能差の原因を事前学習分布とテスト分布のミスマッチに帰してきた。本研究では、主要なボトルネックが探索の膨大なコストにあることを示す。これらのタスクを習得するには大規模な試行錯誤が必要であるが、高次元の意味空間で動作するパラメータ数の多いLLMにとって、これは計算量的に持続不可能である。この問題に対処するため、我々は探索と活用を分離する新規フレームワークSCOUT(未経験タスクにおけるサブスケール協調)を提案する。軽量な「スカウト」(例:小規模なMLP)を活用し、LLMをはるかに上回る速度と規模で環境ダイナミクスの探索を行う。収集した軌跡データは教師ありファインチューニング(SFT)によりLLMのブートストラップに利用され、その後、多段階の強化学習(RL)によってその潜在的な世界知識を活性化する。実験では、SCOUTによりQwen2.5-3B-Instructモデルが平均スコア0.86を達成し、Gemini-2.5-Pro(0.60)を含む専有モデルを大幅に上回りながら、GPU時間消費量を約60%削減できることを実証した。
公開リポジトリには数百万のファインチューニング済みモデルが存在するが、コミュニティの利用は不均衡に少数の基盤モデルに集中している。本論文では、この集中現象が効率的な市場選択を反映しているのか、あるいは優れたモデルが体系的に見落とされているのかを検証する。2,000以上のモデルを大規模評価した結果、人気モデルを大幅に上回る性能を持つ「隠れた名モデル」(低人気ファインチューニングモデル)が広く存在することを明らかにした。特にLlama-3.1-8Bファミリーでは、推論コストを増加させずに数学的推論性能を83.2%から96.0%まで向上させる稀にしかダウンロードされないチェックポイントを発見した。しかし、アップロードされた全モデルを網羅的に評価する手法は計算量的に非現実的である。そこで我々はモデル発見問題を多腕バンディット問題として定式化し、共有クエリセットと積極的除去スケジュールを用いてSequential Halving検索アルゴリズムを高速化する。提案手法では候補モデル当たり50回のクエリでトップモデルを回収可能であり、発見速度を50倍以上加速させる。
現在、言語モデルにおける望ましくない能力の低減に向けたアプローチは、その多くが事後的な対応に留まっており、敵対的な攻撃によって容易に回避され得る。これに代わる自然な方法として、事前学習の段階そのものから能力形成を方向付けることが考えられる。本研究では、医療能力の除去という代理タスクにおいて、事前学習データのフィルタリングという単純な介入が、大規模な適用において極めて効果的、頑健、かつ低コストであることを示す。データ属性分析の研究に着想を得て、文書全体のフィルタリングよりもトークンレベルでのフィルタリングがより効果的であることを明らかにする。これは、良性の能力への影響を最小限に抑えつつ、同等の望ましくない能力の抑制を実現する。2桁の規模にわたるモデルを学習させた結果、フィルタリングの効果はモデル規模の拡大に伴って高まることが示された。最大規模のモデルでは、トークンフィルタリングにより、除去対象領域における計算速度が7000倍も低下した。また、トークンフィルタリングで学習されたモデルであっても、除去対象領域において整合性を取ることが可能であることを示す。この過程で、スパースオートエンコーダを用いたトークンラベリング手法と、低コストで高品質な分類器を蒸留する手法を提案する。さらに、事前学習の計算資源が十分であれば、フィルタリングはノイジーなラベルに対しても頑健であることを実証する。
人間からのフィードバックに基づく学習は、通常、トークンレベルの正則化を通じて方策更新を制約する選好最適化に依存している。しかし、言語モデルにおける選好最適化は特に困難である。なぜなら、トークン空間の類似性が意味的または行動的類似性を意味するわけではないからである。この課題に対処するため、我々は言語モデルの選好最適化に潜在空間正則化を利用する。GANPOを提案する。これは、方策モデルと参照モデルの内部表現間の乖離をペナルティ化することで、潜在空間正則化を実現する。潜在表現は明示的な確率密度と関連付けられていないことを考慮し、GANに着想を得た敵対的アプローチを採用して潜在空間の乖離を最小化する。GANPOを正則化項として、既存のオフライン選好最適化の目的関数に統合する。複数のモデルアーキテクチャとタスクにおける実験により、潜在空間正則化による一貫した改善が示される。さらに、GANPOが誘導する推論バイアスとトークンレベル正則化によるものを比較することで、GANPOが分布シフトやノイズ下でよりロバストな構造的フィードバックを提供し、下流タスクの性能を同等に維持しつつ、計算オーバーヘッドがわずかであることを明らかにする。
強化学習(RL)に基づく事後学習は、大規模言語モデル(LLM)の推論性能を向上させる主要な手法である。しかし、その性能向上は主に新たな能力の獲得ではなく、分布のシャープニングに起因するという証拠が増えつつある。最近の研究では、マルコフ連鎖モンテカルロ法(MCMC)を用いてLLMのべき乗分布からサンプリングすることで、外部報酬に依存せずにRL事後学習に匹敵する性能を回復できることが示されている。しかし、MCMCの計算コストが高いため、こうした手法の広範な実用化は現実的ではない。本研究では、反復的なMCMCを不要とする理論的に基礎付けられた代替手法を提案する。我々は、グローバルなべき乗分布が、スケーリング係数が将来の軌道品質を捕捉するトークンレベルのスケーリング低温度分布によって近似できることを示す新たな定式化を導出する。この知見を活用し、基本モデルの生成分布を自己回帰的にシャープにする、学習不要かつ検証器不要のアルゴリズムを導入する。実験では、数学、QA、コードタスクにおいて4つのLLMに対して本手法を評価し、外部報酬を一切用いずにワンショットGRPOを匹敵または凌駕する性能を達成しつつ、MCMCベースのサンプリングと比較して推論遅延を10倍以上低減できることを示す。
大規模言語モデル(LLM)は急速に進歩しているが、現在の最先端モデルのほとんどは英語や中国語などの高リソース言語を中心に学習・評価されており、大規模な計算資源やデータへのアクセス権を持つ少数の組織によって開発される傾向にある。このような情報囲い込みは、限られたリソースと厳格な透明性制約の下で運用しながら、モデル重み、学習データ、展開に関する制御と理解を地域または国家規模の機関やドメイン所有者が維持しなければならない主権的環境において、現実的な障壁となっている。この課題に対処するため、我々は二つの核心的な要件を特定する:(1)基本モデルを汎用アシスタントへ変換する「採用可能性」、(2)現地言語による法的推論や文化的知識など、地域固有の高リスクタスクを実行する「主権的機能」である。本論文では、大規模な指示データの拡張や複雑な選好チューニングパイプライン、大規模な強化学習ファインチューニング(RFT)に依存せずにこれらの要件を達成できるかどうかを検証する。我々は、教師ありファインチューニング、方策蒸留、小規模RFTを組み合わせた最小限でオープンな学習後レシピ「Typhoon S」を提案する。タイ語を代表的なケーススタディとして、本アプローチが主権適応型および汎用基本モデルの両方を、強力な汎用性能を備えた指示調整モデルに変換できることを実証する。さらに、GRPO損失を次単語予測損失で拡張したInK-GRPOを用いた小規模RFTが、一般的な能力を維持しつつタイ語の法的推論やタイ固有の知識タスクを改善することを示す。これらの結果は、慎重に設計された学習後戦略が指示データと計算資源の必要規模を削減し、学術規模のリソース下で高品質な主権LLMを実現する現実的な道筋を提供することを示唆している。
私たちは、セキュリティ分野初のオープンソースネイティブ推論モデルであるFoundation-Sec-8B-Reasoningを発表します。以前リリースしたFoundation-Sec-8Bベースモデル(Llama-3.1-8B-Base由来)を基盤とし、教師ありファインチューニング(SFT)と検証可能な報酬からの強化学習(RLVR)を組み合わせた2段階のプロセスで学習されました。学習には、セキュリティ分析、指示追従、数学的推論にわたる独自の推論データを活用しています。10のセキュリティベンチマークと10の汎用ベンチマークによる評価では、セキュリティタスクにおいて大幅に大規模なモデルと競合する性能を示しつつ、強力な汎用能力を維持していることが実証されました。本モデルは、マルチホップ推論タスクでの効果的な一般化と、適切なシステムプロンプトとガードレールを導入した際の優れた安全性性能を示します。この成果は、ドメイン特化型の推論モデルが、専門タスクで強力な性能を発揮しつつ、広範な汎用能力を維持できることを実証しています。本モデルはhttps://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning で公開しています。
長文脈推論は大規模言語モデル(LLM)が複雑なタスクに取り組む能力を大幅に強化したが、計算量の増大により深刻な効率性のボトルネックも生み出している。既存の効率化手法は、複雑な追加学習や圧縮のための外部モデルに依存することが多く、拡張性を制限し、重要な細粒度情報を捨ててしまう問題がある。本論文では、視覚-テキスト圧縮を推論プロセスに統合した新しい効率的な推論パラダイムであるVTC-R1を提案する。VTC-R1は、長大なテキストの痕跡を処理する代わりに、中間推論セグメントをコンパクトな画像としてレンダリングし、これを「光学的メモリ」として視覚言語モデルに反復的にフィードバックする。OpenR1-Math-220Kに基づいて構築した学習データセットにより3.4倍のトークン圧縮を達成し、代表的なVLMであるGlyphとQwen3-VLをファインチューニングした。MATH500、AIME25、AMC23、GPQA-Dなどのベンチマークによる大規模な実験により、VTC-R1が標準的な長文脈推論を一貫して上回ることを実証した。さらに、本手法は推論効率を大幅に改善し、エンドツーエンドのレイテンシで2.7倍の高速化を達成しており、推論集約型アプリケーションにおける拡張性のあるソリューションとしての可能性を示している。コードはhttps://github.com/w-yibo/VTC-R1 で公開されている。
マルチモーダル大規模言語モデル(MLLM)は、あるモダリティが別のモダリティに関する生成を不適切に影響させる「クロスモーダル幻覚」に悩まされており、これが虚偽の出力を引き起こす。この問題は、モダリティ間相互作用の制御におけるより根本的な欠陥を露呈している。本論文では、この問題に対処するため、トレーニング不要の手法であるModality-Adaptive Decoding(MAD)を提案する。MADは、タスクごとに必要なモダリティをモデル自身に問い合わせることで、モデルが内在的に持つモダリティ関連性の自己評価能力を活用する。抽出されたモダリティ確率を用いて、コントラスティブデコーディングの分岐を適応的に重み付けし、モデルが関連情報に集中しながらクロスモーダル干渉を抑制することを可能にする。CMMおよびAVHBenchにおける大規模な実験により、MADが複数の音声視覚言語モデルにおいてクロスモーダル幻覚を大幅に軽減することが実証された(VideoLLaMA2-AVで7.8%および2.0%、Qwen2.5-Omniで8.7%および4.7%の改善)。本アプローチは、自己評価を通じた明示的なモダリティ認識が頑健なマルチモーダル推論に不可欠であることを示し、既存のコントラスティブデコーディング手法への原理的な拡張を提供する。コードはhttps://github.com/top-yun/MAD で公開されている。
現代の拡散モデル/フローベースモデルによる画像生成は、一般に二つの核心的特徴を示す:(i)多段階サンプリングの使用、(ii)潜在空間での動作。近年の進展により、各側面において個別に有望な進歩が見られ、潜在空間を必要としない一段階の拡散/フロー生成への道筋が開かれてきた。本研究ではこの目標に向けさらに一歩を進め、「ピクセル平均流(pMF)」を提案する。我々の核心的な指針は、ネットワークの出力空間と損失空間を別個に定式化することである。ネットワークの目標は、想定される低次元画像多様体(すなわちx-prediction)上に設定し、損失は速度空間における平均流(MeanFlow)を通じて定義する。画像多様体と平均速度場の間の単純な変換を導入する。実験では、pMFはImageNetにおける256x256解像度(2.22 FID)および512x512解像度(2.48 FID)の一段階潜在空間フリー生成で強力な結果を達成し、この領域で欠けていた重要なピースを埋めるものである。本研究が拡散/フローベース生成モデルの境界をさらに押し広げることを期待する。
大規模言語モデルの生成において、安全性、事実性、全体的な品質を確保することは極めて重要な課題である。特に、現実世界のアプリケーションでこれらのモデルの展開が進む中でその重要性は増している。現在主流のアプローチは、高価で入念にキュレートされたデータセットを収集し、複数段階のファインチューニングとアライメントを適用するというものである。しかし、このような複雑なパイプラインであっても、事前学習段階で獲得されたパターンを修正できる保証はない。したがって、モデルの核心的な振る舞いを形成し、安全でない出力や虚構の出力が深く埋め込まれるのを防ぐため、事前学習段階でこれらの問題に対処することが極めて重要である。この課題に取り組むため、我々は新しい事前学習手法を提案する。この手法は文書をストリーミングし、強化学習を用いて各ステップで次に生成されるK個のトークンを改善する。強力な事後学習済みモデルが、モデルのロールアウト、元の接尾部、書き換えられた接尾部を含む候補生成文を、品質、安全性、事実性の観点で評価する。学習の初期段階では、元の接尾部と書き換えられた接尾部に依存するが、モデルが改善されるにつれて、高品質なロールアウトに対して強化学習の報酬が与えられる。このアプローチにより、根本からより高品質で安全かつ事実に基づいたモデルを構築する。実験では、本手法は標準的な事前学習と比較して、事実性と安全性においてそれぞれ36.2%、18.5%の相対的改善を示し、全体的な生成品質では最大86.3%の勝率改善をもたらした。
DeepSearchQAを紹介する。これは17の異なる分野にわたる困難な多段階情報探索タスクにおいて、エージェントを評価するための900のプロンプトからなるベンチマークである。単一の回答検索や広範な事実性を対象とする従来のベンチマークとは異なり、DeepSearchQAは、網羅的な回答リストを生成するために複雑な検索計画を実行するエージェントの能力を評価するように設計された、挑戦的な手作りのタスクのデータセットを特徴とする。この設計の転換により、以下の3つの重要でありながら十分に評価されていない能力が明示的にテストされる:1) 異種の情報源から断片化された情報を体系的に整理する能力、2) 精度を確保するための重複排除とエンティティ解決、3) 開かれた検索空間内で停止基準について推論する能力。各タスクは因果連鎖として構造化されており、あるステップの情報発見は前のステップの成功完了に依存するため、長期的な計画立案と文脈の保持が強調される。全てのタスクはオープンウェブに基づき、客観的に検証可能な回答セットを持つ。最先端のエージェントアーキテクチャに対する我々の包括的評価は、重大な性能限界を明らかにしている:最も先進的なモデルでさえ、高い再現率と精度のバランスを取るのに苦労する。早期停止(過少検索)から、再現率を人為的に高めるために信頼度の低い回答を過度に広く網羅するヘッジング行動に至るまで、明確な失敗モードが観察される。これらの知見は、現在のエージェント設計における重要な改善余地を浮き彫りにし、DeepSearchQAを、より堅牢な深層調査能力に向けた将来の研究を推進する必須の診断ツールとして位置づける。
効率的かつ高密度な連鎖思考(CoT)推論を目指し、潜在推論手法は大規模言語モデル(LLM)を微調整して、離散的な言語トークンを連続的な潜在トークンに置き換える。これらの手法は従来の言語CoT推論と比較して少ないトークンを消費し、高密度な潜在空間での計画が可能となる。しかし、現在の潜在トークンは一般に言語ラベルの模倣に基づいて教師付けされている。一つの質問に対して等価だが多様なCoTラベルが複数存在し得ることを考慮すると、受動的に任意のラベルを模倣することは、潜在トークン表現と潜在推論ポリシーを劣化させ、潜在的な計画能力を損ない、訓練とテストの間に明確な乖離を生じさせる可能性がある。本研究では、最適な潜在推論ポリシーを達成する上で、潜在トークンの表現空間における能動的計画の重要性を強調する。そこで我々は、潜在トークンの教師付けプロセスを条件付き変分オートエンコーダ(VAE)としてモデル化し、より滑らかな潜在空間を獲得する能動的潜在計画手法(ATP-Latent)を提案する。さらに、最も合理的な潜在推論ポリシーを促進するため、ATP-Latentは補助的一貫性報酬を用いた強化学習(RL)を実施する。この報酬は潜在トークンのVAE復号内容間の一貫性に基づいて計算され、ガイド付きRLプロセスを可能にする。LLaMA-1Bを用いた実験において、ATP-Latentは4つのベンチマークで先進的なベースラインと比較して+4.1%の精度向上と-3.3%のトークン削減を実証した。コードはhttps://github.com/zz1358m/ATP-Latent-master で公開されている。
ソフトマックスアテンションブロックとリカレントニューラルネットワーク(RNN)を組み合わせたハイブリッドトランスフォーマーアーキテクチャは、長文コンテキストモデリングにおいて望ましい性能とスループットのトレードオフを示しているが、大規模な事前学習をゼロから行うための莫大なコストが、その採用と研究の障壁となっている。最近の研究では、事前学習済みのソフトマックスアテンションブロックを、パラメータ転移と知識蒸留によってRNNブロックに変換できることが示されている。しかし、これらの転移手法には大量の学習データ(100億トークン以上)が必要であり、変換されたハイブリッドモデルは長文コンテキスト性能が低いという課題がある。これは、ハイブリッドモデルがトランスフォーマーベースモデルに対して推論速度の大幅な向上が期待される場面である。 本論文では、トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALO(Hybrid Attention via Layer Optimization)を提案する。さらに、新しい位置符号化方式(HyPEと命名)と様々なアーキテクチャ改良により、優れた長さ一般化性能を実現するハイブリッドアーキテクチャであるHypeNetを提示する。HALOを用いてQwen3シリーズをHypeNetに変換した結果、元のトランスフォーマーモデルと同等の性能を維持しつつ、優れた長文コンテキスト性能と効率性を実現した。この変換に必要なデータは23億トークンであり、事前学習データの0.01%未満である。
教師あり学習データの限界を克服するため、大規模言語モデル(LLM)は通常、膨大な量の非構造化テキストデータに対し、自己教師ありの「次の単語予測」タスクで事前学習されます。得られたモデルをユーザーにとって有用なものとするため、さらに少量の「指示チューニング」データ(指示と応答の教師あり学習事例で構成される)で学習が行われます。教師ありデータの不足という課題に対処するため、我々はインターネット規模の事前学習文書に含まれる知識を、数十億規模の合成的な指示と回答の訓練ペアに変換する手法を提案します。この結果得られるデータセット「FineInstructions」は、実際のユーザー記述のクエリやプロンプトから作成された約1,800万の指示テンプレートを利用しています。これらの指示テンプレートは、非構造化事前学習コーパスから得られた人間によって書かれた原文書と対応付けられ、具体化されます。この規模で生成された「教師あり」の合成的訓練データを用いることで、LLMを指示チューニング目標のみでスクラッチから事前学習することが可能となります。これは、LLMの期待される下流用途(ユーザープロンプトへの応答)との分布の一致度がはるかに高いと言えます。我々はトークン単位で管理された訓練実験を実施し、FineInstructionsによる事前学習が、自由形式応答の質を測定する標準ベンチマークにおいて、標準的な事前学習や他の提案されている合成的事前学習手法を上回ることを確認しました。関連リソースは https://huggingface.co/fineinstructions で公開されています。
ニューラルネットワーク(NN)におけるハイパーコネクション(HC)の成功は、その訓練の不安定性とスケーラビリティの制限に関連する課題も浮き彫りにした。多様体制約付きハイパーコネクション(mHC)は、残差接続空間をバーコフ多面体上へ射影することでこれらの課題を緩和するが、以下の二つの問題に直面する:1)反復的なシンクホーン・クノップ(SK)アルゴリズムが常に正確な二重確率的な残差行列を生成するとは限らないこと、2)mHCが残差ストリームの幅をn、特徴次元をCとして、許容し難いO(n^3C)というパラメータ複雑度を負うことである。最近提案されたmHC-liteは、バーコフ・フォン・ノイマンの定理を用いて残差行列を再パラメータ化し二重確率性を保証するが、O( nC cdot n! )という階乗的な爆発を伴うパラメータ複雑度の問題に直面する。これらの両課題に対処するため、我々はKromHCを提案する。これは、mHCにおける残差行列をパラメータ化するために、より小さな二重確率行列のクロネッカー積を使用する。テンソル化された残差ストリームの各モードに沿って因子残差行列に多様体制約を課すことで、KromHCは残差行列の正確な二重確率性を保証しつつ、パラメータ複雑度をO(n^2C)に削減する。包括的な実験により、KromHCが、訓練可能なパラメータ数を大幅に削減しながら、最先端(SOTA)のmHC変種に匹敵あるいはそれを上回る性能を発揮することが実証された。コードはhttps://github.com/wz1119/KromHC で公開されている。
機械論的解釈可能性(Mechanistic Interpretability)の研究により、大規模言語モデル(LLM)内の解釈可能な回路は特定されているものの、それらの因果的起源が学習データのどこに存在するかは未解明である。本論文では、影響関数(Influence Functions)を活用し、解釈可能な単位を特定の学習サンプルまで遡って追跡するスケーラブルな枠組み「Mechanistic Data Attribution(MDA)」を提案する。Pythiaモデルファミリーを用いた広範な実験を通じて、標的介入(ごく少数の高影響力サンプルの削除または拡張)が解釈可能なヘッドの出現を有意に調節する一方、無作為な介入には効果がないことを因果的に検証した。分析により、反復的な構造データ(LaTeX、XMLなど)が機械論的触媒として機能することが明らかとなった。さらに、誘導ヘッド(induction head)形成を標的とした介入が、モデルの文脈内学習(ICL)能力に同時変化を誘起することを観測した。これは、誘導ヘッドとICLの機能的関連性に関する長年の仮説に対する直接的な因果的証拠を提供する。最後に、モデル規模を超えて回路の収束を一貫して加速する機械論的データ拡張パイプラインを提案し、LLMの発達軌道を制御するための原理的な方法論を示す。
長期的な相互作用において動作する言語モデルベースのエージェントは、時間的に接地された情報の持続的維持およびセッション間での行動的一貫性の維持という課題に直面しており、我々はこの失敗モードを「魂の侵食(soul erosion)」と呼ぶ。本論文ではBMAM(Brain-inspired Multi-Agent Memory)を提案する。これは、エージェントのメモリを単一の非構造化ストアではなく、機能的に専門化されたサブシステムの集合としてモデル化する汎用メモリアーキテクチャである。BMAMは認知記憶システムにヒントを得て、メモリをエピソード記憶、意味記憶、顕著性認識記憶、制御指向記憶の構成要素に分解し、これらが補完的な時間スケールで動作する。長期的推論を支援するため、BMAMはエピソード記憶を明示的なタイムラインに沿って整理し、複数の補完的な信号を融合することで証拠を検索する。LoCoMoベンチマークによる実験では、BMAMは標準的な長期評価設定において78.45%の精度を達成し、 ablation分析により、海馬にヒントを得たエピソード記憶サブシステムが時間推論において重要な役割を果たすことが確認された。
量子化は大規模言語モデル(LLM)学習の計算効率とメモリ効率を大幅に向上させてきた。しかし、既存の手法では、更新の累積を高精度で行うことに依然として依存している。具体的には、勾配更新はマスタ重みと呼ばれる高精度の重みバッファに適用されなければならない。このバッファは、特にモデルパラメータとオプティマイザの状態がメモリ使用量を支配するスパース混合エキスパート(SMoE)モデルにおいて、多大なメモリオーバーヘッドをもたらす。この問題に対処するため、本論文では誤差補償型オプティマイザ(ECO)を提案する。ECOは更新を量子化されたパラメータに直接適用することでマスタ重みを排除する。ECOは各ステップ後に重みを量子化し、生じた量子化誤差を注意深くオプティマイザのモーメンタムに注入し、追加メモリを必要としない誤差フィードバックループを形成する。標準的な仮定と減衰する学習率の下で、ECOが最適解の定数半径近傍に収束することを証明する。一方、単純にマスタ重みを除去した場合、学習率に反比例する誤差が生じうることを示す。小規模Transformer(30-800M)、Gemma-3 1Bモデル、FP8量子化を用いた2.1BパラメータのSparse MoEモデルの事前学習、およびINT4精度でのDeepSeek-MoE-16Bのファインチューニングにおける実証結果を示す。一貫して、ECOはマスタ重みを使用したベースラインとロスレスに近い精度まで一致し、静的メモリと検証損失のパレートフロンティアを大幅にシフトさせる。
スケーリングは視覚基盤モデルの近年の進歩を牽引してきたが、このパラダイムをメートル法深度推定に拡張することは、不均一なセンサノイズ、カメラ依存のバイアス、ノイズの多いクロスソース3Dデータにおけるメートル法の曖昧さにより、依然として困難である。本論文では、手動で設計されたプロンプト、カメラ固有のモデリング、またはタスク固有のアーキテクチャを必要とせず、ノイズの多い多様な3Dソースからメートル法深度を学習する、シンプルでスケーラブルな事前学習フレームワーク「Metric Anything」を提案する。我々のアプローチの中核は、深度マップをランダムにマスキングして作成される「Sparse Metric Prompt」であり、これは空間推論をセンサやカメラのバイアスから切り離す普遍的なインターフェースとして機能する。約1万台のカメラモデルにわたる再構築、撮影、レンダリングされた3Dデータからなる約2000万の画像-深度ペアを使用して、我々はメートル法深度トラックにおいて初めて明確なスケーリングの傾向を実証する。事前学習済みモデルは、深度補完、超解像、レーダー-カメラ融合などのプロンプト駆動タスクで優れた性能を発揮し、その蒸留されたプロンプト不要の学生モデルは、単眼深度推定、カメラ内部パラメータ回復、単一/多視点メートル法3D再構築、VLA計画において最新の結果を達成する。また、Metric Anythingの事前学習済みViTを視覚エンコーダとして使用することで、マルチモーダル大規模言語モデルの空間知能能力が大幅に向上することを示す。これらの結果は、メートル法深度推定が現代の基盤モデルを推進するのと同じスケーリング則の恩恵を受け得ることを示し、スケーラブルで効率的な実世界のメートル法知覚への新たな道筋を確立する。我々はコミュニティの研究を支援するため、Metric Anythingを http://metric-anything.github.io/metric-anything-io/ でオープンソース化する。
統合マルチモーダルモデル(UMM)は、視覚的理解と生成を単一の枠組みに統合する。その究極の目標は、理解と生成が相互に強化し合う循環を創出することである。近年の事後学習手法は、理解を活用して生成を強化することに成功しているが、生成を利用して理解を改善する逆方向のアプローチはほとんど未開拓のままである。本研究では、シンプルかつ効果的でアーキテクチャに依存しない事後学習手法UniMRG(Unified Multi-Representation Generation)を提案する。UniMRGは補助的な生成タスクを導入することでUMMの理解能力を強化する。具体的には、標準的な視覚理解タスクに加えて、入力画像の複数の内在的表現——ピクセル(再構成)、深度(幾何学)、セグメンテーション(構造)——の生成をUMMに学習させる。これらの多様な表現を統合的に生成することで、UMMは外観、空間関係、構造的レイアウトに関する相補的な情報を獲得する。その結果、UMMは視覚入力をより深く包括的に理解できるようになる。様々なUMMアーキテクチャを用いた大規模な実験により、本手法が微細な知覚の向上、幻覚の低減、空間理解の改善を顕著にもたらし、同時に生成能力も強化されることが実証された。
本論文では、効率的な推論を実現するための注意機構を活用した手法FROSTを提案する。従来手法とは異なり、FROSTは注意重みを利用して重要度の低い推論経路を刈り込むことで、より短く信頼性の高い推論軌跡を生成する。方法論としては、推論外れ値の概念を導入し、注意機構に基づく除去メカニズムを設計する。理論的には、FROSTは文レベルで外れ値を除去しながらもモデルの推論能力を維持・強化する。実験的には、2つの強力な推論モデル(Phi-4-ReasoningおよびGPT-OSS-20B)を用いた4つのベンチマークで検証し、TALEやThinkLessなどの最新手法を上回る性能を実証した。特に、ベースモデルと比較してトークン使用量を平均69.68%削減し、精度を26.70%向上させた。さらに、注意外れ値メトリクスの評価では、最大無限ノルムを15.97%、平均尖度を91.09%低減させた。コードはhttps://github.com/robinzixuan/FROSTで公開している。
音響視覚基盤モデルは、音声と視覚コンテンツを共同生成するように事前学習され、近年、マルチモーダルな生成と編集において前例のない能力を示し、下流タスクに新たな可能性を開いています。こうしたタスクの中でも、ビデオダビングはこのような事前知識から大きな恩恵を受ける可能性がありますが、既存のソリューションの多くは、実世界の設定に対応できない複雑なタスク固有のパイプラインに依存しています。本研究では、軽量なLoRAを介してビデオ間ダビングのために音響視覚拡散基盤モデルを適応させる単一モデルアプローチを提案します。このLoRAにより、モデルは入力された音声とビデオを条件として、翻訳された音声と同期した顔の動きを共同生成できます。このLoRAを訓練するために、生成モデル自体を活用して同一話者の多言語対応ビデオペアを合成します。具体的には、単一クリップ内で言語切り替えを行う多言語ビデオを生成し、各半分の顔と音声を、もう一方の半分の言語に一致するようにインペイントします。音響視覚モデルの豊かな生成事前知識を活用することで、本アプローチは複雑な動きや実世界のダイナミクスに対しても頑健でありながら、話者同一性と口唇同期を保持します。本アプローチが、既存のダビングパイプラインと比較して、視覚的忠実度、口唇同期、頑健性が改善された高品質なダビングビデオを生成することを実証します。
大規模言語モデル(LLM)の訓練における従来の強化学習(RL)手法の多くは、正解ラベルまたはタスク固有の検証器を必要とするため、正解が曖昧あるいは取得コストが高い場合に拡張性が制限される。本論文では、メタ評価による強化学習(Reinforcement Learning from Meta-Evaluation: RLME)を提案する。本手法では、評価者が自然言語のメタ質問(例:「答えは正しいか?」「推論は論理的一貫性があるか?」)に対して与える回答から導出された報酬を用いて生成器を最適化する。RLMEは評価者の肯定的判断の確率を報酬として扱い、グループ相対方策最適化により生成器を更新することで、ラベルなしでの学習を可能とする。一連の実験を通じて、RLMEがラベルベースの訓練に匹敵する精度とサンプル効率を達成し、複数目的間の制御可能なトレードオフを実現し、事後的な合理化ではなく信頼性の高い推論パターンへモデルを方向付け、さらに正解ラベルが利用不能なオープンドメイン設定へ一般化することを示す。これにより、強化学習が適用可能なLLM訓練の領域が拡大される。
コード生成における強化学習の最近の進展により、報酬ハッキングを防ぐための堅牢な環境が不可欠となっている。コードベースのRLにおいてLLMが評価器として活用される機会が増える中、その報酬ハッキング検出能力は未だ十分に研究されていない。本論文では、54のカテゴリにわたる報酬悪用の新規分類体系を提案し、517のテスト軌道を含む合成的に作成され人的に検証されたベンチマークTRACEを紹介する。従来研究が報酬ハッキング検出を個別分類シナリオで評価してきたのに対し、我々はTRACE上でより現実的な対照的異常検知設定による評価を対比させる。実験結果から、モデルは個別分類設定よりも対照的設定において報酬ハッキングを効果的に捕捉し、GPT-5.2最高推論モードがTRACEにおいて63%(個別設定の45%から向上)の最高検出率を達成することが明らかとなった。この知見に基づき、最先端モデルが構文的に文脈化された報酬ハッキングよりも意味的に文脈化されたものに対して著しく困難を抱えることを実証する。さらにモデル行動の定性分析、および正常軌道とハッキング軌道の比率や分析クラスタサイズが検出性能に大きく影響することを示す ablation 研究を実施する。学界がTRACEを拡張し自身のモデルを評価できるよう、ベンチマークと評価ハーネスを公開する。
数学における極値構造の発見は、広大で非凸的な探索空間を扱う必要があり、解析的手法はほとんど指針を与えず、力任せの探索は実行不可能となる。本論文では、FlowBoostを提案する。これは、以下の3つの構成要素を組み合わせることで、稀で極値的な幾何学的構造を発見することを学習する、閉ループ生成フレームワークである:(i) 高品質な配置をサンプリングすることを学習する、幾何学的考慮を組み込んだ条件付きフローマッチングモデル、(ii) 多様性を維持しつつ生成プロセスを目的に向けて直接最適化する、報酬誘導型方策最適化と行動探索、(iii) 学習データ生成と最終的な精密化の両方に用いる確率的局所探索。フィルタリングされた離散サンプルで再学習するPatternBoostや、進化的突然変異演算子として凍結された大規模言語モデル(LLM)に依存するAlphaEvolveなどの従来の開ループアプローチとは異なり、FlowBoostはサンプリング中に幾何学的実現可能性を強制し、報酬信号を生成モデルに直接伝播させる。これにより最適化ループが閉じられ、はるかに小規模な訓練セットと短い訓練時間で済み、必要な外側ループの反復回数を数桁削減するとともに、LLMへの依存を排除する。本フレームワークを4つの幾何学的最適化問題(超立方体内の球充填、半径の和を最大化する円充填、ハイルブロンの三角形問題、スター・ディスクレパンシー最小化)で実証する。いくつかのケースでは、FlowBoostは既知の最良結果に匹敵する、またはそれを超える配置を発見する。円充填問題では、既知の最良下限値を改善し、LLMベースのシステムAlphaEvolveを凌駕するとともに、大幅に少ない計算資源で達成する。
音響フィンガープリンティングは、音響信号を識別可能な表現に変換する技術であり、後続の識別・検索システムで利用される。識別力の高い表現を得るため、入力音声は通常、短い時間区間に分割され、局所的な音響特徴の抽出と分析が行われる。現代のニューラルネットワークに基づく手法では、短く固定長の音声セグメントを処理対象とするのが一般的であるが、セグメント長の選択は経験的に決定されることが多く、その影響は十分に検証されていない。本論文では、セグメント長が音響フィンガープリンティングの性能に与える影響を検討する。既存のニューラルフィンガープリンティングアーキテクチャを拡張し、様々なセグメント長に対応させ、異なるセグメント長とクエリ長における検索精度を評価した。結果として、短いセグメント長(0.5秒)が一般的に優れた性能を達成することが明らかとなった。さらに、最適なセグメント長の推薦における大規模言語モデル(LLM)の能力を評価し、調査対象3モデルの中でGPT-5-miniが5つの観点で一貫して最適な提案を行うことを示した。本研究成果は、大規模ニューラル音響検索システムにおけるセグメント長選択の実用的な指針を提供する。
グラフィックデザインでは、様々な様式的な方向性を探ることが多いが、これは非専門家にとって時間を要する作業である。本研究では、自然言語による指示に基づいてデザインを様式的に改善するという課題に取り組む。視覚言語モデル(VLM)はグラフィックデザインにおいて一定の成果を示しているが、事前学習で獲得されたスタイルに関する知識は一般的すぎる場合が多く、特定領域のデータと整合しない。例えば、VLMはミニマリズムを抽象的なデザインと結びつけがちであるが、デザイナーは形状や色彩の選択を重視する。我々の重要な知見は、デザインデータ(デザイナーの原則を暗黙的に内包した実世界のデザイン群)を活用し、デザイン知識を学習して様式的改善を導くことである。我々はPRISM(PRior-Informed Stylistic Modification)を提案する。これは、以下の3段階を通じてデザイン知識ベースを構築・適用する手法である:(1) 高分散のデザインをクラスタリングしてスタイル内の多様性を捕捉する、(2) 各クラスターを実践的なデザイン知識に要約する、(3) 推論時に関連知識を検索し、スタイルを考慮した改善を可能にする。Crelloデータセットを用いた実験では、PRISMはスタイル整合性においてベースライン手法を上回り、平均順位1.49(1に近いほど良好)を達成した。ユーザスタディでもこれらの結果が裏付けられ、PRISMがデザイナーから一貫して支持されることが示された。
Webエージェントは複雑なコンピュータタスクの自動化において大きな可能性を秘めているが、その相互作用は、不可逆的なアクションを伴う長期的で連続的な意思決定を含む。このような設定では、結果に基づく監督は疎で遅延し、誤った軌道を報いたり、推論時のスケーリングを支援できなかったりすることが多い。これが、Webナビゲーションにおけるプロセス報酬モデル(WebPRM)の使用を動機付けているが、既存のアプローチには限界がある:スカラー型WebPRMは進捗を大まかで弱く根拠付けられた信号に圧縮し、チェックリスト型WebPRMはレイアウトや意味の変化に弱い脆いテンプレートマッチングに依存し、表面的に正しいアクションを成功と誤ラベル付けすることが多く、洞察や解釈可能性をほとんど提供しない。これらの課題に対処するため、我々はWebArbiterを提案する。これは、推論を優先し、原理を誘導するWebPRMであり、報酬モデリングをテキスト生成として定式化し、選好判断で結論づけられ、現在のコンテキスト下でタスク完了に最も寄与するアクションを特定する構造化された理由付けを生成する。訓練は2段階のパイプラインで行う:推論蒸留によりモデルに首尾一貫した原理駆動推論を習得させ、強化学習により教師のバイアスを判断を正しさに直接合わせて補正し、より強力な一般化を可能にする。体系的な評価を支援するため、4つの多様なWeb環境、豊富なタスク、高品質な選好アノテーションを含む総合的なベンチマークWebPRMBenchを公開した。WebPRMBenchにおいて、WebArbiter-7Bは最強のベースラインであるGPT-5を9.1ポイント上回った。WebArena-Liteでの報酬誘導軌道探索では、従来の最良のWebPRMを最大7.2ポイント上回り、実世界の複雑なWebタスクにおけるその堅牢性と実用的価値を強調している。
視覚基盤モデルはロボティクスにおいて強力な知覚特徴を提供するが、その密な表現は明示的なオブジェクトレベルの構造を欠いており、把持タスクにおけるロバスト性と制御性を制限している。本論文では、STORM(ロボティック把持のためのスロットベースタスク認識オブジェクト中心表現)を提案する。これは軽量なオブジェクト中心適応モジュールであり、凍結された視覚基盤モデルを、ロボティック把持のための少数の意味認識スロットで拡張する。大規模なバックボーンの再学習ではなく、STORMは多段階学習戦略を採用する:オブジェクト中心スロットは、まず言語埋め込みを用いた視覚-意味事前学習により安定化され、その後、下流の把持ポリシーと共同で適応される。この段階的学習は、縮退したスロット形成を防止し、知覚とタスク目標を整合させながら意味的一貫性を保持する。オブジェクト発見ベンチマークとシミュレーション把持タスクによる実験では、凍結された基盤モデルの特徴を直接使用する場合や、オブジェクト中心表現をエンドツーエンドで学習する場合と比較して、STORMが視覚的妨害要素への一般化と制御性能を向上させることが示された。本結果は、汎用的な基盤モデルの特徴をロボット制御のためのタスク認識オブジェクト中心表現へ変換する効率的なメカニズムとして、多段階適応の有効性を強調する。
ロボットマニピュレーションポリシーの一般化能力は、視覚的表現の選択に強く影響される。既存手法では、事前学習済みエンコーダーから抽出した表現に依存するのが一般的であり、主に2つの特徴タイプが用いられている:画像全体を単一のプール化ベクトルで要約するグローバル特徴と、エンコーダー最終層からのパッチ単位の埋め込みを保持する密特徴である。これらは広く利用されているものの、両特徴タイプはタスクに関連する情報と無関係な情報を混在させるため、照明やテクスチャの変化、妨害物の存在といった分布シフト下での一般化性能が低いという課題がある。本研究では、密特徴を有限個の物体様エンティティにグループ化する、中間的な構造化代替案であるスロットベース物体中心表現(SBOCR)を探求する。この表現は、タスクを効率的に実行するのに十分な情報を保持しつつ、ロボットマニピュレーションポリシーに供給されるノイズを自然に低減することを可能にする。我々は、単純なものから複雑なものまで、シミュレーションおよび実世界のマニピュレーションタスク群において、様々なグローバル表現および密表現と、中間的なスロットベース表現を比較評価した。照明、テクスチャの変化、妨害物の存在を含む多様な視覚条件下での一般化性能を評価した結果、SBOCRベースのポリシーは、タスク特化的な事前学習なしにおいても、分布シフト設定において密表現やグローバル表現ベースのポリシーを凌駕することを明らかにした。これらの知見は、SBOCRが動的な実世界ロボット環境において効果的に一般化する視覚システムを設計するための有望な方向性であることを示唆している。
近年、「世界モデル」とも呼ばれる生成的基盤モデルの進歩により、ロボット計画や自律システム訓練といった重要なタスクへの応用に関心が高まっている。信頼性のある実用化には、これらのモデルが高い物理的忠実度を示し、現実世界のダイナミクスを正確にシミュレートすることが必須である。しかし、既存の物理ベースの動画ベンチマークは、単一のテストが複数の物理法則や概念を同時に評価する「もつれ」の問題を抱えており、診断能力を根本的に制限している。本研究では、概念ごとに分離された評価を可能にする、動画ベースの新しいベンチマーク「WorldBench」を提案する。これにより、単一の物理概念や法則の理解を厳密に分離して評価できる。WorldBenchを包括的なものとするため、2つの異なるレベルでベンチマークを設計した:1) 物体の永続性やスケール/遠近法といった概念に対する直感的物理理解の評価、および 2) 摩擦係数や流体粘性といった低レベルの物理定数および物質特性の評価である。SOTAの動画ベース世界モデルをWorldBenchで評価した結果、特定の物理概念において特有の失敗パターンが観察され、テストされた全てのモデルが信頼性のある実世界相互作用を生成するために必要な物理的一貫性を欠いていることが明らかになった。概念特化型の評価を通じて、WorldBenchは動画生成モデルや世界モデルの物理推論能力を厳密に評価するための、より細やかでスケーラブルな枠組みを提供する。これにより、より頑健で一般化可能な世界モデル駆動学習への道を開くものである。