翻訳付きの日次キュレーションされたAI研究論文
Image Chain-of-Thought(Image-CoT)は、推論時間を延長することで画像生成を改善するテスト時スケーリングのパラダイムである。既存のImage-CoT手法の多くはテキストから画像への生成(T2I)に焦点を当てている。T2I生成とは異なり、画像編集は目標指向的である:解空間は元画像と指示によって制約を受ける。この不一致により、Image-CoTを編集に適用する際には3つの課題が生じる。固定サンプリング予算による非効率なリソース配分、一般的なMLLMスコアを用いた初期段階検証の信頼性の低さ、大規模サンプリングによる冗長な編集結果である。これに対処するため、我々は編集の効率と性能を向上させるオンデマンド型テスト時スケーリングフレームワークであるADaptive Edit-CoT(ADE-CoT)を提案する。本手法は3つの主要な戦略を組み込む:(1)編集難易度の推定に基づき動的予算を割り当てる難易度対応リソース配分、(2)領域位置特定とキャプション一貫性を用いて有望な候補を選択する早期刈り込みにおける編集特化型検証、(3)インスタンス特化型検証器に導かれる深さ優先の機会的停止(意図に合致する結果が見つかり次第終了)。3つのSOTA編集モデル(Step1X-Edit、BAGEL、FLUX.1 Kontext)と3つのベンチマークを用いた大規模実験により、ADE-CoTが優れた性能と効率のトレードオフを達成することが示された。同等のサンプリング予算条件下で、ADE-CoTはBest-of-Nと比較して2倍以上の高速化を実現しつつ、より優れた性能を獲得する。
OmniLottieは、マルチモーダルな指示から高品質なベクトルアニメーションを生成する多目的フレームワークです。柔軟なモーションと視覚コンテンツの制御を実現するため、形状とアニメーション挙動の両方を表現する軽量JSON形式であるLottieに着目しました。しかし、生のLottie JSONファイルには不変の構造的メタデータとフォーマットトークンが大量に含まれており、ベクトルアニメーション生成の学習に重大な課題をもたらします。そこで我々は、JSONファイルを形状・アニメーション機能・制御パラメータを表現する構造化されたコマンドとパラメータの系列に変換する、精巧に設計されたLottieトークナイザを導入します。このトークナイザにより、事前学習済み視覚言語モデルを基盤としたOmniLottieを構築し、マルチモーダルな交互指示に従って高品質なベクトルアニメーションを生成することが可能になります。さらにベクトルアニメーション生成の研究を推進するため、専門家によってデザインされた大規模なベクトルアニメーションとテキスト・視覚的注釈を組み合わせた大規模データセットMMLottie-2Mを構築しました。大規模な実験を通じて、OmniLottieがマルチモーダルな人間の指示に忠実で、鮮やかかつ意味的に整合性の取れたベクトルアニメーションを生成できることを実証しました。
ソフトウェアエンジニアリングエージェント(SWE)は急速に進化しており、最近の進歩は主に強化学習(RL)によってもたらされている。しかし、RLトレーニングは、再現可能な実行環境と信頼性の高いテストスイートを備えた大規模タスクコレクションの不足によって制約を受けている。増加しつつあるベンチマークが存在するものの、トレーニングに適したデータセットは規模と多様性において限られており、しばしば高リソース言語エコシステムの限られたセットを対象としている。本研究では、実行可能な実世界のSWEタスクを大規模に収集し、RLトレーニング環境を構築するための言語非依存の自動化パイプライン「SWE-rebench V2」を提案する。このパイプラインは、インタラクティブなセットアップエージェントを通じてリポジトリ固有のインストールおよびテスト手順を統合し、LLM審査官のアンサンブルを用いて不健全なインスタンスをフィルタリングする。このプロセスは、人間による検証済みSWE-benchアノテーションに対して検証されている。本パイプラインを用いて、20言語・3,600以上のリポジトリにわたる32,000以上のタスクからなるデータセットを構築し、再現可能な実行のための事前構築済みイメージを提供する。トレーニングデータのさらなる拡大のために、インストール手順、失敗から合格へのテスト、豊富なメタデータを備えた120,000以上のタスクを追加公開する。これらの問題文は元のプルリクエストの説明に基づいて生成されている。収集したインスタンスについては、5プログラミング言語におけるタスクのサブセットを7つの主要モデルで評価する診断調査を通じて検証し、過度に制限的なテストや不十分な説明といった一般的な交絡因子をフラグ付けするインスタンスレベルのメタデータを提供する。データセット、収集および実行コード、関連アーティファクトを公開し、多様な言語とリポジトリにわたるSWEエージェントの大規模トレーニングを可能にする。
大規模言語モデル(LLM)のアライメントが単純な文補完から複雑で高度に洗練された生成へと進化するにつれ、報酬モデルは表層的なバイアスを軽減するため、ルーブリックに基づく評価へと重点を移しつつある。しかし、既存のベンチマークは識別的複雑性と厳密な分析に必要な正解ルーブリック注釈の両方を欠いており、この評価パラダイムを評価する統一的な基準がコミュニティには不足している。このギャップを埋めるため、我々はルーブリックベース評価の信頼性を測定するために特別に設計された1,147組のペアワイズ比較からなる精選ベンチマーク「RubricBench」を提案する。構築には、微妙な入力の複雑さと誤解を招く表層バイアスを特徴とする難易度の高いサンプルを対象とする多次元フィルタリングパイプラインを採用し、各サンプルに指示文から厳密に導出された専門家注釈付きの原子的ルーブリックを付与している。包括的な実験により、人間による注釈とモデル生成ルーブリックの間には能力に大きな隔たりがあることが明らかとなり、最先端モデルでさえ有効な評価基準を自律的に特定するのが困難で、人間が導出した性能に大きく遅れを取っていることが示された。
OpenAutoNLUは、テキスト分類と固有表現抽出(NER)の両方をカバーする自然言語理解(NLU)タスク向けのオープンソース自動機械学習ライブラリです。既存のソリューションとは異なり、ユーザーが手動で設定する必要のないデータ認識型トレーニングレジーム選択を導入しています。本ライブラリは、統合されたデータ品質診断、設定可能な分布外(OOD)検出、大規模言語モデル(LLM)機能を、最小限のローコードAPIで提供します。デモアプリは以下でアクセス可能です:https://openautonlu.dev
マルチモーダル大規模言語モデル(MLLM)の推論能力における最近の進展は、科学分析や数学的推論といったより複雑なタスクに対処する力をこれらのモデルに与えている。その可能性にもかかわらず、現実の様々なシナリオにおけるMLLMの推論能力は未だ十分に探求されておらず、評価のための標準化されたベンチマークを欠いている。このギャップを埋めるため、我々は現実生活シナリオにわたるMLLMの多様なマルチモーダル・マルチイメージ推論能力を評価する包括的ベンチマーク「MMR-Life」を提案する。MMR-Lifeは、主に実世界の文脈から収集された19,108枚の画像に基づく2,646の多肢選択問題で構成され、推論タイプとして「アブダクション(仮説形成)」「類推」「因果」「演繹」「帰納」「空間」「時間」の7種類を網羅的にカバーする。既存の推論ベンチマークとは異なり、MMR-Lifeは領域特化的な専門知識に依存せず、代わりにモデルが複数の画像にわたる情報を統合し、多様な推論能力を適用することを要求する。37の先進モデルによる評価は、MMR-Lifeが提示する相当な課題の難度を示している。GPT-5のようなトップモデルでさえ58%の正答率に留まり、推論タイプ間で性能に大きなばらつきが見られる。さらに、我々は既存MLLMの推論パラダイムを分析し、思考の長さ、推論方法、推論タイプといった要因が性能に与える影響を探る。総括すると、MMR-Lifeは次世代マルチモーダル推論システムを評価・分析・改善するための包括的な基盤を確立するものである。
大規模言語モデル(LLM)は近年、高品質な推論データに対する教師ありファインチューニング(SFT)および強化学習(RL)に基づく事後学習により、顕著な推論能力を示している。しかし、オープンでスケーラブルな環境においてこれらの能力を再現・拡張するには、以下の3つの根本的なデータ中心の課題が障壁となっている:(1)推論ポリシーを初期化するために必要な詳細かつ長い思考の連鎖(CoT)軌跡を含むシードデータセットの欠如に起因するコールドスタート問題;(2)既存のオープンソース推論データセットの大半が数学分野に集中しており、より広範な科学分野のカバレッジが限られているというドメインカバレッジの制約;(3)フロンティアレベルの推論タスクの難易度の高さから、信頼性の高い人手アノテーションが非常に高コストまたは非現実的となるアノテーションのボトルネックである。これらの課題に対処するため、我々は汎用的なクロスドメイン推論向けに9Kサンプルから構成されるコンパクトな合成推論データセットCHIMERAを提案する。CHIMERAは以下の3つの主要な特性を備えて構築されている:(1)最先端の推論モデルによって合成された豊富で長いCoT推論軌跡を提供;(2)モデル生成の階層的分類体系に基づき組織化された1,000以上の細粒度トピックにまたがる8つの主要科学分野をカバーする広範かつ構造化されたカバレッジ;(3)問題の妥当性と回答の正しさを相互検証するために強力な推論モデルを使用する完全自動化・スケーラブルな評価パイプラインを採用。我々はCHIMERAを用いて4BパラメータのQwen3モデルを事後学習した。データセットのサイズは控えめであるにもかかわらず、得られたモデルはGPQA-Diamond、AIME 24/25/26、HMMT 25、Humanity's Last Examなど、一連の難易度の高い推論ベンチマークで強力な性能を発揮し、DeepSeek-R1やQwen3-235Bといった大幅に大規模なモデルの推論性能に迫る、あるいは同等の結果を示した。
現在のマルチビュー屋内3D物体検出器は、マルチビュー情報をグローバルなシーン表現に融合させるために、取得コストが高いセンサー幾何学(すなわち、精密に較正されたマルチビューカメラポーズ)に依存しており、実世界シーンへの展開を制限している。我々は、より実用的な設定、すなわちセンサー幾何学情報不要(SG-Free)のマルチビュー屋内3D物体検出を対象とする。この設定では、センサーから提供される幾何学的入力(マルチビューポーズや深度)は存在しない。最近のVisual Geometry Grounded Transformer(VGGT)は、強力な3D手がかりが画像から直接推論できることを示している。この知見に基づき、我々はSG-Freeマルチビュー屋内3D物体検出に特化した初のフレームワークであるVGGT-Detを提案する。我々の手法は、VGGTの予測結果を単に利用するのではなく、VGGTエンコーダをTransformerベースのパイプラインに統合する。VGGT内部の意味的および幾何学的事前情報を効果的に活用するために、我々は二つの新規キーコンポーネントを導入する:(i) 注意誘導クエリ生成(AG):VGGTの注意マップを意味的事前情報として利用し、物体領域に焦点を当てつつグローバルな空間構造を保持することで位置特定を改善する物体クエリを初期化する。(ii) クエリ駆動特徴量集約(QD):学習可能なSee-Queryが物体クエリと相互作用してそれらが必要とするものを「見て」、その後、2D特徴量を段階的に3Dへと昇華するVGGT層にわたるマルチレベル幾何学特徴量を動的に集約する。実験により、VGGT-DetはSG-Free設定において最高性能の手法を、ScanNetおよびARKitScenesでそれぞれ4.4および8.6 mAP@0.25で有意に上回ることを示す。アブレーションスタディは、VGGT内部で学習された意味的・幾何学的事前情報が我々のAGとQDによって効果的に活用できることを示している。
複数ターンにわたる対話型ツール利用エージェントの開発は、現実世界のユーザー要求が複雑で曖昧である一方、エージェントはそれらを満たすために確定的なアクションを実行しなければならないという課題を抱えています。このギャップを埋めるため、本論文では対話型ツール利用エージェントを訓練するための学習後データ合成フレームワーク「CoVe(Constraint-Verification)」を提案します。このフレームワークはデータの複雑性と正確性の両方を保証するように設計されています。CoVeはまず明示的なタスク制約を定義することから始まります。この制約は二つの役割を果たします:複雑な軌道の生成を導くガイドとして機能し、同時に軌道品質を評価するための確定的な検証器として働きます。これにより、教師ありファインチューニング(SFT)のための高品質な訓練軌道の作成と、強化学習(RL)のための正確な報酬信号の導出が可能になります。難易度の高いτ^2-benchベンチマークによる評価では、本フレームワークの有効性が実証されました。特に、コンパクトなCoVe-4Bモデルは、航空業界と小売業界のドメインにおいて、それぞれ43.0%、59.4%の成功率を達成しています。その総合的な性能は、同規模の強力なベースラインを大幅に上回り、最大17倍のサイズを持つモデル群にも引けを取りません。これらの結果は、CoVeが最先端の対話型ツール利用エージェント向けの訓練データを合成する、効果的かつ効率的な経路を提供することを示しています。将来の研究を支援するため、我々はコード、訓練済みモデル、および訓練に使用した12,000件の高品質な軌道の完全なデータセットをオープンソースとして公開します。
個人写真アルバムは、単なる静的な画像の集合ではなく、時間的連続性、社会的なつながり、豊富なメタデータによって定義される、生態的なアーカイブである。このため、個人化された写真検索は容易ではない。しかし、既存の検索ベンチマークは、文脈から切り離されたウェブスナップショットに大きく依存しており、実際の意図駆動型ユーザークエリを解決するために必要なマルチソース推論を捉えられていない。このギャップを埋めるため、我々は実際の個人アルバムから構築された初のベンチマークであるPhotoBenchを提案する。これは、視覚的マッチングから、個人化されたマルチソース意図駆動型推論へとパラダイムを転換することを目的としている。各画像に対して視覚的意味、時空間メタデータ、社会的アイデンティティ、時間的イベントを統合する厳密なマルチソースプロファイリングフレームワークに基づき、ユーザーの人生の軌跡に根ざした複雑な意図駆動型クエリを合成する。PhotoBenchを用いた広範な評価により、二つの重大な限界が明らかになった。一つは、統一埋め込みモデルが非視覚的制約に対して破綻する「モダリティギャップ」、もう一つは、エージェントシステムがツールオーケストレーションを適切に行えない「ソース融合のパラドックス」である。これらの発見は、個人マルチモーダル検索の次のフロンティアが統一埋め込みを超えたところにあり、正確な制約充足とマルチソース融合が可能な堅牢なエージェント推論システムが必要であることを示唆している。我々のPhotoBenchは公開されている。
本論文では、マルチモーダル理解と生成のための効率的で長度適応型のオムニ拡散モデルであるLLaDA-oを提案する。LLaDA-oは、テキスト理解のための離散マスク拡散と視覚生成のための連続拡散を分離しながら、固定条件に対する冗長な計算を削減する共有の簡潔で効率的なアテンション基盤によってそれらを結合する、Mixture of Diffusion(MoD)フレームワークに基づいて構築されている。MoDを発展させ、我々はさらに、アーキテクチャの変更を伴わずにマルチモーダル設定における柔軟な長さのデコードを可能にする、データ中心の長度適応戦略を導入する。大規模な実験により、LLaDA-oはマルチモーダル理解と生成のベンチマークにおいてオムニ拡散モデルの中で最先端の性能を達成し、テキストから画像への生成タスクにおいてDPG-Benchで87.04を達成したことが示されており、統一されたオムニ拡散モデリングの有効性が支持される。コードはhttps://github.com/ML-GSAI/LLaDA-o で公開されている。
生成的基盤モデルは、幅と深さの両方でスケーリングが進んでおり、安定した特徴学習とモデルサイズを超えた信頼性のあるハイパーパラメータ(HP)転移に重大な課題をもたらしている。幅方向のスケーリングについては、最大更新パラメータ化(μP)が両問題に対する原理的な解決策を提供してきたが、幅と深さを同時にスケーリングする領域への既存の拡張は、断片的で、アーキテクチャやオプティマイザに依存し、技術的に複雑な理論に依存することが多い。本研究では、幅と深さの同時スケーリングにおけるμPのための簡潔で統一的なスペクトル枠組みを開発する。様々なブロック深度を持つ残差ネットワークを考察し、まずスペクトルμP条件を導入する。これは、重みのノルムとそのステップ毎の更新が幅と深度に応じてどのようにスケーリングされるべきかを精密に特徴付け、従来の断片的なμPの定式化を特殊ケースとして統一する。この条件に基づき、次にスペクトル制約を具体的なHPパラメータ化に対応させることで、広範なオプティマイザクラスにわたるμP実装の一般的な手法を導出する。このアプローチは、既存のμP定式化(例えばSGDやAdamW向け)を再現するだけでなく、より広範なオプティマイザへ自然に拡張する。最後に、GPT-2スタイルの言語モデルを用いた実験により、提案されたスペクトルμP条件が安定した特徴学習を維持し、幅-深度スケーリング下で頑健なHP転移を可能にすることを実証する。
基礎的なビデオ拡散モデル(VDM)の最近の進展は、著しい進歩をもたらしている。しかし、生成されたビデオの視覚的品質が非常に高いにもかかわらず、これらの出力から一貫性のある3Dシーンを再構築することは、カメラ制御性の限界や、異なるカメラ軌道から見た場合の生成コンテンツの不一致により、依然として困難な課題である。本論文では、カメラ誘導型ビデオ生成と3D再構築を、2つの専用幾何学メモリモジュールを介して橋渡しする新しいフレームワーク「WorldStereo」を提案する。形式的には、大域幾何メモリは、段階的に更新される点群を通じて粗い構造的プリオールを注入しながら、精密なカメラ制御を可能にする。さらに、空間ステレオメモリは、3D対応関係を用いてモデルの注意受容野を制約し、メモリバンクからの微細な詳細に焦点を当てる。これらの構成要素により、WorldStereoは精密なカメラ制御の下でマルチビュー一貫性のあるビデオを生成し、高品質な3D再構築を容易にする。さらに、柔軟な制御ブランチベースのWorldStereoは、共同訓練を必要とせず、分布マッチング蒸留されたVDMバックボーンから恩恵を受けることで、印象的な効率性を示す。カメラ誘導型ビデオ生成と3D再構築の両方のベンチマークにおける広範な実験は、本手法の有効性を実証している。特に、WorldStereoが強力な世界モデルとして機能し、多様なシーン生成タスク(透視画像またはパノラマ画像のいずれから開始する場合でも)を高精細な3D結果をもって扱うことを示す。モデルは公開予定である。
強化学習(RL)は大規模言語モデルの推論能力と整合性の向上に中心的な役割を果たすが、その効率は学習データの選択方法に大きく依存する。既存のオンライン選択戦略は、主に難易度に基づくヒューリスティクスに依存し、中間的な成功率を示すデータポイントを優先する傾向がある。これは暗黙的に「難しさ」を「情報量の多さ」と同一視し、限られた証拠から生じる認識論的不確実性を無視している。本論文では、情報量に基づくデータ選択手法であるInSight(INformation-guided data SamplInG metHod for RL Training)を提案する。この手法は、重み付き相互情報量の目的関数に基づいており、ベイズ的な潜在成功率でデータの結果をモデル化することで、期待される不確実性の低減が、相補的な難易度依存成分と証拠依存成分に分解できることを示す。これは、難易度のみに基づく選択の根本的な限界を明らかにするものである。この知見を活用し、InSightは、ノイズの多いサンプリング結果ではなく、データポイントの成功率の平均信念に基づいて安定した獲得スコアを構築する。さらに、検証可能な報酬を用いた強化学習(RLVR)で一般的な複数ロールアウト設定にも自然に拡張可能である。大規模な実験により、InSightが一貫して最先端の性能を達成し、学習効率を向上させることを実証した。具体的には、計画と数学のベンチマークで平均+1.41の向上、一般的な推論タスクで+1.01の改善、最大約2.2倍の高速化を実現し、追加の計算オーバーヘッドは無視できる程度であった。
数学的推論における強化学習(RL)は、報酬の希薄性に悩まされる可能性がある。難しい問題では、大規模言語モデル(LLM)が正しい軌道を一切サンプリングできず、RLが意味のある正のフィードバックを受けられなくなる。一方、問題には人間が記述した参照解答が付随していることが多い(例:AoPSからの問題)が、これらの解答に対して直接ファインチューニングを行っても、モデルが自身の推論分布の外にある人間の証明を模倣できないため、利益は得られない。 我々は、参照解答を利用して難しい問題における正の軌道を合成し、RLの前にそれらで学習する、シンプルかつ効果的な手法であるReference-Guided Fine-Tuning(ReGFT)を提案する。各問題について、モデルに部分的な参照解答を提供し、自身の推論トレースを生成させることで、得られる軌道がモデルの推論空間に留まりつつ、参照によるガイダンスの恩恵を受けられるようにする。 これらの参照誘導軌道によるファインチューニングは、解ける問題の数を増やし、RL中により多くの正の報酬を受け取るチェックポイントを生成する。3つのベンチマーク(AIME24, AIME25, BeyondAIME)にわたって、ReGFTは教師あり精度を一貫して向上させ、DAPOトレーニングを加速し、RLの最終的な性能プラトーを引き上げた。我々の結果は、ReGFTが報酬の希薄性を効果的に克服し、より強力なRLベースの数学的推論を実現することを示している。
大規模言語モデル(LLM)は、複雑なタスクを解決するためにツールを利用できる自律エージェントの基盤となりつつある。強化学習(RL)は、このようなエージェント能力を付与する一般的な手法として登場したが、通常は厳密に制御された訓練環境下で行われる。これは、注意深く構築されたタスクと解決策のペア、および相当量の人的監督に依存することが多く、超知能システムに向けたオープンエンドな自己進化に対する根本的な障壁となっている。本論文では、ゼロデータの仮定の下、自己対戦型強化学習を用いて汎用ツール呼び出しエージェントを一から訓練するためのTool-R0フレームワークを提案する。同一の基盤LLMから初期化されたTool-R0は、相補的な報酬を持つGeneratorとSolverを共進化させる。一方は相手の能力限界に挑戦的なタスクを提案し、他方は現実世界のツール呼び出しを用いてそれらを解決することを学習する。これにより、既存のタスクやデータセットを必要としない自己進化サイクルが創出される。様々なツール利用ベンチマークによる評価では、Tool-R0が基盤モデルに対して92.5%の相対的改善をもたらし、同じ設定下での完全教師ありツール呼び出しベースラインを凌駕することを示した。我々の研究はさらに、共進化、カリキュラム動態、スケーリング挙動を分析することにより、自己対戦型LLMエージェントに関する実証的知見を提供する。
強化学習(RL)は医療分野の視覚言語モデル(VLM)の事後学習にますます利用されているが、RLが医療視覚推論を実際に改善するのか、それとも教師ありファインチューニング(SFT)によって既に誘導された振る舞いを主に鋭くするだけなのかは不明瞭である。本研究では、視覚、SFT、RLという3つの軸に沿ってこれらの効果を分離した制御実験を提示する。マルチモーダルテストベッドとしてMedMNISTを用い、VLMのビジョンタワーを視覚のみのベースラインと比較することで視覚知覚を評価し、Accuracy@1対Pass@Kにより推論サポートとサンプリング効率を定量化し、RLがいつサポートギャップを埋め、その利益がどのようにモダリティ間で転移するかを評価する。我々は、RLがモデルが既に無視できないサポート(高いPass@K)を持っている場合に最も効果的であることを発見した:RLは主に出力分布を鋭くし、Acc@1とサンプリング効率を改善する一方、SFTはサポートを拡大し、RLを効果的にする。これらの知見に基づき、我々は境界認識型のレシピを提案し、OctoMedで初期化したモデンをPMC多肢選択VQAの小規模で均衡の取れたサブセットでRL事後学習することによりこれを具体化し、6つの医療VQAベンチマークで強力な平均性能を達成した。
本論文では、1500のテキスト言語と177の音声言語をサポートするテキスト専用埋め込み空間SONAR(Omnilingual Embeddings Team et al., 2026)を拡張した視覚言語埋め込み空間V-SONARを提案する。V-SONARを構築するため、既存の視覚エンコーダの表現をSONAR空間に写像する事後的アライメント手法を開発した。V-SONARを詳細に評価した結果、その埋め込み表現がテキスト-映像検索において競争力のある性能を達成することを示す。さらにOMNISONARテキストデコーダを組み合わせることで、映像キャプション生成タスク(DREAM-1K:BLEU 23.9対19.6、PE-VIDEO:BLEU 39.0対30.0)において既存の視覚言語モデルを凌駕する。 V-SONARを活用し、まずSONAR空間で動作し英語テキストのみで学習された大規模概念モデル(LCM; LCM team et al. 2024)が、ゼロショットで単一/複数の視覚的概念理解を実行可能であることを実証する。最後に、視覚言語指示チューニングによりLCMを拡張したV-LCMを提案する。V-LCMは視覚と言語入力をV-SONARとSONARにより統合された潜在埋め込み列に符号化し、LCMのテキスト事前学習と同様の潜在拡散目的関数で次埋め込み予測を学習する。大規模多言語・多モーダル指示チューニングデータ混合による実験では、V-LCMが画像/映像キャプション生成や質問応答タスクで最先端視覚言語モデルと同等の性能を発揮しつつ、テスト全62言語中61言語(高資源言語から低資源言語まで)でそれらを大幅に上回る可能性が示された。
テキスト記述に誤った詳細情報が追加されると、画像とテキストの類似度は低下するはずである。しかし、CLIPスタイルのデュアルエンコーダーはこの直感に反する場合が多いことがわかった。正しい記述に、もっともらしいが誤ったオブジェクトや関係性を追加すると、類似度スコアが上昇することがある。我々はこのような事例を「半真実」と呼ぶ。COCOデータセットでは、CLIPが正しい短い記述を選ぶ確率は40.6%に過ぎず、追加された詳細が関係性の場合、性能は32.9%に低下する。この脆弱性の原因は、キャプションの部分的な監督信号の弱さにある。対照学習では全文の整合性は取れるが、個々の実体や関係性が適切に接地されることは明示的に保証されない。我々はCS-CLIP(Component-Supervised CLIP)を提案する。これはキャプションを実体と関係性の単位に分解し、各単位ごとに最小限の編集を加えたフォイル(対抗事例)を構築し、標準的なデュアルエンコーダ推論を保ちながら、正しい単位がフォイルよりも高く評価されるようにモデルをファインチューニングする。CS-CLIPは半真実に対する精度を69.3%に向上させ、既存の構成的理解ベンチマークにおいて平均性能を5.7ポイント改善した。これは半真実の誤りを減らすことが、構成的理解の全体的な向上につながることを示唆する。コードはhttps://github.com/kargibora/CS-CLIPで公開されている。
LLMエージェントは、コードを実行することなくコードベースを探索し、コードの意味論について推論できるか?我々はこの能力を「エージェント的コード推論」と呼び、半形式的推論を導入する。これは、エージェントが明示的な前提を構築し、実行パスをトレースし、形式的な結論を導出することを求める構造化プロンプティング手法である。非構造化の連鎖思考とは異なり、半形式的推論は証明書として機能する。すなわち、エージェントはケースを飛ばしたり、根拠のない主張をしたりすることができない。3つのタスク(パッチ等価性検証、故障箇所特定、コード質問応答)で評価を行い、半形式的推論が全てのタスクで精度を一貫して向上させることを示す。パッチ等価性では、精選された例において精度が78%から88%に向上し、実世界のエージェント生成パッチでは93%に達し、実行を伴わないRL報酬信号に必要な信頼性に迫る結果を示した。RubberDuckBench Mohammad et al. (2026) におけるコード質問応答では、半形式的推論は87%の精度を達成した。Defects4J Just et al. (2014) における故障箇所特定では、半形式的推論は標準的な推論と比べてTop-5精度を5ポイント向上させた。これらの結果は、構造化されたエージェント的推論が実行を伴わない有意義な意味的コード解析を可能にし、RLトレーニングパイプライン、コードレビュー、静的プログラム解析における実用的応用を開くことを実証している。
DeepSeek-R1に代表されるThink-Answer型推論モデルは、解釈可能な内部推論を活用することで顕著な進歩を遂げてきた。しかし、「おっと!」といった自己反省的合図が頻繁に現れるにもかかわらず、単一パス推論時の出力誤りに対して依然として脆弱である。この課題を解決するため、我々は効率的な再帰的Think-Answerプロセス(R-TAP)を提案する。これは従来の単一パス手法を超え、モデルが反復的な推論サイクルに参加し、より正確な回答を生成することを可能にする。この手法の中核となるのは、モデル応答の確実性を評価し、その後の改善を導く信頼度生成器である。相補的な二つの報酬——再帰的信頼度向上報酬と最終回答信頼度報酬——を組み込むことで、R-TAPを強化したモデルが大規模言語モデル(LLM)と視覚言語モデル(VLM)の両方において、従来の単一パス手法を一貫して上回ることを示す。さらに、モデル応答における「おっと」的表現の頻度を分析した結果、R-TAPを適用したモデルは自己反省的パターンが著しく減少し、より安定した高速な推論時 reasoning を実現することがわかった。R-TAPが将来のAIの推論プロセスを洗練させる、効率的で精巧な手法へと進化する道を開くことを期待する。
注意誘導(Attention Steering)は、プロンプト強調(ユーザー指定のテキストを優先的に処理する機能)などの能力を実現する、モデルの焦点を制御する重要な技術である。しかし、既存の注意誘導手法は完全な注意行列の明示的な保存を必要とするため、FlashAttentionのようなメモリ効率の良い実装と互換性がない。本研究では、この問題に対処するため、注意計算前にキー埋め込みを直接編集する学習不要の誘導手法であるSpectral Editing Key Amplification (SEKA) を提案する。SEKAはスペクトル分解を用いて、特定のトークンへの注意スコアを増幅する潜在方向へキー埋め込みを誘導する。さらにこれを発展させ、プロンプトの意味的意図に基づいて複数の専門家部分空間を動的に結合する学習不要のルーティング機構を用いた、クエリ適応型の変種であるAdaptive SEKA (AdaSEKA) を提案する。実験結果は、両手法が標準的な誘導ベンチマークにおいて強力なベースラインを大幅に上回りながら、最適化された注意機構と互換性を保ち、はるかに低いレイテンシとメモリオーバーヘッドしか加えないことを示している。
本論文では、法律RAGシステムのエンドツーエンド性能を評価するためのベンチマークおよび評価手法であるLegal RAG Benchを提案する。ベンチマークとして、Legal RAG Benchは、Victorian Criminal Charge Bookからの4,876のパッセージと、刑法及び手続きに関する専門知識を要する100の複雑な手作りの質問群で構成される。長文回答と支持パッセージの両方が提供されている。評価手法として、Legal RAG Benchは完全要因計画と新規の階層的誤り分解フレームワークを活用し、RAGにおける検索モデルと推論モデルの貢献度を公平に比較することを可能にする。我々は、3つの最先端の埋め込みモデル(Isaacus社のKanon 2 Embedder、Google社のGemini Embedding 001、OpenAI社のText Embedding 3 Large)と2つのフロンティアLLM(Gemini 3.1 ProおよびGPT-5.2)を評価し、情報検索が法律RAGの性能の主要な決定要因であり、LLMは正確性と接地性に対してより穏やかな影響を及ぼすことを明らかにした。特にKanon 2 Embedderは性能に最大の正の影響を与え、平均正確性を17.5ポイント、接地性を4.5ポイント、検索精度を34ポイント向上させた。法律RAGシステムで幻覚に起因するとされる誤りの多くは、実際には検索の失敗によって引き起こされていることを観察し、検索が多くの現代的な法律RAGシステムの性能上限を決定すると結論付ける。我々は、Legal RAG Benchを構築した理由と方法、並びに評価結果を文書化する。また、知見の再現を支援するため、コードとデータを公開する。
ゲーム、ロボティクス、シミュレーションにおけるインタラクティブなデジタル環境の構築は、その機能が部品形状と運動構造から創発する関節型3Dオブジェクトに依存している。しかし、既存の手法には根本的な限界がある。最適化ベースの再構築手法は、遅いオブジェクトごとの関節フィッティングを必要とし、通常は単純な単関節オブジェクトのみを扱う。一方、検索ベースの手法は固定ライブラリから部品を組み立てるため、反復的な形状と汎化性能の低さにつながる。これらの課題に対処するため、我々は完全な3Dメッシュから直接高品質な関節アセットを生成する新しいフレームワーク「ArtLLM」を提案する。その中核には、既存の関節データセットと手続き的に生成されたオブジェクトから構築した大規模な関節データセットで学習された3Dマルチモーダル大規模言語モデルがある。従来の研究とは異なり、ArtLLMは可変数の部品と関節を自己回帰的に予測し、その運動構造をオブジェクトの点群から統一的に推論する。この関節を考慮したレイアウトは、その後、高精細な部品形状を合成する3D生成モデルの条件となる。PartNet-Mobilityデータセットでの実験により、ArtLLMが部品レイアウト精度と関節予測の両方において従来手法を大幅に上回り、実世界のオブジェクトに対しても頑健に汎化することを示す。最後に、デジタルツイン構築における有用性を実証し、スケーラブルなロボット学習への可能性を強調する。
大規模言語モデル(LLMs)は、識別的エンコーダから生成的アーキテクチャへとバックボーンを進化させることで、密な検索(dense retrieval)を根本的に変革しました。しかし、重要な断絶が残っています。LLMsが強力な推論能力を有する一方で、現在の検索モデルは主にそれらを静的なエンコーダとして利用しており、複雑な推論への潜在能力が未開拓のままなのです。この問題に対処するため、既存のアプローチは通常、検索前に明示的なCoT(Chain-of-Thought)推論過程を生成する「書き換え→検索」パイプラインを採用します。しかし、これには許容できない遅延が生じます。本論文では、明示的な推論を密な検索モデルの潜在空間に内在化する、新たな自己蒸留フレームワーク「LaSER」を提案します。LaSERは共有LLMバックボーン上で動作する二重ビュー訓練メカニズムを導入します。具体的には、正解の推論経路を明示的に符号化する「明示的ビュー」と、暗黙的な潜在思考を行う「潜在的ビュー」です。これら二つのビューの隔たりを埋めるために、マルチグレインのアライメント戦略を設計しました。標準的な出力アライメントに加えて、潜在経路の中間状態を明示的推論セグメントの意味的進行と同期させる「軌道アライメント」メカニズムを導入します。これにより、検索モデルは自己回帰的なテキスト生成を行うことなく、静かにかつ効果的に思考できるようになります。ドメイン内およびドメイン外の推論集約型ベンチマークにおける大規模な実験により、LaSERが最先端のベースライン手法を大幅に上回ることを実証しました。さらに、様々なバックボーンとモデル規模にわたる分析を通じて、本手法の頑健性を検証し、この統合的な学習フレームワークが効果的な潜在思考を引き出すために不可欠であることを確認しました。我々の手法は、明示的CoTパイプラインの推論の深さと、標準的な密な検索モデルの推論効率を両立させることに成功しています。
テスト時強化学習(TTRL)は、大規模推論モデル(LRM)の自己進化のための有望なパラダイムとして登場し、多数決による自己誘導報酬を介して、ラベルなしテスト入力へのオンライン適応を可能にする。しかし、誤りを含むが高頻度で出現する未検証の合意が、偏った強化報酬信号となり、誤ったモード崩壊を引き起こす可能性がある。本研究では、この失敗モードをT^3RL(テスト時強化学習のためのツール検証)によって解決する。T^3RLは、報酬推定にテスト時ツール検証を導入する。具体的には、検証器が外部ツール(コード実行など)を証拠として用い、検証を考慮した投票において検証済みロールアウトの重みを上げることで、学習のためのより信頼性の高い擬似ラベルを生成する。様々な数学問題の難易度(MATH-500、AMC、AIME 2024)および多様なバックボーン種別において、T^3RLはTTRLを大幅に上回り、難易度の高い問題ほど改善幅が大きい。より広義には、T^3RLは検証済みオンラインデータ合成と見なすことができ、テスト時ツール検証が自己進化を安定化する鍵となるメカニズムであることを示唆する。
Training on verifiable symbolic data is a promising way to expand the reasoning frontier of language models beyond what standard pre-training corpora provide. Yet existing procedural generators often rely on fixed puzzles or templates and do not deliver the distributional breadth needed at scale. We introduce Reasoning Core, a scalable suite that procedurally generates verifiable symbolic reasoning data across core formal domains: PDDL planning over randomized domains, first-order logic with equality, context-free grammar parsing and generation, causal reasoning over random Bayesian networks, and systems of equations. Each task is paired with an external solver for rigorous verification and admits continuous difficulty control for curriculum design. Examples can optionally include solver-derived reasoning traces, enabling supervised training from the earliest pre-training stages, and the same interface provides verifiable reward functions for reinforcement learning. Our experiments show that mixing Reasoning Core data into pre-training improves downstream reasoning while preserving, or slightly improving, language modeling quality. Zero-shot evaluations confirm these tasks challenge frontier models such as GPT-5. The code and data are publicly available under the MIT license.
本報告では、Instagram、WhatsApp、Messengerといった生産環境のソーシャルチャットアプリケーションにおいて、大規模言語モデルの性能を改善するための反復的フライホイールプロセス「CharacterFlywheel」を提案する。LLaMA 3.1を出発点とし、社内外の実ユーザートラフィックから得たデータを用いて、15世代にわたるモデルの改良を実施した。2024年7月から2025年4月にかけて継続的にデプロイを行い、管理された7日間のA/Bテストを実施した結果、一貫したエンゲージメントの向上が確認された:デプロイされた8つの新モデルのうち7つがベースラインを上回る改善を示し、最も性能の高いモデルではエンゲージメントの広がりで最大8.8%、エンゲージメントの深さで最大19.4%の改善を達成した。また、指示追従性能が59.2%から84.8%に向上し、指示違反が26.6%から5.8%に減少するなど、制御性においても大幅な向上が認められた。本稿では、データキュレーション、エンゲージメント指標の空間を推定・補間する報酬モデリング、教師ありファインチューニング、強化学習、そして各最適化ステップでの信頼性のある進捗を保証するためのオフラインおよびオンライン評価を統合するCharacterFlywheelプロセスについて詳述する。さらに、大規模な生産環境における動向への対応と過学習防止のための手法についても論じる。これらの貢献は、数百万人のユーザーにサービスを提供するソーシャルアプリケーションにおけるLLMの科学的な厳密性と理解を前進させるものである。
本論文では、大規模言語モデルの理数系分野における推論能力を評価するためのマルチモーダルベンチマーク「Classroom Final Exam(CFE)」を提案する。CFEは、大学の授業で繰り返し出題された実際の宿題及び試験問題から構成され、担当教員による模範解答を付属している。20以上のSTEM分野を網羅する本ベンチマークは、最先端モデルにとっても重大な課題となる。最新のGemini-3.1-pro-previewの総合正答率は59.69%、第二位のGemini-3-flash-previewは55.46%であり、改善の余地が大きく残されている。リーダーボード結果に加え、模範解答を推論フローに分解する診断分析を実施した。その結果、最先端モデルは中間的な小問に正答できる場合が多いものの、多段階の解答過程を通じて正確な中間状態を確実に導出・維持することに課題があることが判明した。さらに、モデルが生成する解答は教員の模範解答に比べて推論ステップ数が多く、ステップ効率の最適化が不十分で誤差蓄積のリスクが高いことが観測された。データ及びコードはhttps://github.com/Analogy-AI/CFE_Bench で公開している。
近年のテキストから画像(T2I)拡散モデルは驚異的なリアリズムを達成しているが、特に複数のオブジェクト、関係性、細かい属性を含む複雑なプロンプトに対する忠実なプロンプト-画像対応は依然として課題である。既存の学習不要な推論時スケーリング手法は、プロンプトの難易度に適応できない固定の反復回数に依存している。一方、反射調整モデルは注意深く選別された反射データセットと、拡散モデル及び視覚言語モデルの大規模な共同ファインチューニングを必要とし、反射パスデータへの過学習が生じやすく、モデル間での転移性に欠ける。本論文では、RAISE(Requirement-Adaptive Self-Improving Evolution)を提案する。これは、適応的T2I生成のための、学習不要で要求駆動型の進化的フレームワークである。RAISEは、画像生成を要求駆動型の適応的スケーリングプロセスとして定式化し、推論時に候補画像群を多様な改良アクション(プロンプト書き換え、ノイズ再サンプリング、指示編集を含む)を通じて進化させる。各世代は構造化された要求チェックリストに対して検証され、システムは未充足項目を動的に特定し、必要な箇所にのみ計算リソースを割り当てる。これにより、意味的クエリの複雑さに計算量を適合させる適応的テスト時スケーリングを実現する。GenEvalおよびDrawBenchにおける評価では、RAISEは従来のスケーリング手法や反射調整ベースラインと比較して、より少ない生成画像数(30-40%削減)とVLM呼び出し回数(80%削減)で、最先端の対応精度(GenEval総合0.94)を達成し、効率的で一般性が高く、モデルに依存しないマルチラウンドの自己改善能力を示した。コードはhttps://github.com/LiyaoJiang1998/RAISE で公開されている。
本論文では、大規模なパノプティック動画シーングラフデータセットであるSynthetic Visual Genome 2(SVG2)を提案する。SVG2は63万6,000本以上の動画、660万のオブジェクト、5,200万の属性、670万の関係を含み、従来の時空間シーングラフデータセットと比較して規模と多様性において桁違いの拡張を実現している。SVG2の構築には、マルチスケールパノプティックセグメンテーション、自動的新規オブジェクト発見を伴うオンライン・オフライン軌跡追跡、軌跡単位の意味解析、GPT-5ベースの時空間関係推論を統合した完全自動化パイプラインを設計した。このリソースに基づき、動画シーングラフ生成モデルTRaSERを訓練した。TRaSERは視覚言語モデル(VLM)を拡張し、軌跡整合トークン配置機構と、生の動画とパノプティック軌跡を単一のフォワードパスでコンパクトな時空間シーングラフに変換する新モジュール(オブジェクト軌跡リサンプラと時間ウィンドウリサンプラ)を備える。時間ウィンドウリサンプラは視覚トークンを短い軌跡セグメントに紐付け局所的な動きと時間的意味を保持し、オブジェクト軌跡リサンプラは軌跡全体を集約してオブジェクトの大域的文脈を維持する。PVSG、VIPSeg、VidOR、SVG2のテストデータセットにおいて、TRaSERは関係検出で最強のオープンソースベースラインより15~20%、GPT-5より13%、オブジェクト予測で30~40%、属性予測で15%の性能向上を達成した。TRaSERが生成したシーングラフを動画質問応答用VLMに入力すると、動画単独またはQwen2.5-VL生成シーングラフ追加の場合と比べ、絶対精度で1.5~4.6%向上し、明示的な時空間シーングラフが中間表現として有効であることを実証した。
知識ベース視覚質問応答(KB-VQA)は、知識集約型タスクを扱う上で大きな可能性を示している。しかし、視覚言語モデル(VLM)に内在する静的なパラメトリック知識と、動的に検索される情報との間に矛盾が生じる。これは、事前学習で獲得されたモデル知識が静的であることに起因する。その結果、出力が検索された文脈を無視したり、パラメトリック知識との統合に一貫性がなかったりするため、KB-VQAにとって大きな課題となっている。現在の知識矛盾緩和手法は、主に言語ベースの手法を応用したもので、エンジニアリングされたプロンプト戦略や文脈認識デコーディング機構を通じて、文脈レベルの矛盾に焦点を当てている。しかし、これらの手法は矛盾における視覚情報の重要性を軽視しており、冗長な検索文脈によって正確な矛盾の特定と効果的な緩和が妨げられるという問題がある。これらの限界に対処するため、我々はCC-VQAを提案する。これは、トレーニング不要で、矛盾と相関を考慮した新しいKB-VQA手法である。本手法は二つの核心的要素から構成される:(1) 視覚中心の文脈的矛盾推論。内部および外部の知識文脈にわたって視覚的・意味的な矛盾分析を行う。(2) 相関誘導型エンコーディング・デコーディング。相関性の低い記述に対する位置エンコーディング圧縮と、相関重み付き矛盾スコアリングを用いた適応的デコーディングを特徴とする。E-VQA、InfoSeek、OK-VQAベンチマークによる広範な評価により、CC-VQAが既存手法と比較して3.3%から6.4%の絶対精度向上を達成し、state-of-the-artの性能を実現することを示した。コードはhttps://github.com/cqu-student/CC-VQAで公開されている。
我々は、3Dレイアウト条件付き生成において、オクルージョン推論が基本的でありながら見過ごされてきた側面であると位置づける。これは、深度整合性のあるジオメトリとスケールで部分的に遮蔽されたオブジェクトを合成するために不可欠である。既存手法は入力レイアウトに従った現実的なシーンを生成できるが、精密なオブジェクト間のオクルージョンをモデル化することは困難である。我々は、オクルージョンを明示的にモデル化する3Dレイアウト条件付き生成モデルであるSeeThrough3Dを提案する。オブジェクトが仮想環境内に配置された半透明の3Dボックスとして描かれ、所望のカメラ視点からレンダリングされる、オクルージョン認識型3Dシーン表現(OSCR)を導入する。透明性は隠蔽されたオブジェクト領域を符号化し、モデルがオクルージョンを推論することを可能にする一方、レンダリングされた視点は生成中に明示的なカメラ制御を提供する。事前学習済みのフローベースのテキスト対画像生成モデルに対して、レンダリングされた3D表現から導出された一連の視覚的トークンを導入することで条件付けを行う。さらに、マスク付き自己注意を適用し、各オブジェクトのバウンディングボックスを対応するテキスト記述に正確に紐付け、オブジェクト属性の混合なしに複数のオブジェクトを正確に生成することを可能にする。モデルを訓練するため、強力なオブジェクト間オクルージョンを持つ多様な多オブジェクトシーンから成る合成データセットを構築する。SeeThrough3Dは未見のオブジェクトカテゴリに対しても効果的に一般化し、現実的なオクルージョンと一貫したカメラ制御による精密な3Dレイアウト制御を実現する。
フェデレーテッド・インストラクションチューニング(FIT)は、複数の組織(クライアント)間でプライベートな指示データを共有することなく、クロスシロ設定において大規模言語モデルの協調的インストラクションチューニングを可能にする。自然バックドアに関する最近の知見と既存の訓練データ収集方法は、毒入りサンプルが実世界のデータセットに広く蔓延し、意図せず埋め込まれている可能性があり、たとえクライアントが良性であっても、それらが全クライアントに分散している可能性を示唆している。本研究は、FITにおけるこの脅威を体系的に検証し、毒入りデータが全クライアントに散在する場合、既存の防御手法が無効であることを示す。この課題に対処するには、各クライアントにおける毒入りサンプルの識別特性を特定することと、一部のクライアントが毒入りサンプルに大きく支配されている状況でも協調的な防御を可能にすること、という2つの主要な困難が伴う。これらの困難に対処するため、我々は周波数領域における勾配を、毒入りデータを識別するための頑健な信号として同定した。さらに、クライアント間で毒入りサンプルを協調的に識別するためのグローバル二次クラスタリング機構を提案する。要約すると、本論文は、トレーニング中にクライアント間で散在する毒入りデータを正確に検出、除去、さらには浄化する、初のバックドアフリーFITフレームワークであるProtegoFedを提案する。4つのFLデータセットを用いた実験結果は、ProtegoFedが毒入りサンプルの92.00% sim 100.00%を識別し、攻撃成功率をほぼゼロに低減し、メインタスクでの有用性を維持することを示している。コードはhttps://github.com/dongdongzhaoUP/ProtegoFed で公開されている。
近年のビデオ生成技術の進歩は、複雑な動的システムの巨視的シミュレーションに新たな道を開いたが、微視的現象への応用はほとんど未開拓のままである。マイクロスケールシミュレーションは、創薬、オルガン・オン・チップシステム、疾患メカニズム研究などのバイオメディカル応用において大きな可能性を秘めており、教育やインタラクティブ可視化への潜在性も示している。本研究では、マイクロスケールシミュレーション課題のための多段階ルーブリックベースのベンチマーク「MicroWorldBench」を提案する。MicroWorldBenchは、複数のマイクロスケールシミュレーション課題(臓器レベルのプロセス、細胞動態、細胞内分子相互作用など)と評価次元(科学的忠実度、視覚的品質、指示追従性など)にわたる459の専門家注釈付き基準を通じて、体系的でルーブリックに基づく評価を可能にする。MicroWorldBenchにより、現在のSOTAビデオ生成モデルがマイクロスケールシミュレーションに失敗していることが明らかとなり、物理法則の違反、時間的不一貫性、専門家基準との不一致が示された。これらの課題に対処するため、高品質で専門家検証済みのシミュレーションデータセット「MicroSim-10K」を構築した。このデータセットを活用し、マイクロスケールシミュレーションに特化したビデオ生成モデル「MicroVerse」を学習した。MicroVerseは複雑なマイクロスケールメカニズムを正確に再現できる。本研究は「Micro-World Simulation」の概念を初めて導入し、生物学、教育、科学可視化への応用への道を開く実証実験を提示する。生物学的メカニズムの教育的マイクロスケールシミュレーションの可能性を実証した。データとコードはhttps://github.com/FreedomIntelligence/MicroVerse で公開されている。
低リソース言語向け自動音声認識(ASR)システムの開発は、転写済みコーパスの不足によって妨げられている。本実証研究では、カザフ語ASRにおける非従来型ながら有望なデータソースとしての歌曲の可能性を探る。36名のアーティストによる195曲から、歌詞行単位で分割した3,013組の音声-テキストペア(約4.5時間)からなるデータセットを構築した。ベース認識エンジンとしてWhisperを使用し、歌曲、Common Voiceコーパス(CVC)、FLEURSを組み合わせた7つの学習シナリオでモデルのファインチューニングを行い、CVC、FLEURS、カザフ語音声コーパス2(KSC2)の3つのベンチマークで評価した。結果は、歌曲ベースのファインチューニングがゼロショットベースラインを上回る性能向上をもたらすことを示している。例えば、歌曲、CVC、FLEURSを混合して学習したWhisper Large-V3 Turboは、CVCで27.6%、FLEURSで11.8%の正規化WERを達成し、KSC2ではゼロショットモデルと比較して誤り率を半減させた(39.3% vs. 81.2%)。これらの改善度は1,100時間のKSC2コーパスで学習したモデルには及ばないものの、ごく少量の歌曲-音声混合データでも、低リソースASRにおいて意味のある適応改善が得られることを実証している。本データセットは、ゲーテッドな非商用ライセンスの下、研究目的でHugging Face上に公開されている。
観察学習は、エージェントが実行されたタスクの観測のみを参照してタスクの実行方法を学習することを要求する。本研究は、手設計された報酬や実演者の行動へのアクセスが想定されない、実世界のロボット学習における同等の設定を調査する。このデータ制約のある設定に対処するため、本研究は、観測と相互作用のみから世界モデリングを行うための、計画ベースの逆強化学習(IRL)アルゴリズムを提案する。実世界で完全に行われた実験により、このパラダイムが、事前知識、事前学習、またはタスク観測を超えるあらゆる種類のデータを想定せずに、1時間未満で画像ベースのマニピュレーションタスクをゼロから学習するのに有効であることが実証された。さらに、学習された世界モデルの表現が、実世界でゼロからオンライン転移学習を行う能力を有することを示す。IRL、RL、行動クローニング(BC)を含む、より制限的な仮定を持つ既存のアプローチと比較して、提案手法は大幅に優れたサンプル効率と成功率を示し、観測と相互作用からのオンライン世界モデリングと計画への実用的な道筋を可能にする。動画と詳細は:https://uwrobotlearning.github.io/mpail2/
本論文では、汎用大規模視覚言語モデル(VLM)を高性能OCRモデルへ特化させる体系的フレームワークであるFireRed-OCRを提案する。大規模視覚言語モデルは汎用的な能力で印象的な成果を示しているが、複雑な文書を処理する際に「構造的幻覚」に悩まされることが多く、産業OCRアプリケーションでの有用性が制限されている。本論文では、汎用VLM(Qwen3-VLベース)をピクセル精度の構造的文書解析の専門家へ変換することを目的とした新しいフレームワーク、FireRed-OCRを紹介する。高品質な構造化データの不足に対処するため、「幾何情報+意味情報」データファクトリを構築した。従来のランダムサンプリングとは異なり、本パイプラインは幾何学的特徴のクラスタリングと多次元タグ付けを活用し、極めてバランスの取れたデータセットを合成・精選することで、ロングテールのレイアウトや稀な文書タイプを効果的に扱う。さらに、モデルをピクセルレベルの知覚から論理構造生成へと導く三段階の段階的学習戦略を提案する。このカリキュラムは以下を含む:(1)文書構造の理解をモデルに根付かせるためのマルチタスク事前調整、(2)全画像マークダウン出力を標準化するための特化したSFT(教師ありファインチューニング)、(3)強化学習を利用して厳密な構文の有効性と構造的完全性(例:テーブルの閉じタグ、数式の構文)を強制するフォーマット制約付きグループ相対ポリシー最適化(GRPO)。OmniDocBench v1.5における大規模な評価により、FireRed-OCRが総合スコア92.94%で最先端の性能を達成し、テキスト、数式、表、読取順序の各指標においてDeepSeek-OCR 2やOCRVerseなどの強力なベースラインを大幅に上回ることを実証した。「汎用VLMから特化構造専門家へ」のパラダイムを促進するため、コードとモデル重みを公開する。
Geo-Foundation Models(GFM)は、複数のドメインを含む多様な地球観測タスクにおいて評価が行われ、ラベルが疎であっても信頼性の高いマップを生成する強力な可能性を示している。しかし、雪氷圏応用におけるGFMのベンチマーキングは、主に適切な評価データセットの不足により、限られたものにとどまっている。このギャップを埋めるため、我々は主要な雪氷圏構成要素にわたるGFMの性能を評価するために構築されたベンチマーク、Cryo-Benchを紹介する。Cryo-Benchは、岩礫に覆われた氷河、氷河湖、海氷、カービングフロントを含み、複数のセンサーと広範な地理的領域に及ぶ。14のGFMを、UNetおよびViTベースラインとともに評価し、それらの利点、限界、最適な使用戦略を評価した。エンコーダを凍結した場合、UNetはCryo-Benchに含まれる5つの評価データセットで平均mIoU 66.38%と最高値を達成し、TerraMindが64.02%で続いた。Few-shot設定(入力データの10%)では、DOFAやTerraMindなどのGFMがUNetを上回り、mIoUスコアはそれぞれ59.53%、56.62%となり、UNetの56.60%を比較した。GFMを完全にファインチューニングする場合、データセットとモデル間で性能に一貫性がないことが観察された。しかし、ファインチューニングとともに学習率を調整することで、GFMの性能は大幅に向上する。例えば、2つの代表的なデータセット(GLIDとCaFFe)での評価では、平均で12.77%の相対的改善が示された。GFMは事前学習データにおける雪氷圏の表現が最小限であるにもかかわらず、顕著なドメイン適応能力を示し、タスク間で有意義な結果を生成した。我々の知見に基づき、可能な限り最高の性能を達成するにはハイパーパラメータ最適化を伴うエンコーダのファインチューニングを推奨するが、ユーザーが広範な実験なしに迅速な結果を必要とする場合は凍結エンコーダを使用することを推奨する。(https://github.com/Sk-2103/Cryo-Bench{GitHub})
高泌乳量で知られるザーネン乳山羊の泌乳性能は、その体格と密接に関連しており、泌乳能力を評価するには正確な3次元体躯計測が不可欠である。しかし既存の再構築手法には、山羊に特化した信頼性の高い3次元データが不足している。この課題を解決するため、我々は55頭の雌ザーネン山羊(6~18ヶ月齢)の同期化された8視点RGBD映像から成るFemaleSaanenGoatデータセットを構築した。マルチビューDynamicFusionを用いて、ノイズの多い非剛体点群シーケンスを高精細な3Dスキャンデータに統合し、不規則な体表面や素早い動作に起因する課題を克服した。これらのスキャンデータに基づき、雌ザーネン山羊に特化したパラメトリック3D形状モデルであるSaanenGoatを開発した。本モデルは、41の骨格関節を備えた精密なテンプレートと、乳房表現を強化したものであり、スキャンデータに登録されている。48頭の山羊から構築した包括的な形状空間により、多様な個体変異を精密に表現可能である。SaanenGoatモデルを活用することで、単一視点RGBD入力からの高精度3D再構築を実現し、体長・体高・胸幅・胸囲・腰幅・腰角高の6つの重要体尺の自動計測を達成した。実験結果は、3D再構築と体躯計測の両面において本手法の優れた精度を実証し、精密畜産における大規模3Dビジョン応用の新たなパラダイムを提示する。