翻訳付きの日次キュレーションされたAI研究論文
アラビア語文書のOCRは、筆記体の文字、多様なフォント、発音記号、そして右から左への記述方向といった言語的特性により、依然として困難な課題となっています。現代のマルチモーダル大規模言語モデル(MLLMs)は、高リソース言語における文書理解を大きく進展させてきましたが、アラビア語での性能は限定的です。本研究では、アラビア語文書OCRに特化してファインチューニングされた視覚言語モデル「Baseer」を紹介します。Baseerは、合成データと実世界の文書を組み合わせた大規模データセットを活用し、事前学習済みMLLMを適応させるためのデコーダのみのファインチューニング戦略を用いて訓練され、一般的な視覚的特徴を保持します。また、アラビア語OCRシステムの厳密な評価のために設計された、専門家による検証を経た高品質なベンチマーク「Misraj-DocOCR」を提示します。実験の結果、Baseerは既存のオープンソースおよび商用ソリューションを大幅に上回り、WER(単語誤り率)0.25を達成し、アラビア語文書OCRの分野で新たな最先端を確立しました。これらの結果は、汎用MLLMのドメイン特化適応の利点を強調し、アラビア語のような形態的に豊かな言語における高精度OCRの強力なベースラインを確立するものです。
計算リソースの指数関数的なスケーリングと高品質なテキストデータの有限な成長との間の拡大する格差は、現在、大規模言語モデル(LLM)に対する従来のスケーリングアプローチを制約しています。この課題に対処するため、我々は事前学習データに対する強化学習(Reinforcement Learning on Pre-Training data, RLPT)という新しいトレーニング時のスケーリングパラダイムを導入します。主に教師あり学習を通じてトレーニングをスケーリングする従来のアプローチとは対照的に、RLPTはポリシーが事前学習データから意味のある軌跡を自律的に探索し、強化学習(RL)を通じてその能力を向上させることを可能にします。人間のフィードバックに基づく強化学習(RLHF)や検証可能な報酬を用いた強化学習(RLVR)などの既存のRL戦略は、報酬構築に人間のアノテーションを依存していますが、RLPTはこの依存を排除し、報酬信号を直接事前学習データから導出します。具体的には、RLPTは次セグメント推論目標を採用し、前後の文脈に基づいて後続のテキストセグメントを正確に予測するポリシーに報酬を与えます。この定式化により、RLを事前学習データ上でスケーリングし、より広範な文脈にわたる豊かな軌跡の探索を促進し、それによってより一般化可能な推論スキルを育成します。複数のモデルにわたる一般ドメインおよび数学的推論ベンチマークでの広範な実験により、RLPTの有効性が検証されています。例えば、Qwen3-4B-Baseに適用した場合、RLPTはMMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24、およびAIME25において、それぞれ3.0、5.1、8.1、6.0、6.6、および5.3の絶対的な改善をもたらします。結果はさらに良好なスケーリング挙動を示し、より多くの計算リソースを用いることで継続的な利得が得られる可能性が高いことを示唆しています。加えて、RLPTはLLMの推論境界を拡張し、RLVRのパフォーマンスを向上させる堅固な基盤を提供します。
模倣学習に基づく視覚運動ポリシーは、ロボット操作において広く使用されており、精密な制御のために視覚観測と固有受容状態が通常併用されています。しかし、本研究では、この一般的な手法がポリシーを固有受容状態入力に過度に依存させ、訓練軌跡への過剰適合を引き起こし、空間的汎化性能が低下することを明らかにしました。これに対し、我々は固有受容状態入力を除去し、視覚観測のみに基づいて行動を予測する「ステートフリーポリシー」を提案します。ステートフリーポリシーは相対的なエンドエフェクタ動作空間で構築され、デュアル広角リストカメラによって提供されるタスク関連の完全な視覚観測を確保する必要があります。実証結果は、ステートフリーポリシーが状態ベースのポリシーよりも大幅に優れた空間的汎化性能を達成することを示しています:ピックアンドプレース、挑戦的なシャツ折りたたみ、複雑な全身操作といった現実世界のタスクにおいて、複数のロボット実装にわたって、高さ方向の汎化では平均成功率が0%から85%に、水平方向の汎化では6%から64%に向上しました。さらに、データ効率性とクロスエンボディメント適応性においても優位性を示し、現実世界での実用性が高まっています。
マルチモーダル大規模言語モデル(MLLMs)は急速に進化しており、AI開発の最前線を代表する存在となっている。しかし、その訓練と推論の効率性が、MLLMsをよりアクセス可能かつスケーラブルにする上での核心的なボトルネックとして浮上している。この課題に対処するため、我々は高効率かつ強力な性能を目指した8BパラメータモデルであるMiniCPM-V 4.5を提案する。本モデルでは、モデルアーキテクチャ、データ戦略、および訓練方法において3つの核心的な改善を導入した。具体的には、画像と動画に対する高度にコンパクトなエンコーディングを実現する統合型3D-Resamplerモデルアーキテクチャ、重厚なデータエンジニアリングを必要とせずに文書知識とテキスト認識を統合的に学習するパラダイム、そして短い推論モードと長い推論モードの両方に熟達するためのハイブリッド強化学習戦略である。OpenCompass評価における包括的な実験結果は、MiniCPM-V 4.5がGPT-4o-latestなどの広く使用されているプロプライエタリモデルや、Qwen2.5-VL 72Bなどの大幅に大規模なオープンソースモデルを凌駕することを示している。特に、この強力な性能は顕著な効率性とともに達成されている。例えば、広く採用されているVideoMMEベンチマークにおいて、MiniCPM-V 4.5は30Bサイズ以下のモデルの中で最先端の性能を達成し、Qwen2.5-VL 7Bの46.7%のGPUメモリコストと8.7%の推論時間しか使用していない。
ソフトウェアリポジトリ全体を理解し、推論することは、インテリジェントなソフトウェアエンジニアリングツールにとって不可欠な能力です。既存のベンチマークであるCoSQAやCodeQAはこの分野を進展させてきましたが、それらは主に小さな自己完結型のコードスニペットに焦点を当てています。これらの設定では、現実世界のリポジトリの複雑さを捉えることができません。現実のリポジトリでは、効果的な理解と推論には、複数のファイルをナビゲートし、ソフトウェアアーキテクチャを理解し、長距離のコード依存関係に基づいて回答を導くことがしばしば必要です。本論文では、現実的なコード環境における自動QAシステムの研究を促進するために設計されたリポジトリレベルのコード質問応答(QA)ベンチマークであるSWE-QAを紹介します。SWE-QAは、意図理解、クロスファイル推論、マルチホップ依存関係分析など、多様なカテゴリにわたる576の高品質な質問-回答ペアを含んでいます。SWE-QAを構築するために、まず11の有名なリポジトリから77,100件のGitHubイシューをクロールしました。これらのイシューから抽出された自然発生する開発者の質問を分析し、リポジトリレベルの質問の2段階の分類体系を開発し、各カテゴリのシード質問セットを構築しました。各カテゴリについて、手作業で質問をキュレーションし、検証し、対応する回答を収集しました。プロトタイプアプリケーションとして、LLMエージェントが推論し、自動的に回答を見つけるためのエージェント型フレームワークであるSWE-QA-Agentをさらに開発しました。さまざまなコンテキスト拡張戦略の下で、6つの先進的なLLMをSWE-QAで評価しました。実験結果は、特にSWE-QA-Agentフレームワークにおいて、LLMがリポジトリレベルのQAに対処する可能性を示すと同時に、未解決の課題を明らかにし、将来の研究方向を示しています。
視覚的空間推論(Visual Spatial Reasoning, VSR)は、人間の認知能力の中核をなすものであり、具現化された知能や自律システムの進歩において重要な要件です。近年のVision-Language Models(VLMs)の進展にもかかわらず、三次元空間の表現と推論の複雑さから、人間レベルのVSRを達成することは依然として非常に困難です。本論文では、VLMsにおけるVSRの体系的な調査を提示し、入力モダリティ、モデルアーキテクチャ、トレーニング戦略、推論メカニズムにわたる既存の手法をレビューします。さらに、空間知能を3つの能力レベル、すなわち基本的な知覚、空間理解、空間計画に分類し、23のタスク設定にわたる約20のオープンソースデータセットを網羅する空間知能ベンチマーク「SIBench」をキュレーションしました。最先端のVLMsを用いた実験では、知覚と推論の間に顕著なギャップが明らかになり、モデルは基本的な知覚タスクでは有能であるものの、特に数値推定、多視点推論、時間的ダイナミクス、空間的想像力において、理解と計画タスクでは一貫して低いパフォーマンスを示しました。これらの発見は、空間知能の達成に残された大きな課題を浮き彫りにするとともに、今後の研究を推進するための体系的なロードマップと包括的なベンチマークを提供します。本研究の関連リソースはhttps://sibench.github.io/Awesome-Visual-Spatial-Reasoning/でアクセス可能です。
基盤モデルのための強化学習における最近の進展、特にGroup Relative Policy Optimization(GRPO)は、推論タスクにおける基盤モデルの性能を大幅に向上させています。注目すべきは、GRPOにおいて軌道の重要度をランク付けする中心的なメカニズムとして利得関数が機能している点です。しかし、既存の研究では利得反転と利得ミラーの問題が生じており、異なるクエリサンプル間での合理的な利得配分を妨げています。本研究では、シンプルでありながら効果的なGRPO戦略であるMixed Advantage Policy Optimization(MAPO)を提案します。我々は、軌道が異なる確実性で現れることを明らかにし、高確実性軌道を持つサンプルに対して利得百分率偏差を導入します。さらに、軌道の確実性が異なるサンプルに対して利得関数を動的に再重み付けし、サンプル固有の特性を考慮した利得関数の適応的な設定を実現します。関連する最先端手法との比較、および異なる利得バリアントに関するアブレーション研究を通じて、本アプローチの有効性を検証しました。
フィードフォワード型3Dガウススプラッティング(3DGS)は、新視点合成において非常に効果的なソリューションとして登場しました。既存の手法は主に、各2Dピクセルを3Dガウシアンにマッピングするピクセルアラインメント型ガウシアン予測パラダイムに依存しています。私たちはこの広く採用されている定式化を再考し、いくつかの内在的な制限を特定しました。それは、再構築された3Dモデルが入力ビューの数に大きく依存すること、ビューに偏った密度分布をもたらすこと、特にソースビューにオクルージョンや低テクスチャが含まれる場合にアラインメントエラーを引き起こすことです。これらの課題に対処するため、私たちはVolSplatを導入しました。これは、ピクセルアラインメントをボクセルアラインメント型ガウシアンに置き換える新しいマルチビューフィードフォワードパラダイムです。予測された3Dボクセルグリッドから直接ガウシアンを予測することで、エラーが発生しやすい2D特徴マッチングに依存するピクセルアラインメントの欠点を克服し、堅牢なマルチビュー一貫性を確保します。さらに、3Dシーンの複雑さに基づいてガウシアン密度を適応的に制御することが可能となり、より忠実なガウシアンポイントクラウド、改善された幾何学的整合性、および強化された新視点レンダリング品質が得られます。RealEstate10KやScanNetなどの広く使用されているベンチマークでの実験により、VolSplatが最先端の性能を達成し、より妥当でビュー整合性の高いガウシアン再構築を生成することが実証されました。優れた結果に加えて、私たちのアプローチは、より密で堅牢な表現を伴うフィードフォワード型3D再構築のためのスケーラブルなフレームワークを確立し、より広いコミュニティでのさらなる研究の道を開きます。ビデオ結果、コード、および学習済みモデルは、プロジェクトページ(https://lhmd.top/volsplat)で公開されています。
大規模推論モデル(LRM)は、長い連鎖的思考(CoT)トレースに大量のテスト時間計算リソースを費やしますが、効果的なCoTを*特徴づける*要素は依然として不明確です。先行研究では、CoTを長くすることや、追加の*待機*トークンによるレビュー(以前のステップを再訪すること)から得られる利点が報告されていますが、最近の研究では、短い思考が長いトレースを上回る可能性が示唆されています。そこで、私たちは数学的および科学的推論において10のLRMにわたる体系的な評価を行いました。「長ければ長いほど良い」という通説に反し、単純なCoTの延長とレビューの増加は、*低い*精度と関連していることがわかりました。 CoTが段階的に展開される中で、トークンレベルの指標は冗長性とプロセスの質を混同する可能性があります。私たちは、CoTの構造を抽出し、モデル間で正しさを予測する際に長さやレビュー比率を一貫して上回る単一の統計量——*失敗ステップ率(FSF)*、つまり放棄された分岐におけるステップの割合——を特定するために、CoTのグラフビューを導入しました。因果関係を探るために、2つの介入を設計しました。まず、テスト時に各指標に基づいて候補CoTをランク付けし、FSFが最大のpass@1の向上をもたらすことを確認しました。次に、CoTを編集して失敗した分岐を削除すると、精度が大幅に向上し、失敗した分岐がその後の推論にバイアスをかけることが示されました。これらの結果を総合すると、効果的なCoTは*失敗が少ない*ものであり、無差別に長いCoTを生成するのではなく、*構造を意識した*テスト時間スケーリングを支持するものであることが特徴づけられます。
仮想環境を生成する能力は、ゲームからロボティクス、自動運転、産業用AIといった物理的AI領域に至るまでの幅広い応用において極めて重要です。現在の学習ベースの3D再構成手法は、実世界のマルチビューデータの取得に依存していますが、そのようなデータが常に容易に利用できるわけではありません。最近のビデオ拡散モデルの進展は、驚くべき想像力を示していますが、その2D的な性質のため、ロボットが環境をナビゲートし相互作用するシミュレーションへの応用が制限されています。本論文では、ビデオ拡散モデルに内在する暗黙的な3D知識を明示的な3Dガウススプラッティング(3DGS)表現へ蒸留する自己蒸留フレームワークを提案し、マルチビューデータの必要性を排除します。具体的には、典型的なRGBデコーダに3DGSデコーダを追加し、RGBデコーダの出力によって監督します。このアプローチにより、3DGSデコーダはビデオ拡散モデルによって生成された合成データのみで訓練することが可能です。推論時には、本モデルはテキストプロンプトまたは単一画像からリアルタイムレンダリングのための3Dシーンを合成できます。さらに、本フレームワークはモノキュラ入力ビデオからの動的3Dシーン生成にも拡張されます。実験結果は、本フレームワークが静的および動的3Dシーン生成において最先端の性能を達成することを示しています。
統一マルチモーダルモデルは、多様なコンテンツを共同で理解し生成するその顕著な能力により、近年注目を集めている。しかし、コンテキストがますます多くのインタリーブされたマルチモーダルトークンを統合するにつれて、拡散ノイズ除去と自己回帰デコーディングの反復プロセスが大きな計算オーバーヘッドを課す。これを解決するために、我々はHyper-Bagelを提案する。これは、マルチモーダル理解と生成タスクの両方を同時に高速化するための統一加速フレームワークである。我々のアプローチは、分割統治法を採用し、次のトークン予測に推測的デコーディングを、拡散ノイズ除去に多段階蒸留プロセスを使用する。このフレームワークは、マルチモーダル理解において2倍以上の高速化を実現する。生成タスクにおいては、結果として得られるロスレス6-NFEモデルが、テキストから画像への生成で16.67倍、画像編集で22倍の高速化を達成し、元のモデルの高品質な出力を維持する。さらに、ほぼリアルタイムのインタラクティブ編集と生成を可能にする高効率1-NFEモデルを開発した。高度な敵対的蒸留と人間のフィードバック学習を組み合わせることで、このモデルは究極のコスト効率と応答性を実現し、複雑なマルチモーダルインタラクションをシームレスかつ瞬時にする。
連続トークンの使用は、Chain-of-Thought(CoT)推論段階において、離散トークンではなく連続トークンを採用する手法が最近注目を集めている。これは、離散トークンの連続的な混合が、複数の推論経路の重ね合わせを同時にシミュレートできるという直感に基づいている。理論的な結果から、連続トークンは表現力がはるかに高く、特定の問題をより効率的に解決できることが正式に証明されている。しかし、連続トークンの実用的な使用は、強い訓練の困難さによって制限されてきた。これまでの研究では、推論時に事前訓練された離散トークンモデルに連続トークンを使用するか、または連続CoTを基盤となる離散CoTから蒸留しなければならず、計算コストがかかるため、CoTを非常に少数のトークンに限定せざるを得なかった。 本研究は、参照となる離散CoTからの蒸留を必要とせず、強化学習(RL)を通じて連続CoTを学習するスケーラブルな方法を初めて導入したものである。我々は「ソフト」トークンを使用する:トークンの混合と入力埋め込みにノイズを加えることで、RLの探索を可能にする。計算オーバーヘッドは最小限であり、数百のトークンを持つ連続CoTを学習することができる。LlamaおよびQwenモデルを用いた数学的推論ベンチマークにおいて、連続CoTによる訓練は、pass@1において離散トークンCoTと同等の性能を示し、pass@32においてそれを上回り、より多様なCoTを生成することが示された。系統的な比較において、最も性能の高いシナリオは、連続CoTトークンで訓練を行い、推論時には離散トークンを使用するものであり、「ソフト」モデルを標準的な方法で展開できることを意味する。最後に、連続CoT RL訓練は、基盤モデルの予測をドメイン外タスクにおいてより良く保持し、基盤モデルに対してより柔らかいアプローチを提供することを示す。
近年、3D Gaussian Splatting(3DGS)はNeRFベースの手法に代わる強力な代替手段として登場し、明示的かつ最適化可能な3Dガウシアンを通じてリアルタイムかつ高品質な新視点合成を実現している。しかし、3DGSは視点依存効果や異方性形状をモデル化するためにガウシアンごとのパラメータに依存するため、メモリオーバーヘッドが大きいという課題がある。最近の研究では、ニューラルフィールドを用いて3DGSを圧縮する手法が提案されているが、これらの手法はガウシアンの特性における高周波空間変動を捉えることが難しく、細部の再構成が劣化する傾向がある。本論文では、明示的ガウシアンとニューラルフィールドの長所を組み合わせた新しいシーン表現手法であるHybrid Radiance Fields(HyRF)を提案する。HyRFはシーンを(1)重要な高周波パラメータのみを保存するコンパクトな明示的ガウシアンの集合と、(2)残りの特性を予測するグリッドベースのニューラルフィールドに分解する。表現能力を向上させるため、ジオメトリ(スケール、不透明度、回転)と視点依存色を別々にモデル化する分離型ニューラルフィールドアーキテクチャを導入した。さらに、遠方シーンの表現における制限を解決するため、ガウシアンスプラッティングとニューラルフィールドで予測された背景を合成するハイブリッドレンダリング手法を提案する。実験の結果、HyRFは3DGSと比較してモデルサイズを20倍以上削減しつつ、リアルタイム性能を維持しつつ、最先端のレンダリング品質を達成することが示された。プロジェクトページはhttps://wzpscott.github.io/hyrf/で公開されている。
方言は人間文化の重要な要素であり、世界中のあらゆる地域で見られます。ドイツでは、人口の40%以上が地域方言を話します(Adler and Hansen, 2022)。しかし、文化的な重要性にもかかわらず、方言を話す個人はしばしば否定的な社会的ステレオタイプに直面します。本研究では、このようなステレオタイプが大規模言語モデル(LLM)に反映されているかどうかを検証します。方言認識に関する社会言語学の文献を参照し、方言話者に一般的に関連付けられる特性を分析します。これらの特性に基づいて、LLMが示す方言命名バイアスと方言使用バイアスを、連想タスクと意思決定タスクの2つの課題を通じて評価します。モデルの方言使用バイアスを評価するために、7つのドイツ地域方言(例:アレマン語やバイエルン語)と標準ドイツ語の対応文をペアにした新しい評価コーパスを構築します。その結果、(1) 連想タスクにおいて、評価されたすべてのLLMはドイツ方言話者に対する有意な方言命名バイアスと方言使用バイアスを示し、否定的な形容詞の連想に反映されていること、(2) すべてのモデルが意思決定においてこれらの方言命名バイアスと方言使用バイアスを再現していること、(3) 明示的な人口統計的言及ではバイアスが最小限であることを示した先行研究とは異なり、言語的人口統計(ドイツ方言話者)を明示的にラベル付けすることが、方言使用のような暗黙の手がかりよりもバイアスを増幅させることを発見しました。
条件付き生成モデリングは、データと条件のペアを含むサンプルから条件付きデータ分布を学習することを目指しています。これに対して、拡散モデルやフローベースの手法が注目すべき結果を達成しています。これらの手法では、条件を無視した初期の標準ガウスノイズを条件付きデータ分布に変換するために、学習された(フロー)モデルを使用します。そのため、モデルは質量輸送と条件注入の両方を学習する必要があります。モデルの要求を緩和するために、我々はCondition-Aware Reparameterization for Flow Matching(CAR-Flow)を提案します。これは、ソース分布、ターゲット分布、またはその両方を条件付けする軽量な学習済みシフトです。これらの分布を再配置することで、CAR-Flowはモデルが学習する必要のある確率経路を短縮し、実際のトレーニングを高速化します。低次元の合成データでは、CARの効果を可視化し定量化します。高次元の自然画像データ(ImageNet-256)では、SiT-XL/2にCAR-Flowを適用することで、FIDを2.07から1.68に減少させ、追加パラメータを0.6%未満に抑えました。
データの不足は、ロボティクスの進歩を阻む最も大きな制約要因の一つです。しかし、現実世界で利用可能なロボティクスデータの量は指数関数的に増加しており、大規模なデータ活用の新たな機会を生み出しています。信頼性の高い時間的タスク完了予測は、このデータを自動的に注釈付けし、大規模にキュレーションするのに役立つ可能性があります。最近、Generative Value Learning(GVL)アプローチが提案され、視覚言語モデル(VLMs)に埋め込まれた知識を活用して視覚観察からタスクの進捗を予測することが可能になりました。GVLを基盤として、我々はOpenGVLを提案します。これは、ロボットと人間の両方の身体化を含む多様で挑戦的な操作タスクにおけるタスク進捗を推定するための包括的なベンチマークです。我々は、公開されているオープンソースの基盤モデルの能力を評価し、オープンソースのモデルファミリーがクローズドソースのモデルに比べて大幅に性能が劣り、時間的進捗予測タスクにおいて約70%の性能しか達成できないことを示しました。さらに、OpenGVLが自動化されたデータキュレーションとフィルタリングの実用的なツールとして機能し、大規模なロボティクスデータセットの品質評価を効率的に行うことができることを実証します。我々は、ベンチマークと完全なコードベースをgithub.com/budzianowski/opengvl{OpenGVL}で公開します。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、ビデオ理解能力が大幅に向上し、実用的なアプリケーションの新たな可能性が開かれています。しかし、現在のビデオベンチマークは主に屋内シーンや短距離の屋外活動に焦点を当てており、長距離移動に関連する課題はほとんど未開拓のままです。次世代のMLLMにとって、広範な地理的・時間的軌跡を習得することは、エンボディドAIの計画やナビゲーションといった現実世界のタスクを支える上で極めて重要です。このギャップを埋めるため、我々はVIR-Benchという新しいベンチマークを提案します。これは200の旅行ビデオから構成され、旅程再構築をMLLMの地理的・時間的知能を評価し、前進させるための挑戦的なタスクとして位置づけます。実験結果から、最先端のMLLM(プロプライエタリなものも含む)が高得点を達成するのに苦戦することが明らかになり、広範な空間的・時間的スケールにわたるビデオを扱うことの難しさが浮き彫りになりました。さらに、我々はVIR-Benchから得られた知見を活用したプロトタイプ旅行計画エージェントの詳細なケーススタディを実施しました。このエージェントの大幅に改善された旅程推奨は、我々の評価プロトコルがモデルを効果的にベンチマークするだけでなく、ユーザー向けアプリケーションにおける具体的な性能向上にもつながることを実証しています。
放射場を用いた正確な表面再構成は、近年目覚ましい進展を遂げてきました。しかし、主にガウススプラッティングに基づく従来のアプローチは、表現上のボトルネックにますます制約を受けています。本論文では、GeoSVRを紹介します。これは、正確で詳細かつ完全な表面再構成を実現するための疎なボクセルの未開拓の可能性を探求・拡張する、明示的なボクセルベースのフレームワークです。疎なボクセルは、カバレッジの完全性と幾何学的明瞭さを維持する利点を持ちますが、シーン制約の欠如や表面精細化における局所性といった課題も生じます。正しいシーン収束を確保するため、まずVoxel-Uncertainty Depth Constraintを提案します。これは、単眼深度手がかりの効果を最大化しつつ、品質劣化を防ぐためにボクセル指向の不確実性を提示することで、効果的かつ堅牢なシーン制約を実現し、高度に正確な幾何学を維持します。続いて、Sparse Voxel Surface Regularizationを設計し、微小ボクセルの幾何学的整合性を強化し、鋭く正確な表面のボクセルベース形成を促進します。広範な実験により、多様な困難なシナリオにおいて既存手法を凌駕する優れた性能を示し、幾何学的精度、詳細保持、再構成の完全性において優れつつ、高い効率性を維持しています。コードはhttps://github.com/Fictionarry/GeoSVRで公開されています。
同時音声テキスト翻訳(SimulST)システムは、翻訳品質とレイテンシ(音声入力から翻訳出力までの遅延)のバランスを取る必要がある。品質評価は確立されている一方で、正確なレイテンシ測定は依然として課題である。既存のメトリクスは、特に音声が人工的に事前分割される広く使用されている短形式設定において、一貫性のないまたは誤解を招く結果を生み出すことが多い。本論文では、言語ペア、システム、および短形式と長形式の両方の設定にわたるSimulSTレイテンシメトリクスの初めての包括的分析を提示する。我々は、公平で意味のある比較を損なう、セグメンテーションに関連する現在のメトリクスの構造的バイアスを明らかにする。これを解決するために、短形式設定においてより正確な評価を提供する改良されたレイテンシメトリクスであるYAAL(Yet Another Average Lagging)を導入する。YAALを未分割音声用に拡張したLongYAALを提案し、単語レベルのアラインメントに基づく新しい再分割ツールであるSoftSegmenterを提案する。我々の実験は、YAALとLongYAALが人気のあるレイテンシメトリクスを上回り、SoftSegmenterが長形式評価におけるアラインメント品質を向上させることを示し、これらがSimulSTシステムのより信頼性の高い評価を可能にすることを示している。
本論文では、フォームフィールド検出のための大規模ウェブデータセットであるCommonFormsを紹介する。フォームフィールド検出の問題を物体検出として定式化する:ページの画像が与えられたとき、フォームフィールドの位置とタイプ(テキスト入力、選択ボタン、署名)を予測する。このデータセットは、Common Crawlをフィルタリングして記入可能な要素を持つPDFを見つけることで構築された。800万の文書から始め、フィルタリングプロセスを経て、最終的に約55,000の文書(450,000ページ以上)からなるデータセットが得られた。分析によると、このデータセットには多様な言語とドメインが含まれており、ページの3分の1は非英語であり、14の分類されたドメインのうち、どのドメインもデータセットの25%以上を占めていない。 さらに、本論文では、CommonFormsテストセットで非常に高い平均精度を達成するフォームフィールド検出器のファミリー、FFDNet-SmallとFFDNet-Largeを提示する。各モデルのトレーニングコストは500ドル未満である。アブレーション結果は、高品質なフォームフィールド検出には高解像度の入力が重要であり、Common Crawl内の記入可能なフィールドを持つすべてのPDFを使用するよりも、クリーニングプロセスがデータ効率を向上させることを示している。定性分析によると、これらのモデルは、フォームを準備できる人気のある商用PDFリーダーを上回る性能を示す。最も人気のある商用ソリューションとは異なり、FFDNetはテキストや署名フィールドに加えてチェックボックスも予測できる。私たちの知る限り、これはフォームフィールド検出のための最初の大規模データセットであり、また最初のオープンソースモデルでもある。データセット、モデル、コードはhttps://github.com/jbarrow/commonformsで公開される予定である。
マルチスペクトル画像は、土地利用分類、環境モニタリング、都市計画など、多様なリモートセンシングアプリケーションにおいて重要な役割を果たしています。これらの画像は、追加のスペクトルバンドが氷、水、植生などの地上の物理的物質と強く相関しているため、広く採用されています。これにより、より正確な識別が可能となり、Sentinel-2やLandsatなどのミッションから公開されていることもその価値を高めています。現在、このようなデータの自動分析は、主にマルチスペクトル入力用に特別に訓練された機械学習モデルによって管理されていますが、これらのモデルの訓練とサポートにはコストがかかります。さらに、リモートセンシングにおいて多くの有用性を提供するものの、このような追加の入力は、多くの視覚的問題を解決できるが専門的なマルチスペクトル信号を理解できない強力な汎用大規模マルチモーダルモデルでは使用できません。 この問題に対処するため、我々は、RGBのみの入力で訓練された汎用マルチモーダルモデルに対して、ゼロショットのみのモードで新しいマルチスペクトルデータを入力として導入する訓練不要のアプローチを提案します。我々のアプローチは、マルチモーダルモデルの視覚空間に対する理解を活用し、その空間への入力に適応し、ドメイン固有の情報を指示としてモデルに注入することを提案します。このアイデアをGemini2.5モデルで例示し、土地利用分類や土地被覆分類のための人気のあるリモートセンシングベンチマークにおいて、このアプローチの強力なゼロショット性能向上を観察し、Gemini2.5が新しい入力に容易に適応できることを実証します。これらの結果は、非標準的な専門的な入力を扱う地理空間専門家が、Gemini2.5のような強力なマルチモーダルモデルを容易に活用し、専門的なセンサーデータに基づいた豊かな推論と文脈能力を活用して作業を加速できる可能性を示しています。
ロボット操作ポリシーは、どこに注意を向けるか、どのような行動を取るか、そしてそれらをどのように実行するかを同時に学習しなければならないため、しばしば汎化に失敗します。我々は、どこに注意を向けるか、どのような行動を取るかという高レベルの推論を視覚言語モデル(VLM)にオフロードし、ポリシーがどのように行動するかに特化することを提案します。本論文では、PEEK(Policy-agnostic Extraction of Essential Keypoints)を紹介します。PEEKは、VLMを微調整して、統一されたポイントベースの中間表現を予測します。1. エンドエフェクタの経路(どのような行動を取るかを指定)、2. タスク関連マスク(どこに焦点を当てるかを示す)。これらの注釈はロボットの観測に直接重ねられるため、表現はポリシーに依存せず、アーキテクチャ間で転移可能です。スケーラブルなトレーニングを可能にするために、9つの実装にまたがる20以上のロボットデータセットにわたるラベル付きデータを生成する自動注釈パイプラインを導入します。実世界での評価では、PEEKはゼロショット汎化を一貫して向上させ、シミュレーションのみでトレーニングされた3Dポリシーに対して41.4倍の実世界での改善、大規模なVLAと小規模な操作ポリシーの両方で2-3.5倍の向上をもたらしました。VLMに意味的および視覚的な複雑性を吸収させることで、PEEKは操作ポリシーに必要な最小限の手がかり(どこに、何を、どのように)を提供します。ウェブサイトはhttps://peek-robot.github.io/にあります。
我々は、放射線学テキストを評価するための統一されたオープンソースフレームワークであるRadEvalを紹介します。RadEvalは、古典的なn-gram重複(BLEU、ROUGE)や文脈的指標(BERTScore)から、臨床概念ベースのスコア(F1CheXbert、F1RadGraph、RaTEScore、SRR-BERT、TemporalEntityF1)、そして先進的なLLMベースの評価指標(GREEN)まで、多様なメトリクスを統合しています。我々は実装を洗練・標準化し、GREENを拡張して複数の画像モダリティをサポートするより軽量なモデルを提供し、ドメイン固有の放射線学エンコーダを事前学習することで、強力なゼロショット検索性能を実証しました。また、450以上の臨床的に重要なエラーレベルを含む詳細な専門家アノテーションデータセットを公開し、異なるメトリクスが放射線科医の判断とどのように相関するかを示します。最後に、RadEvalは統計的検定ツールと、複数の公開データセットにわたるベースラインモデル評価を提供し、放射線学レポート生成における再現性と堅牢なベンチマークを容易にします。
私たちは、インド文化に特化した初のマルチモーダルかつ多言語ベンチマーク「DRISHTIKON」を紹介します。このベンチマークは、生成AIシステムの文化的理解力を評価するために設計されています。既存の汎用的またはグローバルな範囲を持つベンチマークとは異なり、DRISHTIKONはインドの多様な地域にわたる深く細かいカバレッジを提供し、15の言語を網羅し、すべての州と連邦直轄領をカバーし、64,000以上の整列されたテキスト-画像ペアを組み込んでいます。このデータセットは、祭り、衣装、料理、芸術形式、歴史的遺産など、豊かな文化的テーマを捉えています。私たちは、オープンソースの小型および大型モデル、プロプライエタリシステム、推論に特化したVLM、インドに焦点を当てたモデルなど、幅広い視覚-言語モデル(VLM)をゼロショットおよび連鎖思考設定で評価します。私たちの結果は、特に低リソース言語やあまり文書化されていない伝統において、文化的に根ざしたマルチモーダル入力に対する現在のモデルの推論能力の主要な限界を明らかにします。DRISHTIKONは、包括的なAI研究における重要なギャップを埋め、文化的に意識されたマルチモーダル能力を持つ言語技術を進歩させるための堅牢なテストベッドを提供します。