翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル推論には言語と視覚の反復的な連携が不可欠であるが、意味のあるインターリーブ(交互配置)型の思考連鎖の本質は未解明のままである。我々は、テキストと画像の思考が、互いに同型的ではなく補完的なモダリティとして機能し、推論を相互に推進すべきだと提唱する。この原則に基づき、視覚的関与の程度が異なるタスクにまたがる24Kの高品質なインターリーブ推論トレースでファインチューニングした統一モデルThinkMorphを構築した。ThinkMorphは、一貫した言語的論理を維持しつつ視覚的コンテンツを具体的に操作する、漸進的なテキストと画像による推論ステップを生成することを学習する。これにより、視覚中心ベンチマークでベースモデル比平均34.7%の大幅な性能向上を達成し、ドメイン外タスクにも汎化し、大規模あるいはプロプライエタリな視覚言語モデル(VLM)に匹敵または凌駕する結果を示した。性能を超えて、ThinkMorphは創発的なマルチモーダル知能を発現し、未学習の視覚操作スキル、推論モード間の適応的切り替え、多様化したマルチモーダル思考によるテスト時スケーリングの改善などを示した。これらの知見は、マルチモーダル推論のための統一モデルが持つ創発的能力を特徴付ける有望な方向性を示唆している。
現代のAIハードウェア、例えばNVIDIAのBlackwellアーキテクチャでは、大規模言語モデル(LLM)に遍在する活性化値の外れ値に対処するため、低精度浮動小数点(FP)フォーマットの採用が進んでいる。しかし、この業界トレンドにもかかわらず、様々な粒度レベルでのFPと整数(INT)量子化の統一的な比較はこれまで行われておらず、アルゴリズムとハードウェアの協調設計には明確な指針が欠如していた。本論文はこの空白を埋めるため、FPとINTフォーマットのトレードオフを体系的に調査する。我々は重要な性能のクロスオーバーを明らかにした:FPは粗粒度量子化では優れるが、細粒度(ブロック単位)レベルでの比較はより複雑である。包括的な比較により、人気のある8ビット細粒度フォーマット(例:ブロックサイズ32のMX)では、MXINT8がアルゴリズム的精度とハードウェア効率の両方でFP対応フォーマットを上回ることを実証した。一方、4ビットフォーマットではFP(例:MXFP4、NVFP4)が精度面で優位となる場合が多いが、アダマール回転のような外れ値軽減技術を適用すればNVINT4がNVFP4を凌駕できることも示す。さらに、細粒度低ビットINT学習における勾配バイアスを解決する対称クリッピング手法を提案し、MXINT8学習でほぼロスレスの性能を実現する。これらの知見は現在のハードウェア開発の方向性に疑問を投げかけ、万能的なFPアプローチが最適ではないことを示すとともに、特にMXINT8のような細粒度INTフォーマットが将来のAIアクセラレーターにおいて精度、電力消費、効率性のより優れたバランスを提供することを提唱する。
大規模言語モデル(LLM)の効率性は、その逐次的でトークン単位の生成プロセスによって根本的に制限されている。我々は、このボトルネックを克服するには、生成ステップごとの意味的帯域幅を増大させるという新たなLLMスケーリングの設計軸が必要であると主張する。この目的に向けて、離散的な次トークン予測から連続的な次ベクトル予測へのパラダイムシフトとなる、Continuous Autoregressive Language Models(CALM)を提案する。CALMは、高精度なオートエンコーダを用いてK個のトークンの塊を単一の連続ベクトルに圧縮し、元のトークンを99.9%以上の精度で復元可能にする。これにより、言語を離散トークンの列ではなく連続ベクトルの列としてモデル化でき、生成ステップ数をK分の1に削減する。このパラダイムシフトには新たなモデリング手法が不可欠であるため、連続領域における堅牢な学習、評価、制御可能なサンプリングを可能にする包括的な尤度不要フレームワークを開発した。実験により、CALMが性能と計算コアのトレードオフを大幅に改善し、強力な離散ベースラインモデルと同等の性能をはるかに低い計算コストで達成できることを示す。さらに重要なことは、これらの知見が次ベクトル予測を、超高効率言語モデルへの強力かつスケーラブルな道筋として確立した点である。コード:https://github.com/shaochenze/calm。プロジェクト:https://shaochenze.github.io/blog/2025/CALM。
視覚言語モデル(VLM)を搭載したコンピュータ操作エージェントは、モバイルプラットフォームなどのデジタル環境において人間並みの操作能力を実証しています。これらのエージェントはデジタル自動化の進展に大きな可能性を秘める一方、システム侵害やプライバシー漏洩といった安全でない操作の危険性が重大な懸念事項として浮上しています。モバイル環境の広大かつ複雑な操作空間において、これらの安全性問題を検出することは極めて困難な課題であり、現在も重要な研究領域として未開拓の状態が続いています。 モバイルエージェントの安全性研究の基盤を確立するため、我々はMobileRisk-Liveを提案します。これは動的なサンドボックス環境と、詳細な注釈付きの現実的な軌跡から構成される安全性検出ベンチマークを備えています。これを基盤として、OS-Sentinelという新規ハイブリッド安全性検出フレームワークを開発しました。このフレームワークは、明示的なシステムレベル違反を検出する形式検証器(Formal Verifier)と、文脈的リスク及びエージェント行動を評価するVLMベースの文脈判別器(Contextual Judge)を相補的に統合しています。 実験結果では、OS-Sentinelが複数の評価指標において既存手法より10%〜30%の性能向上を達成することが示されています。さらに詳細な分析を通じて、より安全で信頼性の高い自律モバイルエージェントの開発に寄与する重要な知見を提供します。
視覚言語行動(VLA)モデルは、ロボットがマルチモーダル入力から複雑なタスクを理解し遂行することを可能にする。近年の研究では、教師ありファインチューニング(SFT)のスケーリングにおける煩雑なデータ収集プロセスを自動化するため、強化学習(RL)の活用が探求されているが、フローベースVLA(例:π₀、π₀.₅)への大規模RL適用は、反復的ノイズ除去による扱い難い行動対数尤度が原因で依然として困難である。 我々はこの課題を、並列シミュレーションでフローベースVLAを訓練するオープンソースフレームワークπ_RLによって解決する。π_RLは2つのRLアルゴリズムを実装する:(1)**Flow-Noise**は、ノイズ除去プロセスを離散時間MDPとしてモデル化し、学習可能なノイズネットワークによる正確な対数尤度計算を実現する。(2)**Flow-SDE**は、ノイズ除去とエージェント-環境相互作用を統合し、効率的なRL探索のためODE-to-SDE変換を採用する二層MDPを定式化する。 π_RLをLIBEROおよびManiSkillベンチマークで評価した。LIBEROでは、π_RLは少数ショットSFTモデルπ₀を57.6%から97.6%に、π₀.₅を77.1%から98.3%にそれぞれ向上させた。ManiSkillでは、320の並列環境でπ_RLを訓練し、4352のピックアンドプレースタスクにおいてπ₀を41.6%から85.7%に、π₀.₅を40.0%から84.8%に改善し、異種シミュレーション下でのスケーラブルなマルチタスクRLを実証した。 全体として、π_RLはSFTモデルを大幅に上回る性能向上と強力な一般化を達成し、フローベースVLAに対するオンラインRLの有効性を立証した。
大規模言語モデル(LLM)の強化学習(RL)ファインチューニングでは、学習時と推論時のポリシー間に生じる数値的不一致により不安定性が生じることが多い。従来の研究ではアルゴリズム的補正や工学的調整によってこの問題の緩和が試みられてきたが、我々はその根本原因が浮動小数点精度そのものにあることを明らかにする。広く採用されているBF16は動的範囲が広いにも関わらず、大きな丸め誤差を導入し、学習と推論の一貫性を損なう。本研究では、単純にFP16に戻すことでこの不一致を効果的に解消できることを実証する。この変更は簡潔で、現代のフレームワークで完全にサポートされており、数行のコード変更のみで済み、モデル構造や学習アルゴリズムの修正を必要としない。実験結果から、FP16を一貫して使用することで、より安定した最適化、高速な収束、多様なタスク・アルゴリズム・フレームワークにわたる優れた性能が得られることが示唆される。本知見がRLファインチューニングにおける精度のトレードオフの再検討を促すことを期待する。
大規模視覚言語モデル(LVLM)における空間理解は依然として弱点である。既存の教師ありファインチューニング(SFT)や、検証可能な報酬を用いた強化学習(RLVR)のパイプラインは、高コストな教師データ、専門的なツール、または規模を制限する制約環境に依存している。本研究では、通常のRGBまたはRGB-D画像から直接検証可能な信号を導出する自己教師ありRLパラダイム「Spatial-SSRL」を提案する。Spatial-SSRLは、2Dおよび3Dの空間構造を捉える5つの事前タスクを自動的に構築する:シャッフルされたパッチの順序再構築、反転パッチの認識、切り取られたパッチの修復、領域的な深度順序付け、および相対的な3D位置予測である。これらのタスクは、検証が容易な正解を提供し、人間やLVLMによる注釈を一切必要としない。我々のタスクによる学習は、一般的な視覚能力を維持しつつ空間推論を大幅に改善する。画像と映像の両設定における7つの空間理解ベンチマークで、Spatial-SSRLはQwen2.5-VLベースラインに対して平均精度向上を3Bモデルで4.63%、7Bモデルで3.89%達成した。本結果は、単純で内在的な教師信号が大規模なRLVRを可能にし、LVLMのより強力な空間知能への実用的な道筋を提供することを示している。
Distribution Matching Distillation (DMD) は、スコアベース生成モデルを効率的なワンステップ生成器へと蒸留する手法であり、教師モデルのサンプリング軌跡との一対一対応を必要としない。しかしながら、モデル容量の制約により、複雑な生成タスク(例えば、テキスト対ビデオ生成における精緻な物体動作の合成など)では、ワンステップ蒸留モデルの性能は限定的となる。DMDを直接マルチステップ蒸留に拡張すると、メモリ使用量と計算深度が増大し、不安定性と効率低下を招く。先行研究では確率的勾配打ち切りが潜在的な解決策として提案されているが、我々はこれがマルチステップ蒸留モデルの生成多様性を大幅に低下させ、ワンステップモデルと同水準まで低下させることを確認した。これらの課題を解決するため、我々は Phased DMD を提案する。これは、段階的蒸留のアイデアと Mixture-of-Experts (MoE) を組み合わせたマルチステップ蒸留フレームワークであり、学習困難を軽減しつつモデル容量を強化する。Phased DMD は、漸進的分布マッチングと部分区間内でのスコアマッチングという二つの核となるアイデアに基づく。まず、本モデルはSNR範囲を部分区間に分割し、より高SNRレベルへ向けてモデルを段階的に洗練させることで、複雑な分布の捕捉を改善する。次に、各部分区間内での訓練目標が正確であることを保証するため、我々は厳密な数学的導出を行った。我々は、Qwen-Image (200億パラメータ) や Wan2.2 (280億パラメータ) を含む、最先端の画像・ビデオ生成モデルの蒸留を通じて Phased DMD を検証した。実験結果は、Phased DMD が主要な生成能力を維持しつつ、DMD よりも優れて出力多様性を保持することを示している。コード及びモデルは公開予定である。
マルチモーダル位置符号化は視覚言語モデルにおいて不可欠であるが、これまで体系的な研究はほとんど行われてこなかった。本論文では、マルチモーダルRoPE(Rotary Positional Embedding)の2つの核心的構成要素―位置設計と周波数配分―を詳細に分析する。大規模な実験を通じて、位置的一貫性、全周波数利用、テキスト事前知識の保持という3つの重要指針を特定した。これらは、明確なレイアウト、豊富な表現、事前学習済みLLMからの忠実な転移を保証する。これらの知見に基づき、既存アーキテクチャを変更せずに導入可能なシンプルなPlug-and-Play型変種であるMulti-Head RoPE(MHRoPE)とMRoPE-Interleave(MRoPE-I)を提案する。提案手法は多様なベンチマークで既存手法を一貫して上回り、一般的なマルチモーダル理解と細粒度マルチモーダル理解の両方で顕著な改善を示す。コードはhttps://github.com/JJJYmmm/Multimodal-RoPEsで公開予定である。
自律的なグラフィカルユーザーインタフェース(GUI)エージェントは、ユーザーの指示を画面上の座標に対応付ける正確なGUIグラウンディングに依存してコマンドを実行する。しかし、教師ありファインチューニング(SFT)または強化学習ファインチューニング(RFT)で学習された現在のモデルは、自身の能力限界に対する自己認識を欠いており、過信と信頼性の低い予測を引き起こす。本研究ではまず、一般モデルおよびGUI特化モデルにおける確率的信頼度と言語化された信頼度を体系的に評価し、信頼度と実際の精度の間の不整合を明らかにする。この問題は、単一の誤りがタスク失敗につながる動的GUI自動化タスクにおいて特に深刻である。この課題に対処するため、不確実性較正を通じて信頼性の高いGUIグラウンディングを強化する新規フレームワークHyperClickを提案する。HyperClickは、正しい行動に対する二値報酬と、Brierスコアを用いて較正された切断ガウス分布に基づく空間的信頼度モデリングを組み合わせた二重報酬メカニズムを導入する。このアプローチは、グラウンディング精度と信頼度の確かさを共同で最適化し、内省的な自己批判を促進する。7つのチャレンジベンチマークによる大規模な実験により、HyperClickが較正された信頼度を提供しつつ、State-of-the-Artの性能を達成することを示す。明示的な信頼度較正と内省的な自己批判を可能にすることで、HyperClickは過信を軽減し、より信頼性の高いGUI自動化を実現する。
思考連鎖(CoT)推論の冗長性は、効率性が重視されるアプリケーションにおける大規模な展開を妨げている。近年、推論ステップを明示的なトークンではなく、LLMの隠れ埋め込み内に符号化する(「暗黙的推論」と呼ばれる)暗黙的CoTアプローチが登場した。このアプローチは、推論の長さを短縮し、一部のLLMコンポーネントをバイパスすることで、CoTを高速化する。しかし、既存の暗黙的CoT手法は2つの重大な課題に直面している:(1) 暗黙的推論(自然言語に変換された場合)と真の推論との間の意味的整合性を保持できず、結果としてCoTの性能が大幅に低下する。(2) 暗黙的推論の長さ短縮に注力する一方で、個々の暗黙的推論トークンをLLMが生成する際のかなりの時間コストを無視している。これらの課題に取り組むため、我々はSemCoTと名付けた、意味的に整合性のある新しい暗黙的CoTフレームワークを提案する。特に、最初の課題に対しては、暗黙的推論と明示的推論の間の意味的整合性を評価する、対照学習により訓練されたセンテンストランスフォーマーを設計し、暗黙的推論の最適化過程で意味の保存を強化するために用いる。第二の課題に対処するため、知識蒸留を用いて軽量な言語モデルをファインチューニングすることで、効率的な暗黙的推論生成器を導入する。この生成器は、我々のセンテンストランスフォーマーによって導かれ、真の推論を意味的に整合性のある暗黙的推論へと蒸留すると同時に、正確性も最適化する。SemCoTは、トークンレベルの生成速度の最適化と、真の推論との意味的整合性の保持を共同で最適化することで、CoTの効率を向上させる初めてのアプローチである。大規模な実験により、SemCoTが効率性と有効性の両方において、最先端手法と比較して優れた性能を発揮することが実証された。コードはhttps://github.com/YinhanHe123/SemCoT/ で公開されている。
スケーリングされた内積注意の二次コストは、長文コンテキストへの自己回帰言語モデルの拡張における主要な障壁である。線形時間注意と状態空間モデル(SSM)はスケーラブルな代替手段を提供するが、通常は一次近似またはカーネルベースの近似に制限されており、表現力が制限される可能性がある。本論文では、高次線形注意(HLA)を提案する。これは、コンパクトな接頭辞十分統計量を介して高次の相互作用を実現する、因果的かつストリーミングのメカニズムである。二次の場合、HLAは一定サイズの状態を維持し、n×n行列を一切具体化することなく、トークンごとの出力を線形時間で計算する。我々は、閉形式のストリーミング恒等式、追加の2つの要約統計量を用いた厳密に因果的なマスク変種、および逐次的反復の活性化を正確に再現する結合スキャンに基づくチャンク並列訓練スキームを提示する。さらに、三次および更高次への拡張の概要を示す。総合的に、これらの結果は、HLAを、注意のようなデータ依存の混合と現代的なリカレント構造の効率性を組み合わせた、原理的でスケーラブルな構成要素として位置づける。プロジェクトページ: https://github.com/yifanzhang-pro/HLA
マルチモーダル大規模言語モデル(MLLM)は、視覚入力を直接知覚し、推論し、タスク指向の行動計画を可能にすることで、具身化エージェントの性能を向上させてきた。しかし、このような視覚駆動型の具身化エージェントは新たな攻撃面を開くものである。すなわち、視覚的バックドア攻撃であり、エージェントは通常通り動作するが、シーン内に視覚的トリガーが現れると、攻撃者が指定したマルチステップのポリシーを持続的に実行する。本研究では、BEATを提案する。これは、環境内のオブジェクトをトリガーとして用いて、MLLMベースの具身化エージェントにこのような視覚的バックドアを埋め込む初めてのフレームワークである。テキストトリガーとは異なり、オブジェクトトリガーは視点や照明によって大きく見え方が変化するため、信頼性高く埋め込むことが困難である。BEATはこの課題を、(1) 多様なシーン、タスク、トリガー配置を網羅するトレーニングセットを構築し、エージェントをトリガーの変動に晒すこと、および (2) 教師ありファインチューニング(SFT)を適用した後、新規提案のContrastive Trigger Learning(CTL)を行うという2段階のトレーニングスキームを導入することで解決する。CTLは、トリガー有無の入力間の選好学習としてトリガー識別を定式化し、決定境界を明示的に鋭くすることで、正確なバックドアの発動を保証する。様々な具身化エージェントのベンチマークとMLLMにおいて、BEATは最大80%の攻撃成功率を達成し、高い良性タスク性能を維持しつつ、分布外のトリガー配置に対しても信頼性高く汎化した。特に、単純なSFTと比較して、CTLは限られたバックドアデータ下でバックドア発動精度を最大39%向上させた。これらの発見は、MLLMベースの具身化エージェントにおける重大かつ未開拓のセキュリティリスクを露呈するものであり、実世界での展開前に堅牢な防御策が必要であることを強調している。
大規模言語モデル(LLM)が社会においてますます重要な役割を占めるにつれ、モデルは一般的な知識に基づくだけでなく、特定の人間の価値観体系に沿うことを求められる質問に直面する機会が増えている。したがって、LLMの人間的価値観との整合性を研究することは、極めて重要な研究分野となっている。しかし、従来の研究は主に学習完了後のモデルの整合性評価に焦点を当てており、モデルが人間的価値観を表現することを学習する過程におけるトレーニングの動態を見過ごしてきた。本研究では、モデルの事後学習過程において、価値観の整合性がどのように、そしてどの段階で生じるかを調査する。我々の分析は、事後学習アルゴリズムとデータセットの効果を分解し、学習中の価値観の変動の大きさとタイミングを測定する。様々なサイズのLlama-3およびQwen-3モデル、一般的な教師ありファインチューニング(SFT)と選好最適化のデータセット及びアルゴリズムを用いた実験により、SFT段階が一般的にモデルの価値観を確立し、その後の選好最適化がこれらの価値観を再調整することは稀であることを明らかにした。さらに、価値観を制御的に操作することを可能にする合成選好データセットを使用して、選好データが一定であっても、異なる選好最適化アルゴリズムが異なる価値整合性の結果をもたらすことを発見した。我々の発見は、事後学習中に価値観がどのように学習されるかについて実践的な知見を提供し、データのキュレーション、ならびに人間的価値観へのモデル整合性を改善するための選好最適化のモデルとアルゴリズムの選択に有益な情報をもたらすものである。
近年、ワールドモデリングを組み込んだVision-Language-Actionモデル(VLA)の拡張が、ロボット政策学習の改善において有望視されている。しかし、観測と行動という異なるモダリティ間の本質的な差異から、次の状態観測と行動系列を同時に予測することは依然として困難である。この課題に対処するため、我々はモダリティ間の衝突を処理し、多様なタスクにおけるVLAの性能を向上させるワールドモデル拡張VLAフレームワーク「DUal-STream diffusion(DUST)」を提案する。具体的には、明示的に分離されたモダリティストリームを維持しつつ、クロスモーダルな知識共有を可能とするマルチモーダル拡散トランスフォーマーアーキテクチャを設計した。さらに、各モダリティに独立したノイズ摂動と、分離型フローマッチング損失を導入する。この設計により、統合された潜在空間を必要とせず、双方向的な手法で結合分布を学習することが可能となる。訓練時のモダリティ分離に基づき、行動トークンと視覚トークンが異なる速度で非同期に進化するテスト時スケーリングをサポートする共同サンプリング手法も提案する。RoboCasaやGR-1などのシミュレーションベンチマークにおける実験を通じて、DUSTはベースライン手法に対し最大6%の性能向上を達成し、テスト時スケーリング手法によりさらに2-5%の向上が得られることを示した。Franka Research 3を用いた実世界タスクでは、DUSTは成功率を13%向上させ、シミュレーションを超えた有効性を確認した。さらに、BridgeV2の行動非依存ビデオによる事前学習は、RoboCasaにおいて顕著な転移効果をもたらし、大規模VLA事前学習におけるDUSTの可能性を強調する結果となった。
本論文では、科学研究者のアシスタントとして機能するAIマルチエージェントシステム「Denario」を提案する。Denarioは、アイデアの生成、文献調査、研究計画の立案、コードの作成と実行、図表の作成、科学論文の草稿作成と査読など、多様なタスクを遂行できる。本システムはモジュール型アーキテクチャを採用しており、特定のタスク(例:アイデア生成)の実行や、深層研究バックエンドとしてCmbagentを用いたエンドツーエンドの科学分析を可能とする。本研究では、Denarioとその構成モジュールを詳細に説明し、天体物理学、生物学、生物物理学、医用工学、化学、材料科学、数学物理学、医学、神経科学、惑星科学など、多岐にわたる科学分野で生成されたAI作成論文を例示し、その能力を実証する。Denarioはまた、異なる学問領域のアイデアを融合させることにも優れており、量子物理学と機械学習の手法を天体物理データに応用した論文を示すことでこれを例証する。領域専門家によるこれらの論文への評価(数値スコアと査読に似たフィードバック)を報告し、現行システムの強み、弱点、限界を明らかにする。最後に、AI主導型研究の倫理的含意について議論し、このような技術が科学哲学とどのように関わるかを考察する。コードはhttps://github.com/AstroPilot-AI/Denario で公開している。デモはhttps://huggingface.co/spaces/astropilot-ai/Denario でウェブ上直接実行可能であり、フルアプリケーションはクラウドに展開予定である。
数学的推論は大規模言語モデル(LLM)における中心的な課題であり、正しい答えだけでなく、忠実な推論プロセスを必要とする。検証可能な報酬による強化学習(RLVR)は、このような能力を強化する有望なアプローチとして登場したが、真の推論を促進する能力は未だ不明である。本研究では、唯一の最適解を持つ注意深く選別されたデータセットを用いて、完全に検証可能な解を有する二つの組合せ問題——活動スケジューリング問題と最長増加部分列問題——に対するRLVRを検証する。複数の報酬設計にわたって、RLVRが評価指標を改善するものの、それは新しい推論戦略を獲得するというより、表面的なヒューリスティクスを強化することによる場合が多いことを見出した。これらの知見はRLVRの汎化の限界を浮き彫りにし、真の数学的推論と近道解法の利用を区別し、進捗を忠実に測定するベンチマークの重要性を強調する。コードはhttps://github.com/xashru/rlvr-seq-generalizationで入手可能。
Vision-Language-Actionモデル(VLA)は、デジタル知識と物理世界での相互作用を橋渡しすることを目指し、具身知能における重要なフロンティアを代表する。これらのモデルは顕著なゼロショット能力を示している一方で、その基盤となる大規模基盤モデルに内在する膨大な計算量とデータ要件によって、実用化が大きく阻まれている。こうした課題解決の緊急性に動機付けられ、本サーベイは、データ・モデル・学習の全プロセスにわたる Efficient Vision-Language-Actionモデル(Efficient VLA)に関する初の包括的なレビューを提示する。具体的には、この分野の様々な取り組みを体系的に整理するための統一的な分類法を導入し、現行の技術を以下の3つの核心的柱に分類する:(1) 効率的なモデル設計(効率的なアーキテクチャとモデル圧縮に焦点)、(2) 効率的な学習(モデル学習時の計算負荷を軽減)、(3) 効率的なデータ収集(ロボットデータの取得と利用におけるボトルネックへの対処)。この枠組みに基づく最新手法の批判的レビューを通じて、本サーベイはコミュニティに対する基礎的な参照資料を確立するだけでなく、代表的な応用例をまとめ、主要な課題を明らかにし、将来研究のためのロードマップを示す。最新の進展を追跡するため、継続的に更新されるプロジェクトページを維持している:https://evla-survey.github.io/
大規模言語モデル(LLM)は、ユーザーが会話を通じて嗜好を表現し推薦を受け取ることを可能にすることで、推薦システムのパラダイムを再構築しつつある。しかし、LLMを推薦タスクに適合させることは依然として課題である:事前学習済みLLMはカタログ外アイテムを生成したり、要求された出力形式に違反したり、生成リストの末尾に向かってランキング品質が急激に劣化したりする。これに対処するため、本論文ではLLMベースの対話型推薦システムのエンドツーエンド学習のための2段階フレームワーク「ConvRec-R1」を提案する。第1段階では、Remap-Reflect-Adjustパイプラインを用いて行動クローニングデータセットを構築し、強力なブラックボックスLLMから高品質でカタログに基づいたデモンストレーションを生成して強化学習訓練をウォームスタートする。第2段階では、ランク形式の出力を伴うタスクに特化して、グループ相対方策最適化(GRPO)を原理的に拡張した「Rank-GRPO」を提案する。Rank-GRPOは推薦リスト内の各順位を単位(トークン単位では細かすぎ、シーケンス単位では粗すぎる)として扱い、非因果的な信用割り当てを除去するために報酬を再定義し、順位ごとのトークン確率の幾何平均に基づく順位レベルの重要度比率を導入して方策更新を安定化させる。公開データセットReddit-v2を用いた実験により、ConvRec-R1はGRPOスタイルのベースラインよりも高速に収束し、より高いRecallとNDCGを達成することを示す。コードとデータセットはhttps://github.com/yaochenzhu/Rank-GRPO で公開されている。
テキストから画像への変換(T2I)モデルは、合成データセット生成にますます利用されているが、分類タスクのための効果的な合成訓練データの生成は依然として課題である。少数の実例でT2Iモデルをファインチューニングすることは、合成訓練データの品質向上に寄与する可能性がある。しかしながら、過剰適合を引き起こし、生成サンプルの多様性を減少させる恐れもある。本論文では、細粒度分類におけるこれらの懸念を軽減するためのファインチューニング戦略BOB(BeyondOBjects)を提案する。少数の実例集合が与えられた場合、我々はまずシーンの背景やオブジェクトのポーズといったクラス非依存の属性を抽出する。次に、T2Iモデルのファインチューニング中にこれらの属性を明示的に条件付けし、生成時にはそれらを周辺化除去する。この設計により、過剰適合が緩和され、T2Iモデルの生成的な事前分布が保持され、推定誤差が低減され、さらに意図しないクラス間の関連付けが最小限に抑えられる。複数のT2Iモデル、バックボーン、データセットを用いた広範な実験により、本手法が合成データで拡張された低ショット細粒度分類において、最先端の性能を達成することが示された。具体的には、Aircraftデータセットにおいて、BOBはDataDreamを7.4%上回った(5枚の実画像と100枚の合成画像で拡張してCLIP分類器をファインチューニングした場合、50.0%から57.4%に向上)。4つのベンチマークのうち3つにおいて、5枚の実画像をBOBで拡張して下流モデルをファインチューニングした場合、10枚の実画像でファインチューニングするよりも優れた性能を達成した。全体として、BOBは24の実験設定のうち18の設定で従来技術を凌駕し、そのうち14の設定で精度が2%以上向上した。
正確な建物インスタンスセグメンテーションと高さ分類は、都市計画、3D都市モデリング、インフラ監視にとって極めて重要である。本論文は、衛星画像からの建物抽出と離散的高さ分類の共同応用に焦点を当て、深層学習モデルYOLOシリーズの最新進展であるYOLOv11の詳細な分析を提示する。YOLOv11は、異なるスケールの特徴をより効率的に統合し、物体位置特定の精度を向上させ、複雑な都市景観における性能を強化する、より効率的なアーキテクチャを導入することで、従来のYOLOモデルの強みを発展させている。12都市にわたる12万5,000以上の注釈付き建物を含むDFC2023 Track 2データセットを用いて、適合率、再現率、F1スコア、平均適合率(mAP)などの指標によりYOLOv11の性能を評価する。結果は、YOLOv11が5段階の事前定義された高さカテゴリにわたって堅牢な分類精度を維持しつつ、mAP@50で60.4%、mAP@50--95で38.3%という強力なインスタンスセグメンテーション性能を達成することを示す。本モデルは、遮蔽、複雑な建物形状、特に希少な高層建築物に対するクラス不均衡の処理に優れている。比較分析により、YOLOv11が検出精度と推論速度の両方において従来のマルチタスクフレームワークを上回り、大規模な都市マッピングのリアルタイム処理に適していることが確認された。本研究は、効率化されたカテゴリ別高さモデリングを通じて意味論的都市再構築を推進するYOLOv11の可能性を明らかにし、リモートセンシング及び地理空間情報学の将来の発展に向けた実践的な知見を提供する。
健康関連の誤情報は非常に広まっており、潜在的に有害である。特に科学的知見を歪めたり誤解釈したりする主張の場合、その識別は困難を伴う。本研究では、MISSCIデータセットとフレームワークを用いて、大規模言語モデル(LLM)が誤った論法を認識する能力に対する合成データ生成と軽量ファインチューニング技術の影響を調査する。本論文では、検索拡張生成(RAG)を適用して合成の誤謬サンプルを生成し、それをLLMモデルのファインチューニングに利用するMisSynthパイプラインを提案する。実験結果から、ファインチューニングしたモデルはベースラインと比較して精度が大幅に向上することが示された。例えば、LLaMA 3.1 8Bモデルをファインチューニングした場合、MISSCIテスト分割におけるF1スコアがベースライン比で35%以上の絶対改善を達成した。限られた注釈付きリソースを補完するために合成誤謬データを導入することで、計算資源が限られた環境であっても、実世界の科学的誤情報タスクにおけるゼロショットLLM分類性能を大幅に向上できることを実証する。コードと合成データセットはhttps://github.com/mxpoliakov/MisSynth で公開されている。
カードゲームは、不確実性下での逐次的意思決定を研究するために広く用いられており、交渉、金融、サイバーセキュリティなど現実世界の状況に類似している。これらのゲームは、通常、制御の流れに基づいて3つのカテゴリーに分類される。すなわち、厳密に逐次的(プレイヤーが単一の行動を交互に行う)、決定的応答(特定の行動が固定された結果を引き起こす)、そして無制限な相互応答(交互の対抗手段が許可される)である。あまり探究されていないが戦略的に豊かな構造として、**有界一方向応答**がある。これは、プレイヤーの行動によって一時的に相手に制御が移り、その相手がターンが解決される前に1つ以上の手番を通じて固定された条件を満たさなければならないというものである。我々はこのメカニズムを特徴とするゲームを**有界一方向応答ゲーム(BORG)** と名付ける。本論文では、このダイナミクスを単離したベンチマーク環境として、モノポリーディールを改変したバージョンを紹介する。この環境では、家賃請求アクションが相手に支払い資産の選択を強制する。ゴールドスタンダードなアルゴリズムである**反事実的後悔最小化(CFR)** は、新しいアルゴリズム的拡張なしで効果的な戦略に収束する。軽量なフルスタック研究プラットフォームは、環境、並列化されたCFRランタイム、および人間がプレイ可能なウェブインターフェースを統合している。学習済みCFRエージェントとソースコードは https://monopolydeal.ai で公開されている。