翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、単純な事実確認クエリを超え、質問をサブ問題に分解し、多段階の推論を調整し、多様な情報源から証拠を統合することを要求する「深層研究タスク」に対応することがますます期待されている。我々は、検証可能な回答を伴う深層研究タスクを「階層的制約充足問題(HCSPs)」として形式化する。これは、単一制約、マルチホップ、または平坦な制約充足問題(CSP)の定式化とは根本的に異なる。しかし、既存のベンチマーク(例:Natural Questions、HotpotQA)はこの複雑さを捉えられておらず、最近の合成データセットはしばしばショートカット推論や知識漏洩を引き起こすか、十分な構造的深さを欠いている。このギャップを埋めるため、我々は複雑な深層研究タスクを合成するためのスケーラブルなフレームワーク「InfoSeek」を提案する。InfoSeekは、デュアルエージェントシステムを使用して大規模なウェブページから再帰的に「研究ツリー」を構築し、中間ノードを有効なサブ問題にぼかし、これらのツリーを階層全体を横断する必要がある自然言語質問に変換する。また、迅速なスケーリングを可能にし、5万以上のトレーニング例、精選されたテストセット、およびリジェクトサンプリングを通じて生成された推論軌跡を提供する。実験結果は、InfoSeekでトレーニングされたモデルが強力なベースラインを一貫して上回ることを示している。挑戦的なベンチマーク「BrowseComp-Plus」では、InfoSeekで最適化された3B LLMsが、はるかに大規模な32Bモデルや軽量の商用API(例:Gemini2.5-Flash)を上回り、より強力なAPI(例:Gemini2.5-Pro)に匹敵する性能を達成した。中間ステップや検索ラベルなどのメタ情報を保持することで、InfoSeekは複合報酬設計や軌跡レベルの探索を含む高度な最適化戦略をさらにサポートする。我々は、コードとデータセットをhttps://github.com/VectorSpaceLab/InfoSeek{このリポジトリ}で提供する。
我々は、ロボットの推論、タスク計画、自然言語インタラクションを単一の視覚言語アーキテクチャに統合した統一モデル「Robix」を紹介する。Robixは階層型ロボットシステムの高次認知層として機能し、低レベルコントローラに対するアトミックなコマンドと人間とのインタラクションのための言語応答を動的に生成する。これにより、ロボットは複雑な指示に従い、長期的なタスクを計画し、エンドツーエンドのフレームワーク内で人間と自然に相互作用することが可能となる。Robixはさらに、タスク実行中の能動的な対話、リアルタイムの中断処理、文脈を考慮した常識推論といった新たな機能を導入する。その中核では、Robixは連鎖的思考推論を活用し、3段階のトレーニング戦略を採用している:(1) 3D空間理解、視覚的グラウンディング、タスク中心の推論を含む基礎的な身体化推論能力を強化するための継続的な事前学習、(2) 人間-ロボットインタラクションとタスク計画を統一的な推論-行動シーケンスとしてモデル化するための教師ありファインチューニング、(3) 推論-行動の一貫性と長期的タスクの整合性を向上させるための強化学習。大規模な実験により、Robixがインタラクティブなタスク実行において、オープンソースおよび商用のベースライン(例:GPT-4oやGemini 2.5 Pro)を上回り、多様な指示タイプ(例:オープンエンド、多段階、制約付き、無効、中断)やテーブル片付け、食料品の買い物、食事フィルタリングなどの様々なユーザー関与タスクにおいて強力な汎化性能を示すことが実証された。
検証可能な報酬を用いた強化学習(RLVR)は、数学的推論タスクにおいて主要なパラダイムとして登場し、推論能力の安定した向上を提供してきました。しかし、RLVRにおける結果報酬モデル(ORMs)は粒度が粗すぎて、正しい答えの中の欠陥のある推論や、間違った答えの中の有効な推論を区別することができません。この粒度の欠如は、ノイズの多い誤解を招く勾配を大幅に導入し、推論プロセスの品質のさらなる進歩を妨げます。一方、プロセス報酬モデル(PRMs)は中間ステップに対する細かいガイダンスを提供しますが、不正確さに悩まされやすく、報酬ハッキングの影響を受けやすいという問題があります。 このジレンマを解決するために、私たちはPRocess cOnsistency Filter(PROF)を導入します。これは、ノイズの多い細かいプロセス報酬と正確な粗い結果報酬を調和させる効果的なデータプロセスキュレーション手法です。目的関数においてPRMとORMを単純にブレンドするのではなく(arXiv:archive/2506.18896)、PROFは一貫性駆動のサンプル選択を通じてそれらの補完的な強みを活用します。私たちのアプローチは、より高い平均プロセス値を持つ正しい応答と、より低い平均プロセス値を持つ間違った応答を保持しつつ、正/負のトレーニングサンプルのバランスを維持します。広範な実験により、私たちの方法がブレンドアプローチと比較して最終的な精度を4%以上一貫して向上させるだけでなく、中間推論ステップの品質も強化することが実証されました。コードとトレーニングレシピはhttps://github.com/Chenluye99/PROFで利用可能です。
言語モデル(LMs)は、世界に関する知識を必要とする実世界のアプリケーションをますます駆動している。しかし、モデルがデータを世界に関する知識や信念の表現に変換する内部プロセスは十分に理解されていない。これらのプロセスに対する洞察は、より一貫性があり、堅牢で完全な知識表現を持つLMsの開発への道を開く可能性がある。これらの問題を研究するために、我々はLMEntを紹介する。LMEntは、事前学習中のLMsにおける知識獲得を分析するためのスイートである。LMEntは以下の要素を提供する:(1)Wikipediaに基づく、エンティティ言及が完全に注釈された知識豊富な事前学習コーパス、(2)事前学習データに対するエンティティベースの検索方法で、従来のアプローチを最大80.4%上回る性能を発揮、(3)1Bパラメータと4Kの中間チェックポイントを持つ12の事前学習モデルで、知識ベンチマークにおいて人気のあるオープンソースモデルと同等の性能を発揮。これらのリソースを組み合わせることで、事前学習中のエンティティ言間と下流タスクのパフォーマンスとの関連性、および事前学習データに対する因果的介入の効果を分析するための制御された環境を提供する。我々は、チェックポイント間での知識獲得を研究することで、事実の頻度が鍵であるが、学習の傾向を完全には説明しないことを示す。LMEntを公開し、知識表現、可塑性、編集、帰属、学習ダイナミクスを含むLMsにおける知識の研究を支援する。
効果的な計画立案には強力な世界モデルが必要ですが、意味的および時間的な抽象化を伴う行動を理解し推論する高レベルの世界モデルは、依然として大きく未発展のままです。本論文では、自然映像に基づく言語ベースの世界モデリングのために訓練された基盤モデルであるVision Language World Model(VLWM)を紹介します。視覚的観察が与えられると、VLWMはまず全体的な目標達成を推論し、その後、交互に織り込まれた行動と世界状態の変化からなる軌跡を予測します。これらの目標は、Tree of Captionsとして表現された圧縮された未来の観察に基づいて、反復的なLLM Self-Refineによって抽出されます。VLWMは行動ポリシーとダイナミクスモデルの両方を学習し、それぞれ反応的なシステム1の計画デコードと、コスト最小化による反射的なシステム2の計画立案を促進します。コストは、VLWMのロールアウトによって与えられる仮想的な未来状態と期待される目標状態との間の意味的距離を評価し、自己教師あり方式で訓練された批評モデルによって測定されます。VLWMは、ベンチマーク評価と我々が提案するPlannerArena人間評価の両方において、Visual Planning for Assistance(VPA)の最新の性能を達成し、システム2はシステム1に対してEloスコアを+27%向上させます。また、VLWMモデルはRoboVQAおよびWorldPredictionベンチマークにおいて、強力なVLMベースラインを上回る性能を示します。
制御可能な顔生成は、意味的な制御性と写実性の間の微妙なバランスが要求されるため、生成モデリングにおいて重要な課題を提起します。既存のアプローチでは、生成パイプラインから意味的な制御を分離することが困難ですが、本論文では、専門家の特化という観点からDiffusion Transformers(DiTs)のアーキテクチャ的潜在能力を再検討します。本論文では、Face-MoGLEという新しいフレームワークを紹介します。このフレームワークは以下の特徴を有します:(1)マスク条件付き空間分解による意味的に分離された潜在モデリングにより、正確な属性操作を可能にする;(2)全体構造と領域レベルの意味を捉えるためのグローバルおよびローカルな専門家の混合により、細粒度の制御性を実現する;(3)拡散ステップと空間位置に応じて進化する時間依存係数を生成する動的ゲーティングネットワーク。Face-MoGLEは、高品質で制御可能な顔生成のための強力かつ柔軟なソリューションを提供し、生成モデリングやセキュリティアプリケーションにおいて大きな可能性を秘めています。広範な実験により、マルチモーダルおよびモノモーダルな顔生成設定における有効性と、堅牢なゼロショット汎化能力が実証されています。プロジェクトページはhttps://github.com/XavierJiezou/Face-MoGLEで公開されています。
マルチサブジェクトのパーソナライズド生成は、複数の参照対象に基づいて画像を合成する際に、同一性の忠実度と意味的整合性を維持するという独自の課題を提示します。既存の手法では、異なる対象が共有表現空間内でどのように相互作用すべきかを適切にモデル化できていないため、同一性の混同や属性の漏洩がしばしば発生します。本論文では、MOSAICという表現中心のフレームワークを提案します。これは、明示的な意味的対応と直交的特徴の分離を通じて、マルチサブジェクト生成を再考するものです。我々の重要な洞察は、マルチサブジェクト生成には表現レベルでの精密な意味的アラインメントが必要であるということです。つまり、生成された画像のどの領域が各参照のどの部分に注目すべきかを正確に把握する必要があります。これを実現するために、SemAlign-MSという細かく注釈付けされたデータセットを導入します。このデータセットは、複数の参照対象とターゲット画像間の細粒度の意味的対応を提供し、この分野ではこれまで利用できなかったものです。この基盤に基づいて、精密なポイントツーポイントの意味的アラインメントを強制する意味的対応アテンション損失を提案し、各参照からその指定された領域への高い一貫性を確保します。さらに、異なる対象を直交的なアテンション部分空間に押し込むマルチリファレンス分離損失を開発し、特徴の干渉を防ぎながら個々の同一性特性を保持します。広範な実験により、MOSAICが複数のベンチマークで最先端の性能を達成することが示されています。特に、既存の手法では通常3つ以上の対象を超えると性能が低下しますが、MOSAICは4つ以上の参照対象でも高い忠実度を維持し、複雑なマルチサブジェクト合成アプリケーションの新たな可能性を開拓します。
現代のロボット操作は主に2Dカラー空間における視覚観察に依存して技能学習を行っていますが、汎化性能が低いという課題を抱えています。一方、3D世界で生活する人間は、物体と相互作用する際に、テクスチャよりも距離、サイズ、形状といった物理的特性に大きく依存しています。このような3D幾何学的情報は広く利用可能な深度カメラから取得できるため、ロボットに同様の知覚能力を付与することは可能であるように思われます。私たちの予備調査では、深度カメラを操作に使用することは、主にその精度の限界や様々な種類のノイズへの影響を受けやすいことから、困難であることがわかりました。本研究では、日常使用される深度カメラに簡単に組み込めるプラグインとして、カメラ深度モデル(CDMs)を提案します。CDMsはRGB画像と生の深度信号を入力として受け取り、ノイズ除去された正確なメトリック深度を出力します。これを実現するために、深度カメラのノイズパターンをモデル化することでシミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発しました。結果として、CDMsは深度予測においてほぼシミュレーションレベルの精度を達成し、操作タスクにおけるシミュレーションと現実のギャップを効果的に埋めることが示されました。特に、私たちの実験では、ノイズを追加したり現実世界での微調整を必要とせず、生のシミュレーション深度で訓練されたポリシーが、関節、反射性、細長い物体を含む2つの挑戦的な長期タスクにおいて、現実世界のロボットにシームレスに汎化し、性能の低下がほとんどないことを初めて実証しました。私たちの研究結果が、シミュレーションデータと3D情報を一般的なロボットポリシーに活用する今後の研究にインスピレーションを与えることを願っています。
大規模言語モデル(LLMs)の最近の進展は、顕著な汎用推論能力を示している。しかし、これらの推論能力を体系的に評価し向上させることは、細粒度の分析のための制御可能かつスケーラブルなツールの不足により困難である。既存のベンチマークやデータセットは、多次元的で体系的な分析とトレーニングに必要な変数制御を欠いているか、問題の種類や形式が限定的である。これらの課題に対処するため、我々はSATQuestを導入する。これは、連言標準形(CNF)インスタンスから直接、多様な充足可能性に基づく論理推論問題を生成することで、LLMsの論理推論を評価し向上させる体系的な検証ツールである。SATQuestは、インスタンスの規模、問題の種類、質問形式という3つの直交する次元に沿ってこれらの問題を構造化し、ランダム化されたSATベースの問題生成とPySATを用いた客観的な回答検証を採用する。この設計により、記憶化の問題を軽減し、推論性能に関する微妙な洞察を得ることが可能となり、効果的な強化学習による微調整を可能にする。SATQuestを用いた各種LLMsの広範な評価により、特に馴染みのある数学的形式を超えた一般化において、論理推論に重大な制限があることが明らかとなった。さらに、SATQuestの報酬を用いた強化学習による微調整が、特定のタスク性能を大幅に向上させ、より複雑なインスタンスへの一般化を可能にすることも示した。一方で、形式間の適応における残された課題も浮き彫りにした。これらの実証を通じて、SATQuestがLLMの論理推論を進展させるための基盤ツールおよび貴重な出発点としての可能性を示す。