翻訳付きの日次キュレーションされたAI研究論文
本研究では、推論時に外部からのフィードバックを必要とせずに、段階的な推論を生成しつつその出力の正しさを評価できる自己報酬型推論大規模言語モデル(LLMs)を検討する。この統合的なアプローチにより、単一のモデルが独立して推論プロセスを導くことが可能となり、モデル展開における計算上の利点を提供する。特に、モデルが自らの応答における誤りを自律的に検出し、出力を修正し、反復的な改善ループをいつ終了するかを決定する自己修正という代表的なタスクに焦点を当てる。これを実現するため、自己生成データのみを用いて自己報酬型推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。第1段階では、自己報酬と自己修正のメカニズムを組み込んだ長い連鎖思考(chain-of-thought)の軌跡を合成するために逐次棄却サンプリングを採用する。これらの精選されたデータでモデルをファインチューニングすることで、自己報酬と自己修正のパターンを学習させる。第2段階では、ルールベースのシグナルを用いた強化学習を通じて、モデルの応答精度の評価能力と出力の改善能力をさらに強化する。Llama-3およびQwen-2.5を用いた実験により、本アプローチが内在的な自己修正能力を凌駕し、外部の報酬モデルに依存するシステムと同等の性能を達成することを実証する。
推論は、医用画像解析の進歩において重要なフロンティアであり、透明性と信頼性は臨床医の信頼と規制承認の両方で中心的な役割を果たします。医用ビジュアル言語モデル(VLMs)は放射線学的タスクにおいて有望であるものの、既存のほとんどのVLMsは根底にある推論を明らかにせずに最終的な回答を提供するに過ぎません。このギャップを埋めるために、透明性と信頼性を向上させるために自然言語推論を明示的に生成する医用VLMであるMedVLM-R1を紹介します。しばしばトレーニング分布にオーバーフィットし、真の推論を促進できない監督されたファインチューニング(SFT)に頼る代わりに、MedVLM-R1は、推論参照を使用せずに人間が解釈可能な推論経路を発見するようモデルにインセンティブを与える強化学習フレームワークを採用しています。600のビジュアル質問応答サンプルと2Bのモデルパラメータという限られたトレーニングデータにもかかわらず、MedVLM-R1はMRI、CT、X線のベンチマーク全体で精度を55.11%から78.22%に向上させ、100万以上のサンプルでトレーニングされたより大きなモデルを凌駕しています。また、分布外のタスクにおいて堅牢なドメイン汎化を示しています。医用画像解析を明示的な推論と統合することで、MedVLM-R1は臨床実践における信頼性の高い解釈可能なAIに向けた画期的な一歩を示しています。
大規模マルチモーダルモデル(LMM)において、非言語モダリティ(例:視覚表現)の知覚能力は、大規模言語モデル(LLM)の強力な推論能力に匹敵しないことが多く、これが困難な下流タスクにおけるLMMの性能を阻害しています。この弱点は最近、視覚エンコーダをMixture-of-Experts(MoE)に置き換えることで緩和されました。MoEは、多様な下流タスクに必要な豊かで多粒度かつ多様な表現を提供します。マルチモーダルMoEの性能は、そのルーターに大きく依存します。ルーターは、各入力に対して異なるエキスパートの表現を再重み付けし、混合します。しかし、エンドツーエンドで訓練されたルーターが、すべてのテストサンプルに対して最適なルーティング重みを生成するとは限らないことがわかりました。このギャップを埋めるため、我々は新しい効率的な手法「テスト時再ルーティング(Re-Routing in Test-Time, R2-T2)」を提案します。この手法では、テストサンプルの近傍にある正しく予測されたサンプルのルーティング重みベクトルに向かって、テスト時のルーティング重みベクトルを局所的に最適化します。異なる最適化目標と近傍探索空間を持つ3つのR2-T2戦略を提案します。R2-T2は、ベースモデルのパラメータを一切訓練することなく、多様なタスクの困難なベンチマークにおいて、最先端のLMMの性能を一貫して大幅に向上させます。
LongRoPE2は、事前学習済み大規模言語モデル(LLM)の有効なコンテキストウィンドウを目標長に拡張しつつ、元の短いコンテキストウィンドウでの性能を維持する新しいアプローチです。これは以下の3つの貢献によって実現されています:(1) 既存手法で観察される持続的な分布外(OOD)問題の原因として、高次元RoPEにおける不十分な訓練が寄与しているという仮説;(2) 不十分な訓練問題に対処するため、「ニードル駆動」パープレキシティに基づく進化的探索を採用した効果的なRoPEリスケーリングアルゴリズム;(3) 長文コンテキストシーケンスに対してリスケーリングされたRoPEを適用しつつ、短文コンテキスト性能を元のRoPEで維持する混合コンテキストウィンドウ訓練手法。LLaMA3-8BおよびPhi3-mini-3.8Bを用いた様々なベンチマークでの広範な実験により、この仮説が検証され、LongRoPE2の有効性が実証されました。特に、LongRoPE2はLLaMA3-8Bの有効コンテキスト長を128Kに拡張し、短文コンテキスト性能の98.5%以上を維持しながら、わずか10Bトークンでこれを達成しています。これはMetaのアプローチの80分の1のトークン数であり、Metaの手法は目標の有効コンテキスト長に到達できませんでした。コードはhttps://github.com/microsoft/LongRoPEで公開予定です。
最近の建築、事前学習、微調整の革新により、LLaMAやDeepSeekなどの大規模な自己回帰言語モデルの驚異的な文脈学習と推論能力が実現されました。一方、BERTやRoBERTaなどのエンコーダは、多くのNLPアプリケーションで基盤となっているにもかかわらず、同じレベルの進歩を遂げていませんでした。このギャップを埋めるために、私たちはNeoBERTを導入しました。NeoBERTは、最先端の進歩を統合した次世代のエンコーダであり、建築、現代のデータ、最適化された事前学習手法の能力を再定義しています。NeoBERTはシームレスな採用を目指して設計されており、既存のベースモデルのプラグアンドプレイ置換として機能し、最適な深さ対幅比率に依存し、4,096トークンの拡張されたコンテキスト長を活用しています。コンパクトな250Mパラメータフットプリントにもかかわらず、Massive MTEBベンチマークで最先端の結果を達成し、BERT Large、RoBERTa Large、NomicBERT、ModernBERTを同一の微調整条件下で凌駕しています。さらに、GLUEへの各変更の影響を厳密に評価し、MTEB用の一貫した微調整および評価フレームワークを設計しています。研究と実世界での採用を加速するために、コード、データ、チェックポイント、トレーニングスクリプトをすべて公開しています。
視覚生成と理解の間の表現格差は、これらの能力を単一のフレームワークに統合する上で重大なギャップを生んでいます。このギャップを埋めるため、私たちはUniTokを導入しました。これは、生成のための細かな詳細をエンコードしつつ、理解のための高レベルの意味を捉える離散的な視覚トークナイザーです。最近の研究では、これらの目的がトレーニング中の損失の衝突を引き起こす可能性が示されていますが、私たちはその根本的なボトルネックが離散トークンの表現能力の限界にあることを明らかにしました。これを解決するため、複数の独立したサブコードブックでベクトル量子化を分割するマルチコードブック量子化を導入し、潜在特徴空間を拡張しながら、過大なコードブックによるトレーニングの不安定性を回避しました。私たちの手法は、統一された離散トークナイザーの上限を大幅に引き上げ、ドメイン固有の連続トークナイザーに匹敵し、あるいはそれを上回る性能を達成します。例えば、UniTokはImageNetにおいて、0.38のrFID(SD-VAEの0.87に対して)と78.6%のゼロショット精度(CLIPの76.2%に対して)を達成しました。私たちのコードはhttps://github.com/FoundationVision/UniTokで公開されています。
高度なテキストから画像への生成分野では、CLIPやT5などの強力なテキストエンコーダーをDiffusion Transformerのバックボーンと統合する統一されたフレームワークが台頭しています。追加の条件(例:cannyや深度マップ)を使用して出力画像を制御しようとする取り組みはあったものの、任意のテキスト-画像間制御の包括的なフレームワークはまだ不足しています。このギャップは、複数の画像からの概念や視覚要素を生成プロセスで統合しようとする際に特に顕著です。このギャップを緩和するため、大規模なマルチモーダルモデル(LMMs)が画像とテキストを外部拡散モデルの条件として機能する効果的な共有表現空間を提供することを示す予備実験を実施しました。この発見に基づき、任意のテキスト-画像間制御のための効率的で統一されたフレームワークであるDream Engineを提案します。SD3.5などの強力なテキストから画像へのモデルをベースに、QwenVLなどの多目的マルチモーダル情報エンコーダーを組み込むことで、元のテキスト専用エンコーダーを置き換えます。当社のアプローチは、共同テキスト-画像アライメントとマルチモーダル間交互指示チューニングから成る2段階のトレーニングパラダイムを活用しています。実験では、このトレーニング方法が効果的であり、GenEvalベンチマークで全体スコア0.69を達成し、SD3.5やFLUXなどの最先端のテキストから画像へのモデルと同等のパフォーマンスを達成していることが示されました。
多くの挑戦的な推論タスクでは、迅速で直感的な反応だけでなく、より慎重で多段階のアプローチが必要です。大規模言語モデル(LLM)の最近の進歩は、迅速な反応を示す「システム1」の方法から、反省と修正による問題解決の「システム2」スタイルへの重要なシフトを強調しています。しかし、現在のベンチマークは最終的な回答の正確さに大きく依存しており、モデルの中間推論ステップの多くが未検証のままです。これでは、推論プロセス内でモデルが反省し誤りを修正する能力を評価することができません。このギャップを埋めるため、私たちはLLMの推論能力を細かく評価するための論理パズルベンチマークであるFINEREASONを紹介します。各パズルは原子ステップに分解できるため、中間的な正確さを厳密に検証するのに理想的です。これを基に、モデルが現在の状況を評価し、次の行動を計画する方法を包括的に評価するための2つのタスク、状態チェックと状態遷移を導入します。より広範な研究を支援するため、一般的な数学的タスクのパフォーマンス向上を目指したパズルトレーニングセットも提供します。私たちの状態チェックと遷移データでトレーニングされたモデルは、GSM8Kにおいて最大5.1%の数学的推論の向上を示すことを実証しました。
大規模言語モデル(LLMs)はソフトウェア工学において卓越した性能を発揮しているものの、特にサードパーティライブラリのAPIが頻繁に更新される状況において、継続的に進化するコード知識に適応する際に課題に直面しています。この制約は、静的な事前学習データセットに起因しており、実行不可能なコードや安全性と効率性に劣る実装を生み出すことが少なくありません。この問題に対処するため、本論文ではCODESYNCを提案します。CODESYNCは、古くなったコードパターンを特定し、Pythonサードパーティライブラリからのリアルタイムなコード知識の更新を収集するデータエンジンです。CODESYNCを基盤として、コードの進化に同期するLLMsの能力を評価する包括的なベンチマークであるCODESYNCBENCHを開発しました。このベンチマークは、6つのPythonライブラリに含まれる220のAPIに対する現実世界の更新をカバーし、3つの評価タスクにわたる3,300のテストケースと、2,200のトレーニングサンプルからなる更新を意識した指示チューニングデータセットを提供します。14の最先端LLMsを用いた広範な実験により、動的なコード進化に対応する際に、高度な知識更新手法(例:DPO、ORPO、SimPO)のサポートがあっても困難を抱えていることが明らかになりました。我々は、このベンチマークが将来のリアルタイムコード知識更新のためのより効果的な手法の開発に強固な基盤を提供できると信じています。実験用のコードとデータセットは、https://github.com/Lucky-voyage/Code-Sync で公開されています。
その卓越した性能にもかかわらず、現代のDiffusion Transformerは、各ノイズ除去ステップに必要な固定かつ大量の計算量に起因し、推論時のリソース要求が非常に大きいという課題を抱えています。本研究では、ノイズ除去の各イテレーションに固定の計算予算を割り当てる従来の静的パラダイムを見直し、代わりに動的戦略を提案します。私たちのシンプルでサンプル効率の良いフレームワークにより、事前学習済みのDiTモデルを柔軟なモデル――FlexiDiTと名付けました――に変換し、様々な計算予算で入力を処理できるようにします。単一の柔軟なモデルが、クラス条件付きおよびテキスト条件付きの画像生成において、品質を損なうことなく画像を生成し、静的モデルと比較して必要なFLOPsを40%以上削減できることを実証します。私たちの手法は一般的であり、入力や条件付けのモダリティに依存しません。さらに、このアプローチが映像生成にも容易に拡張可能であることを示し、FlexiDiTモデルが性能を損なうことなく、最大75%少ない計算量でサンプルを生成できることを確認しました。
本研究では、Mobiusという新しい手法を提案します。この手法は、ユーザーの注釈を一切必要とせずに、テキスト記述からシームレスにループする動画を直接生成し、マルチメディアプレゼンテーションのための新しい視覚素材を創出します。私たちの手法は、事前学習済みのビデオ潜在拡散モデルを再利用し、テキストプロンプトからループ動画を生成しますが、追加の学習は必要ありません。推論時には、まず動画の開始ノイズと終了ノイズを接続することで潜在サイクルを構築します。ビデオ拡散モデルの文脈によって時間的一貫性が維持されることを考慮し、各ステップで最初のフレームの潜在を徐々に終端にシフトさせながら、複数フレームの潜在ノイズ除去を実行します。その結果、ノイズ除去の文脈は各ステップで変化しますが、推論プロセス全体を通して一貫性が維持されます。さらに、私たちの手法における潜在サイクルは任意の長さにすることが可能です。これにより、ビデオ拡散モデルの文脈の範囲を超えて、シームレスなループ動画を生成するための潜在シフト手法を拡張できます。従来のシネマグラフとは異なり、提案手法は外観として画像を必要としないため、生成結果の動きが制限されることはありません。代わりに、私たちの手法はよりダイナミックな動きと優れた視覚品質を実現できます。提案手法の有効性を検証するために、複数の実験と比較を行い、さまざまなシナリオでの効力を実証しました。すべてのコードを公開する予定です。
自己回帰(AR)モデリングは、次のトークン予測パラダイムで知られており、最先端の言語生成モデルや視覚生成モデルの基盤となっています。従来、"トークン"は、言語では離散的な記号、視覚では量子化されたパッチなど、しばしば最小の予測単位として扱われてきました。しかし、2次元画像構造に対する最適なトークン定義は未解決の問題です。さらに、ARモデルは露出バイアスに苦しんでおり、トレーニング中の教師強制が推論時の誤差蓄積につながります。本論文では、トークンを個々のパッチトークン、セル(k x kの近隣パッチグループ)、サブサンプル(遠隔パッチの非局所グループ)、スケール(粗いから細かい解像度)、あるいは全体の画像を表すエンティティXに拡張するxARという汎用ARフレームワークを提案します。さらに、離散的なトークン分類を連続的なエンティティ回帰として再定式化し、各ARステップでフローマッチング手法を活用します。このアプローチにより、訓練を正確なトークンではなくノイズのあるエンティティに依存させることで、露出バイアスを効果的に緩和するノイジーコンテキスト学習が可能となります。その結果、xARには2つの主要な利点があります:(1)異なる文脈の粒度や空間構造を捉える柔軟な予測ユニットを可能にし、(2)教師強制に依存せず露出バイアスを軽減します。ImageNet-256生成ベンチマークでは、当社のベースモデルであるxAR-B(172M)がDiT-XL/SiT-XL(675M)を上回り、推論速度は20倍速くなりました。一方、xAR-HはFID値が1.24となり、以前の最高性能モデルよりも2.2倍速く動作し、視覚基盤モジュール(例:DINOv2)や高度なガイダンス間隔サンプリングに依存せず、新たな最先端を確立しました。
コンピュータビジョンにおける重要な課題の1つは、関節のある物体の構築です。既存の手法はしばしば異なる物体状態間で情報を効果的に統合できず、部分メッシュ再構築や部分ダイナミクスモデリングの精度が制限されます。特に複雑な多部分の関節物体に対しては、その影響が顕著です。本研究では、これらの課題に対処する柔軟かつ効率的な表現として3Dガウス分布を活用する新しい手法ArtGSを提案します。当手法は、異なる物体状態間で関節部分情報を整列させるために、標準的なガウス分布を粗から細の初期化および更新と組み合わせ、さらに部分ダイナミクスモデリングモジュールを採用して、部分メッシュ再構築と関節学習の両方を改善します。複雑な多部分物体の新しいベンチマークを含む合成および実世界のデータセットでの幅広い実験により、ArtGSが共通パラメータ推定と部分メッシュ再構築において最先端の性能を達成することが示されました。当手法は、特に多部分の関節物体において再構築の品質と効率を著しく向上させます。さらに、設計選択の包括的な分析を提供し、各コンポーネントの有効性を検証して、将来の改善のための潜在的な領域を示しています。
近接方策最適化(PPO)ベースの人間フィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に合わせるために不可欠です。これには、事前学習済みの固定報酬モデルをガイドとして使用するアクターとクリティックの共同訓練が必要です。このアプローチは、アクターとクリティックの相互依存性により計算の複雑さと不安定性を増大させます。さらに、PPOはLLMタスクにおいて真の環境報酬にアクセスできないため、適応性が制限されます。このような条件下では、価値モデルまたは報酬モデルの事前学習は等価であり、どちらも新しい真実のフィードバックなしに固定された監督信号を提供します。これらの課題に対処するため、我々は従来の報酬モデリングを事前学習済みのグローバル価値モデル(GVM)に置き換える、簡潔なフレームワークであるDecoupled Value Policy Optimization(DVPO)を提案します。GVMは方策軌跡に条件付けられ、トークンレベルのリターン・トゥ・ゴー推定値を予測します。価値モデルを方策訓練から分離することにより(凍結されたGVM駆動のRL目標を通じて)、DVPOはアクターとクリティックの相互依存性を排除し、従来のRLHFと比較してGPUメモリ使用量を40%、訓練時間を35%削減します。ベンチマーク実験では、DVPOが効率的なRLHF手法(例:DPO)を上回り、最先端のPPOと同等の性能を発揮することが示されています。
大規模言語モデルを使用する自律型AIエージェントは、社会全体で否定できない価値を創造する可能性がありますが、信頼性と安全性の問題が発生するため、敵対者からのセキュリティ脅威に直面しています。監督されたトレーニング中に使用される静的なガードレールでは緩和できない、多数のショットのジェイルブレイキングや欺瞞的なアライメントをいくつかの主要な高度な攻撃として考慮すると、現実世界での堅牢性のための重要な研究優先度が示唆されます。静的なガードレールの組み合わせは、動的なマルチエージェントシステムにおいてこれらの攻撃に対して防御できません。私たちは、LLMベースのエージェントのセキュリティを向上させるため、新しい評価フレームワークの開発を通じて安全な運用展開のための脅威を特定し対抗することを意図しています。私たちの研究では、ローグエージェントを検出するためのリバースチューリングテスト、多エージェントシミュレーションを通じた欺瞞的なアライメントの分析、およびGEMINI 1.5 proおよびllama-3.3-70B、deepseek r1モデルを使用してツールを介した敵対的シナリオでテストすることにより、ジェイルブレイキングシステムを開発しています。検出能力は強力であり、GEMINI 1.5 proの場合、94%の精度がありますが、プロンプトの長さが増すと攻撃成功率(ASR)が上昇し、多様性メトリクスが予測において無効になり、複数の複雑なシステムの欠陥が明らかになると、システムは持続的な脆弱性に苦しむことがあります。調査結果は、エージェント自体によるアクティブな監視に基づく柔軟なセキュリティシステムの採用の必要性を示し、現行のモデルが信頼性のない脆弱なシステムにつながる可能性があるため、システム管理者による適応可能な介入と共に行うことができます。そのため、私たちの研究では、このような状況に対処し、セキュリティ問題に対抗する包括的なフレームワークを提案しようとしています。
主流の課題解決フレームワークは主に商用モデルに依存しており、高コストやプライバシー懸念を引き起こしています。既存の課題解決のためのトレーニング手法は、汎化性能の低さに悩まされており、オープンソース開発リソースを十分に活用できていません。本論文では、大規模言語モデル(LLM)の課題解決能力を向上させるための新しいトレーニング手法である「サブタスク指向型強化学習ファインチューニング(SoRFT)」を提案します。SoRFTは、課題解決を構造化されたサブタスク(ファイル特定、関数特定、行特定、コード編集生成)に分解します。SoRFTは2段階のトレーニングで構成されます:(1) 拒否サンプリングによる教師ありファインチューニングでは、Chain of Thought(CoT)データをグラウンドトゥルースでフィルタリングしてからLLMをファインチューニングし、(2) ルールベースの強化学習では、グラウンドトゥルースに基づく報酬を用いたPPOを活用します。SoRFTでトレーニングしたモデルをSWE-Bench VerifiedおよびSWE-Bench Liteで評価し、オープンソースモデルの中で最先端(SOTA)の性能を達成しました(例:SoRFT-Qwen-7BでSWE-Bench Verifiedの21.4%の課題を解決)。実験結果は、SoRFTが課題解決性能を大幅に向上させ、モデルの汎化性能を改善し、商用モデルに比べてコスト効率の高い代替手段を提供することを示しています。
最近、DeepSeek-R1のような推論能力を強化した大規模言語モデル(LLM)の画期的な進展にもかかわらず、機械翻訳(MT)に推論時の推論を組み込むことは、まだ十分に探究されていない。人間の翻訳者が自然に行う構造化された多層的な思考連鎖(CoTs)をMTに適用する試みは、特定のMTサブタスク(例:文学翻訳)に特化した固定のCoTを設計するか、人間と整合しないCoTを合成し、壊滅的な忘却を引き起こしやすい教師あり微調整(SFT)に依存する方法に限られており、多様な翻訳シナリオへの適応性が制限されている。本論文では、R1-Translator(R1-T1)という新しいフレームワークを紹介する。これは、人間と整合する6つの共通パターンからなるCoTを用いた強化学習(RL)を通じて、一般的なMTにおける推論時の推論を実現するものである。我々のアプローチは、以下の3つの革新を先駆けている:(1)推論に基づく翻訳をMTサブタスクを超えて6つの言語と多様なタスク(例:法律/医療分野の適応、慣用句の解決)に拡張する;(2)文脈を意識した言い換えや逆翻訳のようなハイブリッドな人間の戦略を反映する6つの専門家が策定したCoTテンプレートを形式化する;(3)KL制約付き報酬を用いたRLを通じて、自己進化するCoTの発見と忘却防止適応を可能にする。実験結果は、Flores-101テストセットにおける21言語と80の翻訳方向で、特にトレーニングから見えない15言語において、翻訳性能の着実な向上を示しており、通常のSFTと比較して一般的な多言語能力が維持されていることを示している。
大規模言語モデル(LLM)では、特定のニューロンが事前学習中に学習した異なる知識の要素を格納することができます。知識は通常、関係と実体の組み合わせとして現れますが、あるニューロンが実体に依存せずに関係そのものに焦点を当てているかどうかは不明です。私たちは、このようなニューロンが入力テキスト内の関係を検出し、そのような関係を含む生成を導くと仮説立てています。このために、我々は統計に基づく手法を用いて、選択した関係のセットについてLlama-2ファミリーを研究しています。実験では、関係固有のニューロンの存在を示しています。関係rに特化した候補ニューロンを選択的に非活性化することが、LLMがrである事実および異なる関係r'(r ≠ r')の事実を処理する能力に与える影響を測定しています。関係情報をエンコードする能力に関して、関係固有のニューロンの以下の3つの特性の証拠を示しています。 (i) ニューロンの累積性。関係rのニューロンは累積効果を示し、それらのより大きな部分を非活性化すると、rのより多くの事実の劣化が生じます。 (ii) ニューロンの多様性。ニューロンは、複数の密接に関連する関係だけでなく、それほど関連性の低い関係にも共有されることがあります。一部の関係ニューロンは言語を超えて転送されます。 (iii) ニューロンの干渉。ある関係に特化したニューロンを非活性化することで、他の関係の事実に対するLLMの生成パフォーマンスが向上することがあります。私たちは、コードを以下のURLで一般公開します:https://github.com/cisnlp/relation-specific-neurons.
最近のエージェントフレームワークと推論時のアルゴリズムは、生成された計画の検証や単一タスク内のインスタンスの複雑さの変動に対する制約の検証の限界により、複雑な計画問題に苦戦しています。これらのタスクに対する既存の多くの手法は、制約を考慮せずにタスクレベルの検証を行うか、インスタンスレベルの複雑さに適応しない推論時のアルゴリズムを適用します。これらの制限に対処するために、私たちはPlanGENを提案します。これはモデルに依存しない容易にスケーラブルなエージェントフレームワークであり、制約、検証、選択エージェントの3つの主要コンポーネントを備えています。具体的には、我々のアプローチは、制約に誘導された反復的検証を提案し、推論時のアルゴリズム(Best of N、Tree-of-Thought、REBASE)の性能を向上させます。PlanGENフレームワークでは、選択エージェントがインスタンスの複雑さに基づいてアルゴリズムの選択を最適化し、複雑な計画問題に対する適応性を向上させます。実験結果は、最も強力なベースラインに対して著しい改善を示し、NATURAL PLAN(約8%向上)、OlympiadBench(約4%向上)、DocFinQA(約7%向上)、GPQA(約1%向上)で最先端の結果を達成しています。私たちの主要な発見は、制約に誘導された反復的検証が推論時のアルゴリズムを改善し、適応的選択が複雑な計画と推論問題の性能をさらに向上させることを強調しています。
最近、一貫性トレーニング(CT)は、拡散モデルに代わる有望な選択肢として登場し、画像生成タスクで競争力のあるパフォーマンスを達成しています。ただし、非蒸留一貫性トレーニングはしばしば高い分散と不安定性に苦しむことがあり、そのトレーニングダイナミクスの分析と改善が研究の活発な分野です。本研究では、Flow Matchingフレームワークに基づく新しいCTトレーニングアプローチを提案します。主な貢献は、Variational Autoencoders(VAE)のアーキテクチャに触発されたトレーニングされたノイズ結合スキームです。データに依存したノイズ発生モデルをエンコーダアーキテクチャとして実装することで、我々の手法は間接的にノイズからデータへのマッピングの幾何学を学習することができます。これは、古典的なCTの前進プロセスの選択によって固定される代わりです。さまざまな画像データセットを対象とした実験結果は、顕著な生成的改善を示し、当社のモデルはベースラインを凌駕し、CIFAR-10における最先端の非蒸留CT FIDを達成し、64×64解像度のImageNetにおいても最先端に匹敵するFIDを2段階生成で達成しています。当社のコードは、https://github.com/sony/vct で入手可能です。
モノキュラー動画から動的シーンをレンダリングすることは重要かつ困難なタスクです。最近、変形可能なガウススプラッティングが現れ、現実世界の動的シーンを表現するための堅牢な解決策として注目されています。しかし、この手法はしばしば過剰なガウス関数を生み出し、さまざまな時間ステップで各トレーニングビューに適合しようとするため、レンダリング速度が遅くなることがあります。さらに、静的領域におけるガウス関数の属性は時間不変であるため、すべてのガウス関数をモデル化する必要はなく、静的領域でのジッタリングを引き起こす可能性があります。実際には、動的シーンのレンダリング速度における主要なボトルネックはガウス関数の数です。この課題に対処するために、私たちは効率的な動的ガウススプラッティング(EDGS)を導入しました。この手法は、スパースな時間変動属性モデリングを通じて動的シーンを表現します。私たちのアプローチは、スパースなアンカーグリッド表現を使用して動的シーンを定式化し、密なガウス関数のモーションフローを古典的なカーネル表現を用いて計算します。さらに、静的領域に対応するアンカーを効率的にフィルタリングするための教師なし戦略を提案します。変形可能なオブジェクトに関連するアンカーのみがMLPに入力され、時間変動属性をクエリします。2つの実世界データセットでの実験結果は、私たちのEDGSが従来の最先端手法と比較して、レンダリング速度を大幅に向上させ、優れたレンダリング品質を実現することを示しています。