翻訳付きの日次キュレーションされたAI研究論文
本報告では、30億パラメータの統一モデルであるOvis-U1を紹介します。Ovis-U1は、マルチモーダル理解、テキストから画像への生成、および画像編集機能を統合したモデルです。Ovisシリーズの基盤を基に、Ovis-U1は拡散ベースのビジュアルデコーダと双方向トークンリファイナーを組み合わせており、GPT-4oのような主要モデルに匹敵する画像生成タスクを実現しています。従来の一部のモデルが生成タスクに凍結されたMLLMを使用するのとは異なり、Ovis-U1は言語モデルから始まる新しい統一トレーニングアプローチを採用しています。理解タスクまたは生成タスクのみでトレーニングする場合と比較して、統一トレーニングはより優れたパフォーマンスを発揮し、これら2つのタスクを統合することで得られる向上を示しています。Ovis-U1は、OpenCompassマルチモーダルアカデミックベンチマークで69.6のスコアを達成し、Ristretto-3BやSAIL-VL-1.5-2Bなどの最新の最先端モデルを凌駕しています。テキストから画像への生成では、DPG-BenchとGenEvalベンチマークでそれぞれ83.72と0.89のスコアを記録しています。画像編集では、ImgEdit-BenchとGEdit-Bench-ENでそれぞれ4.00と6.42を達成しています。Ovis統一モデルシリーズの最初のバージョンとして、Ovis-U1はマルチモーダル理解、生成、および編集の境界を押し広げています。
最近の強化学習の進展により、言語モデルが検証可能な報酬を伴うタスクの訓練を通じて高度な推論能力を発達させることが示されています。しかし、これらのアプローチは人間が選定した問題と回答のペア、およびドメイン固有の報酬設計に依存しています。本論文では、SPIRALという自己対戦フレームワークを紹介します。このフレームワークでは、モデルが継続的に進化する自身のバージョンと多ターンのゼロサムゲームを行うことで学習し、人間の監督を必要としません。自己対戦を通じて、SPIRALはモデルがより強力な相手に適応しなければならないという状況下で、次第に難易度が上がる問題の無限のカリキュラムを生成します。この大規模な自己対戦訓練を可能にするため、我々は完全にオンラインで多ターン、多エージェントの強化学習システムを大規模言語モデル(LLM)向けに実装し、多エージェント訓練を安定化するための役割条件付きアドバンテージ推定(RAE)を提案します。SPIRALを使用してゼロサムゲームで自己対戦を行うことで、広範に転移可能な推論能力が生み出されます。Kuhn PokerのみでQwen3-4B-Baseを訓練した結果、数学で8.6%、一般的な推論で8.4%の改善が達成され、25,000のエキスパートゲーム軌跡を用いた教師あり微調整(SFT)を上回りました。分析によると、この転移は3つの認知パターンを通じて発生します:体系的な分解、期待値計算、ケースバイケースの分析です。複数ゲーム(TicTacToe、Kuhn Poker、Simple Negotiation)での訓練は、各ゲームが異なる推論の強みを発達させるため、さらなる性能向上をもたらします。強力な推論モデル(DeepSeek-R1-Distill-Qwen-7B)にSPIRALを適用しても、平均2.0%の改善が得られます。これらの結果は、ゼロサムゲームが自然に転移可能な推論能力を発達させることを示しており、自律的な推論開発の有望な方向性を強調しています。
完全なアテンションメカニズムの二次的な計算複雑性は、長時間かつ高解像度のビデオ生成を目指すビデオ拡散モデル(VDM)にとって重大なボトルネックとなっています。これまでに様々なスパースアテンションメソッドが提案されてきましたが、その多くはトレーニング不要の推論加速器として設計されているか、ビデオデータに固有の時空間的特性をネイティブにトレーニングする際に最適に捕捉できていません。本論文では、VDMに特化して適応された新しいスパースアテンションメカニズムであるVideo Mixture of Block Attention(VMoBA)を紹介します。事前学習済みのビデオトランスフォーマー内のアテーションパターンを詳細に分析した結果、強い時空間的局所性、クエリの重要性のばらつき、およびヘッドごとの集中レベルが明らかになりました。これに基づき、VMoBAは元のMoBAフレームワークを以下の3つの主要な改良点で強化しています:(1)多様な時空間的アテーションパターンに動的に適応し効率を向上させるための層ごとの再帰的ブロック分割スキーム(1D-2D-3D)、(2)アテンションヘッド全体で最も重要なクエリ-キーブロック相互作用を優先するためのグローバルブロック選択、(3)累積類似度に基づいて動的にアテンションするブロック数を決定するための閾値ベースのブロック選択。大規模な実験により、VMoBAが長いシーケンスでのVDMのトレーニングを大幅に加速し、2.92倍のFLOPsと1.48倍のレイテンシ速度向上を達成しつつ、完全なアテンションと同等またはそれ以上の生成品質を実現することが示されました。さらに、VMoBAはトレーニング不要の推論においても競争力のある性能を示し、高解像度ビデオ生成において2.40倍のFLOPsと1.35倍のレイテンシ速度向上を提供します。
Calligrapherを紹介します。これは、デジタルカリグラフィーとデザインアプリケーション向けに、先進的なテキストカスタマイズと芸術的なタイポグラフィを革新的に統合した、新しい拡散ベースのフレームワークです。タイポグラフィカスタマイズにおける正確なスタイル制御とデータ依存性の課題に対処するため、当フレームワークは3つの主要な技術的貢献を組み込んでいます。まず、事前学習済みのテキストから画像生成モデルと大規模言語モデルを活用して、スタイル中心のタイポグラフィベンチマークを自動的に構築する自己蒸留メカニズムを開発しました。次に、Qformerと線形層からなる学習可能なスタイルエンコーダを介した局所的なスタイル注入フレームワークを導入し、参照画像から堅牢なスタイル特徴を抽出します。さらに、参照画像をノイズ除去プロセスに直接埋め込むためのインコンテキスト生成メカニズムも採用し、ターゲットスタイルの洗練された整合性をさらに強化します。多様なフォントとデザインコンテキストにわたる広範な定量的および定性的評価により、Calligrapherが複雑なスタイルの詳細と正確なグリフ配置を正確に再現することが確認されました。高品質で視覚的に一貫したタイポグラフィを自動化することで、Calligrapherは従来のモデルを凌駕し、デジタルアート、ブランディング、コンテキストに応じたタイポグラフィデザインにおける創造的な実践者を支援します。
人間の視覚的選好に基づくロバストで汎化可能な報酬モデルのトレーニングは、テキストから画像やテキストから動画を生成するモデルを人間の意図に沿わせるために不可欠です。しかし、現在の報酬モデルはしばしば汎化に失敗し、教師ありファインチューニングは記憶化を招き、複雑なアノテーションパイプラインを必要とします。強化学習(RL)、特にGroup Relative Policy Optimization(GRPO)は汎化を改善しますが、重要な失敗モードが明らかになりました:モデルの推論トレースが、同じ出力を評価する独立した凍結された視覚言語モデル(「リスナー」)の推論トレースと矛盾する場合、推論精度が大幅に低下します。これを解決するため、リスナー拡張GRPOフレームワークを導入します。ここでは、リスナーが推論者の連鎖的思考を再評価し、緻密で較正された信頼度スコアを提供し、RLの報酬信号を形成します。これにより、推論者は正しく答えるだけでなく、独立したモデルにとって説得力のある説明を生成することが促されます。私たちのリスナー形状報酬スキームは、ImageRewardベンチマークで最高の精度(67.4%)を達成し、大規模な人間の選好データセット(120万票、素朴な推論者に対して最大+6%)での分布外(OOD)性能を大幅に改善し、強力なGRPOおよびSFTベースラインと比較して推論の矛盾を減少させます。これらの結果は、リスナーベースの報酬が、視覚言語モデルを微妙な人間の選好に沿わせるためのスケーラブルでデータ効率的な道を提供することを示しています。私たちの推論モデルはこちらでリリースします:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner。
従来の大規模言語モデル(LLM)プロンプティングの常識に挑戦する、新しいプロンプト設計パラダイムを提案します。従来の常識では、文脈内学習(ICL)のために洗練された指示やデモンストレーションを重視しますが、ランダムなデモンストレーションを一見無意味な「無意味な言葉」に刈り込むことで、多様なタスクにおいて驚くほど性能が向上することを示します。特に、この「無意味な言葉」は常に最先端の自動プロンプト最適化技術を上回るか同等の結果を達成し、LLMのアラインメントに関係なく大幅な改善をもたらします。しかし、効果的な刈り込み戦略を発見することは容易ではなく、既存の帰属手法やプロンプト圧縮アルゴリズムは堅牢な結果を提供できず、人間の直感さえも頼りになりません。この点において、低データ体制のみを使用して自動的に刈り込み戦略を探索する進化的探索フレームワークであるPromptQuineを提案します。自然界で資源制約に応じて生じる共生や自己組織化といった創発的複雑さと同様に、このフレームワークは文脈内に存在するトークンのみを活用して、非伝統的でありながら非常に効果的なプロンプトを進化させ、洗練します。分類、多肢選択問題回答、生成、数学的推論タスクにおいて、LLM全体でその有効性を実証し、良好な実行効率を達成します。我々の発見が文脈内学習に関するメカニズム研究を導き、より効果的なLLMプロンプティングのためのよりオープンエンドな探索アルゴリズムへの道を開く呼び水となることを期待します。
近年のオプティカルフロー推定の進展は、特に高解像度(FullHD)入力において、GPUメモリ消費量の増大を代償に精度を優先してきた。本論文では、メモリ効率の良いマルチフレームオプティカルフロー手法であるMEMFOFを提案する。この手法は、マルチフレーム推定とGPUメモリ使用量の間で最適なトレードオフを見出している。特に、MEMFOFは1080p入力において実行時にわずか2.09GBのGPUメモリを必要とし、トレーニング時でも28.5GBしか使用しない。これにより、クロッピングやダウンサンプリングを必要とせずに、ネイティブの1080p解像度でトレーニングできる唯一の手法となっている。RAFT風アーキテクチャの設計選択を体系的に見直し、縮小された相関ボリュームと高解像度トレーニングプロトコルをマルチフレーム推定と統合することで、メモリオーバーヘッドを大幅に削減しつつ、複数のベンチマークで最先端の性能を達成した。本手法は、よりリソース集約的な代替手法よりも精度と実行効率の両面で優れており、高解像度でのフロー推定における堅牢性を実証している。投稿時点で、本手法はSpringベンチマークで1ピクセル(1px)外れ値率3.289で1位、Sintel(clean)でエンドポイントエラー(EPE)0.963で首位、KITTI-2015ではFl-allエラー2.94%で最高性能を達成している。コードはhttps://github.com/msu-video-group/memfofで公開されている。
Time-of-Flight(ToF)センサーによって取得された深度画像はノイズの影響を受けやすく、信頼性の高い下流アプリケーションのためにはノイズ除去が必要です。従来の研究では、単一フレーム処理に焦点を当てるか、フレーム間の対応するピクセルにおける深度の変化を考慮せずにマルチフレーム処理を行うため、望ましくない時間的な不整合や空間的な曖昧さが生じていました。本論文では、モーション不変なグラフ融合を活用した新しいToF深度ノイズ除去ネットワークを提案し、時間的な安定性と空間的な鮮明さを同時に向上させます。具体的には、フレーム間で深度が変化しても、グラフ構造は時間的な自己相似性を示し、これによりフレーム間の幾何学的な注意機構を用いたグラフ融合が可能となります。次に、融合されたグラフに画像の平滑性事前分布を組み込み、ToFノイズ分布から導出されたデータ忠実度項を加えることで、ToFノイズ除去のための最大事後確率問題を定式化します。最後に、この解を反復フィルタに展開し、その重みをグラフに基づいた幾何学的な注意機構から適応的に学習することで、高性能でありながら解釈可能なネットワークを構築します。実験結果は、提案手法が合成DVToFデータセットにおいて精度と一貫性の点で最先端の性能を達成し、実世界のKinectv2データセットにおいても頑健な汎化性能を示すことを実証しています。ソースコードはhttps://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}で公開予定です。
LLMのファインチューニングは、計算量とメモリ使用量の両面で負荷が大きい。QLoRAやDoRAなどのパラメータ効率型ファインチューニング手法は、学習可能なパラメータ数を削減しメモリ使用量を低減するが、計算コストを削減することはない。場合によっては、ファインチューニングの速度を遅くすることさえある。本論文では、コンテキストスパース性を活用してLLMのファインチューニングを高速化する手法であるSparseLoRAを提案する。我々は、軽量で学習不要なSVDスパース性推定器を導入し、損失と勾配計算のために動的にスパースな重みのサブセットを選択する。さらに、層、トークン、学習ステップにわたる感度を体系的に分析し、その課題に対処する。実験結果から、SparseLoRAは計算コストを最大2.2倍削減し、実測速度を最大1.6倍向上させながら、常識推論や算術推論、コード生成、指示追従などの多様な下流タスクにおいて精度を維持することが示された。
大規模言語モデル(LLM)の最近の進展により、デコード時のスケーリングや自己改良などの推論時計算技術が、外部知識に依存せずに推論能力を大幅に向上させることが実証されています。この成功の主要な要因は、強化学習(RL)を通じて引き出される自己修正や自己検証の行動の出現です。本論文では、これらの推論時技術が視覚言語モデル(VLM)、特にRLで訓練されたモデルに効果的に拡張されるかどうかを調査します。我々は、多数決や自己検証を伴うbest-of-N選択などのデコード戦略がVLMの推論性能を向上させる一方で、前者のような生成に依存する方法が後者のような検証に依存する方法よりも大幅に高い効果を達成することを発見しました。さらに、RLで調整されたモデルにしばしば関連付けられる「ahaモーメント」のような自己修正行動は、測定可能な向上をもたらしません。推論時スケーリングフレームワーク内での広範な実験を通じて、その根本的な原因を特定しました:RLで訓練されたVLMは、視覚とテキストの両モダリティにわたる堅牢な自己検証能力を依然として欠いているのです。
複数のモダリティからの情報を処理し、段階的に推論する能力は、人工知能の進歩において依然として重要な課題である。しかし、既存の推論ベンチマークはテキストのみの推論に焦点を当てているか、非テキストモダリティから直接情報を取得することで回答可能なマルチモーダル質問を採用している。そのため、複雑な推論はマルチモーダル領域において十分に理解されていない。ここでは、MARBLEという、マルチモーダル言語モデル(MLLM)が複雑なマルチモーダル問題や環境を慎重に段階的に推論する能力を精査するために設計された挑戦的なマルチモーダル推論ベンチマークを紹介する。MARBLEは、空間的、視覚的、物理的制約の下で多段階の計画を策定し理解することを要求する、非常に挑戦的な2つのタスク、M-PortalとM-Cubeで構成されている。現在のMLLMはMARBLEにおいて低い性能を示しており、12の先進モデルすべてがM-Portalでほぼランダムな性能を、M-Cubeでは0%の精度を記録している。簡略化されたサブタスクにおいてのみ、いくつかのモデルがランダムベースラインを上回っており、複雑な推論が既存のMLLMにとって依然として課題であることが示されている。さらに、知覚がボトルネックとなっており、MLLMが視覚入力から情報を抽出できない場合があることも明らかにした。MLLMの限界を明らかにすることで、MARBLEが多くのマルチモーダル推論ステップを跨いで推論し計画する能力を持つ次世代モデルの開発を促進することを期待している。
大規模言語モデル(LLM)を基盤としたエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行する可能性を示しています。さらに、機械学習や自然科学の研究パイプラインの一部を実行できるエージェントの開発も進んでいます。本研究では、研究の拡張とその実装が、こうしたシステムにとって重要な能力であると主張し、この能力を評価するためのRExBenchを紹介します。RExBenchは、これまでに実装されていない研究仮説を調査することを目的とした、12の現実的な研究実験実装タスクからなるベンチマークです。各タスクは、既存の研究論文とコードベースに対する拡張として設定され、ドメインエキスパートが作成した指示が付属しています。RExBenchはデータ汚染に対して頑健であり、エージェントの出力を実行して成功基準が満たされているかどうかを判定する自動評価インフラをサポートしています。このベンチマークを使用して、aider、Claude Code、OpenHandsという3つの異なるフレームワークで実装された9つのLLMエージェントを評価しました。その結果、評価されたすべてのエージェントが、拡張の大部分を自律的に実装することに失敗していることがわかりました。人間が追加したヒントによって成功率は向上するものの、この設定下での最高のパフォーマンスでも40%未満にとどまります。これは、現状のエージェントが、現実的な研究拡張タスクを人間の大幅なガイダンスなしに処理できる段階にはまだ達していないことを示しています。
都市研究は、多様なシナリオとタスクを含み、多モーダルデータの理解を必要とします。現在の手法は特定のデータタイプに焦点を当てることが多く、都市分野における包括的な処理のための統一的なフレームワークが不足しています。最近のマルチモーダル大規模言語モデル(MLLMs)の成功は、この制限を克服する有望な機会を提供しています。本論文では、これら4種類のデータを同時に処理し、一般的なMLLMsと比較して多様な都市タスクで優れた性能を発揮するように設計されたマルチモーダル大規模言語モデル、UrbanLLaVAを紹介します。UrbanLLaVAでは、まず、単一モーダルおよびクロスモーダルの都市データを含む多様な都市指示データセットをキュレーションし、都市環境のロケーション視点からグローバル視点までを網羅します。さらに、空間推論の強化とドメイン知識の学習を分離する多段階トレーニングフレームワークを提案し、UrbanLLaVAの互換性と下流タスクでの性能を向上させます。最後に、既存の都市研究のベンチマークを拡張し、MLLMsの多様な都市タスクにおける性能を評価します。3つの都市での実験結果は、UrbanLLaVAがオープンソースおよびプロプライエタリのMLLMsを単一モーダルタスクと複雑なクロスモーダルタスクの両方で上回り、都市間での堅牢な汎化能力を示すことを実証しています。ソースコードとデータは、https://github.com/tsinghua-fib-lab/UrbanLLaVA を通じて研究コミュニティに公開されています。
外部ツールの統合を関数呼び出しを通じて実現することは、実用的な言語モデルアプリケーションにおいて不可欠である。しかし、ほとんどの多言語モデルは、非英語言語における信頼性の高いツール使用能力を欠いている。最先端の多言語モデルでさえ、ツールを使用するタイミングや関数呼び出しに必要な構造化された出力を生成する際に苦戦し、低リソース言語でプロンプトされた場合には言語の混乱を示すことが多い。本研究では、ブルガリア語をケーススタディとして、既存の言語モデルを適応させ、任意のターゲット言語で堅牢なツール使用を可能にする方法論を提示する。このアプローチでは、BgGPTモデルシリーズ(2.6B、9B、27Bパラメータ)を、MCP(Model Context Protocol)のような標準化されたプロトコルをサポートするために設計された10,035の関数呼び出し例を含む新しいバイリンガルデータセットで継続的にトレーニングする。本研究では、TUCAN(Tool-Using Capable Assistant Navigator)を導入し、ベースモデルと比較して関数呼び出しの精度が最大28.75%向上し、確立されたブルガリア語のベンチマークで検証されたコア言語理解能力を維持している。精度の向上に加えて、TUCANモデルは、ベースモデルの冗長で一貫性のない出力とは対照的に、クリーンで解析可能な関数呼び出しを備えた本番環境対応の応答フォーマットを示す。モデル、評価フレームワーク、およびデータセットは、他の言語での再現を可能にするために公開されている。本研究は、英語中心のシステムを超えてツール拡張能力を拡張するための実用的なアプローチを示している。
エンドツーエンドのビデオからオーディオ生成は大きく進化してきたものの、視覚的コンテンツのニュアンスを忠実に捉えた高忠実度オーディオの生成は依然として課題となっています。クリエイティブ産業の専門家と同様に、このような生成には、視覚的ダイナミクス、音響環境、時間的関係性などについての高度な推論が必要です。本論文では、Chain-of-Thought(CoT)推論を活用し、ビデオに対する段階的でインタラクティブなオーディオ生成と編集を可能にする新しいフレームワーク「ThinkSound」を提案します。我々のアプローチは、プロセスを3つの補完的な段階に分解します:意味的に一貫したサウンドスケープを作成する基礎的なフォーリー生成、正確なユーザーインタラクションを通じたオブジェクト中心のインタラクティブなリファインメント、自然言語指示に基づくターゲット編集です。各段階では、マルチモーダル大規模言語モデルが文脈に沿ったCoT推論を生成し、統一されたオーディオ基盤モデルを導きます。さらに、視覚的コンテンツ、テキスト記述、音響合成の間の関連性を確立する構造化された推論アノテーションを含む包括的なデータセット「AudioCoT」を導入します。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方においてビデオからオーディオ生成の最先端性能を達成し、分布外のMovie Gen Audioベンチマークでも優れた結果を示すことが実証されました。デモページはhttps://ThinkSound-Project.github.ioで公開されています。
本論文では、ドラフトベースの推測的デコード(SpD)手法の性能を向上させるためのシンプルなトレーニング不要の技術を紹介する。この技術は、ドラフトプロセス中に言語モデリングヘッド(LMヘッド)を組み込むものである。ドラフトベースの推測的デコードは、1つ以上の小さな言語モデル(ドラフターまたはドラフトモデル)を活用して、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングし、その後、ベースLLM(ターゲットモデル)による検証を行い、その一部を有効な生成として受け入れる。通常、推測的デコードにはターゲットモデルとドラフトモデルの語彙間の1対1マッピングが必要とされるため、それらの間で語彙を共有するか、EAGLEやMedusaのようにLMヘッドを共有することが自然と考えられてきた。我々はまず、このドラフトトークンサンプリングスキームが、特に非常に大きな語彙を持つ一部のターゲットLLMにおいて、ドラフトプロセスに不必要な推論オーバーヘッドを含んでいることを指摘する。次に、メモリ制約環境下での生成速度を向上させるために、ドラフトオーバーヘッドを軽減するシンプルな技術、VocabTrimを提案する。VocabTrimは、ドラフターのLMヘッドを再構築し、ターゲットモデルの語彙から最も頻繁にサンプリングされるトークンのみを含むように制限する。ドラフト中の語彙を制限することは受け入れ率をわずかに低下させるが、エッジデバイスでよく見られるメモリ制約プロセスにおけるドラフト遅延を大幅に削減し、結果としてメモリ制約速度向上(MBSU)を高める。我々の手法が、Spec-Bench上のLlama-3モデル、特にLlama-3.2-3B-Instructにおいて、メモリ制約速度向上を16%向上させることを示す。
事前学習済みの大規模言語モデル(LLM)をファインチューニングすることは、機械翻訳などの特定のタスクにおいて最先端の性能を達成するための効果的な戦略として示されてきました。しかし、この適応プロセスは、会話推論や指示追従などの汎用能力を犠牲にすることをしばしば意味し、複数のスキルを必要とする現実世界のアプリケーションにおけるシステムの有用性を損なうことがあります。本論文では、翻訳と多言語汎用テキスト能力の両方で優れた性能を発揮するように設計されたモデル群であるTower+を紹介します。我々は、Tower(Alves et al., 2024)を基盤とした新しいトレーニングレシピを導入することで、翻訳の専門性と多言語汎用能力の間のパレートフロンティアを達成しました。このレシピは、継続的な事前学習、教師ありファインチューニング、選好最適化、および検証可能な報酬を用いた強化学習を含みます。トレーニングの各段階において、翻訳だけでなく、コード生成、数学的問題解決、一般的な指示追従を含む汎用タスクの性能を強化するために、データを慎重に生成し、キュレーションしました。我々は、2B、9B、72Bという複数のスケールでモデルを開発しました。我々の小型モデルは、しばしばより大規模な汎用オープンウェイトおよびプロプライエタリLLM(例:Llama 3.3 70B、GPT-4o)を上回ります。我々の最大のモデルは、高リソース言語において最高クラスの翻訳性能を提供し、多言語Arena Hard評価および翻訳と指示追従の両方を評価するために導入したIF-MTベンチマークでトップの結果を達成します。我々の研究結果は、翻訳やローカライゼーションなどの特定のビジネスドメインを最適化しながら、汎用能力において最先端のモデルと競合することが可能であることを強調しています。
世界モデルは、現実的なロボット動画を生成しつつ、重要なデータ不足の課題に対処できる強力なシミュレーターとして、具現化された知能にとって不可欠なツールとなっています。しかし、現在の具現化世界モデルは、特に3Dジオメトリと運動ダイナミクスのモデリングにおいて物理的認識が限られており、接触の多いロボットシナリオでは非現実的な動画生成が行われています。本論文では、RGB動画生成と物理知識を統合フレームワーク内で共同学習する統一された物理情報世界モデル「RoboScape」を提案します。我々は、動画レンダリングにおける3D幾何学的整合性を高める時間的深度予測と、物体形状や材料特性などの物理的特性を暗黙的にエンコードしつつ複雑な運動モデリングを改善するキーポイントダイナミクス学習という、2つの主要な物理情報共同学習タスクを導入します。広範な実験により、RoboScapeが多様なロボットシナリオにおいて優れた視覚的忠実度と物理的妥当性を備えた動画を生成することが実証されました。さらに、生成データを用いたロボットポリシー訓練やポリシー評価などの下流アプリケーションを通じて、その実用性を検証しています。本研究は、具現化知能研究を進めるための効率的な物理情報世界モデルの構築に新たな知見を提供します。コードは以下で公開されています: https://github.com/tsinghua-fib-lab/RoboScape.
メタレンズは超小型計算イメージングにおいて大きな可能性を秘めていますが、複雑な光学的劣化と計算的復元の困難さという課題に直面しています。既存の手法は、通常、精密な光学キャリブレーションや大規模なペアデータセットに依存しており、現実世界のイメージングシステムにとっては非自明です。さらに、推論プロセスに対する制御の欠如が、望ましくない幻覚的アーティファクトを引き起こすことがよくあります。本論文では、大規模データセットの代わりに事前学習済みモデルから得られる強力な自然画像事前分布を活用し、調整可能なメタレンズ写真撮影のためのDegradation-Modeled Multipath Diffusionを提案します。私たちのフレームワークは、高周波ディテール生成、構造的忠実度、メタレンズ固有の劣化抑制をバランスよく行うために、ポジティブ、ニュートラル、ネガティブプロンプトパスを使用し、疑似データ拡張を併用します。調整可能なデコーダにより、忠実度と知覚品質の間の制御されたトレードオフが可能です。さらに、空間的に変化する劣化認識注意(SVDA)モジュールが、複雑な光学的およびセンサー誘起劣化を適応的にモデル化します。最後に、現実世界での検証のためにミリメートルスケールのMetaCameraを設計・構築しました。広範な結果は、私たちのアプローチが最先端の手法を上回り、高忠実度でシャープな画像再構成を実現することを示しています。詳細資料: https://dmdiff.github.io/