翻訳付きの日次キュレーションされたAI研究論文
メモリは、基盤モデルベースのエージェントの中核能力として登場し、今後もその地位を維持し続けるでしょう。エージェントメモリに関する研究が急速に拡大し、かつてない注目を集める中、この分野はますます分断されつつあります。エージェントメモリの傘下に分類される既存の研究は、動機付け、実装方法、評価手法において大きく異なることが多く、厳密に定義されていないメモリ用語の氾濫が概念的な明確さをさらに曖昧にしています。長期記憶/短期記憶といった従来の分類法は、現代のエージェントメモリシステムの多様性を捉えるには不十分であることが明らかになっています。 本稿は、現在のエージェントメモリ研究の最新の状況を提供することを目的としています。まず、エージェントメモリの範囲を明確に区画し、LLMメモリ、検索拡張生成(RAG)、コンテキストエンジニアリングなどの関連概念と区別します。次に、エージェントメモリを、形態、機能、動態という統一的な視点から検討します。形態の観点から、トークンレベルメモリ、パラメトリックメモリ、潜在メモリという3つの主要な実現形態を特定します。機能の観点からは、事実記憶、経験記憶、作業記憶を区別する、より細分化された分類法を提案します。動態の観点からは、時間の経過とともにメモリがどのように形成、進化、検索されるかを分析します。 実用的な開発を支援するため、メモリのベンチマークとオープンソースフレームワークの包括的なまとめを編纂しました。整理を超えて、メモリ自動化、強化学習の統合、マルチモーダルメモリ、マルチエージェントメモリ、信頼性の問題といった新たな研究フロンティアに関する将来を見据えた視点を明確に述べています。本サーベイが、既存研究の参照資料としてだけでなく、将来のエージェント知能の設計においてメモリを第一級の要素として再考するための概念的基盤としても役立つことを願っています。
自己回帰モデル(ARM)は、逐次的な推論の遅さが課題となっている。マスク拡散モデル(MDM)は並列処理による代替手段を提供するが、重大な欠点を抱えている。すなわち、Key-Value(KV)キャッシュの利用が不可能なことによる高い計算コスト、およびトークン組み合わせの扱いにくい空間における依存関係の学習に起因する非連続的な生成である。これらの制限を解決するため、我々はReFusionを提案する。この新しいマスク拡散モデルは、並列デコードをトークンレベルからより高次のスロットレベル(各スロットは固定長の連続部分列)に昇華させることで、優れた性能と効率を実現する。これは反復的な「計画と埋め込み」デコードプロセスによって達成される。拡散ベースの計画ステップで弱依存なスロット群を特定し、自己回帰的埋め込みステップで選択されたスロットを並列にデコードする。スロットベースの設計は、統一された因果的フレームワークによる完全なKVキャッシュ再利用を可能にすると同時に、学習の複雑さをトークン組み合わせ空間から管理可能なスロット順列空間に削減する。7つの多様なベンチマークによる大規模な実験により、ReFusionが従来のMDMを34%の性能向上と平均18倍超の高速化で圧倒的に凌駕するだけでなく、強力なARMとの性能差を埋めつつ平均2.33倍の高速化を維持することを実証した。
QwenLong-L1.5を紹介します。本モデルは、体系的なポストトレーニング技術の革新により、優れた長文脈推論能力を実現しています。QwenLong-L1.5の主要な技術的ブレークスルーは以下の通りです。 (1) **長文脈データ合成パイプライン**: 文書を原子的事実とその背後にある関係性に分解し、プログラムによって検証可能な推論問題を構築する体系的合成フレームワークを開発しました。これにより、グローバルに分散した証拠に対するマルチホップの接地を必要とする挑戦的な推論タスクを生成し、単純な検索タスクを大幅に超えた高品質な訓練データを大規模に作成し、真の長距離推論能力を可能にします。 (2) **長文脈訓練のための安定化強化学習**: 長文脈RLにおける重大な不安定性を克服するため、報酬バイアスを軽減するタスク均衡サンプリングとタスク特化のアドバンテージ推定を導入し、探索と利用のトレードオフを動的に調整する適応エントロピー制御方策最適化(AEPO)を提案します。 (3) **超長文脈のためのメモリ拡張アーキテクチャ**: 拡張されたコンテキストウィンドウでさえ任意の長いシーケンスに対応できないことを認識し、4Mトークンを超えるタスクにおいて、単一パス推論と反復的なメモリベース処理をシームレスに統合する、多段階融合RL訓練を備えたメモリ管理フレームワークを開発しました。 Qwen3-30B-A3B-Thinkingを基盤とするQwenLong-L1.5は、長文脈推論ベンチマークにおいてGPT-5やGemini-2.5-Proに匹敵する性能を達成し、ベースラインを平均9.90ポイント上回りました。超長文脈タスク(1M~4Mトークン)では、QwenLong-L1.5のメモリエージェントフレームワークがエージェントベースラインを9.48ポイント上回る効果を示しました。さらに、獲得された長文脈推論能力は、科学的推論、メモリツールの使用、拡張対話などの一般的な領域における性能向上にも寄与しています。
視覚トークナイザ(VAEなど)における潜在空間の質は、現代の生成モデルにとって極めて重要である。しかし、標準的な再構成ベースの訓練パラダイムは低レベル情報に偏った潜在空間を生み出し、根本的な欠陥を引き起こしている:ピクセルレベルの精度向上が生成品質の向上につながらないのである。これは、視覚トークナイザの事前学習に多大な計算資源を投入しても、生成性能の改善にはほとんど寄与しないことを意味する。我々はこれを「事前学習のスケーリング問題」と定義し、効果的な生成のためには潜在空間が高レベル意味情報を簡潔に表現する必要があるというパラダイム転換を提唱する。本論文では、統合型視覚トークナイザ事前学習フレームワークVTPを提案し、画像-テキスト対比損失・自己教師あり損失・再構成損失の共同最適化を先駆的に実現する。大規模実験により二つの主要な知見を得た:(1)理解能力が生成性能の鍵となる駆動力であること、(2)従来より優れたスケーリング特性(トークナイザ事前学習に割り当てる計算量・パラメータ数・データ量に対して生成性能が効率的に向上すること)である。大規模事前学習後、当トークナイザは競合性能(ImageNetでゼロショット精度78.2%、rFID 0.36)を達成し、先進的な蒸留手法と比べて生成タスクで4.1倍の収束速度を実現した。さらに重要なのはその効率的なスケーリング性である:標準DiT訓練設定を変更せず、VTP事前学習に更多のFLOPSを投入するだけで下流生成タスクで65.8%のFID改善を達成したのに対し、従来のオートエンコーダはその10分の1のFLOPS時点で早期に性能が頭打ちとなった。事前学習モデルはhttps://github.com/MiniMax-AI/VTPで公開している。
事前学習済み映像生成システムを基盤としたビデオ世界モデルの構築は、時空間的一般知能に向けた重要かつ挑戦的な一歩である。世界モデルは三つの本質的特性を備えるべきである:制御性、長期的な視覚的品質、時間的一貫性である。この目的に向けて、我々は段階的アプローチを採用する―まず制御性を強化し、その後、長期的で高品質な生成へと拡張する。我々はLongVie 2を提案する。これは三段階で学習されるエンドツーエンドの自己回帰的フレームワークである:(1) マルチモーダルガイダンスは、密な制御信号と疎な制御信号を統合し、暗黙的な世界レベル監督を提供して制御性を向上させる;(2) 入力フレームに対する劣化対応学習は、学習と長期推論の間のギャップを埋め、高い視覚的品質を維持する;(3) 履歴文脈ガイダンスは、隣接クリップ間の文脈情報を整合させ、時間的一貫性を保証する。さらに我々はLongVGenBenchを導入する。これは多様な実世界環境と合成環境をカバーする100本の高解像度1分動画から構成される包括的ベンチマークである。大規模な実験により、LongVie 2が長距離制御性、時間的連続性、視覚的忠実度において最先端の性能を達成し、最大5分間の連続的ビデオ生成をサポートすることが実証され、統一的なビデオ世界モデリングに向けた重要な進展を示している。
我々は、実世界のエンタープライズレベルの専門業務ワークフローにおいてAIエージェントを評価するための財務・会計ベンチマーク(Finch)を提案する。これはデータ入力、構造化、書式設定、ウェブ検索、ファイル横断検索、計算、モデリング、検証、翻訳、可視化、レポート作成を組み合わせたものである。Finchはエンロン(150名の従業員による15,000のスプレッドシートと50万通のメール)およびその他の金融機関の実際の業務環境から収集され、マルチモーダルな成果物(テキスト、表、数式、チャート、コード、画像)にわたる実世界の複雑さを保持し、予算管理、トレーディング、資産管理など多様な領域を網羅している。 ワークフロー構築プロセスとして、LLM支援による発見と専門家による注釈を組み合わせた手法を提案する:(1)実世界のメールスレッドとスプレッドシートのバージョン履歴から、LLM支援によるワークフローの抽出を専門家が検証、(2)700時間以上のドメイン専門家による緻密なワークフロー注釈。これにより172の複合ワークフロー(384タスク)が構築され、27百万セルを含む1,710のスプレッドシートとPDF等の成果物から、実企業業務に固有の複雑性、長期性、知識集約性、協調性を捉えている。 GPT 5.1、Claude Sonnet 4.5、Gemini 3 Pro、Grok 4、Qwen 3 Maxなどの先進AIシステムについて人間評価と自動評価を実施。GPT 5.1 Proは合計48時間を要しながらワークフローの38.4%のみを通過、Claude Sonnet 4.5は25.0%の通過率であった。詳細なケーススタディにより、実企業ワークフローがAIエージェントに課す課題がさらに明らかになっている。
コーディングエージェントの最近の進歩は自律的なソフトウェア開発に向けた急速な進展を示唆しているが、既存のベンチマークは完全なソフトウェアシステムを構築するために必要な長期的な能力を厳密に評価できていない。従来の評価のほとんどは、局所的なコード生成、足場付きの補完、あるいは短期的な修正タスクに焦点を当てており、現実のリポジトリ構築で求められる長期的な視野において、エージェントが首尾一貫した推論、計画、実行を維持できるかどうかは未解決の問題である。この課題を解決するため、我々はコーディングエージェントの長期的リポジトリ生成能力を評価するために明示的に設計されたベンチマーク「NL2Repo Bench」を提案する。単一の自然言語要求文書と空のワークスペースのみが与えられた条件下で、エージェントは自律的にアーキテクチャを設計し、依存関係を管理し、複数モジュールのロジックを実装し、完全にインストール可能なPythonライブラリを生成しなければならない。最先端のオープンソースおよびクローズドソースモデルを用いた実験により、長期的なリポジトリ生成は大部分が未解決であることが明らかとなった:最も強力なエージェントでさえ平均テスト合格率が40%未満であり、完全なリポジトリを正確に完成させることは稀である。詳細な分析から、早期終了、グローバルな一貫性の喪失、脆弱なクロスファイル依存関係、数百の相互作用ステップにわたる不適切な計画といった、長期的な視野における根本的な失敗モードが明らかになった。NL2Repo Benchは、持続的なエージェント能力を測定するための厳密で検証可能なテストベッドを確立し、長期的な推論が次世代自律コーディングエージェントの中核的ボトルネックであることを浮き彫りにする。
線形時間注意機構と状態空間モデル(SSM)は、ソフトマックス注意を用いる長文脈言語モデルにおける二次コストのボトルネック解決が期待されている。本論文では、数値的に安定し、完全並列化可能で、デルタ則を一般化した定式化である誤差ゼロ線形注意(EFLA)を提案する。具体的には、オンライン学習の更新を連続時間動的システムとして定式化し、その厳密解が達成可能であるだけでなく、線形時間かつ完全並列で計算可能であることを証明する。動的システム行列のランク1構造を活用することで、実質的に無限次ルンゲ・クッタ法に対応する厳密な閉形式解を直接導出する。この注意機構は理論上誤差蓄積がなく、連続的な動的特性を完全に捉えつつ線形時間計算量を維持する。一連の詳細な実験を通じて、EFLAがノイズの多い環境下でも頑健な性能を発揮し、追加パラメータを導入することなくDeltaNetを上回る低い言語モデリングパープレキシティと優れた下流タスク性能を達成することを示す。本研究は高精度でスケーラブルな線形時間注意モデル構築の新たな理論的基盤を提供する。
アバター動画生成モデルは近年目覚ましい進歩を遂げている。しかし、既存の研究では長時間の高解像度動画生成における効率性に限界があり、動画の長さが増すにつれて時間的なドリフト、品質劣化、プロンプト追従性の弱体化といった課題に直面している。これらの課題に対処するため、我々は空間解像度と時間次元の両方でアップスケーリングを行う時空間カスケードフレームワーク「KlingAvatar 2.0」を提案する。本フレームワークはまず、大域的な意味論と動きを捉えた低解像度の設計図的キーフレーム動画を生成し、その後、最初と最後のフレームを活用した戦略を用いて、それらを高解像度で時間的に一貫性のあるサブクリップに精緻化するとともに、長尺動画において滑らかな時間的遷移を保持する。長時間動画におけるクロスモーダルな指示の融合とアライメントを強化するため、3つのモダリティ特化型大規模言語モデル(LLM)エキスパートで構成される「共同推論ディレクター」を導入する。これらのエキスパートはモダリティの優先順位を推論し、背後にあるユーザーの意図を推定することで、マルチターン対話を通じて入力を詳細なストーリーラインに変換する。「否定ディレクター」は、否定プロンプトをさらに精緻化し、指示へのアライメントを改善する。これらのコンポーネントに基づき、フレームワークを拡張してID固有の複数キャラクター制御をサポートする。大規模な実験により、本モデルが、効率的でマルチモーダルにアライメントされた長尺高解像度動画生成の課題を効果的に解決し、視覚的な明瞭性の向上、正確なリップシンクを伴った現実的な唇と歯のレンダリング、強力なアイデンティティ保存、一貫したマルチモーダル指示の追従を実現することが実証された。
精神保健障害は世界中で数億人に影響を与えており、現在ウェブは支援、情報、評価にアクセスする主要な媒体となっている。大規模言語モデル(LLM)は拡張性とアクセス性に優れた支援を提供するが、その推論が不完全、矛盾、または根拠薄弱な場合、精神保健領域での展開は依然としてリスクを伴う。既存の心理系LLMは感情理解や知識想起を重視する一方、評価、診断、介入計画、抽象化、検証に必要な段階的で臨床に沿った推論を見落としている。これらの課題に対処するため、信頼性の高い精神保健推論を推進する統一フレームワーク「MentraSuite」を提案する。5つの核心的推論側面、6つのタスク、13のデータセットにわたる包括的ベンチマーク「MentraBench」を構築し、タスク性能と推論品質を簡潔性、一貫性、幻覚回避、課題理解、内的整合性の5次元で評価する。さらに、矛盾検出報酬を用いたハイブリッドSFT-RLフレームワークにより最適化した後訓練モデル「Mindora」を発表する。訓練を支援するため、難易度の高いサンプルを戦略的に選別し、構造化された一貫性志向の書き換えプロセスを適用して簡潔で読みやすくバランスの取れた推論軌道を生成する新規手法を開発した。評価した20のLLMの中で、MindoraはMentraBenchで最高の平均性能を達成し、推論の信頼性において顕著な結果を示し、複雑な精神保健シナリオにおける有効性を実証した。
2025年BEHAVIORチャレンジは、シミュレーション環境における物理エージェントによる長期的タスク解決への進捗を厳密に追跡することを目的としています。BEHAVIOR-1Kは、人々がロボットに支援を最も求める日常的な家事タスクに焦点を当て、現実的な設定における長期的な移動マニピュレーションの課題を導入し、現在の研究と実世界の人間中心アプリケーション間のギャップを埋めるものです。本報告書は、2025年BEHAVIORチャレンジにおいて僅差で2位となった我々のソリューションについて述べます。このソリューションは他の提出物を大幅に上回る性能を示しました。π_{0.5}を基盤として、トレーニング技術とデータの効果を体系的に検証することでソリューションを構築することに注力しました。注意深いアブレーション研究を通じて、競争力のある性能を達成するための事前学習と事後学習におけるスケーリングの効果を実証します。強力な基盤モデルを複雑な具体化AIシナリオに適応させる際に、広範な具体化AIコミュニティにとって実践的な示唆を提供することを期待し、我々の実用的な教訓と設計上の提言をまとめます。
視覚言語行動(VLA)モデルは、視覚知覚と言語誘導方策学習を統合することで、ロボット学習に有望なパラダイムを提供する。しかし、既存手法の多くは3次元物理環境で動作を実行する際に2次元視覚入力を利用するため、知覚と行動の接地(grounding)間に大きな隔たりが生じている。この隔たりを埋めるため、我々は事前学習段階で視覚空間と物理空間の明示的な整合を図る「空間認識VLA事前学習」パラダイムを提案する。これにより、ロボット方策学習前にモデルが3次元空間理解を獲得できるようになる。事前学習済み視覚言語モデルを出発点とし、大規模な人間実演動画から3次元視覚注釈と3次元行動注釈を抽出することで、2次元視覚観測と3次元空間推論を整合させる新たな教師信号を構築する。このパラダイムを具体化したVIPA-VLAは、3次元視覚エンコーダを組み込んだ二重エンコーダ構造であり、意味的視覚表現を3次元認識特徴で拡張する。下流ロボットタスクに適用した場合、VIPA-VLAは2次元視覚と3次元行動の接地性を大幅に改善し、より頑健で汎化性の高いロボット方策を実現する。
LLMベースのエージェントは、多くの場合、貪欲で段階的な方法で動作し、長期的な結果や代替経路を考慮せず、現在の観測のみに基づいて行動を選択します。この先見性の欠如は、部分的にしか観測できない(ブラウザで表示可能なDOMやUI要素などに限定される)Web環境において特に問題となります。このような環境では、単一の誤った操作を元に戻すために、複雑で脆弱なナビゲーションが必要となることが多いためです。明示的なバックトラッキング機構がない場合、エージェントは誤りを修正したり、代替経路を体系的に探索したりするのに苦労します。 木探索手法は、このような構造化された探索に対する原理的な枠組みを提供しますが、既存のアプローチには安全なバックトラッキング機構が欠けており、意図しない副作用を引き起こしやすいという問題があります。また、すべての行動が可逆的であると仮定しており、不可逆的な行動の存在を無視しています。これらの制限は、現実的なWebタスクにおける有効性を低下させます。 これらの課題に対処するため、我々は信頼性の高いバックトラッキングと戦略的探索を可能にする木探索フレームワーク「WebOperator」を提案します。本手法は、報酬推定値と安全性の考慮事項の両方に基づいて行動をランク付けする最良優先探索戦略と、以前に訪問した経路を再生する前にその実行可能性を検証し、意図しない副作用を防止する堅牢なバックトラッキング機構を組み込んでいます。探索をさらに導くために、WebOperatorは多様な推論コンテキストから行動候補を生成し、多様で堅牢な探索を保証するとともに、実行前に無効な行動をフィルタリングし、意味的に等価な行動を統合することで、高品質な行動セットを精選します。 WebArenaとWebVoyagerにおける実験結果は、WebOperatorの有効性を示しています。WebArenaにおいて、WebOperatorはgpt-4oを用いて54.6%という最先端の成功率を達成し、戦略的先見性と安全な実行を統合することの決定的な利点を実証しました。
本論文では、人格に沿った表現、適応的インタラクション、自己進化を可能とする新しいデジタルヒューマンのパラダイム「Interactive Intelligence」を提案する。これを実現するため、思考モジュール、音声生成モジュール、顔面アニメーションモジュール、身体動作モジュール、レンダリングモジュールの5つの専門モジュールから構成されるエンドツーエンドフレームワーク「Mio(Multimodal Interactive Omni-Avatar)」を開発した。この統合アーキテクチャは、認知推論とリアルタイムマルチモーダル表現を統合し、流動的で一貫性のあるインタラクションを実現する。さらに、対話型知能の能力を厳密に評価する新たなベンチマークを確立した。大規模な実験により、本フレームワークがすべての評価次元において既存の最先端手法を凌駕する優れた性能を達成することを実証した。これらの貢献により、デジタルヒューマンは表面的な模倣を超え、知的対話へと進化する。
多くの視覚言語モデル(VLM)は、ほとんどのベンチマークで見られるように、明確に定義された単純な質問や高度に特定化された対象に対して回答するよう開発されていますが、実際の応用では、複雑なオープンエンドな課題に苦戦することが多いです。こうした課題では、視覚空間における複数回の探索と推論が通常必要となります。このような視覚的思考経路は、AI探偵のように段階的な探索と検証を提供するだけでなく、最終的な答えに対するより優れた解釈を生み出します。しかし、中間ステップの探索空間が広大であるため、これらの経路を評価することは困難です。この隔たりを埋めるため、我々は評価スイート「V-REX(Visual Reasoning with multi-step EXploration)」を開発しました。V-REXは、本質的な多段階探索を必要とする挑戦的な視覚推論タスクのベンチマークと評価プロトコルで構成されています。V-REXは、多様な領域にわたる豊富な応用シナリオを網羅しています。V-REXは、多段階の探索的推論を「質問の連鎖(Chain-of-Questions: CoQ)」として定式化し、VLMの能力を以下の2つに分解して評価します:(1) 計画:オープンエンドな課題を分解し、探索的質問の連鎖を選択する能力、(2) 追従:精選されたCoQに順次回答し、最終的な答えを導き出すための情報を収集する能力。各ステップにおける質問と回答の選択肢を有限に精選することで、V-REXは中間ステップに対する信頼性の高い定量的かつ詳細な分析を実現します。SOTAのプロプライエタリ及びオープンソースのVLMを評価した結果、一貫したスケーリングの傾向、計画能力と追従能力の間の顕著な差、そして多段階探索推論における大幅な改善の余地が明らかになりました。
マルチモーダル大規模言語モデル(MLLM)は様々な領域で優れた能力を示しているが、自律走行における細粒度な3D知覚・予測出力の生成への応用は未だ十分に探求されていない。本論文では、新しい空間認識型4D MLLMであるDrivePIを提案する。これは統合的なVision-Language-Action(VLA)フレームワークとして機能し、同時にvision-action(VA)モデルとの互換性も備えている。本手法は、空間理解、3D知覚(3Dオクパンシー)、予測(オクパンシーフロー)、計画(アクション出力)をエンドツーエンド最適化により並列的に実行する。正確な幾何情報と豊富な視覚的外観の両方を得るために、本アプローチは点群、マルチビュー画像、言語指示を統合されたMLLMアーキテクチャ内に組み込む。さらに、4D空間理解のためのテキスト-オクパンシーおよびテキスト-フローQAペアを生成するデータエンジンを開発した。特筆すべきは、わずか0.5BパラメータのQwen2.5モデルをMLLMバックボーンとして用いたDrivePIが、単一の統合モデルとして、既存のVLAモデルと専門的なVAモデルの両方に匹敵、あるいは凌駕する性能を示した点である。具体的には、VLAモデルと比較して、DrivePIはnuScenes-QAにおいてOpenDriveVLA-7Bを平均精度で2.5%上回り、nuScenesにおいてORIONと比べて衝突率を70%(0.37%から0.11%へ)低減した。専門的なVAモデルに対しては、DrivePIはOpenOccにおける3DオクパンシーでFB-OCCをRayIoUで10.3ポイント上回り、OpenOccにおけるオクパンシーフローでmAVEを0.591から0.509に改善し、nuScenesにおける計画タスクでVADよりも32%低いL2誤差(0.72mから0.49m)を達成した。コードはhttps://github.com/happinesslz/DrivePI で公開予定である。
視覚言語モデル(VLM)は視覚質問応答(VQA)において優れた性能を発揮するが、静的な画像から推論を行うスナップショット視覚に限定されている。一方、具身化エージェントは歩行視覚を必要とし、情報量の多い視点を獲得するために能動的に移動する。本論文では、現在の画像中の視覚情報のみを利用し、シーンの記憶や外部知識に依存せずに、最も情報量の多い次の視点を選択する視覚的接地による能動的視点選択(VG-AVS)タスクを提案する。このタスクを支援するため、自動生成されたクエリ・ターゲット視点ペアと質問応答プロンプトから構成される合成データセットを構築した。さらに、事前学習済みVLMを教師ありファインチューニング(SFT)で調整後、強化学習に基づく方策最適化を行うフレームワークを提案する。本手法は、視点選択に基づく強力な質問応答性能を達成し、未経験の合成シーンおよび実シーンに対しても頑健に一般化する。さらに、学習済みVG-AVSフレームワークを既存のシーン探索型EQAシステムに組み込むことで、下流の質問応答精度が向上する。
Vision-Language-Action(VLA)モデルは、多様なロボットマニピュレーションタスクにわたる汎化能力において顕著な性能を実証している。しかし、物理的相互作用における潜在的な衝突防止をはじめ、特にタスク準拠と安全性保証の同時達成が極めて重要となる非構造化環境へのこれらのモデルの導入は、依然として課題である。本研究では、AEGISと命名したVision-Language-Safe Action(VLSA)アーキテクチャを提案する。これは、制御バリア関数を用いて定式化されたプラグアンドプレイ型の安全制約(SC)層を備える。AEGISは既存のVLAモデルと直接統合され、理論的保証付きで安全性を向上させるとともに、元来の指示追従性能を維持する。当アーキテクチャの有効性を評価するため、空間的複雑度と障害物介入の程度が異なる特徴を持つ個別のマニピュレーションシナリオにわたる、包括的な安全批判的ベンチマークSafeLIBEROを構築した。大規模な実験により、本手法が最先端のベースライン手法を凌駕することを実証した。特に、AEGISは障害物回避率で59.16%の向上を達成し、同時にタスク実行成功率を17.25%大幅に向上させた。再現性及び将来の研究の発展に資するため、コード、モデル、ベンチマークデータセットをhttps://vlsa-aegis.github.io/ で公開している。
画像生成モデルを一般化された美的嗜好に過度に適合させることは、特に芸術的・批評的目的で「反美的」な出力が要求される場合、ユーザーの意図と衝突する。このような適合は開発者中心の価値観を優先し、ユーザーの自律性と美的多元性を損なう。我々は広範な美的スペクトルデータセットを構築し、最先端の生成モデル・報酬モデルを評価することで、このバイアスを検証する。美的適合された生成モデルは、低品質や否定的な画像の指示があっても、慣習的に美しい出力に陥りがちである。決定的に、報酬モデルは明示的なユーザープロンプトに完全に合致する反美的画像すらも罰する。画像編集タスクと実在の抽象芸術作品を用いた評価を通じて、この体系的なバイアスを確認した。
画像拡散モデルの推論処理が遅いことは、インタラクティブなユーザー経験を大きく損なう。この課題に対処するため、我々はDiffusion Previewを提案する。これは、迅速な少ステップサンプリングを用いてユーザー評価用の暫定的な出力を生成し、プレビューが満足できると判断されるまで全ステップによる精緻化を先送りする新たなパラダイムである。訓練不要のソルバーや訓練後蒸留を含む既存の高速化手法は、高品質なプレビューの提供や、プレビューと最終出力間の一貫性の保証が困難である。我々は、一般線形多段法に基づくConsistencySolverを提案する。これは強化学習により最適化された、軽量で訓練可能な高次ソルバーであり、プレビューの品質と一貫性を向上させる。実験結果は、ConsistencySolverが少ステップ条件下での生成品質と一貫性を大幅に改善し、効率的な「プレビュー&改良」ワークフローに理想的であることを示す。特に、Multistep DPM-Solverと同等のFIDスコアを47%少ないステップ数で達成し、蒸留ベースライン手法を凌駕する。さらにユーザスタディにより、本手法が生成品質を維持しつつ、ユーザの総インタラクション時間を約50%削減することが示された。コードはhttps://github.com/G-U-N/consolver で公開されている。
表現アライメント(REPA)は、強力な事前学習済み視覚エンコーダーから中間拡散特徴へ表現を蒸留することで、生成的訓練を導く。本研究では、生成モデルにとって対象表現のどの側面が重要であるかという根本的な問題を探る:それは大域的な意味情報(例:ImageNet-1K精度で測定)なのか、それとも空間構造(パッチトークン間のペアワイズ余弦類似度)なのか。一般的な通説では、より強力な大域的意味性能が、対象表現としてより優れた生成結果をもたらすとされている。これを検証するため、我々はまず27種類の異なる視覚エンコーダーと様々なモデル規模にわたる大規模な実証分析を実施した。結果は驚くべきもので、大域的性能ではなく、空間構造が対象表現の生成性能を駆動していることが明らかになった。さらに研究を進めるため、空間情報の転送を特に強調する二つの簡潔な修正を導入した。REPAの標準的なMLP投影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。驚くべきことに、我々の簡潔な手法(<4行のコードで実装、iREPAと命名)は、多様な視覚エンコーダー、モデルサイズ、訓練変種(REPA、REPA-E、Meanflow、JiTなど)にわたって、REPAの収束速度を一貫して向上させた。本研究は、表現アライメントの根本的な作用メカニズムと、生成的モデルの訓練改善にそれを如何に活用できるかを見直す動機付けとなる。コードとプロジェクトページはhttps://end2end-diffusion.github.io/irepa で公開されている。
フルレングス楽曲における音楽映像生成(M2V)は、大きな課題に直面している。既存手法では、短く断片的なクリップが生成され、視覚要素と楽曲構造、ビート、歌詞との整合性が取れておらず、時間的一貫性も欠如している。我々は、楽曲から直接フル尺のミュージックビデオ(MV)を生成するマルチエージェントシステム、AutoMVを提案する。AutoMVはまず、音楽処理ツールを適用して楽曲構造、ボーカルトラック、時間軸に沿った歌詞などの音楽的属性を抽出し、これらを後続のエージェントへの文脈入力として構築する。次に、脚本家エージェントと監督エージェントがこの情報を用いて短い脚本を設計し、共有外部バンク内でキャラクタープロファイルを定義し、カメラ指示を具体化する。その後、これらのエージェントはキーフレーム生成のための画像生成器と、「ストーリー」シーンや「歌手」シーン用の異なる映像生成器を呼び出す。検証エージェントがそれらの出力を評価し、マルチエージェント協調による一貫性のある長尺MVの生成を実現する。M2V生成を評価するため、我々はさらに、4つの高次元カテゴリ(音楽コンテンツ、技術、ポストプロダクション、芸術性)と12の詳細な評価基準からなるベンチマークを提案する。このベンチマークを用いて、市販製品、AutoMV、および人間が制作したMVを専門家による評価で比較した結果、AutoMVは全4カテゴリにおいて既存のベースラインを大きく上回り、プロのMVとの差を縮めた。最後に、大規模マルチモーダルモデルを自動MV評価器として利用する可能性を探る。有望ではあるものの、依然として人間の専門家には及ばず、今後の研究の余地が示された。
拡散モデルは、意図せず学習事例を再現する可能性があり、これらのシステムが大規模に展開されるにつれて、プライバシーや著作権上の懸念が高まっている。既存の推論時緩和手法は、主に分類器不要ガイダンス(CFG)の操作やプロンプト埋め込みの摂動に依存するが、条件付けプロンプトとの整合性を損なうことなく記憶再生を抑制することに課題を残す。本論文では、非復号化過程における潜在特徴の直接修正により記憶再生を緩和する、学習不要フレームワークCAPTAINを提案する。CAPTAINはまず、周波数ベースのノイズ初期化を適用し、復号化過程の初期段階で記憶パターンを複製する傾向を低減する。次に、特徴注入に最適な復号化タイムステップを特定し、記憶領域を局所化する。最後に、非記憶参照画像から意味的に整合した特徴を局所化された潜在領域に注入し、プロンプトの忠実性と視覚的品質を維持しながら記憶再生を抑制する。実験結果から、CAPTAINはCFGベースのベースラインと比較して記憶再生を大幅に低減しつつ、意図されたプロンプトとの強固な整合性を維持できることを示す。
物理学を考慮した運転世界モデルは、走行計画、分布外データ合成、閉ループ評価において不可欠である。しかし既存手法では、運転行動から動画への直接変換を単一の拡散モデルに依存する場合が多く、学習が困難で物理的に不整合な出力を生じやすい。これらの課題を克服するため、我々は物理意識的運転動画生成のための新規フレームワークGenieDriveを提案する。本手法はまず4次元占有格子を生成し、これを物理情報を備えた基盤として後段の動画生成に活用する。4次元占有格子は高解像度の3次元構造と動態を含む豊富な物理情報を有する。この高解像度占有格子の効率的な圧縮を実現するため、占有格子を潜在トライプレーン表現に符号化するVAEを提案し、潜在サイズを従来手法比58%に削減した。さらに制御入力が占有格子の時間発展に与える影響を精密にモデル化するMutual Control Attention(MCA)を導入し、VAEと後段の予測モジュールをエンドツーエンドで共同訓練することで予測精度を最大化する。これらの設計により、パラメータ数3.47Mのみで、推論速度41FPSを維持しつつ予測mIoUを7.2%向上させることに成功した。加えて、動画生成モデルにはNormalized Multi-View Attentionを導入し、4次元占有格子の誘導に基づく多視点運転動画を生成することで、FVDを20.7%改善する画質向上を実現した。実験により、GenieDriveが高度に制御可能で多視点整合性があり、物理意識的な運転動画生成を実現することを示す。
効果的な学習後調整には教師ありファインチューニング(SFT)と強化学習(RL)の統合が有効であるが、専門家の軌跡を活用する最適なメカニズムは未解決のままであった。本研究では、この状況を理論的に基礎付けるため、性能を基礎的なSFT性能とそれに続くRL可塑性に分解する「塑性-天井フレームワーク」を提案する。大規模なベンチマークを通じて、SFTを先行させRLを後続させる「逐次SFT-then-RL」パイプラインが、同期型アプローチの安定性不足を克服する優れた標準であることを確立する。さらに、以下の精密なスケーリング指針を導出する:(1)SFT安定期または軽度過学習亜期でRLに移行することで、RL可塑性を損なうことなく基礎的SFT性能を確保し、最終的な性能天井を最大化できる;(2)SFT-then-RLスケーリングにおける「少ないほど良い」説を否定し、データ規模が学習後調整の主要な潜在能力を決定し、軌跡の難易度が性能乗数として機能することを実証する;(3)SFT検証損失の最小値が、最終性能天井を最大化する専門家軌跡を選択するための堅牢な指標となることを同定する。本知見は、専門家軌跡から抽出される価値を最大化するための実践的な指針を提供する。
拡散蒸留はクラス条件付き画像合成を劇的に高速化したが、オープンエンドなテキストから画像への生成(T2I)への適用可能性は依然として不明確である。本論文は、強力なT2I教師モデルFLUX.1-liteにおいて、最先端の蒸留技術を適応・比較する初の体系的研究を提示する。既存手法を統一フレームワークに位置づけることで、離散的なクラスラベルから自由形式の言語プロンプトへ移行する際に生じる主要な障害を特定する。徹底的な方法論の分析に加えて、入力スケーリング、ネットワークアーキテクチャ、ハイパーパラメータに関する実践的な指針を、オープンソース実装および事前学習済み学生モデルと共に提供する。我々の知見は、現実世界のT2Iアプリケーションにおいて、高速で高忠実度、かつリソース効率の良い拡散生成器を展開するための強固な基盤を確立する。コードはgithub.com/alibaba-damo-academy/T2I-Distillで公開されている。
大規模言語モデル(LLM)は、複雑なタスクにおける性能向上のために、最終回答の前に推論トークンを生成することができる。これらのトークン列は人間の思考プロセスに似ているように見えるが、実証研究によれば、それらはモデルの実際の推論プロセスを忠実に説明するものではない。この外見と機能の間の隔たりを埋めるため、我々は「トークン上の状態(State over Tokens: SoT)」という概念的枠組みを提案する。SoTは、推論トークンを言語的な叙述としてではなく、外部化された計算状態として再定義する。これは、ステートレスな生成サイクルを跨ぐ唯一の永続的な情報運搬体である。この枠組みにより、トークンがテキストとして読まれた際には忠実な説明とならないにも関わらず、正しい推論を駆動し得る理由が説明され、これまで見過ごされてきたこれらのトークンに関する研究課題が浮き彫りになる。我々は、LLMが行うプロセスを真に理解するためには、推論トークンをテキストとして読むことを超え、それらを状態としてデコードすることに研究の焦点を移す必要があると主張する。
3次元点群処理のための現代的なニューラルネットワークアーキテクチャは、畳み込み層とアテンションブロックの両方を含むが、それらを組み合わせる最良の方法は未だ明らかではない。本研究では、3次元点群ネットワークにおける様々な計算ブロックの役割を分析し、直感的な振る舞いを明らかにする:畳み込みは高解像度の低レベル幾何情報を早期層で抽出するのに適しており、この段階ではアテンションはコストが高いだけで利点がない;アテンションは低解像度の深い層において、高レベルな意味情報と文脈をより効率的に捕捉する。この設計原則に基づき、我々は初期段階では畳み込みを採用し、深い層ではアテンションに切り替える、新たで改良された3次元点群バックボーンを提案する。冗長な畳み込み層を削除する際の空間的レイアウト情報の損失を防ぐため、新規の学習不要な3次元位置符号化法であるPointROPEを導入する。結果として得られるLitePTモデルは、最先端のPoint Transformer V3と比較してパラメータ数が3.6分の1、処理速度が2倍、メモリ使用量が2分の1でありながら、様々なタスクとデータセットにおいて同等またはそれ以上の性能を発揮する。コードとモデルは以下で公開されている:https://github.com/prs-eth/LitePT。
視覚的トークナイザーは拡散モデルにおいて重要な役割を果たす。潜在空間の次元性は、再構成の忠実度と潜在特徴の意味的表現力の両方を支配する。しかし、次元性と生成品質の間には本質的なトレードオフが存在し、既存手法は低次元の潜在空間に制限されている。近年の研究では視覚基盤モデルを活用して視覚トークナイザーの意味論を強化し収束を加速させる試みがなされているが、高次元トークナイザーは依然として低次元版に性能で劣る。本研究では、フロー意味論的蒸留と再構成-整列蒸留という二つの革新により高次元視覚トークナイザーの限界を克服するRecTokを提案する。重要な洞察は、従来研究のように潜在空間に注力するのではなく、フローマッチングにおける順方向フローを意味論的に豊かにし、これを拡散トランスフォーマーの訓練空間として活用する点である。具体的には、当手法は視覚基盤モデルが持つ意味情報をフローマッチングの順方向軌跡に蒸留し、マスク特徴再構成損失の導入によって意味論をさらに強化する。RecTokは優れた画像再構成・生成品質・識別性能を実現し、クラシファイアフリーガイダンスの有無にかかわらずgFID-50Kにおいてstate-of-the-artを達成するとともに、意味論的に豊かな潜在空間構造を維持する。さらに潜在次元が増加しても性能向上が持続することを確認した。コードとモデルはhttps://shi-qingyu.github.io/rectok.github.ioで公開されている。
我々は、新しい非自己回帰型で可変長のビデオ生成フレームワークであるFlowceptionを提案する。Flowceptionは、離散的なフレーム挿入と連続的なフレームノイズ除去を交互に行う確率経路を学習する。自己回帰型手法と比較して、Flowceptionはサンプリング時のフレーム挿入メカニズムが長期コンテキストを扱う効率的な圧縮機構として機能するため、誤差の蓄積/ドリフトを軽減する。完全系列フローと比較して、本手法は訓練時のFLOPsを3分の1に削減し、局所的な注意機構の変種への適応性が高く、動画の長さを内容と同時に学習できる。定量的実験結果では、自己回帰型および完全系列ベースラインを上回るFVDとVBenchの指標改善が示され、定性結果によりさらに検証されている。最後に、フレームの挿入とノイズ除去を系列内で学習することにより、Flowceptionは画像から動画への生成や動画補間といった異なるタスクをシームレスに統合する。
一般化は、インタラクティブな3Dシーン生成における中心的な課題であり続けている。既存の学習ベースのアプローチは、空間理解を限定的なシーンデータセットに基づいて行うため、新しいレイアウトへの一般化が制限されている。我々は代わりに、事前学習済みの3Dインスタンス生成器を再プログラミングし、シーンレベルの学習器として機能させることで、データセット依存の教師信号をモデル中心の空間的教師信号に置き換える。この再プログラミングにより、生成器の転移可能な空間知識が解放され、未見のレイアウトや新しいオブジェクト構成への一般化が可能となる。特筆すべきは、訓練シーンがランダムに構成されたオブジェクトであっても、空間推論が依然として出現することである。これは、生成器の転移可能なシーン事前分布が、純粋に幾何学的な手がかりから近接性、支持関係、対称性を推論するための豊かな学習信号を提供することを実証している。広く用いられている正規化空間に代わり、我々はシーン空間を視点中心の定式化で具現化し、インスタンスモデルから直接空間関係を学習する完全なフォワードパス型の一般化可能なシーン生成器を実現した。定量的および定性的な結果は、3Dインスタンス生成器が暗黙的な空間学習器かつ推論器であることを示しており、インタラクティブな3Dシーン理解と生成のための基盤モデルへの道筋を示している。プロジェクトページ: https://luling06.github.io/I-Scene-project/
ビデオ拡散モデルは生成的ビデオ合成に革命をもたらしましたが、生成過程が不正確で遅く、不透明であるという課題があり、ユーザーは長時間にわたり生成の進行状況を知ることができません。本研究では、Denoisingプロセス中の任意の時点(タイムステップまたはトランスフォーマーブロック)でインタラクティブにプレビューを生成可能な、モデル非依存の軽量デコーダフレームワーク「DiffusionBrowser」を提案します。本モデルは、最終ビデオと一貫性のある外観と動きを伝達するRGB及びシーン固有情報を含むマルチモーダルなプレビュー表現を、リアルタイム速度の4倍以上(4秒のビデオで1秒未満)で生成できます。学習済みデコーダを用いることで、確率的再注入とモーダルステアリングによる中間ノイズ段階でのインタラクティブな生成誘導が可能となり、新たな制御機能を実現します。さらに、学習済みデコーダを用いてモデルを体系的に解析し、従来ブラックボックスであったDenoisingプロセスにおいて、シーン、オブジェクト、その他の詳細がどのように構成・統合されていくかを明らかにします。
テキスト反転(TI)はテキストから画像へのパーソナライズ効率化手法であるが、複雑なプロンプトではしばしば失敗する。我々はこの失敗を埋め込みノルムの膨張に起因すると分析する:学習されたトークンが分布外の大きさに逸脱し、Pre-norm Transformerにおけるプロンプト条件付けを劣化させる。実証的に、CLIPトークン空間では意味が主に方向によって符号化され、ノルムの膨張が文脈化を損なうことを示す。理論的には、大きなノルムが位置情報を減衰させ、Pre-normブロックの残差更新を阻害するメカニズムを解析する。我々は方向性テキスト反転(DTI)を提案する。これは埋め込みの大きさを分布内スケールに固定し、リーマンSGDによる単位超球面上での方向のみを最適化する。方向学習をフォン・ミーゼス‐フィッシャー事前分布を用いたMAP推定として定式化し、簡潔で効率的な定数方向事前勾配を導出する。様々なパーソナライズ課題において、DTIは被写体類似性を維持しつつTIおよびTI派生手法をテキスト忠実度で上回る。決定的に、DTIの超球面パラメータ化は学習概念間の滑らかで意味的に一貫した補間(slerp)を可能にし、これは標準TIにはない機能である。我々の知見は、方向のみの最適化がプロンプトに忠実なパーソナライズの堅牢かつスケーラブルな道筋であることを示唆する。
運動理解は物理推論の基盤であり、モデルが力学を推論し未来の状態を予測することを可能とします。しかし、最先端のモデルでも最近の運動ベンチマークでは依然として苦戦しており、主な要因は大規模で細粒度な運動データセットの不足にあります。既存の運動データセットは高コストな手動アノテーションによって構築されることが多く、拡張性が大きく制限されています。この課題に対処するため、我々は大規模運動データセットを構築する完全自動化されたデータキュレーションパイプライン「FoundationMotion」を提案します。本手法では、まず動画内の物体を検出・追跡して軌跡を抽出し、これらの軌跡と動画フレームを大規模言語モデル(LLM)と組み合わせることで、運動と空間推論に関する細粒度なキャプションと多様な質問応答ペアを生成します。このパイプラインで生成されたデータセットを用いて、NVILA-Video-15BやQwen2.5-7Bなどのオープンソースモデルをファインチューニングした結果、他のタスクの性能を損なうことなく運動理解が大幅に向上しました。特に、当該モデルはGemini-2.5 Flashのような強力なクローズドソースベースラインやQwen2.5-VL-72Bのような大規模オープンソースモデルを、多様な運動理解データセットおよびベンチマークで凌駕する性能を示しました。FoundationMotionは thus、効果的なモデルファインチューニングを可能にする細粒度運動データセットのキュレーションに対する拡張性のあるソリューションを提供し、運動理解と空間推論能力の強化に寄与します。
チャート理解は、科学論文や技術報告書の分析といった実世界シナリオにおいてマルチモーダル大規模言語モデル(MLLM)を展開する上で極めて重要である。自然画像とは異なり、チャートは構造化された視覚的レイアウト(空間的特性)と基盤となるデータ表現(テキスト的特性)を組み合わせたものであり、これら両方を把握することが精密で細粒度なチャート推論には不可欠である。この観察に動機づけられ、我々はチャート理解のための空間的・テキスト的学習手法であるSTARTを提案する。具体的には、(i) チャート要素のグラウンディングと (ii) チャートからコードへの生成を導入し、MLLMのチャートの視覚的レイアウトとデータ詳細の両方に対する理解を強化する。空間的・テキスト的学習を促進するため、我々は新規のデータ生成パイプラインを用いて生成したSTARTデータセットを提案する。このパイプラインでは、まずMLLMを活用して実チャート画像を実行可能なチャートコードに変換し、基盤となるデータ表現を復元すると同時に実世界のチャートの視覚的分布を保持する。次に、大規模言語モデル(LLM)を用いてコードを進化させ、チャートの視覚的構造を捉えるチャート要素の位置を確定し、既存手法では対応できない課題に対処する。モデルのチャート空間構造を理解する能力を評価するため、我々はチャート空間理解ベンチマーク(CS-Bench)を提案し、包括的なチャート理解評価における重要なギャップを埋める。空間的・テキスト的学習を活用したSTARTは、基本モデルと比較してモデルサイズやベンチマークにおいて一貫した性能向上をもたらし、従来の最先端手法を明確な差で凌駕する。コード、データ、モデルは公開予定である。
現実世界のシーンは、複数の静的および動的オブジェクトで構成されることが多い。それらの4次元構造、構成、時空間配置を実環境下で捉えることは、非常に興味深い一方で、同様に困難である。このため、既存研究は動的オブジェクトに対してカテゴリ固有のパラメトリック形状モデルに依存しつつ、一度に一つのオブジェクトに焦点を当てることが多い。これは、モデル化されたオブジェクトカテゴリに限定されることに加え、シーン構成の不整合を招きうる。我々は、COM4D(Compositional 4D)を提案する。これは、静的な多オブジェクトまたは動的な単一オブジェクトの教師信号のみを用いて、4D/3Dオブジェクトの構造と時空間配置を一貫して共同で推定する手法である。これを実現するために、2Dビデオ入力に対する空間的・時間的アテンションを注意深く設計した訓練を行う。訓練は、一方でオブジェクト構成からの学習と、他方でビデオ全体にわたる単一オブジェクトの動態の学習とに分離され、4Dの合成的な訓練データへの依存を完全に回避する。推論時には、提案するアテンションミキシング機構がこれらの独立して学習されたアテンションを結合し、4Dの合成事例を一切必要としない。空間推論と時間推論を交互に行うことで、COM4Dは単眼ビデオから直接、複数の相互作用するオブジェクトを含む完全かつ持続的な4Dシーンを復元する。さらに、COM4Dは純粋にデータ駆動であるにもかかわらず、4Dオブジェクト復元と合成的3D復元という既存の個別課題において state-of-the-art の結果を提供する。
正確な漁業データは、効果的かつ持続可能な海洋資源管理において極めて重要である。近年導入された電子監視(EM)システムにより、手動での審査が非現実的なほど大量の映像データが収集されるようになった。本論文は、コンベアベルトを備えたEMシステムを模倣し、外見が類似する6魚種を含む新しいデータセットAutoFishを用いて、自動的な魚類個体再識別(Re-ID)のための最適化された深層学習パイプラインを開発し、この課題に取り組む。データセット固有の正規化を含むカスタム画像変換パイプラインとハードトリプルマイニングを併用することで、主要なRe-ID指標(R1およびmAP@k)が大幅に改善されることを実証する。これらの戦略を用いることで、Vision TransformerベースのSwin-Tアーキテクチャが、畳み込みニューラルネットワークベースのResNet-50を一貫して上回り、41.65%のmAP@kと90.43%のRank-1精度という最高性能を達成することを示す。詳細な分析により、視覚的に類似した同一種個体の識別(種内誤差)が主要な課題であり、部分的なオクルージョンよりも視点の不一致が結果に遥かに大きな悪影響を及ぼすことが明らかになった。ソースコードとドキュメントは以下で公開されている:https://github.com/msamdk/Fish_Re_Identification.git
FIN-bench-v2を紹介する。これは、フィンランド語における大規模言語モデルの評価のための統一ベンチマークスイートである。FIN-bench-v2は、広く使用されているベンチマークのフィンランド語版と、オリジナルのFIN-benchを更新・拡張したバージョンを、一貫した形式の単一のコレクションに統合している。これにより、読解、常識推論、感情分析、世界知識、アライメントにわたる多肢選択式および生成タスクを網羅する。すべてのデータセットはHuggingFace Datasets形式に変換され、各タスクごとに5種類の空所補充および多肢選択式プロンプト形式を含む。GoldenSwagやXEDなど機械翻訳されたリソースについては、人手による注釈またはレビューを組み込んでいる。 堅牢なタスクを選択するため、22.5億パラメータのデコーダのみのモデル群を事前学習し、その学習曲線を用いて単調性、信号対雑音比、非ランダム性能、モデル順序一貫性を計算し、全ての基準を満たすタスクのみを保持した。さらに、より大規模な命令チューニングされたモデル群を評価し、タスクおよびプロンプト形式にわたる性能特性を明らかにした。 すべてのデータセット、プロンプト、評価設定は、Language Model Evaluation Harnessのフォークであるhttps://github.com/LumiOpen/lm-evaluation-harness で公開されている。補足リソースは、別のリポジトリ https://github.com/TurkuNLP/FIN-bench-v2 で公開されている。
ワールドモデルは、ロボット学習タスクにおいて印象的な性能を実証している。多くのタスクは本質的にマルチモーダルな推論を必要とする。例えば、ボトルに水を注ぐ作業では、視覚情報だけでは曖昧あるいは不完全であり、音声の時間的変化を推論し、その背後にある物理的特性やピッチパターンを考慮する必要が生じる。本論文では、生成的な潜在フローマッチングモデルを提案し、将来の音声観測を予測することで、ロボットポリシーに統合した際に長期的な結果を推論可能にする。本システムの優れた能力を、将来の先読みを行わない手法と比較し、実環境の音声や音楽信号を感知する必要がある2つの操作タスクを通じて実証する。さらにこれらのタスクにおけるロボット動作学習の成功は、単なるマルチモーダル入力ではなく、内在的なリズムパターンを具現化する将来の音声状態の正確な予測に大きく依存することを強調する。
大規模マルチモーダルモデルの最近の進歩は、明示的な推論メカニズムがモデルの信頼性、解釈可能性、およびクロスモーダル連携の向上に重要な役割を果たすことを示唆している。このような推論中心のアプローチは言語タスクや視覚タスクで有効性が証明されているが、3D領域への拡張は未だ発展途上である。CoRe3Dは、意味的抽象化と空間的抽象化の両方に対して共同で動作する統合的な3D理解・生成推論フレームワークを提案し、言語から推論された高次意図が低次元の3Dコンテンツ形成を直接導くことを可能にする。この設計の中核となるのは、3D潜在空間を局所化された領域に分解する空間的に接地された推論表現であり、モデルが合成的かつ手続き的な方法で幾何学情報を推論することを可能にする。意味的な連鎖思考推論と構造化された空間推論を緊密に結合させることで、CoRe3Dは強い局所的一貫性と言語記述への忠実な連携を示す3D出力を生成する。
加齢黄斑変性(AMD)と脈絡膜新生血管(CNV)関連疾患は、世界的に視力障害の主要原因となっており、光干渉断層計(OCT)が早期発見と管理の基盤をなしている。しかし、ConvNeXtV2-Largeのような最先端の深層学習モデルは計算負荷が高く、臨床現場での展開が困難である。そのため、高い診断性能を維持しつつリアルタイム展開を可能とする効率的なモデルの開発が望まれる。本研究では、高性能なConvNeXtV2-Large教師モデル(高度なデータ拡張、確率的重み平均、focal lossにより強化)を、軽量なEfficientNet-B2学生モデルに圧縮する新規知識蒸留フレームワーク「KD-OCT」を提案する。正常、ドルーゼン、CNVの症例分類を目的とし、ソフトな教師知識の伝達とハードな正解ラベル監督をバランスさせる複合損失関数を用いたリアルタイム蒸留を採用する。提案手法の有効性は、Noor Eye Hospital(NEH)データセットを用いた患者単位の交差検証により評価した。実験結果から、KD-OCTは効率性と精度のバランスにおいて、従来のマルチスケールまたは特徴量融合型OCT分類器を上回り、モデルサイズと推論時間を大幅に削減しながら教師モデルに迫る性能を達成した。圧縮にもかかわらず、学生モデルは既存フレームワークの大半を凌駕し、AMDスクリーニングのエッジデバイスへの展開を容易にする。コードはhttps://github.com/erfan-nourbakhsh/KD-OCTで公開されている。