翻訳付きの日次キュレーションされたAI研究論文
XRデバイスの普及拡大に伴い、高品質なステレオ動画への需要が高まっているが、その制作は依然としてコストが高く、アーティファクトが発生しやすい課題がある。この課題に対処するため、我々は事前学習済みの動画生成モデルを高精細な単眼映像からステレオ映像への変換に応用するエンドツーエンドフレームワーク「StereoWorld」を提案する。本フレームワークは、単眼映像入力をモデルに同時条件付けするとともに、3D構造の忠実性を確保するための幾何学的正則化を明示的に適用して生成を監督する。さらに、時空間タイル分割方式を統合することで、効率的な高解像度合成を実現している。大規模な学習と評価を可能にするため、自然な人間の瞳孔間距離(IPD)に合わせた1,100万フレーム以上の高精細ステレオ動画データセットを構築した。大規模な実験により、StereoWorldが従来手法を大幅に上回り、視覚的忠実性と幾何学的一貫性に優れたステレオ動画を生成することを実証した。プロジェクトウェブページはhttps://ke-xing.github.io/StereoWorld/で公開されている。
拡散モデルの最近の進歩は画像生成と編集を大幅に改善しましたが、透明なアルファチャンネルを持つ階層化PSDファイルの生成や再構築は依然として非常に困難です。本論文ではFluxエコシステム上に構築された統一拡散フレームワーク「OmniPSD」を提案します。このフレームワークは、コンテキスト内学習を通じてテキストからPSDへの生成と画像からPSDへの分解の両方を実現します。テキストからPSDへの生成では、OmniPSDは複数のターゲットレイヤーを空間的に単一キャンバスに配置し、空間的注意機構を通じてそれらの合成的関係を学習し、意味的に一貫性のある階層構造を持つレイヤーを生成します。画像からPSDへの分解では、反復的なコンテキスト内編集を実行し、テキストや前景要素を段階的に抽出・消去することで、単一のフラット化画像から編集可能なPSDレイヤーを再構築します。構造学習に影響を与えずに透明度を保持するため、RGBA-VAEを補助表現モジュールとして採用しています。新たに構築したRGBA階層化データセットを用いた大規模な実験により、OmniPSDが高精度な生成、構造的一貫性、透明度認識を達成し、拡散トランスフォーマーを用いた階層化デザインの生成と分解における新たなパラダイムを提供することを実証しました。
人間の脳が視覚的概念をどのように表現し、それらの表現がどの脳領域に符号化されているかを理解することは、長年の課題として残っている。数十年にわたる研究により視覚的表現の理解は進展したものの、脳信号は依然として大規模かつ複雑であり、可能な視覚的概念の空間は広大である。その結果、ほとんどの研究は小規模なままであり、手動検査に依存し、特定の領域と特性に焦点を当て、体系的な検証を含むことは稀である。本論文では、人間の大脳皮質全体にわたる視覚的表現を発見し説明するための大規模で自動化された枠組みを提案する。私たちの手法は主に二つの段階から構成される。第一に、教師なしのデータ駆動型分解手法を通じてfMRI活動中の解釈可能なパターン候補を発見する。次に、各パターンを最も強く誘発する自然画像群を同定し、それらが共有する視覚的意味の自然言語記述を生成することで説明する。このプロセスを拡張するため、複数の説明候補をテストし、定量的な信頼性スコアを割り当て、各ボクセルパターンに対して最も一貫性のある記述を選択する自動化パイプラインを導入する。私たちの枠組みは、これまで報告されていなかった微細な表現を含む、多数の異なる視覚的概念にわたる数千の解釈可能なパターンを明らかにする。
視覚的概念合成は、画像や動画から異なる要素を統合し、一貫性のある単一の視覚的出力を生成することを目的としているが、視覚入力から複雑な概念を正確に抽出し、画像と動画の概念を柔軟に組み合わせる点では未だ課題を残している。本論文では、ワンショットで柔軟な視覚的概念合成を可能にする「Bind & Compose」を提案する。この手法は、視覚的概念を対応するプロンプトトークンにバインドし、様々なソースからバインドされたトークンを用いて目標プロンプトを構成する。Diffusion Transformerにおけるクロスアテンション条件付けのため、階層的なバインダー構造を採用し、複雑な視覚的概念を正確に分解するために視覚的概念を対応するプロンプトトークンに符号化する。概念とトークンのバインド精度を向上させるため、多様化プロンプトを用いた訓練時に概念と無関係な詳細の影響を排除する追加の吸収トークンを用いる「多様化・吸収メカニズム」を設計した。画像と動画の概念間の互換性を高めるため、動画概念の訓練過程を二段階に分離し、時間的モデリングのためのデュアルブランチバインダー構造を用いる「時間的乖離戦略」を提示する。評価実験により、本手法が既存手法を上回る概念一貫性、プロンプト忠実度、動画品質を達成し、視覚的創造性の新たな可能性を開くことを実証する。
MotionEditを紹介する。これはモーション中心の画像編集、すなわち被写体の動作や相互作用を変更しつつ、アイデンティティ、構造、物理的妥当性を保持するタスクのための新規データセットである。静的な外観変化に焦点を当てる、あるましくは疎で低品質なモーション編集のみを含む既存の画像編集データセットとは異なり、MotionEditは、連続ビデオから抽出・検証された現実的なモーション変換を描写する高精細な画像ペアを提供する。この新たなタスクは科学的に挑戦的であるだけでなく、フレーム制御されたビデオ合成やアニメーションなどの下流アプリケーションを支える実用的にも重要な意義を持つ。 この新規タスクにおけるモデル性能を評価するため、MotionEdit-Benchを導入する。このベンチマークは、モーション中心の編集でモデルに挑戦し、生成的、識別的、選好ベースの指標でモデル性能を測定する。ベンチマーク結果は、モーション編集が既存の最先端拡散ベース編集モデルにとって依然として極めて困難であることを明らかにする。この課題に対処するため、MotionNFT(Motion-guided Negative-aware Fine Tuning)を提案する。これは学習後フレームワークであり、入力画像とモデル編集画像間のモーションフローがグランドトゥルースのモーションにどれだけ合致するかに基づいてモーション整合性報酬を計算し、正確なモーション変換へとモデルを導く。FLUX.1 KontextおよびQwen-Image-Editにおける大規模実験により、MotionNFTが基礎モデルの編集品質とモーション忠実度を、一般的な編集能力を損なうことなく、モーション編集タスクで一貫して向上させることを実証し、その有効性を示す。
思考連鎖(CoT)推論は自然言語処理における複雑なタスク解決で高い成果を収めており、近年のマルチモーダル大規模言語モデル(MLLM)はこのパラダイムを映像推論に拡張してきた。しかし、これらのモデルは一般に長大な推論連鎖と大量の入力視覚トークンに依存している。我々のベンチマーク研究における実証的観察に基づき、簡潔な推論と削減された視覚トークンの組み合わせが効果的な映像推論に十分であるという仮説を立てた。この仮説を検証するため、映像MLLMの推論能力を強化する効率的な学習後処理及び推論フレームワークを設計・検証した。本フレームワークはモデルが圧縮された視覚トークンで動作し、回答前に簡潔な推論過程を生成することを可能にする。その結果、モデルは推論効率を大幅に向上させ、多様なベンチマークで競争力のある性能を発揮し、手動のCoT注釈や教師ありファインチューニングへの依存を回避した。総合的に、人間のような長いCoT推論が一般的な映像推論に必須ではないこと、そして簡潔な推論が効果的かつ効率的である可能性を示唆している。コードはhttps://github.com/LaVi-Lab/Rethink_CoT_Videoで公開予定である。
ウィンドウ注意機構と線形注意機構は、視覚言語モデル(VLM)における二次計算量の課題とKVキャッシュの肥大化を緩和する二つの主要な戦略である。しかし、ウィンドウベースのVLMは系列長がウィンドウサイズを超えると性能劣化が生じ、線形注意はOCRや文書理解といった情報集約型タスクで精度が低下することが観察される。これらの制約を克服するため、我々はスライディングウィンドウ注意(SWA)とGated DeltaNetを統合した線形計算量のVLMアーキテクチャ「InfiniteVL」を提案する。限られたリソース下で競争力のあるマルチモーダル性能を実現するため、知識蒸留を用いた事前学習、指示チューニング、長系列SFTの3段階からなる学習戦略を設計した。注目すべきは、主要VLMが必要とする学習データの2%未満を用いても、InfiniteVLが従来の線形計算量VLMを大幅に上回るだけでなく、トップレベルのTransformerベースVLMと同等の性能を達成し、長期記憶保持の有効性を実証した点である。FlashAttention-2で高速化した同規模のTransformerベースVLMと比較すると、InfiniteVLは推論速度で3.6倍以上を達成し、レイテンシとメモリ使用量を一定に保つ。ストリーミング動画理解タスクでは、長期記憶キャッシュを維持しながら24 FPSの安定したリアルタイムプリフィル速度を維持する。コードとモデルはhttps://github.com/hustvl/InfiniteVLで公開されている。
自動運転(AD)システムは、世界知識の不足と視覚的ダイナミクスモデリングの弱さにより、ロングテールシナリオでの対応が困難である。既存のVision-Language-Action(VLA)ベースの手法は、ラベルなし動画を視覚的因果学習に活用できず、世界モデルベースの手法は大規模言語モデルによる推論能力を欠いている。本論文では、複雑なシナリオにおける推論と計画策定のアノテーションを提供する複数の専門データセットを構築する。次に、Understanding-Generation-Planning統合フレームワーク「UniUGP」を提案し、ハイブリッドエキスパートアーキテクチャを通じてシーン推論、未来動画生成、軌道計画を協調させる。事前学習済みVLMと動画生成モデルを統合することで、UniUGPは視覚的ダイナミクスと意味的推論を活用し、計画性能を向上させる。本手法は、多フレーム観測データと言語指示を入力とし、解釈可能な連鎖思考推論、物理的に一貫した軌道、首尾一貫した未来動画を生成する。複数の既存ADデータセットと提案する専門データセットを用いて、これらの能力を段階的に構築する4段階の学習戦略を導入する。実験により、知覚、推論、意思決定において最先端の性能を達成し、困難なロングテール状況への優れた一般化能力を示す。
視覚言語行動(VLA)モデルは近年、視覚的・言語的手がかりを行動に結び付けることでロボットマニピュレーションを実現してきた。しかし、既存のVLAモデルの多くはマルコフ性を仮定しており、現在の観測のみに依存するため時間的近視眼的となり、長期的な一貫性が損なわれる問題を抱えている。本研究では、運動を時間的コンテキストと世界のダイナミクスを表現するよりコンパクトで情報量の多い表現と捉え、状態間の変化を捉えつつ静的なピクセルレベルのノイズを除去する枠組みを提案する。この考え方に基づき、我々はHiF-VLA(Hindsight, Insight, and Foresight for VLAs)を開発した。これは運動を双方向の時間推論に活用する統合フレームワークであり、後知恵プライアを通じて過去の動力学を符号化し、先見的推論によって将来の運動を予測し、両者を後知恵調整型ジョイントエキスパートで統合することで、長期的マニピュレーションのための「動作しながら思考する」パラダイムを実現する。その結果、HiF-VLAはLIBERO-LongおよびCALVIN ABC-Dベンチマークにおいて強力なベースラインを凌駕し、推論遅延の追加は無視できる程度に収めた。さらに、実世界の長期的マニピュレーションタスクにおいても大幅な改善を達成し、実用的なロボット環境における広範な有効性を実証した。
本論文では、単一画像から複数の空間スケールにわたるコンテンツを持つ3Dシーンを生成する新しい手法「WonderZoom」を提案する。既存の3Dワールド生成モデルは単一スケールの合成に限定され、異なる粒度で一貫性のあるシーンコンテンツを生成できない。根本的な課題は、空間サイズが大きく異なるコンテンツの生成とレンダリングが可能なスケール対応3D表現の欠如である。WonderZoomは以下の二つの革新的技術によりこの課題に取り組む:(1)マルチスケール3Dシーンの生成とリアルタイムレンダリングのためのスケール適応型ガウシアンサーフェル、(2)より精細なスケールの3Dコンテンツを反復的に生成するプログレッシブ詳細合成器。本手法により、ユーザーは3D領域に「ズームイン」し、風景から微視的特徴まで、従来存在しなかった精細なディテールを自己回帰的に合成できる。実験により、WonderZoomが品質と整合性の両面で最新のビデオ及び3Dモデルを大幅に上回り、単一画像からのマルチスケール3Dワールド創成を可能にすることを実証する。生成されたマルチスケール3Dワールドのビデオ結果とインタラクティブビューアーをhttps://wonderzoom.github.io/で公開している。
拡散型大規模言語モデル(dLLM)は自己回帰モデルに代わる有望なアプローチであるが、反復的なサンプリングによる遅い処理速度が実用上の大きな障壁となっている。本研究では、学習不要でモデルに依存しない早期終了アルゴリズムSchEDを提案する。この手法は全文スパンのロジットマージンを集約し、滑らかな進行依存の信頼度閾値を満たした時点でデコードを停止する。2つのdLLMファミリー(DreamとLLaDA)について、ベースモデルと指示チューニング版の両方で、多肢選択問題回答(MCQ)、数学、長文QA/要約、翻訳を含む10のベンチマークを評価した。SchEDは大幅かつ安定した高速化を実現:指示チューニングモデルでは平均3.8-4.0倍の高速化を達成しつつ、ベースラインスコアの99.8-100%を維持した。ベースモデルでは、99.1-100%の性能維持を伴う一貫した高速化効果を示し、より積極的な設定では最大2.34倍まで向上した。品質劣化を重度にペナルティする保守的速度指標(QPS, γ=4)を用いた評価により、SchEDが従来の信頼度ベース早期終了手法(長文生成で破綻する)を明確に上回る頑健性を持つことを実証した。モデルのトークン予測のエントロピー分析により、指示チューニングが予測エントロピーの減衰を加速することが明らかになった。真の信頼度安定化を計算効率に変換するSchEDは、dLLMのデコード効率を大幅に改善する。
知識編集は、大規模言語モデル(LLM)における特定の事実を完全な再学習なしに更新することを目的としています。従来の研究はLLMの知識層を調整する手法を追求し、選択的な編集において有効性を証明してきました。しかし、制御された教師強制評価での性能と、生涯学習シナリオにおける実世界での有効性の間には大きな隔たりが存在し、これが実用性を大きく制限しています。本研究の実証分析により、この隔たりに関連する二つの反復的な問題が明らかになりました:(1)従来手法の多くは編集されたモデルを新事実に過剰適合させ、事前学習された能力を劣化させる、(2)知識統合段階が決定的に欠如しており、自己回帰的生成下での推論時行動において新事実が不十分に統合されるため、パラメトリック知識と実際の生成行動の間に不一致が生じる。そこで本研究では、理論的な知識編集手法と実世界での適用性の隔たりを埋めることを目的とした新しい知識編集パラダイム「Edit-then-Consolidate」を提案します。具体的には、(1)信頼領域目的関数による編集の局所化でポリシー逸脱を抑制するターゲット近接教師付きファインチューニング(TPSFT)により過剰適合を緩和、(2)グループ相対ポリシー最適化(GRPO)を用いた統合段階により、包括的な報酬信号下での軌跡レベル行動最適化を通じて、編集された知識とCoTベース推論ポリシーを整合させます。大規模な実験により、本フレームワークが実世界評価下での編集信頼性と一般化性を一貫して向上させつつ、局所性と事前学習能力の保持にも優れることが実証されました。
エージェント、すなわち推論、計画立案、行動が可能な言語モデル(LM)ベースのシステムは、実世界のAIアプリケーションにおける支配的なパラダイムとなりつつある。このような広範な採用にもかかわらず、その性能を決定する原理は未解明のままであり、実務家は原理に基づいた設計選択ではなく、経験則に依存せざるを得ない。我々はこのギャップを埋めるため、エージェントシステムにおける定量的なスケーリング原理を導出する。これを4つの多様なベンチマーク(Finance-Agent、BrowseComp-Plus、PlanCraft、Workbench)で評価した。3つのLLMファミリーで実装された5つの標準的アーキテクチャ(単一、独立、集中型、分散型、ハイブリッド)を用い、標準化されたツールとトークン予算のもと、180の設定にわたる制御評価を実施した。効率性、オーバーヘッド、誤差増幅、冗長性を含む経験的調整指標を用いて予測モデルを導出し、交差検証済み決定係数R^2=0.513を達成した。我々は以下の3つの主要な効果を特定した:(1) ツールと調整のトレードオフ:計算予算が固定された条件下では、ツールを多用するタスクはマルチエージェントのオーバーヘッドによる影響を不釣り合いに被る。(2) 能力飽和:単一エージェントのベースライン性能が約45%を超えると、調整による効果は逓減または負のリターン(beta=-0.408, p<0.001)となる。(3) トポロジー依存的な誤差増幅:独立エージェントは誤差を未検証の伝播により17.2倍に増幅するのに対し、集中型調整では4.4倍に抑制される。集中型調整は金融推論のような並列化可能なタスクで性能を80.9%向上させる一方、分散型調整は動的なウェブナビゲーションで優位(+9.2% vs. +0.2%)を示した。しかし、逐次的な推論タスクでは、全てのマルチエージェント変種が性能を39-70%低下させた。本フレームワークは、保留設定の87%において最適な調整戦略を予測し、測定可能なタスク特性に基づくエージェントのスケーリングに関する予測原理を提供する。
静的3Dシーン表現における3D Gaussian Splatting (3DGS) の成功を基盤として、4DGSまたは動的3DGSとも呼ばれる動的シーンへの拡張が注目を集めている。しかし、動的3DGS表現に対して、よりコンパクトで効率的な変形手法と、レート歪み最適化された圧縮戦略を同時に設計することは、未だ十分に研究されていない領域である。既存手法は、過剰に特定された短命なガウシアン基本要素に依存する時空間4DGS、あるいは明示的時間制御を欠く変形を伴う正準3DGSのいずれかに依存している。この問題に対処するため、本論文ではTED-4DGSを提案する。これは、両手法群の長所を統合した、レート歪み最適化4DGS圧縮のための時間活性化・埋め込みベースの変形手法である。TED-4DGSは、疎なアンカーベースの3DGS表現に基づいて構築される。各正準アンカーには学習可能な時間活性化パラメータが割り当てられ、時間経過に伴う出現と消失の遷移を指定する。一方、軽量なアンカー毎の時間埋め込みは、共有された変形バンクに照会してアンカー特有の変形を生成する。レート歪み圧縮においては、アンカー属性の分布をモデル化するために暗黙的ニューラル表現(INR)ベースのハイパープライアを、また、アンカー内相関を捕捉するためにチャネル単位の自己回帰モデルを組み込む。これらの新規要素により、本手法は複数の実世界データセットにおいて、最先端のレート歪み性能を達成する。知る限り、本研究は動的3DGS表現に対するレート歪み最適化圧縮フレームワークを追求した最初期の試みの一つである。
拡散型(大規模)言語モデル(dLLM)は、多くのタスクにおいて自己回帰型モデルと同等の下流性能を達成しつつ、推論時の効率性向上が期待される。特に成功しているバリアントとして、特殊なマスクトークンで満たされたバッファをモデルの語彙からサンプリングされたトークンに段階的に置換する「マスク離散拡散」がある。複数のトークンを並列にアンマスクすることで効率化が図れるが、一度に過剰なトークンを処理すると生成品質の劣化を招くリスクがある。このため、dLLMの重要な設計要素は、拡散過程の各ステップでどのトークンを置換するかを決定するサンプリング手順である。実際、最近の研究では、信頼度閾値処理などのヒューリスティック戦略がランダムなアンマスクに比べて品質とトークン処理量の両方で優れることが明らかになっている。しかし、こうしたヒューリスティック手法には欠点もある:手動調整が必要であり、我々の観察ではバッファサイズが大きくなると性能が低下する。本研究では、強化学習を用いてサンプリング手順を訓練する手法を提案する。具体的には、マスク拡散サンプリングをdLLMを環境とするマルコフ決定過程として定式化し、dLLMのトークン信頼度をアンマスク判断に変換する単層Transformerベースの軽量ポリシー構造を設計する。実験により、訓練されたポリシーは半自己回帰生成と組み合わせた場合に最先端のヒューリスティック手法と同等の性能を発揮し、完全拡散設定ではそれを上回ることを示す。また、これらのポリシーが新たな基盤dLLMや長い系列長へ転移可能であることを確認する。一方、ドメイン外データへの適用時には性能劣化が生じ、精度と効率性のトレードオフの微調整が課題となることも明らかになった。
マルチモーダル大規模言語モデル(MLLM)の最近の進展は、様々なベンチマークで目覚ましい進歩をもたらしている。しかし、赤外線画像を理解する能力については未解明のままである。この課題に対処するため、我々は赤外線画像のマルチモーダル理解を評価する初の高品質ベンチマーク「IF-Bench」を提案する。IF-Benchは23の赤外線データセットから収集した499枚の画像と、画像理解の10の重要次元を網羅するように注意深く作成された680組の視覚的質問応答ペアで構成される。このベンチマークに基づき、オープンソース及びクローズドソースの40以上のMLLMを体系的に評価し、結果の信頼性を高めるために循環評価、二言語評価、ハイブリッド判定戦略を採用した。分析により、モデル規模、アーキテクチャ、推論パラダイムが赤外線画像の理解に与える影響が明らかになり、この分野に貴重な知見を提供する。さらに、高度な画像編集モデルを活用して赤外線画像を意味的・空間的に整合したRGB画像に変換することで、ドメイン分布シフトを緩和するトレーニング不要の生成的視覚プロンプト手法(GenViP)を提案する。大規模な実験により、本手法が幅広いMLLMで一貫して大幅な性能向上をもたらすことが実証された。ベンチマークとコードはhttps://github.com/casiatao/IF-Bench で公開されている。
自己回帰(AR)拡散モデルは、フレームを因果的に生成することでストリーミング・対話的な長尺動画生成を可能にするが、分単位の時間軸において一貫性を維持することは、誤差の蓄積、モーションドリフト、コンテンツの反復により依然として困難である。我々はこの問題を記憶の観点から捉え、動画合成を、短期的・長期的な文脈の協調を必要とする反復的な力学過程として扱う。本論文では、AR拡散とハイブリッド状態空間メモリを統合した長尺動画モデル「VideoSSM」を提案する。状態空間モデル(SSM)はシーケンス全体にわたるシーン動態の進化するグローバルメモリとして機能し、コンテキストウィンドウはモーションキューと細部の情報のためのローカルメモリを提供する。このハイブリッド設計は、固定化・反復的なパターンなくグローバルな一貫性を保持し、プロンプト適応的な相互作用をサポートし、シーケンス長に対して線形時間でスケールする。短距離・長距離ベンチマークによる実験では、特に分単位の時間軸において、自己回帰型動画生成器の中で最先端の時間的一貫性とモーション安定性を示し、コンテンツの多様性と対話的なプロンプトベース制御を実現することで、スケーラブルで記憶を考慮した長尺動画生成の枠組みを確立する。
軽量でリアルタイムなテキスト音声合成システムは、アクセシビリティにおいて極めて重要である。しかし、最も効率的なTTSモデルは、文脈依存の課題に対処するのが困難な軽量な音韻化モジュールに依存する場合が多い。一方、より深い言語的理解を備えた高度な音韻化モジュールは、通常、高い計算コストを伴い、リアルタイム性能を阻害する。 本論文は、G2P支援型TTSシステムにおける音韻化品質と推論速度のトレードオフを検証し、この隔たりを埋める実用的なフレームワークを提案する。我々は、文脈を考慮した音韻化のための軽量戦略と、これらのモジュールを独立したサービスとして実行するサービス指向のTTSアーキテクチャを提案する。この設計は、高負荷な文脈認識コンポーネントを中核のTTSエンジンから分離し、レイテンシの障壁を効果的に打破することで、高品質な音韻化モデルのリアルタイム利用を可能にする。実験結果から、提案システムが発音の正確さと言語的精度を向上させつつ、リアルタイム応答性を維持することを確認した。これは、オフラインおよびエンドデバイス向けTTSアプリケーションに適している。
ロバストなVLMにおける頑健性と性能のトレードオフに対処するため、本論文では機能語がVLMのクロスモーダル敵対的攻撃に対する脆弱性を引き起こす可能性を指摘し、機能語の影響を軽減するFunction-word De-Attention(FDA)を提案する。差動増幅器と同様に、FDAはアテンションヘッド内で元のクロスアテンションと機能語クロスアテンションを計算し、後者を前者から差動的に減算することで、より整合性が高く頑健なVLMを実現する。包括的実験として、2つの下流タスク、3つのデータセット、3つのモデルにおいて、6種類の攻撃手法を用いた2つのSOTAベースラインを評価した。全体として、FDAは検索タスクにおいて3つのテストモデルで平均18/13/53%のASR低下を達成し、性能低下はわずか0.2/0.3/0.6%に抑えられた。視覚的接地タスクでは90%のASR低下と0.3%の性能向上を達成した。FDAの拡張性、一般化性、ゼロショット性能を実験的に実証するとともに、詳細なアブレーションスタディと分析を実施する。コードはhttps://github.com/michaeltian108/FDA で公開予定である。
臨床対話は、自然な会話に必要な共感的な流暢さと、根拠に基づく医療が求める厳密な正確性という、複雑な二重性を内包する。大規模言語モデルは前例のない言語能力を有するが、そのアーキテクチャが反応的かつステートレスな処理に依存する性質上、確率的な尤もらしさが事実の正確性よりも優先されがちである。この構造的限界は、医療AIのパラダイムを生成的テキスト予測から、意図的な計画と持続的メモリを可能とする中核的推論エンジンとして機能するエージェント的自律性へと移行させる触媒となった。従来のレビューが主に下流応用を列挙するにとどまる中、本調査はこの変遷を支える認知アーキテクチャを第一原理から分析する。我々は、知識源とエージェンシーの目的という直交する軸に沿って構築された新たな分類体系を提案し、臨床知識の由来をシステムの運用範囲に対比して明らかにする。この枠組みにより、手法を「潜在空間臨床医」「創発的プランナー」「接地型統合器」「検証可能ワークフロー自動化器」という4つの原型に分類し、創造性と信頼性の間の本質的トレードオフを体系的に分析する。各パラダイムについて、戦略的計画、メモリ管理、行動実行、協調、進化という認知パイプライン全体にわたる技術的実現方法を解明し、異なるアーキテクチャ選択が如何に自律性と安全性の緊張関係をバランスさせるかを明らかにする。
テキストからビデオを生成する技術は近年著しいリアリズムを達成しているが、カメラの動きや向きに対する微細な制御は依然として困難な課題である。既存の手法では、カメラ軌道を相対的あるいは曖昧な表現で符号化することが一般的であり、明示的な幾何学的制御が制限されている。本論文では、重力を大域的な基準として用い、物理世界の座標に基づいたカメラ制御を可能にするフレームワークGimbalDiffusionを提案する。我々の手法は、動きを前フレームに対して記述するのではなく、カメラ軌道を絶対座標系で定義するため、初期参照フレームを必要とせず、カメラパラメータに対する精密で解釈可能な制御を実現する。パノラマ360度動画を活用することで、従来の映像データで主流である直線的・正面指向の軌道をはるかに超える多様なカメラ軌道を構築する。さらにカメラ制御を強化するため、テキスト内容とカメラ指定が矛盾する状況(例:カメラが空を向いているのに草を生成する)において、モデルのテキスト内容への依存を低減する注釈戦略であるnull-pitch conditioningを導入する。最後に、SpatialVID-HQを再調整し、広範なカメラピッチ変動下での総合的な評価を可能とする、カメラを考慮したビデオ生成のベンチマークを確立する。これらの貢献により、生成フレームワーク内で精密かつ重力方向に整合したカメラ操作を実現し、テキスト-to-ビデオモデルの制御性と頑健性を推進する。
ビットコイン採掘ハードウェアの取得は、市場の変動性、急速な技術陳腐化、およびプロトコルに起因する収益サイクルにより、戦略的なタイミングを要する。採掘が資本集約的産業へと進化したにもかかわらず、新しいASIC(特定用途向け集積回路)ハードウェアをいつ購入すべきかについての指針はほとんどなく、この意思決定問題に対処する計算論的枠組みもこれまで存在しなかった。本研究はこの課題を、ハードウェア取得を時系列分類タスクとして定式化し、ASICマシンの購入が1年以内に採算性の高い(投資収益率(ROI)≧1)、採算が合わない(ROI≦0)、またはその中間(0<ROI<1)のいずれをもたらすかを予測することで解決する。我々は、採掘収益性におけるマルチスケールの時間的パターンを捕捉するために設計された、オープンソースのTransformerベースのアーキテクチャであるMineROI-Netを提案する。2015年から2024年にかけてリリースされた20種類のASICマイナーにおける様々な市場環境のデータを用いて評価した結果、MineROI-NetはLSTMベースのベースラインおよびTSLANetを上回り、83.7%の精度と83.1%のマクロF1スコアを達成した。本モデルは高い経済的関連性を示し、採算が合わない期間の検出において93.6%、採算性の高い期間において98.5%の精度を達成するとともに、採算性の高いシナリオと採算が合わないシナリオの誤分類を回避した。これらの結果は、MineROI-Netが採掘ハードウェア取得のタイミング決定に対する実用的なデータ駆動型ツールを提供し、資本集約的な採掘事業における財務リスク低減に寄与し得ることを示唆する。本モデルは以下で公開されている:https://github.com/AMAAI-Lab/MineROI-Net。