翻訳付きの日次キュレーションされたAI研究論文
医療診断の分野は、大規模言語モデル(LLM)の登場により大きな変革を遂げてきたが、これらのモデル内での解釈可能性に関する課題は依然としてほとんど未解決のままである。本研究では、LLMベースの医療診断の解釈可能性を向上させるために、Chain-of-Diagnosis(CoD)を導入する。CoDは、診断プロセスを医師の思考プロセスを反映した診断チェーンに変換し、透明な推論経路を提供する。さらに、CoDは意思決定の透明性を確保するために、疾患の信頼度分布を出力する。この解釈可能性により、モデル診断を制御可能にし、信頼度のエントロピー減少を通じて重要な症状を特定するのに役立つ。CoDを用いて、9604の疾患を診断可能なDiagnosisGPTを開発した。実験結果は、DiagnosisGPTが診断ベンチマークにおいて他のLLMを上回ることを示している。さらに、DiagnosisGPTは診断の厳密さを制御可能にしながら、解釈可能性を提供する。
本論文は新規手法を提案するものではない。その代わりに、KANとMLPモデルを機械学習、コンピュータビジョン、音声処理、自然言語処理、および数式表現といった様々なタスクにおいて、より公平かつ包括的に比較する。具体的には、パラメータ数とFLOPsを制御し、KANとMLPの性能を比較した。主な観察結果として、数式表現タスクを除き、MLPが一般的にKANを上回ることがわかった。また、KANに関するアブレーション研究を行い、数式表現におけるKANの優位性が主にB-spline活性化関数に起因することを明らかにした。B-splineをMLPに適用すると、数式表現における性能が大幅に向上し、KANを上回るか同等の結果を示した。しかし、MLPが既にKANを上回っている他のタスクでは、B-splineはMLPの性能を大幅に向上させなかった。さらに、標準的なクラス増分継続学習設定において、KANの忘却問題がMLPよりも深刻であることが判明し、これはKANの論文で報告された結果とは異なる。これらの結果が、KANや他のMLP代替手法に関する今後の研究に示唆を与えることを期待する。プロジェクトリンク:https://github.com/yu-rp/KANbeFair
近年のビデオ生成技術の進展は、主に拡散モデルを活用した短時間コンテンツの生成に焦点が当てられてきた。しかし、これらのアプローチは、複雑な物語のモデリングや、映画のような長編ビデオ制作に不可欠な長期間にわたるキャラクターの一貫性の維持において、しばしば限界がある。本論文では、MovieDreamerという新しい階層的フレームワークを提案する。このフレームワークは、自己回帰モデルの強みと拡散ベースのレンダリングを統合し、複雑なプロット進行と高い視覚的忠実度を備えた長時間ビデオ生成を開拓するものである。我々のアプローチでは、グローバルな物語の一貫性を保つために自己回帰モデルを活用し、視覚的トークンのシーケンスを予測し、その後拡散レンダリングを通じて高品質なビデオフレームに変換する。この方法は、複雑な物語を管理可能なシーン撮影に分解する伝統的な映画制作プロセスに類似している。さらに、詳細なキャラクター情報と視覚スタイルをシーン記述に加えたマルチモーダルスクリプトを採用し、シーン間の連続性とキャラクターの同一性を強化する。様々な映画ジャンルにわたる広範な実験を通じて、我々のアプローチが優れた視覚的および物語的品質を達成するだけでなく、生成コンテンツの持続時間を現在の能力を大幅に超えて拡張することを実証する。ホームページ: https://aim-uofa.github.io/MovieDreamer/。
バーチャル試着(VTON)は、ユーザーが実際に服を試着することなくファッションを試せる革新的な技術として注目を集めています。しかし、既存の手法では、高精細で詳細に一貫した結果を生成するのに苦戦することが多いのが現状です。Stable Diffusionシリーズのような拡散モデルは、高品質で写真のようにリアルな画像を生成する能力を示していますが、VTONのような条件付き生成シナリオでは大きな課題に直面します。具体的には、これらのモデルは、仮想の服の試着画像を生成する際に、制御と一貫性のバランスを保つことが難しいのです。OutfitAnyoneは、これらの制限を克服するために、二つのストリームを持つ条件付き拡散モデルを活用し、よりリアルな結果を得るために衣服の変形を巧みに処理します。このモデルは、ポーズや体型といったスケーラビリティ調整要因や、アニメから実写画像まで幅広い適用性といった点で際立っています。OutfitAnyoneの多様なシナリオでの性能は、その有用性と実世界での展開の準備が整っていることを示しています。詳細やアニメーション結果については、https://humanaigc.github.io/outfit-anyone/ をご覧ください。
テキストからビデオ(T2V)生成モデルは大きく進歩しているものの、異なるオブジェクト、属性、アクション、モーションをビデオに構成する能力はまだ十分に検証されていません。従来のテキストからビデオのベンチマークも、この重要な評価能力を軽視してきました。本研究では、構成可能なテキストからビデオ生成に関する初の体系的な研究を行います。私たちは、構成可能なテキストからビデオ生成に特化した初のベンチマークであるT2V-CompBenchを提案します。T2V-CompBenchは、一貫した属性のバインド、動的な属性のバインド、空間的関係、モーションのバインド、アクションのバインド、オブジェクト間の相互作用、生成的な数値能力など、構成可能性の多様な側面を網羅しています。さらに、MLLMベースの指標、検出ベースの指標、追跡ベースの指標を慎重に設計し、700のテキストプロンプトを用いた7つの提案カテゴリにおける構成可能なテキストからビデオ生成の品質をより適切に反映できるようにしました。提案された指標の有効性は、人間による評価との相関によって検証されています。また、様々なテキストからビデオ生成モデルをベンチマークし、異なるモデルや異なる構成カテゴリにわたる詳細な分析を行いました。その結果、構成可能なテキストからビデオ生成は現在のモデルにとって非常に困難であることがわかりました。私たちの試みが、この方向性における将来の研究に光を当てることを願っています。
既存の3D人間-物体インタラクション(HOI)データセットとモデルは、単にグローバルな記述を長いHOIシーケンスに合わせるだけで、中間状態や状態間の遷移に対する詳細な理解が欠けています。本論文では、状態レベルの記述を活用した細粒度の意味的アラインメントが、意味的に豊かなHOI表現を学習するための有望なパラダイムを提供すると主張します。これを実現するため、Semantic-HOIという新しいデータセットを導入します。このデータセットは、各HOI状態と2つの連続する状態間で発生する身体動作に対する細粒度の記述を含む、20K以上のペアHOI状態で構成されています。提案されたデータセットを活用し、HOIシーケンス内で細粒度の意味的アラインメントを達成するための3つの状態レベルHOIタスクを設計します。さらに、マルチモーダル命令を活用し、マルチモーダル大規模言語モデルが多様なHOIタスクを効率的に処理できるようにするF-HOIという統一モデルを提案します。F-HOIには複数の利点があります:(1)多様なマルチモーダル入力の使用をサポートする統一タスク定式化を採用しています。(2)2D、3D、および言語空間全体でHOIの一貫性を維持します。(3)HOI状態の複雑なモデリングを避け、細粒度のテキスト監視を直接最適化に利用します。大規模な実験により、F-HOIがHOI状態を細粒度の意味的記述と効果的にアラインメントし、理解、推論、生成、再構成タスクを巧みに処理することが明らかになりました。
データの可用性と計算リソースの進展に伴い、マルチモーダル大規模言語モデル(MLLMs)はさまざまな分野でその能力を発揮してきました。しかし、MLLMsにおける視覚エンコーダの二次的な複雑さは、入力画像の解像度を制約しています。現在のほとんどのアプローチでは、高解像度画像を小さなサブ画像に切り取り、視覚エンコーダによって独立して処理することでこの問題を緩和しています。これらのサブ画像は十分な局所的な詳細を捉えているものの、グローバルなコンテキストが欠如しており、互いに相互作用することができません。この制限を解決するため、我々は高解像度画像の効果的な知覚を目的とした新しいMLLM、INF-LLaVAを提案します。INF-LLaVAは、2つの革新的なコンポーネントを組み込んでいます。まず、Dual-perspective Cropping Module(DCM)を導入し、各サブ画像が局所的な視点からの連続した詳細とグローバルな視点からの包括的な情報を含むようにします。次に、Dual-perspective Enhancement Module(DEM)を導入し、グローバルとローカルの特徴の相互強化を可能にし、INF-LLaVAが詳細な局所情報と包括的なグローバルコンテキストを同時に捉えることで高解像度画像を効果的に処理できるようにします。広範なアブレーションスタディはこれらのコンポーネントの有効性を検証し、多様なベンチマークでの実験により、INF-LLaVAが既存のMLLMsを上回ることを示しています。コードと事前学習済みモデルはhttps://github.com/WeihuangLin/INF-LLaVAで公開されています。
国際的な賞金競技、スケールドモデル車両、およびシミュレーション環境が利用可能であるにもかかわらず、自律レーシングおよびハンドリング限界近くで動作するスポーツカーの制御に関する研究は、車両の取得と管理の高コスト、およびオープンソースシミュレータの物理精度の限界によって制約されてきました。本論文では、シミュレータAssetto Corsaを基盤としたレーシングシミュレーションプラットフォームを提案し、現実的で挑戦的なシナリオにおいて、強化学習(RL)や古典的なモデル予測制御(MPC)を含む自律運転アルゴリズムをテスト、検証、ベンチマークします。我々の貢献は、このシミュレーションプラットフォームの開発、レーシング環境に特化したいくつかの最先端アルゴリズム、および人間のドライバーから収集した包括的なデータセットを含みます。さらに、オフラインRL設定におけるアルゴリズムの評価も行います。必要なコード(環境とベンチマークを含む)、動作例、データセット、およびビデオはすべて公開されており、以下のURLで確認できます:https://assetto-corsa-gym.github.io。
ビデオベースの事前学習は、前例のない規模で強力な視覚表現を学習するための莫大な可能性を提供します。最近、マスク付きビデオモデリング手法は有望なスケーラビリティを示していますが、ピクセルなどの事前定義された低レベルターゲットを再構築するため、より高レベルのセマンティクスを捉える点で不足しています。この課題に対処するため、我々はSinkhorn-guided Masked Video Modelling (SIGMA)を提案します。これは、投影ネットワークを使用してビデオモデルとターゲット特徴空間を同時に学習する新しいビデオ事前学習手法です。しかし、この単純な変更により、両ネットワークが共同で最適化されるため、通常のL2再構成損失では自明な解が導かれることになります。これを解決するため、時空間チューブの特徴を限られた数の学習可能なクラスタに均等に分散させます。これを最適輸送問題として定式化することで、バッチ全体で生成された特徴に高いエントロピーを強制し、特徴空間にセマンティックおよび時間的意味を注入します。結果として得られるクラスタ割り当ては、ビデオモデルが投影ネットワークのクラスタ割り当てを予測し、その逆も行う対称予測タスクのターゲットとして使用されます。3つのベンチマークにわたる10のデータセットでの実験結果は、SIGMAがより高性能で時間的認識力があり、ロバストなビデオ表現を学習する有効性を検証し、最先端の手法を改善することを示しています。コード付きのプロジェクトウェブサイトは以下で利用可能です: https://quva-lab.github.io/SIGMA。
言語モデル(LM)を展開する際には、出力が高品質であると同時に安全ガイドラインに準拠していることが必要です。推論時ガードレール(ITG)は、モデルの出力分布を準拠方向にシフトさせる解決策を提供しますが、現在の手法は安全性と有用性のバランスを取るのに苦労していることがわかりました。非準拠クエリを安全に対処するITG手法は有用性が低く、有用性を優先する手法は安全性を犠牲にしています。私たちはこのトレードオフを、アライメント税に類似した「ガードレール税」と呼びます。この問題に対処するため、構造化された制御フローを利用する新しいITG手法であるPrimeGuardを提案します。 PrimeGuardは、LMの自己インスタンス化を異なる指示でルーティングし、その内在的な指示追従能力と文脈内学習を活用します。私たちのチューニング不要なアプローチは、各クエリに対してシステム設計者のガイドラインを動的にコンパイルします。また、多様なレッドチーム安全ベンチマークであるsafe-evalを構築し公開しました。広範な評価により、PrimeGuardはチューニングなしで、(1) 反復的なジェイルブレイク攻撃に対する耐性を大幅に向上させ、(2) 安全ガードレールにおいて最先端の結果を達成し、(3) アライメントチューニングされたモデルの有用性スコアに匹敵することを示しています。広範な評価により、PrimeGuardはチューニングなしで、すべての競合ベースラインを上回り、安全な応答の割合を61%から97%に向上させ、最大モデルでの平均有用性スコアを4.17から4.29に増加させ、攻撃成功率を100%から8%に削減することで、ガードレール税を克服することが示されました。 PrimeGuardの実装はhttps://github.com/dynamofl/PrimeGuardで、safe-evalデータセットはhttps://huggingface.co/datasets/dynamoai/safe_evalで公開されています。
視覚言語モデル(VLM)の応用は、さまざまなロボティクスタスクで印象的な成功を収めてきたが、四足歩行ロボットのナビゲーションにおける基盤モデルの探索はほとんど行われていない。本論文では、Cross Anything System(CAS)を紹介する。これは、高レベルの推論モジュールと低レベルの制御ポリシーで構成される革新的なシステムであり、ロボットが複雑な3D地形を横断し、目標位置に到達することを可能にする。高レベルの推論とモーションプランニングにおいては、VLMを活用した新しいアルゴリズムシステムを提案し、タスク分解と閉ループサブタスク実行メカニズムを設計した。低レベルの移動制御においては、確率アニーリング選択(PAS)法を用いて、強化学習により制御ポリシーを訓練した。多数の実験により、本システムが複雑な3D地形を正確かつ堅牢にナビゲートできることが示され、その強力な汎化能力により、多様な屋内・屋外シナリオや地形での応用が保証される。プロジェクトページ: https://cross-anything.github.io/