翻訳付きの日次キュレーションされたAI研究論文
カメラ制御は、テキストや画像を条件とした動画生成タスクにおいて積極的に研究されてきた。しかし、与えられた動画のカメラ軌道を変更するという課題は、映像制作の分野における重要性にもかかわらず、十分に探求されていないままである。これは、複数フレームの外観と動的な同期を維持するという追加の制約により、非自明な課題となっている。この問題に対処するため、我々はReCamMasterを提案する。これは、入力動画の動的なシーンを新しいカメラ軌道で再現する、カメラ制御型の生成動画再レンダリングフレームワークである。中核となる革新点は、事前学習済みのテキストから動画を生成するモデルの生成能力を、シンプルでありながら強力な動画条件付けメカニズムを通じて活用することにある。この能力は、現在の研究ではしばしば見過ごされている。質の高い学習データの不足を克服するため、我々はUnreal Engine 5を使用して、現実世界の撮影特性に従い、多様なシーンとカメラの動きをカバーする、包括的なマルチカメラ同期動画データセットを構築した。これにより、モデルが実世界の動画に一般化するのを支援する。最後に、入念に設計された学習戦略を通じて、多様な入力に対するロバスト性をさらに向上させた。大規模な実験により、我々の手法が既存の最先端手法や強力なベースラインを大幅に上回ることが示された。また、我々の手法は、動画の安定化、超解像、およびアウトペインティングにおいて有望な応用を見出している。プロジェクトページ: https://jianhongbai.github.io/ReCamMaster/
SmolDoclingを紹介します。これはエンドツーエンドの文書変換を目指した超コンパクトな視覚言語モデルです。本モデルは、ページ全体を包括的に処理し、DocTagsという新しいユニバーサルマークアップ形式を生成します。DocTagsは、ページ要素の完全なコンテキストと位置情報を捕捉します。既存のアプローチでは、大規模な基盤モデルに依存したり、複数の専門モデルを手作業で組み合わせたパイプラインに頼ったりしていますが、SmolDoclingは、256Mパラメータの視覚言語モデルで、文書要素の内容、構造、空間的位置を正確に捕捉するエンドツーエンド変換を提供します。 SmolDoclingは、ビジネス文書、学術論文、技術レポート、特許、フォームなど、多様な文書タイプにわたって、コードリスト、表、数式、チャート、リストなどの文書特徴を正確に再現する堅牢な性能を示します。これは、一般的に科学論文に焦点を当てた従来のアプローチを大幅に拡張するものです。さらに、チャート、表、数式、コード認識のための新規の公開データセットを提供します。実験結果は、SmolDoclingがサイズが最大27倍大きい他の視覚言語モデルと競合しつつ、計算要件を大幅に削減することを示しています。モデルは現在利用可能であり、データセットはまもなく公開される予定です。
拡散モデルは、Classifier-Free Guidance(CFG)などのガイダンス技術を用いて高品質な条件付きサンプルを生成する際に印象的な結果を示しています。しかし、既存の手法では追加のトレーニングやニューラル関数評価(NFE)が必要となることが多く、ガイダンス蒸留モデルとの互換性がありません。また、これらの手法はヒューリスティックなアプローチに依存しており、ターゲット層を特定する必要があります。本研究では、PLADISと呼ばれる新規で効率的な手法を提案します。この手法は、事前学習済みモデル(U-Net/Transformer)をスパースアテンションを活用して強化します。具体的には、推論時にクロスアテンション層において、ソフトマックスとそのスパース版を使用してクエリ-キー相関を外挿し、追加のトレーニングやNFEを必要としません。スパースアテンションのノイズ耐性を活用することで、PLADISはテキストから画像への拡散モデルの潜在能力を引き出し、これまで苦手としていた領域でも新たな効果を発揮できるようにします。また、ガイダンス蒸留モデルを含むガイダンス技術とシームレスに統合されます。大規模な実験により、テキストの整合性と人間の選好において顕著な改善が示され、非常に効率的で普遍的に適用可能なソリューションを提供します。
大規模言語モデル(LLM)は、単なるテキスト生成を超え、自然言語のコマンドを具体的なアクションに直接変換するソフトウェアエージェントを駆動するまでに進化してきた。APIベースのLLMエージェントは、その堅牢な自動化能力とプログラム的なエンドポイントとのシームレスな統合により、当初注目を集めた。しかし、最近のマルチモーダルLLM研究の進展により、グラフィカルユーザーインターフェース(GUI)を人間のように操作するGUIベースのLLMエージェントが可能となった。これら2つのパラダイムは、LLM駆動のタスク自動化を実現するという目標を共有しているものの、アーキテクチャの複雑さ、開発ワークフロー、ユーザーインタラクションモデルにおいて大きく異なる。 本論文は、APIベースとGUIベースのLLMエージェントを初めて包括的に比較し、その相違点と潜在的な統合点を体系的に分析する。主要な次元を検証し、ハイブリッドアプローチがそれらの補完的な強みを活かすことができるシナリオを明示する。明確な意思決定基準を提案し、実践的なユースケースを提示することで、実務者や研究者がこれらのパラダイムを選択、組み合わせ、または移行する際の指針を提供することを目指す。最終的に、LLMベースの自動化における継続的なイノベーションが、API駆動とGUI駆動のエージェントの境界を曖昧にし、幅広い実世界のアプリケーションにおいてより柔軟で適応的なソリューションへの道を開くことを示唆する。
データ効率の追求、すなわち量よりも質を重視するアプローチは、特に現実世界でのデータ収集に伴う高コストを考慮すると、ロボット操作における重要な基盤として浮上しています。我々は、個々のデモンストレーションの情報密度を最大化することが、大規模なデータセットへの依存を劇的に減らしつつ、タスク性能を向上させると提案します。この目的のために、我々はAdversarial Data Collection(ADC)を導入します。これは、リアルタイムの双方向的人間-環境相互作用を通じてロボットデータ収集を再定義するHuman-in-the-Loop(HiL)フレームワークです。静的なデモンストレーションを受動的に記録する従来のパイプラインとは異なり、ADCは協調的摂動パラダイムを採用します:単一のエピソード中に、敵対的オペレーターが物体の状態、環境条件、および言語命令を動的に変更し、テレオペレーターはこれらの変化する課題を克服するために適応的に行動を調整します。このプロセスにより、多様な失敗回復行動、合成的タスク変異、および環境摂動が最小限のデモンストレーションに圧縮されます。我々の実験では、ADCで訓練されたモデルが、未見のタスク指示に対する優れた合成的汎化能力、知覚的摂動に対する強化された頑健性、および新たなエラー回復能力を達成することを示しています。驚くべきことに、ADCを通じて収集されたデモンストレーション量のわずか20%で訓練されたモデルは、完全なデータセットを使用する従来のアプローチを大幅に上回ります。これらの進展は、データ中心の学習パラダイムと実用的なロボット展開の間のギャップを埋め、戦略的なデータ収集が、単なる事後処理ではなく、スケーラブルな現実世界のロボット学習にとって重要であることを示しています。さらに、我々は、敵対的摂動を伴う現実世界の操作タスクを含む大規模なADC-Roboticsデータセットをキュレーションしています。このベンチマークは、ロボット模倣学習の進展を促進するためにオープンソース化されます。
状態空間モデル(SSM)は、広く普及しているトランスフォーマーベースのモデルに代わる有望なアプローチとして注目を集めつつある。トランスフォーマーと比較して、SSMはシーケンシャルデータや長いコンテキストを扱うタスクにおいて優れた性能を発揮し、同等のパフォーマンスを維持しながら大幅な効率向上を実現している。本調査では、SSMに関する理論的動機付け、数学的定式化、既存モデルクラスとの比較、および様々な応用について、一貫性と体系性を持った概要を提供する。SSMシリーズを3つの主要セクションに分け、オリジナルのSSM、S4に代表される構造化SSM、そしてMambaに代表される選択的SSMについて詳細に紹介する。技術的な側面に重点を置き、SSMの有効性と効率性を向上させるために導入された様々なキーテクニックを強調する。本稿が、研究者がSSMの理論的基盤を探求するための導入として役立つことを期待する。
本論文では、VGGTというフィードフォワードニューラルネットワークを提案します。このネットワークは、1枚、数枚、または数百枚のビューから、カメラパラメータ、ポイントマップ、深度マップ、3Dポイントトラックなど、シーンのすべての主要な3D属性を直接推論します。このアプローチは、従来の3Dコンピュータビジョンモデルが単一タスクに限定されていた状況から一歩前進したものです。また、シンプルで効率的であり、1秒未満で画像を再構築し、視覚的幾何学最適化技術を必要とする代替手法を凌駕します。本ネットワークは、カメラパラメータ推定、マルチビュー深度推定、密な点群再構築、3Dポイントトラッキングなど、複数の3Dタスクにおいて最先端の結果を達成します。さらに、事前学習済みのVGGTを特徴量バックボーンとして使用することで、非剛体ポイントトラッキングやフィードフォワード新規ビュー合成などの下流タスクが大幅に向上することを示します。コードとモデルはhttps://github.com/facebookresearch/vggtで公開されています。
最先端のTransformerベースの大規模マルチモーダルモデル(LMM)は、因果的自己注意操作の二次的な複雑さのため、1時間に及ぶ動画入力を処理するのに苦労しており、トレーニングと推論の際に高い計算コストがかかります。既存のトークン圧縮ベースの手法は動画トークンの数を削減しますが、情報の損失を招きやすく、極端に長いシーケンスに対しては依然として非効率的です。本論文では、直交する方向性を探り、Mamba-2ブロックを用いて線形複雑度で動画トークンをエンコードするハイブリッドMamba-Transformerモデル(VAMBA)を構築します。トークン削減を行わずとも、VAMBAは単一のGPUで1024フレーム(640×360)以上をエンコード可能であり、Transformerベースのモデルでは256フレームしかエンコードできません。長い動画入力において、VAMBAはトレーニングと推論中のGPUメモリ使用量を少なくとも50%削減し、TransformerベースのLMMと比較してトレーニングステップあたりの速度をほぼ倍増させます。実験結果は、VAMBAが1時間に及ぶ動画理解ベンチマークLVBenchにおいて、従来の効率的な動画LMMを4.3%上回る精度を達成し、長短さまざまな動画理解タスクにおいても高い性能を維持することを示しています。
異なるモダリティを橋渡しすることは、クロスモダリティ生成の核心に位置する。従来のアプローチでは、テキストモダリティをガウシアンノイズからターゲット画像モダリティへと徐々に導く条件付け信号として扱うが、我々はよりシンプルなパラダイム、すなわちフローマッチングを通じてテキストと画像モダリティの間を直接進化させる方法を探求する。これには、両モダリティを共有潜在空間に投影する必要があるが、それらが本質的に異なる表現を持つため、大きな課題となる。テキストは高度に意味的で1Dトークンとしてエンコードされるのに対し、画像は空間的に冗長で2D潜在埋め込みとして表現される。この問題に対処するため、我々はFlowTokを導入する。これは、画像をコンパクトな1Dトークン表現にエンコードすることで、テキストと画像の間をシームレスに流れる最小限のフレームワークである。従来の方法と比較して、この設計は256の画像解像度において潜在空間のサイズを3.3倍削減し、複雑な条件付けメカニズムやノイズスケジューリングの必要性を排除する。さらに、FlowTokは同じ定式化の下で画像からテキストへの生成にも自然に拡張される。コンパクトな1Dトークンを中心とした合理化されたアーキテクチャにより、FlowTokは高いメモリ効率を実現し、大幅に少ないトレーニングリソースを必要とし、はるかに高速なサンプリング速度を達成する。これらすべてを、最先端のモデルに匹敵する性能を維持しながら実現する。コードはhttps://github.com/bytedance/1d-tokenizerで公開予定である。
フェデレーテッドラーニング(FL)は、生データを共有することなくプライバシーを保護しながら協調的なモデルトレーニングを実現する有望なパラダイムとして登場しました。しかし、最近の研究では、共有された勾配情報を通じて依然としてプライベート情報が漏洩する可能性があり、勾配反転攻撃(GIA)によって攻撃されることが明らかになっています。多くのGIA手法が提案されているものの、これらの手法に関する詳細な分析、評価、およびまとめはまだ不足しています。既存のFLにおけるプライバシー攻撃をまとめたサーベイ論文はいくつか存在しますが、GIAの有効性とその関連する制限要因を明らかにするための広範な実験を行った研究はほとんどありません。このギャップを埋めるため、我々はまずGIAの体系的なレビューを行い、既存の手法を最適化ベースのGIA(OP-GIA)、生成ベースのGIA(GEN-GIA)、解析ベースのGIA(ANA-GIA)の3種類に分類します。次に、FLにおけるこれら3種類のGIAを包括的に分析・評価し、その性能、実用性、および潜在的な脅威に影響を与える要因について洞察を提供します。我々の調査結果によると、OP-GIAは性能が不十分であるにもかかわらず最も実用的な攻撃設定であり、GEN-GIAは多くの依存関係があり、ANA-GIAは検出されやすいため、いずれも実用的ではありません。最後に、より良いプライバシー保護を実現するためにFLフレームワークやプロトコルを設計する際にユーザーが利用できる3段階の防御パイプラインを提案し、攻撃者と防御者の観点から追求すべき今後の研究の方向性を共有します。我々の研究が、研究者がこれらの攻撃に対抗するより堅牢なFLフレームワークを設計する一助となることを願っています。
精密治療には、個別化された治療推奨を生成する多モーダル適応モデルが必要です。本論文では、TxAgentを紹介します。これは、211のツールからなるツールボックスを活用し、多段階推論とリアルタイムの生物医学的知識検索を行い、薬物相互作用、禁忌症、患者固有の治療戦略を分析するAIエージェントです。TxAgentは、薬物が分子レベル、薬物動態レベル、臨床レベルでどのように相互作用するかを評価し、患者の併存疾患や併用薬に基づいて禁忌症を特定し、個々の患者の特性に合わせて治療戦略を調整します。複数の生物医学的ソースから証拠を検索・統合し、薬物と患者の状態間の相互作用を評価し、反復的な推論を通じて治療推奨を洗練させます。タスクの目的に基づいてツールを選択し、構造化された関数呼び出しを実行して、臨床推論とクロスソース検証を必要とする治療タスクを解決します。ToolUniverseは、1939年以降の米国FDA承認薬やOpen Targetsからの検証済み臨床知見を含む、信頼できるソースからの211のツールを統合しています。TxAgentは、5つの新しいベンチマーク(DrugPC、BrandPC、GenericPC、TreatmentPC、DescriptionPC)において、3,168の薬物推論タスクと456の個別化治療シナリオをカバーし、主要なLLM、ツール使用モデル、推論エージェントを上回る性能を示しました。オープンエンドの薬物推論タスクでは92.1%の精度を達成し、GPT-4oを上回り、構造化された多段階推論ではDeepSeek-R1(671B)を凌駕しました。TxAgentは、薬物名のバリエーションや説明にわたって一般化します。多段階推論、リアルタイムの知識基盤、ツール支援意思決定を統合することにより、TxAgentは治療推奨が確立された臨床ガイドラインと実世界の証拠に沿っていることを保証し、有害事象のリスクを低減し、治療意思決定を改善します。
我々は、ビデオのキャプション生成と物体グラウンディングのための新しいアプローチを提案する。このアプローチでは、キャプション内の物体が、時間的に密なバウンディングボックスを通じてビデオ内にグラウンドされる。以下の貢献を紹介する。まず、個々のフレームにグラウンドされたキャプションを集約し、時間的に密で一貫性のあるバウンディングボックス注釈を生成する大規模自動注釈手法を提示する。この手法をHowTo100Mデータセットに適用し、HowToGround1Mという大規模事前学習データセットを構築する。また、Grounded Video Caption Generationモデル(GROVE)を導入し、HowToGround1Mで事前学習を行う。次に、手動で注釈されたキャプションと密な時空間的バウンディングボックスを持つ3500本のビデオからなる新しいデータセットiGroundを紹介する。これにより、この難しい問題における進捗を測定し、小規模だが高品質なデータでモデルを微調整することが可能となる。さらに、提案されたiGroundデータセットにおいて、いくつかのベースラインと比較して最先端の結果を達成し、VidSTGおよびActivityNet-Entitiesデータセットでも同様の結果を示す。我々は、自動注釈されたHowToGround1Mデータセットを使用した事前学習と、手動注釈されたiGroundデータセットでの微調整の重要性を実証する広範なアブレーション実験を行い、モデルの主要な技術的貢献を検証する。
Kolmogorov-Arnoldネットワーク(KANs)は、データからより複雑な関係を捉える可能性を秘めた学習可能な活性化関数から成る画期的なイノベーションです。KANsは、1次元関数のシンボリック表現の発見や継続学習において有用ですが、視覚タスクなど多様な機械学習(ML)タスクでの有効性は疑問視されています。現在、KANsは、ビジョントランスフォーマー(ViTs)のような高度なアーキテクチャを含む深層ネットワークアーキテクチャにおいて、多層パーセプトロン(MLPs)を置き換える形で導入されています。本論文では、任意の基底選択で動作可能な汎用的な学習可能なKolmogorov-Arnold Attention(KArAt)を、初めてバニラViTs向けに設計しました。しかし、そのトレーニングにおける計算コストとメモリコストが課題となり、よりモジュール化されたバージョンを提案するに至りました。そこで、Fourier-KArAtと呼ばれる特定の学習可能なアテンションを設計しました。Fourier-KArAtとその変種は、CIFAR-10、CIFAR-100、ImageNet-1Kデータセットにおいて、ViTの対応モデルを上回るか、同等の性能を示しています。これらのアーキテクチャの性能と汎化能力を、損失ランドスケープ、重み分布、オプティマイザの経路、アテンションの可視化、スペクトル挙動を分析することで解明し、バニラViTsと比較しました。本論文の目的は、パラメータ効率や計算効率の高いアテンションを生み出すことではなく、学習可能な活性化関数を慎重に理解する必要があるより高度なアーキテクチャとKANsを組み合わせることをコミュニティに促すことです。オープンソースのコードと実装の詳細は、https://subhajitmaity.me/KArAt で公開しています。
3Dの着衣人体点群に身体をフィッティングすることは、一般的でありながらも困難な課題です。従来の最適化ベースのアプローチでは、ポーズ初期化に敏感な多段階パイプラインが使用されてきました。一方、最近の学習ベースの手法では、多様なポーズや衣服タイプへの汎化がしばしば課題となっています。本研究では、Equivariant Tightness Fitting for Clothed Humans(ETCH)という新しいパイプラインを提案します。ETCHは、局所的なSE(3)等変性を近似することで、衣服から身体表面へのマッピングを推定し、衣服表面から下層の身体への変位ベクトルとしてタイトネスを符号化します。このマッピングに続いて、ポーズ不変の身体特徴量を用いて疎な身体マーカーを回帰し、着衣人体フィッティングを内部身体マーカーフィッティングタスクに簡素化します。CAPEと4D-Dressにおける広範な実験により、ETCHが、タイトネスを考慮しない手法およびタイトネスを考慮した手法の両方において、緩い衣服での身体フィッティング精度(16.7%~69.5%)および形状精度(平均49.9%)で大幅に優れていることが示されました。我々の等変性タイトネス設計は、ワンショット(または分布外)設定において、方向誤差を(67.2%~89.8%)削減することさえ可能です。定性的な結果は、ETCHが挑戦的なポーズ、未見の形状、緩い衣服、非剛体ダイナミクスに関わらず、強力な汎化能力を持つことを示しています。研究目的のため、コードとモデルをhttps://boqian-li.github.io/ETCH/で近日公開予定です。
視覚的自動回帰モデルは通常、ラスター順の「次トークン予測」パラダイムに従っており、視覚コンテンツに内在する空間的・時間的局所性を見落としています。具体的には、視覚トークンは、遠く離れたトークンと比較して、空間的または時間的に隣接するトークンとの相関が著しく強くなります。本論文では、近接自動回帰モデリング(Neighboring Autoregressive Modeling, NAR)という新しいパラダイムを提案します。これは、自動回帰的視覚生成を、近接から遠方への「次隣接トークン予測」メカニズムに従った漸進的なアウトペインティング手順として定式化します。初期トークンから開始し、残りのトークンは、空間-時間空間における初期トークンからのマンハッタン距離の昇順でデコードされ、デコード領域の境界を徐々に拡張します。空間-時間空間内の複数の隣接トークンを並列に予測するために、相互に直交する次元に沿って次のトークンを予測する次元指向デコードヘッドを導入します。推論時には、デコードされたトークンに隣接するすべてのトークンが並列に処理され、生成のためのモデルのフォワードステップが大幅に削減されます。ImageNet256×256およびUCF101での実験により、NARはそれぞれ2.4倍および8.6倍のスループット向上を達成し、画像および動画生成タスクにおいてPAR-4Xアプローチと比較して優れたFID/FVDスコアを獲得することが示されました。テキストから画像生成のベンチマークGenEvalで評価した場合、0.8BパラメータのNARは、Chameleon-7Bを上回りながら、トレーニングデータのわずか0.4倍を使用しています。コードはhttps://github.com/ThisisBillhe/NARで公開されています。
マルチモーダル大規模言語モデル(MLLM)は、科学的問題を解決する際に頻繁にエラーを示すため、その推論プロセスの妥当性を評価することは、信頼性を確保し、モデルの細かい弱点を明らかにするために重要です。人間による評価は手間とコストがかかるため、MLLMを自動化されたプロセス評価者としてプロンプトすることが一般的な手法となっています。しかし、これらのモデルベースの評価者の信頼性は不確かです。この問題に対処するため、我々はProJudgeBenchを導入します。これは、MLLMベースのプロセス評価者の能力を評価するために特別に設計された初の包括的なベンチマークです。ProJudgeBenchは、2,400のテストケースと50,118のステップレベルのラベルを含み、4つの科学分野にわたる多様な難易度とマルチモーダルコンテンツをカバーしています。ProJudgeBenchでは、各ステップが人間の専門家によって正しさ、エラータイプ、説明について詳細に注釈されており、評価者がエラーを検出、分類、診断する能力を体系的に評価することが可能です。ProJudgeBenchでの評価により、オープンソースモデルとプロプライエタリモデルの間に大きな性能差があることが明らかになりました。このギャップを埋めるため、我々はさらにProJudge-173kという大規模な指示チューニングデータセットと、Dynamic Dual-Phaseファインチューニング戦略を提案します。この戦略は、モデルが解決策を評価する前に明示的に問題解決を推論することを促します。これらの貢献により、オープンソースモデルのプロセス評価能力が大幅に向上します。すべてのリソースは、信頼性のあるマルチモーダルプロセス評価の将来の研究を促進するために公開されます。
視覚と言語の分野において、マルチモーダル理解と生成のための統一モデル(UniMs)が最近注目を集めています。既存のUniMsは、マルチモーダル理解と生成能力を同時に学習するように設計されており、多大な計算リソースを必要とし、テキストと画像の交互生成に苦戦することが多いです。本論文では、ARMORを提案します。ARMORは、既存のマルチモーダル大規模言語モデル(MLLMs)を微調整することで、理解と生成の両方を実現する、リソース効率の良い純粋な自己回帰型フレームワークです。具体的には、ARMORは既存のMLLMsを以下の3つの観点から拡張します:(1)モデルアーキテクチャにおいて、テキストと視覚モダリティを統合する埋め込み空間を統一し、最小限の計算オーバーヘッドで自然なテキストと画像の交互生成を可能にするために、フォワードスイッチングメカニズムを備えた非対称エンコーダ-デコーダアーキテクチャを導入します。(2)トレーニングデータにおいて、MLLMsの微調整用に厳選された高品質な交互データセットを収集します。(3)トレーニングアルゴリズムにおいて、収集したデータセットに基づく3段階のプログレッシブトレーニングを通じて、マルチモーダル生成能力を既存のMLLMsに付与しつつ、そのマルチモーダル理解能力を維持するための「何をまたはどのように生成するか」アルゴリズムを提案します。実験結果は、ARMORが限られたトレーニングリソースを使用して、既存のMLLMsを有望な画像生成能力を持つUniMsにアップグレードすることを示しています。私たちのコードはまもなくhttps://armor.github.ioで公開されます。
大規模言語モデル(LLM)は、複数の言語やタスクにおいて優れた性能と汎化能力を示しており、画像や音声などのマルチモーダリティ統合の対象として非常に魅力的です。本研究では、既存のLLMを音声モダリティに拡張するため、音声の離散化と継続的な事前学習を行いました。特に、TOWERのような多言語LLMに注目しています。これらのモデルの事前学習設定により、離散化された音声入力を追加の翻訳言語として扱うことが可能です。その結果として開発されたオープンソースモデル、SPIREは、英語音声の書き起こしと翻訳を行いながら、TOWERの翻訳関連タスクにおける元の性能を維持することができます。これは、LLMの適応中に離散化された音声入力を追加言語として統合することが可能であることを示しています。私たちは、コードとモデルをコミュニティに公開しています。
正確なマテリアル検索は、リアルな3Dアセットを作成する上で極めて重要です。既存の手法は、形状不変かつ照明変化を捉えたマテリアルのデータセットに依存していますが、そのようなデータセットは稀少であり、多様性の不足や現実世界への汎化能力の欠如といった課題に直面しています。現在のほとんどのアプローチは、従来の画像検索技術を採用していますが、これらはマテリアル空間の独特な特性を十分に捉えることができず、検索タスクにおいて最適な性能を発揮できていません。これらの課題に対処するため、我々はMaRIというフレームワークを提案します。MaRIは、合成マテリアルと現実世界のマテリアルの間の特徴空間のギャップを埋めるために設計されており、画像エンコーダとマテリアルエンコーダを共同で訓練することで、視覚的属性とマテリアル属性を調和させた共有埋め込み空間を構築します。これにより、類似するマテリアルと画像を特徴空間内で近づけ、非類似のペアを遠ざけるコントラスティブ学習戦略を採用しています。これを支援するため、我々は制御された形状変化と多様な照明条件でレンダリングされた高品質な合成マテリアル、およびマテリアル転送技術を用いて処理・標準化された現実世界のマテリアルを含む包括的なデータセットを構築しました。広範な実験により、MaRIが多様で複雑なマテリアル検索タスクにおいて、既存の手法を凌駕する優れた性能、精度、および汎化能力を発揮することが実証されています。
拡散モデルのサンプリングを高速化することは、効率的なAIGCの展開において極めて重要です。拡散蒸留法は、分布マッチングと軌跡マッチングに基づいてサンプリングをわずか1ステップにまで削減しますが、テキストから画像生成のような複雑なタスクでは不十分です。数ステップ生成は速度と品質のバランスをより良くしますが、既存のアプローチでは持続的なトレードオフに直面しています。分布マッチングは多ステップサンプリングに対して柔軟性に欠け、軌跡マッチングはしばしば最適でない画像品質をもたらします。このギャップを埋めるため、我々は軌跡分布マッチング(TDM)による数ステップ拡散モデルの学習を提案します。これは分布マッチングと軌跡マッチングの強みを組み合わせた統一された蒸留パラダイムです。我々の手法は、データフリーのスコア蒸留目的関数を導入し、生徒の軌跡を教師の軌跡と分布レベルで整合させます。さらに、異なるステップ間で学習目標を分離するサンプリングステップを意識した目的関数を開発し、より調整可能なサンプリングを可能にします。このアプローチは、優れた画像品質のための決定論的サンプリングと柔軟な多ステップ適応の両方をサポートし、驚異的な効率で最先端の性能を達成します。我々のモデル、TDMは、SDXLやPixArt-alphaなどの様々なバックボーンにおいて既存の手法を上回り、優れた品質と大幅に削減されたトレーニングコストを提供します。特に、我々の手法はPixArt-alphaを4ステップ生成器に蒸留し、1024解像度での実際のユーザー選好において教師モデルを上回ります。これは500イテレーションと2A800時間で達成され、教師モデルのトレーニングコストのわずか0.01%です。さらに、提案したTDMはテキストからビデオ拡散の加速にも拡張可能です。特に、TDMはVBenchにおいてわずか4NFEで教師モデル(CogVideoX-2B)を上回り、総スコアを80.91から81.65に改善します。プロジェクトページ: https://tdm-t2x.github.io/
本論文では、入力点群に整合した高品質な芸術的メッシュを生成するために設計された自己回帰型TransformerであるTreeMeshGPTを紹介します。従来の自己回帰型Transformerにおける次のトークン予測の代わりに、メッシュ内の面の三角形隣接関係に基づいて動的に成長する木構造から次の入力トークンを取得する新しい自己回帰型木構造シーケンスを提案します。このシーケンス手法により、メッシュは各ステップで最後に生成された三角形の面から局所的に拡張され、その結果、学習の難易度が低減され、メッシュの品質が向上します。本手法では、各三角形の面を2つのトークンで表現し、素朴な面トークン化と比較して約22%の圧縮率を達成します。この効率的なトークン化により、モデルは強力な点群条件付けを伴った非常に詳細な芸術的メッシュを生成し、従来の手法を容量と忠実度の両面で凌駕します。さらに、本手法は強い法線方向の制約を伴ったメッシュを生成し、従来の手法で頻繁に発生していた法線の反転を最小限に抑えます。実験結果は、TreeMeshGPTが洗練された詳細と法線方向の一貫性を伴ったメッシュ生成品質を向上させることを示しています。
本研究では、最先端の大規模推論モデル(LRM)であるOpenAIのo3-miniとDeepSeek R1を、レイブンの漸進的マトリックスに基づく非言語的ヒトIQテストを中心とした類推推論において初めて評価する。I-RAVENデータセットとそのより難易度の高い拡張版であるI-RAVEN-Xを用いてベンチマークを行い、より長い推論ルールと属性値の範囲への一般化能力をテストする。これらの非言語的類推推論テストにおける視覚的不確実性の影響を評価するため、I-RAVEN-Xデータセットを拡張し、オラクル知覚を前提としないようにした。不完全な視覚知覚をシミュレートするために、二段階の戦略を採用した:1)パズルの正解予測に寄与しないランダムにサンプリングされた混同属性を導入し、2)入力属性値の分布を平滑化した。OpenAIのo3-miniのタスク精度は、元のI-RAVENでの86.6%から、入力長と範囲を増やし知覚的不確実性を模倣したより難しいI-RAVEN-Xでは17.0%に急激に低下し、ランダムな推測に近づいた。この低下は、推論トークンを3.4倍多く使用したにもかかわらず発生した。DeepSeek R1でも同様の傾向が観察され、80.6%から23.2%に低下した。一方、I-RAVENで最先端の性能を達成する神経記号的確率的アブダクションモデルであるARLCは、これらの分布外テストにおいても堅牢に推論でき、98.6%から88.0%とわずかな低下で高い精度を維持した。私たちのコードはhttps://github.com/IBM/raven-large-language-modelsで公開されている。
ビデオ詳細キャプショニング(VDC)は、視覚と言語を橋渡しする重要なタスクであり、複雑なビデオコンテンツの細粒度な記述を可能にします。本論文では、まず現在の最先端手法を包括的にベンチマークし、特定のキャプショニング側面への偏った能力と人間の嗜好とのミスアラインメントという2つの重要な限界を系統的に特定しました。これらの欠点を解決するため、VDC性能を向上させるための合成データと人間の嗜好に沿った訓練を組み合わせた新しい3段階の訓練パイプラインであるCockatielを提案します。最初の段階では、細粒度なビデオとキャプションのアラインメントおよび人間の嗜好に優れた合成キャプションを選択するために、厳密に注釈されたデータセットからスコアラーを導出します。次に、この精選されたデータセットを使用してCockatiel-13Bを訓練し、組み合わせたモデルの強みと人間の嗜好を注入します。最後に、使用の容易さのためにCockatiel-13BからCockatiel-8Bをさらに蒸留します。広範な定量的および定性的な実験は、我々の手法の有効性を反映しており、VDCSCOREにおいて次元バランスの取れた方法で新たな最先端性能を達成するだけでなく、人間評価結果に示されるように、人間の嗜好においても主要な代替手法を大きく上回りました。
オープンワールド環境におけるスキルの学習は、基本的なスキルを組み合わせて多様なタスクを処理できるエージェントを開発するために不可欠です。オンラインのデモンストレーションビデオは通常長く、セグメント化されていないため、スキル識別子でセグメント化しラベル付けすることが困難です。既存の手法がシーケンスサンプリングや人間によるラベル付けに依存しているのとは異なり、我々は自己教師あり学習に基づくアプローチを開発し、これらの長いビデオを一連の意味を意識したスキル一貫性のあるセグメントに分割します。人間の認知イベントセグメンテーション理論に着想を得て、アノテーションフリーの時間的ビデオセグメンテーションアルゴリズムであるスキル境界検出(SBD)を導入しました。SBDは、事前に訓練された無条件のアクション予測モデルからの予測誤差を活用して、ビデオ内のスキル境界を検出します。このアプローチは、予測誤差の大幅な増加が実行されているスキルの変化を示すという仮定に基づいています。我々は、豊富なオープンワールドシミュレータであり、オンラインで広範なゲームプレイビデオが利用可能なMinecraftでこの手法を評価しました。SBDによって生成されたセグメントは、短期のアトミックスキルタスクにおける条件付きポリシーの平均性能を63.7%および52.1%向上させ、それに対応する階層型エージェントの長期的タスクにおける性能を11.3%および20.8%向上させました。我々の手法は、多様なYouTubeビデオを活用して指示追従エージェントを訓練することができます。プロジェクトページはhttps://craftjarvis.github.io/SkillDiscoveryで確認できます。
我々は、3D室内シーンのスケーラブルな合成のための新しいフレームワークであるCHOrDを紹介します。CHOrDは、家全体の規模で、衝突のない、階層的に構造化された室内デジタルツインを作成するように設計されています。既存の手法がシーンレイアウトをシーングラフやオブジェクトリストとして直接合成するのに対し、CHOrDは2D画像ベースの中間レイアウト表現を組み込むことで、生成中に分布外(OOD)シナリオとして衝突アーティファクトを効果的に捕捉し、防止することが可能です。さらに、既存の手法とは異なり、CHOrDは多様な制御を伴う複雑な間取り図に従ったシーンレイアウトを生成することができ、部屋構造の幾何学的および意味的な変動に対してロバストな、家全体にわたる一貫したレイアウトの作成を可能にします。加えて、我々は、家財道具や部屋の構成のカバレッジを拡大し、データ品質を大幅に向上させた新しいデータセットを提案します。CHOrDは、3D-FRONTおよび我々が提案するデータセットの両方において、任意の間取り図の変動に適応可能な、フォトリアルで空間的に一貫した室内シーン合成において最先端の性能を実証しています。
我々は、高品質なマルチモーダル軌道を生成するためのエンドツーエンドの自動運転手法であるGoalFlowを提案する。自動運転シナリオでは、単一の適切な軌道が存在することは稀である。最近の手法では、マルチモーダルな軌道分布をモデル化することに焦点が当てられている。しかし、これらの手法は軌道選択の複雑さや、軌道の分散が大きいこと、およびガイダンスとシーン情報の不一致による軌道品質の低下に悩まされている。これらの問題に対処するため、我々はGoalFlowを導入し、生成プロセスを効果的に制約して高品質なマルチモーダル軌道を生成する。拡散ベースの手法に内在する軌道分散問題を解決するために、GoalFlowは目標点を導入して生成される軌道を制約する。GoalFlowは、シーン情報に基づいて候補点から最も適切な目標点を選択する新しいスコアリングメカニズムを確立する。さらに、GoalFlowは効率的な生成手法であるFlow Matchingを採用してマルチモーダル軌道を生成し、候補から最適な軌道を選択するための洗練されたスコアリングメカニズムを組み込む。NavsimDauner2024_navsimで検証された実験結果は、GoalFlowが最先端の性能を達成し、自動運転のための堅牢なマルチモーダル軌道を提供することを示している。GoalFlowはPDMSで90.3を達成し、他の手法を大きく上回った。他の拡散ポリシーベースの手法と比較して、我々のアプローチは単一のノイズ除去ステップのみで優れた性能を得ることができる。コードはhttps://github.com/YvanYin/GoalFlowで公開されている。
機械学習のアンラーニングは、特定の学習データ(すなわち、忘れ去るべきデータセット)の影響をモデルから除去しつつ、残りのデータ(すなわち、保持すべきデータセット)に関する知識を保持する新たなパラダイムです。従来のアプローチでは、忘れ去るべきデータが全ての学習データポイントから均一に分布していると仮定していました。しかし、アンラーニングすべきデータが特定のグループに偏在している場合、そのグループの性能が低下し、公平性の問題が生じることが実証的に示されています。本研究では、均一に分布していない忘れ去るべきデータセットという見過ごされていた問題(我々はこれをグループロバストな機械学習のアンラーニングと呼びます)に取り組み、サンプル分布の再重み付けを通じて主要なグループにおける性能低下を緩和するシンプルで効果的な戦略を提案します。さらに、近似機械学習のアンラーニングにおけるグループロバスト性を実現する初めてのアプローチとして、MIU(Mutual Information-aware Machine Unlearning)を提示します。MIUは、モデルの特徴量とグループ情報との間の相互情報量を最小化し、忘れ去るべきデータセットの主要なグループにおける性能低下を抑えつつアンラーニングを達成します。加えて、MIUはサンプル分布の再重み付けと元のモデルとの相互情報量の調整を活用し、グループロバスト性を維持します。3つのデータセットを用いた実験を行い、MIUが標準的な手法を上回り、モデルのロバスト性を損なうことなくアンラーニングを実現することを示します。ソースコードはhttps://github.com/tdemin16/group-robust_machine_unlearningで公開されています。