翻訳付きの日次キュレーションされたAI研究論文
Byte Latent Transformer(BLT)を紹介します。これは、初めて、トークン化ベースのLLMの性能を大幅に向上させ、推論効率と頑健性を高めながら、規模で一致させる新しいバイトレベルのLLMアーキテクチャです。BLTは、バイトを動的にサイズ変更可能なパッチにエンコードし、これが計算の主要単位として機能します。パッチは、次のバイトのエントロピーに基づいてセグメント化され、データの複雑さが増すにつれて、より多くの計算とモデル容量が割り当てられます。我々は、8Bパラメータおよび4TトレーニングバイトまでのバイトレベルモデルのFLOP制御スケーリング研究を初めて提案します。結果は、固定された語彙を持たない生のバイトで訓練されたモデルのスケーリングの実現可能性を示しています。データが予測可能な場合、長いパッチを動的に選択することで、トレーニングと推論の効率が向上し、推論コストが固定された場合、パッチとモデルサイズの両方を同時に拡大することで、トークン化ベースのモデルよりもはるかに優れたスケーリングを示すBLTが、推論コストが固定された場合、パッチとモデルサイズの両方を同時に拡大することで、トークン化ベースのモデルよりもはるかに優れたスケーリングを示します。
大規模言語モデル(LLM)は顕著な生成能力を示すが、しばしば幻覚に苦しむことがあります。検索拡張生成(RAG)は外部知識を組み込むことで効果的な解決策を提供しますが、既存の手法はいくつかの制限に直面しています:別々のリトリーバーの追加展開コスト、取得されたテキストチャンクからの冗長な入力トークン、および検索と生成の共同最適化の欠如。これらの問題に対処するために、私たちはRetroLLMを提案します。これはリトリーバルと生成を単一の統合プロセスに組み込む統一されたフレームワークであり、LLMが制約付きデコーディングでコーパスから直接細かい証拠を生成できるようにします。さらに、制約つき証拠生成の過程での誤った剪定を緩和するために、(1) 階層的FM-Index制約を導入します。これは証拠生成の前に関連文書のサブセットを特定するためのコーパス制約クルーを生成し、関連のないデコーディングスペースを減らします。そして(2) 将来のシーケンスの関連性を考慮する前向き制約つきデコーディング戦略を導入します。これにより証拠の精度が向上します。5つのオープンドメインQAデータセットでの広範な実験により、RetroLLMの優れた性能が示されました。コードはhttps://github.com/sunnynexus/RetroLLMで入手可能です。
最近の視覚生成モデルの進歩により、高品質な画像やビデオの生成が可能となり、多様な応用が開かれています。しかし、これらのモデルの評価はしばしば数百から数千の画像やビデオをサンプリングすることを要求し、特に拡散ベースのモデルではサンプリングが遅いため、計算コストが高くなります。さらに、既存の評価方法は特定のユーザーのニーズを見落とし、明確な説明なしに数値結果を提供する硬直したパイプラインに依存しています。それに対し、人間はわずか数サンプルを観察するだけでモデルの能力について迅速に印象を形成することができます。このような点を模倣するために、私たちは「Evaluation Agentフレームワーク」を提案します。このフレームワークは、人間のような戦略を用いて、効率的で動的で多段階の評価を少数のサンプルで行い、詳細でユーザーに合わせた分析を提供します。このフレームワークには以下の4つの主な利点があります:1) 効率性、2) 多様なユーザーのニーズに合わせた柔軟な評価、3) 数値スコアを超えた説明可能性、および4) 様々なモデルやツールにわたるスケーラビリティ。実験によると、Evaluation Agentは伝統的な方法に比べて評価時間を10%に短縮し、同等の結果を提供します。Evaluation Agentフレームワークは、視覚生成モデルとその効率的な評価の研究を推進するために完全にオープンソース化されています。
画像編集は、拡散モデルの開発により大幅に進化しており、逆伝播ベースと命令ベースの両方の手法が使用されています。ただし、現在の逆伝播ベースのアプローチは、逆伝播ノイズの構造化された性質により、大幅な変更(例:オブジェクトの追加や削除)に苦労しており、実質的な変更が妨げられています。一方、命令ベースの手法は、しばしばユーザーをブラックボックス操作に制約し、編集領域や強度を指定するための直接的な対話を制限しています。これらの制限に対処するために、私たちはBrushEditを提案します。これは、画像修復をベースとした命令案内型画像編集パラダイムであり、多モーダル大規模言語モデル(MLLMs)と画像修復モデルを活用して、自律的でユーザーフレンドリーかつインタラクティブなフリーフォーム命令編集を実現します。具体的には、MLLMsとデュアルブランチ画像修復モデルを統合したエージェント協調フレームワークにより、編集カテゴリの分類、主要オブジェクトの識別、マスク取得、および編集領域の修復を実行することで、フリーフォーム命令編集を可能にするシステムを構築しています。幅広い実験により、当社のフレームワークがMLLMsと修復モデルを効果的に組み合わせ、マスク領域の保存と編集効果の一貫性を含む7つのメトリックで優れたパフォーマンスを達成していることが示されています。
指示の調整は、大規模言語モデルの完全な潜在能力を引き出すために広く利用されています。特に、複雑で多様な指示は、さまざまな下流タスクにモデルを効果的に整列させることができるため、重要です。しかし、現在の大規模指示の構築手法は、70億を超えるパラメータを持つGPT-4などの強力なモデルを主に支持しており、このような大規模言語モデル(LLM)が本質的に強化された能力を持っているという経験的な前提の下で行われています。本研究では、この一般的な仮定に疑問を投げかけ、指示の進化の文脈で、より小規模な言語モデル(SLM)の潜在能力について詳細に探求します。指示の進化の3つのシナリオを横断する広範な実験により、小規模言語モデル(SLM)がLLMよりも効果的な指示を合成できることが明らかになりました。さらなる分析では、SLMが指示の進化中により広い出力空間を持つことが、より複雑で多様なバリアントをもたらすことが示されています。また、既存のメトリクスが指示の影響に焦点を当てていないことも観察されました。したがって、指示の複雑性を導入して元のIFDスコアに評価するIC-IFD(Instruction Complex-Aware IFD)を提案し、指示データの効果をより正確に評価します。ソースコードは以下で入手可能です:https://github.com/HypherX/Evolution-Analysis
自動的な白黒画像シーケンスの着色は、キャラクターやオブジェクトの識別(ID)を保持しながら行われる複雑なタスクであり、漫画やコミックシリーズの着色など、市場での需要が高い。拡散モデルなどの大規模生成モデルを使用した視覚的な着色の進歩があるにもかかわらず、制御可能性と識別の一貫性に関する課題が依然として存在し、現行のソリューションは産業用途には適していない。これを解決するために、産業用途向けの画像シーケンスの着色に特化した3段階の拡散ベースのフレームワークであるColorFlowを提案する。IDごとの微調整や明示的なID埋め込み抽出が必要な既存の手法とは異なり、関連する色の参照を使用して画像を着色するための新しい堅牢で汎用性のある検索強化型着色パイプラインを提案する。また、当社のパイプラインは、色の識別抽出用の1つのブランチと着色用のもう1つのブランチを備えたデュアルブランチ設計を特徴とし、拡散モデルの長所を活用している。拡散モデルの自己注意メカニズムを使用して強力なコンテキスト内学習と色の識別一致を行う。モデルの評価のために、参照ベースの着色の包括的なベンチマークであるColorFlow-Benchを導入する。結果は、ColorFlowが複数のメトリクスで既存のモデルを上回り、連続画像の着色において新たな基準を設定し、芸術産業に恩恵をもたらす可能性があることを示している。当社のコードとモデルは、プロジェクトページhttps://zhuang2002.github.io/ColorFlow/で公開しています。
Causal Diffusionを、Diffusionモデルの自己回帰(AR)対応として紹介します。これは、離散および連続のモダリティに対応し、既存のLLaMAやGPTなどの次トークン予測モデルと互換性があり、次トークンの予測フレームワークです。最近の研究では、DiffusionとARモデルを組み合わせようとする試みがありますが、私たちは拡散モデルに順次因子分解を導入することで、その性能を大幅に向上させ、ARと拡散生成モードのスムーズな移行を可能にすることを示します。したがって、私たちはCausalFusionを提案します。これは、シーケンシャルトークンと拡散ノイズレベルをデュアル因子分解するデコーダー専用トランスフォーマーであり、ImageNet生成ベンチマークで最先端の結果を達成し、コンテキスト推論のために任意の数のトークンを生成するARの利点も享受します。さらに、CausalFusionの多モーダル機能を示すために、画像生成とキャプショニングモデルを共同で使用し、CausalFusionのゼロショットのコンテキスト内画像操作能力を紹介します。この研究が、離散および連続データにわたる多モーダルモデルのトレーニングに新しい視点を提供できれば幸いです。
指示の遵守は、言語モデルの基本的な能力であり、モデルには指示の最も微妙な要件さえ認識させ、その出力に正確に反映させる必要があります。このような能力は、しばしば好みの学習によって適しており、最適化されます。しかし、既存の方法では、しばしばモデルから複数の独立した応答を直接サンプリングして好みのペアを作成します。このような実践は、指示が正確に遵守されているかどうかには関係のないコンテンツの変化を導入する可能性があります(例:同じ意味についての異なる表現)、これはモデルに改善された指示の遵守につながる重要な違いを認識することを妨げます。このため、私たちは、自己対戦フレームワークであるSPaRを導入し、ノイズのない有効で比較可能な好みのペアを生成するために木探索自己改善を統合しています。LLMは自己対戦を通じて、指示に対して以前の応答を改善し、不必要な変化を最小限に抑えるために木探索戦略を採用します。実験では、SPaRによって導かれた3回の反復トレーニングを受けたLLaMA3-8Bモデルが、一般的な能力を失うことなくIFEvalベンチマークでGPT-4-Turboを凌駕することを示しています。さらに、SPaRは有望なスケーラビリティと転移性を示し、GLM-4-9BやLLaMA3-70Bなどのモデルを大幅に向上させます。また、木探索における推論スケーリングがモデルのパフォーマンスにどのように影響するかを特定しています。私たちのコードとデータは、https://github.com/thu-coai/SPaR で公開されています。
この論文は、次の難問に取り組んでいます:どのようにして単一の任意の画像から高品質で広範囲な3Dシーンを効率的に作成できるか。既存の手法は、複数のビューデータが必要であること、シーンごとの最適化に時間がかかること、背景の視覚的品質が低いこと、および未知の領域での歪んだ再構成など、いくつかの制約に直面しています。これらの制約を克服するための新しいパイプラインを提案します。具体的には、ビデオ拡散モデルからの潜在変数を使用して、フィードフォワード方式でシーンのための3Dガウススプラッティングを予測する大規模な再構築モデルを導入します。ビデオ拡散モデルは、指定されたカメラ軌跡に厳密に従ってビデオを作成するよう設計されており、マルチビュー情報を含む圧縮されたビデオ潜在変数を生成することができ、3Dの一貫性を保ちます。3D再構築モデルをビデオ潜在空間で動作させるために、段階的なトレーニング戦略を用いてトレーニングし、高品質で広範囲かつ汎用的な3Dシーンを効率的に生成します。さまざまなデータセットを対象とした包括的な評価により、当社のモデルが既存の単一ビュー3Dシーン生成手法を大幅に上回り、特にドメイン外の画像に対して優れた性能を発揮することが示されています。初めて、拡散モデルの潜在空間を基盤として効果的に3D再構築モデルを構築し、効率的な3Dシーン生成を実現できることを示しています。
ビジョン、グラフィックス、ロボティクスにおいて、視覚データの物理特性を推定することは、拡張現実、物理シミュレーション、ロボティックグラスピングなどのアプリケーションを支える重要なタスクです。しかしながら、物理特性の推定には固有の曖昧さがあるため、この領域は未だ十分に探求されていません。これらの課題に対処するために、我々は GaussianProperty を導入します。これは、物質の物理特性を3次元のガウス分布に割り当てるトレーニング不要のフレームワークです。具体的には、SAM のセグメンテーション能力と GPT-4V(ision) の認識能力を統合し、2次元画像のためのグローバル・ローカルな物理特性推論モジュールを構築します。そして、複数視点の2次元画像から物理特性を3次元のガウス分布に投影するために投票戦略を使用します。物理特性の注釈付き3次元ガウス分布が、物理ベースのダイナミックシミュレーションやロボティックグラスピングのアプリケーションを可能にすることを示します。物理ベースのダイナミックシミュレーションでは、リアルなダイナミックシミュレーションのために Material Point Method (MPM) を活用します。ロボットグラスピングでは、推定された物理特性に基づいてオブジェクトグラスピングに必要な安全な力の範囲を推定するグラスピング力予測戦略を開発します。材料のセグメンテーション、物理ベースのダイナミックシミュレーション、ロボティックグラスピングに関する幅広い実験により、提案手法の効果を検証し、視覚データからの物理特性理解における重要な役割を強調します。オンラインデモ、コード、さらなるケース、注釈付きデータセットは、https://Gaussian-Property.github.io で利用可能です。
画像から幾何学的および物質情報を抽出することは、コンピュータビジョンとグラフィックスにおける基本的な課題です。従来の最適化ベースの手法は、密なマルチビュー入力から幾何形状、物質特性、環境光を再構築するために数時間の計算時間を要し、光と物質の間に固有の曖昧さに苦しんでいます。一方、学習ベースのアプローチは既存の3Dオブジェクトデータセットから豊富な物質事前知識を活用しますが、マルチビューの一貫性を維持することに課題があります。本論文では、異なる照明条件下で任意の数の画像に対して固有分解を実行するために設計された拡散ベースのモデルであるIDArbを紹介します。当該手法は、表面法線と物質特性に対する正確でマルチビューの一貫した推定を実現します。これは、新しいクロスビュー、クロスドメインの注意モジュールと、照明を増強し、ビューに適応したトレーニング戦略を通じて可能となります。さらに、大規模なマルチビュー固有データと多様な照明条件下でのレンダリングを提供する新しいデータセットであるARB-Objaverseを紹介します。これにより、堅牢なトレーニングがサポートされます。包括的な実験により、IDArbが定性的および定量的に最先端の手法を上回ることが示されます。さらに、当該アプローチは、シングルイメージのリライティング、フォトメトリックステレオ、および3D再構築を含むさまざまな下流タスクを容易にし、現実的な3Dコンテンツ作成における幅広い応用を示しています。
ビデオフェイススワッピングは、さまざまなアプリケーションで人気を集めていますが、既存の手法は主に静止画に焦点を当てており、時間的一貫性や複雑なシナリオによるビデオフェイススワッピングの問題に苦労しています。本論文では、ビデオフェイススワッピングに特化した初の拡散ベースのフレームワークを提案します。当アプローチは、豊富な静止画データと時間的ビデオシーケンスの両方を活用する画像-ビデオハイブリッドトレーニングフレームワークを導入し、ビデオのみのトレーニングの固有の制限に対処します。このフレームワークには、特に設計された拡散モデルとVidFaceVAEを組み合わせ、生成されたビデオの時間的一貫性をよりよく維持するために両方のデータタイプを効果的に処理します。さらに、アイデンティティとポーズの特徴を分離するために、Attribute-Identity Disentanglement Triplet(AIDT)データセットを構築しました。各三つ組には、2つの画像が同じポーズを共有し、2つの画像が同じアイデンティティを共有しています。包括的な遮蔽オーグメンテーションを施したこのデータセットは、遮蔽に対する堅牢性も向上させます。さらに、大きなポーズの変化を処理するために、3D再構築技術をネットワークへの入力条件として統合しています。広範な実験により、当フレームワークが既存の手法と比較して、アイデンティティの保存、時間的一貫性、視覚的品質において優れた性能を達成し、推論ステップが少なくて済むことが示されました。当アプローチは、ビデオフェイススワッピングにおける時間的なちらつき、アイデンティティの保存、遮蔽やポーズの変化に対する堅牢性など、主要な課題を効果的に緩和します。
大規模言語モデル(LLM)は、自然言語処理タスクの幅広いスペクトルで卓越した性能を示しています。ただし、その膨大なサイズは、二次的な複雑さによる計算要求と推論速度の面で特に大きな課題を提起しています。本研究では、特定の意味のない特別なトークン(すなわち、セパレータ)が、意味のあるトークンと比較して注意スコアに過剰な寄与をしているという重要なパターンを特定しました。この観察から、これらのセパレータトークン間のセグメントの情報を、情報の大幅な損失なしに効果的にセパレータトークン自体に縮約できる可能性が示唆されます。この洞察に基づいて、セパレータトークンを圧縮し冗長なトークンを排除することで推論を加速するプラグアンドプレイフレームワークであるSepLLMを導入します。さらに、トレーニング加速のための効率的なカーネルを実装しています。トレーニングフリー、スクラッチからのトレーニング、ポストトレーニングの設定を横断する実験結果は、SepLLMの効果を示しています。特に、Llama-3-8Bバックボーンを使用した場合、GSM8K-CoTベンチマークでKVキャッシュの50%以上の削減を実現しつつ、同等のパフォーマンスを維持しています。さらに、ストリーミング設定では、SepLLMは、一貫した言語モデリング能力を維持しつつ、400万トークン以上のシーケンスを効果的に処理します。
髪型は個性を示すが、既存のアバター生成手法は一般的または絡み合った表現のために実用的な髪をモデル化することに失敗しています。私たちはStrandHeadという新しいテキストから3Dヘッドアバターを生成する手法を提案します。この手法は、ストランド表現を用いて解きほぐされた3D髪を生成することができます。3Dデータを監督に使用せず、2D生成拡散モデルを蒸留することで、リアルな髪のストランドがプロンプトから生成できることを示しています。このために、形状の初期化、幾何学的プリミティブ、および統計的な髪型特徴に信頼性のある事前知識の系列を提案し、安定した最適化とテキストに整列したパフォーマンスを実現しています。幅広い実験により、StrandHeadが生成された3Dヘッドと髪のリアリティと多様性の最先端を達成していることが示されています。生成された3D髪は、物理シミュレーションやその他のアプリケーションで簡単にUnreal Engineに実装できます。コードは以下のURLから入手できます:https://xiaokunsun.github.io/StrandHead.github.io.
大規模言語モデル(LLMs)は、自然言語処理(NLP)における重要な転換点を示し、テキスト生成、翻訳、および特定領域の推論を進化させています。GPT-4のようなクローズドソースモデルは、独自のデータセットと豊富な計算リソースによって駆動され、現在最先端のパフォーマンスを誇っています。しかし、これらは"ブラックボックス"の性質や再現性や公正なAI開発を妨げる形でのアクセス制限に対する批判に直面しています。これに対して、LLaMAやBLOOMなどのオープンソースイニシアチブは、コミュニティ主導の開発と計算効率を通じて民主化を重視しています。これらのモデルは、特に言語多様性や特定領域のアプリケーションにおいて大幅なパフォーマンスの差を縮小し、グローバルな研究者や開発者にアクセス可能なツールを提供しています。両方のパラダイムは、VaswaniらによるTransformerフレームワークなどの基本的なアーキテクチャ革新に依存しています。クローズドソースモデルは効果的なスケーリングを実現しており、一方でオープンソースモデルは未代表的な言語や領域に適応しています。Low-Rank Adaptation(LoRA)やinstruction-tuningデータセットなどの技術により、オープンソースモデルは限られたリソースでも競争力のある結果を達成しています。クローズドソースとオープンソースのアプローチの緊張関係は、AIにおける透明性と独占的な制御に関する広範な議論を浮き彫りにしています。倫理的考慮はこの分断を一層際立たせています。クローズドソースシステムは外部の検証を制限しますが、オープンソースモデルは再現性と協力を促進しますが、バイアスを緩和するための標準化された監査文書フレームワークが欠けています。両方のパラダイムの長所を活用するハイブリッドアプローチが、LLMイノベーションの未来を形作るでしょう。これにより、アクセス可能性、競争力のある技術的パフォーマンス、倫理的な展開が確保されます。
従来の強化学習ベースのロボット制御手法は、しばしば特定のタスクに特化しており、多様な環境や未知の物体や指示に一般化できないことがあります。ビジュアル言語モデル(VLM)は、強力なシーン理解と計画能力を示す一方で、特定のロボットの具現化に適した実行可能なポリシーを生成する能力に欠けています。この課題に対処するために、ビジュアル言語アクション(VLA)モデルが登場していますが、長期の空間推論や具体的なタスク計画において課題に直面しています。本研究では、BridgeV2に基づく階層的具現化データセットを活用した、具体的な思考と先読み空間推論を持つ具体的多モーダルアクションモデル、Emma-Xを提案します。Emma-Xは、60,000のロボット操作軌跡を含む自動注釈付きの具体的なタスク推論と空間ガイダンスを備えたデータセットを活用しています。さらに、グリッパーの状態と動きの軌跡に基づく軌跡セグメンテーション戦略を導入し、サブタスク推論生成における幻覚を軽減するのに役立ちます。実験結果は、Emma-Xが競合するベースラインに比べて、特に空間推論を必要とする実世界のロボットタスクにおいて優れた性能を達成することを示しています。
基盤モデルをより効率的かつ効果的にするために、私たちのアイデアはシーケンス変換と状態変換を組み合わせることです。まず、状態空間双対アルゴリズムにおける回転位置埋め込みの有用性を証明し、ハイブリッド二次因果自己注意と状態空間双対のパープレキシティを4%以上削減することで、シーケンス変換が位置符号化を統一することを確認します。次に、より困難なマルチクエリ連想リコールタスクにおいて100%の精度を維持するダイナミックマスクアテンションを提案し、二次因果自己注意と状態空間双対に比べて150%以上の改善を達成し、シーケンス変換が関連情報を選択的にフィルタリングすることを確認します。三番目に、1024以上の専門家を対象とした専門家検索の計算速度を専門家の混合よりも8〜10倍高速化するクロスドメイン専門家の混合を設計し、状態変換が迅速に混合を検索することを確認します。最後に、これらの行列アルゴリズムをまとめ、基盤モデルを構築することができる「素晴らしい行列」を提供し、一般的なモデルアーキテクチャに対抗できる可能性があることを示します。
没入型AR/VRアプリケーションと空間知能への需要の増加により、高品質のシーンレベルおよび360度パノラマビデオの生成が求められています。しかし、ほとんどのビデオ拡散モデルは解像度とアスペクト比が制限されており、シーンレベルの動的コンテンツ合成への適用範囲が制限されています。本研究では、DynamicScalerを提案し、これらの課題に対処します。これにより、空間的にスケーラブルでパノラマ動的シーン合成が可能となり、任意のサイズのパノラマシーン間で整合性を保持します。具体的には、オフセットシフティングデノイザーを導入し、シームレスな回転ウィンドウを介して固定解像度の拡散モデルによるパノラマ動的シーンの効率的で同期し、整合性のあるノイズ除去を実現します。これにより、シームレスな境界遷移と全体のパノラマ空間全体での一貫性が確保され、さまざまな解像度とアスペクト比に対応します。さらに、グローバルモーションガイダンスメカニズムを使用して、ローカルな詳細の忠実度とグローバルなモーションの連続性を確保します。広範な実験により、当社の手法がパノラマシーンレベルのビデオ生成において優れたコンテンツとモーション品質を達成し、出力ビデオの解像度に関係なく、VRAM消費量を一定に保ちながら没入型動的シーンの効率的かつスケーラブルなソリューションを提供していることが示されます。プロジェクトページはhttps://dynamic-scaler.pages.dev/でご覧いただけます。
野生の単眼ビデオから新しい視点を合成することは、シーンのダイナミクスとマルチビューの手掛かりの欠如により、困難です。この課題に対処するために、私たちはSplineGSという、高品質な再構築と高速レンダリングを実現するCOLMAPフリーの動的3Dガウススプラッティング(3DGS)フレームワークを提案します。その中心には、連続的な動的3Dガウス軌跡を少数の制御点を用いて表現する新しいモーション適応スプライン(MAS)手法があります。MASでは、各動的3Dガウスの変動する動きをモデル化するために、進行的に制御点を削減しながら動的モデリングの整合性を維持するモーション適応制御点剪定(MACP)手法を導入しています。さらに、写真メトリックと幾何学的整合性を活用したカメラパラメータ推定と3Dガウス属性のための共同最適化戦略を提案しています。これにより、Structure-from-Motionの前処理が不要となり、SplineGSの現実世界での堅牢性が向上します。実験結果は、SplineGSが単眼ビデオからの動的シーンの新しい視点合成品質において、最先端の手法を大幅に上回り、数千倍の高速レンダリング速度を達成していることを示しています。
事前に学習された拡散モデルを再利用することが、多対多シーンにおける物体合成(NVS)に対して効果的であることが証明されています。しかしながら、これらの手法は主に単一の物体に限定されており、これらの手法を直接複合的な多物体シナリオに適用すると、特に誤った物体配置や新しい視点での形状と外観の一貫性において劣る結果が得られます。このようなモデルのクロスビューの一貫性を向上させ、系統的に評価する方法は未だに未開拓の領域です。この問題に対処するために、我々は、モデルの入力、補助タスク、およびトレーニング戦略の観点から、多物体NVSのためのビュー条件付き拡散モデルの構造認識を向上させるMOVISを提案します。まず、denoising U-Netに深度や物体マスクなどの構造認識機能を注入し、物体インスタンスとそれらの空間的関係の理解を向上させます。次に、モデルに新しい視点の物体マスクを同時に予測する補助タスクを導入し、物体の識別と配置をさらに向上させます。最後に、拡散サンプリングプロセスを詳細に分析し、トレーニング中に構造ガイドのタイムステップサンプリングスケジューラを慎重に設計し、グローバルな物体配置と詳細な復元の学習をバランスさせます。合成画像の妥当性を系統的に評価するために、既存の画像レベルのNVSメトリクスと並行して、クロスビューの一貫性と新しい視点の物体配置を評価することを提案します。難解な合成データセットと現実的なデータセットでの広範な実験により、当社の手法が強力な汎化能力を示し、一貫した新しい視点合成を生み出すことが示され、将来の3D認識多物体NVSタスクを指針とする潜在能力が強調されています。
強化学習(RL)アルゴリズムは、現在の最良戦略を活用することと、より高い報酬につながる可能性のある新しい選択肢を探索することとのバランスを目指しています。ほとんどの一般的なRLアルゴリズムは、無指向性の探索、つまりランダムなアクションのシーケンスを選択します。探索は、好奇心やモデルの認識不確実性などの内在的な報酬を使用しても誘導されることがあります。ただし、タスクと内在的な報酬との効果的なバランスは困難であり、しばしばタスクに依存します。本研究では、内在的および外在的探索をバランスさせるためのMaxInfoRLフレームワークを紹介します。MaxInfoRLは、タスクの基礎となる情報に関する情報利得などの内在的報酬を最大化することで、探索を情報豊かな遷移に向けます。Boltzmann探索と組み合わせることで、このアプローチは自然に価値関数の最大化と状態、報酬、アクションのエントロピーのトレードオフを実現します。私たちは、このアプローチが多腕バンディットの簡略化された設定で予測可能な後悔を達成することを示します。その後、この一般的な定式化を連続状態-アクション空間のオフポリシーのモデルフリーRL手法のさまざまな問題に適用し、視覚制御タスクなどの難解な探索問題や複雑なシナリオで優れた性能を達成する新しいアルゴリズムを生み出します。
最近の模倣学習の進歩の可能性を活用するためには、多くの人間による指導付きデモンストレーションの収集が必要とされます。本論文では、安価で頑丈かつ柔軟なモバイルマニピュレータのオープンソース設計を提案します。この設計は、任意のアームをサポートし、幅広い現実世界の家庭用モバイルマニピュレーションタスクを可能にします。重要なのは、強力なキャスターを使用して、モバイルベースを完全にホロノミックにし、平面の自由度を独立してかつ同時に制御できるようにしています。この特徴により、ベースがより機動的になり、多くのモバイルマニピュレーションタスクが簡素化され、非ホロノミックベースで複雑で時間のかかる動作を生み出す運動学的制約がなくなります。また、ロボットには直感的な携帯電話テレオペレーションインターフェースを搭載しており、模倣学習のためのデータ取得を容易にしています。実験では、このインターフェースを使用してデータを収集し、その結果得られた学習ポリシーがさまざまな一般的な家庭用モバイルマニピュレーションタスクを成功裏に実行できることを示しています。
一般的なタスクにおいて優れた性能を発揮するものの、Multi-modal Large Language Models(MLLMs)は、図を理解し、記号を解釈し、複雑な推論を行う自動幾何学問題解決(GPS)に苦労しています。この制約は、自然画像とテキストでの事前トレーニングと、問題解決プロセスにおける自動検証の欠如から生じています。さらに、現在の幾何学専門家は、タスク固有の設計に限定されており、より広範囲の幾何学的問題には効果が薄いです。このため、我々は幾何学的理解と推論タスクに焦点を当てたMulti-modal Large ModelであるGeoXを提案します。幾何学的図形と自然画像のテキストとの間には著しい違いがあるため、図形エンコーダと記号デコーダを開発するために単一モーダルの事前トレーニングを導入し、幾何学的画像とコーパスの理解を向上させます。さらに、単一モーダルの幾何学的専門家間のモダリティのギャップを埋める効果的な事前トレーニングパラダイムであるジオメトリー言語アラインメントを導入します。不均一に分布する幾何学的信号から区別的なクエリを生成し、非情報的な表現を排除するためのGenerator-And-Sampler Transformer(GS-Former)を提案します。最後に、GeoXは視覚的な指示の調整から利益を得て、幾何学的画像と質問を入力として受け取り、検証可能な解決策を生成する能力を強化します。実験結果は、GeoXがGeoQA、UniGeo、Geometry3K、PGPS9kなどの公に認識されたベンチマークにおいて、一般的なモデルと幾何学的専門家の両方を上回ることを示しています。
私たちは、音声と音楽のための生成的大規模言語モデル(LLM)であるWHISPER-GPTを提案します。このモデルは、連続したオーディオ表現と離散トークンを同時に扱えるようにする単一のアーキテクチャの一部として機能します。離散オーディオトークンは、ニューラル圧縮アルゴリズム(例:ENCODEC)から派生しており、生成的オーディオ、音声、および音楽モデルが急速に増加しています。しかしながら、このアプローチの主な欠点の1つは、コンテキストの長さを扱うことです。高品質な生成アーキテクチャでは、次のトークン予測のために各周波数のオーディオコンテンツ全体を考慮する必要があるため、コンテキストが膨大になります。スペクトログラムなどの連続したオーディオ表現と離散音響トークンを組み合わせることで、両方の利点を保持します。つまり、特定の時間インスタンスのオーディオから必要なすべての情報を単一のトークンで保持しつつ、LLMに未来のトークンを予測させ、サンプリングやその他の利点を提供します。我々は、音声と音楽のためのトークンベースのLLMと比較して、次のトークン予測のパープレキシティと負の対数尤度スコアがどのように改善されるかを示します。
Vertical Federated Learning(VFL)は、プライバシー保護を維持しながら深層学習モデルの共同トレーニングを可能にすることを目的としています。ただし、VFL手順には、悪意のある第三者による攻撃に対して脆弱なコンポーネントがまだ存在しています。私たちの研究では、入力データの侵害を狙った一般的なリスクである特徴再構築攻撃を考慮しています。理論的には、特徴再構築攻撃はデータの事前分布の知識なしには成功しないと主張しています。その結果、単純なモデルアーキテクチャの変換でも、VFL中の入力データの保護に大きな影響を与えることを実証します。これらの結果を実験結果で裏付けることで、MLPベースのモデルが最先端の特徴再構築攻撃に対して耐性を持つことを示しています。
最近の拡散モデルの進歩は画像生成を革新しましたが、芸術作品の複製やディープフェイクの生成などの誤用のリスクをもたらします。既存の画像保護方法は効果的ですが、保護効果、不可視性、遅延のバランスをとることが難しく、実用性が制限されています。私たちは、遅延を減らすための摂動事前トレーニングを導入し、入力画像に動的に適応する摂動の混合アプローチを提案します。私たちの新しいトレーニング戦略は、複数のVAE特徴空間で保護損失を計算し、推論時の適応型ターゲット保護は頑健性と不可視性を向上させます。実験では、改善された不可視性と推論時間の大幅な短縮に伴う同等の保護性能が示されました。コードとデモは以下のリンクから入手可能です:https://webtoon.github.io/impasto
自然言語処理(NLP)技術の急速な進歩は、指示に調整された大規模言語モデル(LLM)などの開発において、人間と機械のフィードバックを用いた現代的な評価プロトコルの必要性を迫っています。本研究では、信頼性の高い再現可能なモデルのリーダーボード作成を支援するオープンソースツールキット「Evalica」を紹介します。本論文では、その設計を提示し、パフォーマンスを評価し、Webインターフェース、コマンドラインインターフェース、およびPython APIを通じてその使いやすさを実証します。
最近のロボット基盤モデルの進歩により、多様なタスクに適応できる汎用ポリシーの開発が可能となりました。これらのモデルは柔軟性に優れていますが、その性能は訓練データの質に大きく依存しています。本研究では、Reinforcement Learning Distilled Generalists(RLDG)という手法を提案し、強化学習を活用して汎用ポリシーの微調整のための高品質な訓練データを生成します。コネクタ挿入や組み立てなどの精密な操作タスクについての実世界での幅広い実験を通じて、RL生成データで訓練された汎用ポリシーが、人間のデモンストレーションで訓練されたものよりも一貫して優れた性能を発揮し、成功率が最大40%向上し、新しいタスクにもより良く一般化することを示します。また、最適化されたアクション分布と改善された状態カバレッジの両方から性能向上が生じていることを明らかにする詳細な分析も提供します。我々の結果は、タスク固有の強化学習と汎用ポリシーの蒸留を組み合わせることが、柔軟性を維持しながら専門コントローラの性能を達成するより能力の高い効率的なロボット操作システムの開発に有望なアプローチであることを示唆しています。ビデオやコードは、弊社のプロジェクトウェブサイトhttps://generalist-distillation.github.io で入手できます。