翻訳付きの日次キュレーションされたAI研究論文
現代のパラメータ効率的なファインチューニング(PEFT)手法、例えば低ランク適応(LoRA)は、大規模言語モデル(LLM)のカスタマイズコストを削減しますが、依然として各下流データセットに対して個別の最適化実行が必要です。本論文では、Drag-and-Drop LLMs(\textit{DnD})を紹介します。これは、プロンプト条件付きパラメータ生成器であり、少数のラベルなしタスクプロンプトを直接LoRA重み更新にマッピングすることで、タスクごとのトレーニングを不要にします。軽量なテキストエンコーダが各プロンプトバッチを条件埋め込みに蒸留し、その後、カスケード型ハイパー畳み込みデコーダによって完全なLoRA行列セットに変換されます。多様なプロンプト-チェックポイントペアのコレクションでトレーニングされた後、DnDは数秒でタスク固有のパラメータを生成し、i) 完全なファインチューニングに比べて最大12,000倍のオーバーヘッド削減、ii) 未見の常識推論、数学、コーディング、およびマルチモーダルベンチマークにおいて、最強のトレーニングLoRAを平均30%上回る性能向上、iii) ターゲットデータやラベルを一度も見ていないにもかかわらず、堅牢なクロスドメイン汎化を実現します。我々の結果は、プロンプト条件付きパラメータ生成が、勾配ベースの適応に代わる迅速なLLM専門化の有効な代替手段であることを示しています。本プロジェクトはhttps://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}で公開されています。
検索拡張生成(RAG)システムは情報検索と質問応答に革命をもたらしましたが、従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、複数ページにわたる表、埋め込まれた図表、ページ境界を越えた文脈的依存関係に対処するのに苦労しています。本論文では、大規模マルチモーダルモデル(LMM)を活用し、PDFドキュメントをバッチ処理しながら意味的連続性と構造的整合性を維持する、新しいマルチモーダルドキュメントチャンキング手法を提案します。本手法は、設定可能なページバッチでドキュメントを処理し、バッチ間の文脈を保持することで、複数ページにまたがる表、埋め込まれた視覚要素、手順的コンテンツを正確に扱うことを可能にします。手作業で作成されたクエリを含む精選されたPDFドキュメントデータセットを用いて本手法を評価し、チャンク品質と下流のRAG性能の向上を実証します。本提案の視覚誘導型アプローチは、従来の標準RAGシステムと比較してより高い精度を達成し、定性的分析ではドキュメント構造と意味的連続性の優れた保持を示しています。
視覚生成において、アテンションメカニズムの二次的な複雑さは、特に高解像度画像やマルチフレーム動画生成に必要な長いトークンシーケンスにおいて、高いメモリと計算コストを引き起こします。この問題に対処するため、これまでの研究ではスパース化や量子化などの技術が探求されてきました。しかし、これらの技術は低密度やビット幅の縮小下で重大な課題に直面します。体系的な分析を通じて、その核心的な難しさが視覚的アテンションパターンの分散的で不規則な特性に起因することを特定しました。したがって、そのようなパターンに対応するために特別なスパース化や量子化設計を導入する代わりに、アテンションパターンを*再編成*するという代替戦略を提案します。視覚的特徴抽出の局所的な集約性に着想を得て、多様なアテンションパターンをハードウェアに適したブロック単位のパターンに統一する新たな**Pattern-Aware token ReOrdering (PARO)**技術を設計しました。この統一により、スパース化と量子化が大幅に簡素化され、向上します。さまざまな設計選択の性能と効率のトレードオフを評価し、統一されたパターンに適した方法論を確立しました。我々のアプローチである**PAROAttention**は、完全精度(FP)ベースラインとほぼ同等の結果を維持しつつ、著しく低い密度(約20%-30%)とビット幅(**INT8/INT4**)で動作し、エンドツーエンドのレイテンシを**1.9倍**から**2.7倍**高速化します。
拡散ベースおよび制御可能なビデオ生成の最近の進展により、高品質で時間的に一貫性のあるビデオ合成が可能となり、没入型インタラクティブゲーム体験の基盤が築かれました。しかし、現在の手法はダイナミクス、汎用性、長期一貫性、および効率性の面で制限があり、多様なゲームプレイビデオの作成能力を制約しています。これらの課題に対処するため、我々はHunyuan-GameCraftを導入します。これは、ゲーム環境における高ダイナミックなインタラクティブビデオ生成のための新しいフレームワークです。細かなアクション制御を実現するため、標準的なキーボードとマウスの入力を共有カメラ表現空間に統合し、さまざまなカメラ操作と移動操作の間のスムーズな補間を可能にします。さらに、ビデオシーケンスを自己回帰的に拡張しながらゲームシーン情報を保持するハイブリッド履歴条件付きトレーニング戦略を提案します。また、推論効率とプレイアビリティを向上させるため、計算オーバーヘッドを削減しつつ長い時間シーケンスにわたる一貫性を維持するモデル蒸留を実現し、複雑なインタラクティブ環境でのリアルタイム展開に適したものとします。このモデルは、100以上のAAAタイトルにわたる100万以上のゲームプレイ記録を含む大規模データセットでトレーニングされ、広範なカバレッジと多様性を確保した後、精密な制御を強化するために注意深くアノテーションされた合成データセットでファインチューニングされます。厳選されたゲームシーンデータは、視覚的な忠実度、リアリズム、およびアクション制御性を大幅に向上させます。広範な実験により、Hunyuan-GameCraftが既存のモデルを大幅に上回り、インタラクティブゲームビデオ生成のリアリズムとプレイアビリティを進化させることが実証されました。
動的な環境における複数のエンボディエージェントの調整は、人工知能における中核的な課題であり、知覚駆動型の推論とスケーラブルな協調戦略の両方を必要とします。近年の研究では、大規模言語モデル(LLM)を活用したマルチエージェント計画が進められていますが、視覚言語モデル(VLM)を用いた視覚的推論の探求はまだ始まったばかりです。しかし、これらのVLMベースのアプローチは、多様なエンボディメントタイプをサポートする点で限界があります。本研究では、エンボディドマルチエージェント協調に特化した初の階層型ベンチマークであるVIKI-Benchを紹介します。VIKI-Benchは、エージェントの活性化、タスク計画、軌道知覚という3つの構造化されたレベルを特徴としています。VIKI-Benchには、多様なロボットエンボディメント、マルチビュー視覚観察、および視覚入力を基にした推論を評価するための構造化された監督信号が含まれています。VIKI-Benchの有用性を示すために、Chain-of-Thought注釈付きデモンストレーションを使用して事前学習済みの視覚言語モデル(VLM)を微調整し、その後、多段階の報酬信号の下で強化学習を行う2段階のフレームワークであるVIKI-Rを提案します。我々の広範な実験により、VIKI-Rがすべてのタスクレベルにおいてベースラインメソッドを大幅に上回ることが示されました。さらに、強化学習により、異種エージェント間での合成的な協調パターンが出現することが明らかになりました。VIKI-BenchとVIKI-Rは、エンボディドAIシステムにおけるマルチエージェント視覚駆動型協調を進展させるための統一されたテストベッドと手法を提供します。
最先端のテキスト・トゥ・スピーチ(TTS)システムは、単一言語環境において高い自然性を実現しているが、多言語アクセント(特にインド諸語)や文脈に応じた感情を正確に合成することは、現在のフレームワークにおける文化的ニュアンスの差異により依然として困難を伴う。本論文では、ヒンディー語およびインド英語のアクセントに特に適した、多尺度感情モデリングを統合しつつ、翻字を保持する新しいTTSアーキテクチャを提案する。我々のアプローチは、Parler-TTSモデルを拡張し、言語固有の音素アライメントを組み込んだハイブリッド・エンコーダ・デコーダアーキテクチャ、ネイティブスピーカーコーパスで訓練された文化に敏感な感情埋め込み層、および残差ベクトル量子化を用いた動的アクセントコードスイッチングを統合している。定量的テストでは、アクセントの精度が23.7%向上し(単語誤り率が15.4%から11.8%に減少)、ネイティブリスナーによる感情認識精度が85.3%に達し、METTSおよびVECL-TTSのベースラインを上回った。本システムの新規性は、リアルタイムでコードを混合できる点にあり、「ナマステ、<ヒンディー語のフレーズ>について話しましょう」といった文を、感情の一貫性を保ちつつアクセントのシフトを途切れなく生成することが可能である。200人のユーザーによる主観的評価では、文化的正確性に対する平均意見スコア(MOS)が4.2/5と報告され、既存の多言語システムよりも大幅に優れていた(p<0.01)。本研究は、スケーラブルなアクセントと感情の分離を示すことで、南アジアのEdTechおよびアクセシビリティソフトウェアへの直接的な応用を通じて、クロスリンガル合成をより実現可能なものにしている。
3Dパノラマ合成は、生成される全方位コンテンツの高品質かつ多様な視覚的外観と幾何学を要求する、有望でありながらも挑戦的な課題である。既存の手法は、3Dパノラマデータの不足を補うために、事前学習された2D基盤モデルから豊富な画像事前情報を活用しているが、3Dパノラマと2D単一視点との非互換性がその有効性を制限している。本研究では、2D基盤モデルの演算子に多平面同期を適用することで、その能力を全方位領域にシームレスに拡張できることを示す。この設計に基づき、さらにDreamCubeを導入する。DreamCubeは、3Dパノラマ生成のための多平面RGB-D拡散モデルであり、2D基盤モデルの事前情報を最大限に再利用して、多視点一貫性を維持しながら多様な外観と正確な幾何学を実現する。広範な実験により、本手法がパノラマ画像生成、パノラマ深度推定、および3Dシーン生成において有効であることが実証された。
本報告書では、高精細で詳細なテクスチャ付き3Dアセットの生成を目的とした堅牢な3D拡散モデル群であるHunyuan3D 2.5を紹介します。Hunyuan3D 2.5は、前バージョンであるHunyuan3D 2.0の2段階パイプラインを踏襲しつつ、形状生成とテクスチャ生成の両面で大幅な進化を遂げています。形状生成に関しては、スケーリングされた高品質データセット、モデルサイズ、計算リソースを用いてトレーニングされた新しい形状基盤モデル「LATTICE」を導入しました。最大のモデルは100億パラメータに達し、画像と3Dの正確な追従を実現しながら、メッシュ表面をクリーンかつスムーズに保つことで、生成された3D形状と手作業で作成された3D形状のギャップを大幅に縮めています。テクスチャ生成に関しては、Hunyuan3D 2.0のPaintモデルを拡張した新しいマルチビューアーキテクチャによる物理ベースレンダリング(PBR)を採用し、アップグレードを実現しました。広範な評価を通じて、Hunyuan3D 2.5が形状生成とエンドツーエンドのテクスチャ生成の両方において、従来の手法を大幅に上回る性能を示すことが確認されています。
視覚言語モデル(VLM)はマルチモーダル理解において優れた性能を発揮するが、テキストのみのデコードを強制されるため、視覚的推論を言語化する必要があり、視覚的想像力を必要とするタスクでの性能が制限される。最近の試みでは、VLMに明示的な画像を生成させる訓練が行われているが、重い画像生成の事前学習が推論能力を妨げることが多い。人間がメンタルイメージ(視覚的手がかりの内部構築と操作)を用いて推論する方法に着想を得て、我々はVLMが明示的な画像を生成せずに、インタリーブされたマルチモーダル軌跡を通じて推論できるかどうかを調査する。この目的のために、我々は「Mirage」と名付けた機械的メンタルイメージフレームワークを提案する。これは、通常のテキストに加えて潜在的な視覚トークンを用いてVLMのデコードを拡張するものである。具体的には、モデルが「視覚的に考える」ことを選択した場合、その隠れ状態を次のトークンとして再構築し、ピクセルレベルの画像を生成することなくマルチモーダル軌跡を継続する。最初に、潜在トークンをグラウンドトゥルースの画像埋め込みからの蒸留を通じて監督し、その後、テキストのみの監督に切り替えて、潜在軌跡をタスク目標に密接に整合させる。その後の強化学習段階では、マルチモーダル推論能力をさらに強化する。多様なベンチマークでの実験により、Mirageが明示的な画像生成なしに強力なマルチモーダル推論を実現することが示された。
統一的な画像理解と生成は、マルチモーダル人工知能における有望なパラダイムとして登場してきました。しかし、最近の進展にもかかわらず、このような統一モデルの最適なアーキテクチャ設計は未解決の課題です。本研究ではまず、理解と生成のためのタスク特化型エキスパートモデル、および現在の統一モデルのモダリティアライメントの挙動を分析します。私たちの分析から重要な知見が得られました:理解タスクでは、ネットワークの深さに応じてモダリティアライメントが段階的に増加することが有益であり、これによりセマンティック情報が構築され、より良い理解が可能になります。一方、生成タスクでは異なる傾向が見られ、初期層ではモダリティアライメントが増加しますが、深層では空間的詳細を回復するために減少します。これらの異なるアライメントパターンは、完全に共有されたTransformerバックボーンにおいて根本的な矛盾を引き起こし、均一な表現フローが2つのタスク間で性能の妥協を招くことが多いのです。この発見に基づき、私たちはUniForkを提案します。これは、浅い層をクロスタスク表現学習のために共有しつつ、深い層ではタスク固有のブランチを採用してタスク間の干渉を回避する新しいY字型アーキテクチャです。この設計は、共有学習とタスク特化のバランスを効果的に取ります。広範なアブレーション実験を通じて、UniForkが従来の完全共有型Transformerアーキテクチャを一貫して上回り、タスク特化型モデルと同等またはそれ以上の性能を達成することを実証しました。
3D AI生成コンテンツ(AIGC)は、ゲーム、映画、デザインにおける3Dモデルの作成を大幅に加速させた情熱的な分野です。3D生成を革新するいくつかの画期的なモデルが開発されているにもかかわらず、3Dモデルの収集、処理、トレーニングに伴う複雑さのため、この分野は依然として研究者、開発者、デザイナーに限られたアクセス性を保っています。これらの課題に対処するため、本チュートリアルではHunyuan3D 2.1をケーススタディとして紹介します。このチュートリアルでは、高解像度でテクスチャ付きの3Dアセットを生成するための先進的なシステムであるHunyuan3D 2.1を使用して、3Dデータの処理、3D生成モデルのトレーニング、およびその性能評価に関する包括的なステップバイステップガイドを提供します。このシステムは、形状生成のためのHunyuan3D-DiTとテクスチャ合成のためのHunyuan3D-Paintという2つのコアコンポーネントで構成されています。データ準備、モデルアーキテクチャ、トレーニング戦略、評価指標、およびデプロイメントを含む全体的なワークフローを探求します。本チュートリアルの終わりまでに、ゲーム、仮想現実、産業デザインのアプリケーションに適した堅牢な3D生成モデルを微調整または開発するための知識を習得できるでしょう。
現代のマルチモーダル大規模言語モデル(MLLM)は、1時間以上の動画を推論することが可能ですが、そのキー・バリュー(KV)キャッシュは時間とともに線形に増加し、スマートフォン、ARグラス、エッジロボットの固定メモリをすぐに超えてしまいます。従来の圧縮手法では、動画全体とユーザークエリがオフラインで利用可能であるか、最初に完全なキャッシュを構築する必要があるため、メモリ使用量は依然としてストリームの長さに比例して増加します。InfiniPot-Vは、ストリーミング動画理解において、長さに依存しない厳密なメモリ上限を強制する、初めてのトレーニング不要でクエリに依存しないフレームワークです。動画エンコーディング中にキャッシュを監視し、ユーザー設定の閾値に達すると、軽量な圧縮処理を実行します。この処理では、(i) 時間軸冗長性(TaR)メトリックを使用して時間的に冗長なトークンを削除し、(ii) 値ノルム(VaN)ランキングを使用して意味的に重要なトークンを保持します。4つのオープンソースMLLMと4つの長尺動画および2つのストリーミング動画ベンチマークにおいて、InfiniPot-VはピークGPUメモリを最大94%削減し、リアルタイム生成を維持し、完全キャッシュの精度を上回るか同等の性能を発揮します。これにより、再トレーニングやクエリの知識を必要とせずにKVキャッシュのボトルネックを解消し、InfiniPot-Vはオンデバイスストリーミング動画アシスタントの実現に大きく近づきました。
ビジョン・ランゲージ・アクション(VLA)モデルが従来のロボティクスにおける模倣学習に対して持つ一つの約束は、大規模なビジョン・ランゲージモデル(VLM)の広範な汎化能力を活用して、汎用的な「ジェネラリスト」ロボットポリシーを生成することである。しかし、現在のVLAの評価は不十分である。従来の模倣学習ベンチマークは、言語指示の欠如により不適切である。言語を組み込んだ新興のVLAベンチマークは、評価タスクが限られており、VLMの事前学習が下流のロボットポリシーの汎化能力にどの程度寄与するかを真に調査する意図がない。一方、多くの研究は、異なる機関によって個別に設計された実世界のロボットセットアップに依存しており、再現性とアクセシビリティに障壁を生んでいる。このギャップを埋めるため、我々は言語指示、視覚、物体にまたがる10のサブカテゴリーにわたる50のシミュレーションベースのタスクからなる統一的なプロービングスイートを導入する。我々はこのスイート上でいくつかの最先端のVLAアーキテクチャを体系的に評価し、その汎化能力を理解する。結果は、VLMバックボーンがVLAに堅牢な知覚理解と高レベルの計画(我々が「良い意図」と呼ぶもの)を付与する一方で、これが正確な運動実行に確実に変換されるわけではないことを示している:分布外の観測に直面した場合、ポリシーはしばしば一貫した意図を示すが、アクション実行で躓く。さらに、アクションデータに対するファインチューニングは、元のVLMのジェネラリストとしての推論能力を損なう可能性がある。我々は、将来のVLAの標準化されたベンチマークとして、また知覚からアクションへのギャップを埋める研究を推進するために、タスクスイートと評価コードを公開する。詳細情報、およびソースコードは、https://ai4ce.github.io/INT-ACT/ で確認できる。
理想的な交通シミュレータは、自動運転システムが実際の運用中に経験する現実的な長距離のポイントツーポイント移動を再現します。従来のモデルやベンチマークは、シーン内の初期エージェントに対するクローズドループの動作シミュレーションに焦点を当てていました。これは長期的なシミュレーションにおいて問題があります。エゴビークルが新しい領域に入ると、エージェントがシーンに入ったり出たりします。我々は、クローズドループの動作シミュレーションとシーン生成を交互に行う統一された次トークン予測モデルであるInfGenを提案します。InfGenは、クローズドループの動作シミュレーションとシーン生成モードを自動的に切り替えます。これにより、安定した長期的なロールアウトシミュレーションが可能になります。InfGenは、短期的(9秒)な交通シミュレーションにおいて最先端の性能を発揮し、長期的(30秒)なシミュレーションでは他のすべての方法を大幅に上回ります。InfGenのコードとモデルは、https://orangesodahub.github.io/InfGen で公開されます。
事前学習された専門家モデルを組み合わせることで、スケーラブルなマルチモーダル推論の大きな可能性が得られるが、入力モダリティの多様化とタスクの複雑さの増大により、統一的なフレームワークの構築は依然として課題である。例えば、医療診断では構造化された臨床表に対する精密な推論が必要であり、金融予測ではプロットベースのデータを解釈して情報に基づいた予測を行うことが求められる。この課題に対処するため、我々はMEXAを提案する。MEXAは、多様で異なるドメインにわたる効果的なマルチモーダル推論を可能にするために、複数の専門家モデルをモダリティおよびタスクを意識して集約するトレーニング不要のフレームワークである。MEXAは、入力モダリティとタスク固有の推論要求(すなわちスキル)に基づいて専門家モデルを動的に選択する。各専門家モデルは、特定のモダリティとタスクのペアに特化しており、解釈可能なテキスト形式の推論出力を生成する。MEXAはこれらの出力を集約し、大規模推論モデル(LRM)を使用して最終的な回答を導出する。このモジュール設計により、追加のトレーニングオーバーヘッドなしに、多様なドメインにわたる柔軟で透明性の高いマルチモーダル推論が可能となる。我々は、ビデオ推論、オーディオ推論、3D理解、医療QAなど、多様なマルチモーダルベンチマークにおいて本アプローチを広範に評価した。MEXAは、強力なマルチモーダルベースラインを一貫して上回る性能向上を示し、多様なマルチモーダル推論タスクにおける専門家駆動型の選択と集約の有効性と広範な適用性を強調している。
政治的な視点の要約といった現実世界の設定において、偏りのない要約を生成することは、大規模言語モデル(LLMs)の重要な応用分野として依然として重要です。しかし、既存の評価フレームワークは、カバレッジや忠実性といった主要な属性を測定するために伝統的な指標に依存しており、その適用性を検証せず、改善された要約手法の開発はまだ初期段階にあります。我々はこれらのギャップを埋めるために、(1) 視点要約の品質を測定するための信頼性の高い指標を特定し、(2) ゼロショット推論を超えたLLMベースの手法の有効性を調査します。具体的には、人間のアノテーションを用いて指標の信頼性をベンチマークするためのテストセットを構築し、伝統的な指標が言語モデルベースの指標に比べて性能が低いことを示します。これらの指標を用いて、リランキングベースの手法が優れた結果をもたらすこと、および合成生成されたデータとリランキングラベル付きデータを用いた選好チューニングがさらなる性能向上をもたらすことを示します。我々の知見は、視点要約手法の信頼性のある評価と開発に貢献することを目指しています。
生成モデルの出力に透かしを埋め込むことは、その出所を追跡するための有望なアプローチとして注目されている。自己回帰型画像生成モデルとその悪用の可能性に対する関心が高まっているにもかかわらず、これまでトークンレベルでその出力に透かしを埋め込む試みは行われていなかった。本研究では、言語モデルの透かし技術をこの設定に適用し、初めてそのようなアプローチを提案する。ここで重要な課題として、生成された画像トークンを再トークン化するとトークンシーケンスが大幅に変化し、透かしが事実上消去されるという逆サイクル一貫性(RCC)の欠如が挙げられる。この課題に対処し、一般的な画像変換、ニューラル圧縮、除去攻撃に対して頑健な手法を実現するため、(i) RCCを改善するためのカスタムトークナイザー・デトークナイザーのファインチューニング手順、および(ii)補完的な透かし同期層を導入する。実験結果から、本手法は理論的に裏付けられたp値に基づいて信頼性と頑健性の高い透かし検出を可能にすることが示されている。
言語モデルの逆転は、言語モデルの出力のみを用いて隠されたプロンプトを復元することを目指す。この能力は、言語モデルの展開におけるセキュリティと説明責任に影響を及ぼす可能性があり、例えばAPIで保護された言語モデルのシステムメッセージからプライベート情報が漏洩するリスクがある。本論文では、新しい手法——ログ確率系列からのプロンプト逆転(PILS)——を提案する。この手法は、複数の生成ステップにわたるモデルの次トークン確率から手がかりを得て、隠されたプロンプトを復元する。我々の手法は、言語モデルのベクトル値出力が低次元部分空間に存在するという重要な洞察に基づいている。これにより、線形写像を用いて複数の生成ステップにわたる完全な次トークン確率分布をロスレスで圧縮することが可能となり、逆転のためにより多くの出力情報を利用できる。我々のアプローチは、隠されたプロンプトを復元するための従来の最先端手法を大幅に上回り、テストセット全体で2~3.5倍高い正確な復元率を達成し、あるケースでは復元率を17%から60%に向上させた。また、我々の手法は驚くほど良好な一般化特性を示す。例えば、16生成ステップで訓練された逆転器は、テスト時にステップ数を32に増やすと、プロンプト復元率が5~27ポイント向上する。さらに、我々の手法は、より困難なタスクである隠されたシステムメッセージの復元においても強力な性能を発揮することを実証した。また、プロンプト復元における逐語的な繰り返しの役割を分析し、ロジットベースの逆転器のためのクロスファミリーモデル転送の新しい手法を提案する。我々の研究結果は、次トークン確率が、これまで知られていたよりもはるかに脆弱な逆転攻撃の攻撃対象であることを示している。