翻訳付きの日次キュレーションされたAI研究論文
最近の動画オートエンコーダー(Video AEs)の進歩により、動画生成の品質と効率が大幅に向上しました。本論文では、動画を2つの異なる潜在空間に分解する革新的でコンパクトな動画オートエンコーダー、VidTwinを提案します。これには、全体的なコンテンツとグローバルな動きを捉える構造潜在ベクトルと、細かい詳細や急速な動きを表すダイナミクス潜在ベクトルが含まれます。具体的には、当社の手法は、これらの潜在空間を抽出するための2つのサブモジュールを備えたエンコーダーデコーダーバックボーンを活用しています。最初のサブモジュールは、低周波数の動きの傾向を抽出するためにQ-Formerを使用し、冗長なコンテンツの詳細を削除するためにダウンサンプリングブロックを続けます。2つ目は、空間次元に沿って潜在ベクトルを平均化して急速な動きを捉えます。幅広い実験により、VidTwinは高い再圧縮率(MCL-JCVデータセットでのPSNRが28.14)を達成し、下流の生成タスクで効率的かつ効果的に機能します。さらに、当社のモデルは説明可能性と拡張性を示し、動画の潜在表現と生成における将来の研究の道を開いています。当社のコードは、https://github.com/microsoft/VidTok/tree/main/vidtwin で公開されています。
大規模言語モデル(LLM)の効果的な事前学習は、膨大なリソース要求と関連する技術プロセスの複雑さにより、困難を極めてきました。本論文では、2.42Bのパラメータを持つ高性能な基本モデルであるYuLan-Miniについて、同様のパラメータ規模のモデルの中で最高水準の性能を達成する詳細な技術レポートを提供します。私たちの事前学習アプローチは、トレーニングの効果を向上させることに焦点を当て、次の3つの主要な技術的貢献によって行われます:データクリーニングとデータスケジュール戦略を組み合わせた緻密なデータパイプライン、トレーニングの不安定性を緩和するための頑健な最適化手法、そして、ターゲットデータ選択と長いコンテキストトレーニングを組み込んだ効果的なアニーリング手法。驚くべきことに、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界をリードするモデルと同等の性能を達成しています。再現性を促進するために、各トレーニングフェーズのデータ構成の詳細を公開しています。プロジェクトの詳細は、以下のリンクからアクセスできます:https://github.com/RUC-GSAI/YuLan-Mini.
本研究では、大規模言語モデルにおける長い文脈処理の改善を図るため、要旨に基づくコンテキスト圧縮手法を徹底的に調査します。我々は、以下の2つの主要な問いに焦点を当てます:(1) これらの手法が完全な注意モデルをどれだけ置き換えることができるか?および(2) 圧縮によって生じる潜在的な失敗パターンは何か?多くの実験を通じて、要旨に基づく圧縮が、検索補助生成や長文書QAなどのタスクにおいてほぼ損失のないパフォーマンスを達成できる一方、合成的なリコールなどのタスクにおいて課題に直面することを示します。さらに、我々は、3つの主要な失敗パターンを特定します:境界で失われる、驚きがある場合に失われる、途中で失われる。これらの問題を緩和するために、我々は2つの効果的な戦略を提案します:細かい粒度の自己符号化により、元のトークン情報の再構築を向上させ、セグメントごとのトークン重要度推定により、トークン間の依存関係に基づいて最適化を調整します。本研究は、要旨トークンベースのコンテキスト圧縮の理解に貢献し、圧縮能力を向上させるための実践的な戦略を提供します。
AIの基盤とビジョン言語モデルの進歩や効果的なファインチューニング技術により、様々な視覚タスク向けに一般的または特定用途向けの多数のモデルが開発されています。これらのモデルは柔軟性とアクセシビリティに優れていますが、どのモデルもすべてのタスクや/または潜在的なユーザーが考える可能性のあるアプリケーションを処理することができるわけではありません。最近のアプローチでは、ビジュアルプログラミングや統合ツールを備えたマルチモーダルLLMによって、プログラム合成を通じて複雑な視覚タスクに取り組もうとしています。しかし、このようなアプローチはユーザーの制約(例:パフォーマンス/計算ニーズ)を見落とし、デプロイが難しいテスト時のサンプル固有の解決策を生成し、時には素人ユーザーの能力を超える低レベルの命令が必要とされます。これらの制約に対処するために、我々はMMFactoryを導入します。これは、モデルとメトリクスのルーティングコンポーネントを含む汎用フレームワークであり、さまざまな利用可能なモデルを横断してソリューション検索エンジンのように機能します。タスクの説明と少数のサンプル入出力ペア、および(オプションで)リソースおよび/またはパフォーマンスの制約に基づいて、MMFactoryは、モデルリポジトリからの視覚言語ツールをインスタンス化および組み合わせることで、プログラムソリューションの多様なプールを提案することができます。これらのソリューションを合成するだけでなく、MMFactoryはパフォーマンス/リソース特性を評価し、ユーザーが独自の設計制約を満たすソリューションを選択できるようにします。技術的な観点から、ユーザー向けに実行可能で多様で普遍的かつ堅牢なソリューションを生成するために、マルチエージェントLLM会話を活用する委員会ベースのソリューション提案者を導入しました。実験結果は、MMFactoryが、ユーザーの問題仕様に合わせた最先端のソリューションを提供することで、既存の手法を上回ることを示しています。プロジェクトページはhttps://davidhalladay.github.io/mmfactory_demoでご覧いただけます。
過去10年間で、連続推薦(SR)システムは大きく進化し、従来の協調フィルタリングから深層学習アプローチ、そしてさらに最近では大規模言語モデル(LLM)へと移行してきました。LLMの採用により大きな進歩がもたらされましたが、これらのモデルには協調フィルタリング情報が不足しており、主にテキストコンテンツデータに依存して他のモダリティを無視し、したがって最適な推薦パフォーマンスを達成できていません。この制限に対処するために、私たちはMolarという、複数のコンテンツモダリティをID情報と統合し、協調信号を効果的に捉える大規模言語連続推薦フレームワークを提案します。Molarは、テキストと非テキストデータの両方から統一されたアイテム表現を生成するためにMLLMを使用し、包括的なマルチモーダルモデリングを促進し、アイテムの埋め込みを豊かにします。さらに、コンテンツベースとIDベースのモデルからユーザー表現を整列させるポストアライメントメカニズムを介して協調フィルタリング信号を組み込み、正確な個別化と堅牢なパフォーマンスを確保します。マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザーの興味と文脈的意味を両方捉え、優れた推薦精度を実現します。包括的な実験により、Molarが従来のベースラインやLLMベースのモデルを大幅に上回ることが検証され、マルチモーダルデータと協調信号を連続推薦タスクに活用する強みが示されました。ソースコードはhttps://anonymous.4open.science/r/Molar-8B06/で入手可能です。