翻訳付きの日次キュレーションされたAI研究論文
複雑な視覚情報を正確に解釈する能力は、多様な大規模言語モデル(MLLMs)の重要なトピックです。最近の研究では、高度な視覚認識が幻覚を軽減し、光学文字認識や文書解析などの解像度に敏感なタスクでのパフォーマンスを向上させることが示されています。いくつかの最近のMLLMsは、複数のビジョンエンコーダを組み合わせることでこの目標を達成しています。彼らの成功にもかかわらず、専門家の選択や複数のビジョン専門家の統合などの重要な側面に対処した体系的な比較や詳細な削減研究が不足しています。この研究は、ビジョンエンコーダと解像度の混合を使用したMLLMsの設計空間について包括的な探索を提供します。私たちの調査結果は、既存のさまざまな戦略に共通するいくつかの基本原則を明らかにし、効果的な設計アプローチを効率的に導きます。私たちは、単に補完的なビジョンエンコーダからの視覚トークンを連結するだけで、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることを発見しました。さらに、ビジョンに焦点を当てたエンコーダと言語トークンの間のギャップを埋めるために、Pre-Alignmentを導入し、モデルの整合性を向上させます。その結果生まれたMLLMsファミリー、Eagleは、主要なMLLMベンチマークで他の主要なオープンソースモデルを上回っています。モデルとコード:https://github.com/NVlabs/Eagle
大規模言語モデル(LLM)の一般的な能力は、幅広い事前学習データセットの構成と選択に大きく依存しており、これらはいくつかの機関によって営利秘密として扱われています。この問題を緩和するために、普遍的に適用可能なデータ処理パイプラインの詳細をオープンソース化し、その効果と可能性を検証することで、競争力のあるLLMのベースラインを導入します。具体的には、データ処理パイプラインは、広範な収集からスケーリングアップ、品質向上のための再重み付けまでを含みます。その後、当社のパイプラインで処理された3兆トークンを用いて、意図的な下流タスク関連の最適化を行わずに、7BモデルBaichuanSEEDを事前学習し、簡単ですが効果的な教師ありファインチューニング段階を行います。BaichuanSEEDは、トレーニング全体で一貫性と予測可能性を示し、Qwen1.5やLlama3などのいくつかの商用の先進的な大規模言語モデルと比較して、包括的なベンチマークで同等のパフォーマンスを達成します。また、数学やコーディングなどの下流タスクのさらなる最適化の可能性について議論するために、いくつかのヒューリスティック実験も実施します。
本論文では、言語モデルにおける長いコンテキストのエネルギー効率の良い処理のための革新的なデコーダー・デコーダーアーキテクチャであるDolphinを提案します。当アプローチは、デバイス内モデルに固有の著しいエネルギー消費と遅延の課題に対処しています。Dolphinは、コンパクトな0.5Bパラメーターデコーダーを使用して、広範な文脈情報をメモリ埋め込みに蒸留し、主要な7Bパラメーターデコーダーモデルの入力長を大幅に削減しています。ビジョン・ランゲージモデルに触発され、画像埋め込みプロジェクターを再利用して、長いテキストコンテキストをエンコードし、拡張されたコンテキストを異なるモダリティとして効果的に扱っています。この革新的な手法により、拡張された入力シーケンスに伴う通常の計算オーバーヘッドなしに、大幅に長いコンテキストの処理が可能となります。経験的評価により、従来の完全なコンテキスト処理方法と比較して、エネルギー効率が10倍向上し、遅延が5倍短縮されることが示されましたが、応答の品質は損なわれていません。当研究は、エネルギー効率の良い反応性の高いAI技術が資源に制約のある環境で必要とされる中、デバイス内アプリケーション向けの持続可能でスケーラブルな言語モデルの開発に貢献しています。この研究は、特にリソースに制約のある環境向けの効率的なモデル設計の領域で、自然言語処理の広範な分野に影響を与えます。エッジデバイス上でより洗練されたAI機能を可能にすることで、Dolphinは、計算リソースが貴重な様々なアプリケーションにおいて、高度な言語処理の道を開いています。Dolphinモデルは、https://huggingface.co/NexaAIDev/Dolphin で公開されています。
私たちは、LLaVA-MoDという新しいフレームワークを紹介します。このフレームワークは、大規模なMultimodal Language Models(l-MLLM)からの知識を蒸留することで、小規模なMultimodal Language Models(s-MLLM)の効率的なトレーニングを可能にするよう設計されています。当アプローチは、MLLMの蒸留における2つの基本的な課題に取り組んでいます。まず、s-MLLMのネットワーク構造を最適化するために、疎な専門家の混合(MoE)アーキテクチャを言語モデルに統合することで、計算効率とモデルの表現力とのバランスを取っています。次に、包括的な知識移行を確実にするために、進行的な知識転送戦略を提案しています。この戦略は、まず模倣蒸留から始まり、出力分布間のKullback-Leibler(KL)ダイバージェンスを最小化することで、生徒モデルが教師ネットワークの理解を模倣できるようにします。その後、Direct Preference Optimization(DPO)を介した好み蒸留を導入し、l-MLLMを参照モデルとして扱うことが鍵となります。このフェーズでは、s-MLLMが優れた例と劣った例を区別する能力が、l-MLLMを大幅に上回り、特に幻覚のベンチマークにおいて、より優れた生徒を生み出します。幅広い実験により、LLaVA-MoDが各種のマルチモーダルベンチマークで既存のモデルを凌駕し、最小限のアクティブ化されたパラメータと低い計算コストを維持しながら、優れたパフォーマンスを発揮することが示されました。驚くべきことに、LLaVA-MoDはわずか2Bのアクティブ化されたパラメータで、訓練データのわずか0.3%と23%の訓練可能なパラメータのみを使用し、ベンチマーク全体でQwen-VL-Chat-7Bを平均8.8%上回っています。これらの結果は、LLaVA-MoDが効果的に教師モデルから包括的な知識を蒸留する能力を示し、より効率的なMLLMの開発の道を切り拓くことを裏付けています。コードは以下で入手可能です:https://github.com/shufangxun/LLaVA-MoD.
大規模言語モデル(LLM)の推論において、LLMリクエストの出力長は通常、事前には不明と見なされます。そのため、ほとんどのLLMサービングシステムは、単純なファーストカムファーストサーブ(FCFS)スケジューリング戦略を採用しており、ヘッドオブライン(HOL)ブロッキングとスループットおよびサービス品質の低下を引き起こしています。本論文では、この仮定を再検討し、各リクエストの正確な生成長を予測することは不可能であるが、学習によるランク付けを使用して、リクエストのバッチ内での出力長の相対的なランクを予測することが可能であることを示します。ランキング情報は、リクエストのスケジューリングに有益なガイダンスを提供します。この洞察を基に、既存のアプローチよりも最短ジョブ優先(SJF)スケジュールをより適切に近似できるLLM推論およびサービング用の新しいスケジューラを開発します。このスケジューラを最先端のLLMサービングシステムに統合し、チャットボットサービスにおけるレイテンシーの2.8倍の低減と合成データ生成におけるスループットの6.5倍の向上を示します。当該コードは、https://github.com/hao-ai-lab/vllm-ltr.git で入手可能です。
大規模言語モデル(LLM)の専門知識を育成して特定領域のタスクを解決するためには、予想される安定した出力に合わせた特別なチューニングが必要とされることがしばしばあります。数百時間に及ぶ手作業による指示データセットやトレーニングリソースの準備によってもたらされる膨大なコストを回避するためには、低ランク適応(LoRA)モデルや指示データセットの豊富なオープン知識を活用することが良い出発点となります。しかしながら、既存のモデルやデータ選択手法は、一般的な能力のパフォーマンスに焦点を当てており、ドメイン固有の展開において露呈される知識のギャップを無視しています。本研究では、オープン知識を活用してLLMのタスク専門知識を進化させるために、わずかな人手による注釈付きサンプル(K-shot)を導入することで、そのようなギャップを埋めることを提案しています。具体的には、K-shotデータが最も有望な専門家候補とタスクに関連する指示の選択に介入する効率的かつスケーラブルなパイプラインを開発します。個々の専門家間での個別かつ補完的な知識の最大限の活用を目的とした混合専門家(MoE)システムを構築します。MoEシステムの成功の鍵は、1)K-shotの遵守、および2)多様性の堅持です。前者に関しては、K-shotで問題解決能力を真に持つモデルが選択されるようにし、単なる当てずっぽうのモデルは選択しないようにします。また、データ選択時には、K-shotとタスクに関連する文脈を共有する指示が優先されます。後者に関しては、構成専門家およびモデルとデータ選択プロセス全体を通じた微調整指示の多様性を強調します。幅広い実験結果が、当社の手法がさまざまなタスクにわたるオープン知識の利用において既存の手法に対して優位性を確認しています。コードとモデルは後日公開されます。
拡散モデルのサンプリング速度を加速することは依然として重要な課題です。最近のスコア蒸留手法は、重い教師モデルを1ステップの生徒生成器に蒸留し、その生徒モデルによって生成されたサンプル上で2つのスコア関数の差を計算することで最適化されます。しかし、蒸留プロセスの初期段階にはスコアの不一致問題があります。なぜなら、既存の手法は主に事前学習された拡散モデルのエンドポイントを教師モデルとして使用することに焦点を当てており、生徒生成器と教師モデルの収束軌跡の重要性を見落としているからです。この問題に対処するために、私たちは教師モデルの完全な収束軌跡を導入し、生徒生成器を蒸留するための「分布バックトラッキング蒸留(DisBack)」を提案します。DisBackはDegradation RecordingとDistribution Backtrackingの2つの段階で構成されています。Degradation Recordingは、教師モデルの収束軌跡を取得するために設計されており、訓練された教師モデルから未訓練の初期生徒生成器までの劣化経路を記録します。劣化経路は、教師モデルの中間分布を暗示的に表します。そして、Distribution Backtrackingは、生徒生成器を訓練して、教師モデルの収束軌跡を近似するために中間分布をバックトラックします。幅広い実験により、DisBackが既存の蒸留手法よりも速くかつより良い収束を達成し、同等の生成パフォーマンスを達成することが示されました。特筆すべきは、DisBackは実装が容易であり、パフォーマンスを向上させるために既存の蒸留手法に一般化できる点です。当社のコードはhttps://github.com/SYZhang0805/DisBackで公開されています。
科学文献の指数関数的な成長は、効果的な知識探索のための高度なツールが必要とされています。我々は、Knowledge Navigatorを提案します。このシステムは、広範なトピッククエリから取得された文書を名前付きおよび記述的な科学的トピックとサブトピックの航行可能な2レベルの階層構造に整理し、探索的検索能力を向上させることを目的として設計されています。この構造化された組織は、ドメイン内の研究テーマの全体像を提供すると同時に、ユーザーが焦点を絞り込み追加の関連文書を取得することで特定のサブトピック内で反復的な検索と深い知識発見を可能にします。Knowledge Navigatorは、LLM機能とクラスタベースの手法を組み合わせて効果的なブラウジング手法を実現しています。我々は、CLUSTREC-COVIDとSCITOCという2つの新しいベンチマークに対する自動および手動の評価を通じて、我々のアプローチの効果を実証しています。我々のコード、プロンプト、およびベンチマークは一般に公開されています。
Mixture-of-Experts(MoE)モデルでは、均衡の取れていないエキスパートの負荷は、ルーティングの崩壊や計算オーバーヘッドの増加につながります。既存の手法では、一般的に負荷の均衡を促進するために補助損失を使用していますが、大きな補助損失はトレーニング中に無視できない干渉勾配を導入し、それによってモデルのパフォーマンスを損なう可能性があります。トレーニング中に望ましくない勾配を生じさせることなく、負荷の均衡を制御するために、私たちはLoss-Free Balancingを提案します。これは、補助損失を使用しない負荷均衡戦略を特徴としています。具体的には、トップKのルーティング決定の前に、Loss-Free Balancingはまず各エキスパートのルーティングスコアにエキスパートごとのバイアスを適用します。最近の負荷に応じて各エキスパートのバイアスを動的に更新することで、Loss-Free Balancingは一貫して均衡の取れたエキスパート負荷の分布を維持できます。さらに、Loss-Free Balancingは干渉勾配を生じさせないため、MoEトレーニングから得られるモデルパフォーマンスの上限も向上させます。私たちは、最大3Bパラメータを持つMoEモデルで最大200Bトークンをトレーニングした場合のLoss-Free Balancingのパフォーマンスを検証します。実験結果によると、Loss-Free Balancingは従来の補助損失制御型負荷均衡戦略と比較して、より優れたパフォーマンスと負荷の均衡を実現しています。
Mambaアーキテクチャは、短いコンテキストの自然言語処理(NLP)タスクにおいて優れた推論効率と競争力のパフォーマンスを示していますが、実証的な証拠から、長いコンテキストを理解する能力は、transformerベースのモデルと比較して限られているとされています。本研究では、Mambaモデルの長いコンテキストの効率性の問題を調査し、長いコンテキストを理解する能力を向上させるReMambaを提案します。ReMambaは、選択的な圧縮と適応技術を、追加の推論コストを最小限に抑える2段階の再転送プロセス内に組み込んでいます。LongBenchとL-Evalのベンチマークでの実験結果は、ReMambaの効果を示し、それぞれベースラインより3.2ポイントと1.6ポイント向上し、同じサイズのtransformerモデルとほぼ同等のパフォーマンスを達成しています。
次のトークン予測モデルを強化し、リアルロボット上でコンテキスト内での模倣学習を実行する方法を探求します。ロボットは、入力フェーズ中に提供された文脈情報を解釈して新しいタスクを実行し、基本的なポリシーパラメータを更新せずに行います。私たちはIn-Context Robot Transformer(ICRT)を提案します。これは、言語データや報酬関数に依存せずにセンサーモータートラジェクトリ上で因果推論を行うトランスフォーマーです。この定式化により、モデルに新しいタスクのセンサーモータートラジェクトリをプロンプトすることで、柔軟でトレーニング不要な新しいタスクの実行がテスト時に可能となります。これらは、画像観測、アクション、および状態のタプルから構成される新しいタスクのセンサーモータートラジェクトリを、人間の遠隔操作によって収集します。Franka Emikaロボットを用いた実験では、ICRTがプロンプトで指定された新しいタスクに適応でき、トレーニングデータとプロンプトの両方とは異なる環境構成でも機能します。マルチタスク環境のセットアップでは、ICRTは未知のタスクに汎化する点で、現在の最先端の次トークン予測モデルをロボティクス分野で大幅に上回ります。コード、チェックポイント、およびデータはhttps://icrt.dev/で入手可能です。
既存のモデルの一部を使用して新しいモデルを再構築すること、一般的には例示ベースのモデリングと呼ばれる、これはコンピュータグラフィックスの領域における古典的な方法論である。これまでの研究は主に形状の構成に焦点を当てており、それらは現実世界のシーンからキャプチャされた3Dオブジェクトのリアルな構成には非常に難しいとされてきた。これにより、複数のNeRFを組み合わせてシームレスな外観のブレンディングを実現するために、現在のSeamlessNeRF手法が苦労している。これは、勾配ベースの戦略とグリッドベースの表現による実世界のシーンに対するインタラクティブな編集と調和の取れたステッチングの達成が困難であるためである。このため、我々は、サンプルによる合成を用いてポイントベースの表現で複数のガウス場を組み合わせる例示ベースのモデリング手法を提案する。具体的には、構成に関しては、3Dガウススプラッティング(3DGS)で表現されたモデルの意味のある構成を容易に得るために、リアルタイムで複数のフィールドをセグメント化および変換するためのGUIを作成する。テクスチャのブレンディングに関しては、3DGSの離散的かつ不規則な性質から、SeamlessNeRFのように勾配伝播を直接適用することはサポートされない。したがって、豊かな元のテクスチャとコンテンツを保持しながらブレンディングを調和させるために、新しいサンプリングベースのクローニング手法が提案されている。我々のワークフローは、以下の3つのステップで構成されている:1)適切に設計されたGUIを使用してガウスモデルをリアルタイムでセグメント化および変換する、2)ソースモデルとターゲットモデルの交差領域における境界点を特定するためのKNN分析、および3)サンプリングベースのクローニングと勾配制約を用いたターゲットモデルの2段階最適化。幅広い実験結果が、我々のアプローチがリアルな合成において先行研究を大幅に上回ることを検証し、その実用性を示している。詳細なデモは、https://ingra14m.github.io/gs_stitching_website で入手可能である。
過去数年間、実写映像からのみならず、写実的で操作可能な3Dアバターの作成において、著しい進歩がなされてきました。しかしながら、服装スタイルの細かな編集がテキスト記述によってユーザーフレンドリーに行えるようにするという課題が依然として残っています。このために、我々はTEDRAを提案します。これは、アバターの高い忠実度、時空の一貫性、ダイナミクスを維持し、骨格ポーズと視点制御を可能にする初のテキストベースの編集手法です。まず、モデルを訓練して、実際の俳優の操作可能で高忠実度なデジタルレプリカを作成します。次に、異なるカメラアングルから捉えられた実際のキャラクターの複数のフレームで事前に学習された生成拡散モデルを微調整し、デジタル表現が実際の人物のダイナミクスと動きを忠実に捉えるようにします。この2段階のプロセスは、動的な人間アバター編集へのアプローチの基盤を築きます。このパーソナライズされた拡散モデルを活用して、提供されたテキストプロンプトに基づいて動的アバターを修正し、モデルベースのガイダンスフレームワーク内で私たちのパーソナライズされたノーマルアラインドスコア蒸留サンプリング(PNA-SDS)を使用します。さらに、高品質な編集を確保するためのタイムステップアニーリング戦略を提案します。我々の結果は、機能性と視覚的品質において従来の研究に明確な改善を示しています。