翻訳付きの日次キュレーションされたAI研究論文
指示チューニングは、大規模言語モデル(LLMs)がユーザーの指示を効果的に遵守することを確実にするために広く採用されています。LLMsの指示に従う能力は、チューニングに使用される指示データセットに大きく依存しています。最近、合成指示データセットが経済的に実現可能な解決策として登場し、LLMsに多様で高品質な指示を提供しています。ただし、既存のアプローチは通常、より大きなまたは強力なモデルが指示チューニングのための強力な教師であると仮定し、したがってこれらのモデルを単純に合成指示の応答生成器として採用しています。本論文では、この一般的に採用されている仮定に疑問を投げかけます。5つの基本モデルと20の応答生成器を対象とした包括的な実験により、より大きく、より強力なモデルが必ずしもより小さなモデルの強力な教師ではないことが明らかになりました。この現象を「大きなモデルのパラドックス」と呼んでいます。既存のメトリクスは、教師と微調整される基本モデルとの互換性を無視しているため、応答生成器の効果を正確に予測できません。したがって、教師と基本モデルの互換性を調整した報酬(CAR)という新しいメトリックを開発し、応答生成器の効果を測定します。5つの基本モデルを対象とした実験では、CARがほぼすべてのベースラインを上回ることが示されました。
JanusFlowという強力なフレームワークを提案します。このフレームワークは、画像理解と生成を1つのモデルで統合します。JanusFlowは、自己回帰言語モデルと生成モデリングにおける最先端の手法である修正フローを統合するミニマリストなアーキテクチャを導入します。私たちの主な発見は、修正フローが大規模言語モデルフレームワーク内で簡単に訓練でき、複雑なアーキテクチャの変更が不要であることを示しています。統合モデルの性能をさらに向上させるために、2つの主要な戦略を採用しています:(i) 理解と生成のエンコーダーを分離し、(ii) 統合トレーニング中にそれらの表現を整合させることです。多くの実験により、JanusFlowが専門モデルと比較して各ドメインで同等または優れた性能を達成し、標準ベンチマーク全体で既存の統合アプローチを大幅に上回ることが示されました。この研究は、より効率的で多目的なビジョン言語モデルに向けた一歩を表しています。
3D部品セグメンテーションは、3D認識において重要であり、挑戦的なタスクであり、ロボティクス、3D生成、および3D編集などのアプリケーションにおいて重要な役割を果たしています。最近の手法は、強力なビジョン言語モデル(VLMs)を活用して、2Dから3Dの知識蒸留を行い、ゼロショット3D部品セグメンテーションを達成しています。しかし、これらの手法はテキストプロンプトへの依存によって制限されており、大規模な未ラベルデータセットへの拡張性や部品の曖昧さを処理する柔軟性が制限されています。本研究では、事前定義された部品ラベルセットをテキストプロンプトとして必要とせず、どんな3Dオブジェクトでも複数の粒度で意味的な部品にセグメントするスケーラブルなゼロショット3D部品セグメンテーションフレームワークであるSAMPart3Dを紹介します。スケーラビリティのために、テキストに依存しないビジョン基盤モデルを使用して3D特徴抽出バックボーンを蒸留し、豊富な3D事前知識を学習するために大規模な未ラベル3Dデータセットにスケーリングします。柔軟性のために、スケール条件付きの部品感知3D特徴を蒸留して、複数の粒度で3D部品セグメンテーションを行います。スケール条件付きの部品感知3D特徴からセグメントされた部品を取得した後、マルチビューレンダリングに基づいて各部品に意味的なラベルを割り当てるためにVLMsを使用します。従来の手法と比較して、SAMPart3Dは、最近の大規模3DオブジェクトデータセットObjaverseにスケーリングし、複雑で非常奇抜なオブジェクトを処理することができます。さらに、既存のベンチマークにおけるオブジェクトと部品の多様性と複雑さの不足を解消するために、新しい3D部品セグメンテーションベンチマークを提供しています。実験結果は、SAMPart3Dが既存のゼロショット3D部品セグメンテーション手法を大幅に上回り、部品レベルの編集やインタラクティブなセグメンテーションなどのさまざまなアプリケーションを促進できることを示しています。
私たちは、記述的な合成キャプションと事実に基づくウェブ規模の代替テキストとの間のギャップを埋める、218百万の画像テキストペアのデータセットであるBLIP3-KALEを紹介します。KALEは、合成された密な画像キャプションをウェブ規模の代替テキストで拡張し、事実に基づいた画像キャプションを生成します。私たちの2段階アプローチは、大規模なビジョン言語モデルと言語モデルを活用して、知識を拡張したキャプションを作成し、その後、データセットのスケーリングのために特化したVLMをトレーニングするために使用されます。私たちはKALEでビジョン言語モデルをトレーニングし、ビジョン言語タスクでの改善を示します。私たちの実験は、より能力が高く知識豊富なマルチモーダルモデルをトレーニングするためのKALEの有用性を示しています。私たちは、KALEデータセットを以下のURLで公開しています:https://huggingface.co/datasets/Salesforce/blip3-kale
本論文では、拡散モデルを用いた反復計算が、生成だけでなく視覚知覚タスクにも強力なパラダイムを提供すると主張する。私たちは、深度推定、光学フロー、セグメンテーションなどのタスクを画像間変換の下で統一し、拡散モデルがこれらの知覚タスクのためにトレーニングとテスト時の計算をスケーリングする方法を示す。これらのスケーリング動作を注意深く分析することで、視覚知覚タスクのために拡散モデルを効率的にトレーニングするためのさまざまな技術を提案する。私たちのモデルは、著しく少ないデータと計算を使用して、最先端の手法と比較して改善されたまたは同等の性能を達成する。コードとモデルを使用するには、https://scaling-diffusion-perception.github.io を参照してください。
大規模な3D生成モデルは、多大な計算リソースを必要としますが、しばしば高解像度で微細な詳細や複雑な幾何学を捉えることができません。この制限は、現在の表現の非効率性に起因しており、これらの表現は生成モデルを効果的にモデル化するために必要なコンパクトさを欠いていると考えています。この問題に対処するために、Wavelet Latent Diffusion(WaLa)と呼ばれる新しいアプローチを導入し、3D形状をウェーブレットベースのコンパクトな潜在符号化にエンコードします。具体的には、256^3の符号付き距離フィールドを12^3×4の潜在グリッドに圧縮し、詳細の最小損失で印象的な2427倍の圧縮率を達成します。この高い圧縮率により、当社の手法は推論時間を増やすことなく、大規模な生成ネットワークを効率的にトレーニングすることができます。当社のモデルは、条件付きおよび無条件の両方で約10億のパラメータを含み、256^3の解像度で高品質な3D形状を生成することに成功しています。さらに、WaLaは迅速な推論を提供し、モデルのスケールに関わらず、条件に応じて2〜4秒で形状を生成します。私たちは、複数のデータセットで最先端のパフォーマンスを実証し、生成品質、多様性、および計算効率の大幅な改善を達成しています。私たちは当社のコードをオープンソース化し、私たちの知る限りでは、さまざまなモダリティにわたる最大の事前学習済み3D生成モデルを公開しています。
バーチャルおよび拡張現実に没入感のある体験を創出するためには、正確な音響現象を捉えたリアルなオーディオ合成が不可欠です。任意の位置で受信される音を合成するには、音がリスナーの位置に到達する前に異なる経路を通ってどのように伝播するかを特徴づけるインパルス応答(IR)の推定に依存します。本論文では、音響ボリュームレンダリング(AVR)という、音響インパルス応答をモデル化するためにボリュームレンダリング技術を適応した新しいアプローチを提案します。ボリュームレンダリングは画像やニューラルシーン表現の放射輝度場をモデル化するのに成功してきましたが、IRは時間系列信号として独自の課題を抱えています。これらの課題に対処するために、周波数領域のボリュームレンダリングを導入し、IRの測定値に適合させるために球面積分を使用します。我々の手法は、波の伝播原理を固有にエンコードしたインパルス応答フィールドを構築し、新しいポーズのためのインパルス応答の合成において最先端の性能を実現します。実験結果は、AVRが現行の主要手法を大幅に上回ることを示しています。さらに、既存のシミュレータよりもより正確でリアルなIRシミュレーションを提供する音響シミュレーションプラットフォームであるAcoustiXを開発しました。AVRおよびAcoustiXのコードは、https://zitonglan.github.io/avr で入手可能です。
大規模言語モデル(LLM)の推論にアクセスするために、自己ホストする代わりに購入することが一般的なビジネス実践となっています。これは、大規模なハードウェアインフラストラクチャとエネルギーコストがかかるためです。しかし、購入者としては、NVIDIA H100を使用していることなど、広告されたサービスの信頼性を検証するメカニズムがありません。さらに、モデルプロバイダーが、広告されたものとわずかに異なるモデルを提供する可能性があるという報告もあります。これは、より安価なハードウェアで動作させるために、しばしば広告されたものとは異なるモデルを提供することがあります。その結果、クライアントは高価なハードウェアでの優れたモデルアクセスのためにプレミアムを支払いますが、実際には(潜在的に能力の低い)安価なモデルが安価なハードウェアで提供されることがあります。本論文では、入出力の振る舞いに基づいて、(ブラックボックスの)機械学習モデルの基本的なアーキテクチャとソフトウェアスタックを単独で特定する方法である\textbf{ハードウェアおよびソフトウェアプラットフォーム推論(HSPI)}を紹介します。我々の手法は、さまざまなアーキテクチャとコンパイラの固有の違いを活用して、異なるタイプとソフトウェアスタックを区別します。モデルの出力の数値パターンを分析することで、使用されているハードウェアおよび基本的なソフトウェア構成を正確に特定することができる分類フレームワークを提案します。我々の調査結果は、ブラックボックスモデルからタイプを推論することの実現可能性を示しています。HSPIを異なる実際のハードウェアで提供されるモデルに対して評価し、ホワイトボックス設定では、異なるタイプを83.9%から100%の精度で区別することができます。ブラックボックス設定でも、ランダムな推測精度よりも最大3倍高い結果を達成することができます。