翻訳付きの日次キュレーションされたAI研究論文
CLIPは今日最も重要なマルチモーダルな基盤モデルの1つです。CLIPの機能を支えているのは何でしょうか?人間の知識の運び手である自然言語によって提供される豊富な監督信号が、強力なクロスモーダル表現空間を形作っています。しかし、GPT-4やLLaMAなどの大規模言語モデル(LLM)の急速な進歩により、言語理解と生成の境界が常に em>押し広げられています。これは興味深い問いを提起します:LLMの能力を活用して、マルチモーダル表現学習をさらに向上させることは可能でしょうか?LLMをCLIPに組み込むことの潜在的な利点は明らかです。LLMの強力なテキスト理解は、画像キャプションを処理する能力を根本的に向上させ、バニラCLIPの長く複雑なテキストを処理する能力を劇的に向上させることができます。さらに、LLMは膨大なテキストコーパスで訓練されており、オープンワールドの知識を持っています。これにより、訓練中にキャプション情報を拡張し、学習プロセスの効率を向上させることができます。本論文では、LLMの力を活用してCLIPの潜在能力を引き出す新しいアプローチであるLLM2CLIPを提案します。コントラスト学習を用いてキャプション空間でLLMを微調整することで、そのテキスト能力を出力埋め込みに抽出し、出力層のテキストの識別可能性を大幅に向上させます。その後、微調整されたLLMをCLIPのビジュアルエンコーダの強力な教師として機能させる効率的なトレーニングプロセスを設計します。LLMの存在により、バニラCLIPのテキストエンコーダのコンテキストウィンドウと能力の制限に制約されることなく、より長く複雑なキャプションを組み込むことができます。私たちの実験は、このアプローチがクロスモーダルタスクで大幅な改善をもたらすことを示しています。
大規模言語モデル(LLMs)は印象的な能力を示していますが、複数のステップを必要とする複雑な推論タスクにはまだ苦労しています。Chain-of-Thought(CoT)などのプロンプトベースの手法は、推論時にLLMの推論を改善できますが、トレーニング中の推論能力の最適化は依然として難しいです。本研究では、推論を潜在分布からのサンプリングとして定式化し、変分アプローチを用いて最適化する原則に基づくフレームワークであるLaTent Reasoning Optimization(LaTRO)を紹介します。LaTROは、外部フィードバックや報酬モデルを必要とせずに、LLMsが推論プロセスと推論品質の評価能力を同時に向上させることを可能にします。我々は、Phi-3.5-mini、Mistral-7B、およびLlama-3.1-8Bを含む複数のモデルアーキテクチャを使用して、GSM8KとARC-Challengeデータセットでの実験によってLaTROを検証します。GSM8Kでは、LaTROはベースモデルに比べてゼロショットの精度を平均12.5%向上させ、教師付きファインチューニングに比べて9.6%向上させました。我々の調査結果は、事前学習されたLLMsが潜在的な推論能力を持っており、提案された最適化手法によって自己改善的な方法でそれを引き出し強化できることを示唆しています。LaTROのコードは、https://github.com/SalesforceAIResearch/LaTRO で入手可能です。
パイプライン並列処理は、トランスフォーマーベースの大規模言語モデルのトレーニングをスケーリングするために広く使用されており、そのスループットとメモリフットプリントを改善するためのさまざまな取り組みが行われています。本論文では、頻繁に見落とされがちな問題に取り組んでいます。つまり、語彙レイヤーがパイプライン段階全体での計算とメモリ使用量の不均衡を引き起こし、パイプラインの遅延やメモリボトルネックを悪化させる可能性があります。この問題に対処するために、語彙レイヤーをパイプラインデバイス全体に均等に分割し、計算をパイプラインパスにグループ化します。アクティベーションメモリのオーバーヘッドを削減するために、語彙レイヤー内での通信障壁を減らすためのいくつかのアルゴリズムを提案しています。さらに、既存のパイプラインスケジュールに語彙並列処理を統合する汎用的な手法を利用しています。これらの手法を組み合わせることで、我々の手法は計算とパラメータメモリを効果的にバランスさせ、わずかな定数のアクティベーションメモリオーバーヘッドで完全なバランスを実現します。特に、V-Halfなどのアクティベーションメモリがバランスされたスケジュールと組み合わせると、我々の手法はメモリと計算の両方で完全なバランスを達成します。包括的な評価により、我々の手法は語彙サイズに関係なく計算とメモリのバランスを達成し、単純なアプローチと比較してスループットが5%から51%向上し、特に大規模な語彙のシナリオにおいてピークメモリ使用量を著しく削減します。当該手法の実装は、https://github.com/sail-sg/VocabularyParallelism でオープンソースとして公開されています。
私たちは、単一の画像から意味論的に分解された高品質な3Dキャラクターを生成する革新的なパイプラインであるStdGENを提案します。これにより、仮想現実、ゲーム、映画製作など、幅広いアプリケーションが可能となります。従来の手法とは異なり、限られた分解能、満足できない品質、および長い最適化時間に苦しむ従来の手法とは異なり、StdGENは分解可能性、効果的性能、効率性を備えています。つまり、複雑な詳細を持つ3Dキャラクターを、本体、服、髪の毛などの意味的に分離された構成要素として3分で生成します。StdGENの中心には、我々が提案するSemantic-aware Large Reconstruction Model(S-LRM)があります。これは、複数の視点からの画像からジオメトリ、色、および意味をフィードフォワード方式で共同して再構築するTransformerベースの汎用モデルです。我々のS-LRMによって再構築されたハイブリッド暗黙のフィールドからメッシュを取得するために、微分可能な多層意味表面抽出スキームが導入されています。さらに、特化した効率的な多視点拡散モデルと反復的な多層表面精緻モジュールがパイプラインに統合され、高品質で分解可能な3Dキャラクター生成を容易にします。幅広い実験により、3Dアニメキャラクター生成における最先端のパフォーマンスが実証され、既存のベースラインをジオメトリ、テクスチャ、および分解性において大幅に上回っています。StdGENは、即座に使用可能な意味論的に分解された3Dキャラクターを提供し、幅広いアプリケーションに柔軟なカスタマイズを可能にします。プロジェクトページ:https://stdgen.github.io
大規模言語モデル(LLMs)の微調整は、特定のタスクでの性能を向上させるために不可欠ですが、冗長または情報量の少ないデータのためにリソースを多く消費することがよくあります。この非効率性に対処するために、私たちはDELIFT(Data Efficient Language model Instruction Fine-Tuning)という新しいアルゴリズムを導入しました。このアルゴリズムは、微調整の3つの主要段階(1)指示の微調整、(2)タスク固有の微調整(例:推論、質問応答)、および(3)継続的な微調整(例:新しいデータバージョンの組み込み)にわたるデータ選択を体系的に最適化します。既存の方法が単一段階の最適化に焦点を当てるか、計算量の多い勾配計算に依存するのに対し、DELIFTはすべての段階で効率的に機能します。私たちの手法の中心にあるのは、データサンプルが他のサンプルに対するモデルの応答の向上にどれだけ有益かを定量化するペアワイズ効用メトリックであり、モデルの現在の能力に対する情報価値を効果的に測定します。このメトリックに適用される異なる部分モジュラー関数を活用することで、DELIFTは、微調整のすべての段階で有用な多様で最適なサブセットを選択します。さまざまなタスクとモデルスケールでの実験は、DELIFTが性能を損なうことなく、微調整データサイズを最大70%削減でき、著しい計算上の節約を提供し、効率性と有効性の両方で既存の方法を凌駕していることを示しています。
本論文の目的は、ユーザーの入力に基づいてCADモデルを簡単に生成できる統合型コンピュータ支援設計(CAD)生成システムを設計することです。ユーザーの入力は、テキストの説明、画像、点群、またはそれらの組み合わせの形式で行われます。この目標に向けて、私たちはCAD-MLLMを導入します。これは、マルチモーダル入力に応じてパラメトリックCADモデルを生成できる初のシステムです。具体的には、CAD-MLLMフレームワーク内で、CADモデルのコマンドシーケンスを活用し、多様なマルチモーダリティデータとCADモデルのベクトル化された表現との特徴空間を整列させるために、先進的な大規模言語モデル(LLM)を使用します。モデルのトレーニングを容易にするために、各CADモデルに対応するマルチモーダルデータを備えた包括的なデータ構築および注釈パイプラインを設計します。私たちの結果として得られたOmni-CADというデータセットは、テキストの説明、多視点画像、点、および各CADモデルのコマンドシーケンスを含む初のマルチモーダルCADデータセットです。約45万のインスタンスとそれらのCAD構築シーケンスが含まれています。私たちが生成したCADモデルの品質を徹底的に評価するために、再構築品質に焦点を当てた現行の評価メトリックを超えて、トポロジー品質と表面包含範囲を評価する追加のメトリックを導入します。広範な実験結果は、CAD-MLLMが既存の条件付き生成手法を大幅に凌駕し、ノイズや欠損点に対して高い堅牢性を維持していることを示しています。プロジェクトページやさらなる可視化情報は、以下のリンクからご覧いただけます:https://cad-mllm.github.io/
大規模言語モデル(LLMs)の登場、例えばGitHub Copilotのようなものは、特にコード生成においてプログラマーの生産性を大幅に向上させました。しかしながら、これらのモデルはしばしば、微調整なしでは実世界のタスクに苦戦します。LLMsがより大きく、より高性能になるにつれ、専門タスク向けの微調整はますます高コストとなります。パラメータ効率の微調整(PEFT)手法は、モデルパラメータのサブセットのみを微調整することで、LLMsの調整の計算コストを削減しつつ性能を維持する有望な解決策を提供します。既存の研究では、PEFTとLLMsを様々なコード関連タスクに使用し、PEFT技術の効果はタスクに依存することが分かっています。単体テスト生成におけるPEFT技術の適用は未開拓のままです。最先端技術は、単体テストを生成するためにLLMsを完全微調整することに限定されています。本論文では、完全微調整とLoRA、(IA)^3、prompt tuningを含む様々なPEFT手法を異なるモデルアーキテクチャとサイズで調査します。我々は、確立されたベンチマークデータセットを使用して、単体テスト生成における彼らの効果を評価します。我々の調査結果は、PEFT手法が専門的微調整をよりアクセスしやすく、コスト効果的にすることができ、単体テスト生成において完全微調整と同等の性能を提供できることを示しています。特に、prompt tuningがコストとリソース利用の面で最も効果的であり、LoRAはいくつかのケースで完全微調整の効果に匹敵しています。
現代の言語モデルは、さまざまな言語やモダリティを横断して入力を処理できます。我々は、モデルが異種のデータタイプ(例:異なる言語やモダリティ)にわたる共有表現空間を学習することによって、この能力を獲得すると仮説立てています。この共有表現空間では、意味的に類似した入力が近くに配置され、それらが異なるモダリティ/言語からであっても同様です。我々はこれを「意味的中枢仮説」と呼び、神経科学のハブ・アンド・スポークモデル(Patterson et al., 2007)に従います。このモデルは、人間の脳内の意味知識が、各モダリティに特化した「スポーク」領域からの情報を統合するトランスモーダルな意味「中枢」を介して組織されていると主張しています。まず、異なる言語での意味的に等価な入力に対するモデル表現が中間層で類似しており、この空間はモデルの主要な事前学習言語を通じてロジットレンズを使用して解釈できることを示します。この傾向は、算術式、コード、視覚/音声入力を含む他のデータタイプにも広がります。あるデータタイプで共有表現空間への介入が、他のデータタイプでモデルの出力に予測可能な影響を与えることから、この共有表現空間は単なる広範なデータに対する大規模なトレーニングの副産物ではなく、モデルが入力処理中に積極的に利用するものであると示唆されます。
ファインチューニングされたビジョン言語モデル(VLM)は、しばしば画像特徴とテキスト属性の間に見かけの相関を捉え、テスト時のゼロショット性能が低下する結果となります。見かけの相関に対処する既存のアプローチは、(i)主にグローバルな画像レベルで操作し、ファイングレインな画像特徴に直接介入するのではなく、(ii)主に単一モーダルの設定に設計されています。本研究では、RaVLを提案し、グローバルな画像レベルではなく、ローカルな画像特徴を使用して見かけの相関を発見し軽減することで、VLMの頑健性にファイングレインな視点をもたらします。ファインチューニングされたVLMが与えられると、RaVLは、ゼロショット分類エラーに寄与する正確な画像特徴を特定するために領域レベルのクラスタリングアプローチを活用して見かけの相関を最初に発見します。その後、RaVLは、新しい領域認識損失関数を用いて特定された見かけの相関を軽減し、VLMがファインチューニング中に関連する領域に焦点を当て、見かけの関係を無視するようにします。我々は、さまざまなモデルアーキテクチャ、データドメイン、および学習された見かけの相関を持つ654のVLMにRaVLを評価します。結果は、RaVLが見かけの相関を正確に発見し(最も近いベースラインに比べて191%の改善)、軽減(最悪グループ画像分類精度で8.2%の改善)することを示しています。一般ドメインおよび医療ドメインのVLMにおける定性評価は、我々の結果を裏付けています。
技術的負債(TD)は、開発者が問題に対してより効果的で設計がしっかりしているが時間がかかるアプローチよりも、迅速かつ簡単な解決策を選択した場合に生じる追加の作業とコストを表す用語です。自己認識技術的負債(SATD)は、開発者が意図的に文書化し認識する特定の技術的負債であり、通常はテキストコメントを通じて行われます。これらの自己認識コメントは技術的負債を特定するための有用なツールですが、既存のアプローチのほとんどは、TDのさまざまなカテゴリに関連する重要なトークンを捉えることに焦点を当てており、ソースコード自体に埋め込まれた豊富な情報を無視しています。最近の研究は、ソースコードに埋め込まれたコメントを分析することでSATDを検出することに焦点を当てており、ソースコードに含まれる技術的負債に取り組む研究はほとんど行われていませんでした。このようなギャップを埋めるために、本研究では、Stackコーパスにホストされている974のJavaプロジェクトからコメントとそれに関連するソースコードを分析することで、コードコメントによって特定された初のTDデータセットを編纂しました。実証評価により、得られたデータセットのコメントが最先端のSATD検出モデルの予測性能を向上させるのに役立つことがわかりました。さらに、分類されたソースコードを含めることで、さまざまなタイプの技術的負債を予測する精度が著しく向上します。この点において、当研究は二つの側面を持っています:(i)当データセットが将来の研究に触発し、技術的負債の認識に関連する様々な研究課題にインスピレーションを与えると信じています;(ii)提案された分類器は、編纂されたデータセットを用いたTDの検出に関する他の研究のベースラインとして役立つ可能性があります。