翻訳付きの日次キュレーションされたAI研究論文
最近、より良いコード命令調整データの構築方法について研究することに関心が高まっています。しかし、これらのデータセットでトレーニングされたコードモデルはHumanEvalで高いパフォーマンスを示す一方、LiveCodeBenchなどの他のベンチマークでは性能が低下します。さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に苦しんでいることがわかりました。漏洩データのほとんどをクリーニングした後、一部のよく知られた高品質データセットでも性能が低下します。この発見は新たな課題を明らかにしました:どのデータセットが本当に高品質のコード命令データとして適格かを特定することです。これに対処するために、良いサンプルを選択するための効率的なコードデータの剪定戦略を提案します。当社のアプローチは、命令の複雑さ、応答品質、および命令の多様性の3つの次元に基づいています。選択したデータに基づいて、LLaMA3からファインチューニングされたモデルファミリーであるXCoderを提案します。当社の実験では、XCoderがより少ないトレーニングデータを使用して新しい最先端のパフォーマンスを達成することを示し、当社のデータ戦略の効果を検証します。さらに、データ構成について包括的な分析を行い、既存のコードデータセットが構築方法に応じて異なる特性を持つことを発見し、将来のコードLLMに新たな示唆を提供します。当社のモデルとデータセットはhttps://github.com/banksy23/XCoder で公開されています。
LLMの進歩により、巨大なパラメータが必要とされるため、計算効率と持続的なスケーラビリティに関連する課題が明らかになりました。これにより、計算リソースが限られているデバイスやさまざまな能力が必要なシナリオにおけるこれらモデルの適用と進化がますます煩雑になりました。人間の脳内のモジュラリティからインスピレーションを受け、LLMを多数の機能モジュールに分解する傾向が高まっており、部分モジュールでの推論やモジュールの動的組み立てによって複雑なタスク(例:専門家の混合)に対処しています。モジュラー手法の固有の効率性と組み合わせ可能性を強調するために、私たちは各機能モジュールを表す用語として「brick(ブリック)」という用語を造語し、モジュール化された構造を「configurable foundation models(設定可能な基盤モデル)」と指定しています。本論文では、設定可能な基盤モデルの構築、利用、および制限について包括的な概要と調査を提供します。まず、モジュールを新興ブリック(事前トレーニングフェーズ中に現れる機能ニューロンのパーティション)とカスタマイズされたブリック(LLMの能力と知識を向上させるために追加のポストトレーニングで構築されるブリック)に形式化します。さまざまな機能ブリックに基づいて、4つのブリック指向操作をさらに提示します:検索とルーティング、マージ、更新、成長。これらの操作により、複雑なタスクを処理するための指示に基づいてLLMを動的に構成することが可能となります。私たちの視点を検証するために、広く使用されているLLMについて実証分析を行います。FFN層は、ニューロンの機能の専門化と機能ニューロンのパーティションを持つモジュラーパターンに従っていることがわかります。最後に、将来の研究のためのいくつかの未解決の問題や方向性に焦点を当てます。全体として、本論文は既存のLLM研究に新しいモジュラーな視点を提供し、より効率的でスケーラブルな基盤モデルの創造をインスピレーションとすることを目的としています。
Open-MAGVIT2は、300Mから1.5Bに及ぶオートレグレッシブ画像生成モデルファミリーを提供します。Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークナイザーのオープンソースレプリケーションを生成し、超大規模なコードブック(すなわち、2^{18}コード)を持つトークナイザーを実現し、ImageNet 256 times 256において最先端の再構築パフォーマンス(1.17 rFID)を達成します。さらに、その適用を通じて通常のオートレグレッシブモデルのスケーラビリティ特性を検証します。超大規模な語彙を持つオートレグレッシブモデルの予測を支援するために、非対称トークン因数分解によって異なるサイズの2つのサブ語彙に分解し、さらに「次のサブトークン予測」を導入して、サブトークンの相互作用を強化し、より良い生成品質を実現します。私たちは、オートレグレッシブビジュアル生成の分野における革新と創造性を促進するために、すべてのモデルとコードを公開しています。
拡散トランスフォーマーにおけるグローバルセルフアテンションメカニズムは、視覚情報の疎で冗長な性質による冗長な計算を含んでおり、空間ウィンドウ内のトークンのアテンションマップは顕著な類似性を示します。この冗長性に対処するために、私たちはプロキシトークン拡散トランスフォーマー(PT-DiT)を提案しています。PT-DiTは、グローバルな視覚情報を効率的にモデル化するために、疎な代表トークンアテンション(代表トークンの数がトークンの総数よりもはるかに少ない)を採用しています。具体的には、各トランスフォーマーブロックでは、各空間・時間ウィンドウからランダムに1つのトークンをサンプリングしてその領域のプロキシトークンとして使用します。これらのプロキシトークンのセルフアテンションによってグローバルな意味が捉えられ、その後、クロスアテンションを介してすべての潜在トークンに注入されます。同時に、疎なアテンションメカニズムによる詳細モデリングの制限に対処するために、ウィンドウアテンションとシフトウィンドウアテンションを導入しています。設計が行き届いたPT-DiTを基盤として、T2I、T2V、T2MVタスク向けの様々なモデルを含むQihoo-T2Xファミリーをさらに開発しています。実験結果は、PT-DiTが画像およびビデオ生成タスクにおいて計算複雑性を削減しつつ競争力のあるパフォーマンスを達成していることを示しています(例:DiTと比較して48%、Pixart-alphaと比較して35%の削減)。ソースコードはhttps://github.com/360CVGroup/Qihoo-T2X で入手可能です。
単眼画像からリアルな3D人物モデルを再構築することは、クリエイティブ産業、人間とコンピュータのインタフェース、医療などに重要な応用があります。当研究では、ガウス混合から成るシーン表現である3Dガウススプラッティング(3DGS)に基づいています。単一の入力画像からこのような混合を人物に予測することは困難であり、入力ピクセルと多対1の関係を持つ非一様な密度であり、厳密な物理的制約があります。同時に、様々な服装やポーズに対応するために柔軟である必要があります。私たちの主要な観察結果は、標準化された人間メッシュ(例えばSMPLなど)の頂点が、ガウス分布の適切な密度とおおよその初期位置を提供できるということです。その後、トランスフォーマーモデルを訓練して、これらの位置に対する比較的小さな調整と、他のガウス分布の属性、およびSMPLパラメータを共同で予測することができます。我々は実証的に示すことができます。この組み合わせ(マルチビューの監督のみを使用)は、テスト時の最適化、高価な拡散モデル、または3Dポイントの監督なしで、単一の画像からの3D人物モデルの迅速な推論を達成できることを。また、服装やその他の変動を考慮した人物モデルにより、3Dポーズ推定を改善できることも示しています。コードはプロジェクトのウェブサイトhttps://abdullahamdi.com/gst/ で入手できます。
長いコンテキストを持つ言語モデル(LMs)の能力は、しばしば「ハヤスタックの中の針」(NIAH)テストを用いて評価されます。このテストは、大きなテキストシーケンス(「ハヤスタック」)の中から特定の情報(「針」)を特定するモデルの能力を評価するよう設計されたタスクから構成されています。これらのベンチマークは、モデルが長いコンテキストの入力シーケンスをどれだけ理解しているかを測定しますが、長い形式のテキスト生成の品質を効果的に評価することはできません。これは、デザイン提案や創造的な執筆などのアプリケーションにとって重要な側面です。このギャップを埋めるために、私たちは新しい長い形式のテキスト評価ベンチマーク、Spinning the Golden Thread(SGT)を導入しました。このベンチマークは、モデルが生成された長いテキストシーケンス内で特定のイベントを特定する能力をテストします。このベンチマークでは、長いコンテキストLMsに対して、特定のイベントや制約を含む長い形式のテキストを作成するよう促し、これらの要素をどれだけ取り入れることができるかを評価します。私たちは、10の長いコンテキストLMsを4つの異なるシナリオ、3種類のプロンプト指示、および2つの異なる生成長設定(16Kおよび32K)で評価しました。これらのモデルはNIAHベンチマークで良い成績を収めていますが、どのモデルもSpinning the Golden Threadで満足できるパフォーマンスを示さず、指示に従う連続した長い形式のテキストを生成する能力について懸念が高まっています。さらに、生成されたテキストの長さが増すにつれて、すべてのモデルが著しいパフォーマンスの低下を示しています。