翻訳付きの日次キュレーションされたAI研究論文
既存の大規模なベース言語モデル(LM)から出発して、小さなベースLMを開発するためのシンプルなアプローチの有効性を研究します。まず、大規模LMからいくつかのTransformerブロックを継承し、その後、この小さなモデルを大規模モデルの生の事前学習データのごく一部(0.1%)で訓練します。このシンプルなレシピを「Inheritune」と呼び、3Bパラメータの大規模LMの最初の数層を使用して、1Bトークンで1.5Bパラメータの小さなベースLMを構築するために最初に実証します。これを単一のA6000 GPUで半日未満で行います。9つの多様な評価データセットおよびMMLUベンチマークにおいて、結果として得られたモデルは、1B-2Bサイズの公開されているベースモデルと比較して有利であり、そのうちいくつかは50〜1000倍以上のトークンを使用して訓練されています。 Inherituneを、大規模LMとその完全な事前学習データセットを活用して小さなLMを訓練する、やや異なる設定で調査します。ここでは、GPT2-medium(355M)およびGPT-2-large(770M)のいくつかの層を活用して訓練された小さなLMが、OpenWebTextデータセットの9Bトークンで同じ訓練ステップ数でゼロから訓練された場合、それらの大きな対応モデルのval損失に効果的に匹敵することを示します。広範な実験を通じてレシピを分析し、多様な設定での有効性を実証します。私たちのコードはhttps://github.com/sanyalsunny111/LLM-Inherituneで利用可能です。
ここ数十年、視覚認識コミュニティでは、データセットベンチマークの進歩に支えられ、視覚認識分野が著しく進展してきました。特に、確立されたCOCOベンチマークは、現代の検出およびセグメンテーションシステムの発展を推進してきました。しかし、COCOセグメンテーションベンチマークは、過去10年間にわたって比較的緩やかな改善しか見られませんでした。当初は、物体インスタンスに対して粗いポリゴンアノテーションが施されていましたが、その後、スタッフ領域に対して粗いスーパーピクセルアノテーションが徐々に取り入れられ、ヒューリスティックに統合されてパノプティックセグメンテーションアノテーションが生成されました。これらのアノテーションは、異なる評価者グループによって実行されたため、粗いセグメンテーションマスクだけでなく、セグメンテーションタイプ間の不整合も生じました。本研究では、COCOセグメンテーションアノテーションの包括的な再評価を行います。アノテーション品質を向上させ、データセットを拡張して383Kの画像と5.18M以上のパノプティックマスクを包含するCOCONut(COCO Next Universal segmenTation dataset)を紹介します。COCONutは、セマンティック、インスタンス、パノプティックセグメンテーション全体で、慎重に作成された高品質マスクを用いてセグメンテーションアノテーションを調和させ、すべてのセグメンテーションタスクに対する堅牢なベンチマークを確立します。私たちの知る限り、COCONutは、人間の評価者によって検証された初の大規模ユニバーサルセグメンテーションデータセットです。COCONutのリリースが、新しいニューラルネットワークの進歩を評価するコミュニティの能力に大きく貢献することを期待しています。
本論文では、限られた計算予算にスケールダウンした場合のContrastive Language-Image Pre-training(CLIP)の性能を調査する。我々はCLIPをデータ、アーキテクチャ、学習戦略の3つの次元に沿って探求する。データに関しては、高品質な訓練データの重要性を実証し、高品質なデータの小規模データセットが低品質な大規模データセットを上回ることを示す。また、モデルの性能が異なるデータセットサイズでどのように変化するかを検証し、小規模なViTモデルは小規模データセットに適している一方、大規模モデルは固定計算量で大規模データセットでより良い性能を発揮することを示唆する。さらに、CLIPの訓練においてCNNベースのアーキテクチャとViTベースのアーキテクチャを選択する際の指針を提供する。我々は4つのCLIP訓練戦略 - SLIP、FLIP、CLIP、およびCLIP+データ拡張 - を比較し、訓練戦略の選択が利用可能な計算資源に依存することを示す。我々の分析により、CLIP+データ拡張は訓練データの半分のみを使用してCLIPと同等の性能を達成できることが明らかになった。本研究は、CLIPモデルを効果的に訓練および展開し、様々なアプリケーションでの実用的な使用をよりアクセスしやすく、費用対効果の高いものにするための実践的な洞察を提供する。
大規模な事前学習の最近の進展により、強力な能力を持つ視覚基盤モデルが開発されています。最近のモデルは、訓練タスクに対して任意の画像に一般化できるだけでなく、その中間表現は検出やセグメンテーションなどの他の視覚タスクにも有用です。このようなモデルが2D画像内の物体を分類、輪郭抽出、位置特定できることを踏まえ、それらが3D構造も表現しているかどうかを問います。本研究では、視覚基盤モデルの3D認識能力を分析します。3D認識能力とは、表現が(1)シーンの3D構造を符号化し、(2)視点を跨いで表面を一貫して表現することを意味すると仮定します。タスク固有のプローブと凍結された特徴量に対するゼロショット推論手順を用いて一連の実験を行いました。実験結果から、現在のモデルにはいくつかの限界があることが明らかになりました。コードと分析はhttps://github.com/mbanani/probe3dで公開しています。
単眼深度推定の最近の進展は、自然言語を追加的なガイダンスとして組み込むことによってもたらされてきた。印象的な結果を生み出しているものの、特に一般化とロバスト性の観点から、言語事前情報の影響は未解明のままである。本論文では、このギャップを埋めるため、この事前情報の影響を定量化し、さまざまな設定での有効性をベンチマークする方法を提案する。我々は、物体中心の三次元的な空間関係を伝える「低レベル」な文を生成し、それらを追加的な言語事前情報として組み込み、深度推定への下流影響を評価する。我々の重要な発見は、現在の言語ガイド付き深度推定器が、シーンレベルの記述でのみ最適に機能し、低レベルの記述では逆に性能が低下するという点である。追加データを活用しているにもかかわらず、これらの手法は指向的な敵対的攻撃に対してロバストではなく、分布シフトの増加に伴って性能が低下する。最後に、今後の研究の基盤を提供するため、失敗点を特定し、これらの欠点をより深く理解するための洞察を提示する。深度推定に言語を利用する手法が増える中で、我々の知見は、実世界での効果的な展開に慎重な検討を要する機会と落とし穴を浮き彫りにする。
人間の選好に基づくフィードバックからの強化学習(RL)は、生成モデルのファインチューニングにおいて人気のあるパラダイムであり、GPT-4やClaude3 Opusといった印象的なモデルを生み出してきました。このフレームワークは通常、オフラインの選好データセットから報酬モデルを学習し、その後、学習した報酬モデルを最適化するためにオンラインRLを実行するという2つのステップで構成されます。本研究では、リセットのアイデアを活用し、理論的保証を持つ新しいRLHFアルゴリズムを提案します。オフラインの選好データセットが有益な状態(つまり、ラベラーによって選好されたデータ)を提供するという事実に動機づけられ、我々の新しいアルゴリズムであるDataset Reset Policy Optimization(DR-PO)は、既存のオフライン選好データセットをオンラインポリシー訓練プロセスに統合します。具体的には、初期状態分布から常に開始するのではなく、オフラインデータセットの状態に直接ポリシーオプティマイザをリセットします。理論的には、DR-POは、有限のサンプル複雑性を持つ一般的な関数近似の下で、オフラインデータセットによってカバーされる任意のポリシーと少なくとも同等の性能を発揮することを示します。実験では、TL;DR要約タスクとAnthropic Helpful Harmful(HH)データセットの両方において、DR-POによる生成がProximal Policy Optimization(PPO)やDirection Preference Optimization(DPO)よりも優れていることを、GPT4の勝率メトリックの下で実証します。本研究のコードはhttps://github.com/Cornell-RL/drpoで公開されています。
最新の正則化されたNeural Radiance Field(NeRF)アプローチは、ETH3Dなどの多視点ステレオ(MVS)ベンチマークにおいて、不十分なジオメトリと視点外挿を生成する。本論文では、正確なジオメトリと視点合成を提供する3Dモデルを作成し、NeRFと従来のMVS手法の間の大きなジオメトリ性能ギャップを部分的に埋めることを目指す。我々は、単眼の表面法線と相対深度予測を効果的に活用するパッチベースのアプローチを提案する。パッチベースのレイサンプリングは、ランダムにサンプリングされた仮想視点と訓練視点間の正規化相互相関(NCC)および構造的類似性(SSIM)の外観正則化を可能にする。さらに、スパースなStructure-from-Motion(SfM)ポイントに基づく「密度制限」が、新規視点合成メトリクスのわずかな低下と引き換えに、ジオメトリ精度を大幅に向上させることを示す。我々の実験では、ETH3D MVSベンチマークにおける平均F1@2cmにおいて、RegNeRFの4倍、FreeNeRFの8倍の性能を示し、NeRFベースのモデルのジオメトリ精度を向上させるための有望な研究方向性を示唆し、NeRFベースの最適化が従来のMVSを最終的に凌駕する可能性のある将来のアプローチに光を当てる。