日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

言語モデルのオンポリシー蒸留：自己生成された誤りからの学習
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Jun 23, 2023

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem

226

知識蒸留（KD）は、教師モデルを圧縮し、推論コストとメモリ使用量を削減するために、より小さな学生モデルを訓練する手法として広く用いられています。しかし、現在の自己回帰型シーケンスモデルに対するKD手法は、訓練中に見られる出力シーケンスと、推論時に学生モデルが生成するシーケンスとの間に分布の不一致が生じるという問題を抱えています。この問題を解決するため、我々は一般化知識蒸留（GKD）を提案します。GKDは、固定された出力シーケンスに依存するのではなく、学生モデルが自己生成した出力シーケンスに対して教師モデルからのフィードバックを活用して訓練を行います。教師ありKDアプローチとは異なり、GKDは学生モデルが教師モデルの分布を模倣する表現力を持たない場合に有用な、学生と教師の間の代替損失関数を柔軟に採用することができます。さらに、GKDは蒸留と強化学習による微調整（RLHF）をシームレスに統合することを可能にします。我々は、要約、翻訳、算術推論タスクにおける自己回帰型言語モデルの蒸留、および指示チューニングのためのタスク非依存の蒸留において、GKDの有効性を実証します。

自己検索を活用した長距離言語モデリング
Long-range Language Modeling with Self-retrieval

Jun 23, 2023

Ohad Rubin, Jonathan Berant

160

検索拡張型言語モデル（LM）は近年注目を集めている。しかし、通常、検索器はLMのネイティブな構成要素として共同で訓練されるのではなく、事前に訓練されたLMに追加されるため、LMと検索器が互いに適応する能力が制限される。本研究では、長文のモデリングタスクに向けて、検索拡張型LMをゼロから共同で訓練するためのアーキテクチャと訓練手順であるRetrieval-Pretrained Transformer（RPT）を提案する。長文書内で最近生成されたテキストチャンクが与えられると、LMはクエリ表現を計算し、それを用いて文書内の以前のチャンク（数万トークン前のものも含む）を検索する。検索されたチャンクからの情報はLM表現に融合され、次のターゲットチャンクを予測するために使用される。検索器コンポーネントは、参照LMに従って次のチャンクの確率を高めるチャンクを検索することを目的とした意味的目標で訓練される。RPTを、書籍、コード、数学的文章にわたる4つの長距離言語モデリングタスクで評価し、強力なベースラインと比較してRPTが検索品質とその後のパープレキシティを全体的に改善することを示す。

独自のデータを持ち込め！大規模言語モデルのための自己教師あり評価
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

Jun 23, 2023

Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein

150

大規模言語モデル（LLMs）の台頭とその多様な領域での普及に伴い、現実的なデータに対する言語モデルの挙動を測定することが不可欠となっています。例えば、顧客向けチャットボットを展開する企業は、モデルが顧客のリクエストに対して不適切な言葉で応答しないことを保証しなければなりません。現在の評価手法では、人間が手作業でラベル付けした小さなドメイン固有のデータセットを使用してこの問題にアプローチしています。これらの評価セットは、しばしば狭く単純化された分布からサンプリングされており、データソースがトレーニングセットに知らず知らずのうちに漏れ込むことがあり、誤解を招く評価につながる可能性があります。これらの欠点を回避するために、入力テキストに対する変換に対する感度または不変性を分析することで、LLMsの自己教師あり評価のフレームワークを提案します。自己教師あり評価は、現場で収集されたデータセットやライブモデル展開中にストリーミングされたデータセットに対するLLMの挙動を直接監視することができます。私たちは、閉じた知識、毒性、長距離文脈依存性の測定に加えて、文法構造やトークン化エラーに対する感度を測定するための自己教師あり評価戦略を実証します。類似の人間によるラベル付けされたベンチマークとの比較が可能な場合、自己教師あり評価と人間による教師あり評価の間に強い相関関係が見られます。自己教師ありパラダイムは、ラベル付きデータに依存する現在の評価戦略を補完するものです。

MLPのスケーリング：帰納的バイアスの物語
Scaling MLPs: A Tale of Inductive Bias

Jun 23, 2023

Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann

150

本研究では、深層学習の最も基本的な構成要素である多層パーセプトロン（MLP）を再検討し、視覚タスクにおけるその性能の限界を探る。MLPに関する実証的知見は、複数の理由から重要である。(1) 最近の「帰納的バイアスが少ないほど良い」という議論は、トランスフォーマーが畳み込みモデルを凌駕したことで広まったが、この仮説の限界を探ることは自然な流れである。その点で、MLPは帰納的バイアスを完全に排除した理想的なテストベッドを提供する。(2) MLPは数学的に単純であるため、深層学習の理論研究においてほぼ独占的に主役を務めており、より複雑なアーキテクチャで観察される実証的現象を説明するための代理として機能してきた。驚くべきことに、特に大規模な事前学習プロトコルと組み合わせた場合のMLPの実験データは、文献上非常に見つけにくい。この実践と理論の乖離は懸念すべきものである：MLPは実用的なモデルが示す実証的進歩を反映しているのか？それとも理論家はMLPの代理としての役割を再考する必要があるのか？我々はこれらの両面について洞察を提供する。MLPの性能はスケールに応じて劇的に向上することを示し（CIFAR10で93%、CIFAR100で79%、TinyImageNetで69%）、帰納的バイアスの欠如が確かに補償可能であることを強調する。MLPは現代の対応モデルの挙動を忠実に模倣するが、学習設定の一部の要素は驚くほど強力または予期せぬ挙動を示すことが観察された。その本質的な計算効率の高さにより、大規模な事前学習実験が学術研究者にとってよりアクセスしやすくなる。我々の全ての実験は単一のGPUで実行された。

OpenMask3D: オープン語彙3Dインスタンスセグメンテーション
OpenMask3D: Open-Vocabulary 3D Instance Segmentation

Jun 23, 2023

Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann

100

オープンボキャブラリ3Dインスタンスセグメンテーションのタスクを導入する。従来の3Dインスタンスセグメンテーション手法は、既存の3Dアノテーションデータセットに大きく依存しており、これらは閉じたオブジェクトカテゴリに限定されている。これは、多様なオブジェクトに関連する新しいオープンボキャブラリクエリに基づいてタスクを実行する必要がある実世界のアプリケーションにおいて重要な制約である。最近、この問題に対処するために、シーンの各ポイントに対してクエリ可能な特徴を学習するオープンボキャブラリ3Dシーン理解手法が登場している。このような表現はセマンティックセグメンテーションを直接実行するために使用できるが、既存の手法にはオブジェクトインスタンスを識別する能力に限界がある。本研究では、この制限に対処し、オープンボキャブラリ3DインスタンスセグメンテーションのためのゼロショットアプローチであるOpenMask3Dを提案する。予測されたクラス非依存の3Dインスタンスマスクに基づいて、我々のモデルはCLIPベースの画像埋め込みのマルチビューフュージョンを通じてマスクごとの特徴を集約する。ScanNet200データセットで実験とアブレーションスタディを行い、OpenMask3Dの性能を評価し、オープンボキャブラリ3Dインスタンスセグメンテーションタスクに関する洞察を提供する。我々のアプローチは、特にロングテール分布において、他のオープンボキャブラリ手法を上回ることを示す。さらに、OpenMask3Dは閉じたボキャブラリ手法の制限を超え、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトプロパティを記述する自由形式のクエリに基づいてオブジェクトインスタンスをセグメンテーションすることを可能にする。

システムレベル自然言語フィードバック
System-Level Natural Language Feedback

Jun 23, 2023

Weizhe Yuan, Kyunghyun Cho, Jason Weston

100

自然言語（NL）フィードバックは、ユーザー体験に関する豊富な情報を含んでいます。既存の研究は、フィードバックを特定の事例の改善に利用するインスタンスレベルアプローチに焦点を当てており、システム全体への適用を軽視しています。本論文では、NLフィードバックをシステムレベルで活用するための一般的なフレームワークを提案します。我々は、フィードバックを用いてシステムレベルの設計判断を人間をループに組み込んだプロセスで形式化し、より優れたモデルを生成する方法を示します。特に、これは以下の2つの方法を通じて行われます：（i）タスクのためのメトリック設計、（ii）モデル応答を改善するための言語モデルのプロンプト設計。本アプローチの有効性を実証するため、検索クエリ生成と対話応答生成の2つのケーススタディを実施しました。システムレベルフィードバックとインスタンスレベルフィードバックを組み合わせることでさらなる改善が得られること、また、GPT-3.5が生成したフィードバックよりも人間が書いたインスタンスレベルフィードバックの方がより根拠のある改善をもたらすことを示し、システム構築における人間のフィードバックの重要性を強調します。

DreamEditor: ニューラルフィールドを用いたテキスト駆動型3Dシーン編集
DreamEditor: Text-Driven 3D Scene Editing with Neural Fields

Jun 23, 2023

Jingyu Zhuang, Chen Wang, Lingjie Liu, Liang Lin, Guanbin Li

ニューラルフィールドは、ビュー合成やシーン再構成において目覚ましい進展を遂げてきました。しかし、幾何学やテクスチャ情報が暗黙的にエンコードされているため、これらのニューラルフィールドを編集することは依然として困難です。本論文では、テキストプロンプトを用いてニューラルフィールドを制御的に編集可能にする新しいフレームワーク、DreamEditorを提案します。シーンをメッシュベースのニューラルフィールドとして表現することで、DreamEditorは特定の領域内での局所的な編集を可能にします。DreamEditorは、事前学習済みのテキストから画像への拡散モデルのテキストエンコーダを利用し、テキストプロンプトの意味に基づいて編集すべき領域を自動的に特定します。その後、DreamEditorは編集領域を最適化し、その幾何学とテクスチャをスコア蒸留サンプリング[29]を通じてテキストプロンプトと整合させます。大規模な実験により、DreamEditorが与えられたテキストプロンプトに従って実世界のシーンのニューラルフィールドを正確に編集しつつ、無関係な領域の一貫性を保証できることが実証されました。DreamEditorは非常にリアルなテクスチャと幾何学を生成し、定量的および定性的な評価の両面で従来の研究を大きく上回る結果を示しました。

OpenMask3D: オープン語彙3Dインスタンスセグメンテーション
OpenMask3D: Open-Vocabulary 3D Instance Segmentation

Jun 23, 2023

Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann

100

日刊論文

言語モデルのオンポリシー蒸留：自己生成された誤りからの学習
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

自己検索を活用した長距離言語モデリング
Long-range Language Modeling with Self-retrieval

独自のデータを持ち込め！大規模言語モデルのための自己教師あり評価
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

MLPのスケーリング：帰納的バイアスの物語
Scaling MLPs: A Tale of Inductive Bias

OpenMask3D: オープン語彙3Dインスタンスセグメンテーション
OpenMask3D: Open-Vocabulary 3D Instance Segmentation

システムレベル自然言語フィードバック
System-Level Natural Language Feedback

DreamEditor: ニューラルフィールドを用いたテキスト駆動型3Dシーン編集
DreamEditor: Text-Driven 3D Scene Editing with Neural Fields

Support

Support

日刊論文

言語モデルのオンポリシー蒸留：自己生成された誤りからの学習
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

自己検索を活用した長距離言語モデリング
Long-range Language Modeling with Self-retrieval

独自のデータを持ち込め！大規模言語モデルのための自己教師あり評価
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

MLPのスケーリング：帰納的バイアスの物語
Scaling MLPs: A Tale of Inductive Bias

OpenMask3D: オープン語彙3Dインスタンスセグメンテーション
OpenMask3D: Open-Vocabulary 3D Instance Segmentation

システムレベル自然言語フィードバック
System-Level Natural Language Feedback

DreamEditor: ニューラルフィールドを用いたテキスト駆動型3Dシーン編集
DreamEditor: Text-Driven 3D Scene Editing with Neural Fields