翻訳付きの日次キュレーションされたAI研究論文
本研究では、シーケンス間変換タスクにおける最先端アーキテクチャであるTransformerモデルのアテンションメカニズムの挙動を模倣するために、標準的な浅層フィードフォワードネットワークを使用する効果を分析します。Transformerのアテンションメカニズムの主要な要素を、知識蒸留を用いて元のコンポーネントから学習した単純なフィードフォワードネットワークに置き換えます。IWSLT2017データセットで実施した実験により、これらの「アテンションレスTransformer」が元のアーキテクチャと同等の性能を発揮できることが明らかになりました。厳密なアブレーション研究と、さまざまな置換ネットワークの種類やサイズを実験することで、本アプローチの実現可能性を裏付ける知見を提供します。これにより、浅層フィードフォワードネットワークがアテンションメカニズムを模倣する適応性が明らかになるだけでなく、シーケンス間変換タスクにおける複雑なアーキテクチャを効率化する可能性も示唆されます。
3Dオブジェクト合成のための生成モデルは、2D拡散モデルから抽出された事前知識の組み込みにより、大きな進展を遂げてきました。しかしながら、既存の3D合成フレームワークにおいて、マルチビューの幾何学的不整合や生成速度の遅さといった課題が依然として存在します。これは主に2つの要因に起因しています。第一に、最適化における豊富な幾何学的な事前知識の欠如、第二に、従来の3D生成手法における形状とテクスチャの絡み合い問題です。これに対応するため、我々は2段階の最適化アプローチであるMetaDreammerを提案します。この手法は、豊富な2Dおよび3Dの事前知識を活用します。第1段階では、3Dオブジェクトのマルチビュー一貫性と精度を確保するために、幾何学的表現の最適化に重点を置きます。第2段階では、形状の微調整とテクスチャの最適化に集中し、より洗練された3Dオブジェクトを実現します。2段階でそれぞれ2Dと3Dの事前知識を活用することで、形状とテクスチャの相互依存関係を効果的に緩和します。MetaDreammerは各段階で明確な最適化目標を設定し、3D生成プロセスにおける大幅な時間節約を実現します。結果として、MetaDreammerはテキストプロンプトに基づいて20分以内に高品質な3Dオブジェクトを生成可能であり、我々の知る限り最も効率的なテキストから3Dへの生成手法です。さらに、プロセスに画像制御を導入することで、3D生成の制御性を向上させています。広範な実験結果により、本手法が非常に効率的であるだけでなく、現在の最先端の3D生成技術と同等の品質レベルを達成していることが確認されています。
本研究では、テキストから画像を生成するモデルが「逆転」されることで、そのテキストと画像の理解能力を完全に自動化された方法で評価できることを示します。 私たちの手法「SelfEval」は、生成モデルを使用してテキストプロンプトが与えられた際の実画像の尤度を計算し、生成モデルを識別タスクに直接適用可能にします。 SelfEvalを用いることで、マルチモーダルなテキストと画像の識別モデルを評価するために作成された標準データセットを再利用し、生成モデルを詳細に評価します。具体的には、属性の結合、色の認識、数の認識、形状の認識、空間的理解といった側面での性能を評価します。 私たちの知る限り、SelfEvalは、複数のモデルとベンチマークにおいて、テキストの忠実度を測定する際に、ゴールドスタンダードである人間の評価と高い一致を示す初めての自動化された指標です。 さらに、SelfEvalは、Winoground画像スコアのような挑戦的なタスクにおいて生成モデルを評価することを可能にし、識別モデルと競合する性能を示します。 また、DrawBenchのようなベンチマークにおいて、CLIPスコアのような標準的な自動化された指標がテキストの忠実度を測定する際に抱える重大な欠点と、SelfEvalがこれらの問題を回避する方法を示します。 私たちは、SelfEvalが拡散モデルのための簡単で信頼性の高い自動評価を可能にすることを期待しています。
ビジョントランスフォーマー(ViT)のスケーラブルな性能にもかかわらず、その高密度な計算コスト(学習と推論)が産業応用における地位を損なっています。ポストトレーニング量子化(PTQ)は、小さなデータセットでViTを調整し、低ビット形式で実行することでコスト問題をうまく解決しますが、残念ながら低ビットの場合にはより大きな性能低下を招きます。本論文では、ViTのPTQを包括的かつ安定的に制御する新しい手法であるI&S-ViTを紹介します。I&S-ViTはまず、ViTのPTQにおける2つの問題を特定します:(1)ポストSoftmax活性化における一般的なlog2量子化器の量子化非効率性;(2)ポストLayerNorm活性化における粗粒度量子化粒度での起伏が大きく増幅された損失ランドスケープ。次に、I&S-ViTはこれらの問題を以下の方法で解決します:(1)シフト機構と均一量子化を組み合わせた新しいshift-uniform-log2量子化器(SULQ)を導入し、包括的なドメイン表現と正確な分布近似を実現する;(2)チャネル単位とレイヤー単位の量子化の長所を融合した3段階のスムーズ最適化戦略(SOS)を採用し、安定した学習を可能にする。多様な視覚タスクにわたる包括的な評価により、I&S-ViTが既存のViTのPTQ手法を凌駕する優位性が確認されました。特に低ビットシナリオでは、I&S-ViTは3ビットViT-Bの性能を印象的な50.68%向上させました。
大規模言語モデル(LLM)は、推論と意思決定のスキルにおいて大幅な改善を示し、ユーザーと自然な会話をすることができます。最近の多くの研究では、LLMベースのアシスタントを外部ツールで拡張し、プライベートな情報や最新の情報にアクセスし、ユーザーの代わりにアクションを実行できるようにすることを目指しています。これらのアシスタントのパフォーマンスをより適切に測定するために、本論文ではToolTalkを紹介します。これは、対話を通じて指定された多段階のツール使用を必要とする複雑なユーザー意図からなるベンチマークです。ToolTalkは7つのプラグインにグループ化された28のツールを含み、各ツールの完全なシミュレーション実装を備えており、実行フィードバックに依存するアシスタントの完全自動評価を可能にします。ToolTalkはまた、情報を参照または検索するためのツールだけでなく、外部で世界に影響を与えるツールを重視しています。ToolTalkでGPT-3.5とGPT-4を評価した結果、それぞれ26%と50%の成功率が得られました。エラーの分析からは、3つの主要なカテゴリが明らかになり、今後の改善の方向性が示唆されています。ToolTalkはhttps://github.com/microsoft/ToolTalkで公開されています。
今日のロボットポリシーは、新しい環境への汎化という課題に直面した際に、十分な性能を発揮できていない。人間による修正フィードバックは、そのような汎化を可能にするための重要なガイダンスである。しかし、オンラインでの人間の修正に適応し、そこから学習することは容易なことではない。ロボットは、新しい設定で適切な情報を検索し、介入率を低減するために、時間をかけて人間のフィードバックを記憶する必要があるだけでなく、高レベルの人間の選好に関する任意の修正から低レベルのスキルパラメータの調整に至るまで、フィードバックに対応できる必要がある。本研究では、任意の形式の言語フィードバックに対応し、修正から汎化可能な知識を蒸留し、テキストおよび視覚的な類似性に基づいて過去の経験を検索することで、新しい設定でのパフォーマンスを向上させる大規模言語モデル(LLM)ベースのシステム「Distillation and Retrieval of Online Corrections(DROC)」を提案する。DROCは、高レベルのタスクプランと低レベルのスキルプリミティブの両方における失敗に対処する一連のオンライン言語修正に対応できる。DROCは、オンライン修正のシーケンスから関連情報を知識ベースに効果的に蒸留し、新しいタスクやオブジェクトインスタンスを含む設定でその知識を検索することを実証する。DROCは、LLMを介して直接ロボットコードを生成する他の手法を上回り、最初のラウンドで必要な修正の総数の半分しか使用せず、2回の反復後にはほとんど修正を必要としない。さらなる結果、ビデオ、プロンプト、コードはhttps://sites.google.com/stanford.edu/drocで公開されている。