翻訳付きの日次キュレーションされたAI研究論文
ラディアンスフィールド手法は近年、複数の写真や動画でキャプチャされたシーンの新視点合成に革命をもたらしました。しかし、高い視覚品質を達成するためには、依然として訓練とレンダリングにコストのかかるニューラルネットワークが必要であり、最近の高速化手法では必然的に速度と品質のトレードオフが生じています。孤立した物体ではなく無境界で完全なシーンにおいて、1080p解像度のレンダリングをリアルタイム表示レートで実現する手法は、現在存在しません。本研究では、最先端の視覚品質を維持しつつ競争力のある訓練時間を実現し、さらに重要な点として1080p解像度での高品質なリアルタイム(>= 30 fps)新視点合成を可能にする3つの重要な要素を導入します。第一に、カメラキャリブレーション中に生成されるスパースな点群を出発点として、シーンを3Dガウシアンで表現します。これにより、シーン最適化のための連続的な体積ラディアンスフィールドの望ましい特性を保持しつつ、空の空間での不要な計算を回避します。第二に、3Dガウシアンの交互最適化/密度制御を行い、特に異方性共分散を最適化することでシーンの正確な表現を実現します。第三に、異方性スプラッティングをサポートし、訓練を加速するとともにリアルタイムレンダリングを可能にする高速な可視性認識レンダリングアルゴリズムを開発します。我々は、いくつかの確立されたデータセットにおいて、最先端の視覚品質とリアルタイムレンダリングを実証します。
シンコファンシー(sycophancy)とは、モデルが客観的に正しくない場合でも、人間のユーザーの見解に合わせて回答を調整する望ましくない振る舞いのことです(例えば、ユーザーがリベラルであると明かすと、リベラルな見解に合わせるなど)。本論文では、言語モデルにおけるシンコファンシーの普及度を調査し、この振る舞いを軽減するためのシンプルな合成データ介入を提案します。 まず、正解のない意見を求める3つのシンコファンシータスク(Perez et al., 2022、例えば政治に関するもの)において、モデルのスケーリングと指示チューニングが、540BパラメータまでのPaLMモデルにおいてシンコファンシーを大幅に増加させることを観察しました。次に、シンコファンシーの評価を、客観的に誤った単純な加算文に拡張し、これらの文が誤りであることを知っているにもかかわらず、ユーザーが同意する場合には言語モデルもそれに同意することを発見しました。 シンコファンシーを軽減するために、公開されているNLPタスクを利用し、モデルがこれらのタスクに対するユーザーの意見に対して頑健であることを促す、シンプルな合成データ介入を提示します。これらのデータを軽微なファインチューニングステップに追加することで、保留されたプロンプトにおけるシンコファンシックな振る舞いを大幅に削減できます。介入用の合成データを生成するコードは、https://github.com/google/sycophancy-intervention で公開されています。
警告:本論文には不適切または不快な内容が含まれている可能性があります。 生成モデルが様々なアプリケーションで一般利用可能になるにつれ、これらのモデルの脆弱性をテストし分析することが優先課題となっています。本稿では、与えられたモデルを評価し、安全でない不適切なコンテンツ生成に対する脆弱性を明らかにする自動レッドチーミングフレームワークを提案します。本フレームワークは、フィードバックループ内でのインコンテキスト学習を活用し、モデルをレッドチーミングして安全でないコンテンツ生成を引き起こします。テキストから画像への変換モデルに対して、効果的で多様な敵対的プロンプトを自動的に学習するための様々なインコンテキスト攻撃戦略を提案します。実験の結果、提案手法はベースラインアプローチと比較して、Stable Diffusion(SD)モデルの脆弱性を明らかにする点で大幅に効果的であり、SDモデルが安全機能を強化されている場合でも同様の結果が得られることが示されました。さらに、提案フレームワークはテキストからテキストへの変換モデルのレッドチーミングにも有効であり、これまで報告された数値と比較して、有毒な応答生成率が大幅に高くなることを実証しました。
大規模な事前学習視覚言語モデルであるCLIPは、ゼロショット分類において優れた性能を示しており、例えばImageNetで例を見ることなく76.3%のトップ1精度を達成し、ラベル付きデータがない多くのタスクに潜在的な利益をもたらす可能性があります。しかし、CLIPを下流のターゲットドメインに適用する際、視覚とテキストのドメインギャップおよびクロスモダリティのミスアライメントがモデルの性能に大きな影響を与えることがあります。これらの課題に対処するため、我々はReCLIPを提案します。ReCLIPは、ソースデータやターゲットのラベル付きデータを必要としない、視覚言語モデルのための最初のソースフリードメイン適応手法です。ReCLIPはまず、ミスアライメントした視覚-テキスト埋め込みを緩和し、擬似ラベルを学習するための射影空間を学習します。その後、擬似ラベルを用いたクロスモダリティ自己学習を展開し、視覚エンコーダとテキストエンコーダを更新し、ラベルを洗練し、ドメインギャップとミスアライメントを反復的に削減します。広範な実験を通じて、ReCLIPが22の画像分類ベンチマークにおいて、CLIPの平均エラーレートを30.17%から25.06%に削減することを実証しました。
著作権で保護されたデータやその他の制限付きデータを用いて言語モデル(LM)をトレーニングすることの合法性は、激しい議論の的となっている。しかし、我々が示すように、低リスクのテキスト(例えば、著作権の切れた書籍や政府文書)のみでトレーニングされた場合、その限られたサイズとドメインカバレッジのため、モデルの性能は大幅に低下する。本論文では、推論中にこのリスクと性能のトレードオフを管理する新しい言語モデルSILOを提案する。SILOは、(1) パブリックドメインおよび許諾ライセンス付きのテキスト228Bトークンからなる新しいコーパスOpen License Corpus(OLC)でパラメトリックLMをトレーニングし、(2) 推論中にのみクエリされる、より一般的で容易に変更可能なノンパラメトリックデータストア(例えば、著作権付きの書籍やニュースを含む)で補強することで構築される。このデータストアにより、高リスクデータをトレーニングせずに使用することが可能となり、文レベルでのデータ帰属をサポートし、データ提供者がコンテンツをストアから削除することでモデルからオプトアウトすることを可能にする。これらの機能は、米国のフェアユース原則や欧州連合のGDPRなどのデータ使用規制への準拠を促進することができる。我々の実験では、パラメトリックLMはOLCでカバーされていないドメインで苦戦するが、データストアへのアクセスによりドメイン外の性能が大幅に向上し、主に高リスクテキストからなるより多様なコーパスであるPileでトレーニングされたLMとの性能差の90%を埋めることが示された。また、どのノンパラメトリックアプローチが最適か、残りのエラーがどこにあるか、データストアのサイズに応じて性能がどのようにスケールするかを分析した。我々の結果は、法的リスクを軽減しながら高品質な言語モデルを構築することが可能であることを示唆している。