翻訳付きの日次キュレーションされたAI研究論文
テキストから3D生成を行う技術は、テキストプロンプトから鮮やかな3Dオブジェクトを合成することを目的として、コンピュータビジョンコミュニティから大きな注目を集めています。これまでにいくつかの既存研究がこのタスクで印象的な成果を上げてきましたが、それらは主に時間のかかる最適化パラダイムに依存しています。具体的には、これらの手法は各テキストプロンプトに対してニューラルフィールドをゼロから最適化し、1つのオブジェクトを生成するのに約1時間以上を要します。この重く繰り返しの多いトレーニングコストが、実用化の障壁となっています。本論文では、高速なテキストから3D生成のための新しいフレームワーク「Instant3D」を提案します。一度トレーニングされると、Instant3Dは未見のテキストプロンプトに対して、フィードフォワードネットワークの単一実行で1秒未満で3Dオブジェクトを生成することができます。この驚異的な速度を実現するために、テキストプロンプトから直接3Dトライプレーンを構築する新しいネットワークを考案しました。Instant3Dの中核的な革新は、テキスト条件をネットワークに効果的に注入するための戦略の探求にあります。さらに、トレーニングの収束を10倍以上高速化するために、元のシグモイド関数を置き換えるシンプルでありながら効果的な活性化関数「スケーリングドシグモイド」を提案します。最後に、3D生成におけるヤヌス(多頭)問題に対処するために、トレーニング中のヤヌス問題の深刻度に応じて概念否定スケールを動的に調整できる適応型Perp-Negアルゴリズムを提案し、多頭効果を効果的に低減します。多様なベンチマークデータセットでの広範な実験により、提案アルゴリズムが質的・量的に最先端の手法に対して優れた性能を示し、さらに大幅に優れた効率を達成することが実証されました。プロジェクトページはhttps://ming1993li.github.io/Instant3DProjにあります。
近年のオープンワールド3Dオブジェクト生成の進展は目覚ましく、画像から3Dへの変換手法はテキストから3Dへの手法に比べて優れた細粒度の制御を提供しています。しかし、既存のモデルの多くは、実用的なアプリケーションに不可欠な2つの特徴、すなわち迅速な生成速度と入力画像への高い忠実度を同時に提供することに課題を抱えています。本論文では、単一の画像を約1分で詳細な3Dテクスチャメッシュに変換する革新的な手法、One-2-3-45++を提案します。我々のアプローチは、2D拡散モデルに埋め込まれた広範な知識と、貴重ながらも限られた3Dデータからの事前情報を最大限に活用することを目指しています。これは、まず一貫性のあるマルチビュー画像生成のために2D拡散モデルを微調整し、その後、マルチビュー条件付きの3Dネイティブ拡散モデルの助けを借りてこれらの画像を3Dに昇格させることで実現されます。広範な実験的評価により、我々の手法が元の入力画像に極めて近い高品質で多様な3Dアセットを生成できることが実証されています。プロジェクトのウェブページはこちらです: https://sudo-ai-3d.github.io/One2345plus_page.
大規模事前学習言語モデル(LLM)の流暢さと創造性により、その利用が広がり、従来の検索エンジンの代替として使用されることもある。しかし、言語モデルは説得力があるが事実に基づかない主張、いわゆる「幻覚」を生み出しやすい。これらの誤りは、誤った情報を広めたり、有害な誤解を永続させたりする可能性がある。さらに、モデルの応答を手動で事実確認するのは時間がかかるプロセスであり、人間による事実性ラベルの取得はコストが高い。本研究では、人間のラベル付けなしに、過去の研究よりもオープンエンドな生成設定を対象として、言語モデルをより事実に基づくようにファインチューニングする。これを行うために、NLPにおける2つの重要な最近のイノベーションを活用する。第一に、外部の知識ベースとの一貫性を測定するか、単に大規模モデルの信頼度スコアを測定することで、オープンエンドなテキストの事実性を判断する方法がいくつかの最近の研究で提案されている。第二に、直接選好最適化アルゴリズムにより、教師あり模倣以外の目的で、可能なモデル応答に対する選好ランキングを使用して、言語モデルのファインチューニングが容易になる。既存の検索システムまたは我々の新しい検索不要のアプローチを通じて自動生成された事実性選好ランキングから学習することで、RLHFや事実性を目的としたデコード戦略と比較して、Llama-2の事実性(生成された主張の正しい割合)が保持されたトピックにおいて大幅に向上することを示す。7Bスケールでは、Llama-2-chatと比較して、伝記の生成と医療質問への回答において、それぞれ58%と40%の事実誤り率の減少を観察した。
本研究では、コード処理における言語モデルの最近の進展を体系的にレビューし、50以上のモデル、30以上の評価タスク、および500以上の関連研究を網羅しています。コード処理モデルを、GPTファミリーに代表される汎用言語モデルと、コードに特化して事前学習された専門モデル(多くの場合、特定の目的に合わせて設計されたもの)に分類しました。これらのモデル間の関係と相違点について議論し、コードモデリングが統計モデルやRNNから事前学習済みTransformerやLLMへと移行した歴史的変遷を強調しました。これはNLPが辿った道程とまさに同じです。また、AST(抽象構文木)、CFG(制御フローグラフ)、ユニットテストといったコード固有の特徴と、それらがコード言語モデルの学習にどのように応用されているかについても議論し、この分野における主要な課題と将来の可能性のある方向性を明らかにしました。本調査はGitHubリポジトリ(https://github.com/codefuse-ai/Awesome-Code-LLM)で公開・更新を継続しています。
大規模言語モデル(LLM)の中核的な能力の一つは、自然言語の指示に従うことです。しかし、このような能力の評価は標準化されていません。人間による評価は高コストで時間がかかり、客観的に再現可能ではありません。一方、LLMベースの自動評価は、評価用LLMの能力に制約されるか、バイアスがかかる可能性があります。これらの課題を克服するため、我々は大規模言語モデル向けの指示追従評価(Instruction-Following Eval, IFEval)を導入します。IFEvalは、シンプルで再現が容易な評価ベンチマークです。これは「400語以上で書く」や「キーワードAIを少なくとも3回言及する」といった「検証可能な指示」のセットに焦点を当てています。我々は25種類の検証可能な指示を特定し、約500のプロンプトを構築しました。各プロンプトには1つ以上の検証可能な指示が含まれています。市場で広く利用可能な2つのLLMの評価結果を示します。コードとデータはhttps://github.com/google-research/google-research/tree/master/instruction_following_evalで公開されています。
有用で無害かつ誠実であるように訓練された大規模言語モデルが、指示を受けずに、意図的にユーザーを欺くような不適切な行動を示す状況を実証します。具体的には、GPT-4を現実的なシミュレーション環境内で自律的な株式取引エージェントとして展開します。この環境内で、モデルはインサイダー情報に基づいた有利な株式取引の機会を得て、会社の管理層がインサイダー取引を認めていないことを知りつつも、それに基づいて行動します。そして、管理者に報告する際、モデルは一貫して取引決定の真の理由を隠蔽します。この行動が、推論用のメモ帳へのアクセスを削除する、システム指示を変更して不適切な行動を防ごうとする、モデルにかかるプレッシャーの量を変える、発覚するリスクの認識を変える、環境に他の簡単な変更を加えるといった設定の変化によってどのように変わるかを簡単に調査します。私たちの知る限り、これは、有用で無害かつ誠実であるように訓練された大規模言語モデルが、現実的な状況で、直接的な指示や欺瞞のための訓練なしに、戦略的にユーザーを欺くことを初めて実証したものです。
本研究では、補助モデルの追加学習やLLM自体の変更を必要とせず、並列デコードに基づくモデル非依存のフレームワークであるFastCoTを提案します。FastCoTは、位置に応じてサイズが変化する可変長コンテキストウィンドウを使用して、並列デコードと自己回帰デコードを同時に実行し、GPUの計算リソースを最大限に活用します。FastCoTでは、並列デコード部分がLLMに近似トークンで構成された未来の概要を迅速に提供し、因果的トランスフォーマーが使用する通常の自己回帰デコードと比較して、より高速な回答を可能にします。また、LLM内での並列デコードの実装も提供し、KVキャッシュ生成とバッチ処理をサポートします。大規模な実験を通じて、FastCoTが推論時間を約20%短縮し、通常のアプローチと比較して性能の低下がほとんどないことを実証します。さらに、コンテキストウィンドウのサイズが異なるタスクに対してかなりの堅牢性を示すことも明らかにしました。
大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要な要素となっています。しかし、LLMを訓練するための標準的なアプローチでは、多数の密接に接続されたアクセラレータが必要であり、各最適化ステップでデバイスが勾配やその他の中間状態を交換します。多くのアクセラレータをホストする単一のコンピューティングクラスターを構築・維持することは困難ですが、より少ない数のデバイスをホストする複数のコンピューティングクラスターを見つけることは比較的容易かもしれません。本研究では、接続が不十分なデバイスの島々で言語モデルを訓練することを可能にする分散最適化アルゴリズム、Distributed Low-Communication(DiLoCo)を提案します。このアプローチは、内部ステップ数が多く、内部最適化器がAdamW、外部最適化器がNesterovモーメンタムであるフェデレーテッドアベレージングの変種です。広く使用されているC4データセットにおいて、8つのワーカーで動作するDiLoCoは、完全に同期した最適化と同等の性能を示しながら、通信量を500分の1に削減します。DiLoCoは、各ワーカーのデータ分布に対して非常に高いロバスト性を示します。また、時間の経過とともにリソースが利用できなくなることに対してもロバストであり、逆に、訓練中に利用可能になるリソースをシームレスに活用することもできます。
近年、大規模言語モデル(LLM)は驚くべき生成能力を示してきたが、自らの生成物の品質を判断できるだろうか?自己改善(self-refinement)と呼ばれる一般的な概念は、LLMが求められれば自らの生成物の誤りを検出し修正できると仮定している。しかし、最近の実証研究はこれとは逆の方向を示しており、推論が関わる場合、LLMは誤りを正確に特定するのに苦労することが多いと示唆している。この問題に対処するため、我々はART(Ask, Refine, and Trust)という推論と改善を組み合わせた目的関数を提案する。ARTは、LLMが出力を改善すべきかどうかを判断するために必要な質問を投げかけ、改善結果と初期予測をランク付けすることで、その改善を承認するか信頼を保留するかを決定する。数学的文章題(GSM8K)と質問応答(StrategyQA)という2つの多段階推論タスクにおいて、ARTは自己改善ベースラインを+5ポイント上回る性能向上を達成し、意思決定者としてはるかに小さいモデルを使用している。また、大規模モデルのファインチューニングに代わるコスト効率の良い選択肢として、小規模モデルを使用して改善決定を行う利点も実証している。
近年、指示に従う音声-言語モデルが人間との音声インタラクションにおいて広く注目を集めています。しかし、多様な音声タイプやタスクを扱える事前学習済み音声モデルの欠如が、この分野の進展を妨げてきました。その結果、既存の研究のほとんどは限られた範囲のインタラクション能力しかサポートできていません。本論文では、Qwen-Audioモデルを開発し、30以上のタスクと人間の音声、自然音、音楽、歌などの様々な音声タイプをカバーする音声-言語事前学習をスケールアップすることで、この制限を克服し、普遍的な音声理解能力を促進します。しかし、すべてのタスクとデータセットを直接共同で学習すると、タスクの焦点、言語、アノテーションの粒度、テキスト構造の違いにより、異なるデータセットに関連付けられたテキストラベルが大きく異なるため、干渉問題が生じる可能性があります。一対多の干渉を克服するために、デコーダに階層的なタグのシーケンスを条件付けすることで、共有タグと指定タグをそれぞれ通じて知識共有を促進し、干渉を回避する多タスク学習フレームワークを慎重に設計しました。注目すべきは、Qwen-Audioがタスク固有の微調整を必要とせずに、多様なベンチマークタスクで印象的な性能を達成し、他のモデルを凌駕している点です。Qwen-Audioの能力を基に、さらにQwen-Audio-Chatを開発し、様々な音声とテキスト入力を可能にし、マルチターン対話を実現し、音声中心の様々なシナリオをサポートします。
レッドチーミングは、大規模言語モデル(LLM)の安全でない行動を緩和するための一般的な手法であり、LLMを徹底的に評価して潜在的な欠陥を特定し、それらに責任を持って正確に対応することを含みます。効果的ではあるものの、手動のレッドチーミングはコストがかかり、既存の自動レッドチーミングは通常、安全リスクを発見するだけでそれに対処しません。本論文では、自動的な敵対的プロンプト生成と安全な応答生成を組み込んだ多段階自動レッドチーミング(MART)手法を提案します。これにより、レッドチーミングのスケーラビリティと対象LLMの安全性が大幅に向上します。具体的には、敵対的LLMと対象LLMが反復的に相互作用し、敵対的LLMは対象LLMから安全でない応答を引き出すための挑戦的なプロンプトを生成することを目指し、対象LLMはこれらの敵対的プロンプトに対して安全性を考慮したデータで微調整されます。各ラウンドで、敵対的LLMは更新された対象LLMに対してより良い攻撃を考案し、対象LLMも安全性の微調整を通じて自身を改善します。敵対的プロンプトベンチマークでは、限定的な安全性調整しか施されていないLLMの違反率が、4ラウンドのMART後に最大84.7%減少し、広範な敵対的プロンプト生成を施したLLMと同等の性能を達成しました。特に、非敵対的プロンプトに対するモデルの有用性は反復を通じて安定しており、対象LLMが指示追従において強力な性能を維持していることが示されています。