翻訳付きの日次キュレーションされたAI研究論文
テキストから画像を生成するモデルの最近の進展により、視覚的な創造性の広大な可能性が開かれました。しかし、これらのモデルは一貫性のあるキャラクターの生成に苦戦しており、これはストーリーの視覚化、ゲーム開発のアセットデザイン、広告など、数多くの実世界のアプリケーションにおいて重要な側面です。現在の手法では、通常、対象キャラクターの複数の既存画像に依存するか、手間のかかる手動プロセスを必要とします。本研究では、テキストプロンプトのみを入力とする完全自動化された一貫性のあるキャラクター生成の解決策を提案します。各段階で、類似したアイデンティティを共有する一貫性のある画像セットを特定し、このセットからより一貫性のあるアイデンティティを抽出する反復的な手順を導入します。定量分析により、本手法がベースライン手法と比較してプロンプトの整合性とアイデンティティの一貫性のバランスをより良く取っていることが示され、これらの結果はユーザー調査によっても裏付けられています。最後に、本アプローチのいくつかの実用的な応用例を紹介します。プロジェクトページはhttps://omriavrahami.com/the-chosen-oneでご覧いただけます。
テキストから画像を生成する拡散モデルは、テキストプロンプトを一貫性のある画像に変換する驚異的な能力を実証してきましたが、その推論における計算コストは依然として大きな課題となっています。この問題に対処するため、我々はUFOGenを提案します。これは、超高速かつワンステップでテキストから画像を合成するために設計された新しい生成モデルです。従来のアプローチがサンプラーの改善や拡散モデルの蒸留技術に焦点を当てるのに対し、UFOGenは拡散モデルとGANの目的関数を統合したハイブリッド手法を採用しています。新たに導入された拡散-GAN目的関数と事前学習済み拡散モデルによる初期化を活用することで、UFOGenはテキスト記述に基づいた高品質な画像を効率的にワンステップで生成することに優れています。従来のテキストから画像生成に加えて、UFOGenは多様な応用においてその汎用性を発揮します。特に、UFOGenはワンステップでのテキストから画像生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの領域において重要な進展を示しています。 \blfootnote{*Googleの学生研究者として行われた研究であり、ダガーは同等の貢献を示します。}
連鎖思考(chain of thought)が言語モデルの推論能力を向上させることに成功しているにもかかわらず、その背後にあるプロセスはまだ十分に理解されていません。論理的に健全な推論が連鎖思考にとって本質的に重要であるように思われる一方で、驚くべきことに、過去の研究では無効なデモンストレーションを使用しても最小限の影響しかないことが明らかになっています。さらに、従来の連鎖思考は、言語モデルにどのような間違いを避けるべきかを教えるものではなく、これがより多くのエラーを引き起こす可能性があります。そこで、人間が肯定的な例と否定的な例の両方から学べることに着想を得て、言語モデルの推論を強化するために「対照的連鎖思考(contrastive chain of thought)」を提案します。従来の連鎖思考と比較して、我々のアプローチは有効な推論と無効な推論の両方のデモンストレーションを提供し、モデルがステップバイステップで推論を行いながら推論ミスを減らすことを導きます。汎化能力を向上させるために、対照的デモンストレーションを自動的に構築する方法を導入します。推論ベンチマークでの実験結果は、対照的連鎖思考が連鎖思考プロンプティングの一般的な強化手法として機能し得ることを示しています。
ニューラルラジアンスフィールドは新規視点合成において前例のない品質を実現しますが、その体積ベースの定式化は依然としてコストが高く、高解像度画像をレンダリングするために膨大な数のサンプルを必要とします。体積エンコーディングは、葉や髪の毛のようなぼやけた幾何学を表現するために不可欠であり、確率的最適化にも適しています。しかし、多くのシーンは最終的には主に固体表面で構成されており、ピクセルごとに単一のサンプルで正確にレンダリングできます。この洞察に基づいて、我々は体積ベースと表面ベースのレンダリングの間を滑らかに遷移するニューラルラジアンス定式化を提案し、レンダリング速度を大幅に加速し、視覚的な忠実度さえ向上させます。我々の手法は、ニューラル体積表現を空間的に境界付ける明示的なメッシュエンベロープを構築します。固体領域では、エンベロープはほぼ表面に収束し、しばしば単一のサンプルでレンダリングできます。この目的のために、我々はNeuS定式化を一般化し、密度の広がりをエンコードする学習された空間的に変化するカーネルサイズを使用します。体積のような領域には広いカーネルを、表面のような領域には狭いカーネルを適合させます。次に、カーネルサイズによって決定される幅を持つ表面周辺の狭いバンドの明示的なメッシュを抽出し、このバンド内でラジアンスフィールドを微調整します。推論時には、メッシュに対してレイを投射し、囲まれた領域内でのみラジアンスフィールドを評価することで、必要なサンプル数を大幅に削減します。実験結果は、我々のアプローチが非常に高忠実度での効率的なレンダリングを可能にすることを示しています。また、抽出されたエンベロープがアニメーションやシミュレーションなどの下流アプリケーションを可能にすることを実証します。
本研究では、Low-rank adaptation(LoRA)手法のパラメータ効率をさらに向上させるため、重み共有と選択的学習を活用したシンプルなパラダイム「Tied-LoRA」を提案する。我々の調査では、重み共有と組み合わせたすべての可能なパラメータ学習/凍結の組み合わせを検証し、性能と学習可能なパラメータ数の最適なバランスを特定した。複数のタスクと2つの基盤言語モデルを対象とした実験を通じて、効率性と性能のトレードオフを明らかにする分析を提供する。実験の結果、標準的なLoRA手法が使用するパラメータのわずか13%しか使用しないにもかかわらず、複数のタスクにおいて同等の性能を発揮する特定のTied-LoRA構成が明らかになった。
大規模言語モデルは、コード生成ベンチマークにおいて有望な性能を示しています。しかし、これらのベンチマークでの成果と実際の適用性との間には大きな隔たりがあり、その主な原因は現実世界のプログラミングが既存のライブラリに依存していることにあります。本論文では、LLMがゼロからコードを生成することを評価するのではなく、オープンソースライブラリを活用して機械学習タスクを完了する新しい評価設定を提案することを目的としています。そこで、ML-Benchという広範なベンチマークを提案します。これは、LLMがオープンソースライブラリの既存の関数を活用する効果を評価するために開発されました。ML-Benchは、14の著名な機械学習GitHubリポジトリにわたる130のタスクにまたがる10044のサンプルで構成されています。この設定では、特定の機械学習タスクの指示とコードベースに付随するREADMEが与えられ、LLMはそのタスクを達成するためのコードを生成することを求められます。これには、長くて言語とコードが混在したドキュメントの理解、および複雑なクロスファイルコード構造の理解が必要であり、新たな課題を導入しています。特に、GPT-4は他のLLMと比較して顕著な改善を示していますが、タスクの39.73%しか達成できず、改善の余地が大きく残されています。これらの課題に対処するため、ML-Agentを提案します。ML-Agentは、コードベースを効果的にナビゲートし、ドキュメントを特定し、コードを取得し、実行可能なコードを生成するように設計されています。実験結果は、GPT-4を基に構築されたML-Agentがさらなる改善をもたらすことを示しています。コード、データ、およびモデルはhttps://ml-bench.github.io/で公開されています。
ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たします。例えば、強化学習(RL)の研究は、利用可能な環境とベンチマークに大きく影響を受けてきました。しかし、RL環境は伝統的にCPU上で実行されるため、典型的な学術的な計算リソースではスケーラビリティが制限されていました。最近のJAXの進展により、これらの計算上の課題を克服するためのハードウェアアクセラレーションの幅広い利用が可能となり、大規模並列のRLトレーニングパイプラインと環境が実現されました。これは特に、マルチエージェント強化学習(MARL)の研究において有用です。まず、各環境ステップで複数のエージェントを考慮する必要があり、計算負荷が増加します。次に、非定常性、分散された部分観測可能性、またはその他のMARLの課題により、サンプルの複雑さが増します。本論文では、使いやすさとGPUを活用した効率性を兼ね備えた初のオープンソースコードベースであるJaxMARLを紹介します。JaxMARLは、多数の一般的に使用されるMARL環境と人気のあるベースラインアルゴリズムをサポートしています。実時間を考慮した実験では、JAXベースのトレーニングパイプラインが既存のアプローチに比べて最大12500倍高速であることが示されています。これにより、効率的かつ徹底的な評価が可能となり、分野の評価危機を緩和する可能性があります。また、人気のあるStarCraft Multi-Agent Challengeのベクトル化された簡易版であるSMAXを紹介し、ベンチマークを行います。SMAXは、StarCraft IIゲームエンジンを実行する必要がなく、GPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供し、自己対戦、メタ学習、およびその他の将来のMARLアプリケーションの可能性を解き放ちます。コードはhttps://github.com/flairox/jaxmarlで提供しています。
主要なAI研究所が、自社のモデルをオープンソース化するか、あるいはアクセスを制限するかという最近の決定は、ますます高度なAIモデルをどのように共有すべきかについての議論を引き起こしている。AIにおけるオープンソース化とは、通常、モデルのアーキテクチャと重みを誰でも自由に修正、研究、構築、使用できるように公開することを指す。これにより、外部からの監視が可能になり、進歩が加速し、AIの開発と使用に対する管理が分散されるといった利点がある。しかし、同時に、悪用や予期せぬ結果を招く可能性も高まっている。本論文では、高度な基盤モデルをオープンソース化することのリスクと利点を検討する。オープンソース化は、これまでのほとんどのソフトウェアおよびAI開発プロセスにおいて、実質的な純利益をもたらしてきたが、近い将来に開発される可能性のある一部の高度な基盤モデルについては、オープンソース化が利点を上回る極端なリスクをもたらす可能性があると主張する。そのような場合、高度な基盤モデルは、少なくとも最初の段階では、オープンソース化すべきではない。非オープンソースのモデル共有オプションを含む代替戦略を探る。本論文は、開発者、標準設定機関、および政府に対して、安全で責任あるモデル共有の実践を確立し、安全な範囲でオープンソースの利点を維持するための提言で締めくくられる。