翻訳付きの日次キュレーションされたAI研究論文
近年の研究、例えばBitNetは、1ビット大規模言語モデル(LLM)の新時代を切り開いています。本論文では、1ビットLLMの変種であるBitNet b1.58を紹介します。このモデルでは、LLMの全てのパラメータ(または重み)が三値 {-1, 0, 1} で表現されます。BitNet b1.58は、同じモデルサイズと訓練トークン数を持つフル精度(FP16またはBF16)のTransformer LLMと比較して、パープレキシティおよびエンドタスク性能において同等の性能を発揮しつつ、レイテンシ、メモリ使用量、スループット、エネルギー消費の点で大幅にコスト効率が優れています。さらに深く掘り下げると、1.58ビットLLMは、高性能かつコスト効率の高い次世代LLMを訓練するための新しいスケーリング則とレシピを定義しています。また、1ビットLLMに最適化された専用ハードウェアの設計に向けた新しい計算パラダイムを可能にし、その扉を開くものです。
本研究では、音声の手がかりと顔の動きの間のダイナミックで微妙な関係に焦点を当てることで、話し手のビデオ生成におけるリアリズムと表現力の向上という課題に取り組みます。従来の技術では、人間の表情の全範囲や個人の顔のスタイルの独自性を十分に捉えることができないという限界を指摘します。これらの問題を解決するため、中間的な3Dモデルや顔のランドマークを必要としない、直接的な音声からビデオへの合成アプローチを採用した新しいフレームワーク「EMO」を提案します。本手法は、ビデオ全体を通じてシームレスなフレーム遷移と一貫したアイデンティティの保持を保証し、非常に表現力豊かで生き生きとしたアニメーションを実現します。実験結果は、EMOが説得力のある話し手のビデオだけでなく、さまざまなスタイルの歌い手のビデオも生成できることを示しており、表現力とリアリズムの点で既存の最先端手法を大幅に上回る性能を発揮しています。
Soraは、OpenAIが2024年2月にリリースしたテキストからビデオを生成するAIモデルである。このモデルは、テキスト指示から現実的または想像的なシーンのビデオを生成するように訓練されており、物理世界をシミュレートする可能性を示している。公開されている技術レポートとリバースエンジニアリングに基づき、本論文では、このモデルの背景、関連技術、応用、残された課題、およびテキストからビデオを生成するAIモデルの将来の方向性について包括的なレビューを提供する。まず、Soraの開発の軌跡をたどり、この「世界シミュレータ」を構築するために使用された基盤技術を調査する。次に、映画制作や教育、マーケティングなど、複数の産業におけるSoraの応用と潜在的な影響について詳細に説明する。Soraを広く展開するために解決すべき主な課題や制限、例えば安全で偏りのないビデオ生成の確保などについて議論する。最後に、Soraおよびビデオ生成モデルの将来の発展と、この分野の進歩がどのように人間とAIの相互作用の新たな方法を可能にし、ビデオ生成の生産性と創造性を高めるかについて議論する。
数十年にわたり、人間とコンピュータのインタラクションは基本的に手動で行われてきました。今日でも、コンピュータ上で行われる生産的な作業のほとんどは、各ステップで人間の入力を必要とします。自律型仮想エージェントは、これらの単純なタスクの多くを自動化するためのエキサイティングな一歩を表しています。仮想エージェントは、技術的な熟練度が限られたユーザーがコンピュータシステムの可能性を最大限に活用できるようにするでしょう。また、カレンダー管理から複雑な旅行予約まで、数多くのコンピュータタスクを最小限の人間の介入で効率的に合理化することも可能にします。本論文では、コンピュータタスクを達成するための実行可能なプログラムを生成するエージェントの能力を評価するための初のデータセットおよびベンチマークであるOmniACTを紹介します。私たちの範囲は従来のウェブ自動化を超え、多様なデスクトップアプリケーションをカバーしています。データセットは「次の曲を再生する」といった基本的なタスクから、「ジョン・ドウに会う時間と場所を記載したメールを送信する」といった長期的なタスクまで含んでいます。具体的には、スクリーン画像と視覚的に基づいた自然言語タスクのペアが与えられた場合、そのタスクを完全に実行可能なスクリプトを生成することが目標です。私たちは、いくつかの強力なベースライン言語モデルエージェントをベンチマークで実行しました。最も強力なベースラインであるGPT-4は、私たちのベンチマークで最高のパフォーマンスを示しましたが、その性能レベルはタスクを完了するための実行可能なスクリプトを生成する人間の熟練度のわずか15%に留まっており、従来のウェブエージェントにとっての課題を示しています。私たちのベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進歩を測定・評価するためのプラットフォームを提供し、大規模言語モデルとコンピュータスクリーンの視覚的基盤を結びつけるマルチモーダルモデルの構築に向けた将来の研究を動機づけます。
大規模言語モデル(LLM)は、下流アプリケーションでの能力を引き出すためにファインチューニングを採用することが多いが、異なるファインチューニング手法の帰納的バイアス(特にスケーリング特性)に関する理解はまだ限られている。このギャップを埋めるため、我々は体系的に実験を行い、LLMのモデルサイズ、事前学習データサイズ、新たなファインチューニングパラメータサイズ、ファインチューニングデータサイズといった異なるスケーリング要因が、ファインチューニング性能にどのように影響するかを調査した。我々は、フルモデルチューニング(FMT)とパラメータ効率的チューニング(PET、プロンプトチューニングとLoRAを含む)の2種類のファインチューニングを考慮し、LLMモデルサイズがファインチューニングデータサイズを大幅に上回るデータ制限領域におけるそれらのスケーリング挙動を探った。1Bから16Bまでの2セットの事前学習済みバイリンガルLLMと、バイリンガル機械翻訳および多言語要約ベンチマークでの実験に基づき、以下のことを発見した:1)LLMファインチューニングは、ファインチューニングデータサイズと他の各スケーリング要因との間にべき乗的な乗法的結合スケーリング則に従う;2)LLMファインチューニングは、事前学習データのスケーリングよりもLLMモデルのスケーリングからより多くの恩恵を受け、PETパラメータのスケーリングは一般的に効果的でない;3)最適なファインチューニング手法は、タスクとファインチューニングデータに強く依存する。我々の発見が、LLMファインチューニング手法の理解、選択、開発に光を当てることを期待する。
大規模言語モデル(LLMs)は、入力トークン数が事前学習時の長さを超えると、テキストの処理および生成能力が著しく低下します。長いシーケンスで大規模モデルをファインチューニングするには多大なコストがかかるため、我々はDual Chunk Attention(DCA)を提案します。DCAは、Llama2 70Bが継続的なトレーニングなしに10万トークンを超えるコンテキストウィンドウをサポートすることを可能にします。長いシーケンスのアテンション計算をチャンクベースのモジュールに分解することで、DCAは同一チャンク内のトークン(Intra-Chunk)および異なるチャンク間のトークン(Inter-Chunk)の相対的位置情報を効果的に捕捉し、Flash Attentionとシームレスに統合します。印象的な外挿能力に加えて、DCAは実用的な長文コンテキストタスクにおいて、ファインチューニングされたモデルと同等またはそれ以上の性能を達成します。プロプライエタリモデルと比較すると、トレーニング不要の70Bモデルはgpt-3.5-16kの94%の性能を達成し、オープンソースの代替手段として有効であることを示しています。本研究で使用したすべてのコードとデータはhttps://github.com/HKUNLP/ChunkLlamaで公開されています。
主題駆動型テキストから画像(T2I)生成モデルの分野では、DreamBoothやBLIP-Diffusionなどの最近の進展が印象的な結果をもたらしているものの、集中的なファインチューニングの必要性と膨大なパラメータ要件による制限に直面しています。DreamBooth内の低ランク適応(LoRA)モジュールは学習可能なパラメータを削減するものの、ハイパーパラメータに対する顕著な感度を導入し、パラメータ効率とT2Iパーソナライズド画像合成の品質の間で妥協を強いられます。これらの制約に対処するため、我々は\textit{DiffuseKronA}を提案します。これは、クロネッカー積に基づく新しい適応モジュールであり、LoRA-DreamBoothと比較して35%、元のDreamBoothと比較して99.947%のパラメータ数を大幅に削減するだけでなく、画像合成の品質も向上させます。重要な点として、DiffuseKronAはハイパーパラメータ感度の問題を緩和し、広範なハイパーパラメータ範囲で一貫して高品質な生成を実現し、これにより、大規模なファインチューニングの必要性を低減します。さらに、より制御可能な分解により、DiffuseKronAはより解釈可能であり、LoRA-DreamBoothと同等の結果を達成しながら最大50%の削減を実現することさえ可能です。多様で複雑な入力画像とテキストプロンプトに対して評価されたDiffuseKronAは、既存のモデルを一貫して上回り、忠実度が向上し、オブジェクトの色分布がより正確な高品質な多様な画像を生成し、同時に卓越したパラメータ効率を維持します。これにより、T2I生成モデリングの分野において大きな進展をもたらします。我々のプロジェクトページには、コードと事前学習済みチェックポイントへのリンクが含まれており、https://diffusekrona.github.io/{https://diffusekrona.github.io/}で利用可能です。
テキストと動画データはインターネット上に豊富に存在し、次のトークンやフレームの予測を通じて大規模な自己教師あり学習を支えています。しかし、これらは同等に活用されてはいません。言語モデルは現実世界で大きな影響を及ぼしている一方で、動画生成は主にメディアエンターテインメントに限定されています。しかし、動画データは物理世界に関する重要な情報を捉えており、それを言語で表現するのは困難です。このギャップを埋めるため、私たちは動画生成を現実世界の課題解決に拡張するための未開拓の可能性について議論します。言語と同様に、動画がインターネットの知識を吸収し、多様なタスクを表現する統一インターフェースとして機能し得ることを観察します。さらに、言語モデルと同様に、動画生成が文脈内学習、計画、強化学習などの技術を通じてプランナー、エージェント、計算エンジン、環境シミュレーターとして機能し得ることを示します。ロボティクス、自動運転、科学などの分野での主要な影響機会を特定し、そのような高度な動画生成能力が現実的に達成可能であることを示す最近の研究を支持します。最後に、動画生成の進展を妨げる主要な課題を特定します。これらの課題に取り組むことで、動画生成モデルが言語モデルと並んで、より広範なAIアプリケーションにおいて独自の価値を示すことが可能になるでしょう。
既存の長期オープンドメイン対話に関する研究は、5回以下のチャットセッションにわたる文脈内でのモデル応答の評価に焦点を当てている。長文脈大規模言語モデル(LLM)や検索拡張生成(RAG)技術の進展にもかかわらず、非常に長期にわたる対話におけるそれらの有効性は未だに検証されていない。この研究ギャップを埋めるため、我々はLLMベースのエージェントアーキテクチャを活用し、ペルソナと時間的イベントグラフに基づいて対話を構築する機械-人間パイプラインを導入する。さらに、各エージェントに画像を共有し反応する能力を付与する。生成された会話は、長期的な一貫性とイベントグラフへの接地を確保するため、人間のアノテーターによって検証および編集される。このパイプラインを用いて、我々はLoCoMoという非常に長期にわたる会話のデータセットを収集し、各会話は平均300ターンと9Kトークンを超え、最大35セッションに及ぶ。LoCoMoに基づき、質問応答、イベント要約、マルチモーダル対話生成タスクを含む、モデルの長期記憶を測定する包括的な評価ベンチマークを提示する。実験結果は、LLMが長い会話を理解し、対話内の長期的な時間的および因果的ダイナミクスを把握する上で課題を抱えていることを示している。長文脈LLMやRAGのような戦略を採用することで改善が見られるが、これらのモデルは依然として人間の性能に大きく遅れをとっている。
本研究は、言語モデル(LM)の学習を改善するための一般原則を探求し、優れた性能を達成するために必要な訓練ステップ数を削減することを目的としています。具体的には、LMの最適学習に関する理論を提示します。まず、「LM訓練をロスレス圧縮として見る」という視点から、データ圧縮率を最大化することでLM学習を最適化する目的関数を提案します。次に、Learning Lawと名付けた定理を導出し、この目的関数下での最適学習プロセスにおける動的特性を明らかにします。この定理は、線形分類と実世界の言語モデリングタスクにおける実験によって検証されます。最後に、LMの最適学習が本質的にLMのスケーリング則における係数の改善に起因することを実証的に確認し、実用的な学習加速手法の設計に対する大きな可能性と重要性を示します。コードはhttps://aka.ms/LearningLawで公開されています。
最近開発されたSoraモデル[1]は、ビデオ生成において顕著な能力を示し、現実世界の現象をシミュレートする能力について激しい議論を引き起こしています。その人気が高まる一方で、現実世界の物理法則に対する忠実度を定量的に評価するための確立された指標が不足しています。本論文では、生成されたビデオの品質を、現実世界の物理法則への準拠度に基づいて評価する新しいベンチマークを紹介します。我々は、生成されたビデオを3Dモデルに変換する手法を採用し、3D再構成の精度がビデオの品質に大きく依存するという前提を活用します。3D再構成の観点から、構築された3Dモデルが満たす幾何学的制約の忠実度を、生成されたビデオが現実世界の物理法則にどれだけ準拠しているかを測る代理指標として使用します。プロジェクトページ: https://sora-geometrical-consistency.github.io/
映像と音声のコンテンツ制作は、映画産業やプロフェッショナルユーザーにとって中核的な技術です。最近では、既存の拡散モデルベースの手法が映像と音声の生成を別々に扱っており、これが学術界から産業界への技術移転を妨げています。本研究では、このギャップを埋めることを目指し、視覚-音声間および視覚-音声共同生成のための最適化ベースのフレームワークを慎重に設計しました。既存の映像や音声生成モデルの強力な生成能力を観察した結果、巨大なモデルをゼロから訓練するのではなく、既存の強力なモデルを共有潜在表現空間で橋渡しすることを提案します。具体的には、事前学習済みのImageBindモデルを用いたマルチモーダル潜在アライナーを提案します。この潜在アライナーは、推論時に拡散ノイズ除去プロセスを導く分類器ガイダンスと同様のコアを共有しています。慎重に設計された最適化戦略と損失関数を通じて、共同映像-音声生成、視覚誘導音声生成、音声誘導視覚生成タスクにおいて、本手法の優れた性能を示します。プロジェクトのウェブサイトはhttps://yzxing87.github.io/Seeing-and-Hearing/で確認できます。
本研究では、テキストから画像を生成するモデルにおいて、最先端の美的品質を実現するための3つの洞察を共有します。モデル改善のための3つの重要な側面に焦点を当てます:色とコントラストの向上、複数のアスペクト比にわたる生成の改善、そして人間中心の細部の改善です。まず、拡散モデルの訓練におけるノイズスケジュールの重要性について掘り下げ、それがリアリズムと視覚的忠実度に与える深い影響を実証します。次に、画像生成における様々なアスペクト比に対応する課題に取り組み、バランスの取れたバケットデータセットを準備することの重要性を強調します。最後に、モデルの出力を人間の好みに合わせることの重要な役割を調査し、生成された画像が人間の知覚的期待に共鳴することを保証します。広範な分析と実験を通じて、Playground v2.5は、様々な条件やアスペクト比において美的品質の面で最先端の性能を示し、SDXLやPlayground v2のような広く使われているオープンソースモデルや、DALLE 3やMidjourney v5.2のようなクローズドソースの商用システムを凌駕しています。私たちのモデルはオープンソースであり、Playground v2.5の開発が、拡散ベースの画像生成モデルの美的品質を向上させようとする研究者にとって貴重な指針を提供することを願っています。
本論文では、3Dシーンを構成要素となるオブジェクトに分離して生成する手法を提案します。この分離は教師なしで行われ、大規模な事前学習済みテキスト画像生成モデルの知識のみに依存しています。私たちの重要な洞察は、3Dシーンの一部を空間的に再配置しても、同じシーンの有効な構成が維持される部分を見つけることで、オブジェクトを発見できるという点です。具体的には、本手法では、各オブジェクトを表現する複数のNeRFをゼロから同時に最適化し、これらのオブジェクトをシーンに合成するレイアウトのセットも合わせて最適化します。そして、これらの合成されたシーンが画像生成器の分布内に収まるよう促します。本手法はシンプルながらも、3Dシーンを個々のオブジェクトに分解して生成することに成功し、テキストから3Dコンテンツを作成する新たな可能性を拓きます。結果とインタラクティブデモについては、プロジェクトページ(https://dave.ml/layoutlearning/)をご覧ください。
既存のNeRFベースの大規模シーン再構築手法は、視覚的品質とレンダリング速度に制限があることが多い。最近の3D Gaussian Splattingは小規模でオブジェクト中心のシーンでは良好に機能するが、大規模シーンへのスケールアップには、ビデオメモリの制約、最適化時間の長さ、顕著な外観の変動といった課題が存在する。これらの課題に対処するため、我々は3D Gaussian Splattingに基づく大規模シーン向けの高品質な再構築とリアルタイムレンダリングを実現する初の手法であるVastGaussianを提案する。大規模シーンを複数のセルに分割するための段階的な分割戦略を提案し、トレーニングカメラと点群を空域を考慮した可視性基準に基づいて適切に配置する。これらのセルは並列最適化後に完全なシーンに統合される。さらに、最適化プロセスに分離された外観モデリングを導入し、レンダリング画像における外観の変動を低減する。我々の手法は既存のNeRFベースの手法を凌駕し、複数の大規模シーンデータセットにおいて最先端の結果を達成し、高速な最適化と高忠実度のリアルタイムレンダリングを可能にする。