翻訳付きの日次キュレーションされたAI研究論文
本研究では、統合画像生成のための新しい拡散モデルであるOmniGenを紹介します。一般的な拡散モデル(例:Stable Diffusion)とは異なり、OmniGenにはControlNetやIP-Adapterなどの追加モジュールが不要となりました。OmniGenの特徴は以下の通りです:1)統一性:OmniGenは、テキストから画像を生成する能力だけでなく、画像編集、主体駆動生成、および視覚条件付き生成など他の下流タスクを内在的にサポートします。さらに、OmniGenは、エッジ検出や人物姿勢認識などの古典的なコンピュータビジョンタスクを画像生成タスクに変換することで対応できます。2)シンプリシティ:OmniGenのアーキテクチャは非常に簡略化されており、追加のテキストエンコーダーが不要となっています。さらに、既存の拡散モデルと比較してユーザーフレンドリーであり、追加の前処理ステップ(例:人物姿勢推定)なしで指示によって複雑なタスクを達成できるため、画像生成のワークフローが大幅に簡素化されます。3)知識転送:統一形式で学習することにより、OmniGenは異なるタスク間で知識を効果的に転送し、見慣れないタスクやドメインを管理し、新しい機能を示すことができます。また、モデルの推論能力と連想メカニズムの潜在的な応用も探究します。この研究は、汎用画像生成モデルへの初の試みであり、いくつかの未解決の問題が残っています。この分野の進歩を促進するために、関連リソースをhttps://github.com/VectorSpaceLab/OmniGenでオープンソース化します。
NVLM 1.0を紹介します。これは、最先端のマルチモーダル大規模言語モデル(LLM)ファミリーであり、視覚言語タスクで最先端の結果を達成し、主要なプロプライエタリモデル(例:GPT-4o)やオープンアクセスモデル(例:Llama 3-V 405BおよびInternVL 2)と競り合っています。NVLM 1.0は、マルチモーダルトレーニング後にLLMバックボーンよりも改善されたテキストのみのパフォーマンスを示しています。モデル設計に関しては、デコーダーのみのマルチモーダルLLM(例:LLaVA)とクロスアテンションベースのモデル(例:Flamingo)の包括的な比較を行います。両アプローチの長所と短所に基づいて、トレーニング効率とマルチモーダル推論能力の両方を向上させる新しいアーキテクチャを提案します。さらに、タイルベースのダイナミック高解像度画像用の1-Dタイルタギングデザインを導入し、マルチモーダル推論とOCR関連タスクのパフォーマンスを大幅に向上させます。トレーニングデータに関しては、マルチモーダルの事前トレーニングと監督されたファインチューニングデータセットについて、慎重にキュレーションし詳細な情報を提供します。我々の調査結果は、データセットの品質とタスクの多様性が、すべてのアーキテクチャにおいて、事前トレーニング段階でも規模よりも重要であることを示しています。特筆すべきは、NVLM-1.0モデルの本番向けのマルチモダリティを開発し、視覚言語タスクで優れた成績を収めながら、LLMバックボーンと比較してテキストのみのパフォーマンスを維持、さらに向上させることが可能です。これを実現するために、高品質のテキストのみのデータセットをマルチモーダルトレーニングに組み込み、多様なマス数学と推論データと共に、モダリティ全体で数学とコーディングの能力を向上させます。この分野の研究を推進するために、モデルの重みを公開し、コードをオープンソース化します。詳細はこちら:https://nvlm-project.github.io/。
最近の研究では、大規模な拡散モデルが、深度推定を画像条件付き画像生成タスクとしてキャストすることで、高精度な単眼深度推定器として再利用できることが示されました。提案されたモデルは最先端の結果を達成しましたが、多段推論による高い計算要求により、多くのシナリオでの使用が制限されていました。本論文では、これまで気付かれていなかった推論パイプラインの欠陥が効率の悪さの原因であることを示します。修正されたモデルは、これまで報告されていた最良の構成と比較して、200倍以上高速です。下流タスクのパフォーマンスを最適化するために、タスク固有の損失を持つ単一ステップモデルのエンドツーエンドのファインチューニングを行い、他のすべての拡散ベースの深度および法線推定モデルを一般的なゼロショットベンチマークで上回る確定的モデルを得ます。驚くべきことに、このファインチューニングプロトコルは、Stable Diffusionに直接適用され、現在の最先端の拡散ベースの深度および法線推定モデルと同等のパフォーマンスを達成し、先行研究から導かれたいくつかの結論に疑問を投げかけます。
3Dモデリングにおいて、デザイナーはしばしば既存の3Dモデルを参照して新しいモデルを作成します。この実践は、拡散を使用した参照拡張3D生成のための革新的な生成モデルであるPhidiasの開発に影響を与えました。与えられた画像に対して、当社の手法は取得されたまたはユーザー提供の3D参照モデルを活用して生成プロセスをガイドし、それにより生成品質、汎化能力、および制御可能性を向上させます。当社のモデルは、以下の3つの主要なコンポーネントを統合しています:1) 条件付け強度を動的に調整するメタ-ControlNet、2) 入力画像と3D参照との不整合を緩和する動的参照ルーティング、および3) 進行的カリキュラムでの自己教師付きトレーニングを可能にする自己参照拡張。これらの設計は、既存の手法に比べて明確な改善をもたらします。Phidiasは、テキスト、画像、および3D条件を使用した3D生成のための統一されたフレームワークを確立しています。
指示に調整された言語モデル(LM)は、命令形のコマンドに応じて、基本的なモデルと比較してより自然なユーザーインターフェースを提供することができます。本研究では、Promptrieverという、最初の検索モデルがLMのようにプロンプトできるモデルを提案します。Promptrieverを訓練するために、MS MARCOから約50万のインスタンスをカバーする新しいインスタンスレベルの指示トレーニングセットを編纂して公開します。Promptrieverは、標準的な検索タスクで強力なパフォーマンスを達成するだけでなく、指示に従います。我々は次のような観察を行っています:(1)詳細な関連性の指示に従う際に大幅な向上(FollowIRで+14.3 p-MRR / +3.1 nDCGでSoTAに到達)、(2)クエリ+指示の語彙選択/表現に対する耐久性が著しく向上(InstructIRで+12.9 Robustness@10)、および(3)検索パフォーマンスを信頼性を持って向上させるためにプロンプトを介したハイパーパラメータ検索を実行する能力(BEIRで平均1.4の向上)。Promptrieverは、検索モデルがクエリごとにプロンプトで制御できることを示し、LMのプロンプト技術を情報検索と調整するための将来の作業の舞台を設定しています。
潜在拡散モデルは、テキストから音声(T2A)生成タスクで有望な結果を示していますが、以前のモデルは生成品質、計算コスト、拡散サンプリング、およびデータ準備において困難に直面してきました。本論文では、これらの課題に対処するために、トランスフォーマーベースのT2A拡散モデルであるEzAudioを紹介します。当アプローチにはいくつかの主要な革新が含まれています:(1)1次元波形変分オートエンコーダ(VAE)の潜在空間にT2Aモデルを構築し、2次元スペクトログラム表現の複雑さを回避し、追加のニューラルボコーダを使用します。 (2)オーディオ潜在表現と拡散モデリングに特化した最適化された拡散トランスフォーマーアーキテクチャを設計し、収束速度、トレーニングの安定性、およびメモリ使用量を向上させ、トレーニングプロセスをより簡単かつ効率的にします。 (3)データの不足に対処するために、未ラベルデータを活用して音響依存関係を学習し、音声言語モデルによって注釈付けされたオーディオキャプションデータを使用してテキストからオーディオへの整列学習を行い、人間によってラベル付けされたデータをファインチューニングに採用します。 (4)大きなCFGスコアを使用する際にも優れたプロンプト整列を実現し、このトレードオフのバランスを取るための最適なCFGスコアを見つける必要がなく、優れた音質を維持しながらEzAudioを簡素化する、クラシファイアフリーガイダンス(CFG)再スケーリング手法を導入します。 EzAudioは、客観的なメトリクスと主観的な評価の両方で既存のオープンソースモデルを上回り、現実的な聴覚体験を提供しつつ、スムーズなモデル構造、低いトレーニングコスト、および追いやすいトレーニングパイプラインを維持します。コード、データ、および事前トレーニング済みモデルは、以下のURLから公開されています:https://haidog-yaqub.github.io/EzAudio-Page/。
これまでの研究では、パープレキシティや一部の基本的な知識タスク、古いデータセットなど、限られたメトリクスを使用して、量子化されたLLM(Large Language Model)が評価されてきました。さらに、最近の大規模モデルであるLlama 3.1(最大405B)などは、徹底的に調査されていませんでした。本論文では、指示に調整されたLLMの性能を、GPTQ、AWQ、SmoothQuant、FP8などのさまざまな量子化手法を用いて、7Bから405Bまでのモデルで評価します。13のベンチマークを使用して、常識的なQ&A、知識と言語理解、指示の遵守、幻覚検出、数学、対話といった6つのタスクタイプにわたる性能を評価します。主な結果は以下の通りです:(1)より大きなLLMをより小さなFP16 LLMと同じサイズに量子化すると、幻覚検出と指示の遵守を除いて、ほとんどのベンチマークで一般的に性能が向上します;(2)性能は、異なる量子化手法、モデルサイズ、ビット幅によって大きく異なり、大きなモデルでは重みのみの手法がしばしばより良い結果をもたらす;(3)タスクの難易度は、量子化による精度の低下にほとんど影響を与えません;そして(4)最近の高性能LLMの間でのMT-Bench評価方法は、限られた識別力しか持っていません。
ビデオ拡散モデルは、高品質なビデオを生成する潜在能力を示し、ますます人気のある焦点となっています。ただし、その本質的な反復的性質により、膨大な計算コストと時間コストが発生します。ビデオ拡散を加速するための取り組みがなされてきましたが、推論ステップの削減(一貫性蒸留などの手法を用いる)やGANのトレーニングによるアプローチは、性能またはトレーニングの安定性のどちらかに不足があります。本研究では、これらの課題に対処するために、一貫性蒸留をGANトレーニングと効果的に組み合わせる2段階トレーニングフレームワークを導入します。さらに、ビデオディスクリミネータの新しい設計を提案し、ビデオの潜在変数のデコードを不要とし、最終パフォーマンスを向上させます。当モデルは、わずか1ステップで高品質なビデオを生成する能力を持ち、さらなるパフォーマンス向上のためのマルチステップのリファインを実行する柔軟性を備えています。OpenWebVid-1Mベンチマークでの定量評価によると、当モデルは既存の手法を大幅に上回っています。特に、当モデルの1ステップパフォーマンス(FVD 171.15)は、一貫性蒸留ベースの手法であるAnimateLCM(FVD 184.79)の8ステップパフォーマンスを上回り、高度なStable Video Diffusion(FVD 156.94)の25ステップパフォーマンスに近づいています。
エージェントベースモデリング(ABM)は、環境内で行動し相互作用するエージェントの集合体をシミュレートすることによって、複雑なシステムの振る舞いを理解しようとするものです。実用上の有用性を確保するためには、現実的な環境ダイナミクスと適応的なエージェントの振る舞いを捉える必要がありますが、同時に数百万規模の人口を効率的にシミュレートすることも求められます。大規模言語モデル(LLMs)の最近の進歩は、LLMsをエージェントとして使用することでABMを強化する機会を提供しており、適応的な振る舞いを捉える潜在能力も持っています。しかし、LLMsを大規模人口に使用する計算的な困難さが、広く普及する障害となっています。本論文では、AgentTorchというフレームワークを紹介し、LLMsを使用して高解像度のエージェント振る舞いを捉えながら、数百万のエージェントにスケーリングする方法を示します。私たちは、LLMsをABMエージェントとして使用する有用性をベンチマークし、シミュレーション規模と個々のエージェンシーのトレードオフを探ります。COVID-19パンデミックを事例として使用し、AgentTorchがニューヨーク市を代表する840万人のエージェントをシミュレートし、孤立と雇用行動が健康と経済結果に与える影響を捉えます。疾病波や失業率を予測する際のヒューリスティックエージェントとLLMエージェントに基づく異なるエージェントアーキテクチャのパフォーマンスを比較します。さらに、AgentTorchの機能を振り返り、因果関係のない、将来的な分析を紹介し、適応的なエージェントの振る舞いが政策設計において歴史データの制約を克服するのにどのように役立つかを強調します。AgentTorchは、世界中で政策立案や科学的発見に積極的に使用されているオープンソースプロジェクトです。フレームワークはこちらで入手可能です:github.com/AgentTorch/AgentTorch.
我々は、階段や飛び石などの不連続な地形における四足ロボットのアジャイルで連続的かつ地形適応型のジャンプに焦点を当てています。単一段階のジャンプとは異なり、連続的なジャンプは長期的に高度な動作を正確に実行することを必要とし、既存の手法にとっては挑戦が大きいです。このタスクを達成するために、頑健な地形認識のための学習済みの高さマップ予測器、多目的かつ地形適応型の計画のための強化学習ベースのセントロイドレベルのモーションポリシー、そして正確なモーショントラッキングのための低レベルのモデルベースの脚コントローラからなる階層型の学習と制御フレームワークを設計しています。さらに、ハードウェア特性を正確にモデリングすることで、シミュレーションと実機のギャップを最小限に抑えています。当社のフレームワークにより、Unitree Go1 ロボットが、人間サイズの階段や疎な飛び石でアジャイルで連続的なジャンプを行うことが、私たちの知る限りでは初めて可能となりました。特に、このロボットは各ジャンプで2つの階段段差を越え、4.5秒で長さ3.5m、高さ2.8m、14段の階段を完了します。さらに、同じポリシーは、水平または垂直の不連続性を持つ単一のパルクールタスクなど、さまざまな他のタスクでもベースラインを上回っています。実験動画は https://yxyang.github.io/jumping\_cod/ でご覧いただけます。
マルチビュー画像から3D静的シーンと4D動的イベントをデジタル化することは、コンピュータビジョンとグラフィックスの分野で長らく課題となってきました。最近、3Dガウススプラッティング(3DGS)が実用的でスケーラブルな再構築手法として登場し、その印象的な再構築品質、リアルタイムレンダリング能力、および広く使用されている可視化ツールとの互換性から人気を博しています。ただし、この手法は高品質なシーン再構築を実現するために相当数の入力ビューを必要とし、実用上の重要なボトルネックを導入します。この課題は、動的シーンをキャプチャする際に特に深刻であり、広範なカメラアレイを展開することが費用面で困難な場合があります。本研究では、3DGS技術のスパース再構築環境における最適な性能を妨げる要因の1つとして、スプラット特徴の空間自己相関の欠如を特定します。この問題に対処するため、対応する暗黙のニューラルフィールドの出力としてそれらをモデリングすることで、スプラット特徴を効果的に正則化する最適化戦略を提案します。これにより、さまざまなシナリオで再構築品質が一貫して向上します。私たちのアプローチは、さまざまなセットアップやシーンの複雑さにわたる包括的なテストによって示されるように、静的および動的ケースを効果的に処理します。
LLM(Large Language Models)は、検索拡張生成(RAG)システムにおける重要な要素です。 多くの研究がエンドツーエンドのRAGシステムの品質を評価することに焦点を当てていますが、 LLMがRAGタスクに適しているかどうかを理解する研究が不足しています。そこで、私たちはRAGフレームワークにおけるLLMの信頼性を包括的に評価する新しいメトリック、Trust-Scoreを導入します。 私たちは、コンテキスト内学習などのさまざまなプロンプティング手法が、LLMをRAGタスクに効果的に適応させることに失敗することを示します。そのため、私たちはTrust-Alignという、LLMをより高いTrust-Scoreに整列させるためのフレームワークを提案します。 私たちの手法により整列されたLLaMA-3-8bは、ASQA(10.7ポイント向上)、QAMPARI(29.2ポイント向上)、ELI5(14.9ポイント向上)において、同等サイズのオープンソースのLLMを大幅に上回る性能を発揮します。 私たちは、当該コードを以下のURLから公開しています:https://github.com/declare-lab/trust-align.
感情を理解することは、人間の相互作用と経験にとって基本的です。 人間は、状況や表情から感情を容易に推測し、感情から状況を推し量り、 さまざまな他の情動認知を行います。 現代のAIは、これらの推論にどれだけ巧妙なのでしょうか?我々は、基盤モデルにおける情動認知を評価するための評価フレームワークを紹介します。 心理学理論から出発し、評価、感情、表現、結果の関係を探る1,280の多様なシナリオを生成します。 私たちは、慎重に選択された条件下で、基盤モデル(GPT-4、Claude-3、Gemini-1.5-Pro)と人間(N = 567)の能力を評価します。 結果は、基盤モデルが人間の直感と一致し、参加者間の合意を上回るかそれに匹敵することを示しています。 一部の条件では、モデルは「超人的」であり、平均的な人間よりもモーダルな人間の判断をより良く予測します。 すべてのモデルは、思考の連鎖推論から利益を得ています。これは、基盤モデルが感情とその信念や行動への影響について、人間らしい理解を獲得していることを示唆しています。
暗黙のニューラル表現(INR)は、ニューラルネットワークを活用して座標入力を対応する属性に変換することで、最近、いくつかのビジョン関連領域で大きな進展を遂げています。ただし、INRの性能は、その多層パーセプトロン(MLP)アーキテクチャで使用される非線形活性化関数の選択に大きく影響を受けます。複数の非線形性が調査されていますが、現在のINRは高周波成分、多様な信号タイプ、逆問題の取り扱いにおいて制限があります。これらの問題は、INRにおいてパラダイムシフトを導入することで大幅に緩和できることを特定しました。初期層に学習可能な活性化関数を持つアーキテクチャが、基礎信号の微細な詳細を表現できることを見出しました。具体的には、SL^{2}A-INRという、単一層学習可能な活性化関数を持つINR向けのハイブリッドネットワークを提案し、従来のReLUベースのMLPの効果を促します。当該手法は、画像表現、3D形状再構築、インペインティング、単一画像の超解像、CT再構築、新しい視点合成を含む多様なタスクにおいて優れた性能を発揮します。包括的な実験により、SL^{2}A-INRはINRにおいて精度、品質、収束速度の新たな基準を設定します。
最近、生成型AI音楽システムの急激な拡大により、データの著作権、ミュージシャンからの音楽ライセンス取得、オープンソースAIと大手の名声ある企業との間の対立など、多くの懸念が提起されています。これらの問題は、特に象徴的な音楽データには大きな不足があり、公開されていて著作権フリーな音楽データの必要性を浮き彫りにしています。この問題を緩和するために、私たちはPDMXを提案します。これは、MuseScoreという楽譜共有フォーラムから収集された25万以上のパブリックドメインのMusicXMLスコアからなる大規模なオープンソースデータセットであり、私たちの知る限りでは最大の著作権フリーの象徴的音楽データセットです。PDMXには、タグとユーザーの相互作用メタデータが豊富に含まれており、データセットを効率的に分析し、高品質のユーザー生成スコアをフィルタリングすることが可能です。私たちのデータ収集プロセスによって提供される追加のメタデータにより、PDMXの異なる代表的なサブセットがダウンストリームモデルに異なる挙動をもたらすかどうか、およびユーザー評価統計がデータ品質の効果的な指標としてどのように使用されるかを評価するため、マルチトラック音楽生成実験を実施します。例は以下のサイトで見つけることができます:https://pnlong.github.io/PDMX.demo/.
暗黙のニューラル表現(INRs)は、ニューラルネットワークを使用して、少数のパラメータで複雑な信号の連続かつ解像度に依存しない表現を提供します。ただし、既存のINRモデルは、各タスク固有の重要な周波数成分を捉えることができないことがよくあります。この問題に対処するため、本論文では、INRs向けのフーリエ・コルモゴロフ・アーノルド・ネットワーク(FKAN)を提案します。提案されたFKANは、最初の層でフーリエ級数としてモデル化された学習可能な活性化関数を使用して、効果的にタスク固有の周波数成分を制御および学習します。さらに、学習可能なフーリエ係数を持つ活性化関数は、複雑なパターンや詳細を捉える能力を向上させ、高解像度および高次元データに有益です。実験結果は、提案されたFKANモデルが3つの最先端のベースラインスキームを上回り、画像表現タスクにおけるピーク信号対雑音比(PSNR)と構造類似性指標測定(SSIM)、および3D占有ボリューム表現タスクにおけるIoU(Intersection over Union)を向上させることを示しています。