翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)ベースのインテリジェントエージェントの統合と展開は、その効率性と有効性を損なう多くの課題に直面してきた。これらの課題には、エージェントリクエストのLLMに対する最適でないスケジューリングとリソース割り当て、エージェントとLLM間のインタラクション中にコンテキストを維持する難しさ、異なる能力と専門性を持つ異種エージェントを統合する際の複雑さなどが含まれる。エージェントの数と複雑さの急速な増加は、これらの問題をさらに悪化させ、しばしばボトルネックやリソースの最適でない利用を引き起こす。これらの課題に着想を得て、本論文では、大規模言語モデルをオペレーティングシステム(OS)に組み込んだLLMエージェントオペレーティングシステムであるAIOSを提案する。具体的には、AIOSはリソース割り当ての最適化、エージェント間のコンテキストスイッチの促進、エージェントの並列実行の実現、エージェントのためのツールサービスの提供、およびエージェントのアクセス制御の維持を目的として設計されている。本論文では、このようなオペレーティングシステムのアーキテクチャを提示し、解決を目指す核心的な課題を概説し、AIOSの基本的な設計と実装を提供する。複数のエージェントの並列実行に関する実験を通じて、AIOSモジュールの信頼性と効率性を実証する。これにより、LLMエージェントの性能と効率を向上させるだけでなく、将来のAIOSエコシステムのより良い開発と展開の先駆けとなることを目指す。本プロジェクトはhttps://github.com/agiresearch/AIOSでオープンソースとして公開されている。
テキストから画像を生成する拡散モデルは、多様で高品質な画像を生成する前例のない能力を持っています。しかし、複数の主体を含む複雑な入力プロンプトの意図した意味を忠実に捉えることが難しい場合がしばしばあります。最近、ユーザーコントロールを向上させるために、特定のトークンによって表現される主体を局所化することを目的とした、レイアウトから画像への拡張が数多く導入されています。しかし、これらの手法は、特に意味的または視覚的に類似した複数の主体を扱う場合に、意味的に不正確な画像を生成することが多いです。本研究では、これらの制限の原因を調査し分析します。私たちの探求により、主な問題は、ノイズ除去プロセスにおける主体間の意図しない意味の漏洩に起因していることが明らかになりました。この漏洩は、拡散モデルのアテンションレイヤーが異なる主体の視覚的特徴を混ぜ合わせる傾向があるためです。これらの問題に対処するために、サンプリングプロセスにおける情報の流れを制限するトレーニング不要の手法であるBounded Attentionを導入します。Bounded Attentionは、主体間の有害な漏洩を防ぎ、複雑な多主体条件付けにおいても各主体の個性を促進するように生成を導くことを可能にします。広範な実験を通じて、私たちの手法が、与えられたプロンプトとレイアウトにより良く一致する複数の主体の生成を可能にすることを実証します。
本研究は、ユーザーが1つまたは少数の参照顔画像とテキストプロンプトを提供することで、簡単に自分の写真をその場でパーソナライズできる実用的なツール「FlashFace」を紹介します。我々のアプローチは、既存の人物写真カスタマイズ手法と比較して、より高精度なアイデンティティ保存と優れた指示追従を特徴としており、2つの巧妙な設計に支えられています。第一に、顔のアイデンティティを従来の手法のように単一の画像トークンではなく、一連の特徴マップとしてエンコードすることで、モデルが参照顔の詳細(傷跡、タトゥー、顔の形状など)をより多く保持できるようにしています。第二に、テキストと画像のガイダンスをバランスよく統合するための分離統合戦略を導入し、参照顔とテキストプロンプトの間の矛盾(例えば、大人を「子供」や「老人」にパーソナライズする場合)を軽減しています。広範な実験結果により、人物画像のパーソナライゼーション、言語プロンプト下での顔交換、仮想キャラクターを実在の人物にするなど、様々なアプリケーションにおける本手法の有効性が実証されています。プロジェクトページ: https://jshilong.github.io/flashface-page
近年の拡散モデルの進展により、それらは画像生成の最先端に位置づけられています。優れた性能を持つ一方で、拡散モデルには欠点も存在します。複雑なアーキテクチャと膨大な計算リソースを必要とし、反復的なサンプリングプロセスによる著しい遅延が特徴です。これらの制約を緩和するため、我々はモデルの小型化とサンプリングステップの削減を組み合わせた二重のアプローチを提案し、モデルの遅延を大幅に低減することを目指します。我々の手法は、知識蒸留を活用してU-Netと画像デコーダのアーキテクチャを簡素化し、特徴マッチングとスコア蒸留を利用した革新的なワンステップDMトレーニング技術を導入します。SDXS-512とSDXS-1024という2つのモデルを提示し、それぞれ単一GPU上で約100 FPS(SD v1.5の30倍速)と30 FPS(SDXLの60倍速)の推論速度を達成しました。さらに、我々のトレーニングアプローチは、効率的な画像間変換を可能にする画像条件付き制御への応用の可能性を示しています。
高能力な大規模言語モデル(LLMs)の圧縮は、リソース効率の良い推論を実現するための有力な戦略として注目を集めている。最先端(SoTA)の圧縮手法は、良性タスクの性能を維持する点で目覚ましい進歩を遂げているが、安全性と信頼性の観点から見た圧縮の潜在的なリスクは、これまでほとんど無視されてきた。本研究では、3つの主要なLLMsに対して、5つのSoTA圧縮技術を用いて、8つの信頼性次元にわたる初の徹底的な評価を行った。実験結果からは、圧縮と信頼性の間の複雑な相互作用が明らかになり、いくつかの興味深いパターンが浮かび上がった。量子化は現在、効率性と信頼性を同時に達成する点で、プルーニングよりも有効なアプローチであることがわかった。例えば、4ビットの量子化モデルは、元のモデルの信頼性を維持するが、モデルのプルーニングは、50%のスパース性であっても信頼性を著しく低下させる。さらに、適度なビット範囲内での量子化を採用すると、倫理や公平性といった特定の信頼性次元が予期せず向上する可能性がある。逆に、非常に低いビットレベル(3ビット)への極端な量子化は、信頼性を大幅に低下させる傾向がある。このようなリスクの増大は、良性性能だけを見ていても明らかにならないため、実践においては包括的な信頼性評価が必須である。これらの知見は、LLMsにおいて高い有用性、効率性、信頼性を同時に達成するための実践的な提言に結びついている。モデルとコードはhttps://decoding-comp-trust.github.io/で公開されている。
我々はRakutenAI-7Bを紹介します。これは日本語に特化した大規模言語モデルのスイートであり、オープンな7Bモデルの中でJapanese LM Harnessベンチマークにおいて最高の性能を達成しています。基盤モデルに加えて、指示チューニングおよびチャットチューニングされたモデル、それぞれRakutenAI-7B-instructとRakutenAI-7B-chatを、Apache 2.0ライセンスの下でリリースします。
テキストからビデオ生成における最近の進展は、強力な拡散モデルの有用性を実証しています。しかしながら、静的な画像をアニメーション化する(つまり、画像からビデオ生成する)ために拡散モデルを形成する問題は、簡単ではありません。この難しさは、後続のアニメーションフレームの拡散プロセスが、与えられた画像との忠実な整合性を保つだけでなく、隣接するフレーム間の時間的整合性も追求しなければならないという点に起因しています。これを緩和するために、我々はTRIPを提案します。これは、静的な画像から導出された画像ノイズ事前分布を軸として、フレーム間の関係推論を共同でトリガーし、時間的残差学習を通じて時間的モデリングを容易にする、新しい画像からビデオ生成の拡散パラダイムのレシピです。技術的には、まず、静的な画像とノイズ化されたビデオ潜在コードに基づいて、1ステップの逆拡散プロセスを通じて画像ノイズ事前分布を取得します。次に、TRIPはノイズ予測のために残差のようなデュアルパススキームを実行します:1)各フレームの参照ノイズとして画像ノイズ事前分布を直接取るショートカットパスで、最初のフレームと後続のフレーム間の整合性を増幅します;2)ノイズ化されたビデオと静的な画像潜在コードに対して3D-UNetを採用する残差パスで、フレーム間の関係推論を可能にし、それによって各フレームの残差ノイズの学習を容易にします。さらに、各フレームの参照ノイズと残差ノイズは、アテンションメカニズムを通じて動的に統合され、最終的なビデオ生成が行われます。WebVid-10M、DTDB、MSR-VTTデータセットでの広範な実験により、我々のTRIPが画像からビデオ生成において有効であることが実証されています。プロジェクトページはhttps://trip-i2v.github.io/TRIP/をご覧ください。
テキストから3D生成における最近の革新として、スコア蒸留サンプリング(SDS)が注目されています。SDSは、2D拡散モデルから直接事前知識を蒸留することで、暗黙的な3Dモデル(NeRF)のゼロショット学習を可能にします。しかし、現在のSDSベースのモデルは複雑なテキストプロンプトに対応するのに苦戦しており、非現実的なテクスチャや視点間の不整合を伴う歪んだ3Dモデルを生成することが一般的です。本研究では、2Dビジュアルプロンプトの視覚的外観知識を明示的に活用してテキストから3D生成を強化する、新しいビジュアルプロンプト誘導型テキストから3D拡散モデル(VP3D)を提案します。VP3Dは、テキストプロンプトだけでSDSを監督するのではなく、まず2D拡散モデルを利用して入力テキストから高品質な画像を生成し、それをビジュアルプロンプトとしてSDS最適化を強化します。同時に、SDS最適化に追加の微分可能な報酬関数を組み合わせ、3Dモデルのレンダリング画像が2Dビジュアルプロンプトと視覚的に整合し、テキストプロンプトと意味的に一致するよう促します。大規模な実験を通じて、VP3Dの2Dビジュアルプロンプトが3Dモデルの視覚的外観の学習を大幅に容易にし、より詳細なテクスチャを伴う高い視覚的忠実度を実現することを示します。また、自己生成するビジュアルプロンプトを所与の参照画像に置き換えることで、VP3Dがスタイライズされたテキストから3D生成という新たなタスクを引き起こすことができる点も魅力的です。プロジェクトページはhttps://vp3d-cvpr24.github.ioで公開されています。