翻訳付きの日次キュレーションされたAI研究論文
ShareGPT4Videoシリーズを紹介します。本シリーズは、大規模なビデオ言語モデル(LVLM)のビデオ理解と、テキストからビデオを生成するモデル(T2VM)のビデオ生成を、緻密で正確なキャプションを通じて促進することを目的としています。シリーズは以下の3つで構成されます:1) ShareGPT4Video - 様々な長さとソースのビデオに対してGPT4Vで注釈付けされた40,000件の緻密なキャプションで、慎重に設計されたデータフィルタリングと注釈付け戦略を通じて開発されました。2) ShareCaptioner-Video - 任意のビデオに対して効率的かつ高品質なキャプションを生成できるモデルで、480万件の高品質で美的なビデオに注釈を付けました。3) ShareGPT4Video-8B - シンプルでありながら優れたLVLMで、3つの先進的なビデオベンチマークでSOTA性能を達成しました。これを実現するため、スケーラビリティの低い高コストな人間の注釈者を除き、GPT4Vを使用してビデオにキャプションを付ける際に、単純なマルチフレームやフレーム連結の入力戦略では、詳細が不足し、時系列が混乱する結果になることを発見しました。高品質なビデオキャプション戦略の設計における課題は、以下の3つの側面にあると主張します:1) フレーム間の正確な時間的変化の理解。2) フレーム内の詳細な内容の記述。3) 任意の長さのビデオに対するフレーム数のスケーラビリティ。このため、任意の解像度、アスペクト比、長さのビデオに対して安定してスケーラブルで効率的なキャプションを生成するための差分ビデオキャプション戦略を緻密に設計しました。これに基づいて、幅広いカテゴリにわたる40,000件の高品質なビデオを含むShareGPT4Videoを構築し、その結果得られたキャプションは、豊富な世界知識、オブジェクトの属性、カメラの動き、そして重要なことに、イベントの詳細で正確な時間的記述を含んでいます。ShareGPT4Videoに基づいて、さらにShareCaptioner-Videoを開発しました。これは、任意のビデオに対して効率的に高品質なキャプションを生成できる優れたキャプションモデルです...
拡散モデルに基づく画像生成技術は近年、高品質なコンテンツ合成能力を示すことで大きな成功を収めています。しかし、これらのモデルは膨大なパラメータ数を有しており、結果として非常に大きなモデルサイズとなっています。そのため、保存や転送が主要なボトルネックとなっており、特にリソースが制約されたデバイス上での運用において大きな課題となっています。本研究では、Stable Diffusion v1.5のUNetを1.99ビットに量子化する新たな重み量子化手法を開発し、モデルサイズを7.9倍小さくしながら、元のモデルよりも優れた生成品質を実現しました。私たちのアプローチでは、各層に最適なビット数を割り当てる、量子化モデルをより良い性能で初期化する、量子化誤差を大幅に低減するための学習戦略を改善するなど、いくつかの新技術を導入しています。さらに、量子化モデルを様々なベンチマークデータセットで広範に評価し、人間による評価を通じてその優れた生成品質を実証しました。
最近、Direct Preference Optimization (DPO)は、大規模言語モデル(LLM)のアラインメントから、テキストから画像への拡散モデルを人間の好みに合わせることにその成功を拡大しています。既存のDPO手法の多くは、すべての拡散ステップが最終生成画像と一貫した選好順序を共有することを前提としていますが、この前提はステップ固有のノイズ除去性能を無視しており、選好ラベルは各ステップの貢献に合わせて調整されるべきであると私たちは主張します。この制限に対処するため、私たちはStep-aware Preference Optimization (SPO)を提案します。これは、ステップごとのノイズ除去性能を独立して評価し調整する新しいポストトレーニングアプローチであり、ステップを意識した選好モデルとステップごとのリサンプラーを使用して、正確なステップを意識した監督を確保します。具体的には、各ノイズ除去ステップで、画像のプールをサンプリングし、適切な勝敗ペアを見つけ、最も重要なこととして、プールから単一の画像をランダムに選択して次のノイズ除去ステップを初期化します。このステップごとのリサンプラープロセスにより、次の勝敗画像ペアが同じ画像から来ることを保証し、勝敗比較を前のステップから独立させます。各ステップでの選好を評価するために、ノイズのある画像とクリーンな画像の両方に適用できる別個のステップを意識した選好モデルをトレーニングします。Stable Diffusion v1.5とSDXLを用いた実験では、SPOが複雑で詳細なプロンプトに合わせた生成画像のアラインメントと美的感覚の向上において、最新のDiffusion-DPOを大幅に上回り、トレーニング効率も20倍以上向上することを示しています。コードとモデル: https://rockeycoss.github.io/spo.github.io/
本論文では、大規模言語モデル(LLM)の精度、効率、堅牢性を向上させるための新規で汎用的な思考拡張推論手法であるBuffer of Thoughts(BoT)を提案する。具体的には、様々なタスクにおける問題解決プロセスから抽出された情報量の多い高レベルな思考、すなわち思考テンプレートを保存するためのメタバッファを導入する。そして、各問題に対して関連する思考テンプレートを検索し、特定の推論構造を適応的にインスタンス化することで効率的な推論を行う。スケーラビリティと安定性を保証するため、バッファマネージャを提案し、メタバッファを動的に更新することで、より多くのタスクが解決されるにつれてメタバッファの容量を強化する。10の難易度の高い推論集中タスクで広範な実験を行い、従来のSOTA手法を大幅に上回る性能向上を達成した:Game of 24で11%、Geometric Shapesで20%、Checkmate-in-Oneで51%の改善を記録した。さらに、BoTの優れた汎化能力とモデルの堅牢性が示され、多クエリプロンプト手法(例:tree/graph of thoughts)の平均コストのわずか12%しか必要としないことが明らかになった。特に、Llama3-8B+BoTがLlama3-70Bモデルを凌駕する可能性があることが判明した。本プロジェクトは以下で公開されている:https://github.com/YangLing0818/buffer-of-thought-llm
拡散ベースのビデオ生成モデルは、反復的なノイズ除去プロセスを通じて高忠実度のビデオを生成する際に顕著な成功を収めてきました。しかし、これらのモデルはサンプリング時に複数のノイズ除去ステップを必要とするため、高い計算コストがかかります。本研究では、事前学習済みのビデオ拡散モデルを敵対的学習を用いて微調整し、単一ステップでビデオを生成する新しいアプローチを提案します。我々は、敵対的学習を通じて、多段階のビデオ拡散モデル(Stable Video Diffusion, SVD)を単一のフォワードパスで高品質なビデオを合成するように訓練できることを示します。これにより、ビデオデータの時間的および空間的依存性を捉えることが可能となります。大規模な実験により、我々の手法がノイズ除去プロセスの計算オーバーヘッドを大幅に削減しつつ(SVDと比較して約23倍、既存研究と比較して6倍の高速化を実現)、生成品質においても優れた結果を得ることが示されました。これにより、リアルタイムのビデオ合成と編集への道が開かれます。さらなる可視化結果はhttps://snap-research.github.io/SF-Vで公開されています。
Diffusionモデルは、テキストからビデオ(T2V)生成において大きな成功を収めています。しかし、既存の手法は、複数のオブジェクトやオブジェクト数の動的な変化を含む複雑な(長い)ビデオ生成シナリオを扱う際に課題に直面する可能性があります。これらの制限に対処するため、我々はVideoTetrisという新しいフレームワークを提案します。これは、合成的なT2V生成を可能にするものです。具体的には、時空間的な合成的Diffusionを提案し、ノイズ除去ネットワークのアテンションマップを空間的および時間的に操作・合成することで、複雑なテキストの意味を正確に追従します。さらに、モーションダイナミクスとプロンプト理解に関するトレーニングデータを強化するための拡張ビデオデータ前処理を提案し、自動回帰的なビデオ生成の一貫性を向上させる新しい参照フレームアテンションメカニズムを備えています。広範な実験により、我々のVideoTetrisが合成的T2V生成において印象的な定性的および定量的な結果を達成することが示されています。コードは以下で公開されています: https://github.com/YangLing0818/VideoTetris
多様なタスクを処理し、異なる環境間で自己進化できる汎用エージェントの構築は、AIコミュニティにおける長期的な目標である。大規模言語モデル(LLMs)は、その汎用的な能力から、そのようなエージェントを構築するための有望な基盤と見なされている。現在のアプローチでは、LLMベースのエージェントに専門家が提供した軌跡をステップバイステップで模倣させることで、人間の監督を必要とし、スケーラビリティが低く、環境探索が制限されるか、またはエージェントを孤立した環境で探索・学習させ、汎化能力が限られた専門家エージェントを生み出している。本論文では、自己進化能力を持つ汎用LLMベースエージェントの構築に向けた第一歩を踏み出す。我々は、以下の3つの要素を特定した:1)エージェントの探索と学習のための多様な環境、2)エージェントに基本的な能力と事前知識を提供する軌跡セット、3)効果的でスケーラブルな進化手法。我々は、広範でリアルタイム、統一フォーマット、並行探索を可能にする多様な環境とタスクを特徴とする新しいフレームワーク、AgentGymを提案する。AgentGymには、拡張された指示、ベンチマークスイート、および環境間での高品質な軌跡を含むデータベースも含まれる。次に、我々は、タスクや環境を超えて以前に見たデータを超えたエージェントの自己進化の可能性を探るための新しい手法、AgentEvolを提案する。実験結果は、進化したエージェントがSOTAモデルに匹敵する結果を達成できることを示している。我々は、プラットフォーム、データセット、ベンチマーク、チェックポイント、およびアルゴリズム実装を含むAgentGymスイートを公開する。AgentGymスイートはhttps://github.com/WooooDyy/AgentGymで利用可能である。
テキストガイド画像生成は、テキスト記述から視覚コンテンツを作成することを可能にします。しかし、一部の視覚的概念は言語だけでは効果的に伝えることができません。これにより、IP-Adapterのような手法を通じて、より視覚指向のタスクにCLIP画像埋め込み空間を活用する新たな関心が高まっています。興味深いことに、CLIP画像埋め込み空間は意味的に有意義であることが示されており、この空間内での線形操作は意味的に有意義な結果をもたらします。ただし、これらの操作の具体的な意味は、異なる画像間で予測不可能に変化する可能性があります。この可能性を活用するため、我々はpOpsを導入します。これは、CLIP画像埋め込み上で特定の意味的演算子を直接訓練するフレームワークです。各pOps演算子は、事前訓練されたDiffusion Priorモデルに基づいて構築されています。Diffusion Priorモデルは元々、テキスト埋め込みと画像埋め込みの間のマッピングを訓練するために設計されましたが、新しい入力条件に対応するように調整できることを示し、これにより拡散演算子が得られます。画像埋め込み上で直接作業することは、意味的操作を学習する能力を向上させるだけでなく、必要に応じてテキストCLIP損失を追加の監督として直接使用することを可能にします。我々は、pOpsが多様な写真にインスパイアされた演算子を学習するために使用できることを示し、提案手法の意味的多様性と潜在的可能性を強調します。
近年、インターネット規模のデータを用いて基盤モデルを訓練することにより、AIシステムの一般的な能力が飛躍的に向上しています。しかしながら、無限に自己改善を続けるオープンエンドなAIの実現は未だ困難な課題です。本ポジションペーパーでは、人間の観察者にとってのオープンエンド性をAIシステムで達成するための要素が既に揃っていると主張します。さらに、そのようなオープンエンド性は、人工超知能(ASI)にとって不可欠な特性であると述べます。まず、新奇性と学習可能性の観点から、オープンエンド性の具体的な形式的定義を提示します。次に、基盤モデル上に構築されたオープンエンドシステムを通じて、人間にとって関連性のある新たな発見を行うASIへの道筋を示します。最後に、一般的な能力を持つオープンエンドAIの安全性に関する影響を考察します。近い将来、オープンエンドな基盤モデルは、研究の肥沃な領域であり、安全性の観点からも重要なテーマとなることが期待されます。