翻訳付きの日次キュレーションされたAI研究論文
テキストから画像を生成するモデル(例:Stable Diffusion)と、それに対応するDreamBoothやLoRAといったパーソナライゼーション技術の進展により、誰もが手頃なコストで自身の想像力を高品質な画像として具現化できるようになりました。これに伴い、生成された静止画像に動きのダイナミクスを組み合わせるための画像アニメーション技術に対する需要が高まっています。本報告書では、既存のパーソナライズされたテキストから画像を生成するモデルのほとんどを一括してアニメーション化する実用的なフレームワークを提案し、モデルごとのチューニングに要する労力を削減します。提案フレームワークの中核は、凍結されたテキストから画像を生成するモデルに新たに初期化されたモーションモデリングモジュールを挿入し、ビデオクリップでトレーニングして合理的なモーションの事前知識を蒸留することです。一度トレーニングされると、このモーションモデリングモジュールを単に注入するだけで、同じベースのT2Iモデルから派生したすべてのパーソナライズバージョンが、多様でパーソナライズされたアニメーション画像を生成するテキスト駆動モデルになります。私たちは、アニメ絵やリアルな写真を含むいくつかの代表的なパーソナライズされたテキストから画像を生成するモデルに対して評価を行い、提案フレームワークがこれらのモデルが時間的に滑らかなアニメーションクリップを生成しつつ、出力のドメインと多様性を保持することを実証しました。コードと事前トレーニングされた重みはhttps://animatediff.github.io/で公開されます。
大規模言語モデル(LLM)は、人工汎用知能の進化に向けた青写真を提示してきた。その主な目的は、人間中心(役立つ、正直で、無害)のアシスタントとして機能することである。人間との整合性は極めて重要であり、人間のフィードバックを用いた強化学習(RLHF)が、この追求を支える重要な技術的パラダイムとして浮上している。現在の技術的アプローチは通常、人間の嗜好を測定するための報酬モデル、ポリシーモデルの出力を最適化するための近接方策最適化(PPO)、そして段階的な推論能力を向上させるためのプロセス監視を含む。しかし、報酬設計、環境との相互作用、エージェントの訓練における課題に加え、大規模言語モデルの試行錯誤のコストが膨大であるため、AI研究者が技術的整合性とLLMの安全な着陸を促進するための開発を動機付けるには、大きな障壁が存在する。RLHFの安定した訓練は依然として未解決の問題である。最初のレポートでは、RLHFのフレームワークを分析し、PPOの内部動作を再評価し、PPOアルゴリズムを構成する各部分がポリシーエージェントの訓練にどのように影響するかを探る。我々は、PPOアルゴリズムの効果的な実装において、ポリシー制約が鍵となる要因であることを特定した。そこで、PPOの高度なバージョンであるPPO-maxを探求し、ポリシーモデルの訓練の安定性を効率的に向上させる。主要な結果に基づき、RLHFの能力をSFTモデルやChatGPTと比較して包括的に分析する。オープンソースの実装が存在しないことが、LLMの整合性の調査に大きな課題を投げかけている。そのため、技術レポート、報酬モデル、およびPPOコードを公開することを切望している。
近年、テキストから形状を生成するなど、3Dビジョンにおける下流タスクへの大規模事前学習モデルの創造的な応用が大きく進展しています。これを受けて、私たちはこれらの事前学習モデルを活用してスケッチから3D形状を効果的に生成する方法について調査を行いました。この課題は、スケッチと形状のペアデータセットが限られていることや、スケッチの抽象度が多様であることから、これまで未解決のままでした。私たちは、トレーニング中に合成レンダリングの特徴(凍結された大規模事前学習ビジョンモデルから得られたもの)を条件付けすることで、推論時にスケッチから3D形状を効果的に生成できることを発見しました。これは、大規模事前学習ビジョンモデルの特徴がドメインシフトに対して頑健な意味信号を持っていることを示唆しており、つまり、RGBレンダリングのみを使用しながらも、推論時にスケッチに一般化できることを意味します。私たちは、さまざまな設計要素を調査する包括的な実験を行い、トレーニング中にペアデータセットを必要とせず、抽象度に関係なく各入力スケッチに対して複数の3D形状を生成するためのシンプルなアプローチの有効性を実証しました。
本論文では、Transformerベースのマルチモーダル基盤モデルであるEmuを紹介する。このモデルは、マルチモーダルな文脈においてシームレスに画像とテキストを生成することができる。このオムニボア(何でも取り込む)モデルは、単一モダリティまたはマルチモーダルなデータ入力(例えば、画像、テキスト、ビデオが交互に現れるデータ)を区別なく受け入れ、一つのモデルで全てを処理する自己回帰型のトレーニングプロセスを経る。まず、視覚信号が埋め込みにエンコードされ、テキストトークンと共に交互に入力シーケンスを形成する。Emuは、マルチモーダルシーケンスにおいて次のテキストトークンを分類するか、次の視覚埋め込みを回帰するという統一された目的でエンドツーエンドでトレーニングされる。この汎用性の高いマルチモーダル性により、フレームとテキストが交互に現れるビデオ、画像とテキストが交互に現れるウェブページ、ウェブスケールの画像-テキストペアやビデオ-テキストペアなど、多様な事前学習データソースの大規模な探索が可能となる。Emuは、画像からテキスト、テキストから画像のタスクの両方に対応する汎用マルチモーダルインターフェースとして機能し、文脈内での画像とテキストの生成をサポートする。画像キャプション生成、視覚的質問応答、ビデオ質問応答、テキストから画像生成など、幅広いゼロショット/少数ショットタスクにおいて、Emuは最先端の大規模マルチモーダルモデルと比較しても優れた性能を示す。さらに、指示チューニングによるマルチモーダルアシスタントなどの拡張機能も、印象的な性能で実証されている。
本論文では、任意の粒度で物体をセグメント化し認識することを可能にする汎用画像セグメンテーションモデル「Semantic-SAM」を紹介する。本モデルは、セマンティック認識と粒度の豊富さという2つの重要な利点を提供する。セマンティック認識を実現するため、3つの粒度にわたる複数のデータセットを統合し、物体とパーツの分離された分類を導入する。これにより、モデルが豊富な意味情報を捉えることが可能となる。多粒度対応のため、トレーニング中にマルチチョイス学習スキームを提案し、各クリックが複数のグラウンドトゥルースマスクに対応する複数レベルのマスクを生成できるようにする。特に、本研究はSA-1B、汎用、およびパーツセグメンテーションデータセットを共同でトレーニングする初めての試みである。実験結果と可視化により、本モデルがセマンティック認識と粒度の豊富さを成功裏に達成していることが示された。さらに、SA-1Bトレーニングをパノプティックセグメンテーションやパーツセグメンテーションなどの他のセグメンテーションタスクと組み合わせることで、性能向上が得られる。さらなる探求と評価のため、コードとデモを提供する予定である。
我々は、音楽の合成、圧縮、インペインティング、およびバリエーションのためのマスクされた音響トークンモデリング手法であるVampNetを紹介する。トレーニング中に可変マスキングスケジュールを使用することで、推論時に様々なマスキングアプローチ(プロンプトと呼ばれる)を適用することで、モデルから一貫性のある音楽をサンプリングすることが可能となる。VampNetは非自己回帰型であり、双方向トランスフォーマーアーキテクチャを活用して、フォワードパスで全てのトークンに注意を向ける。わずか36回のサンプリングパスで、VampNetは一貫性のある高忠実度の音楽波形を生成することができる。我々は、VampNetに様々な方法でプロンプトを与えることで、音楽の圧縮、インペインティング、アウトペインティング、継続、およびバリエーションを伴うループ(ヴァンピング)といったタスクに適用できることを示す。適切にプロンプトを与えることで、VampNetは音楽のスタイル、ジャンル、楽器編成、その他の高レベルの側面を維持することが可能である。この柔軟なプロンプト機能により、VampNetは強力な音楽共創ツールとなる。コードと音声サンプルはオンラインで公開されている。
人間の知性は、認知シナジーの概念によって発展してきました。これは、異なる認知プロセス間の協力と情報統合が、個別の認知プロセスの単独での成果よりも優れた結果をもたらすというものです。大規模言語モデル(LLM)は、汎用的なタスク解決エージェントとして有望な性能を示していますが、専門知識や複雑な推論を必要とするタスクでは依然として苦戦しています。本研究では、Solo Performance Prompting(SPP)を提案します。SPPは、単一のLLMを認知シナジストに変えることで、複数のペルソナとの多段階自己協力を実現します。認知シナジストとは、複数のマインドと協力し、それぞれの強みと知識を組み合わせることで、複雑なタスクにおける問題解決と全体的なパフォーマンスを向上させるインテリジェントエージェントを指します。タスク入力に基づいて異なるペルソナを動的に特定しシミュレートすることで、SPPはLLMにおける認知シナジーの可能性を引き出します。我々は、単一または固定数のペルソナを使用する場合と比較して、LLMに複数の細分化されたペルソナを割り当てることで、より優れた問題解決能力が引き出されることを発見しました。SPPを、知識集約型と推論集約型の両方を含む3つの挑戦的なタスク(Trivia Creative Writing、Codenames Collaborative、Logic Grid Puzzle)で評価しました。Chain-of-Thoughtなどの従来の研究がLLMの推論能力のみを強化するのに対し、SPPは内部知識獲得能力を効果的に引き出し、幻覚を減少させ、強力な推論能力を維持します。コード、データ、およびプロンプトは以下で公開しています: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git。
事前学習済み大規模言語モデル(LLM)が、確率的文脈自由文法(PCFG)によって手続き的に生成された任意のトークン列から、汎用AIベンチマークであるAbstract Reasoning Corpus(ARC)に見られるようなより豊かな空間パターンまで、ASCIIアート風にプロンプトされた複雑なトークン列を自己回帰的に補完できることを観察しました。驚くべきことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスを表現した場合でも、パターン補完能力が部分的に保持されることがわかりました。これらの結果は、追加の学習なしで、LLMが文脈内学習によって駆動される汎用シーケンスモデルとして機能し得ることを示唆しています。本研究では、これらのゼロショット能力をロボティクスの問題にどのように適用できるかを調査します。具体的には、時間経過に伴う状態を表す数値列を外挿して単純な動作を補完することから、報酬条件付き軌道のleast-to-mostプロンプティングによって閉ループポリシー(例えば、CartPoleの安定化制御器)を発見・表現することまでを検討します。レイテンシ、コンテキストサイズの制約、計算コストなどの理由で現時点では実システムへの展開は困難ですが、LLMを用いて低レベル制御を駆動するアプローチは、言葉の間のパターンがどのように行動に転移し得るかについての興味深い示唆を提供する可能性があります。
世界中の言語向けNLPシステムを開発する上での課題は、実世界のアプリケーションに関連する類型論的差異に対してそれらがどのように一般化するかを理解することです。この目的のために、我々は形態論を考慮したNLPモデルの行動テストフレームワークであるM2Cを提案します。M2Cを使用して、12の類型論的に多様な言語における特定の言語的特徴に基づいてモデルの行動を探るテストを生成します。生成されたテストに対して最先端の言語モデルを評価します。英語のほとんどのテストではモデルが優れた性能を示す一方で、スワヒリ語の時間表現やフィンランド語の複合所有表現といった特定の類型論的特徴に対する一般化の失敗が明らかになりました。これらの知見は、こうした盲点に対処するモデルの開発を促すものです。
大規模言語モデル(LLM)は自然言語処理の分野で顕著な成功を収め、自然言語を用いた人間とコンピュータのより良いインタラクションを可能にしてきました。しかし、音声信号をLLMにシームレスに統合することは十分に検討されていません。「デコーダのみ」のアーキテクチャも、音声処理タスクにおいて十分に研究されていません。本研究では、音響情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチであるSpeech-LLaMAを紹介します。本手法は、接続主義的時間分類(CTC)とシンプルなオーディオエンコーダを活用し、圧縮された音響特徴をLLMの連続的な意味空間にマッピングします。さらに、音声テキストペアデータのみを使用して、小規模なランダム初期化されたSpeech-LLaMAモデルをトレーニングすることで、音声からテキストへのタスクにおけるデコーダのみのアーキテクチャをさらに探求します。多言語音声テキスト翻訳タスクでの実験を行い、強力なベースラインを大幅に上回る改善を示し、音声からテキストへの変換におけるデコーダのみのモデルの潜在的な利点を強調します。
国際機関は、先進的なAIシステムが人類に利益をもたらすことを確保する上で重要な役割を果たす可能性がある。国際的な協力は、AIが持続可能な開発をさらに推進する能力を解き放つことができ、規制努力の調整は、イノベーションと利益の普及に対する障害を減らすことができる。逆に、強力で汎用性の高いAIシステムの潜在的に危険な能力は、その開発と展開においてグローバルな外部性を生み出し、責任あるAIの実践をさらに進めるための国際的な取り組みは、それらがもたらすリスクを管理するのに役立つ可能性がある。本論文は、これらの課題に対処するために国際レベルで実行される可能性のある一連のガバナンス機能を特定し、フロンティアAIシステムへのアクセスを支援することから国際的な安全基準を設定することまでを範囲としている。これらの機能を、内部の相乗効果があり、既存の組織に先例がある4つの制度的モデルに分類している:1)先進的なAIの機会とリスクに関する専門家の合意を促進するフロンティアAI委員会、2)先進的なモデルから生じるグローバルな脅威を管理するための国際基準を設定し、その実施を支援し、将来のガバナンス体制への遵守を監視する可能性のある先進AIガバナンス機関、3)最先端のAIへのアクセスを促進するフロンティアAI協力体、4)AI安全研究をさらに進めるために主要な研究者とエンジニアを集めるAI安全プロジェクト。これらのモデルの有用性を探り、その実現可能性に関する未解決の課題を特定する。
プログラム合成、またはコード生成の目標は、与えられた記述に基づいて実行可能なコードを生成することです。最近、大規模言語モデル(LLM)のコード生成性能を向上させるために強化学習(RL)を活用する研究が増えています。しかし、これらのRL手法はオフラインフレームワークのみを使用しており、新しいサンプル空間の探索が制限されています。さらに、現在のユニットテスト信号を利用するアプローチは比較的単純で、コード内の特定のエラー位置を考慮していません。これらの問題に対処するため、我々はRLTF、すなわちユニットテストフィードバックからの強化学習を提案しました。これは、コードLLMを洗練するための多粒度のユニットテストフィードバックを備えた新しいオンラインRLフレームワークです。我々のアプローチは、トレーニング中にリアルタイムでデータを生成し、同時に細かい粒度のフィードバック信号を利用して、より高品質なコードを生成するようモデルを導きます。大規模な実験により、RLTFがAPPSおよびMBPPベンチマークで最先端の性能を達成することが示されました。我々のコードは以下で確認できます:https://github.com/Zyq-scut/RLTF。
AI研究を進める上で、一貫性と信頼性は極めて重要です。物体検出など多くの著名な研究分野では、確固たるベンチマークフレームワークを用いて比較と検証が行われてきました。AlphaFold2以降、タンパク質フォールディングの研究は新たな段階に入り、AlphaFold2の構成要素を基にした多くの手法が提案されています。タンパク質フォールディングにおける統一的な研究フレームワークの重要性は、様々なアプローチを一貫して公平に比較するための実装とベンチマークを含んでいます。これを実現するため、我々はSolventを提案します。Solventは、最新モデルの主要な構成要素をオフ・ザ・シェルフ形式でサポートするタンパク質フォールディングフレームワークです。Solventは、統一されたコードベースで実装された異なるモデルを含み、定義されたモデルの同一データセット上での学習と評価をサポートします。我々は、よく知られたアルゴリズムとその構成要素をベンチマークし、タンパク質構造モデリング分野に有用な知見をもたらす実験を提供します。Solventが提案モデルの信頼性と一貫性を高め、速度とコストの両面で効率性をもたらすことで、タンパク質フォールディングモデリング研究の加速に寄与することを期待しています。コードはhttps://github.com/kakaobrain/solventで公開されており、プロジェクトは継続的に開発されます。
本論文では、書籍を本棚の開いたスロットに挿入するなど、所望の物体とシーンの配置関係を実現するために、シーン内の物体を再配置するシステムを提案する。このパイプラインは、シーンと物体の新しい形状、姿勢、レイアウトに一般化でき、3D点群上で直接動作するようデモンストレーションから訓練される。本システムは、与えられたシーンに対して幾何学的に類似した再配置解が多数存在するという課題を克服する。反復的な姿勢ノイズ除去訓練プロセスを活用することで、多様なデモンストレーションデータに適合し、多様な出力を生成しながらも、精度と正確性を維持する。また、一般化と精度を損なう無関係なグローバル構造を無視し、関連する局所的な幾何学的特徴に条件付けを行う利点を示す。シミュレーションと実世界の両方において、物体の形状と姿勢に対する多様性と一般化を扱う必要がある3つの異なる再配置タスクに対して、本アプローチを実証する。プロジェクトのウェブサイト、コード、およびビデオは以下の通り:https://anthonysimeonov.github.io/rpdiff-multi-modal/
音声入力はますます重要なテキスト入力モダリティとなっている。既存の音声入力と音声編集を両立するシステムは、トリガーワードで呼び出されるフラットなテンプレートにコマンド言語を制限している。本研究では、ユーザーが自由な自然言語で音声編集コマンドを挟みながら音声入力を行うことの実現可能性を探る。このようなシステムを実験するため、新たなタスクとデータセット「TERTiUS」を導入する。この柔軟性をリアルタイムでサポートするため、システムは音声を逐次的に分割し、入力テキストかコマンドかを分類し、コマンド部分を解釈しなければならない。大規模な事前学習済み言語モデルを用いて、編集後のテキストを直接予測する方法と、小さなテキスト編集プログラムを予測する方法を実験する。実験結果から、モデルの精度とレイテンシの間に自然なトレードオフが存在することがわかる:小規模モデルは1.3秒のレイテンシで30%の最終状態精度を達成し、大規模モデルは7秒のレイテンシで55%の最終状態精度を達成する。
ビジョンベースのテレオペレーションは、ロボットに環境と物理的に相互作用するための人間レベルの知能を付与する可能性を提供し、低コストのカメラセンサーのみを必要とします。しかし、現在のビジョンベースのテレオペレーションシステムは、特定のロボットモデルと展開環境に向けて設計・構築されており、ロボットモデルのプールが拡大し、操作環境の多様性が増すにつれて、スケーラビリティが低くなります。本論文では、AnyTeleopを提案します。これは、単一のシステム内で複数の異なるアーム、ハンド、現実、およびカメラ構成をサポートする統一された汎用テレオペレーションシステムです。シミュレーターと実ハードウェアの選択に大きな柔軟性を提供するように設計されているにもかかわらず、我々のシステムは依然として優れた性能を達成できます。実世界の実験では、AnyTeleopは、特定のロボットハードウェア向けに設計された以前のシステムを、同じロボットを使用してより高い成功率で上回ることができます。シミュレーションにおけるテレオペレーションでは、AnyTeleopは、そのシミュレーター向けに特別に設計された以前のシステムと比較して、より良い模倣学習性能をもたらします。プロジェクトページ: http://anyteleop.com/。