翻訳付きの日次キュレーションされたAI研究論文
ソフトウェアは、私たち人間が利用できる最も強力なツールの一つです。熟練したプログラマーが複雑で深遠な方法で世界と関わることを可能にします。同時に、大規模言語モデル(LLMs)の進歩により、周囲の環境と相互作用し、変化をもたらすAIエージェントの急速な発展も見られています。本論文では、OpenDevinというプラットフォームを紹介します。これは、人間の開発者と同様の方法で世界と関わる強力で柔軟なAIエージェントを開発するためのプラットフォームです。具体的には、コードを書く、コマンドラインとやり取りする、ウェブを閲覧するといった方法で世界と関わります。本プラットフォームが、新しいエージェントの実装、コード実行のためのサンドボックス環境との安全な相互作用、複数のエージェント間の調整、評価ベンチマークの組み込みをどのように可能にするかを説明します。現在組み込まれているベンチマークに基づき、ソフトウェアエンジニアリング(例:SWE-Bench)やウェブ閲覧(例:WebArena)など、15の挑戦的なタスクに対するエージェントの評価を行います。OpenDevinは、寛容なMITライセンスの下でリリースされており、学界と産業界にまたがるコミュニティプロジェクトで、160人以上の貢献者から1,300以上の貢献があり、今後も改善されていく予定です。
視覚言語モデル(VLM)は、大規模言語モデル(LLM)の成功に後押しされ、急速に進化を遂げています。モデルアーキテクチャやトレーニングインフラが急速に進歩する一方で、データのキュレーションはまだ十分に探求されていません。データの量と質がボトルネックとなる場合、既存の研究では、データ品質の保証がないインターネットからの生データを直接クロールするか、ブラックボックスの商用モデル(例:GPT-4V / Gemini)から蒸留する方法が取られており、そのモデルの性能上限に制約されています。本研究では、データ品質とモデル性能を反復的に向上させるために、自己拡張ステップと専門家拡張ステップを含む新しいアプローチを提案します。自己拡張ステップでは、VLMが自身の事前学習データを再キャプションしてデータ品質を向上させ、その後、この精緻化されたデータセットを使用してモデルをゼロから再トレーニングし、性能を向上させます。このプロセスは複数回繰り返すことができます。自己拡張が飽和した後、自己拡張されたVLMからドメイン固有の専門知識を持つ複数の専門家VLMをファインチューニングし、タスク指向の再キャプションと再トレーニングを通じて、汎用VLMに専門家の知識をさらに注入します。自己拡張と専門家拡張を組み合わせたトレーニングにより、VILA^2(VILA-augmented-VILA)というVLMファミリーを導入し、幅広いタスクにおいて従来の技術を上回る精度を一貫して向上させ、オープンソースモデルの中でMMMUリーダーボードで新たな最先端の結果を達成しました。
人間画像アニメーションは、キャラクター写真から動画を生成し、ユーザー制御を可能にすることで、映像制作や映画制作の可能性を広げる技術です。最近のアプローチでは、高品質なトレーニングデータを使用して印象的な結果を生み出していますが、これらのデータセットへのアクセスが制限されているため、公平で透明性のあるベンチマークが妨げられています。さらに、これらのアプローチは2Dの人間の動きを優先し、動画におけるカメラの動きの重要性を見落としているため、制御が限られ、不安定な動画生成につながっています。トレーニングデータの謎を解明するため、私たちはHumanVidを提案します。これは、人間画像アニメーションに特化した初の大規模高品質データセットで、精巧に作られた実世界データと合成データを組み合わせています。実世界データについては、インターネットから著作権フリーの実世界動画を大量に収集しました。慎重に設計されたルールベースのフィルタリング戦略を通じて、高品質な動画を含めることを保証し、1080P解像度の人間中心の動画20,000本を収集しました。人間とカメラの動きのアノテーションは、2Dポーズ推定器とSLAMベースの手法を使用して行われました。合成データについては、2,300の著作権フリーの3Dアバターアセットを収集し、既存の利用可能な3Dアセットを拡充しました。特に、ルールベースのカメラ軌道生成方法を導入し、合成パイプラインが多様で正確なカメラ動きのアノテーションを組み込むことを可能にしました。これは実世界データではほとんど見られないものです。HumanVidの有効性を検証するため、CamAnimate(Camera-controllable Human Animationの略)というベースラインモデルを確立しました。これは、人間とカメラの動きの両方を条件として考慮します。広範な実験を通じて、私たちのHumanVidでこのようなシンプルなベースラインをトレーニングすることで、人間のポーズとカメラの動きの両方を制御する最新の性能を達成し、新しいベンチマークを設定することを実証しました。コードとデータはhttps://github.com/zhenzhiwang/HumanVid/で公開されます。
大規模言語モデル(LLM)は様々なアプリケーションにおいて高度な知能能力を発揮する一方で、依然として計算リソースとストレージの面で大きな負荷がかかります。知識蒸留(Knowledge Distillation, KD)は、高性能なLLM(教師モデル)から知識を転送することで、より小規模なLLM(学生モデル)の性能を向上させる効果的な戦略として注目されています。従来のLLM蒸留技術では、ブラックボックスモデルのAPIを使用して高品質な事前学習済みデータセットを生成したり、損失関数を変更して教師LLMからの知識転送を改善するホワイトボックス蒸留を活用したりする方法が一般的でした。しかし、これらの手法は学生モデルと教師モデルの間のドメインごとの知識の差異を無視しており、性能差が小さいドメインに過度に焦点を当てる一方で、差が大きいドメインへの注意が不十分になるため、全体の性能が低下する問題がありました。本論文では、DDKと呼ばれる新しいLLM蒸留フレームワークを提案します。DDKは、教師モデルと学生モデルのドメインごとの性能差に応じて、蒸留データセットの構成を滑らかに動的に調整することで、蒸留プロセスをより安定かつ効果的にします。広範な評価の結果、DDKは学生モデルの性能を大幅に向上させ、継続的に事前学習されたベースラインや既存の知識蒸留手法を大きく上回ることが示されました。
言語モデル(LM)の急速な進展に伴い、多様なユーザー価値観との堅牢な整合性が求められています。しかし、現在の選好最適化アプローチは、しばしばユーザー意見の多様性を捉えきれず、多数派の視点を強化し、少数派の視点を疎外してしまう傾向にあります。本論文では、LMの多元的整合性を評価・改善するための再現可能なテストベッドであるPERSONAを紹介します。米国国勢調査データから多様なユーザープロファイルを手続き的に生成し、1,586の合成ペルソナを作成しました。これらのペルソナは、さまざまな人口統計学的特性と個人的特性を備えています。次に、これらの合成ペルソナから得られた3,868のプロンプトと317,200のフィードバックペアを含む大規模な評価データセットを生成しました。このデータセットを活用し、人間の評価者による検証を通じて、多様なユーザーをロールプレイするLMの能力を体系的に評価しました。さらに、多元的整合性アプローチのためのベンチマークであるPERSONA Benchと、新たな将来のベンチマークを作成するための広範なデータセットを確立しました。完全なデータセットとベンチマークは以下で利用可能です:https://www.synthlabs.ai/research/persona。
大規模言語モデル(LLM)のような現代のAI手法の最も基本的な能力は、長いトークン列における次のトークンを予測する能力であり、これは「シーケンスモデリング」として知られています。Transformerモデルは現在、シーケンスモデリングにおける主流のアプローチですが、シーケンス長に対して二次的な計算コストがかかるという重大な欠点があります。状態空間モデル(SSM)は、線形デコード効率とトレーニング中の高い並列化可能性から、有望な代替手段を提供します。しかし、既存のSSMはしばしば一見アドホックな線形再帰設計に依存しています。本研究では、オンライン学習の視点からSSM設計を探求し、SSMを特定のオンライン学習問題のためのメタモジュールとして概念化します。このアプローチにより、SSM設計は正確なオンライン学習目標の定式化と結びつき、状態遷移規則はこれらの目標を最適化することから導出されます。この洞察に基づいて、オンライン回帰目標を最適化するための暗黙的更新に基づく新しい深層SSMアーキテクチャを導入します。実験結果は、我々のモデルが標準的なシーケンスモデリングベンチマークと言語モデリングタスクにおいて、Mambaモデルを含む最先端のSSMを上回ることを示しています。
本論文では、多フレーム・多視点にわたる一貫性のある動的3Dコンテンツ生成のための潜在空間ビデオ拡散モデル「Stable Video 4D (SV4D)」を提案する。従来手法では、ビデオ生成と新視点合成のために別々に訓練された生成モデルに依存していたが、我々は動的3Dオブジェクトの新視点ビデオを生成するための統合拡散モデルを設計した。具体的には、単眼参照ビデオを入力として、SV4Dは各ビデオフレームに対して時間的に一貫した新視点を生成する。その後、生成された新視点ビデオを用いて、暗黙的な4D表現(動的NeRF)を効率的に最適化する。これにより、従来の研究で一般的に用いられていた煩雑なSDSベースの最適化を必要としない。我々の統合新視点ビデオ生成モデルを訓練するために、既存のObjaverseデータセットから動的3Dオブジェクトデータセットを構築した。複数のデータセットとユーザスタディによる広範な実験結果は、SV4Dが新視点ビデオ合成および4D生成において、従来手法と比較して最先端の性能を発揮することを示している。
視覚運動ロボットに多様なオープンワールドシナリオで動作する汎化能力を付与することは可能か?本論文では、視覚強化学習に特化した汎用フレームワーク「Maniwhere」を提案し、訓練されたロボットポリシーが複数の視覚的擾乱タイプの組み合わせにわたって汎化できるようにする。具体的には、Spatial Transformer Network(STN)モジュールと融合したマルチビュー表現学習アプローチを導入し、異なる視点間の共有セマンティック情報と対応関係を捕捉する。さらに、カリキュラムベースのランダム化と拡張アプローチを採用して、RL訓練プロセスを安定化し、視覚的汎化能力を強化する。Maniwhereの有効性を示すため、関節物体、両手操作、および器用な手の操作タスクを含む8つのタスクを綿密に設計し、3つのハードウェアプラットフォームにわたるManiwhereの強力な視覚的汎化とシミュレーションから実世界への転移能力を実証する。実験結果は、Maniwhereが既存の最先端手法を大幅に上回ることを示している。動画はhttps://gemcollector.github.io/maniwhere/で提供されている。
同じプロンプトに対して生成された画像でも、異なるユーザーが異なる画像を好む。これにより、個人の視覚的嗜好に沿った画像を生成するパーソナライズド画像生成が求められるようになった。しかし、現在の生成モデルは広範なユーザー層にアピールするように調整されているため、パーソナライズされていない。これらのモデルを使用して個々のユーザーの嗜好に沿った画像を生成するには、ユーザーによる反復的な手動プロンプトエンジニアリングが必要であり、非効率的で望ましくない。我々は、画像生成プロセスをパーソナライズするために、まずユーザーに少数の画像に対してコメントを付けてもらい、それぞれの画像を好きまたは嫌いな理由を説明してもらうことで、一度限りのプロセスでユーザーの一般的な嗜好を捕捉することを提案する。これらのコメントに基づいて、大規模言語モデルを使用してユーザーの構造化された好みと嫌いの視覚的属性、すなわち視覚的嗜好を推論する。これらの属性を使用して、テキストから画像へのモデルを導き、個々のユーザーの視覚的嗜好に合わせた画像を生成する。一連のユーザー調査と大規模言語モデルによる評価を通じて、提案手法が個々のユーザーの視覚的嗜好に良く合致した生成結果をもたらすことを実証する。
機械学習アクセラレータハードウェアでは、大規模言語モデルの学習と推論における計算効率を向上させるため、float8などの低精度フォーマットが導入されています。しかし、MLコミュニティでの採用は、高精度学習の精度を維持するために必要な複雑で脆弱な技術によって遅れています。本研究では、既存のテンソルスケーリング手法を一般化し形式化した、計算グラフのためのエンドツーエンドのスケール伝播パラダイムであるScalifyを提案します。実験結果から、Scalifyがfloat8行列乗算と勾配表現、およびfloat16オプティマイザ状態の保存をそのままサポートすることが示されています。ScalifyのJAX実装はhttps://github.com/graphcore-research/jax-scalifyでオープンソースとして公開されています。
交通システム、電力網、サプライチェーンなどの多くの困難なタスクは、複数の相反する目的をバランスさせ、さまざまな独立した意思決定者(DMs)の行動を調整する必要がある複雑な意思決定プロセスを伴います。このようなタスクを形式化し、取り組むための一つの視点として、多目的多エージェント強化学習(MOMARL)があります。MOMARLは、強化学習(RL)を、各エージェントが学習プロセスで複数の目的を考慮する必要がある問題に拡張します。強化学習の研究において、ベンチマークは進歩、評価、再現性を促進する上で重要です。ベンチマークの重要性は、単一エージェントRL(例:Gymnasium)、多エージェントRL(例:PettingZoo)、単一エージェント多目的RL(例:MO-Gymnasium)など、さまざまなRLパラダイムのために開発された多数のベンチマークフレームワークの存在によって強調されています。MOMARL分野の発展を支援するために、我々はMOMAlandを紹介します。MOMAlandは、多目的多エージェント強化学習のための最初の標準化された環境コレクションです。MOMAlandは、この新興分野における包括的なベンチマークの必要性に対応し、エージェント数、状態表現、報酬構造、効用考慮事項が異なる10以上の多様な環境を提供します。将来の研究のための強力なベースラインを提供するために、MOMAlandはそのような設定でポリシーを学習できるアルゴリズムも含んでいます。
近年、拡散モデルによって生成された画像が劇的に増加し、現在の検出技術に独自の課題を突きつけています。これらの画像を識別するタスクは二値分類という一見単純なカテゴリに属しますが、「再構築して比較する」手法、すなわちDIRE(Diffusion Reconstruction Error)を採用する場合、計算負荷が非常に大きくなります。この手法は、拡散モデルによって生成された画像だけでなく、GANによって生成された画像も検出できるため、その汎用性が際立っています。計算上の課題に対処し、効率を向上させるために、私たちは拡散モデルに埋め込まれた知識を蒸留して、高速なディープフェイク検出モデルを開発することを提案します。私たちのアプローチは、小型で高速、低コスト、軽量な拡散合成ディープフェイク検出器を作成することを目指しており、堅牢な性能を維持しながら運用上の要求を大幅に削減します。実験結果によると、推論速度は既存のDIREフレームワークよりも3.2倍高速であり、この進展は、これらのシステムを実世界の設定で展開する実用性を高めるだけでなく、拡散モデルの知識を活用する将来の研究努力への道を開くものです。
自動運転業界では通常、プロのアーティストを雇って精巧な3D車両を作成しています。しかし、大規模なデジタルアセットを制作するのは高コストです。既に多数の車両画像を含むデータセットが利用可能であることから、私たちはこれらのデータセットから高品質な3D車両モデルを再構築することに焦点を当てています。しかし、これらのデータセットには前進シーンにおける車両の片面しか含まれていません。既存の生成モデルを使用してより多くの監督情報を提供しようと試みましたが、これらのモデルは車両に特化したデータセットで訓練されていないため、車両に対してうまく一般化できません。さらに、実世界の画像を扱う際にカメラポーズ推定の大きな誤差により、再構築された3D車両のテクスチャがずれてしまいます。これらの制約により、従来の手法では完全な3D車両を再構築することが困難でした。これらの問題を解決するために、私たちはDreamCarという新しい手法を提案します。この手法は、わずかな画像、さらには単一の画像からでも高品質な3D車両を再構築することができます。生成モデルを一般化するために、5,600台以上の車両を含むCar360というデータセットを収集しました。このデータセットを使用して、生成モデルを車両に対してよりロバストにしました。この車両に特化した生成事前分布を、Score Distillation Samplingを介して再構築をガイドするために使用します。さらに、監督情報を補完するために、車両の幾何学的および外観的な対称性を利用します。最後に、テクスチャのずれを解決するためにポーズを最適化する手法を提案します。大規模な実験により、私たちの手法が既存の手法を大幅に上回り、高品質な3D車両を再構築できることが実証されました。https://xiaobiaodu.github.io/dreamcar-project/{私たちのコードは公開されています。}