翻訳付きの日次キュレーションされたAI研究論文
最近の生成モデリングの進歩により、テキストプロンプトで制御される4Dコンテンツ(動く3Dオブジェクト)の作成が可能となりました。4D生成は、仮想世界、メディア、ゲームなどのアプリケーションにおいて大きな潜在能力を持っていますが、既存の手法は生成されたコンテンツの外観やジオメトリに対する制御が限られています。本研究では、ユーザー提供の3Dオブジェクトをアニメーション化する手法を紹介し、テキストプロンプトによって4D生成をガイドすることで、元のオブジェクトのアイデンティティを維持しながらカスタムアニメーションを可能にします。まず、3Dメッシュを入力オブジェクトの視覚的属性を保持する「静的」4Dニューラル輝度場(NeRF)に変換します。その後、テキストによって駆動される画像からビデオへの拡散モデルを使用してオブジェクトをアニメーション化します。動きのリアリズムを向上させるために、リアルな動きを促進するための視点選択プロトコルと、関連領域に最適化を焦点化するために注意マップを活用するマスク付きスコア蒸留サンプリング(SDS)損失を導入します。我々は、モデルの時間的一貫性、プロンプトへの遵守、視覚的忠実度に関して評価を行い、LPIPSスコアを使用して測定されたアイデンティティの保存において最大3倍の向上を達成し、視覚的品質と動的コンテンツのバランスを効果的に実現することができることを発見しました。
OpenAI o1などのモデルの優れたパフォーマンスは、推論中に人間のような長期的な思考を模倣する能力に起因すると言えます。これらのモデルは、問題解決能力を向上させるために複数の戦略を探索する拡張されたChain-of-Thought(CoT)プロセスを採用しています。しかし、重要な問題が残されています。それは、テスト中に計算リソースを知的かつ効率的にスケーリングする方法です。本論文では、これらのモデルにおける過度な計算リソースの割り当てによる単純な問題への最小限の利益に対する普遍的な問題について初めて包括的な研究を提供します。私たちは、o1のようなモデルによる計算リソースの合理的な利用を評価するために、成果とプロセスの両面からの新しい効率指標を導入します。自己学習パラダイムを使用して、過度な思考を緩和し、精度を損なうことなく推論プロセスを合理化する戦略を提案します。実験結果は、提案手法がGSM8K、MATH500、GPQA、AIMEなどの難易度レベルの異なるテストセット全体で計算オーバーヘッドを効果的に削減し、モデルのパフォーマンスを維持することに成功していることを示しています。
TangoFluxは、515Mのパラメータを持つ効率的なテキストから音声への生成モデルであり、単一のA40 GPU上でわずか3.7秒で44.1kHzの音声を最大30秒生成することができます。TTAモデルの整合性を図る上での主要な課題は、TTAには大規模言語モデル(LLMs)に利用可能な検証可能な報酬やゴールド標準の回答のような構造化されたメカニズムが欠如していることにあります。この課題に対処するために、私たちはCLAP-Ranked Preference Optimization(CRPO)を提案します。これは、TTAの整合性を向上させるために優先度データを反復的に生成および最適化する革新的なフレームワークです。CRPOを使用して生成された音声優先度データセットが既存の代替手段を凌駕することを示します。このフレームワークにより、TangoFluxは客観的および主観的ベンチマークの両方で最先端のパフォーマンスを達成します。私たちはすべてのコードとモデルをオープンソース化し、TTA生成のさらなる研究を支援します。
私たちは、実世界のソフトウェアエンジニアリング(SWE)エージェントを訓練するための初の環境であるSWE-Gymを提案します。SWE-Gymには、実行可能なランタイム環境、ユニットテスト、および自然言語で指定されたタスクを含む、2,438の実世界のPythonタスクインスタンスが含まれています。私たちは、SWE-Gymを使用して、言語モデルベースのSWEエージェントを訓練し、人気のあるSWE-Bench VerifiedおよびLiteテストセットで解決率について最大19%の絶対的な向上を達成しました。また、SWE-Gymからサンプリングされたエージェントの軌跡で訓練された検証者を介した推論時のスケーリングを実験しました。私たちの微調整されたSWEエージェントと組み合わせると、それぞれSWE-Bench VerifiedとLiteで32.0%および26.0%を達成し、オープンウェイトのSWEエージェントにおける新しい最先端を反映しています。さらなる研究を促進するために、私たちはSWE-Gym、モデル、およびエージェントの軌跡を公開します。