翻訳付きの日次キュレーションされたAI研究論文
コンピュータビジョン(CV)は、自然言語処理(NLP)で観察されるゼロショットタスクの汎化を完全に達成していません。NLPで確立された多くのマイルストーンに従っており、大規模なトランスフォーマーモデル、広範な事前トレーニング、自己回帰パラダイムなどを採用しています。本論文では、CVが離散的で用語的なタスク定義(例:「画像セグメンテーション」)を採用していることが、ゼロショットタスクの汎化の主要な障壁である可能性を探求します。私たちの仮説は、これらの用語的定義によって以前に見たタスクを真に理解していないため、深層モデルが新しいタスクに汎化するのに苦労しているというものです。これを検証するために、入力画像から出力への詳細な言語的変換を介してCVタスク目標を直感的に定義する説明的指示を導入します。12百万の「画像入力から説明的指示への出力」トリプレットからなる大規模データセットを作成し、画像と説明的指示の両方を入力とする自己回帰型ビジョン言語モデル(ARベースのVLM)をトレーニングします。これらの指示に従うことを学習することで、ARベースのVLMは以前に見たタスクにおける指示レベルのゼロショット能力を達成し、見たことのないCVタスクに対する強力なゼロショット汎化を実証します。コードとデータセットは当社のGitHubリポジトリで公開されます。
マルチモーダル大規模言語モデル(MLLMs)は医療分野で大きな潜在能力を持っていますが、しばしば特定の医療領域におけるデータが不足しており、MLLMsが一般化に使用できる画像の種類を理解する必要性が強調されています。現在の研究では、複数タスクのトレーニングが単一タスクよりも優れていると示唆されており、異なるタスクが互いに利益をもたらすことができますが、これらのタスク内部の関係をしばしば見落としており、特定のタスクを強化するためのデータセットの選択に関する限られたガイダンスを提供しています。この現象を分析するために、我々は、学習した要素を再組み合わせることで新しい組み合わせを理解するモデルの能力である構成的一般化(CG)をガイドフレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、タスクによって正確に定義されるため、CGを探索する環境を自然に提供します。そのため、包括的な実験のために106の医療データセットを組み合わせてMed-MATを作成しました。実験は、MLLMsがCGを使用して見慣れない医療画像を理解し、複数タスクのトレーニングで観察される一般化の主要な要因の1つとしてCGを特定しました。さらに、さらなる研究では、CGがデータが限られているデータセットを効果的にサポートし、異なるバックボーン間で一貫したパフォーマンスを提供することが示され、その汎用性と広範な適用可能性が強調されました。Med-MATはhttps://github.com/FreedomIntelligence/Med-MAT で公開されています。
OpenAI o1などのモデルの優れたパフォーマンスは、推論中に人間のような長期的な思考を模倣する能力に起因すると言えます。これらのモデルは、問題解決能力を向上させるために複数の戦略を探索する拡張されたChain-of-Thought(CoT)プロセスを採用しています。しかし、重要な問題が残されています。それは、テスト中に計算リソースを知的かつ効率的にスケーリングする方法です。本論文では、これらのモデルにおける過度な計算リソースの割り当てによる単純な問題への最小限の利益に対する普遍的な問題について初めて包括的な研究を提供します。私たちは、o1のようなモデルによる計算リソースの合理的な利用を評価するために、成果とプロセスの両面からの新しい効率指標を導入します。自己学習パラダイムを使用して、過度な思考を緩和し、精度を損なうことなく推論プロセスを合理化する戦略を提案します。実験結果は、提案手法がGSM8K、MATH500、GPQA、AIMEなどの難易度レベルの異なるテストセット全体で計算オーバーヘッドを効果的に削減し、モデルのパフォーマンスを維持することに成功していることを示しています。
最近の生成モデリングの進歩により、テキストプロンプトで制御される4Dコンテンツ(動く3Dオブジェクト)の作成が可能となりました。4D生成は、仮想世界、メディア、ゲームなどのアプリケーションにおいて大きな潜在能力を持っていますが、既存の手法は生成されたコンテンツの外観やジオメトリに対する制御が限られています。本研究では、ユーザー提供の3Dオブジェクトをアニメーション化する手法を紹介し、テキストプロンプトによって4D生成をガイドすることで、元のオブジェクトのアイデンティティを維持しながらカスタムアニメーションを可能にします。まず、3Dメッシュを入力オブジェクトの視覚的属性を保持する「静的」4Dニューラル輝度場(NeRF)に変換します。その後、テキストによって駆動される画像からビデオへの拡散モデルを使用してオブジェクトをアニメーション化します。動きのリアリズムを向上させるために、リアルな動きを促進するための視点選択プロトコルと、関連領域に最適化を焦点化するために注意マップを活用するマスク付きスコア蒸留サンプリング(SDS)損失を導入します。我々は、モデルの時間的一貫性、プロンプトへの遵守、視覚的忠実度に関して評価を行い、LPIPSスコアを使用して測定されたアイデンティティの保存において最大3倍の向上を達成し、視覚的品質と動的コンテンツのバランスを効果的に実現することができることを発見しました。
大規模言語モデル(LLMs)の急速な進化により、数学的問題解決、コード生成、法的分析などの高度な推論タスクにおける能力が開かれました。この進歩の中心にあるのは、推論時の推論アルゴリズムであり、複数の解決経路を探索することで出力を洗練させますが、計算要求と応答遅延が増加します。既存のサービングシステムは、これらのアルゴリズムのスケーリング動作やクエリの難易度の変化に適応できず、効率的なリソース利用や遅延目標の達成が困難となっています。 Dynasorは、LLM推論クエリの推論時計算を最適化するシステムです。従来のエンジンとは異なり、Dynasorは推論クエリ内のリクエストを追跡しスケジュールし、モデルの確信度に基づいて統計的推論進捗を測定するプロキシであるCertaindexを使用して、計算割り当てを動的に誘導します。Dynasorはスケジューリングを推論進捗と共に適応させます:難しいクエリにはより多くの計算を割り当て、より簡単なクエリには計算を減らし、見込みのないクエリを早期に終了させ、精度、遅延、コストをバランスさせます。様々なデータセットやアルゴリズムにおいて、Dynasorはバッチ処理において最大50%の計算削減を実現し、オンラインサービングにおいては3.3倍のクエリ率の向上や4.7倍のより厳密な遅延SLOを維持します。
私たちは、実世界のソフトウェアエンジニアリング(SWE)エージェントを訓練するための初の環境であるSWE-Gymを提案します。SWE-Gymには、実行可能なランタイム環境、ユニットテスト、および自然言語で指定されたタスクを含む、2,438の実世界のPythonタスクインスタンスが含まれています。私たちは、SWE-Gymを使用して、言語モデルベースのSWEエージェントを訓練し、人気のあるSWE-Bench VerifiedおよびLiteテストセットで解決率について最大19%の絶対的な向上を達成しました。また、SWE-Gymからサンプリングされたエージェントの軌跡で訓練された検証者を介した推論時のスケーリングを実験しました。私たちの微調整されたSWEエージェントと組み合わせると、それぞれSWE-Bench VerifiedとLiteで32.0%および26.0%を達成し、オープンウェイトのSWEエージェントにおける新しい最先端を反映しています。さらなる研究を促進するために、私たちはSWE-Gym、モデル、およびエージェントの軌跡を公開します。
TangoFluxは、515Mのパラメータを持つ効率的なテキストから音声への生成モデルであり、単一のA40 GPU上でわずか3.7秒で44.1kHzの音声を最大30秒生成することができます。TTAモデルの整合性を図る上での主要な課題は、TTAには大規模言語モデル(LLMs)に利用可能な検証可能な報酬やゴールド標準の回答のような構造化されたメカニズムが欠如していることにあります。この課題に対処するために、私たちはCLAP-Ranked Preference Optimization(CRPO)を提案します。これは、TTAの整合性を向上させるために優先度データを反復的に生成および最適化する革新的なフレームワークです。CRPOを使用して生成された音声優先度データセットが既存の代替手段を凌駕することを示します。このフレームワークにより、TangoFluxは客観的および主観的ベンチマークの両方で最先端のパフォーマンスを達成します。私たちはすべてのコードとモデルをオープンソース化し、TTA生成のさらなる研究を支援します。
検証された必要性として、野生の画像全体での一貫した編集は、オブジェクトのポーズ、照明条件、写真撮影環境など、さまざまな制御不能な要因から生じる技術的な課題であり続けています。Edichoは、拡散モデルに基づくトレーニング不要の解決策を提供し、明示的な画像対応を使用して編集を誘導する基本的な設計原則を特徴としています。具体的には、注目操作モジュールと注意深く洗練された分類器不要のガイダンス(CFG)ノイズ除去戦略という、事前に推定された対応を考慮した両方の要素が含まれています。この推論時のアルゴリズムは、プラグアンドプレイの性質を持ち、ControlNetやBrushNetなどのほとんどの拡散ベースの編集手法と互換性があります。幅広い結果は、Edichoが多様な設定下での一貫したクロス画像編集において有効であることを示しています。将来の研究を促進するために、コードを公開します。
私たちは、参照ポートレートからアニメーション可能なパーソナライズされた生成アバターを構築するための方法であるPERSEを提案します。当社のアバターモデルは、各顔の属性を制御するための連続的で分離された潜在空間で顔の属性編集を可能にし、同時に個人のアイデンティティを保持します。このために、当社の手法は、顔の表情と視点の一貫した変化を含む大規模な合成2Dビデオデータセットを合成し、元の入力から特定の顔の属性の変化を組み合わせた各ビデオを生成することから始めます。私たちは、顔の属性編集を行う高品質で写実的な2Dビデオを生成するための新しいパイプラインを提案します。この合成属性データセットを活用して、3Dガウススプラッティングに基づく個人用アバター作成手法を提案し、直感的な顔の属性操作のための連続的で分離された潜在空間を学習します。この潜在空間でのスムーズな遷移を強制するために、補間された2D顔を監督として使用する潜在空間の正則化技術を導入します。従来の手法と比較して、PERSEは、参照者のアイデンティティを保持しながら、補間された属性を持つ高品質なアバターを生成することを示しています。
大規模言語モデル(LLM)技術の急速な進歩により、GPT-4などの最先端モデルと同等のテキスト生成品質を持つ強力なオープンソースの指示チューニングLLMが登場しました。このようなモデルの出現により、機密情報環境でのLLM技術の採用が加速されますが、これらのモデルの作成者は結果の複製に必要なトレーニングデータを開示していないため、達成はモデル固有となっています。これらのオープンソースモデルは多言語対応しているため、言語固有のLLMをトレーニングする利点が減少し、改善された推論計算効率がその高コスト手法の唯一の保証された利点となります。語彙の拡張や継続的な事前トレーニングなどのより費用対効果の高い選択肢も、高品質の指示チューニングデータへのアクセスの欠如によって妨げられています。このデータが結果のLLMタスク解決能力の主要な要因であるためです。これらの制限を解決し、言語適応パイプラインのコストを削減するために、Learned Embedding Propagation(LEP)を提案しています。既存のアプローチとは異なり、当社の手法は既存のLLM知識にほとんど影響を与えないため、トレーニングデータサイズ要件が低くなっています。これは、新しい言語知識を直接任意の既存の指示チューニングバリアントに埋め込むことができる新しい特許出願中の埋め込み伝播手順を使用して強化しています。私たちは、LLaMa-3-8BおよびMistral-7B向けの4つのロシア語語彙適応を評価し、LEPが従来の指示チューニング方法と競合し、OpenChat 3.5およびLLaMa-3-8B-Instructと同等のパフォーマンスを達成し、自己較正と継続的なチューニングによるタスク解決能力の向上を通じてさらなる改善を実現していることを示しました。
OneKEは、Webや生のPDF書籍から知識を抽出し、さまざまなドメイン(科学、ニュースなど)をサポートする、Docker化されたスキーマに基づいた知識抽出システムを紹介します。具体的には、複数のエージェントと構成された知識ベースを持つOneKEを設計しています。異なるエージェントがそれぞれの役割を果たし、さまざまな抽出シナリオをサポートします。構成された知識ベースはスキーマの構成、エラーケースのデバッグと修正を容易にし、パフォーマンスをさらに向上させます。ベンチマークデータセットでの実証評価は、OneKEの有効性を示し、事例研究は、異なるドメインにわたる多様なタスクへの適応性をさらに明らかにし、幅広い応用の可能性を示しています。Codeはhttps://github.com/zjunlp/OneKEでオープンソース化されており、Videoはhttp://oneke.openkg.cn/demo.mp4で公開されています。
最近、「視覚 o1」が人々の視界に入り始め、このゆっくりとした思考設計が視覚推論タスク、特に幾何学的数学問題を解決できるという期待が高まっています。しかし、現在の大規模ビジョン言語モデル(LVLMs)は、幾何学的図形を正確にコピーすることさえ難しく、さらには幾何学的形状内の複雑な固有ロジックや空間関係を本当に理解することはほとんどありません。私たちは、正確なコピー(強い知覚)が視覚 o1への第一歩であると考えています。そのため、私たちは「遅い知覚」(SP)という概念を導入し、モデルが基本的な点線の組み合わせを徐々に知覚し、私たち人間が複雑な幾何学的構造を段階的に再構築するように導きます。SPには二つの段階があります。a) 知覚分解。知覚は瞬時ではありません。この段階では、複雑な幾何学図形が基本的な単純な単位に分解され、幾何学表現が統一されます。b) 知覚フロー。線を正確に追跡することは簡単なことではないことを認識します。この段階では、提案された「知覚尺」を使用して、線を一筆ずつ追跡することで、線分の回帰における「長い視覚的ジャンプ」を避けることを目指します。驚くべきことに、このような人間らしい知覚方法は推論時間のスケーリング法則を享受しています。遅いほど良いのです。研究者たちは過去にモデルの知覚を加速しようと努力してきましたが、私たちは再びそれを遅くし、モデルが画像をステップバイステップかつ注意深く読むことを可能にしています。
自己呼び出しコード生成を導入します。これは、LLMの進歩的な推論および問題解決能力を評価するために設計された新しいタスクです。このタスクでは、モデルに基本的な問題と関連するより複雑な問題が提示されます。モデルは基本的な問題を解決し、その解決策を利用してより複雑な問題に対処する必要があります。この研究には3つの主要な貢献があります。まず、既存のベンチマークのより難しいバージョンを生成するための一般的な手順を提案し、HumanEval Pro、MBPP Pro、BigCodeBench-Lite Proの3つの新しいベンチマークを導入しました。これらは、LLMの自己呼び出しコード生成能力を評価するために特に設計されています。第二に、20以上のLLMに対する実験結果の分析から、2つの重要な観察結果が得られました。すなわち、ほとんどのLLMはHumanEvalやMBPPなどの従来のコード生成ベンチマークで優れた成績を収めていますが、自己呼び出しタスクではパフォーマンスが低下しています。例えば、o1-miniはHumanEvalで96.2%のpass@1を達成していますが、HumanEval Proではわずか76.2%です。第三に、自己呼び出しコード生成タスクでは、指示に調整されたモデルはベースモデルと比較してわずかな改善しか示していません。最後に、評価結果に存在する失敗モードの種類を開示します。これらの結果は、自己呼び出しコード生成タスクにおけるさらなる進展の必要性を強調し、LLMのコード推論能力を向上させるための将来の研究への新たな方向性を提供しています。