翻訳付きの日次キュレーションされたAI研究論文
本報告書では、高解像度画像および10秒間の動画合成のための最先端基盤モデルファミリーであるKandinsky 5.0を紹介する。このフレームワークは、3つの主要なモデルラインアップで構成されている:Kandinsky 5.0 Image Lite - 6Bパラメータの画像生成モデル群、Kandinsky 5.0 Video Lite - 高速かつ軽量な2Bパラメータのテキストから動画および画像から動画への変換モデル、そしてKandinsky 5.0 Video Pro - 優れた動画生成品質を実現する19Bパラメータのモデルである。本報告書では、大規模な事前学習を含む多段階トレーニングパイプラインにおけるデータキュレーションのライフサイクル(収集、処理、フィルタリング、クラスタリング)を包括的にレビューし、自己教師ありファインチューニング(SFT)や強化学習(RL)に基づくポストトレーニングなどの品質向上技術を組み込んでいる。また、Kandinsky 5.0が高い生成速度と様々なタスクにおける最先端の性能を実現するための新しいアーキテクチャ、トレーニング、推論の最適化についても提示する。これらは、人間による評価によって実証されている。大規模で公開可能な生成フレームワークとして、Kandinsky 5.0はその事前学習とその後の段階の全潜在能力を活用し、幅広い生成アプリケーションに適応することを可能にしている。本報告書とともに、オープンソースコードおよびトレーニングチェックポイントを公開することで、研究コミュニティにおける高品質生成モデルの開発とアクセシビリティが大幅に進展することを期待している。
ビデオモデルは、コヒーレントなモーション動態を伴う高精細な映像生成において顕著な成功を収めている。言語モデリングにおけるテキスト生成からテキストベース推論への発展と同様に、ビデオモデルの発展は我々に問いかける:ビデオモデルは映像生成を通じて推論できるのか?離散的なテキストコーパスと比較して、ビデオは推論を明示的な空間配置と時間的連続性に根ざすため、空間推論の理想的な基盤となる。本研究では「映像による推論」パラダイムを探求し、ビデオモデルの推論能力を体系的に評価する包括的ベンチマーク「VR-Bench」を導入する。空間計画と多段階推論を本質的に要する迷路解決タスクに基づき、VR-Benchは5種類の迷路タイプと多様な視覚スタイルにわたって7,920本の手続き的に生成された映像を包含する。実証分析により、SFT(Supervised Fine-Tuning)がビデオモデルの推論能力を効率的に引き出せることを示す。ビデオモデルは推論時に強力な空間知覚を発揮し、主要な視覚言語モデル(VLM)を上回り、多様なシナリオ・タスク・複雑度に対して良好な汎化性能を示した。さらに、推論時の多様なサンプリングが推論信頼性を10~20%向上させる「テスト時スケーリング効果」を発見した。これらの知見は、空間推論タスクにおける「映像による推論」の独自の可能性と拡張性を浮き彫りにする。
AI研究エージェントは、機械学習モデルの設計・実装・学習を自動化することで科学の進歩を加速させる可能性を秘めています。しかし、この分野はまだ発展途上であり、エージェントの軌跡の成功や失敗を左右する主要因は完全には解明されていません。本研究では、アイデア創出の多様性がエージェントの性能に果たす役割を検証します。まず、AI研究エージェントを評価する著名なベンチマークであるMLE-benchにおいて、異なるモデルとエージェントスキャフォールドによる軌跡を分析します。分析の結果、モデルやエージェントスキャフォールドによってアイデア創出の多様性の程度が異なり、高性能なエージェントほど多様性が増す傾向があることが明らかになりました。さらに、アイデア創出の多様性の度合いを人為的に変更する制御実験を行い、多様性が高いほど性能が向上することを実証します。最後に、MLE-benchの標準的なメダルベース評価に加えて追加の評価指標を検討することで結果の信頼性を高め、我々の発見が他のエージェント性能指標においても成立することを示します。
強化学習(RL)は、複雑な推論タスクにおいてVision-Languageモデル(VLM)を改善するための原理的な枠組みを提供する。しかし、既存のRL手法では検証可能な報酬を定義するために、人的に注釈付けされたラベルやタスク固有のヒューリスティクスに依存することが多く、いずれもコストが高くスケーリングが困難である。本論文では、大規模な未ラベル画像データを用いてVLMが自律的に推論能力を向上させる自己進化型RLフレームワーク「VisPlay」を提案する。単一のベースVLMから開始し、VisPlayはモデルを2つの相互作用する役割に割り当てる:挑戦的でありながら回答可能な視覚的質問を策定する「画像条件付き質問者」と、シルバー回答を生成する「マルチモーダル推論者」である。これらの役割は、生成される質問の複雑性とシルバー回答の質のバランスを取るために多様性と難易度の報酬を組み込んだGroup Relative Policy Optimization(GRPO)を用いて共同で訓練される。VisPlayは2つのモデルファミリーで効率的にスケーリングする。Qwen2.5-VLおよびMiMo-VLで訓練した場合、VisPlayはMM-VetやMMMUを含む8つのベンチマークにおいて、視覚推論、合成的汎化、幻覚抑制において一貫した改善を達成し、自己進化型マルチモーダル知能へのスケーラブルな道筋を示す。プロジェクトページはhttps://bruno686.github.io/VisPlay/で公開されている。
現在の胸部X線画像(CXR)における病変セグメンテーションモデルの実用性は、対象ラベルの少なさと、専門家レベルの長く詳細なテキスト入力を必要とする点によって制限されており、実用化への障壁となっている。これらの課題を解決するため、我々は新しいパラダイムである「指示誘導型病変セグメンテーション(ILS)」を提案する。これは、シンプルでユーザーフレンドリーな指示に基づいて多様な病変タイプをセグメント化することを目的としている。このパラダイムの下、我々は胸部X線画像と対応するレポートから注釈を生成する完全自動化マルチモーダルパイプラインを用いて、CXR病変セグメンテーションにおける初の大規模指示-回答データセットであるMIMIC-ILSを構築した。MIMIC-ILSは192K枚の画像と91Kのユニークなセグメンテーションマスクから生成された110万組の指示-回答ペアを含み、7つの主要な病変タイプを網羅している。その有用性を実証するため、MIMIC-ILSでファインチューニングした視覚言語モデルROSALIAを開発した。ROSALIAはユーザーの指示に応じて多様な病変をセグメント化し、テキストによる説明を提供できる。本モデルは新たに提案したタスクにおいて高いセグメンテーション精度とテキスト精度を達成し、我々のパイプラインの有効性と、ピクセルレベルでのCXR病変位置特定の基盤リソースとしてのMIMIC-ILSの価値を明らかにした。
長時間動画(講義、ポッドキャスト、ドキュメンタリーなど)の普及に伴い、効率的なコンテンツ構造化への需要が高まっている。しかし既存手法は、短く粗いアノテーションによる小規模トレーニングに制約され、長時間動画の微妙な転換への一般化が妨げられていた。本研究では、100万規模の長時間動画チャプターでトレーニングされた初の大規模ビデオチャプター分割モデル「ARC-Chapter」を提案する。本モデルは、二言語対応、時間的接地、階層的チャプターアノテーションを特徴とする。これを実現するため、ASR文字起こし、シーンテキスト、視覚的キャプションを統合する構造化パイプラインにより、短いタイトルから長い要約まで多段階のアノテーションを付与した日英二言語チャプターデータセットを構築した。データ量とラベル密度のスケーリングによる明確な性能向上を実証し、さらに現実のチャプター分割の柔軟性を反映した新評価指標「GRACE」を設計した。これは多対一セグメント重複と意味的類似度を統合する指標である。大規模実験により、ARC-ChapterはF1スコアで14.0%、SODAスコアで11.3%という大幅な差で従来の最高性能を上回り、新たなstate-of-the-artを確立した。さらにYouCook2における高密度ビデオキャプション生成などの下流タスクでも優れた転移性能を示し、既存の最高性能を更新した。
我々はMHRを発表します。これはATLASの分離された骨格/形状パラダイムと、Momentumライブラリに着想を得た柔軟で現代的なリグおよびポーズ補正システムを組み合わせた、パラメトリックな人体モデルです。本モデルは表現力豊かで解剖学的に妥当な人間のアニメーションを可能にし、非線形ポーズ補正をサポート。AR/VRおよびグラフィックスパイプラインへの堅牢な統合を目的として設計されています。
我々はMoS(Mixture of States)を提案する。これはマルチモーダル拡散モデルの新たな融合パラダイムであり、柔軟な状態ベースの相互作用によってモダリティを統合する。MoSの中核をなすのは、学習可能なトークン単位のルーターであり、ノイズ除去タイムステップと入力に応じてモダリティ間の隠れ状態を動的に結合し、拡散軌道に沿ってトークンレベルの特徴を精密に調整する。このルーターは上位k個の隠れ状態を疎に選択し、ε-greedy戦略で学習されることで、最小の学習パラメータと無視可能な計算オーバーヘッドで文脈的特徴を効率的に選択する。テキストから画像への生成(MoS-Image)と編集(MoS-Editing)による検証では、State-of-the-Artの結果を達成。わずか30億から50億パラメータで、最大4倍大規模なモデルに匹敵または凌駕する性能を示した。これらの知見は、MoSがマルチモーダル拡散モデルのスケーリングにおける柔軟かつ計算効率の高いパラダイムであることを実証している。
具体化された知能が人工知能研究の核心的フロンティアとして台頭する中、シミュレーションプラットフォームは低レベルの物理的相互作用を超え、複雑で人間中心の社会的行動を捉えるように進化しなければならない。本論文では、意図と社会的認知の理論に基づき、高次元の行動計画と意味的に接地されたインタラクションを大規模言語モデル(LLM)と統合した対話型シミュレーションフレームワーク「FreeAskWorld」を提案する。本フレームワークは、拡張性が高く現実的な人間-エージェントシミュレーションを支援し、多様な具体化タスクに特化したモジュール型データ生成パイプラインを備えている。 本フレームワークを検証するため、古典的な視覚言語ナビゲーション(VLN)タスクを、エージェントが能動的にナビゲーション指示を求め解釈する「対話型方向問い合わせ」設定へ拡張する。我々は、再構築された環境、6つの多様なタスクタイプ、16の核心的オブジェクトカテゴリ、63,429枚の注釈付きサンプルフレーム、17時間以上のインタラクションデータを含む大規模ベンチマークデータセット「FreeAskWorld」を公開する。本データセットを用いて、VLNモデルと人間参加者をオープンループ設定とクローズドループ設定で比較評価した。実験結果は、FreeAskWorldでファインチューニングされたモデルが元のモデルを上回り、意味理解能力と対話能力が向上することを示す。これらの知見は、社会的に接地されたシミュレーションフレームワークが、具体化AIシステムの高次元計画能力と自然な人間-エージェントインタラクションの発展に有効であることを実証する。特に重要なのは、インタラクション自体が追加の情報モダリティとして機能することを我々の研究が強調している点である。
高密度特徴マッチングは、3Dシーンを撮影した2枚の画像間の全ての対応点を推定することを目的とし、その高精度さと頑健性から近年ゴールドスタンダードとして確立されています。しかし、既存の高密度マッチャーは、多くの困難な実世界シナリオにおいて未だに失敗したり性能が低下したりすることがあり、高精度モデルは処理速度が遅いことが多く、応用範囲が限定されています。本論文では、これらの弱点を広範にわたって改善し、総合的に大幅に優れたモデルを実現する一連の体系的な改良を提案します。特に、新規のマッチングアーキテクチャと損失関数を構築し、これを精選された多様な訓練分布と組み合わせることで、多くの複雑なマッチングタスクを解決可能にします。さらに、分離型の2段階(マッチング→精密化)パイプラインにより訓練を高速化すると同時に、カスタムCUDAカーネルを通じて精密化時のメモリ使用量を大幅に削減します。最後に、最近のDINOv3基盤モデルおよびその他の複数の知見を活用し、モデルの頑健性とバイアス低減を図ります。広範な実験結果から、提案する新規マッチャーが新たなstate-of-the-artを達成し、従来手法よりも大幅に高精度であることを示します。コードはhttps://github.com/Parskatt/romav2で公開されています。
近年の音楽生成AIの進歩は、驚異的な忠実度と様式の多様性を達成しているが、使用される特定の損失関数のため、微妙な人間の嗜好に合致しないことが多い。本論文は、計算最適化と人間の音楽的評価の間の根本的な隔たりを埋めるため、音楽生成への嗜好アライメント技術の体系的な応用を提唱する。MusicRLの大規模嗜好学習、DiffRhythm+における拡散ベース嗜好最適化のようなマルチ嗜好アライメントフレームワーク、Text2midi-InferAlignのような推論時最適化技術といった最近の画期的成果を踏まえ、これらの技術が音楽固有の課題(時間的一貫性、和声的一貫性、主観的品質評価)にどのように対処できるかを論じる。長尺作曲へのスケーラビリティ、嗜好モデリングにおける信頼性など、主要な研究課題を特定する。今後の展望として、嗜好に合致した音楽生成が、対話型作曲ツールやパーソナライズド音楽サービスにおいて変革的な応用を可能にすると予想する。本研究は、人間の創造的・体験的ニーズに真に奉仕する音楽AIシステムを作り出すために、機械学習と音楽理論の進歩を結合した持続的な学際研究を呼びかけるものである。
本論文では、医用画像分割基盤モデルMedal Sを提案する。本モデルは、エンドツーエンドで学習可能なフレームワーク内で、ネイティブ解像度の空間プロンプトとテキストプロンプトを統合的にサポートする。空間認識を欠くテキストのみの手法とは異なり、Medal Sはボリュームプロンプトとテキスト埋め込みのチャネル単位での整合を実現し、解像度の不一致に起因する不正確さを軽減する。完全な3Dコンテキストを保持することで、複数のネイティブ解像度マスクを並列処理し、多クラス分割の性能を向上させる。軽量な3D畳み込みモジュールにより、両プロンプトタイプに導かれた精密なボクセル空間の洗練化を実現し、BiomedSegFMデータセットにおけるCT、MRI、PET、超音波、顕微鏡画像の最大243クラスに対応する。 Medal Sは2つのプロンプトモードを提供する:人間の入力を必要とせず、モデル予測を空間プロンプトとして自己洗練するテキストのみモードと、手動アノテーションを組み込んで柔軟性を高めたハイブリッドモードである。24クラス分割において、並列空間プロンプトは逐次プロンプトと比較して推論時間を90%以上削減する。対象領域とパッチの比率の不均衡に対処するため、動的リサンプリングを提案し、SATおよびnnU-Netを拡張したデータ拡張を実施する。さらに、メモリ効率、精度、推論速度を改善するため、最適化されたテキスト前処理、2段階推論戦略、後処理技術を開発した。 検証セットにおける5モダリティ平均では、Medal SはSATを上回り、DSC 75.44(対69.83)、NSD 77.34(対71.06)、F1 38.24(対24.88)、DSC TP 65.46(対46.97)を達成した。Medal Sは、空間的精度と意味的テキストガイダンスを調和させることで優れた性能を実現し、逐次プロンプトベースの手法と比較して、多クラス医用画像分割タスクにおいて卓越した効率性と正確性を示す。Medal Sはhttps://github.com/yinghemedical/Medal-S で公開予定である。