翻訳付きの日次キュレーションされたAI研究論文
RWKV-7「Goose」を紹介します。これは新しいシーケンスモデリングアーキテクチャであり、事前学習された言語モデルとともに、3億パラメータ規模での多言語タスクにおける下流性能で新たな最先端を確立し、他のトップ3Bモデルと比べて大幅に少ないトークンで学習されているにもかかわらず、現在の英語言語性能の最先端に匹敵します。それにもかかわらず、RWKV-7モデルはトークンあたりのメモリ使用量と推論時間が一定です。RWKV-7は、ベクトル値ゲーティングとコンテキスト内学習率を備えた新たに一般化されたデルタルールの定式化、および緩和された値置換ルールを導入します。RWKV-7が状態追跡を実行し、すべての正規言語を認識できることを示します。これにより、標準的な複雑性予想の下でTC^0に限定されるTransformerの能力を超えています。RWKV-7の言語モデリング能力を実証するために、3.1兆トークンの拡張オープンソース多言語コーパスも提示し、このデータセット上で0.19億から29億パラメータまでの4つのRWKV-7モデルを学習させました。 オープン性、再現性、採用を促進するために、モデルとデータセットコンポーネントのリストをhttps://huggingface.co/RWKVで、学習および推論コードをhttps://github.com/RWKV/RWKV-LMで、すべてApache 2.0ライセンスの下で公開しています。
推論スケーリングは、大規模言語モデル(LLM)に前例のない推論能力を付与し、複雑な推論を引き出すための中核技術として強化学習(RL)を活用しています。しかし、最先端の推論LLMの重要な技術的詳細(例えば、OpenAIのo1ブログやDeepSeekのR1技術レポートなど)は非公開となっており、コミュニティは依然としてそれらのRLトレーニング結果を再現するのに苦労しています。本論文では、**Decoupled Clip and Dynamic sAmpling Policy Optimization(DAPO)アルゴリズム**を提案し、Qwen2.5-32Bベースモデルを使用してAIME 2024で50ポイントを達成する最先端の大規模RLシステムを完全にオープンソース化しました。これまでの研究とは異なり、トレーニングの詳細を公開せずに留めるのではなく、大規模LLM RLを成功させるためのアルゴリズムの4つの主要な技術を紹介します。さらに、**verlフレームワーク**上に構築されたトレーニングコードと、慎重に選別・処理されたデータセットをオープンソースとして公開します。これらのオープンソースシステムの構成要素は、再現性を高め、今後の大規模LLM RL研究を支援します。
現在、合成動画は実世界の動画データの不足と多様性を補うために広く利用されています。しかし、現在の合成データセットは主に実世界のシナリオを再現するものであり、不可能な、反事実的、および反現実的な動画の概念は十分に探求されていません。本研究は、以下の2つの問いに答えることを目的としています:1)現在の動画生成モデルは、プロンプトに従って不可能な動画コンテンツを効果的に作成できるか?2)現在の動画理解モデルは、不可能な動画を理解するのに十分な性能を持っているか?この目的のために、我々はIPV-Benchという新しいベンチマークを導入します。IPV-Benchは、動画理解と生成の進歩を評価し促進するために設計されています。IPV-Benchは、4つのドメインと14のカテゴリーを含む包括的な分類体系に基づいており、物理的、生物的、地理的、または社会的な法則に反する多様なシーンを特徴としています。この分類体系に基づいて、動画生成モデルのプロンプト追従能力と創造性を評価するためのプロンプトスイートが構築されています。さらに、不可能な動画を理解する能力、特に時間的ダイナミクスと世界知識に基づく推論を必要とする能力を評価するために、動画ベンチマークがキュレーションされています。包括的な評価を通じて、動画モデルの限界と将来の方向性に関する洞察が明らかになり、次世代の動画モデルへの道が開かれます。
創造性は知性の基本的な側面であり、多様な文脈において新規かつ適切な解決策を生み出す能力を含みます。大規模言語モデル(LLMs)の創造的能力については広範に評価が行われてきましたが、マルチモーダル大規模言語モデル(MLLMs)のこの領域における評価はほとんど未開拓です。このギャップを埋めるため、我々はCreation-MMBenchを導入します。これは、現実世界の画像ベースのタスクにおいてMLLMsの創造的能力を評価するために特別に設計されたマルチモーダルベンチマークです。このベンチマークは、51の細分化されたタスクにまたがる765のテストケースで構成されています。厳密な評価を確保するため、各テストケースに対してインスタンス固有の評価基準を定義し、一般的な応答品質と視覚的入力との事実的一貫性の両方を評価する指針とします。実験結果から、現在のオープンソースMLLMsは、創造的タスクにおいてプロプライエタリモデルに比べて大幅に低い性能を示すことが明らかになりました。さらに、視覚的ファインチューニングがベースLLMの創造的能力に悪影響を及ぼす可能性があることも分析により示されました。Creation-MMBenchは、MLLMsの創造性を進歩させるための貴重な洞察を提供し、マルチモーダル生成知能の将来の改善の基盤を確立します。完全なデータと評価コードはhttps://github.com/open-compass/Creation-MMBenchで公開されています。
大規模で高品質な関節付きオブジェクトは、エンボディードAIに関連する複数のタスクにおいて切実に必要とされています。既存の関節付きオブジェクト作成手法の多くは、データ駆動型またはシミュレーションベースであり、これらはトレーニングデータの規模と品質、あるいはシミュレーションの忠実度と多大な労力によって制限されています。本論文では、プロシージャル生成を通じて高忠実度の関節付きオブジェクトを合成する新しい手法「Infinite Mobility」を提案します。ユーザスタディと定量的評価により、本手法が現在の最先端手法を凌駕し、物理特性とメッシュ品質の両面において人間が注釈を付けたデータセットに匹敵する結果を生成できることが実証されました。さらに、本手法で生成された合成データが生成モデルのトレーニングデータとして使用可能であり、次のステップでのスケールアップを可能にすることが示されています。コードはhttps://github.com/Intern-Nexus/Infinite-Mobilityで公開されています。
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練させることで、細かな視覚的識別に優れています。この能力は、現在のマルチモーダル大規模言語モデル(MLLM)では未発達のままです。MLLMは専門家レベルの膨大な知識を持ちながらも、視覚的知覚に推論を統合することが難しく、深い分析なしに直接的な応答を生成することが多いです。このギャップを埋めるため、我々は知識集約型視覚的グラウンディング(KVG)を導入しました。これは、細かな知覚とドメイン固有の知識統合を必要とする新しい視覚的グラウンディングタスクです。KVGの課題に対処するため、我々は認知視覚的知覚能力を強化したMLLMであるDeepPerceptionを提案します。我々のアプローチは、(1) 高品質で知識に整合したトレーニングサンプルを生成する自動データ合成パイプライン、および (2) 認知推論の足場を構築するための教師ありファインチューニングと知覚-認知シナジーを最適化する強化学習を組み合わせた二段階のトレーニングフレームワークから構成されます。パフォーマンスをベンチマークするため、我々はKVG-Benchを導入しました。これは10のドメインにまたがる1.3Kの手動でキュレーションされたテストケースを含む包括的なデータセットです。実験結果は、DeepPerceptionが直接的なファインチューニングを大幅に上回り、KVG-Benchで+8.08%の精度向上を達成し、ベースラインアプローチに対して+4.60%優れたクロスドメイン汎化を示すことを実証しています。我々の研究結果は、MLLMに認知プロセスを統合することが人間のような視覚的知覚にとって重要であることを強調し、マルチモーダル推論研究の新たな方向性を開拓します。データ、コード、およびモデルはhttps://github.com/thunlp/DeepPerceptionで公開されています。
音声と音楽の生成は多くのアプリケーションにおいて重要なタスクとして浮上しているが、既存のアプローチには重大な限界がある。それらはモダリティを横断した統一的な能力を持たずに孤立して動作し、高品質でマルチモーダルな訓練データが不足しており、多様な入力を効果的に統合するのに苦労している。本研究では、Anything-to-AudioおよびMusic Generationのための統一的なDiffusion TransformerモデルであるAudioXを提案する。従来のドメイン固有モデルとは異なり、AudioXは高品質な一般音声と音楽の両方を生成できるだけでなく、テキスト、動画、画像、音楽、音声といった様々なモダリティをシームレスに処理し、柔軟な自然言語制御を提供する。その鍵となる革新は、マルチモーダルなマスク訓練戦略であり、モダリティを横断して入力をマスクし、モデルにマスクされた入力から学習させることで、堅牢で統一的なクロスモーダル表現を獲得する。データ不足に対処するため、VGGSoundデータセットに基づく19万の音声キャプションを含むvggsound-capsと、V2Mデータセットから導出された600万の音楽キャプションを含むV2M-capsという2つの包括的なデータセットをキュレーションした。大規模な実験により、AudioXは最先端の専門モデルに匹敵するかそれを上回る性能を示すだけでなく、統一アーキテクチャ内で多様な入力モダリティと生成タスクを扱う際に驚くべき汎用性を発揮することが実証された。コードとデータセットはhttps://zeyuet.github.io/AudioX/で公開される予定である。
大規模言語モデル(LLMs)は、タスク固有のトレーニングを必要とせず、シンプルなプロンプトで多様な一般的なタスクを処理できます。LLMsを基盤として構築されたマルチモーダル大規模言語モデル(MLLMs)は、視覚、聴覚、テキストデータを含む複雑なタスクに取り組む際に、印象的な潜在能力を示しています。しかし、真実性、安全性、人間の嗜好との整合性、および推論能力に関する重要な課題は、十分に対処されていません。このギャップは、さまざまなアライメントアルゴリズムの出現を促し、それぞれが異なるアプリケーションシナリオと最適化目標を対象としています。最近の研究では、アライメントアルゴリズムが前述の課題を解決するための強力なアプローチであることが示されています。本論文では、MLLMsのためのアライメントアルゴリズムに関する包括的かつ体系的なレビューを提供することを目指しています。具体的には、以下の4つの主要な側面を探求します:(1)アライメントアルゴリズムがカバーするアプリケーションシナリオ、包括的な画像理解、複数画像、ビデオ、音声、および拡張されたマルチモーダルアプリケーションを含む;(2)アライメントデータセットを構築する際の核心要素、データソース、モデルの応答、および嗜好アノテーションを含む;(3)アライメントアルゴリズムを評価するためのベンチマーク;(4)アライメントアルゴリズムの開発における将来の方向性に関する議論。本作業は、研究者がこの分野の現在の進歩を整理し、より良いアライメント手法を考案するためのインスピレーションを得ることを目的としています。本論文のプロジェクトページは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment で利用可能です。
画像キャプショニングは、視覚と言語の研究において長年の課題となってきました。大規模言語モデル(LLM)の台頭に伴い、現代の視覚言語モデル(VLM)は詳細かつ包括的な画像記述を生成するようになりました。しかし、そのようなキャプションの品質をベンチマークすることは未解決のままです。本論文では、2つの重要な問いに取り組みます。(1) 現在のVLMは、特に人間と比較して、画像キャプショニングにおいて実際にどの程度の性能を発揮しているのか?私たちは、6000以上のペアワイズキャプションバトルと高品質な人間の嗜好投票を備えたプラットフォーム「CapArena」を構築しました。アリーナ形式の評価は、GPT-4oのような主要モデルが人間の性能を達成または凌駕する一方で、ほとんどのオープンソースモデルが遅れをとっていることを示す画期的な成果です。(2) 自動化されたメトリクスは、詳細なキャプションの品質を確実に評価できるのか?CapArenaからの人間のアノテーションを使用して、従来のキャプショニングメトリクスや最近のメトリクス、およびVLM-as-a-Judgeを評価しました。私たちの分析によると、一部のメトリクス(例:METEOR)は人間とのキャプションレベルの一致を示すものの、その体系的なバイアスがモデルランキングの不整合を引き起こします。一方、VLM-as-a-Judgeは、キャプションとモデルの両方のレベルで堅牢な識別力を示します。これらの知見に基づいて、私たちは詳細なキャプショニングのための正確で効率的な自動化ベンチマーク「CapArena-Auto」をリリースし、テストあたりわずか4ドルで人間のランキングとの94.3%の相関を達成しました。データとリソースはhttps://caparena.github.ioでオープンソース化されます。
残差接続は、勾配消失を緩和することで非常に深いネットワークの学習を可能にする、現代の深層学習アーキテクチャの中核をなす技術です。Hyper-Connectionsは最近、異なる深さで複数の接続強度を導入することで残差接続を一般化し、勾配消失と表現崩壊の間のシーソー効果に対処しました。しかし、Hyper-Connectionsは隠れ状態の幅を拡張することでメモリアクセスコストを増加させます。本論文では、隠れ状態の幅を拡張するのではなく、複数の部分に分割する新しいアプローチであるFrac-Connectionsを提案します。Frac-Connectionsは、Hyper-Connectionsの利点を一部保持しつつ、メモリ消費を削減します。その有効性を検証するため、最大7BのMoEモデルを最大3Tトークンで学習する大規模な言語タスク実験を行い、Frac-Connectionsが残差接続を大幅に上回ることを実証しました。
我々はCosmos-Transferを紹介する。これは、セグメンテーション、深度、エッジなど様々なモダリティの空間制御入力を基に世界シミュレーションを生成する条件付き世界生成モデルである。この設計において、空間的条件付けスキームは適応的かつカスタマイズ可能であり、異なる空間位置で異なる条件入力を異なる重みで扱うことを可能にする。これにより、高度に制御可能な世界生成が実現され、Sim2Realを含む様々な世界間転送ユースケースに活用される。我々は、提案モデルを分析し、ロボティクスのSim2Realや自動運転車のデータエンリッチメントを含むPhysical AIへの応用を示すために、広範な評価を実施した。さらに、NVIDIA GB200 NVL72ラックを用いてリアルタイム世界生成を実現する推論スケーリング戦略を実証する。この分野の研究開発を加速するため、我々はモデルとコードをhttps://github.com/nvidia-cosmos/cosmos-transfer1でオープンソース化した。
単一画像から360度回転やズームを含む柔軟な視点の3Dシーンを生成することは、3Dデータの不足により困難です。この課題に対処するため、我々はFlexWorldという新しいフレームワークを提案します。FlexWorldは2つの主要なコンポーネントで構成されています:(1)粗いシーンからレンダリングされた不完全な入力から高品質な新規視点画像を生成する強力なビデオ間(V2V)拡散モデル、(2)完全な3Dシーンを構築するための漸進的拡張プロセスです。特に、高度に事前学習されたビデオモデルと正確な深度推定トレーニングペアを活用することで、我々のV2Vモデルは大きなカメラポーズの変化下でも新規視点を生成できます。これを基盤として、FlexWorldは新しい3Dコンテンツを漸進的に生成し、ジオメトリを考慮したシーン融合を通じてグローバルシーンに統合します。大規模な実験により、FlexWorldが単一画像から高品質な新規視点ビデオと柔軟な視点の3Dシーンを生成する有効性が実証され、複数の人気のあるメトリクスとデータセットにおいて既存の最先端手法を上回る視覚品質を達成しました。定性的には、FlexWorldが360度回転やズームのような柔軟な視点を持つ高忠実度シーンを生成できることを強調します。プロジェクトページ: https://ml-gsai.github.io/FlexWorld。
大規模な画像を効率的にモデル化することは、機械学習における長年の課題です。この課題に対処するため、我々はマルチスケールアテンション(MSA)を提案します。MSAは、(i) マルチスケール表現、(ii) 双方向クロススケール通信という2つの主要なアイデアに基づいています。MSAは、画像を段階的に粗い特徴で表現するためにO(log N)のスケールを生成し、クロスアテンションを利用してスケール間で情報を伝播させます。次に、MSAに基づく新しいニューラルネットワークアーキテクチャであるAtlasを紹介します。Atlasは、高解像度版ImageNet 100における長文脈画像モデリングの計算性能トレードオフを大幅に改善することを実証しました。1024px解像度では、Atlas-Bは91.04%の精度を達成し、ConvNext-B(91.92%)に匹敵する性能を示しながら、4.3倍高速でした。Atlasは、FasterViTと比較して2.95倍高速で7.38%優れており、LongViTと比較して2.25倍高速で4.96%優れています。MambaVision-Sとの比較では、Atlas-Sは1024px、2048px、4096pxでそれぞれ5%、16%、32%高い精度を達成し、同様の実行時間を維持しました。実験の再現と事前学習済みモデルのコードはhttps://github.com/yalalab/atlasで公開されています。
AIベンチマークにおける急速な進展にもかかわらず、ベンチマーク性能の現実世界での意味は依然として不明確です。AIシステムの能力を人間の能力に基づいて定量化するため、我々は新しい指標を提案します:50%-タスク完了時間ホライズン。これは、AIモデルが50%の成功率で完了できるタスクを人間が通常完了するのにかかる時間です。まず、RE-Bench、HCAST、および66の新しい短いタスクの組み合わせにおいて、関連する分野の専門知識を持つ人間の時間を計測しました。これらのタスクにおいて、Claude 3.7 Sonnetのような現在の最先端AIモデルの50%時間ホライズンは約50分です。さらに、最先端AIの時間ホライズンは2019年以降、約7ヶ月ごとに倍増しており、2024年にはその傾向が加速している可能性があります。AIモデルの時間ホライズンの増加は、主により高い信頼性とミスへの適応能力、そしてより優れた論理的推論とツール使用能力によって駆動されているようです。我々は、結果の限界(外部妥当性の程度を含む)と、危険な能力に対する自律性の増加の影響について議論します。これらの結果が現実世界のソフトウェアタスクに一般化される場合、この傾向を外挿すると、5年以内にAIシステムが現在人間が1ヶ月かかる多くのソフトウェアタスクを自動化できるようになると予測されます。
検証は、効果的な数学的推論において極めて重要です。本論文では、検証者が前回の評価に基づいて判断を反復的に洗練させる新しい時間的一貫性手法を提案します。1回限りの検証や複数モデルによる議論アプローチとは異なり、本手法は一連の自己省察行動における一貫性を活用することで検証精度を向上させます。多様な数学的プロセス誤り識別ベンチマーク(Mathcheck、ProcessBench、PRM800K)での実証評価では、ベースライン手法を一貫して上回る性能向上を示しています。最近のDeepSeek R1蒸留モデルに本手法を適用した場合、7B/8B蒸留モデルが全ての70B/72BモデルおよびGPT-4oをProcessBenchで上回る強力な性能を発揮しました。特に、本手法を適用した14B蒸留モデルはDeepseek-R1に匹敵する性能を達成しています。コードはhttps://github.com/jcguo123/Temporal-Consistencyで公開しています。
本論文では、ID保存型ビデオ生成のための統一フレームワークであるConcat-IDを提案する。Concat-IDは、Variational Autoencoderを用いて画像特徴を抽出し、それをビデオ潜在変数とシーケンス次元に沿って連結することで、追加モジュールを必要とせずに3D自己注意機構のみを活用する。IDの一貫性と顔の編集可能性をバランスさせながらビデオの自然さを向上させるため、新たなクロスビデオペアリング戦略と多段階トレーニング手法を導入した。大規模な実験により、Concat-IDが単一IDおよび複数ID生成において既存手法を凌駕すること、バーチャル試着や背景制御可能な生成を含むマルチサブジェクトシナリオへのシームレスなスケーラビリティを有することを実証した。Concat-IDは、ID保存型ビデオ合成の新たなベンチマークを確立し、幅広いアプリケーションに向けた汎用的でスケーラブルなソリューションを提供する。
推論能力は、大規模言語モデル(LLMs)が複雑なタスクに対処する上で不可欠な能力であり、その過程におけるエラーの特定は、この能力を向上させるために極めて重要です。最近では、プロセスレベル報酬モデル(PRMs)が提案され、トレーニング中の強化学習とデータ生成を促進するステップごとの報酬を提供し、推論時にLLMsを正しいステップへと導くことで、推論精度の向上が図られています。しかし、既存のPRMsベンチマークはテキストベースであり、エラー検出に焦点を当てており、推論探索などの他のシナリオを無視しています。このギャップを埋めるため、我々はMPBenchを導入します。これは、多様なシナリオにおけるPRMsの有効性を体系的に評価するための、包括的でマルチタスク、マルチモーダルなベンチマークです。MPBenchは、推論プロセスにおけるPRMsの特定の役割を対象とした3つの評価パラダイムを採用しています:(1)ステップ正しさ、これは各中間推論ステップの正しさを評価します;(2)回答集約、これは複数の解決策を集約し、最良のものを選択します;(3)推論プロセス探索、これは推論中に最適な推論ステップを探索することを導きます。これらのパラダイムを通じて、MPBenchは包括的な評価を行い、マルチモーダルPRMsの開発に関する洞察を提供します。
テキストから画像生成の進歩における主要なアプローチは、より大規模なモデルをより多くのデータで、より多くの計算リソースを使用して訓練する「訓練時スケーリング」でした。このアプローチは効果的ではあるものの、計算コストが高く、そのため、推論時スケーリングによる性能向上への関心が高まっています。現在、テキストから画像生成の拡散モデルにおける推論時スケーリングは、主に「best-of-Nサンプリング」に限定されています。これは、プロンプトごとに複数の画像を生成し、選択モデルが最良の出力を選ぶ方法です。最近、言語領域でDeepSeek-R1のような推論モデルが成功したことに触発され、我々は単純なbest-of-Nサンプリングに代わる方法として、テキストから画像生成のDiffusion Transformerに「文脈内反映能力」を組み込むことを提案します。我々は、Reflect-DiTという手法を提案します。これは、Diffusion Transformerが、以前に生成された画像の文脈内例と、必要な改善点を説明するテキストフィードバックを使用して、生成を洗練できるようにするものです。Reflect-DiTは、受動的にランダムサンプリングに頼り、将来の生成でより良い結果を期待するのではなく、改善が必要な特定の側面に対処するために生成を明示的に調整します。実験結果は、Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを使用して、GenEvalベンチマークで性能を向上させる(+0.19)ことを示しています。さらに、プロンプトごとに20サンプルしか生成しない場合でも、GenEvalで0.81という新たな最先端スコアを達成し、best-of-Nアプローチで2048サンプルを使用した大幅に大規模なモデル(SANA-1.5-4.8B)で得られた以前の最高スコア0.80を上回りました。
マルチモーダル大規模言語モデル(MLLM)は2次元の視覚理解において優れていますが、3次元空間に関する推論能力には限界があります。本研究では、大規模で高品質な3Dシーンデータとオープンセットのアノテーションを活用し、1) 新しい教師ありファインチューニング用データセットと、2) 屋内シーンに焦点を当てた新しい評価ベンチマークを導入します。私たちのCubify Anything VQA(CA-VQA)データは、空間関係予測、メトリックサイズと距離推定、3Dグラウンディングなど、多様な空間タスクをカバーしています。CA-VQAを使用することで、MM-Spatialという強力な汎用MLLMを訓練し、3D空間理解ベンチマークにおいて最先端の性能を達成することを示します。また、CA-VQAで提供されるメトリック深度とマルチビュー入力を組み込むことで、3D理解がさらに向上することを示し、データのみで専用の単眼深度推定モデルに匹敵する深度知覚能力をモデルが獲得できることを実証します。私たちはSFTデータセットとベンチマークを公開します。
その印象的な能力にもかかわらず、マルチモーダル大規模言語モデル(MLLMs)は、細粒度の知覚と複雑な推論において課題に直面しています。一般的なマルチモーダル事前学習アプローチは、高品質な画像キャプションを用いた学習を通じて知覚を強化することに焦点を当てています。これは、推論能力を向上させるための連鎖的思考(CoT)推論データの収集コストが非常に高いためです。先進的なMLLMsを活用したキャプション生成はスケーラビリティを高めますが、その出力はしばしば包括性と正確性に欠けています。本論文では、自己生成データを用いたマルチモーダル事前学習を通じて、体系的認知能力を強化することで次世代基盤MLLMsを構築する自己学習フレームワーク「Self-Improving cognition(SIcog)」を紹介します。具体的には、段階的な視覚理解を可能にする「Chain-of-Description」アプローチを提案し、MLLMsの体系的知覚を向上させ、より包括的かつ正確な理解を保証します。さらに、構造化されたCoT推論技術を採用し、MLLMsが深いマルチモーダル推論を統合できるようにします。自己改善された認知能力を持つ次世代基盤MLLMを構築するために、SIcogはまず、最小限の外部注釈を用いてMLLMに体系的知覚と推論能力を装備します。強化されたモデルは、詳細なキャプションとCoT推論データを生成し、それらは自己一貫性を通じてさらに精選されます。この精選されたデータは、最終的にマルチモーダル事前学習に使用され、次世代基盤モデルを開発します。多様なベンチマークにおける低解像度および高解像度MLLMsを用いた広範な実験により、わずか213Kの自己生成事前学習サンプルで、SIcogが次世代基盤MLLMsを生成し、その認知能力が大幅に向上し、一般的な事前学習アプローチと比較してベンチマークでリーダーとなる性能を達成することが示されました。
クロスリンガル転移により、ビジョン言語モデル(VLM)は、1つの言語のトレーニングデータのみで、さまざまな言語のビジョンタスクを実行できるようになります。現在のアプローチは、大規模な事前学習済み多言語言語モデルに依存しています。しかし、これらのモデルは多言語性の呪いに直面し、多言語能力のために下流タスクの性能を犠牲にし、語彙の曖昧性に苦戦し、最近の進歩に遅れをとっています。本研究では、単言語VLMを用いた多言語タスクにおける体系的な一般化のスケーリング則を調査し、モデルサイズと見たトレーニングサンプルの影響に焦点を当てます。我々は、事前学習済みVLM Florence-2と大規模言語モデルGemma-2を組み合わせた、0.4Bから11.2Bパラメータを持つ単言語エンコーダーデコーダーVLMであるFlorenzを提案します。Florenzは、意図的に不完全な言語カバレッジを特徴とする合成データセットで、さまざまな計算予算でトレーニングされ、完全にカバーされた翻訳タスクからの一般化をテストします。我々は、見えないタスク言語ペアを間接的に学習することがスケーリング則に従うだけでなく、我々のデータ生成パイプラインと提案されたFlorenzモデルファミリーにより、翻訳タスクのデータのみが利用可能な場合でも、特定の言語での画像キャプション能力が出現することを示します。下流データセットの混合でのファインチューニングにより、競争力のある性能が得られ、マルチモーダル機械翻訳(Multi30K、CoMMuTE)、語彙の曖昧性解消(CoMMuTE)、および画像キャプション(Multi30K、XM3600、COCO Karpathy)における有望なスケーリングトレンドが示されます。
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な能力を発揮してきた。しかし、数学的推論や非英語言語のような専門領域で高い性能を達成するためには、大規模なデータセットを用いた広範な学習が必要となることが多い。本論文では、これとは対照的なアプローチを探求する:小規模で高品質な二言語(英語-フランス語)データセットを用いた戦略的なファインチューニングにより、大規模言語モデルの推論能力とフランス語の熟達度を同時に向上させる。規模に頼るのではなく、ターゲットを絞ったデータキュレーションと最適化された学習が、競争力のある、あるいはそれ以上の性能を達成できるという仮説を検証する。2,000の厳選されたサンプルを用いたターゲットを絞った教師ありファインチューニング(SFT)により、数学的推論において顕著な改善が得られることを実証する。具体的には、Pensez 7Bは、AIME25においてベースモデルの精度が最大20%向上し、フランス語のMATHレベル5ベンチマークでは12%の向上を示した。これらの結果は、LLMにおいて強力な推論性能を得るためには大規模なデータセットが必須であるという従来の前提に疑問を投げかけ、専門技能と多言語能力の両方を向上させるための戦略的なデータキュレーションと最適化されたファインチューニングの可能性を浮き彫りにしている。我々の知見は、特にリソースが制約された状況において、高性能な多言語LLMを効率的に開発する上で重要な示唆を与えるものである。
近年、マルチモーダル大規模言語モデル(MLLMs)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な進歩を遂げてきました。しかし、この印象的な進歩は、インターネットから収集された膨大なデータに依存しており、プライバシーとセキュリティに関する重大な懸念を引き起こしています。これらの問題に対処するため、機械学習の「忘却学習(Machine Unlearning, MU)」が有望な解決策として登場し、既に訓練されたモデルから特定の知識を削除することを可能にし、ゼロから再訓練する必要をなくしました。MLLMsにおけるMUは注目を集めていますが、その有効性に関する現在の評価は不完全であり、根本的な問題がしばしば不明確であるため、より安全で信頼性の高いシステムを構築するための戦略の開発が妨げられています。このギャップを埋めるため、私たちはPEBenchというベンチマークを導入しました。PEBenchは、個人エンティティと対応する一般的なイベントシーンを含むデータセットを備えており、MLLMsにおけるMUの性能を包括的に評価するために設計されています。PEBenchを通じて、安全でプライバシーを保護するマルチモーダルモデルの研究を進めるための標準化された堅牢なフレームワークを提供することを目指しています。私たちは6つのMU手法をベンチマークし、それらの強みと限界を明らかにし、MLLMsにおけるMUの主要な課題と機会に光を当てました。
理想的なモデル評価は、2つの目標を達成すべきである:モデルが失敗する箇所を特定し、改善のための具体的な指針を提供すること。言語モデル(LM)評価におけるこれらの目標に向けて、我々はベンチマークにおける個々のインスタンスでのLMの性能を基に、自然言語で表現された弱点の集合である弱点プロファイルを生成する問題を定式化する。異なる弱点プロファイリング手法を比較するための定量的評価スイートを導入する。また、弱点プロファイリング手法EvalTreeを提案する。EvalTreeは、各ノードが自然言語で記述された能力を表し、その能力を具体的に評価するベンチマークインスタンスのサブセットにリンクされた能力ツリーを構築する。その後、LMの性能が低いノードを抽出して弱点プロファイルを生成する。MATHおよびWildChatベンチマークにおいて、EvalTreeがベースラインの弱点プロファイリング手法を上回り、より正確かつ包括的に弱点を特定することを示す。弱点プロファイリングはさらに、弱点に基づくデータ収集を可能にし、EvalTreeが特定した弱点に基づいて収集されたトレーニングデータは、他のデータ収集戦略よりもLMの性能を向上させる。また、EvalTreeがChatbot Arenaの人間投票者ベースの評価手法の欠点を明らかにする方法も示す。今後の研究を促進するため、我々はコードと、EvalTreeによって構築された能力ツリーをインタラクティブに探索できるインターフェースを公開する。
マルチモーダル大規模言語モデル(MLLMs)は、推論において印象的な能力を示していますが、その計算コストが高く、リソースが制約された環境での展開が制限されています。MLLMsの効率性を向上させるための最近の取り組みにもかかわらず、既存のソリューションは、特にリソースの可用性の変化(例えば、デバイス上で実行される他のプログラムによる競合)に対応する点で不十分です。このギャップを埋めるため、我々はAdaLLaVAを導入します。これは、推論中にMLLMの操作を動的に再構成する適応型推論フレームワークであり、入力データとレイテンシ予算を考慮します。質問応答、推論、および幻覚を含むベンチマークで広範な実験を行いました。その結果、AdaLLaVAが入力レイテンシ予算に効果的に準拠し、実行時にさまざまな精度とレイテンシのトレードオフを達成することが示されました。さらに、AdaLLaVAが入力レイテンシと内容の両方に適応し、トークン選択と統合して効率を向上させ、MLLMs全体に一般化できることを実証しました。コードリリースを含むプロジェクトのウェブページはhttps://zhuoyan-xu.github.io/ada-llava/にあります。
グラフドメイン適応は、異なるドメイン間での知識転移を促進する有望なアプローチとして登場しました。最近、この分野における汎化能力を向上させるために数多くのモデルが提案されています。しかし、既存の技術を統合し、その実装を簡素化する統一されたライブラリはまだ存在しません。このギャップを埋めるため、私たちはグラフドメイン適応に特化したオープンソースのPythonライブラリであるPyGDAを紹介します。この分野初の包括的なライブラリとして、PyGDAは20以上の広く使用されているグラフドメイン適応手法とさまざまなタイプのグラフデータセットをカバーしています。具体的には、PyGDAはモジュール化されたコンポーネントを提供し、ユーザーが多様な一般的なユーティリティ関数をシームレスに組み合わせてカスタムモデルを構築できるようにします。大規模なグラフを扱うために、PyGDAはサンプリングやミニバッチ処理などの機能をサポートし、効率的な計算を保証します。さらに、PyGDAは研究者や実務者向けに包括的なパフォーマンスベンチマークとよくドキュメント化されたユーザーフレンドリーなAPIも含んでいます。便利なアクセス性を促進するため、PyGDAはMITライセンスの下でhttps://github.com/pygda-team/pygdaで公開されており、APIドキュメントはhttps://pygda.readthedocs.io/en/stable/にあります。
生成モデルは近年、3Dオブジェクトの分野で目覚ましい進歩を遂げています。しかし、エンジニアリングなどの分野での実用的な応用は、ドメイン固有のタスクに必要な精度、品質、制御性を提供できないため、依然として限られています。大規模生成モデルのファインチューニングは、これらの分野でモデルを活用するための有望なアプローチです。高品質でドメイン固有の3Dデータセットを作成することは、大規模生成モデルのファインチューニングにおいて重要ですが、データのフィルタリングとアノテーションプロセスは依然として大きなボトルネックとなっています。本論文では、Objaverse-XLから抽出されたフィルタリングおよびアノテーション済みの3D車両データセットであるMeshFleetを紹介します。我々のアプローチは、品質分類器に基づく自動データフィルタリングのパイプラインを提案します。この分類器は、手動でラベル付けされたObjaverseのサブセットで訓練され、DINOv2とSigLIPの埋め込みを組み込み、キャプションベースの分析と不確実性推定を通じて洗練されています。我々は、キャプションや画像の美的スコアに基づく手法との比較分析、およびSV3Dを用いたファインチューニング実験を通じて、フィルタリング手法の有効性を実証し、ドメイン固有の3D生成モデリングにおけるターゲットデータ選択の重要性を強調します。
CLIPのような視覚言語モデルから不適切なコンテンツを検索する問題に対処することは、現実世界への統合に向けた重要なステップです。現在の取り組みでは、不適切な概念に関するモデルの知識を消去しようとするアンラーニング技術に依存しています。アンラーニングは望ましくない出力を減らす点では効果的ですが、モデルが適切なコンテンツと不適切なコンテンツを区別する能力を制限してしまいます。本研究では、双曲空間の内在的な階層的特性を活用することで、アンラーニングから認識パラダイムへの転換を図る新たなアプローチを提案します。適切なコンテンツと不適切なコンテンツを包含階層としてエンコードし、双曲空間の異なる領域に配置することを提案します。私たちのHySAC(Hyperbolic Safety-Aware CLIP)は、包含損失関数を用いて、適切な画像-テキストペアと不適切な画像-テキストペアの間の階層的かつ非対称的な関係をモデル化します。このモデル化は、標準的な視覚言語モデルではユークリッド埋め込みに依存しているため効果的ではありませんが、モデルに不適切なコンテンツの認識能力を与え、多モーダルな不適切分類器として機能するとともに、不適切なクエリを動的に安全な代替案にリダイレクトするか、元の出力を保持する柔軟なコンテンツ検索器としても機能します。広範な実験により、私たちのアプローチが安全性の認識を向上させるだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応性が高く解釈可能なフレームワークを確立することが示されました。ソースコードはhttps://github.com/aimagelab/HySACで公開されています。
大規模言語モデル(LLMs)と視覚言語モデル(VLMs)の急速な進展に伴い、オープン語彙ロボット操作システムの開発において大きな進展が見られています。しかし、既存の多くのアプローチは物体のダイナミクスの重要性を見落としており、より複雑で動的なタスクへの適用性が制限されています。本研究では、KUDAを紹介します。これは、VLMsと学習ベースのニューラルダイナミクスモデルを活用し、キーポイントを通じてダイナミクス学習と視覚プロンプティングを統合したオープン語彙操作システムです。私たちの重要な洞察は、キーポイントベースのターゲット指定がVLMsによって解釈可能であり、モデルベースのプランニングのためのコスト関数に効率的に変換できることです。言語指示と視覚観測が与えられると、KUDAはまずRGB画像にキーポイントを割り当て、VLMにクエリを送ってターゲット指定を生成します。これらの抽象的なキーポイントベースの表現は、その後コスト関数に変換され、学習されたダイナミクスモデルを使用して最適化され、ロボットの軌道を生成します。私たちはKUDAを、多様なオブジェクトカテゴリにわたる自由形式の言語指示、複数オブジェクトの相互作用、変形可能または粒状のオブジェクトを含む一連の操作タスクで評価し、本フレームワークの有効性を実証しました。プロジェクトページはhttp://kuda-dynamics.github.ioで公開されています。
路側協調知覚(Roadside Collaborative Perception)とは、複数の路側ユニットが協力して知覚データを統合し、車両の環境認識能力を向上させるシステムを指します。既存の路側知覚手法はモデル設計に重点を置いていますが、キャリブレーション誤差、情報の希薄性、マルチビュー一貫性といったデータの問題を見落としており、最近公開されたデータセットでの性能が低いという課題があります。路側協調知覚を大幅に向上させ、重要なデータ問題に対処するため、我々は初のシミュレーションフレームワーク「RoCo-Sim」を提案します。RoCo-Simは、単一画像の動的前景編集と全シーンスタイル転移を通じて、多様でマルチビュー一貫性のあるシミュレーション路側データを生成することができます。RoCo-Simは以下の4つのコンポーネントで構成されています:(1) カメラ外部パラメータ最適化により、路側カメラの正確な3Dから2Dへの投影を保証します;(2) 新規のマルチビューオクルージョン対応サンプラー(MOAS)が、3D空間内に多様なデジタルアセットを配置します;(3) DepthSAMは、単一フレームの固定ビュー画像から前景と背景の関係を革新的にモデル化し、前景のマルチビュー一貫性を保証します;(4) スケーラブルな後処理ツールキットが、スタイル転移やその他の拡張を通じて、より現実的で豊かなシーンを生成します。RoCo-Simは路側3D物体検出を大幅に改善し、Rcooper-IntersectionではAP70でSOTA手法を83.74、TUMTraf-V2Xでは83.12上回りました。RoCo-Simは路側知覚シミュレーションにおける重要なギャップを埋めるものです。コードと事前学習済みモデルは近日公開予定です:https://github.com/duyuwen-duen/RoCo-Sim
車両間(V2V)協調型自動運転は、単一エージェントシステムに内在する知覚と予測の不確実性に対処することで、安全性の向上に大きな可能性を秘めています。しかし、従来の協調手法は、硬直的な協力プロトコルや未経験の相互作用シナリオへの汎化能力の限界に制約されています。一方、LLM(大規模言語モデル)ベースのアプローチは汎用的な推論能力を提供しますが、空間計画における課題や不安定な推論遅延が、協調運転への直接的な適用を妨げています。これらの制約を克服するため、我々はCoLMDriverを提案します。これは、効果的な言語ベースの交渉とリアルタイム運転制御を可能にする、初のフルパイプラインLLMベース協調運転システムです。CoLMDriverは、2つの主要コンポーネントを備えた並列運転パイプラインを特徴とします:(i) アクター・クリティックパラダイムに基づくLLMベースの交渉モジュール。これは、全ての車両の過去の決定からのフィードバックを通じて協調ポリシーを継続的に洗練します。(ii) 意図誘導型ウェイポイントジェネレータ。これは、交渉結果を実行可能なウェイポイントに変換します。さらに、我々はInterDriveを紹介します。これは、V2V協調を評価するための10の挑戦的な相互作用運転シナリオを含む、CARLAベースのシミュレーションベンチマークです。実験結果は、CoLMDriverが既存のアプローチを大幅に上回り、多様な高度に相互作用するV2V運転シナリオ全体で11%高い成功率を達成することを示しています。コードはhttps://github.com/cxliu0314/CoLMDriverで公開されます。