翻訳付きの日次キュレーションされたAI研究論文
我々は、1350億のパラメータと密なTransformerモジュールを備えた大規模言語モデル(LLM)であるPangu Ultraを発表します。このモデルは、Ascend Neural Processing Units(NPU)上でトレーニングされました。近年、LLMの分野では規模と能力を押し上げる前例のない進展が見られていますが、このような大規模モデルのトレーニングには依然として重要な最適化とシステム上の課題が伴います。トレーニングプロセスを安定化するために、我々は深さスケーリングされたサンドイッチ正規化を提案し、深層モデルのトレーニング中に発生する損失スパイクを効果的に排除します。我々は、13.2兆の多様で高品質なトークンでモデルを事前トレーニングし、ポストトレーニング中にその推論能力をさらに強化しました。このような大規模トレーニングを効率的に実行するために、8,192個のAscend NPUと一連のシステム最適化を活用しました。多様なベンチマークでの評価結果は、Pangu UltraがLlama 405BやMistral Large 2などの密なLLMの最先端能力を大幅に進化させ、さらにパラメータ数がはるかに多いスパースモデル構造を持つDeepSeek-R1と競合する結果を達成したことを示しています。我々の探求は、Ascend NPUが1000億以上のパラメータを持つ密なモデルを効率的かつ効果的にトレーニングできることを実証しています。我々のモデルとシステムは、商用顧客向けに提供されます。
私たちは、効率的なオープンソースのMixture-of-Experts(MoE)ビジョン言語モデル(VLM)であるKimi-VLを紹介します。このモデルは、高度なマルチモーダル推論、長文脈理解、そして強力なエージェント能力を提供し、言語デコーダではわずか2.8Bのパラメータを活性化します(Kimi-VL-A3B)。Kimi-VLは、挑戦的なドメインで優れたパフォーマンスを発揮します。汎用VLMとして、Kimi-VLはマルチターンエージェントタスク(例:OSWorld)でトップモデルに匹敵する性能を示します。さらに、大学レベルの画像や動画の理解、OCR、数学的推論、複数画像の理解など、多様な困難なビジョン言語タスクで顕著な能力を発揮します。比較評価では、GPT-4o-mini、Qwen2.5-VL-7B、Gemma-3-12B-ITなどの最先端の効率的なVLMと効果的に競い、いくつかの主要なドメインでGPT-4oを上回ります。Kimi-VLは、長文脈の処理と明確な知覚においても進歩しています。128Kの拡張文脈ウィンドウを備えたKimi-VLは、多様な長い入力を処理し、LongVideoBenchで64.5、MMLongBench-Docで35.1の印象的なスコアを達成します。そのネイティブ解像度のビジョンエンコーダーであるMoonViTにより、超高解像度の視覚入力を認識し、理解することが可能で、InfoVQAで83.2、ScreenSpot-Proで34.5のスコアを達成しながら、一般的なタスクでの計算コストを低く抑えています。Kimi-VLを基盤として、高度な長考バリアントであるKimi-VL-Thinkingを導入します。このモデルは、長い連鎖思考(CoT)の教師あり微調整(SFT)と強化学習(RL)を通じて開発され、強力な長期的推論能力を示します。MMMUで61.7、MathVisionで36.8、MathVistaで71.3のスコアを達成し、コンパクトな2.8Bの活性化LLMパラメータを維持しながら、効率的なマルチモーダル思考モデルの新たな基準を設定します。コードとモデルはhttps://github.com/MoonshotAI/Kimi-VLで公開されています。
DeepSeek-R1のような大規模推論モデルは、LLMが複雑な問題にアプローチする方法において根本的な転換をもたらします。与えられた入力に対して直接答えを生成するのではなく、DeepSeek-R1は詳細な多段階の推論チェーンを作成し、まるで問題について「考え」てから答えを提供するかのようです。この推論プロセスはユーザーに公開されており、モデルの推論行動を研究するための無限の機会を創出し、Thoughtology(思考学)の分野を切り開いています。DeepSeek-R1の推論の基本的な構成要素の分類体系を出発点として、私たちの分析は、思考の長さの影響と制御性、長くて混乱を招く文脈の管理、文化的および安全性に関する懸念、そして人間のような言語処理や世界モデリングといった認知現象に対するDeepSeek-R1の状態を調査しています。私たちの調査結果は、微妙なニュアンスを描き出しています。特に、DeepSeek-R1には推論の「スイートスポット」があり、追加の推論時間がモデルの性能を損なう可能性があることを示しています。さらに、DeepSeek-R1には以前に探索した問題の定式化について執拗に反芻する傾向があり、さらなる探索を妨げることがわかりました。また、非推論型の対応モデルと比較して、DeepSeek-R1には強い安全性の脆弱性があり、安全性に配慮したLLMの安全性も損なう可能性があることに注意しています。
Mixture-of-Experts (MoE) 大規模言語モデル (LLMs) は、深刻な最適化不足のエキスパート経路に悩まされています。本研究では、事前学習から得られた単純なエキスパート選択が、驚くべき10-20%の精度向上の余地を残していることを明らかにしました。この観察に基づき、我々は新しいクラスのテスト時最適化手法を開発し、各テストサンプルに対して異なる層のエキスパートを再重み付けまたは「再混合」することを目指します。テストサンプルの正解が未知であるため、参照サンプルセットからの「成功した近傍」に基づく代理目的関数を最適化することを提案します。我々は、モード探索、カーネル回帰、および類似した参照サンプル/タスクの平均損失に基づく3つの代理手法とアルゴリズムを導入します。経路全体の最適化コストを削減するため、我々のアルゴリズムを重要な層のコアエキスパートの混合重みにのみ適用し、同様の性能を維持しながら大幅な計算コストを節約します。これにより、「Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)」が導かれます。C3POを2つの最近のMoE LLMに適用し、6つの広く使用されているベンチマークで検証しました。C3POはベースモデルの精度を7-15%向上させ、広く使用されているテスト時学習のベースライン(例:インコンテキスト学習やプロンプト/プレフィックスチューニング)を大きく上回りました。さらに、C3POは1-3Bのアクティブパラメータを持つMoE LLMが7-9BパラメータのLLMを上回ることを可能にし、MoEの効率性の利点をさらに高めます。我々の詳細なアブレーション研究は、MoEにおけるテスト時改善を達成するための新たな洞察を提供します。
最近の拡散モデルの進展は、様々な画像生成タスクを大きく前進させています。しかし、現在の主流のアプローチは、特定のタスクに特化したモデルの構築に焦点を当てており、多様なニーズをサポートする際の効率性が限られています。ユニバーサルモデルはこの制限に対処しようとしていますが、汎用的なタスク指示、適切なタスク分布、統一されたアーキテクチャ設計といった重要な課題に直面しています。これらの課題に取り組むため、我々はVisualClozeを提案します。これは、幅広いドメイン内タスクのサポート、未見タスクへの一般化、複数タスクの未見の統一、および逆生成を可能にするユニバーサル画像生成フレームワークです。言語ベースのタスク指示に依存し、タスクの曖昧さや弱い一般化を引き起こす既存の手法とは異なり、我々は視覚的な文脈内学習を統合し、モデルが視覚的デモンストレーションからタスクを識別できるようにします。一方で、視覚的タスク分布の内在的なスパース性は、タスク間での転移可能な知識の学習を妨げます。このため、我々はGraph200Kを導入します。これは、様々な相互関連タスクを確立し、タスク密度と転移可能な知識を強化するグラフ構造化データセットです。さらに、我々の統一画像生成定式化が、画像インフィリングと一貫した目的を共有していることを明らかにし、アーキテクチャを変更することなく、事前訓練されたインフィリングモデルの強力な生成事前分布を活用できることを示します。
Chain-of-Thought(CoT)推論の進展は、大規模言語モデル(LLMs)および大規模視覚言語モデル(LVLMs)の能力を大幅に向上させてきた。しかし、ビデオCoT推論に対する厳密な評価フレームワークは依然として存在しない。現在のビデオベンチマークは、推論プロセスを適切に評価しておらず、失敗が知覚能力の欠如によるものか、推論能力の欠如によるものかを明らかにすることができない。そこで、我々はVCR-Benchを導入する。これは、LVLMsのビデオChain-of-Thought推論能力を包括的に評価するために設計された新しいベンチマークである。VCR-Benchは、様々なビデオコンテンツと時間幅にわたる859本のビデオと、1,034組の高品質な質問-回答ペアで構成されている。各ペアは、段階的なCoT根拠を手動で注釈付けされており、各ステップは知覚能力または推論能力との関連を示すタグが付けられている。さらに、我々は7つの異なるタスク次元を設計し、段階的にタグ付けされたCoT根拠に基づいてCoTプロセス全体を評価するためのCoTスコアを提案する。VCR-Benchでの広範な実験は、現在のLVLMsの重大な限界を浮き彫りにしている。最高性能のモデルであるo1でさえ、CoTスコアは62.8%、精度は56.7%しか達成できず、ほとんどのモデルは40%未満のスコアである。実験では、ほとんどのモデルが推論ステップよりも知覚ステップで低いスコアを示し、複雑なビデオ推論における時空間情報処理がLVLMsの主要なボトルネックであることを明らかにしている。CoTスコアと精度の間の強い正の相関関係は、我々の評価フレームワークの有効性を確認し、複雑なビデオ推論タスクを解決する上でCoT推論が重要な役割を果たすことを強調している。我々は、VCR-Benchが標準化された評価フレームワークとして機能し、複雑なビデオ推論タスクにおける実際の欠点を明らかにすることを期待している。
命令追従(Instruction Following, IF)能力は、マルチモーダル大規模言語モデル(Multi-modal Large Language Models, MLLMs)がユーザーの指示を正確に理解し、適切に実行する能力を測定します。既存のマルチモーダル命令追従トレーニングデータは不足しており、ベンチマークは単純な原子命令に限定され、正確な出力制約を要求するタスクに対する評価戦略も不十分です。この問題に対処するため、我々は高品質な画像-命令ペアを生成する効果的なパイプラインであるMM-IFEngineを提案します。MM-IFEngineパイプラインは、大規模で多様かつ高品質なトレーニングデータMM-IFInstruct-23kを生成し、これは教師あり微調整(Supervised Fine-Tuning, SFT)に適しており、さらにDirect Preference Optimization(DPO)用に拡張されたMM-IFDPO-23kとしても利用可能です。さらに、我々はMM-IFEvalを導入します。これは、挑戦的で多様なマルチモーダル命令追従ベンチマークであり、(1) 出力応答に対する構成レベルの制約と入力画像に紐づく知覚レベルの制約の両方を含み、(2) ルールベースの評価と判定モデルを組み込んだ包括的な評価パイプラインを備えています。我々はSFTとDPOの実験を行い、MM-IFInstruct-23kとMM-IFDPO-23kでMLLMsを微調整することで、MM-IFEval(+10.2%)、MIA(+7.6%)、IFEval(+12.3%)など、さまざまなIFベンチマークで顕著な向上を達成することを実証しました。完全なデータと評価コードはhttps://github.com/SYuan03/MM-IFEngineで公開されます。
マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年の目標となってきた。現在のアプローチでは、視覚エンコーダを大規模言語モデル(LLM)に接続し、マルチモーダルトレーニングを継続するなど、個別に事前学習されたコンポーネントを統合する方法が取られている。このようなアプローチは顕著なサンプル効率を示すが、こうした後期融合アーキテクチャが本質的に優れているかどうかは未解決の問題である。本研究では、すべてのモダリティを一から学習するネイティブマルチモーダルモデル(NMM)のアーキテクチャ設計を再検討し、457の異なるアーキテクチャとトレーニング混合を持つモデルを対象とした大規模なスケーリング則の研究を実施した。調査の結果、後期融合アーキテクチャが早期融合アーキテクチャ(画像エンコーダに依存しない)に対して本質的な優位性を持たないことが明らかになった。むしろ、早期融合は低いパラメータ数でより強い性能を示し、トレーニング効率が高く、デプロイも容易である。早期融合アーキテクチャの優れた性能に触発され、Mixture of Experts(MoE)を組み込むことで、モダリティ固有の重みを学習するモデルが可能となり、性能が大幅に向上することを示す。
3Dパートアモーダルセグメンテーション――3D形状を完全で意味的に意味のあるパーツに分解し、隠蔽されている部分も含めて認識する――は、3Dコンテンツの作成と理解において困難ながらも重要な課題です。既存の3Dパートセグメンテーション手法は、可視表面パッチのみを識別するため、その有用性が制限されています。2Dアモーダルセグメンテーションに着想を得て、我々はこの新たな課題を3D領域に導入し、隠蔽された3Dジオメトリの推論、グローバルな形状の一貫性の維持、限られたトレーニングデータでの多様な形状の処理といった主要な課題に対処する実用的な2段階アプローチを提案します。まず、既存の3Dパートセグメンテーションを活用して初期の不完全なパートセグメントを取得します。次に、これらのセグメントを完全な3Dパーツに完成させるために、新しい拡散ベースのモデルであるHoloPartを導入します。HoloPartは、細かなパートジオメトリを捉えるためのローカルアテンションと、全体の形状一貫性を確保するためのグローバル形状コンテキストアテンションを備えた特殊なアーキテクチャを採用しています。ABOおよびPartObjaverse-Tinyデータセットに基づく新しいベンチマークを導入し、HoloPartが最先端の形状補完手法を大幅に上回ることを実証します。既存のセグメンテーション技術にHoloPartを組み込むことで、3Dパートアモーダルセグメンテーションにおいて有望な結果を得て、ジオメトリ編集、アニメーション、マテリアル割り当てといったアプリケーションへの新たな道を開きます。
本論文では、知識蒸留を一切用いず、自己改善のみに依存して、大幅に少ない訓練サンプルで視覚的推論能力を向上させる効果的な手法を提案する。我々の重要な洞察は、強化学習による微調整(RFT)における訓練データの難易度が極めて重要であるという点である。適切に挑戦的なサンプルは、データセットが小さくても、推論能力を大幅に向上させることができる。直感的ではあるが、主要な課題は、効果的なデータフィルタリングを可能にするために、サンプルの難易度を正確に定量化することにある。この目的のために、我々はモンテカルロ木探索(MCTS)を再利用する新たな方法を提案する。我々が選定した70kのオープンソース訓練サンプルから出発し、VLMsが各問題を解決するために必要な反復回数に基づいてサンプルの難易度を定量化するMCTSベースの選択手法を導入する。MCTSにおけるこの明示的なステップバイステップの推論は、モデルに長く考えさせ、真に挑戦的なサンプルをより良く識別することを強制する。我々は11kのサンプルをフィルタリングして保持し、Qwen2.5-VL-7B-Instructに対してRFTを実行し、最終モデルであるThinkLite-VLを得た。8つのベンチマークでの評価結果は、ThinkLite-VLがQwen2.5-VL-7B-Instructの平均性能を7%向上させ、知識蒸留なしでわずか11kの訓練サンプルを使用していることを示している。これは、既存のすべての7Bレベルの推論VLMs、および精度ベースのフィルタリングなどの古典的な選択手法を使用する我々の比較可能なベースラインを大幅に上回る。特に、MathVistaでは、ThinkLite-VL-7Bは75.1のSoTA精度を達成し、Qwen2.5-VL-72B、GPT-4o、O1を上回った。我々のコード、データ、およびモデルはhttps://github.com/si0wang/ThinkLite-VLで公開されている。
我々は、生成型言語エージェントが「いいね」やシェア、コンテンツのフラグ付けといったユーザー行動を予測する、新規のオープンソースソーシャルネットワークシミュレーションフレームワーク「MOSAIC」を提案します。このシミュレーションは、LLMエージェントと有向ソーシャルグラフを組み合わせることで、創発的な欺瞞行動を分析し、ユーザーがオンラインソーシャルコンテンツの真偽をどのように判断するかをより深く理解することを目指しています。多様で細かいペルソナからユーザー表現を構築することで、我々のシステムはコンテンツの拡散とエンゲージメントのダイナミクスを大規模にモデル化するマルチエージェントシミュレーションを可能にします。このフレームワーク内で、模擬的な誤情報拡散を用いて3つの異なるコンテンツモデレーション戦略を評価し、それらが非事実的コンテンツの拡散を抑制するだけでなく、ユーザーエンゲージメントを向上させることを発見しました。さらに、シミュレーション内での人気コンテンツの軌跡を分析し、シミュレーションエージェントがソーシャルインタラクションに対して表明する推論が、彼らの集合的なエンゲージメントパターンと真に一致しているかどうかを探ります。我々は、AIと社会科学分野におけるさらなる研究を促進するため、シミュレーションソフトウェアをオープンソース化します。
マルチモーダル大規模言語モデル(MLLM)の進化が進んでいるにもかかわらず、特に文書のようなテキスト豊富な画像における視覚的テキストのグラウンディングにおいて、無視できない限界が残っています。スキャンされたフォームやインフォグラフィックなどの文書画像は、その複雑なレイアウトとテキスト内容により、重要な課題を浮き彫りにしています。しかし、現在のベンチマークはこれらの課題に十分に対応しておらず、主に自然画像における視覚的グラウンディングに焦点を当てており、テキスト豊富な文書画像には対応していません。そこで、このギャップを埋めるために、我々はTRIGという新しいタスクを導入し、文書質問応答におけるMLLMのテキスト豊富な画像グラウンディング能力をベンチマークし、改善するための新たに設計された指示データセットを提供します。具体的には、OCR-LLM-人間のインタラクションパイプラインを提案し、800の手動アノテーションされた質問-回答ペアをベンチマークとして、また4つの多様なデータセットに基づく90ドルの大規模な合成データセットを作成しました。提案したベンチマークに対する様々なMLLMの包括的評価により、テキスト豊富な画像におけるグラウンディング能力の重大な限界が明らかになりました。さらに、一般的な指示チューニングとプラグアンドプレイの効率的な埋め込みに基づく2つのシンプルで効果的なTRIG手法を提案します。合成データセットでMLLMをファインチューニングすることにより、空間推論とグラウンディング能力が有望に向上します。
既存のテキストから画像への拡散モデルを制御する手法は強力ではあるものの、物体の向きを精密に制御するといった明示的な3Dオブジェクト中心の制御はできません。本研究では、テキストから画像への拡散モデルにおける複数オブジェクトの向き制御の問題に取り組みます。これにより、各オブジェクトの向きを精密に制御した多様な複数オブジェクトシーンの生成が可能になります。鍵となるアイデアは、拡散モデルをテキストトークンと共に、各オブジェクトに対応する向きを意識したコンパストークンのセットで条件付けることです。軽量なエンコーダネットワークが、オブジェクトの向きを入力としてこれらのコンパストークンを予測します。モデルは、単純な背景上に1つまたは2つの3Dアセットを含む手続き的に生成されたシーンの合成データセットで訓練されます。しかし、このフレームワークを直接訓練すると、向きの制御が不十分になるだけでなく、オブジェクト間の絡み合いが生じます。これを緩和するため、生成プロセスに介入し、各コンパストークンのクロスアテンションマップを対応するオブジェクト領域に制約します。訓練されたモデルは、a) 訓練中に見られなかった複雑なオブジェクトと、b) 2つ以上のオブジェクトを含む複数オブジェクトシーンにおいて、精密な向き制御を達成でき、強い汎化能力を示します。さらに、パーソナライゼーション手法と組み合わせることで、我々の手法は多様なコンテキストにおける新しいオブジェクトの向きを精密に制御します。我々の手法は、広範な評価とユーザスタディにより定量化された、最先端の向き制御とテキストアラインメントを達成します。
本論文では、動的シーンの単眼3D再構成のためにビデオ拡散モデルを再利用する手法「Geo4D」を紹介する。Geo4Dは、ビデオモデルが持つ強力な動的プリオールを活用することで、合成データのみを用いて学習しつつ、ゼロショット方式で実データにうまく一般化することができる。Geo4Dは、ポイントマップ、深度マップ、レイマップといった複数の補完的な幾何学的モダリティを予測する。推論時には、新たなマルチモーダルアライメントアルゴリズムを用いてこれらのモダリティを整列・融合し、さらに複数のスライディングウィンドウを活用することで、長時間ビデオの頑健かつ正確な4D再構成を実現する。複数のベンチマークにわたる広範な実験により、Geo4Dが動的シーンを扱うように設計されたMonST3Rなどの最新手法を含む、最先端のビデオ深度推定手法を大幅に上回る性能を示すことが確認された。
現在の単眼3D検出器は、実世界のデータセットの多様性と規模の限界によって制約を受けています。データ拡張は確かに役立ちますが、屋外設定における現実的なシーン認識型の拡張データを生成することは特に困難です。現在の合成データ生成のアプローチの多くは、改良されたレンダリング技術を通じて現実的な物体の外観に焦点を当てています。しかし、効果的な単眼3D検出器を訓練するためには、物体がどこにどのように配置されるかが同様に重要であることを示します。主要な課題は、合成物体を実際のシーンに導入する際に、現実的な物体配置パラメータ(位置、寸法、方向の整合性など)を自動的に決定することにあります。これを解決するために、我々はMonoPlace3Dという新しいシステムを導入します。MonoPlace3Dは、3Dシーン内容を考慮して現実的な拡張を作成します。具体的には、背景シーンが与えられると、MonoPlace3Dは妥当な3Dバウンディングボックスの分布を学習します。その後、学習された分布からサンプリングされた位置に従って現実的な物体をレンダリングし配置します。KITTIとNuScenesという2つの標準データセットでの包括的な評価により、MonoPlace3Dが複数の既存の単眼3D検出器の精度を大幅に向上させながら、高いデータ効率性を実現することが示されました。
ビデオ内の任意の点を追跡するTracking Any Point (TAP)は、ロボティクス、ビデオ編集、3D再構築など多くの応用が示されている難しいコンピュータビジョンの課題です。既存のTAP手法は、複雑な追跡固有の帰納的バイアスやヒューリスティックに大きく依存しており、その汎用性とスケーリングの可能性を制限しています。これらの課題に対処するため、我々はTAPNextを提案します。これはTAPを逐次的なマスクトークンデコーディングとして捉える新しいアプローチです。我々のモデルは因果的であり、純粋にオンライン方式で追跡を行い、追跡固有の帰納的バイアスを除去します。これにより、TAPNextは最小限の遅延で動作し、多くの既存の最先端トラッカーで必要とされる時間的なウィンドウ処理を不要にします。そのシンプルさにもかかわらず、TAPNextはオンラインおよびオフライントラッカーの両方において、新たな最先端の追跡性能を達成します。最後に、広く使われている多くの追跡ヒューリスティックが、TAPNextにおいてエンドツーエンドのトレーニングを通じて自然に現れることを示す証拠を提示します。