翻訳付きの日次キュレーションされたAI研究論文
私たちは、カメラモーション理解の評価と改善を目的とした大規模データセットおよびベンチマークであるCameraBenchを紹介します。CameraBenchは、約3,000本の多様なインターネット動画で構成され、専門家による厳格な多段階品質管理プロセスを経てアノテーションされています。私たちの貢献の一つは、撮影技師との協力で設計されたカメラモーションの基本要素の分類体系です。例えば、「フォロー」(またはトラッキング)のようなモーションは、移動する被写体などのシーン内容の理解を必要とすることがわかります。大規模な人間による研究を実施し、人間のアノテーション性能を定量化した結果、ドメイン知識とチュートリアルベースのトレーニングが精度を大幅に向上させることが明らかになりました。例えば、初心者はズームイン(内部パラメータの変化)と前方への移動(外部パラメータの変化)を混同する可能性がありますが、トレーニングによってこれらを区別できるようになります。CameraBenchを使用して、Structure-from-Motion(SfM)モデルとVideo-Language Models(VLMs)を評価したところ、SfMモデルはシーン内容に依存する意味論的基本要素を捉えるのに苦労し、VLMsは軌跡の正確な推定を必要とする幾何学的基本要素を捉えるのに苦労することがわかりました。その後、CameraBenchで生成型VLMをファインチューニングし、両方の長所を活かすことで、モーション拡張キャプション、ビデオ質問応答、ビデオテキスト検索などのアプリケーションを実証します。私たちの分類体系、ベンチマーク、チュートリアルが、あらゆる動画におけるカメラモーション理解という究極の目標に向けた今後の取り組みを推進することを期待しています。
Skywork R1V2を紹介します。これは次世代のマルチモーダル推論モデルであり、前身であるSkywork R1Vから大きな飛躍を遂げたものです。R1V2の中核には、報酬モデルのガイダンスとルールベースの戦略を調和させたハイブリッド強化学習パラダイムが導入されており、洗練された推論能力と広範な汎化性のバランスを取るという長年の課題に対処しています。さらに、トレーニング効率を向上させるため、Selective Sample Buffer(SSB)メカニズムを提案しました。これは、Group Relative Policy Optimization(GRPO)に内在する「Vanishing Advantages」のジレンマに対処し、最適化プロセス全体で高価値サンプルを優先します。特に、過剰な強化学習信号が視覚的幻覚を引き起こす現象を観察し、トレーニングプロセス全体で調整された報酬閾値を通じて体系的に監視・緩和しています。実験結果は、R1V2の卓越した能力を裏付けており、OlympiadBenchで62.6、AIME2024で79.0、LiveCodeBenchで63.6、MMMUで74.0といったベンチマークをリードするパフォーマンスを示しています。これらの結果は、R1V2が既存のオープンソースモデルを凌駕し、Gemini 2.5やOpenAI o4-miniといった主要なプロプライエタリシステムとの性能差を縮めるための重要な進展を実証しています。Skywork R1V2のモデルウェイトは、透明性と再現性を促進するため、公開されています。https://huggingface.co/Skywork/Skywork-R1V2-38B
1ビット大規模言語モデル(LLM)の効率的な展開は、活性化の外れ値によって妨げられており、低ビット幅への量子化を複雑にしています。本論文では、1ビットLLMに対してネイティブな4ビット活性化量子化を可能にする新しいフレームワークであるBitNet v2を紹介します。注意機構およびフィードフォワードネットワークの活性化における外れ値に対処するため、活性化量子化の前にオンラインHadamard変換を適用するモジュールであるH-BitLinearを提案します。この変換により、急峻な活性化分布がよりガウス分布に近い形に平滑化され、低ビット表現に適した状態になります。実験結果から、8ビット活性化でスクラッチから学習したBitNet v2はBitNet b1.58の性能を達成することが示されています。重要な点として、BitNet v2はネイティブな4ビット活性化で学習した場合でも性能劣化を最小限に抑え、バッチ推論におけるメモリ使用量と計算コストを大幅に削減します。
マルチモーダルAIシステムの動画理解能力を評価することは、その理解力と推論能力を効果的に測定する方法です。既存の動画評価ベンチマークの多くは、単一言語(通常は英語)に限定されており、西洋文化に根ざした動画が主流となっています。本論文では、動画理解における文化的・言語的・領域的隔たりを埋めることを目的とした初の評価ベンチマーク「VideoVista-CulturalLingo」を提案します。我々の研究は既存のベンチマークと以下の点で異なります:1)文化的多様性:中国、北米、ヨーロッパの文化を取り入れている;2)多言語性:中国語と英語という最も広く話されている2つの言語で質問を提示;3)広範な領域:数百の人間が作成した領域から動画を収集。VideoVista-CulturalLingoは1,389本の動画と3,134組のQAペアを含み、24の最近のオープンソースまたはプロプライエタリな大規模動画モデルを評価しました。実験結果から以下の観察を得ました:1)既存モデルは、西洋中心の質問よりも中国中心の質問、特に中国史に関連する質問で性能が劣る;2)現在のオープンソースモデルは、特にイベント位置特定タスクにおいて時間的理解に限界があり、最高スコアは45.2%にとどまる;3)主流モデルは一般的な科学的質問で強い性能を示す一方、オープンソースモデルは数学分野で弱い性能を示す。
Kimi-Audioを紹介します。これは、音声理解、生成、会話に優れたオープンソースの音声基盤モデルです。Kimi-Audioの構築における実践を詳細に説明し、モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価について解説します。具体的には、12.5Hzの音声トークナイザーを活用し、連続特徴を入力とし離散トークンを出力とする新しいLLMベースのアーキテクチャを設計し、フローマッチングに基づくチャンク単位のストリーミングデトークナイザーを開発しました。1,300万時間以上の音声データを含む多様なモダリティ(音声、音響、音楽など)をカバーする事前学習データセットをキュレーションし、高品質で多様な事後学習データを構築するパイプラインを構築しました。事前学習済みLLMから初期化されたKimi-Audioは、音声とテキストデータを用いて継続的に事前学習され、その後、多様な音声関連タスクをサポートするためにファインチューニングされます。広範な評価により、Kimi-Audioが音声認識、音声理解、音声質問応答、音声会話などの一連の音声ベンチマークで最先端の性能を達成することが示されています。コード、モデルチェックポイント、評価ツールキットをhttps://github.com/MoonshotAI/Kimi-Audioで公開しています。
マルチモーダル言語分析は、人間の会話発話に内在する高次セマンティクスの理解を強化するために複数のモダリティを活用する急速に進化する分野です。その重要性にもかかわらず、マルチモーダル大規模言語モデル(MLLMs)が認知レベルのセマンティクスを理解する能力を調査した研究はほとんどありません。本論文では、このギャップを埋めるために特別に設計された包括的なベンチマークであるMMLAを紹介します。MMLAは、ステージングされたシナリオと実世界のシナリオから抽出された61,000以上のマルチモーダル発話で構成され、意図、感情、対話行為、感情、話し方、コミュニケーション行動というマルチモーダルセマンティクスの6つの核心次元をカバーしています。我々は、ゼロショット推論、教師ありファインチューニング、および指示チューニングという3つの方法を用いて、LLMとMLLMの8つの主流ブランチを評価します。広範な実験により、ファインチューニングされたモデルでさえ約60%~70%の精度しか達成できないことが明らかになり、現在のMLLMが複雑な人間の言語を理解する上での限界が浮き彫りになりました。我々は、MMLAがマルチモーダル言語分析における大規模言語モデルの可能性を探るための堅固な基盤として機能し、この分野を前進させるための貴重なリソースを提供すると信じています。データセットとコードはhttps://github.com/thuiar/MMLAでオープンソース化されています。
事前学習済みの大規模言語モデル(LLMs)の数は着実に増加していますが、その大多数は主に英語向けに設計されています。最先端のLLMsは他の言語も扱うことができますが、言語の混入やある程度の多言語事前学習データによる影響で、非英語言語に対して最適化されておらず、非効率なエンコーディング(高いトークン「肥沃度」)や推論速度の低下を引き起こしています。本研究では、英語LLMsをイタリア語向けに最適化するための様々な語彙適応技術を徹底的に比較し、ニューラルマッピングを活用した語彙置換の新手法であるSemantic Alignment Vocabulary Adaptation(SAVA)を提案します。SAVAは、複数の下流タスクにおいて競争力のある性能を発揮し、グラウンディングされたアライメント戦略を強化します。我々は2つのLLMsを適応させました:Mistral-7b-v0.1はトークン肥沃度を25%削減し、Llama-3.1-8Bは語彙を最適化してパラメータ数を10億削減しました。語彙適応後、これらのモデルは対象言語での比較的限られた継続学習段階で性能を回復できることを示します。最後に、適応されたモデルの能力を、複数の多肢選択タスクおよび生成タスクでテストしました。
スパースアテンションは、Transformer LLMの長文脈処理能力を拡張する有望な戦略を提供するが、その実現可能性、効率性と精度のトレードオフ、体系的なスケーリング研究は未だ検討されていない。このギャップを埋めるため、我々は多様な長文タスク(自然言語を利用しつつ制御可能で評価が容易な新規タスクを含む)において、モデル規模、シーケンス長、スパースレベルを変えながら、訓練不要のスパースアテンション手法を慎重に比較した。実験に基づき、以下の主要な知見を報告する:1) isoFLOPS分析により、非常に長いシーケンスでは、大規模で高度にスパースなモデルが小規模で密なモデルよりも好ましいことが明らかになった。2) 精度保持を統計的に保証しつつ達成可能なスパースレベルは、デコード時がプリフィル時よりも高く、前者ではモデル規模と相関する。3) タスクやフェーズ全体で最良のパフォーマンスを示す明確な戦略は存在せず、異なるシナリオでは異なるスパース化単位や予算適応性が必要となる。中程度のスパースレベルでも、少なくとも1つのタスクで性能が大幅に低下することが多く、スパースアテンションが万能の解決策ではないことが強調される。4) スパースアテンションに特化した新規スケーリング則を導入し検証し、我々の知見が実験範囲を超えて有効である可能性を示す証拠を提供した。これらの洞察を通じて、スパースアテンションがTransformer LLMの長文処理能力を強化する鍵となるツールであるが、性能が重要なアプリケーションではトレードオフを慎重に評価する必要があることを示した。
RAG、検索、およびソース要約のための新世代の小型推論モデルを紹介します。Pleias-RAG-350mとPleias-RAG-1Bは、Common Corpusから多様な多言語オープンソースを取得することを模倣した大規模な合成データセットで中間学習されています。これらのモデルは、引用とリテラルな引用文によるグラウンディングをネイティブにサポートし、クエリルーティング、クエリリフォーミュレーション、ソースの再ランキングなど、RAGワークフローに関連する複数の機能を再統合します。Pleias-RAG-350mとPleias-RAG-1Bは、40億パラメータ未満の小型言語モデル(SLM)を標準化されたRAGベンチマーク(HotPotQA、2wiki)で上回り、Qwen-2.5-7B、Llama-3.1-8B、Gemma-3-4Bなどの人気のある大規模モデルとも競争力があります。これらは、主要なヨーロッパ言語にわたって一貫したRAG性能を維持し、ステートメントに対する体系的な参照グラウンディングを保証する唯一のSLMです。そのサイズと制約のあるインフラストラクチャでの容易なデプロイ可能性、および設計上の高い事実性により、これらのモデルは生成AIの新たなユースケースを開拓します。
ゼロショット設定において追加のチューニングなしに、被写体固有の学習と時間的ダイナミクスを分離することで、被写体駆動のカスタマイズされたビデオ生成モデルをトレーニングすることを提案します。チューニング不要な従来のビデオカスタマイズ手法は、大規模な注釈付きビデオデータセットに依存することが多く、計算コストが高く、広範な注釈を必要とします。これに対して、我々はビデオカスタマイズモデルのトレーニングに直接画像カスタマイズデータセットを使用するアプローチを導入し、ビデオカスタマイズを二つの要素に分解します:(1) 画像カスタマイズデータセットを通じた同一性の注入、(2) 画像からビデオへのトレーニング手法を用いた、少量の未注釈ビデオによる時間的モデリングの維持。さらに、画像からビデオへのファインチューニング中にランダムな画像トークンのドロップとランダム化された画像初期化を採用し、コピー&ペースト問題を軽減します。学習をさらに強化するため、被写体固有の特徴と時間的特徴の共同最適化中に確率的スイッチングを導入し、破滅的な忘却を緩和します。我々の手法は、被写体の一貫性とスケーラビリティを強く実現し、ゼロショット設定において既存のビデオカスタマイズモデルを上回り、本フレームワークの有効性を実証しています。
効果的な推論能力は、金融領域における大規模言語モデル(LLM)の核心的な課題であり続けています。この領域では、ドメイン固有の知識、精密な数値計算、およびコンプライアンス規則への厳格な遵守が求められるタスクが頻繁に発生します。本論文では、これらの課題に対処するために、推論を強化したフレームワーク「DianJin-R1」を提案します。このフレームワークは、推論を補強した監視と強化学習を通じて設計されています。我々のアプローチの中核となるのは、CFLUE、FinQA、および独自のコンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセット「DianJin-R1-Data」です。このデータセットは、多様な金融推論シナリオと検証済みのアノテーションを組み合わせています。我々のモデルである「DianJin-R1-7B」と「DianJin-R1-32B」は、Qwen2.5-7B-InstructとQwen2.5-32B-Instructを基に、推論ステップと最終回答の両方を生成する構造化された形式でファインチューニングされています。推論品質をさらに向上させるために、構造化された出力を奨励し、回答の正確性を報酬とする二重の報酬信号を組み込んだ強化学習手法「Group Relative Policy Optimization(GRPO)」を適用しています。我々は、5つのベンチマークでモデルを評価しました。これには、3つの金融データセット(CFLUE、FinQA、CCC)と2つの一般的な推論ベンチマーク(MATH-500とGPQA-Diamond)が含まれます。実験結果は、DianJin-R1モデルが、特に複雑な金融タスクにおいて、非推論モデルを一貫して上回ることを示しています。さらに、実世界のCCCデータセットでは、我々の単一呼び出し推論モデルが、大幅に多くの計算コストを必要とするマルチエージェントシステムの性能に匹敵し、それを凌駕することさえあります。これらの発見は、構造化された監視と報酬整合学習を通じて金融推論を強化するDianJin-R1の有効性を実証し、実世界のアプリケーションにおけるスケーラブルで実用的なソリューションを提供します。
単一のラベル付き例が与えられた場合、インコンテキストセグメンテーションは対応するオブジェクトをセグメント化することを目指します。この設定は、Few-shot学習におけるワンショットセグメンテーションとして知られており、セグメンテーションモデルの汎化能力を探求し、シーン理解や画像/動画編集など、さまざまな視覚タスクに適用されてきました。最近のSegment Anything Models(SAM)はインタラクティブセグメンテーションにおいて最先端の結果を達成していますが、これらのアプローチはインコンテキストセグメンテーションに直接適用することはできません。本研究では、プロンプトチューニングに基づくDual Consistency SAM(DC-SAM)メソッドを提案し、SAMおよびSAM2を画像と動画のインコンテキストセグメンテーションに適応させます。私たちの重要な洞察は、高品質な視覚プロンプトを提供することで、SAMのプロンプトエンコーダの特徴をセグメンテーションにおいて強化することです。マスク事前生成時には、SAMの特徴を融合させてプロンプトエンコーダをより適切に調整します。次に、融合された特徴と初期視覚プロンプトに対して、サイクル一貫性のあるクロスアテンションを設計します。さらに、プロンプトエンコーダにおいて識別的なポジティブおよびネガティブプロンプトを使用することで、デュアルブランチ設計を提供します。さらに、提案されたデュアル一貫性メソッドをマスクチューブに適用するためのシンプルなマスクチューブトレーニング戦略を設計します。提案されたDC-SAMは主に画像向けに設計されていますが、SAM2のサポートにより、動画領域にシームレスに拡張することができます。動画領域におけるインコンテキストセグメンテーションの欠如を考慮し、既存の動画セグメンテーションデータセットから最初のベンチマークを手動でキュレーションし、In-Context Video Object Segmentation(IC-VOS)として構築し、モデルのインコンテキスト能力をより適切に評価します。大規模な実験により、私たちのメソッドがCOCO-20iで55.5(+1.4)mIoU、PASCAL-5iで73.0(+1.1)mIoU、提案されたIC-VOSベンチマークで71.52のJ&Fスコアを達成することが示されました。私たちのソースコードとベンチマークはhttps://github.com/zaplm/DC-SAMで利用可能です。