翻訳付きの日次キュレーションされたAI研究論文
本稿では、汎用的なマルチモーダル推論を進化させるために設計された視覚言語モデル(VLM)であるGLM-4.1V-Thinkingを紹介します。本報告では、推論中心のトレーニングフレームワークの開発における主要な知見を共有します。まず、大規模な事前学習を通じて、最終的な性能の上限を設定する可能性を秘めた強力な視覚基盤モデルを開発しました。その後、カリキュラムサンプリングを伴う強化学習(RLCS)により、モデルの全潜在能力を引き出し、STEM問題解決、ビデオ理解、コンテンツ認識、コーディング、グラウンディング、GUIベースのエージェント、長文書理解など、多様なタスクにわたる包括的な能力向上を実現しました。この分野の研究を促進するため、我々はGLM-4.1V-9B-Thinkingをオープンソース化しました。このモデルは、同規模のモデルの中で最先端の性能を達成しています。28の公開ベンチマークにわたる包括的な評価において、我々のモデルはQwen2.5-VL-7Bをほぼ全てのタスクで上回り、さらに大幅に大規模なQwen2.5-VL-72Bに対して18のベンチマークで同等または優れた性能を示しました。特に、GLM-4.1V-9B-Thinkingは、長文書理解やSTEM推論などの挑戦的なタスクにおいて、GPT-4oなどのクローズドソースモデルと比較しても競争力のある、あるいは優れた性能を発揮し、その強力な能力をさらに裏付けています。コード、モデル、および詳細情報はhttps://github.com/THUDM/GLM-4.1V-Thinkingで公開されています。
因果的視覚言語モデル(VLM)を基盤としたマルチモーダル埋め込みモデルは、様々なタスクで有望な成果を示しています。しかし、現在のアプローチには3つの主要な課題があります。まず、VLMバックボーンにおける因果的アテンションの使用は、埋め込みタスクに対して最適ではありません。次に、コントラスティブ学習のための高品質なラベル付きペアデータへの依存によるスケーラビリティの問題。そして、トレーニング目的とデータの多様性が限られていることです。これらの課題を解決するため、我々はMoCaを提案します。これは、事前学習済みVLMを効果的な双方向マルチモーダル埋め込みモデルに変換するための2段階フレームワークです。第1段階である「モダリティ認識型継続事前学習」では、テキストと画像の交互入力を同時にノイズ除去する共同再構成目標を導入し、双方向の文脈認識推論を強化します。第2段階の「異種コントラスティブ微調整」では、単純な画像-キャプションペアを超えた多様で意味的に豊富なマルチモーダルデータを活用し、汎化とアラインメントを向上させます。我々の手法は、継続事前学習を通じて双方向アテンションを導入し、共同再構成目標により大規模な未ラベルデータセットで効果的にスケールし、多様なマルチモーダルデータを活用して表現のロバスト性を高めることで、前述の課題に対処します。実験結果は、MoCaがMMEBおよびViDoRe-v2ベンチマークで一貫して性能を向上させ、新たな最先端の結果を達成し、MMEBにおいてモデルサイズとトレーニングデータの両方で強いスケーラビリティを示すことを実証しています。
SciArenaを紹介します。これは、科学文献タスクにおける基盤モデルの評価のためのオープンで協力的なプラットフォームです。従来の科学文献理解と統合のためのベンチマークとは異なり、SciArenaは研究コミュニティを直接巻き込み、Chatbot Arenaの評価アプローチに従って、モデル比較に対するコミュニティ投票を行います。集団知を活用することで、SciArenaは、文献に基づいた長文の回答を要求するオープンエンドの科学タスクにおけるモデル性能のコミュニティ主導の評価を提供します。このプラットフォームは現在、23のオープンソースおよびプロプライエタリな基盤モデルをサポートしており、多様な科学分野の信頼できる研究者から13,000以上の投票を収集しています。これまでに収集されたデータを分析し、提出された質問が多様であり、現実世界の文献ニーズに沿っていること、また、参加研究者が評価において強い自己一貫性と相互注釈者一致を示していることを確認します。モデルランキングリーダーボードに基づいて、結果と洞察について議論します。文献タスクのためのモデルベースの自動評価システムの構築に関する研究をさらに促進するために、収集した選好データに基づくメタ評価ベンチマークであるSciArena-Evalをリリースします。このベンチマークは、モデルのペアワイズ評価と人間の投票を比較することで、回答品質を判断するモデルの精度を測定します。私たちの実験は、ベンチマークの課題を浮き彫りにし、より信頼性の高い自動評価方法の必要性を強調しています。
数学的推論は、大規模言語モデル(LLM)の進歩の象徴となり、MATHやAIMEなどのベンチマークにおいて、新たなモデルが人間レベルの性能を急速に超えつつある。しかし、数学のリーダーボードが週ごとに向上する中で、これらの進歩がより広範な問題解決能力を反映しているのか、それとも狭い範囲での過剰適合に過ぎないのかを問う価値がある。この疑問に答えるため、我々は20以上のオープンウェイトの推論チューニング済みモデルを、数学、科学的QA、エージェント計画、コーディング、標準的な指示追従を含む幅広いタスクスイートで評価した。驚くべきことに、数学で成功したモデルのほとんどが、その成果を他の領域に転移させることができなかった。この現象を厳密に研究するため、Qwen3-14Bモデルを用いて数学のみのデータを使用し、異なるチューニング方法を適用した制御実験を行った。その結果、強化学習(RL)チューニングされたモデルは領域間で良好に汎化する一方で、教師あり微調整(SFT)チューニングされたモデルは一般的な能力を忘れがちであることがわかった。潜在空間表現とトークン空間分布シフトの分析から、SFTは表現と出力の大幅なドリフトを引き起こすのに対し、RLは一般的な領域の構造を保持することが明らかになった。我々の結果は、特に推論モデルの進歩においてSFT蒸留データに依存する標準的なポストトレーニング手法を再考する必要性を示唆している。
拡散モデルの最近の進歩により、高品質なビデオ生成が可能になりましたが、追加された時間次元によって計算コストが大幅に増加し、長いビデオのトレーニングや推論が非常に高価になっています。本論文では、ビデオ拡散モデルにおける「時空間エネルギー減衰」と呼ばれる現象を特定しました。これは、トークン間の空間的および時間的距離が増加するにつれて、ソフトマックス後のアテンションスコアが減少する現象で、自然界における信号や波の物理的減衰に似ています。これに着想を得て、我々はRadial Attentionを提案します。これはO(n log n)の複雑性を持つスケーラブルなスパースアテンションメカニズムで、エネルギー減衰を指数関数的に減衰する計算密度に変換し、標準的なO(n^2)の密なアテンションよりも大幅に効率的で、線形アテンションよりも表現力が豊かです。具体的には、Radial Attentionは各トークンが空間的に近いトークンに注意を向けるシンプルで静的なアテンションマスクを使用し、アテンションウィンドウのサイズが時間的距離とともに縮小します。さらに、事前にトレーニングされたビデオ拡散モデルが、効率的なLoRAベースのファインチューニングを通じて生成長を拡張することを可能にします。広範な実験により、Radial AttentionがWan2.1-14B、HunyuanVideo、およびMochi 1においてビデオ品質を維持し、元の密なアテンションに対して最大1.9倍の高速化を達成することが示されました。最小限のチューニングで、直接のファインチューニングと比較して最大4倍の長さのビデオ生成を可能にし、トレーニングコストを最大4.4倍削減し、密なアテンション推論と比較して推論を最大3.7倍加速します。
拡散型大規模言語モデル(dLLM)は、そのノイズ除去モデルがシーケンス全体に対して作用するため、自己回帰(AR)モデルに対する有力な代替手段として注目されています。dLLMのグローバルな計画性と反復的な精緻化機能は、特にコード生成において有用です。しかし、コーディングにおけるdLLMの現在の学習と推論メカニズムはまだ十分に探求されていません。dLLMのデコード動作を解明し、コーディングにおけるその潜在能力を引き出すために、我々はそのノイズ除去プロセスと強化学習(RL)手法を体系的に調査します。我々は130Bトークンのコードで7BのdLLM、DiffuCoderを学習させました。このモデルをテストベッドとして使用し、そのデコード動作を分析することで、ARモデルとの違いを明らかにしました:(1)dLLMは、半ARデコードに依存せずに、生成の因果性の度合いを決定できる、(2)サンプリング温度を上げることで、トークンの選択だけでなく、その生成順序も多様化する。この多様性は、RLロールアウトのための豊富な探索空間を創出します。RL学習において、トークンの対数尤度推定の分散を減らし、学習効率を維持するために、我々は補完的なマスクノイズを構築する新しいサンプリングスキームであるcoupled-GRPOを提案します。我々の実験では、coupled-GRPOはDiffuCoderのコード生成ベンチマークにおける性能を大幅に向上させ(EvalPlusで+4.4%)、デコード中のAR因果性への依存を減少させました。我々の研究は、dLLM生成のメカニズムに対する深い洞察を提供し、効果的で拡散ネイティブなRL学習フレームワークを提供します。https://github.com/apple/ml-diffucoder。
機械は本当に人間のように思考し、推論し、行動できるのか?この永続的な問いは、人工汎用知能(AGI)の追求を形作り続けている。GPT-4.5、DeepSeek、Claude 3.5 Sonnet、Phi-4、Grok 3などのモデルが多様なモードでの流暢さや部分的な推論能力を示す一方で、これらのシステムはトークンレベルの予測への依存と、根拠のある主体性の欠如によって根本的に制限されている。本論文は、人工知能、認知神経科学、心理学、生成モデル、エージェントベースのシステムにまたがるAGI開発の学際的な統合を提供する。我々は、汎用知能のアーキテクチャと認知的基盤を分析し、モジュール化された推論、永続的な記憶、マルチエージェント協調の役割を強調する。特に、検索、計画、動的なツール使用を組み合わせることで、より適応的な行動を可能にするエージェンシックRAGフレームワークの台頭に注目する。情報圧縮、テスト時適応、トレーニング不要の手法を含む一般化戦略を、柔軟でドメインに依存しない知能への重要な道筋として議論する。視覚言語モデル(VLM)は、単なる知覚モジュールとしてだけでなく、具現化された理解と協調的なタスク完了のための進化するインターフェースとして再検討される。また、真の知能はスケールだけではなく、記憶と推論の統合から生まれることを主張する。モジュール化され、相互作用し、自己改善するコンポーネントのオーケストレーションにおいて、圧縮が適応的な行動を可能にする。神経記号システム、強化学習、認知的足場づけの進展を踏まえ、最近のアーキテクチャが統計的学習と目標指向の認知の間のギャップを埋め始めている方法を探る。最後に、AGIへの道のりにおける主要な科学的、技術的、倫理的課題を特定する。
マルチモーダル大規模言語モデルの急速な進化に伴い、人間の意図を深く理解し解釈する能力が重要な機能として浮上しており、これは詳細かつ慎重な推論を必要とします。最近の研究では、強化学習(RL)が大規模言語モデル(LLM)の推論能力を向上させる可能性を示しています。しかしながら、マルチモーダルデータやフォーマットにRLを適応させる際の課題は、ほとんど未解決のままです。本論文では、既存のマルチモーダル推論モデルにおける2つの問題を指摘します:グローバルコンテキスト理解の不十分さとショートカット問題です。グローバルコンテキスト理解の不十分さは、モデルがマルチモーダルコンテキストを誤解し、誤った答えを導く場合に発生します。ショートカット問題は、モデルがマルチモーダル入力における重要な手がかりを見落とし、マルチモーダル情報を考慮せずに直接クエリに対処する場合に起こります。これらの問題に対処するため、モデルがマルチモーダル入力内のグローバルコンテキストを明確に理解して推論する必要性を強調します。このグローバルコンテキスト理解は、モデルが重要なマルチモーダル手がかりを見落とすのを効果的に防ぎ、徹底的な推論プロセスを保証します。マルチモーダルコンテキスト情報の正確な解釈を確保するため、大規模言語モデルによって判断されるコンテキスト報酬を、フォーマットと精度の報酬とともに実装します。さらに、複雑な推論能力を向上させるため、LLMを使用して論理報酬を評価し、推論プロセスがマルチモーダル情報を論理的手法と統合できたかどうかを判断します。また、複雑な人間の意図や感情を理解するためのモデル評価を目的とした推論オムニモーダルベンチマーク、IntentBenchを導入します。提案手法は、他のオープンソースのオムニモーダルモデルと比較して、複数のオムニモーダルベンチマークで先進的な性能を示しています。
データは言語モデル(LM)の訓練において基本的な要素である。近年の研究は、最小限または最適な訓練データのサブセットを選択することで性能を最大化することを目指すデータ効率に焦点を当てている。この分野では、データフィルタリング、サンプリング、および選択といった技術が重要な役割を果たしている。これを補完するために、我々は訓練データの組織化を最適化することで性能を最大化する「データ有効性(Data Efficacy)」を定義し、これは比較的未開拓の領域である。本論文では、LM訓練におけるデータ有効性を考慮するための一般的なパラダイムであるDELTを提案し、訓練データの組織化の重要性を強調する。DELTは、データスコアリング、データ選択、およびデータ順序付けの3つのコンポーネントから構成される。これらのコンポーネントの中でも、我々は勾配一貫性の観点から各データサンプルの学習可能性と品質を考慮する新しいデータスコアリング手法として、Learnability-Quality Scoring(LQS)を設計した。また、モデルの忘却やデータ分布の偏りといった問題に対処する新しいデータ順序付け手法として、Folding Ordering(FO)を考案した。包括的な実験により、LM訓練におけるデータ有効性が検証され、以下のことが示された。第一に、提案されたDELTの様々なインスタンスは、データ規模やモデルサイズを増やすことなく、LMの性能を様々な程度で向上させる。第二に、これらのインスタンスの中でも、我々が提案したLQSによるデータスコアリングとFoldingによるデータ順序付けの組み合わせが最も顕著な改善をもたらす。最後に、データ選択を適用することで、データ有効性とデータ効率を同時に達成できる。したがって、我々はデータ有効性がLM訓練における有望な基礎領域であると考える。
欧州連合法執行機関の報告書によると、2026年までにオンラインコンテンツの最大90%が合成生成される可能性があると予測されており、政策立案者たちの懸念を引き起こしています。彼らは「生成AIが政治的な偽情報の増幅装置として機能する可能性がある」と警告し、「生成テキスト、画像、動画、音声の組み合わせ効果は、単一のモダリティの影響を上回るかもしれない」と指摘しています。これに対応して、カリフォルニア州の法案AB 3211では、AI生成の画像、動画、音声に透かしを付けることを義務付けています。しかし、不可視透かし技術の改ざんに対する脆弱性や、悪意のある行為者が完全にこれを回避する可能性についての懸念が残っています。特に、新たに導入された視覚的言い換え攻撃を含む生成AIを利用した透かし除去攻撃は、透かしを完全に除去し、元の画像の言い換えを引き起こす能力を示しています。本論文では、視覚的言い換え攻撃に耐え、歪みのない画像透かし技術であるPECCAVIを初めて紹介します。視覚的言い換え攻撃では、画像の核心的な意味領域(Non-Melting Points、NMPs)を保持しながら画像が変更されます。PECCAVIは、これらのNMPs内に戦略的に透かしを埋め込み、マルチチャネル周波数領域透かしを採用しています。また、埋め込まれた透かしを破壊するためにNMPsを特定しようとするリバースエンジニアリングの試みに対抗するために、ノイジーバーニッシングを組み込むことで耐久性を向上させています。PECCAVIはモデルに依存しません。すべての関連リソースとコードはオープンソース化されます。