翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデル(MLLMs)は、さまざまなタスクにおいて印象的な能力を発揮していますが、複雑な数学的推論には依然として苦戦しています。既存の研究は主にデータセットの構築と手法の最適化に焦点を当てており、包括的な知識駆動設計とモデル中心のデータ空間モデリングという2つの重要な側面を見落としがちです。本論文では、We-Math 2.0を紹介します。これは、構造化された数学的知識システム、モデル中心のデータ空間モデリング、および強化学習(RL)ベースのトレーニングパラダイムを統合した統一システムであり、MLLMsの数学的推論能力を包括的に強化します。We-Math 2.0の主な貢献は以下の4点です:(1)MathBook知識システム:491の知識ポイントと1,819の基本原理を網羅した5段階の階層システムを構築します。(2)MathBook-Standard & Pro:MathBook-Standardは、二重拡張を通じて広範な概念カバレッジと柔軟性を確保するデータセットです。さらに、3次元の難易度空間を定義し、各問題に対して7つの段階的バリアントを生成して、堅牢なトレーニングのための挑戦的なデータセットであるMathBook-Proを構築します。(3)MathBook-RL:2段階のRLフレームワークを提案します:(i)コールドスタート微調整:モデルを知識指向の連鎖的思考推論に適合させます。(ii)段階的アライメントRL:平均報酬学習と動的データスケジューリングを活用して、難易度レベル全体で段階的なアライメントを実現します。(4)MathBookEval:491の知識ポイントを網羅し、多様な推論ステップ分布を持つ包括的なベンチマークを導入します。実験結果は、MathBook-RLが4つの広く使用されているベンチマークで既存のベースラインと競争力を持ち、MathBookEvalで強い結果を達成し、数学的推論における有望な一般化を示唆しています。
既存のテキストから画像生成のための自己回帰(AR)モデルは、連続的な画像トークンを処理するために計算量の多い拡散モデルに依存するか、またはベクトル量子化(VQ)を用いて量子化損失を伴う離散トークンを取得しています。本論文では、NextStep-1という14Bパラメータの自己回帰モデルと157Mのフローマッチングヘッドを組み合わせ、離散テキストトークンと連続画像トークンに対して次トークン予測目標を用いて学習を行うことで、自己回帰パラダイムを前進させます。NextStep-1は、テキストから画像生成タスクにおいて自己回帰モデルとして最先端の性能を達成し、高忠実度の画像合成において強力な能力を示します。さらに、我々の手法は画像編集においても優れた性能を示し、統一されたアプローチの力と汎用性を強調しています。オープンな研究を促進するため、我々はコードとモデルをコミュニティに公開する予定です。
PRELUDEを紹介します。これは、キャラクターの前日譚が原作の正典的物語と整合性があるかどうかを判断するタスクを通じて、長文脈理解を評価するためのベンチマークです。本タスクは、既存のベンチマークよりもグローバルな理解と深い推論を強く要求します。前日譚は原作の一部ではないため、その妥当性を評価するには、間接的に関連する情報を検索し統合する必要があるからです。実際、88%の事例で物語の複数部分からの証拠が必要です。実験結果は本タスクの難しさを示しています。最先端の大規模言語モデル(LLM)を用いたインコンテキスト学習、RAG、ドメイン固有のトレーニング、および商用のDeepResearchサービスは、人間の性能に比べて15%以上遅れています。さらに人間による調査では、モデルが正しい答えを出しながらも誤った推論を行うことが多く、推論精度において人間と比べて30%以上のギャップがあることが明らかになりました。これらの発見は、長文脈理解と推論において改善の余地が大きいことを示しています。
我々は、マルチモーダル大規模言語モデルに基づき、スクリーンショットのみを入力とするネイティブUIエージェント「UI-Venus」を提案します。UI-Venusは、Qwen2.5-VLに基づく強化学習ファインチューニング(RFT)を通じて、わずか数十万の高品質なトレーニングサンプルを使用して、UIグラウンディングとナビゲーションタスクの両方でSOTA性能を達成します。具体的には、UI-Venusの7Bおよび72Bバリアントは、標準的なグラウンディングベンチマークであるScreenspot-V2 / Proでそれぞれ94.1% / 50.8%および95.3% / 61.9%を獲得し、オープンソースのGTA1やクローズドソースのUI-TARS-1.5を含む従来のSOTAベースラインを上回りました。UI-Venusの要約と計画能力を示すために、オンラインUIナビゲーションアリーナであるAndroidWorldでも評価を行い、7Bおよび72Bバリアントはそれぞれ49.1%および65.9%の成功率を達成し、既存のモデルを凌駕しました。これを実現するために、UIグラウンディングとナビゲーションタスクの両方に対して慎重に設計された報酬関数と、それに対応する効率的なデータクリーニング戦略を導入しました。さらにナビゲーション性能を向上させるために、歴史的推論トレースを洗練し、疎だが重要なアクションの分布をバランスさせる「Self-Evolving Trajectory History Alignment & Sparse Action Enhancement」を提案し、複雑なUIタスクにおけるより一貫した計画と優れた汎化を実現しました。我々の貢献には、SOTAオープンソースUIエージェントの公開、包括的なデータクリーニングプロトコル、およびナビゲーション性能を向上させるための新しい自己進化フレームワークが含まれ、これらはコミュニティにおけるさらなる研究と開発を促進します。コードはhttps://github.com/antgroup/UI-Venusで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は、真に人間らしいインタラクションを実現するための大きな可能性を示しているものの、複雑な人間の意図を理解し、共感的で文脈を考慮した応答を提供するといった、人間中心のシナリオにおける詳細な評価フレームワークの欠如が進展を妨げています。本論文では、HumanSenseを紹介します。これは、MLLMsの人間中心の知覚およびインタラクション能力を評価するための包括的なベンチマークであり、特に拡張されたマルチモーダル文脈の深い理解と合理的なフィードバックの形成に焦点を当てています。評価の結果、主要なMLLMsには、特に高度なインタラクション指向タスクにおいて、まだ改善の余地が大きいことが明らかになりました。視覚入力を音声およびテキスト情報で補完することで大幅な改善が見られ、オムニモーダルモデルはこれらのタスクにおいて優位性を示しました。さらに、適切なフィードバックは、対話相手のニーズと感情の文脈分析に基づいており、推論能力がそれを実現する鍵であると主張します。これに基づき、オムニモデルの推論能力を強化するために、多段階のモダリティ漸進的強化学習を採用し、評価結果において大幅な向上を達成しました。加えて、成功した推論プロセスは非常に一貫した思考パターンを示すことが観察されました。対応するプロンプトを設計することで、トレーニング不要の方法で非推論モデルの性能も向上させました。プロジェクトページ:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
機械学習の最近の進歩により、自動通訳品質評価への関心が高まっています。しかし、既存の研究では、言語使用品質の検討が不十分であること、データの不足と不均衡によるモデリング効果の低さ、そしてモデル予測の説明に取り組む努力の欠如といった課題が残されています。これらのギャップを埋めるため、我々は特徴量エンジニアリング、データ拡張、説明可能な機械学習を統合した多次元モデリングフレームワークを提案します。このアプローチでは、「ブラックボックス」予測ではなく説明可能性を優先し、構成に関連する透明性の高い特徴量のみを利用し、Shapley Value(SHAP)分析を実施します。我々の結果は、新たな英語-中国語逐次通訳データセットにおいて強力な予測性能を示し、忠実性に対する最も強力な予測特徴量としてBLEURTとCometKiwiスコアを、流暢性に対するポーズ関連の特徴量を、言語使用に対する中国語特有の語彙的多様性メトリクスを特定しました。全体として、説明可能性を特に重視することで、従来の人間による評価に代わるスケーラブルで信頼性が高く透明性のある代替手段を提示し、学習者に対する詳細な診断フィードバックの提供を容易にし、自動スコア単独では得られない自己調整学習の利点をサポートします。