翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデル(MLLMs)は、さまざまなタスクにおいて印象的な能力を発揮していますが、複雑な数学的推論には依然として苦戦しています。既存の研究は主にデータセットの構築と手法の最適化に焦点を当てており、包括的な知識駆動設計とモデル中心のデータ空間モデリングという2つの重要な側面を見落としがちです。本論文では、We-Math 2.0を紹介します。これは、構造化された数学的知識システム、モデル中心のデータ空間モデリング、および強化学習(RL)ベースのトレーニングパラダイムを統合した統一システムであり、MLLMsの数学的推論能力を包括的に強化します。We-Math 2.0の主な貢献は以下の4点です:(1)MathBook知識システム:491の知識ポイントと1,819の基本原理を網羅した5段階の階層システムを構築します。(2)MathBook-Standard & Pro:MathBook-Standardは、二重拡張を通じて広範な概念カバレッジと柔軟性を確保するデータセットです。さらに、3次元の難易度空間を定義し、各問題に対して7つの段階的バリアントを生成して、堅牢なトレーニングのための挑戦的なデータセットであるMathBook-Proを構築します。(3)MathBook-RL:2段階のRLフレームワークを提案します:(i)コールドスタート微調整:モデルを知識指向の連鎖的思考推論に適合させます。(ii)段階的アライメントRL:平均報酬学習と動的データスケジューリングを活用して、難易度レベル全体で段階的なアライメントを実現します。(4)MathBookEval:491の知識ポイントを網羅し、多様な推論ステップ分布を持つ包括的なベンチマークを導入します。実験結果は、MathBook-RLが4つの広く使用されているベンチマークで既存のベースラインと競争力を持ち、MathBookEvalで強い結果を達成し、数学的推論における有望な一般化を示唆しています。
既存のテキストから画像生成のための自己回帰(AR)モデルは、連続的な画像トークンを処理するために計算量の多い拡散モデルに依存するか、またはベクトル量子化(VQ)を用いて量子化損失を伴う離散トークンを取得しています。本論文では、NextStep-1という14Bパラメータの自己回帰モデルと157Mのフローマッチングヘッドを組み合わせ、離散テキストトークンと連続画像トークンに対して次トークン予測目標を用いて学習を行うことで、自己回帰パラダイムを前進させます。NextStep-1は、テキストから画像生成タスクにおいて自己回帰モデルとして最先端の性能を達成し、高忠実度の画像合成において強力な能力を示します。さらに、我々の手法は画像編集においても優れた性能を示し、統一されたアプローチの力と汎用性を強調しています。オープンな研究を促進するため、我々はコードとモデルをコミュニティに公開する予定です。
従来のカートゥーンやアニメ制作では、キーフレーム作成、中割り、彩色といった工程が必要であり、多大な手作業を要します。近年のAIの進歩にもかかわらず、既存の手法ではこれらの工程を個別に扱うことが多く、エラーの蓄積やアーティファクトの発生が問題となっています。例えば、中割り手法は大きな動きに対応するのが難しく、彩色手法はフレームごとに密なスケッチを必要とします。この問題を解決するため、我々はToonComposerを提案します。これは、中割りと彩色を単一のポストキーフレーム工程に統合した生成モデルです。ToonComposerは、スパースなスケッチ注入メカニズムを用いて、キーフレームスケッチによる精密な制御を実現します。さらに、カートゥーン適応手法と空間的低ランクアダプターを組み合わせることで、現代のビデオ基盤モデルをカートゥーン領域に適応させつつ、その時間的な事前知識を保持します。ToonComposerは、単一のスケッチと彩色済みの参照フレームだけで動作し、スパースな入力に対しても優れた性能を発揮します。また、任意の時間位置に複数のスケッチを配置することで、より精密な動きの制御も可能です。この二重の能力により、手作業の負担が軽減され、柔軟性が向上し、現実の制作現場でアーティストを支援します。我々はさらに、現実の使用例を模倣した手描きスケッチを含むベンチマークPKBenchを作成し、モデルを評価しました。評価の結果、ToonComposerは視覚品質、動きの一貫性、制作効率の面で既存手法を上回り、AI支援型カートゥーン制作において優れた柔軟性を備えたソリューションを提供することが示されました。
PRELUDEを紹介します。これは、キャラクターの前日譚が原作の正典的物語と整合性があるかどうかを判断するタスクを通じて、長文脈理解を評価するためのベンチマークです。本タスクは、既存のベンチマークよりもグローバルな理解と深い推論を強く要求します。前日譚は原作の一部ではないため、その妥当性を評価するには、間接的に関連する情報を検索し統合する必要があるからです。実際、88%の事例で物語の複数部分からの証拠が必要です。実験結果は本タスクの難しさを示しています。最先端の大規模言語モデル(LLM)を用いたインコンテキスト学習、RAG、ドメイン固有のトレーニング、および商用のDeepResearchサービスは、人間の性能に比べて15%以上遅れています。さらに人間による調査では、モデルが正しい答えを出しながらも誤った推論を行うことが多く、推論精度において人間と比べて30%以上のギャップがあることが明らかになりました。これらの発見は、長文脈理解と推論において改善の余地が大きいことを示しています。
我々は、マルチモーダル大規模言語モデルに基づき、スクリーンショットのみを入力とするネイティブUIエージェント「UI-Venus」を提案します。UI-Venusは、Qwen2.5-VLに基づく強化学習ファインチューニング(RFT)を通じて、わずか数十万の高品質なトレーニングサンプルを使用して、UIグラウンディングとナビゲーションタスクの両方でSOTA性能を達成します。具体的には、UI-Venusの7Bおよび72Bバリアントは、標準的なグラウンディングベンチマークであるScreenspot-V2 / Proでそれぞれ94.1% / 50.8%および95.3% / 61.9%を獲得し、オープンソースのGTA1やクローズドソースのUI-TARS-1.5を含む従来のSOTAベースラインを上回りました。UI-Venusの要約と計画能力を示すために、オンラインUIナビゲーションアリーナであるAndroidWorldでも評価を行い、7Bおよび72Bバリアントはそれぞれ49.1%および65.9%の成功率を達成し、既存のモデルを凌駕しました。これを実現するために、UIグラウンディングとナビゲーションタスクの両方に対して慎重に設計された報酬関数と、それに対応する効率的なデータクリーニング戦略を導入しました。さらにナビゲーション性能を向上させるために、歴史的推論トレースを洗練し、疎だが重要なアクションの分布をバランスさせる「Self-Evolving Trajectory History Alignment & Sparse Action Enhancement」を提案し、複雑なUIタスクにおけるより一貫した計画と優れた汎化を実現しました。我々の貢献には、SOTAオープンソースUIエージェントの公開、包括的なデータクリーニングプロトコル、およびナビゲーション性能を向上させるための新しい自己進化フレームワークが含まれ、これらはコミュニティにおけるさらなる研究と開発を促進します。コードはhttps://github.com/antgroup/UI-Venusで公開されています。
現代のインタラクティブアプリケーションでは、動的な3Dコンテンツの需要が高まっているが、静的な3Dモデルをアニメーション資産に変換するプロセスは、コンテンツ制作パイプラインにおける重要なボトルネックとなっている。生成AIの最近の進歩により、静的な3Dモデルの作成は革命的に進化したものの、リギングとアニメーションは依然として専門家の介入に大きく依存している。本論文では、多様な3Dオブジェクトに対する自動リギングとアニメーションを実現する包括的なフレームワークであるPuppeteerを提案する。本システムは、まず、コンパクトな表現のためのジョイントベースのトークン化戦略と、双方向学習能力を強化する確率的摂動を伴う階層的順序付け手法を導入した自己回帰型トランスフォーマーを用いて、妥当な骨格構造を予測する。次に、骨格グラフ距離に基づいてジョイント間の関係を明示的にエンコードするトポロジー認識型ジョイントアテンションを組み込んだアテンションベースのアーキテクチャを用いて、スキニングウェイトを推論する。最後に、これらのリギングの進歩を補完するために、既存のアプローチよりも計算効率が高く、安定した高忠実度のアニメーションを生成する微分可能な最適化ベースのアニメーションパイプラインを提供する。複数のベンチマークにわたる広範な評価により、本手法が骨格予測精度とスキニング品質の両方において、最先端の技術を大幅に上回ることが実証された。本システムは、プロが設計したゲーム資産からAI生成形状まで、多様な3Dコンテンツを堅牢に処理し、既存の手法で一般的なジッター問題を解消した時間的に一貫性のあるアニメーションを生成する。
本論文では、3D再構成における新たなアプローチであるSTream3Rを提案します。STream3Rは、ポイントマップ予測をデコーダのみのTransformer問題として再定式化します。既存のマルチビュー再構成の最先端手法は、高コストなグローバル最適化に依存するか、シーケンス長に対してスケーリングが不十分な単純なメモリ機構に頼っています。これに対し、STream3Rは、現代の言語モデリングの進展に着想を得た因果的注意機構を用いて、画像シーケンスを効率的に処理するストリーミングフレームワークを導入します。大規模な3Dデータセットから幾何学的な事前知識を学習することで、STream3Rは多様で困難なシナリオ、特に従来の手法がしばしば失敗する動的シーンにおいても良好に汎化します。広範な実験により、本手法が静的および動的シーンのベンチマークにおいて、従来の手法を一貫して上回ることが示されています。さらに、STream3RはLLMスタイルのトレーニングインフラストラクチャと本質的に互換性があり、様々な下流の3Dタスクに対する効率的な大規模事前学習と微調整を可能にします。我々の結果は、オンライン3D知覚における因果的Transformerモデルの可能性を強調し、ストリーミング環境におけるリアルタイム3D理解への道を開くものです。詳細はプロジェクトページ(https://nirvanalan.github.io/projects/stream3r)をご覧ください。
検証可能な報酬を用いた強化学習(RLVR)は、通常Pass@1を報酬として採用しているが、探索と活用のバランスを取る際に課題に直面し、保守的な行動を好むポリシーが局所最適に収束してしまう。そのため、適切な報酬指標を特定することが重要である。先行研究に関しては、Pass@kが評価に使用されてきたものの、RLVRにおける大規模言語モデル(LLM)の探索能力との関連性はほとんど注目されていない。これを調査するため、まずPass@kを報酬としてポリシーモデルを訓練し(すなわちPass@k Training)、その探索能力の向上を観察する。次に、Pass@k Trainingの利点に関する解析的な解を導出し、効率的かつ効果的なプロセスを実現する。これに基づき、分析から探索と活用は本質的に相反する目的ではなく、互いに強化し合えることが明らかになる。さらに、解析的導出を伴うPass@k Trainingは、本質的に利得関数を直接設計することを含む。これに着想を得て、RLVRのための利得設計を予備的に探求し、有望な結果を示すとともに、将来の潜在的な方向性を強調する。
拡散言語モデル(DLMs)は、現在主流の自己回帰(AR)パラダイムに代わる強力で有望なアプローチとして急速に注目を集めています。DLMsは、反復的なノイズ除去プロセスを通じてトークンを並列生成することで、推論の遅延を削減し、双方向の文脈を捉えるという本質的な利点を持ち、生成プロセスに対するきめ細かい制御を可能にします。数倍の高速化を実現しながらも、最近の進歩によりDLMsは自己回帰モデルと同等の性能を示すようになり、様々な自然言語処理タスクにおいて魅力的な選択肢となっています。本調査では、現在のDLMの状況を包括的に概観します。その進化と、自己回帰モデルやマスク言語モデルなどの他のパラダイムとの関係をたどり、基礎的な原理から最先端のモデルまでを網羅します。私たちの研究は、最新の包括的な分類体系と、事前学習戦略から高度な事後学習手法に至る現在の技術の詳細な分析を提供します。本調査のもう一つの貢献は、DLMの推論戦略と最適化に関する徹底的なレビューであり、デコードの並列化、キャッシュメカニズム、生成品質の改善などを含みます。また、DLMsのマルチモーダル拡張への最新アプローチと、様々な実践的シナリオでの応用を明らかにします。さらに、効率性、長文処理、インフラ要件などのDLMsの制約と課題について議論し、この急速に進化する分野の進歩を維持するための将来の研究方向を概説します。プロジェクトのGitHubはhttps://github.com/VILA-Lab/Awesome-DLMsで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は、真に人間らしいインタラクションを実現するための大きな可能性を示しているものの、複雑な人間の意図を理解し、共感的で文脈を考慮した応答を提供するといった、人間中心のシナリオにおける詳細な評価フレームワークの欠如が進展を妨げています。本論文では、HumanSenseを紹介します。これは、MLLMsの人間中心の知覚およびインタラクション能力を評価するための包括的なベンチマークであり、特に拡張されたマルチモーダル文脈の深い理解と合理的なフィードバックの形成に焦点を当てています。評価の結果、主要なMLLMsには、特に高度なインタラクション指向タスクにおいて、まだ改善の余地が大きいことが明らかになりました。視覚入力を音声およびテキスト情報で補完することで大幅な改善が見られ、オムニモーダルモデルはこれらのタスクにおいて優位性を示しました。さらに、適切なフィードバックは、対話相手のニーズと感情の文脈分析に基づいており、推論能力がそれを実現する鍵であると主張します。これに基づき、オムニモデルの推論能力を強化するために、多段階のモダリティ漸進的強化学習を採用し、評価結果において大幅な向上を達成しました。加えて、成功した推論プロセスは非常に一貫した思考パターンを示すことが観察されました。対応するプロンプトを設計することで、トレーニング不要の方法で非推論モデルの性能も向上させました。プロジェクトページ:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
先行研究では、特に訓練時に見られない画像変換や劣化に対する視覚エンコーダの頑健性が分析されてきた。このような変換が生じると、テスト時に一種の分布シフトが導入され、しばしば性能の低下を引き起こす。主な焦点は、積極的に適用されると正確な意味予測に必要な有用な信号を歪めるような深刻な劣化に当てられてきた。 我々は異なる視点から、画像取得プロセスのパラメータや、人間の目には微妙あるいは認識さえできないような変換を分析する。その結果、このようなパラメータが学習された視覚表現に体系的にエンコードされ、容易に復元できることがわかった。さらに驚くべきことに、これらの存在は意味予測にプラスまたはマイナスの深刻な影響を及ぼす可能性がある。この効果は、意味ラベルとこれらの取得ベースまたは処理ベースのラベルの間に強い相関または逆相関があるかどうかに依存する。我々のコードとデータは以下で公開されている: https://github.com/ryan-caesar-ramos/visual-encoder-traces
機械学習の最近の進歩により、自動通訳品質評価への関心が高まっています。しかし、既存の研究では、言語使用品質の検討が不十分であること、データの不足と不均衡によるモデリング効果の低さ、そしてモデル予測の説明に取り組む努力の欠如といった課題が残されています。これらのギャップを埋めるため、我々は特徴量エンジニアリング、データ拡張、説明可能な機械学習を統合した多次元モデリングフレームワークを提案します。このアプローチでは、「ブラックボックス」予測ではなく説明可能性を優先し、構成に関連する透明性の高い特徴量のみを利用し、Shapley Value(SHAP)分析を実施します。我々の結果は、新たな英語-中国語逐次通訳データセットにおいて強力な予測性能を示し、忠実性に対する最も強力な予測特徴量としてBLEURTとCometKiwiスコアを、流暢性に対するポーズ関連の特徴量を、言語使用に対する中国語特有の語彙的多様性メトリクスを特定しました。全体として、説明可能性を特に重視することで、従来の人間による評価に代わるスケーラブルで信頼性が高く透明性のある代替手段を提示し、学習者に対する詳細な診断フィードバックの提供を容易にし、自動スコア単独では得られない自己調整学習の利点をサポートします。
信頼性の高い自然言語処理(NLP)の研究において、説明可能性とプライバシーを含むいくつかの重要な研究分野が登場しています。説明可能なNLPとプライバシー保護を目指すNLPに対する研究関心は近年大幅に高まっていますが、この2つの交差点に関する調査は依然として不足しています。これにより、説明可能性とプライバシーの両立が可能なのか、あるいは互いに相反するものなのかについての理解に大きなギャップが生じています。本研究では、差分プライバシー(DP)と事後説明可能性という広く使われている手法をガイドとして、NLPの文脈におけるプライバシーと説明可能性のトレードオフについて実証的な調査を行います。私たちの調査結果には、下流タスクの性質やテキストのプライバシー保護手法および説明可能性手法の選択など、複数の要因によって形成されるプライバシーと説明可能性の複雑な関係性が含まれます。これを通じて、プライバシーと説明可能性が共存する可能性を強調し、この重要な交差点における今後の研究のための実践的な推奨事項をまとめます。