HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

13 papers found

We-Math 2.0: 視覚的数学的推論を促進するための多機能MathBookシステム
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

Aug 14

ByRunqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

117

マルチモーダル大規模言語モデル（MLLMs）は、さまざまなタスクにおいて印象的な能力を発揮していますが、複雑な数学的推論には依然として苦戦しています。既存の研究は主にデータセットの構築と手法の最適化に焦点を当てており、包括的な知識駆動設計とモデル中心のデータ空間モデリングという2つの重要な側面を見落としがちです。本論文では、We-Math 2.0を紹介します。これは、構造化された数学的知識システム、モデル中心のデータ空間モデリング、および強化学習（RL）ベースのトレーニングパラダイムを統合した統一システムであり、MLLMsの数学的推論能力を包括的に強化します。We-Math 2.0の主な貢献は以下の4点です：（1）MathBook知識システム：491の知識ポイントと1,819の基本原理を網羅した5段階の階層システムを構築します。（2）MathBook-Standard & Pro：MathBook-Standardは、二重拡張を通じて広範な概念カバレッジと柔軟性を確保するデータセットです。さらに、3次元の難易度空間を定義し、各問題に対して7つの段階的バリアントを生成して、堅牢なトレーニングのための挑戦的なデータセットであるMathBook-Proを構築します。（3）MathBook-RL：2段階のRLフレームワークを提案します：（i）コールドスタート微調整：モデルを知識指向の連鎖的思考推論に適合させます。（ii）段階的アライメントRL：平均報酬学習と動的データスケジューリングを活用して、難易度レベル全体で段階的なアライメントを実現します。（4）MathBookEval：491の知識ポイントを網羅し、多様な推論ステップ分布を持つ包括的なベンチマークを導入します。実験結果は、MathBook-RLが4つの広く使用されているベンチマークで既存のベースラインと競争力を持ち、MathBookEvalで強い結果を達成し、数学的推論における有望な一般化を示唆しています。

NextStep-1: スケーラブルな連続トークンを用いた自己回帰的画像生成に向けて
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

Aug 14

ByNextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu

101

既存のテキストから画像生成のための自己回帰（AR）モデルは、連続的な画像トークンを処理するために計算量の多い拡散モデルに依存するか、またはベクトル量子化（VQ）を用いて量子化損失を伴う離散トークンを取得しています。本論文では、NextStep-1という14Bパラメータの自己回帰モデルと157Mのフローマッチングヘッドを組み合わせ、離散テキストトークンと連続画像トークンに対して次トークン予測目標を用いて学習を行うことで、自己回帰パラダイムを前進させます。NextStep-1は、テキストから画像生成タスクにおいて自己回帰モデルとして最先端の性能を達成し、高忠実度の画像合成において強力な能力を示します。さらに、我々の手法は画像編集においても優れた性能を示し、統一されたアプローチの力と汎用性を強調しています。オープンな研究を促進するため、我々はコードとモデルをコミュニティに公開する予定です。

ToonComposer: 生成型ポストキーフレーミングによるアニメ制作の効率化
ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Aug 14

ByLingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan

従来のカートゥーンやアニメ制作では、キーフレーム作成、中割り、彩色といった工程が必要であり、多大な手作業を要します。近年のAIの進歩にもかかわらず、既存の手法ではこれらの工程を個別に扱うことが多く、エラーの蓄積やアーティファクトの発生が問題となっています。例えば、中割り手法は大きな動きに対応するのが難しく、彩色手法はフレームごとに密なスケッチを必要とします。この問題を解決するため、我々はToonComposerを提案します。これは、中割りと彩色を単一のポストキーフレーム工程に統合した生成モデルです。ToonComposerは、スパースなスケッチ注入メカニズムを用いて、キーフレームスケッチによる精密な制御を実現します。さらに、カートゥーン適応手法と空間的低ランクアダプターを組み合わせることで、現代のビデオ基盤モデルをカートゥーン領域に適応させつつ、その時間的な事前知識を保持します。ToonComposerは、単一のスケッチと彩色済みの参照フレームだけで動作し、スパースな入力に対しても優れた性能を発揮します。また、任意の時間位置に複数のスケッチを配置することで、より精密な動きの制御も可能です。この二重の能力により、手作業の負担が軽減され、柔軟性が向上し、現実の制作現場でアーティストを支援します。我々はさらに、現実の使用例を模倣した手描きスケッチを含むベンチマークPKBenchを作成し、モデルを評価しました。評価の結果、ToonComposerは視覚品質、動きの一貫性、制作効率の面で既存手法を上回り、AI支援型カートゥーン制作において優れた柔軟性を備えたソリューションを提供することが示されました。

PRELUDE: 長文脈にわたるグローバルな理解と推論を必要とするように設計されたベンチマーク
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

Aug 13

ByMo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

PRELUDEを紹介します。これは、キャラクターの前日譚が原作の正典的物語と整合性があるかどうかを判断するタスクを通じて、長文脈理解を評価するためのベンチマークです。本タスクは、既存のベンチマークよりもグローバルな理解と深い推論を強く要求します。前日譚は原作の一部ではないため、その妥当性を評価するには、間接的に関連する情報を検索し統合する必要があるからです。実際、88%の事例で物語の複数部分からの証拠が必要です。実験結果は本タスクの難しさを示しています。最先端の大規模言語モデル（LLM）を用いたインコンテキスト学習、RAG、ドメイン固有のトレーニング、および商用のDeepResearchサービスは、人間の性能に比べて15%以上遅れています。さらに人間による調査では、モデルが正しい答えを出しながらも誤った推論を行うことが多く、推論精度において人間と比べて30%以上のギャップがあることが明らかになりました。これらの発見は、長文脈理解と推論において改善の余地が大きいことを示しています。

UI-Venus技術レポート：RFTを用いた高性能UIエージェントの構築
UI-Venus Technical Report: Building High-performance UI Agents with RFT

Aug 14

ByZhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang

我々は、マルチモーダル大規模言語モデルに基づき、スクリーンショットのみを入力とするネイティブUIエージェント「UI-Venus」を提案します。UI-Venusは、Qwen2.5-VLに基づく強化学習ファインチューニング（RFT）を通じて、わずか数十万の高品質なトレーニングサンプルを使用して、UIグラウンディングとナビゲーションタスクの両方でSOTA性能を達成します。具体的には、UI-Venusの7Bおよび72Bバリアントは、標準的なグラウンディングベンチマークであるScreenspot-V2 / Proでそれぞれ94.1% / 50.8%および95.3% / 61.9%を獲得し、オープンソースのGTA1やクローズドソースのUI-TARS-1.5を含む従来のSOTAベースラインを上回りました。UI-Venusの要約と計画能力を示すために、オンラインUIナビゲーションアリーナであるAndroidWorldでも評価を行い、7Bおよび72Bバリアントはそれぞれ49.1%および65.9%の成功率を達成し、既存のモデルを凌駕しました。これを実現するために、UIグラウンディングとナビゲーションタスクの両方に対して慎重に設計された報酬関数と、それに対応する効率的なデータクリーニング戦略を導入しました。さらにナビゲーション性能を向上させるために、歴史的推論トレースを洗練し、疎だが重要なアクションの分布をバランスさせる「Self-Evolving Trajectory History Alignment & Sparse Action Enhancement」を提案し、複雑なUIタスクにおけるより一貫した計画と優れた汎化を実現しました。我々の貢献には、SOTAオープンソースUIエージェントの公開、包括的なデータクリーニングプロトコル、およびナビゲーション性能を向上させるための新しい自己進化フレームワークが含まれ、これらはコミュニティにおけるさらなる研究と開発を促進します。コードはhttps://github.com/antgroup/UI-Venusで公開されています。

Puppeteer: 3Dモデルのリグとアニメーション
Puppeteer: Rig and Animate Your 3D Models

Aug 14

ByChaoyue Song, Xiu Li, Fan Yang, Zhongcong Xu, Jiacheng Wei, Fayao Liu, Jiashi Feng, Guosheng Lin, Jianfeng Zhang

現代のインタラクティブアプリケーションでは、動的な3Dコンテンツの需要が高まっているが、静的な3Dモデルをアニメーション資産に変換するプロセスは、コンテンツ制作パイプラインにおける重要なボトルネックとなっている。生成AIの最近の進歩により、静的な3Dモデルの作成は革命的に進化したものの、リギングとアニメーションは依然として専門家の介入に大きく依存している。本論文では、多様な3Dオブジェクトに対する自動リギングとアニメーションを実現する包括的なフレームワークであるPuppeteerを提案する。本システムは、まず、コンパクトな表現のためのジョイントベースのトークン化戦略と、双方向学習能力を強化する確率的摂動を伴う階層的順序付け手法を導入した自己回帰型トランスフォーマーを用いて、妥当な骨格構造を予測する。次に、骨格グラフ距離に基づいてジョイント間の関係を明示的にエンコードするトポロジー認識型ジョイントアテンションを組み込んだアテンションベースのアーキテクチャを用いて、スキニングウェイトを推論する。最後に、これらのリギングの進歩を補完するために、既存のアプローチよりも計算効率が高く、安定した高忠実度のアニメーションを生成する微分可能な最適化ベースのアニメーションパイプラインを提供する。複数のベンチマークにわたる広範な評価により、本手法が骨格予測精度とスキニング品質の両方において、最先端の技術を大幅に上回ることが実証された。本システムは、プロが設計したゲーム資産からAI生成形状まで、多様な3Dコンテンツを堅牢に処理し、既存の手法で一般的なジッター問題を解消した時間的に一貫性のあるアニメーションを生成する。

STream3R: 因果的Transformerを用いたスケーラブルな逐次3D再構成
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

Aug 14

ByYushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan

本論文では、3D再構成における新たなアプローチであるSTream3Rを提案します。STream3Rは、ポイントマップ予測をデコーダのみのTransformer問題として再定式化します。既存のマルチビュー再構成の最先端手法は、高コストなグローバル最適化に依存するか、シーケンス長に対してスケーリングが不十分な単純なメモリ機構に頼っています。これに対し、STream3Rは、現代の言語モデリングの進展に着想を得た因果的注意機構を用いて、画像シーケンスを効率的に処理するストリーミングフレームワークを導入します。大規模な3Dデータセットから幾何学的な事前知識を学習することで、STream3Rは多様で困難なシナリオ、特に従来の手法がしばしば失敗する動的シーンにおいても良好に汎化します。広範な実験により、本手法が静的および動的シーンのベンチマークにおいて、従来の手法を一貫して上回ることが示されています。さらに、STream3RはLLMスタイルのトレーニングインフラストラクチャと本質的に互換性があり、様々な下流の3Dタスクに対する効率的な大規模事前学習と微調整を可能にします。我々の結果は、オンライン3D知覚における因果的Transformerモデルの可能性を強調し、ストリーミング環境におけるリアルタイム3D理解への道を開くものです。詳細はプロジェクトページ（https://nirvanalan.github.io/projects/stream3r）をご覧ください。

大規模推論モデルの探索と活用を適応的にバランスさせるためのPass@kトレーニング
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

Aug 14

ByZhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

検証可能な報酬を用いた強化学習（RLVR）は、通常Pass@1を報酬として採用しているが、探索と活用のバランスを取る際に課題に直面し、保守的な行動を好むポリシーが局所最適に収束してしまう。そのため、適切な報酬指標を特定することが重要である。先行研究に関しては、Pass@kが評価に使用されてきたものの、RLVRにおける大規模言語モデル（LLM）の探索能力との関連性はほとんど注目されていない。これを調査するため、まずPass@kを報酬としてポリシーモデルを訓練し（すなわちPass@k Training）、その探索能力の向上を観察する。次に、Pass@k Trainingの利点に関する解析的な解を導出し、効率的かつ効果的なプロセスを実現する。これに基づき、分析から探索と活用は本質的に相反する目的ではなく、互いに強化し合えることが明らかになる。さらに、解析的導出を伴うPass@k Trainingは、本質的に利得関数を直接設計することを含む。これに着想を得て、RLVRのための利得設計を予備的に探求し、有望な結果を示すとともに、将来の潜在的な方向性を強調する。

拡散言語モデルに関するサーベイ
A Survey on Diffusion Language Models

Aug 14

ByTianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen

拡散言語モデル（DLMs）は、現在主流の自己回帰（AR）パラダイムに代わる強力で有望なアプローチとして急速に注目を集めています。DLMsは、反復的なノイズ除去プロセスを通じてトークンを並列生成することで、推論の遅延を削減し、双方向の文脈を捉えるという本質的な利点を持ち、生成プロセスに対するきめ細かい制御を可能にします。数倍の高速化を実現しながらも、最近の進歩によりDLMsは自己回帰モデルと同等の性能を示すようになり、様々な自然言語処理タスクにおいて魅力的な選択肢となっています。本調査では、現在のDLMの状況を包括的に概観します。その進化と、自己回帰モデルやマスク言語モデルなどの他のパラダイムとの関係をたどり、基礎的な原理から最先端のモデルまでを網羅します。私たちの研究は、最新の包括的な分類体系と、事前学習戦略から高度な事後学習手法に至る現在の技術の詳細な分析を提供します。本調査のもう一つの貢献は、DLMの推論戦略と最適化に関する徹底的なレビューであり、デコードの並列化、キャッシュメカニズム、生成品質の改善などを含みます。また、DLMsのマルチモーダル拡張への最新アプローチと、様々な実践的シナリオでの応用を明らかにします。さらに、効率性、長文処理、インフラ要件などのDLMsの制約と課題について議論し、この急速に進化する分野の進歩を維持するための将来の研究方向を概説します。プロジェクトのGitHubはhttps://github.com/VILA-Lab/Awesome-DLMsで公開されています。

HumanSense: マルチモーダル知覚から共感的な文脈認識応答へ - 推論型MLLMを介して
HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

Aug 14

ByZheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Yi Yuan, Jingdong Chen, Le Wang

マルチモーダル大規模言語モデル（MLLMs）は、真に人間らしいインタラクションを実現するための大きな可能性を示しているものの、複雑な人間の意図を理解し、共感的で文脈を考慮した応答を提供するといった、人間中心のシナリオにおける詳細な評価フレームワークの欠如が進展を妨げています。本論文では、HumanSenseを紹介します。これは、MLLMsの人間中心の知覚およびインタラクション能力を評価するための包括的なベンチマークであり、特に拡張されたマルチモーダル文脈の深い理解と合理的なフィードバックの形成に焦点を当てています。評価の結果、主要なMLLMsには、特に高度なインタラクション指向タスクにおいて、まだ改善の余地が大きいことが明らかになりました。視覚入力を音声およびテキスト情報で補完することで大幅な改善が見られ、オムニモーダルモデルはこれらのタスクにおいて優位性を示しました。さらに、適切なフィードバックは、対話相手のニーズと感情の文脈分析に基づいており、推論能力がそれを実現する鍵であると主張します。これに基づき、オムニモデルの推論能力を強化するために、多段階のモダリティ漸進的強化学習を採用し、評価結果において大幅な向上を達成しました。加えて、成功した推論プロセスは非常に一貫した思考パターンを示すことが観察されました。対応するプロンプトを設計することで、トレーニング不要の方法で非推論モデルの性能も向上させました。プロジェクトページ：brightpinkhttps://digital-avatar.github.io/ai/HumanSense/

視覚エンコーダにおける処理と取得の痕跡：CLIPはあなたのカメラについて何を知っているのか？
Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

Aug 14

ByRyan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia

先行研究では、特に訓練時に見られない画像変換や劣化に対する視覚エンコーダの頑健性が分析されてきた。このような変換が生じると、テスト時に一種の分布シフトが導入され、しばしば性能の低下を引き起こす。主な焦点は、積極的に適用されると正確な意味予測に必要な有用な信号を歪めるような深刻な劣化に当てられてきた。我々は異なる視点から、画像取得プロセスのパラメータや、人間の目には微妙あるいは認識さえできないような変換を分析する。その結果、このようなパラメータが学習された視覚表現に体系的にエンコードされ、容易に復元できることがわかった。さらに驚くべきことに、これらの存在は意味予測にプラスまたはマイナスの深刻な影響を及ぼす可能性がある。この効果は、意味ラベルとこれらの取得ベースまたは処理ベースのラベルの間に強い相関または逆相関があるかどうかに依存する。我々のコードとデータは以下で公開されている: https://github.com/ryan-caesar-ramos/visual-encoder-traces

ブラックボックスから透明性へ：大学教室における説明可能なAIを用いた自動通訳評価の強化
From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

Aug 14

ByZhaokun Jiang, Ziyin Zhang

機械学習の最近の進歩により、自動通訳品質評価への関心が高まっています。しかし、既存の研究では、言語使用品質の検討が不十分であること、データの不足と不均衡によるモデリング効果の低さ、そしてモデル予測の説明に取り組む努力の欠如といった課題が残されています。これらのギャップを埋めるため、我々は特徴量エンジニアリング、データ拡張、説明可能な機械学習を統合した多次元モデリングフレームワークを提案します。このアプローチでは、「ブラックボックス」予測ではなく説明可能性を優先し、構成に関連する透明性の高い特徴量のみを利用し、Shapley Value（SHAP）分析を実施します。我々の結果は、新たな英語-中国語逐次通訳データセットにおいて強力な予測性能を示し、忠実性に対する最も強力な予測特徴量としてBLEURTとCometKiwiスコアを、流暢性に対するポーズ関連の特徴量を、言語使用に対する中国語特有の語彙的多様性メトリクスを特定しました。全体として、説明可能性を特に重視することで、従来の人間による評価に代わるスケーラブルで信頼性が高く透明性のある代替手段を提示し、学習者に対する詳細な診断フィードバックの提供を容易にし、自動スコア単独では得られない自己調整学習の利点をサポートします。

説明可能性とプライバシーの交差点：自然言語処理の文脈における事後説明可能性と差分プライバシーの相互関係に関する考察
When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing

Aug 14

ByMahdi Dhaini, Stephen Meisenbacher, Ege Erdogan, Florian Matthes, Gjergji Kasneci

信頼性の高い自然言語処理（NLP）の研究において、説明可能性とプライバシーを含むいくつかの重要な研究分野が登場しています。説明可能なNLPとプライバシー保護を目指すNLPに対する研究関心は近年大幅に高まっていますが、この2つの交差点に関する調査は依然として不足しています。これにより、説明可能性とプライバシーの両立が可能なのか、あるいは互いに相反するものなのかについての理解に大きなギャップが生じています。本研究では、差分プライバシー（DP）と事後説明可能性という広く使われている手法をガイドとして、NLPの文脈におけるプライバシーと説明可能性のトレードオフについて実証的な調査を行います。私たちの調査結果には、下流タスクの性質やテキストのプライバシー保護手法および説明可能性手法の選択など、複数の要因によって形成されるプライバシーと説明可能性の複雑な関係性が含まれます。これを通じて、プライバシーと説明可能性が共存する可能性を強調し、この重要な交差点における今後の研究のための実践的な推奨事項をまとめます。

UI-Venus技術レポート：RFTを用いた高性能UIエージェントの構築
UI-Venus Technical Report: Building High-performance UI Agents with RFT

Aug 14