翻訳付きの日次キュレーションされたAI研究論文
ポリシーベースの強化学習は現在、数学的推論タスクにおけるLLM(大規模言語モデル)の改善において重要な役割を果たしています。しかし、既存のロールアウトベースの強化学習手法(GRPO、DAPO、GSPOなど)は、異なる難易度のサンプルに対するLLMの学習能力を明示的に考慮しておらず、これは人間の数学的推論タスクにおける易から難への認知プロセスに反しています。直感的に、RLVRにおけるロールアウトグループの報酬の分散が、LLMにとっての現在のサンプルの難易度を部分的に反映していることがわかります。簡単すぎるサンプルや難しすぎるサンプルは分散が低く、適度な難易度のサンプルは分散が高くなります。これに基づいて、我々はVCRLを提案します。これは、グループ報酬の分散に基づいてトレーニングサンプルの難易度を動的に制御するカリキュラム強化学習フレームワークです。5つの数学的ベンチマークと2つのモデルを用いた実験により、VCRLが現在のLLM強化学習ベースラインを上回る利点があることが明らかになりました。
大規模マルチモーダル推論モデルは急速な進歩を遂げていますが、その発展は2つの主要な制約によって妨げられています。1つ目は、オープンで大規模かつ高品質な長い連鎖思考(CoT)データの欠如、2つ目はポストトレーニングにおける強化学習(RL)アルゴリズムの不安定性です。RLファインチューニングの標準フレームワークであるGroup Relative Policy Optimization(GRPO)は、報酬分散が低い場合に勾配消失が起こりやすく、最適化信号が弱まり収束が妨げられます。本研究では以下の3つの貢献を行います。(1) 分散促進スコア(VPS)に基づくデータ選択戦略であるVariance-Aware Sampling(VAS)を提案し、報酬分散を促進しポリシー最適化を安定化させます。VPSは結果分散と軌道多様性を組み合わせたものです。(2) 品質、難易度、多様性を確保した約160万件の長いCoTコールドスタートデータと約1万5千件のRL QAペアを含む大規模で慎重にキュレートされたリソースを公開し、完全に再現可能なエンドツーエンドのトレーニングコードベースを提供します。(3) 複数のスケールでマルチモーダル推論モデルのファミリーをオープンソース化し、コミュニティのための標準化されたベースラインを確立します。数学的推論ベンチマークにおける実験は、キュレートされたデータと提案されたVASの有効性を実証しています。包括的なアブレーション研究と分析により、各コンポーネントの貢献についてさらに洞察を提供します。さらに、報酬分散が期待されるポリシー勾配の大きさの下限を定めることを理論的に確立し、VASがこの保証を実現するための実践的なメカニズムとして機能することを示します。私たちのコード、データ、チェックポイントはhttps://github.com/LengSicong/MMR1で公開されています。
我々は、自然言語と多様な科学的表現を整合させる科学的推論基盤モデルを提案する。このモデルは、科学テキスト、純粋なシーケンス、シーケンス-テキストペアを含む206Bトークンのコーパスで事前学習され、40Mの指示によるSFT(Supervised Fine-Tuning)で整合され、長文の連鎖的思考を引き出すためのアニーリングされたコールドスタートブートストラップ、およびタスク固有の報酬形成を用いた強化学習を通じて、意図的な科学的推論を習得する。本モデルは、ワークフロー全体で最大103のタスクをカバーする4つの能力ファミリーをサポートする:(i) テキストと科学フォーマット間の忠実な変換、(ii) テキスト/知識抽出、(iii) 特性予測、(iv) 特性分類、(v) 無条件および条件付きシーケンス生成と設計。専門システムと比較して、我々のアプローチは指示のカバレッジを拡大し、クロスドメインの汎化を改善し、忠実性を向上させる。データキュレーションとトレーニングの詳細を説明し、学際的な学習が転移と下流の信頼性を強化することを示す。本モデル、指示チューニングデータセット、および評価コードは、https://huggingface.co/SciReason と https://github.com/open-sciencelab/SciReason でオープンソース化されている。
近年の強化学習(RL)の進展により、大規模言語モデル(LLM)のエージェント能力が大幅に向上しています。長期的かつ多段階のエージェントタスクにおいて、結果報酬のみに基づく既存のアプローチは、スパースな教師信号の問題に直面することがしばしばあります。この課題に対処するため、我々はツリー探索に基づくグループ化エージェントRL手法であるTree-based Group Relative Policy Optimization(Tree-GRPO)を提案します。ここでは、各ツリーノードが完全なエージェントインタラクションステップを表します。共通のプレフィックスを共有することで、ツリー探索サンプリングは、固定されたトークンまたはツール呼び出しの予算内で達成可能なロールアウトの数を増加させます。さらに、ツリー構造の軌跡は、結果報酬のみを使用しても、段階的なプロセス教師信号の構築を自然に可能にすることがわかります。これに基づき、Tree-GRPOは、ツリー内レベルとツリー間レベルの両方でグループ化された相対的アドバンテージを推定します。理論分析を通じて、ツリー内レベルのグループ相対的ポリシー最適化の目的が、段階レベルの直接選好学習の目的と等価であることを示します。11のデータセットと3種類のQAタスクにわたる実験により、提案されたツリーベースのRL手法がチェーンベースのRL手法を上回る優位性を実証しました。
Seedream 4.0を紹介します。これは、テキストから画像への合成(T2I)、画像編集、複数画像の合成を単一のフレームワークに統合した、効率的で高性能なマルチモーダル画像生成システムです。我々は、強力なVAEを備えた高度に効率的な拡散トランスフォーマーを開発し、画像トークンの数を大幅に削減することに成功しました。これにより、モデルの効率的なトレーニングが可能となり、ネイティブの高解像度画像(例:1K-4K)を高速に生成することができます。Seedream 4.0は、多様な分類体系や知識中心の概念にわたる数十億のテキスト-画像ペアで事前学習されています。数百の垂直シナリオにわたる包括的なデータ収集と最適化された戦略により、安定した大規模なトレーニングと強力な汎化能力を実現しています。慎重に微調整されたVLMモデルを組み込むことで、T2Iと画像編集タスクを共同でトレーニングするためのマルチモーダル事後学習を行います。推論の高速化のために、敵対的蒸留、分布マッチング、量子化、および投機的デコーディングを統合しています。これにより、2K画像の生成に最大1.8秒の推論時間を達成します(LLM/VLMをPEモデルとして使用しない場合)。包括的な評価により、Seedream 4.0がT2Iとマルチモーダル画像編集の両方で最先端の結果を達成できることが明らかになりました。特に、精密な画像編集やコンテキスト内推論などの複雑なタスクにおいて卓越したマルチモーダル能力を示し、複数画像の参照を可能にし、複数の出力画像を生成することができます。これにより、従来のT2Iシステムをよりインタラクティブで多次元的なクリエイティブツールに拡張し、生成AIの境界をクリエイティビティと専門的なアプリケーションの両方において押し広げます。Seedream 4.0は現在、https://www.volcengine.com/experience/ark?launch=seedream でアクセス可能です。
近年の3Dネイティブ生成モデルの進展により、ゲーム、映画、デザイン分野におけるアセット作成が加速しています。しかし、ほとんどの手法は依然として主に画像やテキストの条件付けに依存しており、細粒度のクロスモーダル制御が欠如しているため、制御性と実用性が制限されています。この課題を解決するため、我々はHunyuan3D 2.1を基盤とした、細粒度で制御可能な3Dアセット生成のための統一フレームワーク「Hunyuan3D-Omni」を提案します。Hunyuan3D-Omniは画像に加えて、点群、ボクセル、バウンディングボックス、骨格ポーズの事前情報を条件付け信号として受け入れ、形状、トポロジー、ポーズに対する精密な制御を可能にします。各モダリティごとに別々のヘッドを用意する代わりに、我々のモデルはすべての信号を単一のクロスモーダルアーキテクチャに統合しています。学習には、難易度を考慮した段階的サンプリング戦略を採用し、各サンプルに対して1つの制御モダリティを選択し、より難しい信号(例:骨格ポーズ)にサンプリングを偏らせながら、より簡単な信号(例:点群)の重みを下げることで、堅牢なマルチモーダル融合と入力欠損に対する優雅な処理を促進します。実験結果から、これらの追加制御により生成精度が向上し、形状を意識した変換が可能になり、プロダクションワークフローにおける堅牢性が高まることが示されています。
AutoIntentは、テキスト分類タスクのための自動機械学習ツールである。既存のソリューションとは異なり、AutoIntentは、埋め込みモデルの選択、分類器の最適化、および決定閾値の調整を、モジュール式のsklearn風インターフェース内でエンドツーエンドに自動化する。このフレームワークは、マルチラベル分類と範囲外検出をサポートするように設計されている。AutoIntentは、標準的な意図分類データセットにおいて既存のAutoMLツールを上回る性能を示し、ユーザーが効果性とリソース消費のバランスを取ることを可能にする。
大規模言語モデル(LLM)を自動評価者として採用する(LLM-as-a-judge)ことで、現在の評価フレームワークにおける重大な不整合が明らかになりました。我々は、2つの基本的な不整合を特定しました:(1)スコア比較不整合:ペアワイズ比較において、低評価の回答が高評価の回答を上回る場合、(2)ペアワイズ推移性不整合:循環的な選好連鎖(A>B>C>A)や等価性の矛盾(A=B=C≠A)として現れるものです。これらの問題は、離散的な評価システムにおける情報の損失と、ペアワイズ評価時の曖昧な同点判断に起因すると主張します。我々は、これらの制限を克服する確率的フレームワークであるTrustJudgeを提案します。TrustJudgeは、2つの主要な革新を通じてこれらの課題に対処します:1)離散的な評価確率から連続的な期待値を計算する分布感応型スコアリングにより、情報エントロピーを保持し、より正確なスコアリングを実現、2)双方向の選好確率またはパープレキシティを使用して推移性違反を解決する尤度認識型集約です。また、現在のLLM-as-a-judgeフレームワークの理論的限界を形式化し、TrustJudgeのコンポーネントがそれらをどのように克服するかを示します。Llama-3.1-70B-Instructを評価者として使用したデータセットでの評価では、TrustJudgeはスコア比較不整合を8.43%(23.32%から14.89%へ)、ペアワイズ推移性不整合を10.82%(15.22%から4.40%へ)削減し、高い評価精度を維持しました。我々の研究は、LLM-as-a-judgeパラダイムにおける評価フレームワークの不整合を体系的に分析した初めてのものであり、信頼性の高い自動評価のための理論的洞察と実践的解決策を提供します。このフレームワークは、様々なモデルアーキテクチャとスケールにおいて一貫した改善を示し、追加のトレーニングや人間の注釈を必要とせずに、より信頼できるLLM評価を可能にします。コードはhttps://github.com/TrustJudge/TrustJudgeで公開されています。
本論文では、思考軌跡を用いて既存のテキストデータを拡張することで、大規模言語モデル(LLM)の学習におけるデータ効率を向上させる、シンプルでスケーラブルなアプローチを紹介する。LLMの事前学習に必要な計算量は前例のない速度で増加している一方で、高品質なデータの利用可能性は限られている。そのため、利用可能なデータの効用を最大化することが重要な研究課題となっている。主な障壁は、固定されたモデル容量では、特定の高品質なトークンを学習することが難しい点である。これは、単一のトークンに対する根拠が非常に複雑で深い場合があるためである。この問題に対処するため、我々は「思考拡張型事前学習(Thinking augmented Pre-Training, TPT)」を提案する。これは、自動生成された思考軌跡を用いてテキストを拡張する普遍的な方法論であり、段階的な推論と分解を通じて高品質なトークンをより学習可能にする。TPTを100Bトークンまでの多様な学習設定に適用し、制約のあるデータと豊富なデータの両方を用いた事前学習、および強力なオープンソースのチェックポイントからの中期学習を含む。実験結果は、我々の手法が様々なモデルサイズとファミリーにおいてLLMの性能を大幅に向上させることを示している。特に、TPTはLLMの事前学習におけるデータ効率を3倍に向上させる。3Bパラメータのモデルでは、いくつかの難易度の高い推論ベンチマークにおいて、学習後の性能を10%以上向上させる。
強化学習(Reinforcement Learning, RL)は、複雑な推論タスクを処理するための大規模言語モデル(Large Language Models, LLMs)を最適化する強力なパラダイムとなっています。このプロセスにおける核心的な課題は、訓練中の探索と活用のバランスを反映するポリシーエントロピーの管理にあります。既存の手法、例えば近接方策最適化(Proximal Policy Optimization, PPO)やその派生手法では、クリッピングメカニズムにより低確率トークンからの貴重な勾配信号が捨てられてしまいます。我々はエントロピーのダイナミクスを体系的に分析し、これらのクリップされたトークンがエントロピーの進化を調節する上で重要な役割を果たしているが見過ごされていることを明らかにしました。本論文では、クリップされたトークンからの勾配をPPOに穏やかで制限された形で再導入する新たなアルゴリズム、勾配保存型方策最適化によるエントロピー制御(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO)を提案します。クリッピング区間外のトークンからの勾配の大きさを制御することで、CE-GPPOは探索と活用のトレードオフを実現します。我々は理論的根拠と実験的証拠を示し、CE-GPPOがエントロピーの不安定性を効果的に緩和することを明らかにしました。数学的推論ベンチマークにおける広範な実験により、CE-GPPOが異なるモデル規模において強力なベースラインを一貫して上回ることを示しました。
近年、行動模倣(Behavior Cloning, BC)の進展により、視覚運動制御ポリシーの性能が著しく向上している。しかし、これらの手法は人間によるデモンストレーションの質、データ収集に必要な手作業、およびオフラインデータの増加に伴う収穫逓減に制約されている。一方、強化学習(Reinforcement Learning, RL)は、環境との自律的な相互作用を通じてエージェントを訓練し、さまざまな領域で顕著な成功を収めている。しかし、現実世界のロボットに対して直接RLポリシーを訓練することは、サンプル効率の低さ、安全性の問題、および長期的なタスクにおける疎な報酬からの学習の難しさ、特に高自由度(Degree-of-Freedom, DoF)システムにおいて依然として課題が多い。本研究では、残差学習フレームワークを通じてBCとRLの利点を組み合わせた手法を提案する。我々のアプローチは、BCポリシーをブラックボックス基盤として活用し、サンプル効率の高いオフポリシーRLを通じて軽量なステップごとの残差補正を学習する。本手法は、疎な二値報酬信号のみを必要とし、シミュレーションおよび現実世界において高自由度システムの操作ポリシーを効果的に改善できることを実証する。特に、我々の知る限り、初めて現実世界のヒューマノイドロボットにおける器用な手を用いたRL訓練の成功を示す。我々の結果は、視覚ベースのタスクにおいて最先端の性能を達成し、現実世界でのRLの実用的な展開に向けた道筋を示している。プロジェクトウェブサイト: https://residual-offpolicy-rl.github.io
本論文では、アニメの髪型モデリングのための新しいパラメトリック表現と生成フレームワークであるCHARMを提案します。従来の髪のモデリング手法は、ストランドベースやボリュームベースの表現を用いてリアルな髪を再現することに焦点を当てていましたが、アニメの髪型は高度にスタイライズされた区分的構造を持つ幾何学的形状を示し、既存の技術では対応が困難です。既存の研究では、高密度なメッシュモデリングや手作業で作成されたスプライン曲線に依存することが多く、編集が非効率でスケーラブルな学習には適していません。CHARMは、コンパクトで可逆的な制御点ベースのパラメータ化を導入し、各ヘアカードを一連の制御点で表現し、各点はわずか5つの幾何学的パラメータでエンコードされます。この効率的で正確な表現は、アーティストフレンドリーな設計と学習ベースの生成の両方をサポートします。この表現に基づいて、CHARMは入力画像や点群からアニメの髪型を効果的に生成する自己回帰型生成フレームワークを導入します。アニメの髪型を「ヘア言語」として順次解釈することで、自己回帰型トランスフォーマーは局所的な幾何学とグローバルな髪型トポロジーの両方を捉え、高精細なアニメ髪型の生成を実現します。アニメ髪型生成のトレーニングと評価を容易にするため、37,000の高品質なアニメ髪型からなる大規模データセットAnimeHairを構築しました。このデータセットには、分離されたヘアカードと処理済みのメッシュデータが含まれています。広範な実験により、CHARMは再構成精度と生成品質の両方で最先端の性能を示し、アニメ髪型モデリングのための表現力豊かでスケーラブルなソリューションを提供します。プロジェクトページ: https://hyzcluster.github.io/charm/
近年、マルチモーダルモデルは著しい進歩を遂げ、インテリジェントなブラウザ使用エージェントの道を切り開いてきた。しかし、現実世界のウェブページ上での多ターンかつ長期的なタスク解決において、現在のエージェントは依然として行動順序の混乱や実行中の過剰な試行錯誤に悩まされている。本論文では、Reconnaissance-Action行動パラダイムに基づく自己進化型マルチエージェントフレームワークであるRecon-Actを紹介する。このシステムは、ReconnaissanceチームとActionチームで構成される。前者は比較分析とツール生成を行い、後者は意図の分解、ツールのオーケストレーション、および実行を担当する。Reconnaissanceチームは、誤った軌跡と成功した軌跡を対比することで修正策を推論し、それらをヒントまたはルールベースのコードとして表現される汎用ツールの統一概念に抽象化し、リアルタイムでツールアーカイブに登録する。Actionチームは、これらのターゲットツールを活用してプロセスを再推論し、データ-ツール-行動-フィードバックの閉ループトレーニングパイプラインを確立する。本論文で提案された6段階の実装ロードマップに従い、現在は第3段階(限定的な人間介入)に到達している。Reconnaissanceを通じて得られた汎用ツールを活用することで、Recon-Actは未見のウェブサイトへの適応性と長期的タスクの解決能力を大幅に向上させ、VisualWebArenaデータセットにおいて最先端の性能を達成している。
画像合成は、ユーザー指定のオブジェクトを新しいシーンにシームレスに挿入することを目指しますが、既存のモデルは複雑な照明(正確な影、水面反射など)や多様で高解像度の入力に対応するのに苦労しています。現代のテキストから画像への拡散モデル(例:SD3.5、FLUX)は、すでに基本的な物理的および解像度の事前情報をエンコードしていますが、潜在空間反転に頼らずにそれらを解放するためのフレームワークが欠けています。潜在空間反転は、しばしばオブジェクトのポーズを文脈的に不適切な方向に固定したり、脆弱なアテンション手術を必要としたりします。我々は、SHINE(Seamless, High-fidelity Insertion with Neutralized Errors)というトレーニング不要のフレームワークを提案します。SHINEは、多様体誘導アンカー損失を導入し、事前学習されたカスタマイズアダプター(例:IP-Adapter)を活用して、背景の整合性を保ちながら忠実な被写体表現を導くための潜在空間をガイドします。劣化抑制ガイダンスと適応的背景ブレンディングを提案し、低品質の出力や目立つ継ぎ目をさらに排除します。厳密なベンチマークの欠如に対処するため、複雑な照明、強い照明、複雑な影、反射面などの挑戦的な条件を含む多様な解像度のComplexCompoを導入します。ComplexCompoとDreamEditBenchでの実験は、標準的なメトリクス(例:DINOv2)や人間の評価に基づくスコア(例:DreamSim、ImageReward、VisionReward)において最先端の性能を示しています。コードとベンチマークは公開時に公開されます。
大規模推論モデル(LRM)は広範な連鎖思考推論を生成するが、これらの思考がどのように構造化されているかを理解するための体系的な枠組みが欠けている。本論文では、人間の数学的問題解決における古典的認知フレームワークであるSchoenfeldのエピソード理論を適用し、LRMの推論トレースを分析する新たなアプローチを提案する。数学問題に対するモデル生成の解答から数千の文や段落を抽出し、7つの認知ラベル(例:計画、実施、検証)を用いて注釈を付与した。その結果、機械推論の詳細な分析のための初の公開ベンチマークが作成され、大規模な注釈付きコーパスと詳細な注釈ガイドブックが提供された。予備分析では、認知状態間の遷移ダイナミクスなど、LRM推論における特徴的なパターンが明らかになった。この枠組みは、LRMの認知を解釈するための理論的基盤に基づく方法論を提供し、より制御可能で透明性の高い推論システムの今後の研究を可能にする。
私たちは、高品質な画像生成を手頃な消費者向けデバイスに実現する効率的な数ステップ蒸留フレームワーク「SD3.5-Flash」を提案します。本手法では、計算コストが高い整流フロー(rectified flow)モデルを、数ステップ生成に特化して再定式化した分布マッチング目的関数を用いて蒸留します。2つの主要なイノベーションを導入しました。1つは勾配ノイズを低減する「タイムステップ共有」、もう1つはプロンプト整合性を向上させる「分割タイムステップ微調整」です。これらに加え、テキストエンコーダの再構築や専用量子化などの包括的なパイプライン最適化を組み合わせることで、システムは高速な生成とメモリ効率の良い展開をさまざまなハードウェア構成で実現します。これにより、モバイル端末からデスクトップコンピュータまで、幅広いデバイスへのアクセスが民主化されます。大規模なユーザー調査を含む広範な評価を通じて、SD3.5-Flashが既存の数ステップ手法を一貫して上回り、先進的な生成AIを実用的な展開に真にアクセス可能にすることを実証しました。
大規模言語モデルはプログラミングタスクにおいて顕著な能力を発揮しているが、現在のベンチマークは主に単一モダリティに焦点を当てており、ビジュアルゲーム開発には対応していない。既存のコード関連ベンチマークの多くは、構文の正確性や実行精度を評価するにとどまり、実世界での展開に不可欠なプレイアビリティ、視覚的美観、ユーザーエンゲージメントといったゲーム固有の重要な指標を見落としている。アルゴリズム的問題解決や競技プログラミングにおける現在のLLMの能力と、実践的なゲーム開発の包括的な要件とのギャップを埋めるため、我々はV-GameGymを提案する。これは、実世界のリポジトリから導出された100のテーマ別クラスターにわたる2,219の高品質サンプルからなる包括的なベンチマークであり、多様性と構造的完全性を確保するための新たなクラスタリングベースのキュレーション手法を採用している。さらに、完全なUIサンドボックス環境を用いたビジュアルコード合成のための自動化されたLLM駆動パイプラインを備えたマルチモーダル評価フレームワークを導入する。我々の詳細な分析により、V-GameGymがコード生成の精度と実践的なゲーム開発ワークフローの間のギャップを効果的に埋め、ビジュアルプログラミングとインタラクティブ要素生成のための定量化可能な品質指標を提供することが明らかになった。
強化学習(RL)は、静的なベンチマークを超えて動的で多ターンのインタラクションに従事するエージェントモデルの訓練において有望な成果を示しています。しかし、そのようなエージェントの真の価値は、ユーザーを支援する能力にあり、そこではユーザーインタラクションの多様性と動態が課題となります。本研究では、UserRLという統一フレームワークを提案し、標準化されたジム環境とシミュレートされたユーザーを組み合わせて、ユーザー中心の能力を訓練・評価します。ターンレベルの報酬割り当てと軌跡レベルのスコア計算を体系的に変化させ、GRPOアルゴリズム下での学習に異なる定式化がどのように影響するかを分析します。Qwen3モデルを用いた実験から、以下の3つの主要な知見が得られました:(i) SFTのコールドスタートは、初期インタラクション能力を引き出し、持続的なRLの改善を可能にするために重要である、(ii) 意図的な軌跡スコアリングは、より効率的で効果的な多ターンインタラクションをもたらす、(iii) 強力なシミュレートユーザー(例:GPT-4o)は訓練を促進するが、オープンソースのシミュレータ(例:Qwen3-32B)はコスト効率が高く、転移可能な選択肢として残る。これらの結果は、報酬設計とユーザーシミュレーションの選択の慎重な設計がモデルの規模と同様に重要であることを強調し、UserRLを堅牢なユーザー中心のエージェントモデルを開発するための実用的な道筋として確立します。すべてのコードとデータは今後の研究のために公開されています。
学習ベースの3D再構成モデル、特にVisual Geometry Grounded Transformers(VGGT)を代表とするモデルは、大規模なトランスフォーマーの使用により著しい進歩を遂げてきました。しかし、その膨大な計算コストとメモリ使用量は、実世界での展開を大きく妨げています。ポストトレーニング量子化(PTQ)は、モデルの圧縮と高速化のための一般的な手法となっています。しかし、私たちは経験的に、ビリオンスケールのVGGTを圧縮する際にPTQが特有の課題に直面することを観察しました:データに依存しない特殊トークンが重い裾を持つ活性化分布を引き起こし、3Dデータのマルチビュー特性がキャリブレーションサンプルの選択を非常に不安定にします。本論文では、VGGTのための最初の量子化フレームワーク、すなわちQuantVGGTを提案します。これには主に2つの技術的貢献があります:第一に、Dual-Smoothed Fine-Grained Quantizationを導入し、事前のグローバルHadamard回転と事後のローカルチャネル平滑化を統合して、重い裾を持つ分布とチャネル間の分散を頑健に緩和します。第二に、Noise-Filtered Diverse Samplingを設計し、深層統計量を用いて外れ値をフィルタリングし、フレームを意識した多様なキャリブレーションクラスタを構築して、安定した量子化範囲を確保します。包括的な実験により、QuantVGGTがさまざまなベンチマークとビット幅において最先端の結果を達成し、従来の汎用量子化手法を大きく上回ることが示されました。特に、4ビットのQuantVGGTは、メモリ使用量を3.7倍削減し、実ハードウェアでの推論を2.5倍加速しながら、再構成精度をフル精度モデルの98%以上に維持できることを強調します。これは、リソースが制約されたシナリオにおけるQuantVGGTの大きな利点と実用性を示しています。私たちのコードはhttps://github.com/wlfeng0509/QuantVGGTで公開されています。
大規模推論モデル(LRM)は、複雑な問題解決において印象的な能力を示しており、しばしば複雑な推論を刺激する難しい数学問題のトレーニングから恩恵を受けています。最近の研究では、シードデータや内在的な数学的概念から、プロプライエタリモデルや大規模オープンソースモデルをプロンプティングすることで数学問題を自動生成する手法が探求されています。しかし、これらの手法をスケールアップすることは、高い計算コスト/APIコスト、プロンプティングの複雑さ、生成される問題の難易度の限界といった課題により困難です。これらの制限を克服するため、我々はScaleDiffという、難しい問題の作成をスケールアップするためのシンプルかつ効果的なパイプラインを提案します。我々は、適応的思考モデルを使用して、既存のデータセットから難しい問題を効率的に特定します。このモデルは問題の難易度を認識し、「思考」モードと「非思考」モードを自動的に切り替えることができます。その後、このフィルタリングされた難しいデータに基づいて、専門的な難問生成器(DiffGen-8B)をトレーニングし、大規模に新しい難しい問題を生成します。これにより、複雑なインスタンスごとのプロンプティングとそれに伴う高いAPIコストが不要になります。ScaleDiff-MathデータセットでQwen2.5-Math-7B-Instructをファインチューニングすると、元のデータセットと比較して11.3%の大幅な性能向上が得られ、AIME'24、AIME'25、HMMT-Feb'25、BRUMO'25、MATH500において65.9%の平均精度を達成し、OpenThinker3のような最近の強力なLRMを上回ります。特に、この性能はコスト効率の高いQwen3-8Bモデルを教師として使用して達成されており、我々のパイプラインがより大規模で高価な教師モデルに依存せずに高度な推論能力を効果的に転移できることを示しています。さらに、難しい問題の量が増加するにつれて、難しいベンチマークにおけるモデルの性能に明確なスケーリング現象が観察されます。コード: https://github.com/QizhiPei/ScaleDiff。
屋内シーン合成は、Embodied AIの台頭に伴い、視覚的にリアルであるだけでなく、物理的に妥当で機能的に多様な3D環境を必要とするため、ますます重要になっています。最近のアプローチでは視覚的忠実度が向上していますが、固定されたシーンカテゴリに制限され、十分なオブジェクトレベルの詳細や物理的一貫性が欠けており、複雑なユーザー指示に合わせることが難しい場合が多くなっています。本研究では、SceneWeaverを紹介します。これは、ツールベースの反復的改良を通じて多様なシーン合成パラダイムを統合する反射的エージェントフレームワークです。SceneWeaverの中核では、言語モデルベースのプランナーを使用して、データ駆動型生成モデルから視覚的およびLLMベースの方法まで、物理的妥当性、視覚的リアリズム、ユーザー入力との意味的整合性の自己評価に基づいて、拡張可能なシーン生成ツール群から選択します。この閉ループの「理由-行動-反映」設計により、エージェントは意味的不整合を特定し、特定のツールを呼び出し、環境を連続的な反復で更新することができます。一般的な部屋タイプとオープン語彙の部屋タイプの両方での広範な実験により、SceneWeaverが物理的、視覚的、意味的メトリクスにおいて従来の方法を上回るだけでなく、多様な指示を持つ複雑なシーンにも効果的に一般化し、汎用3D環境生成に向けた一歩を踏み出していることが示されています。プロジェクトウェブサイト: https://scene-weaver.github.io/。
検索拡張型大規模言語モデル(LLM)は、生成プロセスに検索を統合することで、情報探索タスクを進化させ、従来の検索システムと比較してユーザーの認知的負担を軽減してきました。しかし、同じクエリが異なるユーザーの意図を反映し得ることを認識し、情報を好ましい形式で提供するという多様なユーザーニーズを完全に満たすにはまだ不十分です。ChatGPTやGeminiなどの最近のシステムは、ユーザーの履歴を活用してパーソナライゼーションを試みていますが、そのようなパーソナライゼーションの体系的な評価は十分に検討されていません。このギャップを埋めるため、我々はBESPOKEを提案します。BESPOKEは、検索拡張型LLMのパーソナライゼーションを評価するための現実的なベンチマークです。BESPOKEは、人間から直接収集した本物のチャットと検索履歴を使用することで現実的であり、応答に細かい嗜好スコアとフィードバックを組み合わせることで診断的です。このベンチマークは、長期にわたる深い関与を持つ人間のアノテーションを通じて構築され、人間のアノテーターが自身の履歴を提供し、詳細な情報ニーズを持つクエリを作成し、スコアと診断フィードバックで応答を評価しました。BESPOKEを活用して、我々は情報探索タスクにおける効果的なパーソナライゼーションの主要な要件を明らかにする体系的な分析を行い、パーソナライズされた検索拡張型LLMの詳細な評価の基盤を提供します。我々のコードとデータはhttps://augustinlib.github.io/BESPOKE/で公開されています。
従来のレコメンダーシステムは、ユーザーを「いいね」や「嫌い」といった単純な選択肢に限定する受動的なフィードバックメカニズムに依存しています。しかし、このような粗粒度の信号では、ユーザーの微妙な行動動機や意図を捉えることができません。その結果、現在のシステムは、ユーザーの満足度や不満を引き起こす特定のアイテム属性を識別することもできず、不正確な嗜好モデリングを招いています。これらの根本的な制約により、ユーザーの意図とシステムの解釈の間に持続的なギャップが生じ、最終的にはユーザー満足度を損ない、システムの有効性を低下させています。 これらの課題を解決するため、我々は「Interactive Recommendation Feed (IRF)」を導入します。これは、主流のレコメンデーションフィード内で自然言語コマンドを可能にする先駆的なパラダイムです。従来のシステムがユーザーを受動的な暗黙的行動影響に閉じ込めるのに対し、IRFはリアルタイムの言語コマンドを通じて、レコメンデーションポリシーに対する能動的で明示的な制御を可能にします。このパラダイムをサポートするため、我々はRecBotを開発しました。これは、Parser Agentが言語表現を構造化された嗜好に変換し、Planner Agentが適応的なツールチェーンを動的に調整して即座にポリシーを調整するデュアルエージェントアーキテクチャです。実用的な展開を可能にするため、シミュレーションを活用した知識蒸留を採用し、強力な推論能力を維持しながら効率的なパフォーマンスを実現しています。大規模なオフラインおよび長期にわたるオンライン実験を通じて、RecBotはユーザー満足度とビジネス成果の両方で大幅な改善を示しています。
Transformerデコーダにおいて、RoPEのような明示的な位置エンコーディングが位置情報の主要な源である一方で、因果マスクも位置情報を提供します。本研究では、因果マスクが、パラメータや入力における因果依存関係がなくても、アテンションスコアに位置依存のパターンを誘導し得ることを証明します。理論分析によれば、誘導されるアテンションパターンは、一般的な位置エンコーディングの挙動を反映して、近接するクエリとキーのペアを優先する傾向があります。実証分析では、学習済みモデルが同じ挙動を示し、学習されたパラメータがこれらのパターンをさらに増幅することが確認されました。特に、因果マスクとRoPEの相互作用が、RoPEの相対的アテンションスコアパターンを非相対的なものに歪めることがわかりました。この効果は現代の大規模言語モデルにおいて一貫して観察され、明示的な位置エンコーディングと並んで、因果マスクを位置情報の源として考慮することの重要性を示唆しています。
LLM(大規模言語モデル)による評価ベンチマークは、複雑なモデルの振る舞いを評価するためにますます使用されていますが、その設計には従来のグラウンドトゥルースに基づくベンチマークにはない失敗モードが存在します。我々は、厳密な目的と検証可能な構成がなければ、ベンチマークのランキングは実際にはほとんどノイズである高信頼度のランキングを生み出す可能性があると主張します。これらの問題を診断するために、2つのメカニズムを導入します。スキーマ遵守度は、評価者の全体的な判断が明示的な評価スキーマによってどの程度説明されるかを定量化し、評価者が自身のルーブリックから逸脱した際の説明不能な分散を明らかにします。心理測定学的妥当性は、内部一貫性と弁別的妥当性の信号を集約し、ベンチマーク実行における不可避の不確実性を定量化します。これらのツールをArena-Hard Autoに適用した結果、人気のある評価者間で深刻なスキーマの不整合と因子の崩壊が見られました。例えば、DeepSeek-R1-32Bでは説明不能な分散が90%を超え、ほとんどの基準で因子相関が0.93以上でした。また、Arena-Hard Autoで使用されているELOスタイルの集約が、真のランキングの不確実性を崩壊させ、隠蔽していることも示しました。我々の結果は、妥当性を損なう設計上の失敗を強調し、より適切に範囲を定めた信頼性を意識したLLM評価ベンチマークを構築するための実践的な原則を提供します。コードはhttps://anonymous.4open.science/r/judgment-to-noise-947D/README.mdで公開しています。
レイアウトから画像生成の分野では着実な進展が見られるものの、現行の手法はバウンディングボックス間の重なりが大きいレイアウトに対して依然として苦戦しています。私たちは、この問題における2つの主要な課題を特定しました:(1) 大きな重なり領域と、(2) 意味的な区別が最小限の重なりインスタンスです。定性的な事例と定量的な分析を通じて、これらの要因が生成品質をどのように低下させるかを実証します。この問題を体系的に評価するため、重なりバウンディングボックスの複雑さを定量化する新しい指標であるOverLayScoreを導入しました。私たちの分析により、既存のベンチマークがOverLayScore値の低い単純なケースに偏っており、より挑戦的な条件下でのモデル性能の評価においてその有効性が制限されていることが明らかになりました。このギャップを埋めるため、高品質なアノテーションとOverLayScoreの異なるレベルにわたるバランスの取れた分布を特徴とする新しいベンチマーク、OverLayBenchを提案します。さらに、複雑な重なりに対する性能向上に向けた最初のステップとして、キュレーションされたアモーダルマスクデータセットでファインチューニングされたモデル、CreatiLayout-AMを提案します。これらの貢献を通じて、現実的で挑戦的なシナリオ下でのより堅牢なレイアウトから画像生成の基盤を築きます。プロジェクトリンク: https://mlpc-ucsd.github.io/OverLayBench。
ビデオ推論は、マルチモーダル大規模言語モデル(MLLM)にとって重要な能力として浮上しており、モデルが静的な知覚を超えて、複雑なシーンにおける時間的ダイナミクスの一貫した理解に向かうことを要求しています。しかし、既存のMLLMはしばしばプロセスの不整合を示し、最終的な答えが正しい場合でも、中間推論がビデオのダイナミクスから逸脱し、解釈可能性と堅牢性を損なうことがあります。この問題に対処するため、我々はMOSS-ChatVを導入します。これは、動的時間ワーピング(DTW)に基づくプロセス報酬を持つ強化学習フレームワークです。このルールベースの報酬は、推論の軌跡を時間的に根拠のある参照と整合させ、補助的な報酬モデルなしで効率的なプロセス監視を可能にします。さらに、我々は動的状態予測をビデオ推論の重要な尺度として特定し、注釈付き推論軌跡を持つベンチマークMOSS-Videoを構築しました。ここで、トレーニング分割はMOSS-ChatVの微調整に使用され、保持された分割は評価のために予約されています。MOSS-ChatVは、MOSS-Video(テスト)で87.2%を達成し、MVBenchやMMVUなどの一般的なビデオベンチマークでのパフォーマンスを向上させます。このフレームワークは、Qwen2.5-VLやPhi-2を含むさまざまなアーキテクチャで一貫して利得をもたらし、その広範な適用性を確認しています。GPT-4o-as-judgeによる評価はさらに、MOSS-ChatVがより一貫性があり安定した推論軌跡を生成することを示しています。
大規模言語モデル(LLMs)は、自己注意機構の二次的な計算複雑性のため、長い文脈を処理する際に大きな計算上の課題に直面している。入力テキストをより小さな潜在表現にマッピングするソフトな文脈圧縮手法は有望であるものの、実世界での採用は限られている。既存の手法は通常、文脈を単一の単位として圧縮するため、二次的な圧縮複雑性が生じ、重複する文脈を持つクエリ間で計算を再利用することができない。本研究では、実用的な展開を目的としたソフト圧縮手法であるCompLLMを提案する。CompLLMは、文脈を全体的に処理するのではなく、セグメントに分割し、それぞれを独立して圧縮する。このシンプルな設計選択により、効率性(圧縮ステップが文脈長に線形にスケールする)、スケーラビリティ(短いシーケンスで訓練されたモデルが100kトークンの文脈に一般化可能)、再利用性(圧縮されたセグメントをキャッシュし、異なるクエリ間で再利用可能)という3つの重要な特性が得られる。実験結果では、2倍の圧縮率において、長い文脈長ではCompLLMが初回トークンまでの時間(TTFT)を最大4倍高速化し、KVキャッシュサイズを50%削減することが示された。さらに、CompLLMは非圧縮文脈と同等の性能を達成し、非常に長いシーケンスではそれを上回る結果を示し、その有効性と実用性を実証している。
大規模言語モデル(LLMs)の効果は、プロンプトに用いられる推論戦略、すなわち思考スタイルに大きく影響されます。しかし、これらの思考スタイル、モデルアーキテクチャ、およびタスクタイプの相互作用は十分に理解されていません。これを解決するため、我々はStyleBenchを導入しました。これは、多様なタスクとモデルにわたる推論スタイルを体系的に評価するための包括的なベンチマークです。我々は、Chain of Thought(CoT)、Tree of Thought(ToT)、Algorithm of Thought(AoT)、Sketch of Thought(SoT)、Chain-of-Draft(CoD)という5つの代表的な推論スタイルを、5つの推論タスクで評価し、270Mから120Bパラメータまでの主要なファミリー(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi、DeepSeek)に属する15のオープンソースモデルを使用しました。大規模な分析により、単一のスタイルが普遍的に最適であるわけではないことが明らかになりました。戦略の有効性は、モデルの規模とタスクタイプに大きく依存することが示されています。探索ベースの手法(AoT、ToT)はオープンエンドの問題で優れていますが、大規模モデルを必要とし、一方で簡潔なスタイル(SoT、CoD)は明確に定義されたタスクで劇的な効率向上を達成します。さらに、重要な行動パターンを特定しました。小規模モデルは出力指示に従わず、推測に頼ることが多く、推論の堅牢性は規模の関数として現れます。我々の知見は、特定の制約に基づいて最適な推論戦略を選択するための重要なロードマップを提供し、ベンチマークをhttps://github.com/JamesJunyuGuo/Style_Benchでオープンソース化しました。
エンドツーエンド(E2E)ソリューションは、自動運転システムにおける主流のアプローチとして登場し、Vision-Language-Action(VLA)モデルは、Vision-Language Models(VLM)から事前学習されたマルチモーダル知識を活用して複雑な現実世界の環境を解釈し、相互作用する新しいパラダイムを表しています。しかし、これらの手法は、物理的なルールを訓練中に本質的にエンコードするのが難しい模倣学習の制約に依然として縛られています。既存のアプローチは、複雑なルールベースの後処理に依存したり、シミュレーションにほぼ限定された強化学習を採用したり、計算コストの高い勾配計算を必要とする拡散ガイダンスを利用したりすることが多いです。これらの課題に対処するため、我々はReflectDriveを導入します。これは、離散拡散を通じて安全な軌道生成のための反射メカニズムを統合した新しい学習ベースのフレームワークです。まず、2次元の運転空間を離散化してアクションコードブックを構築し、事前学習された拡散言語モデルを微調整して計画タスクに使用できるようにします。我々のアプローチの中核は、勾配計算なしで反復的な自己修正を行う安全意識型の反射メカニズムです。この方法は、多様な運転行動をモデル化するための目標条件付き軌道生成から始まります。これに基づいて、局所探索法を適用して安全でないトークンを特定し、実行可能な解決策を決定し、それらをインペインティングベースの再生成のための安全なアンカーとして使用します。NAVSIMベンチマークで評価されたReflectDriveは、安全クリティカルな軌道生成において大きな利点を示し、自動運転システムのためのスケーラブルで信頼性の高いソリューションを提供します。
我々は、ニューラルモデルが日常音を「聞きながら考える」ことを可能にするフレームワークを提案し、それによって音声分類性能を向上させる。大規模言語モデルの推論能力の最近の進展に触発され、以下の2つの中心的な問いに取り組む:(i) 既存の音声分類パイプラインに「考える」プロセスを組み込むことで、カテゴリ空間での推論を可能にし、性能を向上させるにはどうすればよいか、(ii) 推論とテスト時のスケーリングの両方をサポートする新しいアーキテクチャをゼロから設計できるか。我々は、両方の設定において、提案モデルが分類精度の向上を示すことを実証する。テスト時のスケーリングを活用し、サンプリングされたトレースの数が増加するにつれて一貫した性能向上を観察する。さらに、オープンソースの推論モデルであるGPT-OSS-20BとQwen3-14Bを評価し、これらのモデルがゼロショット推論を可能にする一方で、GPT-2のような凍結された小型モデルの埋め込み行列のみを再学習する軽量アプローチが、数十億パラメータのテキストベース推論モデルの性能を凌駕し得ることを示す。
知覚的最適化は主に忠実度目的関数によって駆動され、これは意味的一貫性と全体的な視覚的リアリズムを強制します。一方、敵対的目的関数は知覚的シャープネスと微細なディテールを強化することで補完的な洗練を提供します。これらの中心的な役割にもかかわらず、最適化目的としての有効性と画像品質評価(IQA)指標としての能力との相関関係は十分に検証されていません。本研究では、体系的な分析を行い、知覚的最適化と評価の間に予期せぬ非対称性が存在することを明らかにしました。IQAで優れた性能を示す忠実度指標が必ずしも知覚的最適化に有効とは限らず、この不一致は敵対的学習下でより顕著に現れます。さらに、識別器は最適化中にアーティファクトを効果的に抑制しますが、その学習済み表現をIQAモデルのバックボーン初期化として再利用した場合の利得は限定的です。この非対称性を超えて、我々の知見は識別器の設計が最適化を形作る上で決定的な役割を果たすことを示しており、パッチレベルや畳み込みアーキテクチャは、従来型やTransformerベースの代替案よりも忠実なディテール再構築を提供します。これらの洞察は、損失関数設計とIQA転移可能性の関連性に対する理解を深め、より原理に基づいた知覚的最適化アプローチへの道を開くものです。
大規模音声言語モデル(LALMs)は、音声タスクにおいて強力なゼロショット能力を示し、音声感情認識(SER)への期待が高まっている。しかし、実世界でのSERの展開では、ソースデータが利用不可能であり、強力なLALMsがAPI経由でのみアクセス可能な場合、ドメインミスマッチの下でしばしば失敗する。そこで、ラベル付けされていないターゲットドメインの音声とAPIのみのLALMが与えられた場合、ターゲットドメインにおいてLALMを上回るように学生モデルを適応させることができるか、という問いを立てる。この目的のために、MI-Fuseを提案する。これは、LALMを補完するためにソースドメインで訓練されたSER分類器を補助教師として用いる、ノイズ除去されたラベル融合フレームワークである。このフレームワークは、両方の教師から複数の確率的予測を引き出し、相互情報量に基づく不確実性によってそれらの平均分布を重み付けし、指数移動平均教師を用いて訓練を安定化する。3つの公開感情データセットと6つのクロスドメイン転送にわたる実験では、一貫した向上が見られ、学生モデルがLALMを上回り、最も強力なベースラインを3.9%上回る結果を示した。このアプローチは、ソースデータを共有することなく、感情認識音声システムを強化し、現実的な適応を可能にする。
本論文では、AIシステムの開発と展開における透明性と説明責任を高めるために設計された新しいフレームワークであるHazard-Aware System Card(HASC)を紹介する。HASCは、既存のモデルカードやシステムカードの概念を基盤とし、AIシステムのセキュリティと安全性の状況を包括的かつ動的に記録することを統合している。このフレームワークは、CVEのような既存のセキュリティ識別子を補完するために、新たなAI Safety Hazard(ASH)IDを含む標準化された識別子システムを提案し、修正された欠陥を明確かつ一貫して伝達することを可能にする。単一のアクセス可能な情報源を提供することで、HASCは開発者や関係者がAIシステムの安全性についてライフサイクル全体を通じてより情報に基づいた意思決定を行うことを可能にする。最後に、提案されたAIシステムカードをISO/IEC 42001:2023規格と比較し、それらがどのように相互補完的に使用されてAIシステムの透明性と説明責任をさらに高めることができるかについて議論する。
憎悪表現の検出は、困難でありながら重要な課題である。機械学習モデルなどの自動化ツールは有用であるが、ソーシャルメディアの絶えず変化する状況に適応するためには継続的なトレーニングが必要となる。本研究では、8つのオープンソース大規模言語モデル(LLM)が反ユダヤ主義的コンテンツを検出する能力を評価し、特に文脈内定義を政策ガイドラインとして活用する。さまざまなプロンプト手法を探り、新たなCoT(Chain-of-Thought)風プロンプトであるGuided-CoTを設計する。Guided-CoTは、文脈内の政策をうまく扱い、デコード設定、モデルサイズ、または推論能力に関係なく、すべての評価対象モデルで性能を向上させる。特に、Llama 3.1 70Bは、ファインチューニングされたGPT-3.5を上回る性能を示す。さらに、LLMのエラーを検証し、モデルが生成する根拠における意味論的な乖離を定量化するための指標を導入し、LLM間の顕著な違いと逆説的な振る舞いを明らかにする。我々の実験は、LLMの有用性、説明可能性、信頼性において観察される違いを強調する。