HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

41 papers found

PaperBanana: AI科学者のための学術図表作成自動化
PaperBanana: Automating Academic Illustration for AI Scientists

Jan 30

ByDawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon

201

言語モデルによって駆動される自律的なAIサイエンティストの急速な進展にもかかわらず、論文掲載レベルの図表作成は研究ワークフローにおいて依然として人手を要するボトルネックとなっている。この負担を軽減するため、我々は論文掲載レベルの学術図表を自動生成するエージェントフレームワーク「PaperBanana」を提案する。最先端の視覚言語モデルと画像生成モデルを活用し、PaperBananaは参照文献の収集、内容とスタイルの計画、画像のレンダリング、自己批判による反復的な改良を専門エージェントが協調して実行する。本フレームワークを厳密に評価するため、NeurIPS 2025の論文から収集した方法論図表292テストケースから成る「PaperBananaBench」を構築した。これらは多様な研究領域と図表スタイルを網羅している。包括的な実験により、PaperBananaが忠実性、簡潔性、可読性、審美性の全ての指標で主要なベースライン手法を一貫して上回ることを実証した。さらに本手法が高品質な統計プロットの生成にも有効に適用可能であることを示す。総合的に、PaperBananaは論文掲載レベルの図表の自動生成への道を開くものである。

Golden Goose: 検証不可能なインターネットテキストから無限のRLVRタスクを合成するシンプルな手法
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Jan 30

ByXiming Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi

105

検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデル（LLM）における複雑な推論能力を解放する基盤技術となっている。しかし、RLのスケーリングは既存の検証可能データの不足によって頭打ちとなり、長時間の学習において改善が飽和する傾向がある。この課題を克服するため、我々は**Golden Goose**を提案する。これは、検証不可能なインターネットテキストから無限のRLVRタスクを合成する簡潔な手法であり、文中穴埋めタスクを多肢選択式質問応答形式に変換する。具体的には、原文を与えてLLMに重要な推論ステップの特定とマスキングを促し、多様で説得力のある誤答選択肢を生成する。これにより、従来のRLVRデータ構築では除外されてきた推論豊富な検証不能コーパス（例：科学教科書）を活用し、数学・プログラミング・一般科学領域にわたる70万以上のタスクからなる大規模RLVRデータセット**GooseReason-0.7M**を構築した。実験では、既存RLVRデータで飽和したモデルがGooseReasonによって再び性能向上し、連続的なRL下で堅牢かつ持続的な改善を示し、1.5B/4B-Instructモデルにおいて15の多様なベンチマークで新たな最高精度を達成した。最後に、Golden Gooseを現実環境に適用し、サイバーセキュリティ領域ではRLVRデータが存在しない生のFineWebスクレイプからRLVRタスクを合成した。生成データ**GooseReason-Cyber**でQwen3-4B-Instructを学習させた結果、ドメイン特化的な事前学習と事後学習を施した7Bモデルを凌駕し、サイバーセキュリティ領域で新たな最高性能を樹立した。これは、豊富に存在する推論豊かな検証不能なインターネットテキストを活用することでRLVRデータを自動的に拡張する可能性を示唆している。

ASTRA: エージェント軌道と強化学習環境の自動合成
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Jan 29

ByXiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu

大規模言語モデル（LLM）は、ツール拡張エージェントとして多段階意思決定に活用される機会が増えているが、ロバストなツール利用エージェントの訓練は依然として課題である。既存手法では、手動介入が必要であったり、検証不可能なシミュレーション環境に依存したり、教師ありファインチューニング（SFT）または強化学習（RL）のいずれかに偏重していたり、長期的で多段階の学習を安定して行うことが困難であったりする。これらの課題に対処するため、本論文ではASTRAを提案する。これは、スケーラブルなデータ合成と検証可能な強化学習を通じて、ツール拡張言語モデルエージェントを訓練するための完全自動化されたエンドツーエンドのフレームワークである。ASTRAは二つの相補的コンポーネントを統合する。第一に、ツール呼び出しグラフの静的なトポロジーを活用するパイプラインにより、多様で構造的に基礎付けられた軌跡を合成し、広範で転移可能なツール利用能力を付与する。第二に、人間の意味的推論の豊かで合成的なトポロジーを捉える環境合成フレームワークにより、分解された質問応答トレースを独立した、コード実行可能でルール検証可能な環境に変換し、決定論的な多段階RLを可能にする。この手法に基づき、タスク完了と対話効率のバランスを取るために軌跡レベルの報酬を用いてSFTとオンラインRLを統合する、統一的な訓練方法論を開発する。複数のエージェントツール利用ベンチマークにおける実験により、ASTRAで訓練されたモデルは、同規模のモデルにおいて最先端の性能を達成し、コア推論能力を保持しつつクローズドソースシステムに迫る性能を示す。すべてのパイプライン、環境、訓練済みモデルをhttps://github.com/LianjiaTech/astra で公開する。

Quartet II: 改良された不偏勾配推定によるNVFP4における高精度LLM事前学習
Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation

Jan 30

ByAndrei Panferov, Erik Schultheis, Soroush Tabesh, Dan Alistarh

NVIDIA Blackwell GPUでハードウェアサポートされるNVFP4低精度フォーマットは、LLMのような大規模モデルのエンドツーエンド完全量子化事前学習を初めて実現する可能性を秘めています。しかし、既存の量子化学習手法では、確率的丸め（SR）による正確な不偏量子化勾配推定を優先するため、このフォーマットの表現能力の一部を犠牲にしており、標準的なFP16やFP8学習に比べて顕著な精度低下が生じています。本論文では、SRよりも2倍以上低い量子化誤差を実現するマイクロスケールフォーマット向けの新規不偏量子化手法「MS-EDEN」を提案し、NVFP4量子化学習の最先端を改善します。これを線形層向けの新規完全NVFP4量子化スキーム「Quartet II」に統合します。理論解析により、Quartet IIが順方向・逆方向伝播の両方における主要な行列乗算全体で、一貫して優れた勾配推定を達成することを示します。さらに、本提案はNVFP4向けの最近の学習改善手法とも良好に連携します。1.9Bパラメータ・38Bトークン規模でのLLMエンドツーエンド学習においてQuartet IIを検証し、BF16と比較して最大4.2倍の高速化をNVIDIA Blackwell GPU上で実現するカーネルを提供します。実装はhttps://github.com/IST-DASLab/Quartet-II で公開しています。

THINKSAFE：推論モデルのための自己生成型安全性アライメント
THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Jan 30

BySeanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang

大規模推論モデル（LRM）は、推論タスクに対して強化学習（RL）を適用し、長い連鎖思考（CoT）による推論を生成することで顕著な性能を達成しています。しかし、この過剰な最適化は従順性を優先する傾向があり、モデルを有害なプロンプトに対して脆弱にしています。この安全性の低下を緩和するため、最近のアプローチでは外部の教師モデルによる蒸頼を利用していますが、これには分布の不一致が生じ、本来の推論能力を低下させる問題があります。私たちはThinkSafeを提案します。これは外部の教師を必要とせず、自己生成によるアライメントを実現するフレームワークです。私たちの重要な洞察は、従順性が安全性メカニズムを抑制する一方で、モデルは有害性を識別する潜在的な知識を保持していることが多いという点です。ThinkSafeは軽量な拒否ステアリングによりこの知識を解放し、モデルが分布内の安全性推論トレースを生成するよう導きます。これらの自己生成された応答によるファインチューニングは、分布シフトを最小限に抑えつつ、モデルの効果的な再調整を実現します。DeepSeek-R1-DistillおよびQwen3を用いた実験により、ThinkSafeが推論能力を維持しつつ安全性を大幅に向上させることを示しました。特に、GRPOと比較して優れた安全性と同等の推論性能を達成し、計算コストを大幅に削減しています。コード、モデル、データセットはhttps://github.com/seanie12/ThinkSafe.git で公開されています。

ReGuLaR: レンダリングされた思考連鎖に導かれる変分潜在推論
ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Jan 30

ByFanmeng Wang, Haotian Liu, Guojiang Zhao, Hongteng Xu, Zhifeng Gao

Chain-of-Thought（CoT）は大規模言語モデル（LLM）の性能を大幅に向上させるが、明示的な推論チェーンは計算上の大幅な冗長性を導入する。近年の潜在推論手法は、推論プロセスを潜在空間に圧縮することでこの問題の緩和を試みているが、適切な圧縮ガイダンスの欠如により、性能が大幅に低下するケースが多かった。本研究では、この問題を解決するシンプルかつ新奇な潜在学習パラダイムである、Rendered CoT-Guided variational Latent Reasoning（ReGuLaR）を提案する。本質的には、変分オートエンコーダ（VAE）フレームワーク内で潜在推論を定式化し、過去の状態を条件とした事後分布から現在の潜在推論状態をサンプリングする。具体的には、この変分潜在推論モデルを学習する際、明示的な推論チェーンを画像としてレンダリングし、そこから密な視覚的・意味的表現を抽出して事後分布を正則化することで、情報損失を最小限に抑えた効率的な圧縮を実現する。大規模な実験により、ReGuLaRが計算効率と推論効果の両面で既存の潜在推論手法を大幅に上回り、マルチモーダル推論を通じてCoTをも凌駕することを実証し、潜在推論に対する新たで洞察に富む解決策を提供する。コード：https://github.com/FanmengWang/ReGuLaR。

TTCS: 自己進化のためのテスト時カリキュラム合成
TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Jan 30

ByChengyi Yang, Zhishang Xiang, Yunbo Tang, Zongpei Teng, Chengsong Huang, Fei Long, Yuhan Liu, Jinsong Su

テストタイムトレーニングは、テスト問題のみを用いてモデルを適応させることで、大規模言語モデル（LLM）の推論能力を向上させる有望な手法です。しかし、既存の手法は困難な推論問題に対して二つの理由で苦戦しています。第一に、生のテスト問題は難しすぎて高品質な擬似ラベルを生成できず、第二に、テストセットの限られたサイズが連続的なオンライン更新の不安定性を招くためです。これらの課題を解決するため、我々は共進化型テストタイムトレーニングフレームワークであるTTCSを提案します。具体的には、TTCSは同一の事前学習モデルから二つのポリシーを初期化します。質問合成器と推論ソルバーです。これらのポリシーは反復最適化を通じて進化します。合成器はテスト問題を条件として次第に難易度が上がる問題バリアントを生成し、ソルバーの現在の能力に合わせた構造化カリキュラムを構築します。一方、ソルバーは元のテスト問題と合成問題の両方に対して複数の応答をサンプリングし、自己一貫性報酬に基づいて自己更新します。重要な点は、ソルバーのフィードバックが合成器を導き、モデルの現在の能力に沿った問題生成を実現することです。また、生成された問題バリアントはソルバーのテストタイムトレーニングを安定化させます。実験結果から、TTCSが困難な数学的ベンチマークにおける推論能力を一貫して強化し、異なるLLMバックボーンに跨る一般領域タスクへ転移可能であることが示され、自己進化のためのテストタイムカリキュラムを動的に構築するスケーラブルな道筋が明らかになりました。実装コードと詳細はhttps://github.com/XMUDeepLIT/TTCSで公開しています。

ロボット制御のための因果的世界モデリング
Causal World Modeling for Robot Control

Jan 29

ByLin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu

本研究は、映像世界モデリングが視覚言語事前学習と並んで、ロボット学習における新たな独立した基盤を構築することを示す。直感的には、映像世界モデルは、行動と視覚的ダイナミクス間の因果関係を理解することで近未来を想像する能力を提供する。この着想に基づき、フレーム予測と政策実行を同時に学習する自己回帰型拡散フレームワーク「LingBot-VA」を提案する。本モデルは3つの精巧な設計を特徴とする：(1) Mixture-of-Transformers (MoT) アーキテクチャによる視覚トークンと行動トークンを統合した共有潜在空間、(2) 実観測値に基づく環境フィードバックを継続的に取得可能な閉ループ・ロールアウト機構、(3) 効率的な制御を実現するため行動予測とモーター実行を並列化する非同期推論パイプライン。シミュレーションベンチマークと実世界環境での評価により、本モデルが長期マニピュレーション、学習後データ効率、新規設定への強力な一般化能力において顕著な可能性を示すことを確認した。コードとモデルはコミュニティの発展のため公開する。

MemOCR: 効率的な長文脈推論のためのレイアウト認識視覚メモリ
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Jan 29

ByYaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang

長期的なエージェント推論では、増大する対話履歴を限られたコンテキストウィンドウ内に効果的に圧縮する必要がある。既存のメモリシステムの多くは履歴をテキストとして直列化するが、トークン単位のコストが均一で長さに比例して増加するため、貴重な予算が低価値な詳細に費やされがちである。この課題に対し、我々は視覚的レイアウトを通じて情報密度を適応的に調整し、厳しいコンテキスト制約下での長期的推論を改善するマルチモーダルメモリエージェント「MemOCR」を提案する。具体的には、MemOCRは構造化されたリッチテキストメモリ（見出しや強調表示など）を維持し、それを画像としてレンダリングしてエージェントが参照する。これにより、重要な証拠を視覚的に優先しつつ、補助的詳細を積極的に圧縮する。様々なメモリ予算への頑健性を確保するため、強化学習を用いてエージェントを多様な圧縮レベルに曝す予算考慮型目標でMemOCRを訓練する。長文脈マルチホップおよびシングルホップ質問応答ベンチマークにおいて、MemOCRは強力なテキストベースラインを上回り、極端な予算制約下でもより効果的なコンテキスト利用を実現した。

推論モデルは埋め込みモデルを強化するか？
Do Reasoning Models Enhance Embedding Models?

Jan 29

ByWun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song

最先端の埋め込みモデルは、対照学習によって適応されたデコーダのみの大規模言語モデル（LLM）バックボーンから派生するケースが増えています。検証可能な報酬を用いた強化学習（RLVR）で訓練された推論モデルの登場を受けて、自然に湧き上がる疑問は、これらのモデルを埋め込み初期化として用いた場合、強化された推論能力は優れた意味表現に変換されるのか、ということです。予想に反し、MTEBとBRIGHTでの評価結果は**効果なし**という結論を示しています：RLVRで調整されたバックボーンから初期化された埋め込みモデルは、同一の訓練レシピを適用した場合、そのベースモデルと比べて一貫した性能優位性をもたらしません。このパラドックスを解明するため、我々は**H**ierarchical **R**epresentation **S**imilarity **A**nalysis（HRSA）を提案します。これは表現、幾何学、機能の各レベルで類似性を分解するフレームワークです。HRSAが明らかにしたところによれば、RLVRは潜在多様体の局所幾何学構造に不可逆的な再編成と可逆的な座標基底のドリフトを引き起こすものの、大域的な多様体の幾何学構造と線形読み出し機能は保存されます。その結果、後続の対照学習により、ベースモデルと推論初期化モデルとの間で強力な調整が促進され、我々が**多様体再調整**と呼ぶ現象が生じます。実証的には、教師ありファインチューニング（SFT）とは異なり、RLVRは意味的景観そのものを根本的に再構築するのではなく、既存の景観内で軌道を最適化することを示唆しています。

大規模言語モデルにおけるベストオブNサンプリング下での敵対的リスクの統計的推定
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Jan 30

ByMingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao

大規模言語モデル（LLM）の安全性評価は、通常シングルショットまたは低予算の敵対的プロンプト条件下で実施されるが、これは実世界のリスクを過小評価している。実際には、攻撃者は大規模並列サンプリングを悪用し、有害な応答が生成されるまでモデルを繰り返し probing することが可能である。最近の研究では攻撃成功率が反復サンプリングとともに上昇することが示されているものの、大規模敵対的リスクを予測する原理的な手法は依然として限られている。本論文では、Best-of-N サンプリング下でのジャイルブレイク脆弱性をモデル化するため、スケーリングを考慮したリスク推定手法 SABER（Scaling-Aware Best-of-N Estimation of Risk）を提案する。我々はベータ分布（ベルヌーイ分布の共役事前分布）を用いてサンプルレベルの成功確率をモデル化し、小規模予算での測定値から大規模Nにおける攻撃成功率を信頼性高く外挿可能な解析的スケーリング則を導出する。n=100のサンプルのみを用いて、我々の anchored estimator は ASR@1000 を平均絶対誤差1.66で予測し、ベースラインの誤差12.04と比較して推定誤差を86.2%削減した。結果はリスクスケーリングプロファイルの不均一性を明らかにし、標準評価下では堅牢に見えるモデルが並列敵対的圧力下では急速な非線形のリスク増幅を経験し得ることを示す。本研究は現実的なLLM安全性評価のための低コストでスケーラブルな方法論を提供する。今後の研究に資するため、論文公開時にコードと評価スクリプトを公開する予定である。

FourierSampler: 周波数誘導生成による拡散言語モデルの非自己回帰的潜在能力の解放
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Jan 30

BySiyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu

拡散言語モデル（dLLM）の非自己回帰的潜在能力にもかかわらず、既存のデコード戦略は位置バイアスを示し、任意生成の可能性を十分に引き出せていない。本研究では、dLLMの内在的なスペクトル特性を探求し、隠れ状態における低周波成分が主に大域的な構造情報と長距離依存関係を符号化し、高周波成分が局所的な詳細の特徴付けを担うことを示す初の周波数領域解析を提示する。この知見に基づき、周波数領域スライディングウィンドウ機構を活用して「構造から詳細へ」の生成を動的に誘導するFourierSamplerを提案する。FourierSamplerはLLADAとSDARにおいて他の推論強化戦略を上回り、LLaDA1.5-8Bで20.4%、LLaDA-8B-Instructで16.0%の相対的改善を達成した。特にLlama3.1-8B-Instructなど同規模の自己回帰モデルを顕著に凌駕する結果を示した。

PaddleOCR-VL-1.5：実環境文書解析のためのマルチタスク0.9B VLMを目指して
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Jan 29

ByCheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma

PaddleOCR-VL-1.5を紹介する。本モデルはOmniDocBench v1.5において94.5%の新たなSOTA精度を達成した。スキャン、傾斜、歪み、画面撮影、照明変化といった実世界の物理的歪みに対する頑健性を厳密に評価するため、Real5-OmniDocBenchベンチマークを新たに提案する。実験結果により、拡張されたモデルがこの新規ベンチマークにおいてSOTA性能を達成することが実証された。さらに、印鑑認識とテキストスポッティングタスクを統合することでモデルの機能を拡張しつつ、0.9Bパラメータの超コンパクトなVLMとして高い効率性を維持している。コードはhttps://github.com/PaddlePaddle/PaddleOCRで公開されている。

DenseGRPO：フローマッチングモデルアライメントのためのスパース報酬から高密度報酬へ
DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Jan 28

ByHaoyou Deng, Keyu Yan, Chaojie Mao, Xiang Wang, Yu Liu, Changxin Gao, Nong Sang

近年、フローマッチングモデルを基盤としたGRPOベースのアプローチは、テキストから画像への生成における人間の嗜好への適合性で顕著な改善を示している。しかしながら、これらの手法は依然としてスパース報酬問題に悩まされている。つまり、全体的な脱ノイズ軌道の終端報酬が全ての中間ステップに適用されるため、大域的なフィードバック信号と各脱ノイズステップにおけるきめ細かい貢献度との間に不一致が生じる。この問題を解決するため、我々はDenseGRPOを提案する。これは各脱ノイズステップの細粒度な貢献度を評価する、密な報酬を用いて人間の嗜好に適合させる新規フレームワークである。具体的には、本手法は以下の2つの主要コンポーネントを含む。(1) 各脱ノイズステップのステップ単位の報酬増分を密報酬として予測することを提案し、ODEベースのアプローチにより中間クリーン画像に対して報酬モデルを適用する。この方法はフィードバック信号と個々のステップの貢献度との整合性を保証し、効果的な学習を促進する。(2) 推定された密報酬に基づき、既存のGRPOベース手法における均一探索設定と時間変動するノイズ強度との間の不一致問題を明らかにし、不適切な探索空間が導かれることを示す。そこで我々は、SDEサンプラーにおいて時刻特異的な確率的摂動を適応的に調整することで探索空間を較正する報酬認識スキームを提案し、全てのタイムステップで適切な探索空間を保証する。複数の標準ベンチマークにおける大規模な実験により、提案するDenseGRPOの有効性が実証され、フローマッチングモデルの適合において有効な密報酬が決定的に重要であることが明らかになった。

DINO-SAE: 高忠実度画像再構成と生成のためのDINO球面オートエンコーダ
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Jan 30

ByHun Chang, Byunghee Cha, Jong Chul Ye

近年、DINOのような事前学習済み視覚基盤モデル（VFM）を生成的オートエンコーダに応用する研究が進められ、優れた生成性能が示されている。しかし、既存の手法では高周波詳細の喪失により、再構成の忠実性が制限されることが多い。本研究では、意味表現とピクセルレベルの再構成を橋渡しするフレームワークであるDINO球面オートエンコーダ（DINO-SAE）を提案する。我々の重要な知見は、対比学習による表現における意味情報は主に特徴ベクトルの方向に符号化されており、厳密な大きさの一致を強制することが、エンコーダによる微細な詳細の保存を妨げる可能性があることである。この問題に対処するため、局所的な構造とテクスチャの保存を強化する階層的畳み込みパッチ埋め込みモジュールと、意味的一貫性を保ちつつ詳細保持のための特徴量の大きさの柔軟性を許容するコサイン類似度アライメント目標関数を導入する。さらに、自己教師あり学習に基づく基盤モデルの表現が本質的に超球面上に存在するという観察を活用し、この球面潜在多様体上で直接Diffusion Transformer（DiT）を学習するためにリーマン流れマッチングを採用する。ImageNet-1Kでの実験により、本手法が事前学習済みVFMとの強い意味的整合性を維持しつつ、0.37のrFIDと26.2 dBのPSNRという状態-of-the-artの再構成品質を達成することを実証する。特に、リーマン流れマッチングに基づく我々のDiTは効率的な収束を示し、80エポックで3.47のgFIDを達成した。

DreamActor-M2：時空間インコンテクスト学習による汎用キャラクター画像アニメーション
DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Jan 29

ByMingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao

キャラクター画像アニメーションは、駆動シーケンスからの動きを静止参照画像に転移させることで、高精細なビデオを合成することを目的とする。近年の進展にもかかわらず、既存手法は二つの根本的な課題に直面している：(1) アイデンティティ保存と動きの一貫性の間で「シーソー現象」として現れるトレードオフを生み出す、最適とは言えない動き注入戦略、(2) 複雑なダイナミクスを不十分にしか捉えられず、任意の非ヒューマノイドキャラクターへの汎化を妨げる、明示的な姿勢事前情報（例：骨格）への過度な依存である。これらの課題に対処するため、本論文では動き条件付けをインコンテキスト学習問題として再構築する普遍的なアニメーション枠組み、DreamActor-M2を提案する。我々のアプローチは二段階のパラダイムに従う。まず、参照画像の外観と動きの手がかりを統合された潜在空間に融合することで入力モダリティのギャップを橋渡しし、基盤モデルの生成的事前知識を活用して空間的アイデンティティと時間的ダイナミクスを統合的に推論できるようにする。第二に、擬似的なクロスアイデンティティ学習ペアを生成する自己ブートストラップ型データ合成パイプラインを導入し、姿勢依存の制御から直接的なエンドツーエンドのRGB駆動アニメーションへのシームレスな移行を実現する。この戦略は、多様なキャラクタータイプと動作シナリオにわたる汎化性能を大幅に強化する。包括的評価を可能にするため、我々はさらに、幅広いキャラクタータイプと動作シナリオを網羅する汎用ベンチマークAW Benchを提案する。大規模な実験により、DreamActor-M2が最高水準の性能を達成し、優れた視覚的忠実度とロバストなクロスドメイン汎化を実現することを示す。プロジェクトページ: https://grisoon.github.io/DreamActor-M2/

リアルタイム意味整合報酬モデルの限界を超えて
Real-Time Aligned Reward Model beyond Semantics

Jan 30

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

人間のフィードバックによる強化学習（RLHF）は、大規模言語モデル（LLM）を人間の選好に合わせるための重要な技術である。しかし、報酬の過剰最適化に対して脆弱であり、政策モデルが報酬モデルに過剰適合し、人間の意図を忠実に反映する代わりに表面的な報酬パターンを利用する問題がある。従来の対策は主に表面的な意味情報に依存しており、政策分布の連続的な変化によって生じる報酬モデル（RM）と政策モデルの間の不一致を効果的に解決できていない。これにより、報酬の不一致が拡大し、報酬の過剰最適化が悪化する。こうした課題を解決するため、我々は新しい軽量RLHFフレームワークであるR2M（Real-Time Aligned Reward Model）を提案する。R2Mは、事前学習済みLLMの意味表現のみに依存する従来の報酬モデルを超えて、強化学習プロセスにおける政策の分布変化にリアルタイムで適応するため、政策の隠れ状態（政策フィードバック）を動的に活用する。本研究は、政策モデルからのフィードバックをリアルタイムで活用することで報酬モデルの性能を向上させる新たな方向性を示すものである。

SSL: エージェント最適化における差別化ガイダンスのためのスイートスポット学習
SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Jan 30

ByJinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu

検証可能な報酬を用いた強化学習は、知的エージェントを訓練する強力なパラダイムとして登場した。しかし、既存手法では一般に二値報酬が用いられ、同一の結果を達成する軌道間の質的差異を捉えられず、解空間内の潜在的多様性を見過ごしている。テニスにおける「スイートスポット」概念（最適な打撃効果を生み出すラケットの中心領域）に着想を得て、我々はエージェント最適化に差別化的な指針を提供する新規フレームワーク「Sweet Spot Learning (SSL)」を提案する。SSLは単純かつ効果的な原理に従う：段階的に増幅される階層化報酬が、解空間のスイートスポット領域へ向けて方策を導く。この原理は多様なタスクに自然に適応する：視覚認識タスクでは距離に基づく階層化モデリングにより近接を報酬とし、複雑な推論タスクでは有望な解への漸進的進捗を報酬とする。理論的に、SSLが最適解の順序付けを保存し、勾配の信号対雑音比を改善することで、より方向性のある最適化を促進することを示す。GUI認識、短期/長期計画、複雑な推論タスクにわたる広範な実験により、12のベンチマークで強力なベースラインを一貫して上回る改善が確認され、最大2.5倍のサンプル効率向上と効果的なタスク間転移性を達成した。本研究は、SSLを有能かつ頑健なエージェントを訓練するための普遍的原理として確立する。

DIFFA-2：汎用音声理解のための実用的な拡散大規模言語モデル
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Jan 30

ByJiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin

Qwen-2.5-Omniなどの自己回帰（AR）型大規模音声言語モデル（LALM）は、音声理解と対話において強力な性能を達成しているが、そのスケーリングにはデータと計算コストがかかり、厳密に逐次的な復号は推論効率を制限する。拡散大規模言語モデル（dLLM）は、限られた訓練データを効果的に活用することが最近示されており、DIFFAに関する先行研究は、ARバックボーンを拡散モデルに置き換えることで、大規模な指示チューニング、選好調整、実用的な復号方式を伴わない概念実証規模ではあるが、同等の設定下で音声理解を大幅に改善できることを示している。本論文では、汎用的な音声理解のための実用的な拡散ベースLALMであるDIFFA-2を提案する。DIFFA-2は音声エンコーダを改良し、意味的・音響的デュアルアダプタを採用し、完全にオープンソースのコーパスのみを用いて、意味的・音響的アライメント、大規模教師ありファインチューニング、分散低減型選好最適化を組み合わせた4段階カリキュラムで訓練される。MMSU、MMAU、MMARにおける実験により、DIFFA-2はDIFFAを一貫して上回り、実用的な訓練予算下で強力なAR LALMに対抗できる性能を示し、拡散ベースモデリングが大規模音声理解の有望なバックボーンとなり得ることを支持する。コードはhttps://github.com/NKU-HLT/DIFFA.gitで公開されている。

自然推論の限界を押し広げる：形式論理検証によるインターリーブ報酬
Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

Jan 30

ByChuxue Cao, Jinluan Yang, Haoran Li, Kunhao Pan, Zijian Zhao, Zhengyu Chen, Yuchen Tian, Lijun Wu, Conghui He, Sirui Han, Yike Guo

大規模言語モデル（LLM）は顕著な能力を示す一方で、その確率的な次トークン予測は、形式的記号システムが回避する論理的不整合や報酬ハッキングを生み出す。この隔たりを埋めるため、我々は形式的論理検証誘導型フレームワークを提案する。これは自然言語生成プロセスと形式的記号検証を動的に交互に行い、エラー発生時の検出と修正を可能とするリアルタイムフィードバックを提供する。受動的な事後検証に限定された従来の神経記号手法と異なり、本手法は推論連鎖内で生じる中間段階の誤りを能動的に抑制する。我々はこのフレームワークを、形式的論理検証誘導型教師ありファインチューニングと方策最適化を統合した新しい2段階訓練パイプラインにより実現した。数学的推論、論理的推論、一般推論にわたる6種のベンチマークによる広範な評価において、当該7Bモデルと14Bモデルは既存の最高性能ベースラインを平均でそれぞれ10.4%、14.2%上回った。これらの結果は、形式的検証が先進的LLM推論の性能限界を大幅に拡大するスケーラブルなメカニズムとなり得ることを実証する。

NativeTok: 高品質な画像生成のための視覚的ネイティブトークナイゼーション
NativeTok: Native Visual Tokenization for Improved Image Generation

Jan 30

ByBin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao

VQベースの画像生成は通常、2段階のパイプラインに従う：トークナイザが画像を離散トークンに符号化し、生成モデルがその依存関係を学習して再構築を行う。しかし、第1段階のトークン化が改善されても、既存手法ではトークン間の依存関係に制約を課せないため、第2段階の生成性能が必ずしも向上するわけではない。この不整合により、生成モデルは順序付けられていない分布から学習を強いられ、バイアスや一貫性の弱さを招く。この問題に対処するため、我々はトークン化段階で因果的依存関係を強制する**Native Visual Tokenization**を提案する。この考え方に基づき、トークン列に関係性制約を埋め込みながら効率的な再構築を実現するフレームワーク**NativeTok**を導入する。NativeTokは以下で構成される：(1) 潜在画像モデリングのためのMeta Image Transformer (MIT)、(2) 各軽量エキスパートブロックが先行トークンと潜在特徴を条件として単一トークンを生成するMixture of Causal Expert Transformer (MoCET)。さらに、新規エキスパートブロックのみを更新する階層的ネイティブ学習戦略を設計し、学習効率を確保する。大規模な実験により、NativeTokの有効性を実証する。

堅牢な道具使用の実現：Fission-GRPOによる実行エラーからの回復学習
Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Jan 22

ByZhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong

大規模言語モデル（LLM）はツールを効果的に呼び出せる一方で、マルチターン実行においては依然として脆弱性を抱えている。ツール呼び出しエラー発生後、小規模モデルはしばしば反復的な無効な再呼び出しに陥り、エラーフィードバックを解釈して自己修正することができない。この脆弱性は、ツール相互作用プロセスにおいて実行エラーが本質的に不可避である現実世界での信頼性の高い展開を妨げている。我々は現在のアプローチの重要な限界を特定した。標準的な強化学習（RL）はエラーを疎な負の報酬として扱うため、回復方法に関する指針を提供せず、事前収集された合成誤り修正データセットは、モデルのオンポリシーなエラーモードとの分布ミスマッチに悩まされる。このギャップを埋めるため、我々は実行エラーをRL訓練ループ内で修正的な監督信号に変換するフレームワークであるFission-GRPOを提案する。本手法の中核メカニズムは、微調整されたエラーシミュレータからの診断的フィードバックで失敗した軌道を拡張し、オンポリシーで回復ロールアウトを再サンプリングすることで、各失敗軌道を新しい訓練インスタンスに分割する。これにより、モデルは静的な事前収集エラー事例からではなく、探索中に発生した正確なエラーから学習することが可能となる。BFCL v4マルチターン環境において、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%絶対値で改善し、決定的に、GRPOに対し4%の総合精度向上（42.75%から46.75%）をもたらし、専門的なツール利用エージェントを上回る性能を示した。

TAM-Eval: 自動単体テストメンテナンスのための大規模言語モデル評価
TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Jan 26

ByElena Bruches, Vadim Alperovich, Dari Baturova, Roman Derunets, Daniil Grebenkin, Georgy Mkrtchyan, Oleg Sedukhin, Mikhail Klementev, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

大規模言語モデル（LLM）はソフトウェア工学において有望な成果を示しているものの、単体テストへの応用は、主に独立したテスト生成やオラクル予測に限定されており、テストスイートメンテナンスというより広範な課題が軽視されてきた。本論文では、テストスイートの作成、修復、更新という3つの核心的なテストメンテナンスシナリオにわたるモデルの性能を評価するためのフレームワーク兼ベンチマークであるTAM-Eval（Test Automated Maintenance Evaluation）を提案する。関数レベルのタスクに限定された従来研究とは異なり、TAM-Evalはテストファイルレベルで動作し、独立評価中もリポジトリ全体のコンテキストへのアクセスを維持することで、実世界のメンテナンスワークフローをより忠実に反映する。我々のベンチマークは、Python、Java、Goプロジェクトから自動抽出され検証された1,539のシナリオで構成される。TAM-Evalは、テストスイートの合格率、コードカバレッジ、突然変異テストに基づく参照不要のプロトコルを用いて、生のLLMとエージェント型ワークフローの両方に対するシステム非依存の評価をサポートする。実証実験の結果、最先端のLLMであっても現実的なテストメンテナンスプロセスにおける能力は限定的であり、テスト効果の向上は僅かであることが示された。自動ソフトウェアテストの将来研究を支援するため、TAM-Evalをオープンソースフレームワークとして公開する。データとコードはhttps://github.com/trndcenter/TAM-Eval で公開されている。

RM-RF: ランタイムフリーな単体テスト評価のための報酬モデル
RM -RF: Reward Model for Run-Free Unit Test Evaluation

Jan 19

ByElena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

本論文では、自動生成された単体テストを実行フリーで評価する軽量な報酬モデルRM-RFを提案する。RM-RFは、候補となるテストを繰り返しコンパイル・実行する代わりに、ソースコードとテストコードのみから、以下の3つの実行由来シグナルを予測する：(1) 拡張されたテストスイートが正常にコンパイル・実行されるか、(2) 生成されたテストケースがコードカバレッジを向上させるか、(3) 生成されたテストケースがミューテーション殺傷率を改善するか。RM-RFの学習と評価のために、我々は実行ベースのパイプラインでラベル付けされた焦点ファイル、テストファイル、候補テスト追加からなる多言語（Java、Python、Go）データセットを構築し、比較評価のための関連データセットと方法論を公開する。複数のモデルファミリーとチューニング手法（ゼロショット、フルファインチューニング、LoRAによるPEFT）を検証し、3つのターゲット全体で平均F1スコア0.69を達成した。従来のコンパイル・実行手法と比較して、RM-RFは競争力のある予測精度を維持しつつ、大幅に低いレイテンシとインフラコストを実現し、大規模なテスト生成や強化学習ベースのコード最適化における高速かつスケーラブルなフィードバックを可能にする。

プロセス報酬によるマルチエージェントシステムのスケーリング
Scaling Multiagent Systems with Process Rewards

Jan 30

ByEd Li, Junyu Ren, Cat Yan

マルチエージェントシステムは専門性を活かした複雑タスク解決の可能性を示すが、複数エージェントの同時ファインチューニングには二つの課題がある：(1)エージェント間の信用割り当て、(2)高コストなマルチエージェントロールアウトのサンプル効率である。本研究では、AIフィードバックによる行動単位のプロセス報酬を用いたマルチエージェントシステムのファインチューニング（MAPPA）を提案し、両課題の解決を図る。タスク完了時のみならず個々のエージェント行動に信用割り当てを行うMAPPAは、正解ラベルなしできめ細かい監督を可能にするとともに、各ロールアウトから最大限の訓練信号を抽出する。競技数学問題とツール拡張データ分析タースクで本手法を実証した。未見の数学問題では、AIMEで+5.0～17.5pp、AMCで+7.8～17.2ppの精度向上を達成。データ分析タスクでは成功率が+12.5pp向上し、品質指標は最大30%改善され、行動単位の監督が異なるドメインのマルチエージェントシステム改善に有効であることを確認した。本成果は、人的監督を最小化しつつ複雑な長期タスク向けにマルチエージェントシステムをスケーリングする第一歩となる。

認知神経科学に着想を得た階層的メタ認知モニタリングによる深層検索
Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Jan 30

ByZhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu, Jun Xu

大規模言語モデルを基盤とした深層検索エージェントは、多段階の検索、推論、長期的なタスク実行において優れた能力を示している。しかし、実際の運用における失敗は、不確実性下でタスクが進行する際に、推論状態と検索状態を監視・調整するメカニズムが欠如していることに起因することが多い。認知神経科学からの知見は、人間のメタ認知が階層的に組織化され、高速な異常検出と選択的に発動される経験駆動型の振り返りを統合していることを示唆する。本研究では、明示的な階層的メタ認知監視メカニズムを強化した深層検索フレームワーク「DS-MCM」を提案する。DS-MCMは、外部エビデンスと内部推論の確信度の整合性を軽量にチェックする高速一貫性監視モジュールと、履歴エージェント軌跡から得られた経験記憶に基づいて修正介入を導くために選択的に起動される低速経験駆動型監視モジュールを統合する。監視機能を推論-検索ループに直接埋め込むことで、DS-MCMは介入が必要なタイミングと、過去の経験に基づく修正アクションの判断の両方を決定する。複数の深層検索ベンチマークと基幹モデルを用いた実験により、DS-MCMが性能と頑健性を一貫して向上させることを実証する。

RAPTOR: リッジ適応型ロジスティックプローブ
RAPTOR: Ridge-Adaptive Logistic Probes

Jan 29

ByZiqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding

プロービング（探査）は、固定化された大規模言語モデル（LLM）の層表現にどのような情報が符号化されているかを、その上に軽量な予測器を訓練することで調査する手法です。分析を超えて、プローブは多くの場合、プローブ・アンド・ステア（探査・制御）パイプラインで操作的に使用されます。すなわち、学習された概念ベクトルをプローブから抽出し、加法的な活性化ステアリングによって、順伝播中の層表現に加算することで注入します。このパイプラインの有効性は、正確で、除去操作に対して方向性が安定しており、かつ低コストで取得可能な概念ベクトルを推定できるかどうかにかかっています。これらの要件に動機付けられ、我々はRAPTOR（Ridge-Adaptive Logistic Probe）を提案します。これは、検証データで調整されたリッジ強度によって、正規化された重みから概念ベクトルを生成する、単純なL2正則化ロジスティックプローブです。命令チューニングされたLLMと人手で作成された概念データセットを用いた広範な実験において、RAPTORは精度において強力なベースラインと同等かそれを上回りながら、競争力のある方向安定性と大幅に低い訓練コストを達成しました。これらの定量的な結果は、定性的な下流タスクにおけるステアリングの実証によって支持されています。最後に、凸ガウスミニマックス定理（CGMT）を用いて、高次元少数ショット領域における理想化されたガウシアン教師-生徒モデルにおけるリッジロジスティック回帰の機構的特性を説明し、ペナルティ強度が如何にプローブの精度と概念ベクトルの安定性を媒介するかを解明し、実際のLLM埋め込みで観測される傾向と定性的に一致する構造的予測を導出します。

潜在的思考連鎖による計画立案：推論と言語化の分離
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Jan 29

ByJiecong Wang, Hao Peng, Chunyang Liu

Chain-of-Thought（CoT）は大規模言語モデル（LLM）に複雑な問題への取り組みを可能にするが、離散的なトークン空間に基づく場合、計算コストと推論経路の崩壊によって制約が残る。近年の潜在的推論アプローチは、連続的な隠れ状態内で推論を行うことで効率化を図っている。しかし、これらの手法は通常、明示的な推論ステップから潜在状態への不透明な end-to-end マッピングとして動作し、推論時に事前定義された数の潜在ステップを必要とすることが多い。本研究では、潜在的推論を計画として再定式化するフレームワーク **PLaT（Planning with Latent Thoughts）** を提案する。これは、推論と言語化を根本的に分離するものである。我々は推論を潜在的な計画状態の決定論的軌道としてモデル化し、別個のデコーダがこれらの思考を必要に応じてテキストに接地する。この分離により、モデルは固定されたハイパーパラメータに依存するのではなく、推論を終了するタイミングを動的に決定できる。数学的ベンチマークによる実験結果は、明確なトレードオフを明らかにしている：PLaT はベースラインよりも貪欲法による精度は低いものの、推論の多様性の点で優れたスケーラビリティを示す。これは、PLaT がロバストでより広範な解空間を学習しており、推論時検索のための透明性が高くスケーラブルな基盤を提供することを示唆している。

継続的GUIエージェント
Continual GUI Agents

Jan 28

ByZiwei Liu, Borui Kang, Hangjie Yuan, Zixiang Zhao, Wei Li, Yifan Zhu, Tao Feng

デジタル環境（データ分布）は常に流動的であり、新しいGUIデータが時間とともに到来し、新たなドメインや解像度をもたらすため、静的な環境で学習されたエージェントの性能は劣化する。本研究では、GUIエージェントが変化するドメインや解像度のもとで継続学習を行うことを要求する新たなタスク「Continual GUI Agents」を提案する。既存手法は、流動的なシナリオにおけるUIインタラクションポイントと領域の多様性のため、GUI分布が時間とともに変化するにつれて安定したグラウンディングを維持できないことがわかった。この問題に対処するため、我々はGUI-Anchoring in Flux (GUI-AiF) を提案する。これは、Anchoring Point Reward in Flux (APR-iF) と Anchoring Region Reward in Flux (ARR-iF) という2つの新規報酬を通じて継続学習を安定化させる強化学習ファインチューニングフレームワークである。これらの報酬は、エージェントが変化するインタラクションポイントと領域に適応するよう導き、既存の報酬戦略が静的なグラウンディング手がかり（例：固定座標や要素スケール）に過剰適応する傾向を軽減する。大規模な実験により、GUI-AiFが最先端のベースライン手法を凌駕することを示す。本研究は、GUIエージェントにおける最初の継続学習フレームワークを確立し、継続的GUIエージェントのための強化学習ファインチューニングの未開拓の可能性を明らかにする。

拡散モデルの予測を次元性を通して再検討する
Revisiting Diffusion Model Predictions Through Dimensionality

Jan 29

ByQing Jin, Chaoyang Wang

拡散モデルとフローマッチングモデルにおける最近の進展は、特に高次元設定において、予測ターゲットの優先順位がノイズ（ε）や速度（v）から直接データ（x）の予測へと移行していることを示している。しかし、最適なターゲットがデータの特定の性質に依存する理由についての形式的な説明は未だ確立されていない。本研究では、任意の出力ターゲットを包含する一般化された予測定式化に基づく理論的枠組みを提案する。ここでε予測、v予測、x予測は特殊なケースとなる。データの幾何学的構造と最適な予測ターゲットの間の解析的関係を導出し、周囲の次元がデータの本質的次元を大幅に上回る場合にx予測が優位となる理由を厳密に正当化する。さらに、我々の理論が次元性を最適予測ターゲットの支配的要因と特定する一方で、多様体上に制約されたデータの本質的次元は、実際には推定が一般に困難である。この隔たりを埋めるため、明示的な次元推定を必要とせず、データから直接最適な予測パラメータkを学習するデータ駆動型アプローチを採用するフレームワークk-Diffを提案する。潜在空間及び画素空間における画像生成の大規模な実験により、k-Diffが様々なアーキテクチャとデータ規模にわたって固定ターゲットのベースラインを一貫して上回り、生成性能を向上させる原理的かつ自動化されたアプローチを提供することを実証する。

LMK > CLS: 高密度埋め込みのためのランドマークプーリング
LMK > CLS: Landmark Pooling for Dense Embeddings

Jan 29

ByMeet Doshi, Aashka Trivedi, Vishwajeet Kumar, Parul Awasthy, Yulong Li, Jaydeep Sen, Radu Florian, Sachindra Joshi

表現学習は、検索、クラスタリング、分類、再ランキングなどの多くの下流タスクにおいて中心的な役割を果たしている。最先端のシーケンスエンコーダは通常、プーリング演算子を用いて可変長のトークンシーケンスを単一のベクトルに集約する。最も一般的な方法は、特殊な[CLS]トークンを用いる方法、またはトークン埋め込みの平均プーリングである。本論文では、これらのプーリング戦略の体系的弱点を特定する。[CLS]トークンは情報をシーケンスの前方位置に集中させがちで、分散した証拠を十分に表現できない可能性がある。一方、平均プーリングは顕著な局所的特徴を希薄化し、短い文脈タスクでの性能低下を招くことがある。これらの問題を解決するため、我々はLandmark（LMK）プーリングを提案する。この手法は、シーケンスをチャンクに分割し、チャンク間に目印トークン（Landmark Token）を挿入し、最終的な表現をこれらの目印トークンの埋め込みの平均プーリングによって形成する。この単純なメカニズムは、少数の特殊トークンを追加するコストはあるが、顕著な局所的特徴を犠牲にすることなく、長文脈への外挿性能を向上させる。実験により、LMKプーリングが短文脈の検索タスクでは既存手法と同等の性能を発揮し、長文脈タスクでは大幅な改善をもたらすことを実証する。これにより、LMKプーリングは既存のプーリング手法に対する実用的かつスケーラブルな代替手段となる。

言語モデルにおける知識蒸留の記憶化ダイナミクス
Memorization Dynamics in Knowledge Distillation for Language Models

Jan 21

ByJaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano

知識蒸留（KD）は、大規模言語モデルから小規模モデルへ能力を転送する手法として広く採用されるようになっており、標準的なファインチューニングをしばしば上回る効率性と有用性の向上をもたらす。性能面に加えて、KDは訓練データ漏洩のリスクを軽減するプライバシー保護メカニズムとしても探求されている。訓練データの記憶化については、標準的な事前学習やファインチューニングの設定では広く研究されているが、知識蒸留設定におけるその動態は十分に理解されていない。本研究では、3つの大規模言語モデルファミリー（Pythia、OLMo-2、Qwen-3）と3つのデータセット（FineWeb、Wikitext、Nemotron-CC-v2）を用いて、KDパイプライン全体における記憶化を調査する。我々は以下のことを明らかにした：（1）蒸留モデルは標準的なファインチューニングよりも訓練データの記憶量が著しく少ない（記憶化が50%以上減少）、（2）一部の事例は本質的に記憶化されやすく、蒸留中の記憶化の大部分（約95%以上）を占める、（3）zlibエントロピー、KLダイバージェンス、パープレキシティに基づく特徴量を用いることで、蒸留前でも生徒モデルの記憶化を予測可能である、（4）ソフト蒸留とハード蒸留では全体的な記憶化率は類似しているが、ハード蒸留はより高いリスクを伴う：教師モデルに特異的な事例をソフト蒸留の2.7倍多く継承する。全体として、蒸留は標準的なファインチューニングと比較して、一般化性能の向上と記憶化リスクの低減の両方を実現し得ることを示す。

ExpAlign: オープン語彙グラウンディングのための期待値誘導型視覚言語アラインメント
ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

Jan 30

ByJunyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang

オープンボキャブラリーグラウンディングは弱い教師信号の下での精密な視覚言語アライメントを必要とするが、既存手法は、細粒度の表現力を欠く文全体の埋め込みに依存するか、明示的な教師信号または重いクロスアテンション設計を伴うトークンレベルのアライメントを導入している。本研究では、理論的に基礎付けられた多重インスタンス学習の定式化に基づく視覚言語アライメントフレームワーク、ExpAlignを提案する。ExpAlignは、トークン-領域類似度に対してアテンションに基づくソフトMILプーリングを行うExpectation Alignment Headを導入し、追加のアノテーションなしで暗黙的なトークン及びインスタンス選択を可能にする。アライメント学習をさらに安定化させるため、エネルギー基底のマルチスケール一貫性正則化スキームを開発した。これには、Top-Kマルチポジティブ対照目的関数と、ラグランジュ未定乗数法による自由エネルギー最小化から導出された幾何学的認識一貫性目的関数が含まれる。大規模な実験により、ExpAlignがオープンボキャブラリー物体検出およびゼロショットインスタンスセグメンテーションを一貫して改善し、特にロングテールカテゴリで効果的であることが示された。特に、LVIS minival分割において36.2 AP_rを達成し、同等のモデル規模を持つ他の最先端手法を凌駕するとともに、軽量で推論効率の高い特性を維持している。

Drive-JEPA: 映像JEPAとマルチモーダル軌跡蒸留を統合したエンドツーエンド運転システム
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving

Jan 29

ByLinhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu

エンドツーエンド自律走行では、転移可能な経路計画表現を学習するために自己教師あり動画事前学習がますます活用されている。しかし、シーン理解のための動画世界モデルの事前学習は、これまで限定的な改善しかもたらしていない。この制限は、走行の本質的な曖昧性によってさらに悪化している。各シーンは通常、単一の人間の軌跡しか提供しないため、マルチモーダルな行動を学習することが困難である。本研究では、エンドツーエンド走行のためのVideo Joint-Embedding Predictive Architecture（V-JEPA）とマルチモーダル軌跡蒸留を統合したフレームワークであるDrive-JEPAを提案する。まず、V-JEPAをエンドツーエンド走行に適応させ、大規模な走行動画でViTエンコーダを事前学習し、軌跡計画と整合した予測的表現を生成する。次に、人間の軌跡とともにシミュレータで生成された多様な軌跡を蒸留するプロポーザル中心プランナーを導入し、安定かつ安全な行動を促進するモーメンタムを考慮した選択メカニズムを備える。NAVSIMで評価した場合、V-JEPA表現とシンプルなトランスフォーマーベースのデコーダを組み合わせることで、知覚要素を排除した設定において従来手法を3 PDMS上回った。完全なDrive-JEPAフレームワークは、v1で93.3 PDMS、v2で87.8 EPDMSを達成し、新たなstate-of-the-artを確立した。

ロトのルーティング：異種データに対する適応的サブネットワーク
Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

Jan 29

ByGrzegorz Stefanski, Alberto Presta, Michal Byra

剪枝におけるロータリーチケット仮説は、大規模ネットワークには疎なサブネットワーク（勝ちチケット）が含まれており、これを単独で学習させることで密なネットワークと同等の性能を達成できると提唱する。しかし、既存手法の多くは全ての入力に共通する単一の普遍的な勝ちチケットを想定しており、実世界データが本来有する不均質性を無視している。本研究では、Routing the Lottery (RTL) を提案する。これはクラス・意味的クラスタ・環境条件に応じて特化した複数の適応的チケットを発見する適応的剪枝フレームワークである。多様なデータセットとタスクにおいて、RTLは独立したモデルと比べて最大10倍少ないパラメータ数でありながら、バランス精度と再現率の両方で単一／複数モデルのベースラインを一貫して上回り、意味的整合性を示した。さらに、過度な剪枝条件下での性能急落であるサブネットワーク崩壊を特定し、ラベル不要で過疎化を診断可能なサブネットワーク類似度スコアを導入する。全体として、本成果は剪枝をモデル構造とデータ不均質性の整合を図る仕組みとして再定義し、よりモジュール化され文脈認識的な深層学習への道を開くものである。

SONIC-O1: 音声・映像理解におけるマルチモーダル大規模言語モデル評価のための実世界ベンチマーク
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Jan 29

ByAhmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza

マルチモーダル大規模言語モデル（MLLM）は、近年のAI研究における主要な焦点である。しかし、従来の研究の大半は静的な画像理解に重点を置いており、連続的な音声・動画データを処理する能力については未解明の部分が多い。この隔たりは、実世界の設定においてMLLMの性能を体系的に評価するための高品質なベンチマークの必要性を浮き彫りにしている。本研究では、13の実世界対話ドメインにわたり、4,958件の注釈と人口統計メタデータを備えた、包括的かつ完全に人手検証されたベンチマーク「SONIC-O1」を提案する。SONIC-O1は、自由形式要約、多肢選択式質問（MCQ）応答、および推論根拠を伴う時間的定位といった主要タスクにおいてMLLMを評価する。クローズドソースモデルとオープンソースモデルを用いた実験により、限界が明らかになった。2つのモデル系統間のMCQ正答率における性能差は比較的小さいものの、最良のクローズドソースモデルとオープンソースモデル間では、時間的定位タスクにおいて22.6%という顕著な性能差が観察された。さらに、人口統計グループ間で性能が低下しており、モデル挙動に持続的な格差が存在することが示唆される。総じて、SONIC-O1は時間的基盤を持ち社会的に頑健なマルチモーダル理解のための公開評価スイートを提供する。再現性と研究のためSONIC-O1を公開する：プロジェクトページ：https://vectorinstitute.github.io/sonic-o1/ データセット：https://huggingface.co/datasets/vector-institute/sonic-o1 Github：https://github.com/vectorinstitute/sonic-o1 リーダーボード：https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

KAPSO: 自律的なプログラム合成と最適化のための知識基盤フレームワーク
KAPSO: A Knowledge-grounded framework for Autonomous Program Synthesis and Optimization

Jan 29

ByAlireza Nadaf, Alireza Mohammadshahi, Majid Yazdani

我々は、自律的なプログラム合成と最適化のためのモジュール型フレームワーク「KAPSO」を提案する。自然言語で記述された目標と評価手法が与えられると、KAPSOはアイデア創出、コード合成と編集、実行、評価、学習を反復的に実行し、測定可能な目標に向けて実行可能な成果物を改善する。KAPSOは合成を終点と見なすのではなく、長期的な最適化ループ内の演算子として活用し、進捗は評価器の結果によって定義される。 KAPSOは、実験状態の喪失、脆弱なデバッグ、領域専門知識の弱い再利用など、コーディングエージェントに共通する長期的な失敗課題に対処するため、密結合した3つのコンポーネントを統合する。第一に、gitネイティブな実験エンジンは各試行をブランチとして隔離し、再現可能な成果物を生成するとともに反復間での由来情報を保持する。第二に、知識システムはリポジトリ、内部プレイブック、ドキュメント、科学論文、ウェブ検索結果など様々な情報源を取り込み、ワークフロー、実装、環境制約にわたる検索をサポートする構造化表現へ整理する。第三に、認知メモリ層は検索を調整し、実験トレース（実行ログ、差分、評価器フィードバック）から抽出した再利用可能な教訓をエピソード記憶として維持することで、誤りの反復を減少させ収束を加速する。 KAPSOをMLE-Bench（Kaggle形式の機械学習コンペティション）とALE-Bench（AtCoderヒューリスティック最適化）で評価し、エンドツーエンドの性能を報告する。コードは以下で公開: https://github.com/Leeroo-AI/kapso

注意力パターンが存在する理由：統合的時間視点からの分析
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Jan 29

ByQingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li

大規模言語モデル（LLM）の学習と推論の両方において、アテンションパターンは重要な役割を果たす。従来の研究では、検索ヘッド、シンクヘッド、対角線トレースといった個々のパターンが特定されてきたが、これらの知見は断片的であり、統一的な説明を欠いていた。この隔たりを埋めるため、我々は時間的連続性の観点から基礎となる数学的定式化を分析することで多様なアテンションパターンを説明する統一フレームワーク、Temporal Attention Pattern Predictability Analysis (TAPPA) を提案する。TAPPAはアテンションの振る舞いへの理解を深めるだけでなく、推論高速化手法の指針ともなる。具体的には、TAPPAはアテンションパターンを、明確な規則性を持つ「予測可能なパターン」と、実質的にランダムに見える「予測不可能なパターン」として特徴づける。我々の分析はさらに、この区別が時間次元に沿ったクエリの自己相似性の度合いによって説明できることを明らかにする。予測可能なパターンに焦点を当て、クエリ、キー、および Rotary Positional Embeddings (RoPE) の共同効果を通じて、3つの代表的なケースに関する詳細な数学的分析をさらに提供する。我々は、TAPPAの知見をKVキャッシュ圧縮およびLLMプルーニングタスクに適用することでその有効性を検証する。これらのタスクにおいて、TAPPAに基づく単純な指標は、ベースライン手法を一貫して上回る性能向上をもたらした。コードは https://github.com/MIRALab-USTC/LLM-TAPPA で公開されている。

視覚的個人化チューリングテスト
Visual Personalization Turing Test

Jan 30

ByRameen Abdal, James Burgess, Sergey Tulyakov, Kuan-Chieh Jackson Wang

我々は、視覚的コンテキストに基づくパーソナライゼーションを評価する新しい枠組みとして、Visual Personalization Turing Test（VPTT）を提案する。VPTTは、同一性の複製ではなく、知覚的な識別不可能性に基づいて評価を行う。ある人物が作成または共有する可能性が高いコンテンツと、モデルが生成した出力（画像、動画、3Dアセット等）とが、人間または較正済みVLM評価者によって識別不能である場合、そのモデルはVPTTを通過したとみなされる。VPTTを実践的に運用するため、1万人分の人物ベンチマーク（VPTT-Bench）、視覚的検索拡張生成器（VPRAG）、そして人間とVLMの判定に較正されたテキストのみの評価指標であるVPTTスコアを統合したVPTTフレームワークを構築した。人間評価、VLM評価、VPTT評価の間に高い相関が確認され、VPTTスコアが信頼性の高い知覚的代理指標として有効であることが検証された。実験の結果、VPRAGはパーソナライゼーションの忠実度と独創性の最適なバランスを達成し、拡張性が高くプライバシー保護的なパーソナライズド生成AIの基盤を提供することが実証された。

エネルギー効率を考慮したスケジューリングのための機械学習
Machine Learning for Energy-Performance-aware Scheduling

Jan 30

ByZheyuan Hu, Yifei Shi

ポスト・デナード時代において、組込みシステムの最適化には、エネルギー効率とレイテンシの間の複雑なトレードオフの調整が不可欠である。従来のヒューリスティックなチューニング手法は、このような高次元で非平滑な設計空間では非効率的になりがちである。本研究では、ガウス過程を用いたベイズ最適化フレームワークを提案し、異種マルチコアアーキテクチャにおける最適なスケジューリング設定の探索を自動化する。エネルギーと実行時間のパレートフロンティアを近似することで、問題の多目的性を明示的に扱う。さらに、感度分析（fANOVA）の導入と異なる共分散カーネル（MatérnカーネルとRBFカーネルなど）の比較を通じて、ブラックボックスモデルに物理的な解釈性を与え、システム性能を支配する主要なハードウェアパラメータを明らかにする。

下流フィードバックを活用した価値ベース事前学習
Value-Based Pre-Training with Downstream Feedback

Jan 29

ByShuqi Ke, Giulia Fanti

少量の検証済み目標情報によって、高価な基盤モデルの自己教師あり事前学習を方向付けることは可能か？標準的な事前学習は固定の代理目的（例えば次トークン予測）を最適化するが、これは下流タスクで必要とされる能力から計算資源を誤って配分する可能性がある。本論文ではV-Pretrainingを提案する：軽量なタスク設計器が各勾配ステップの価値を最大化するように事前学習タスクを再形成する、価値ベースのモダリティ非依存の制御継続事前学習手法である。例えば、サンプル拡張を用いた自己教師あり学習（SSL）を考える。V-Pretrainingのタスク設計器は、事前学習損失勾配が下流タスク（例：画像セグメンテーション）で計算された勾配と整合する事前学習タスク（例：データ拡張手法）を選択する。これにより、関連する下流能力に向けた事前学習の方向付けが可能となる。特筆すべきは、事前学習モデルは下流タスクのラベルで更新されることはなく、それらは事前学習タスクの形成にのみ利用される点である。同等の学習更新予算条件下で、0.5B-7B規模の言語モデルに対するV-Pretrainingは、GSM8K訓練例の僅か12%をフィードバックとして用いるだけで、標準的な次トークン予測と比較して推論能力（GSM8KテストPass@1）を最大18%相対改善した。視覚SSLでは、ADE20Kにおける最新技術結果を最大1.07 mIoU改善し、NYUv2 RMSEを低減すると同時にImageNet線形精度を向上させ、継続事前学習におけるトークン効率改善の予備的証拠を提供する。