HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

18 papers found

LongCat-Flash-Thinking-2601 技術報告書
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

我々は「LongCat-Flash-Thinking-2601」を紹介する。これは5600億パラメータのオープンソース混合専門家（MoE）推論モデルであり、優れたエージェント推論能力を備えている。本モデルは、エージェント検索、エージェント的ツール使用、ツール統合推論を含む幅広いエージェントベンチマークにおいて、オープンソースモデルの中で最先端の性能を達成する。ベンチマーク性能を超えて、複雑なツール相互作用への強い一般化能力と、ノイズの多い実世界環境下でのロバストな動作を実証している。この高度な能力は、ドメイン並列専門家訓練と後続の融合を組み合わせた統合訓練フレームワーク、および事前学習から事後学習にわたるデータ構築・環境・アルゴリズム・インフラストラクチャのエンドツーエンド協調設計に由来する。特に、複雑なツール使用における強力な一般化能力は、環境スケーリングと原則的なタスク構築に関する我々の深い探求によって推進されている。ロングテールで偏った生成およびマルチターンエージェント相互作用を最適化し、20以上のドメインにわたる10,000以上の環境で安定した訓練を実現するため、非同期強化学習フレームワークDORAを体系的に拡張し、大規模マルチ環境訓練の安定性と効率性を確保した。さらに、実世界タスクが本質的にノイジーであることを認識し、実世界ノイズパターンの体系的分析と分解を実施し、そのような不完全性を明示的に訓練プロセスに組み込むための標的訓練手順を設計し、実世界アプリケーションにおけるロバスト性の向上を実現した。複雑な推論タスクの性能をさらに強化するため、集中的な並列思考による推論の深さと幅の同時拡張によって効果的なテスト時スケーリングを可能にする「Heavy Thinkingモード」を導入した。

SWE-Pruner: コーディングエージェントのための自己適応型コンテキスト刈り込み
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

LLMエージェントはソフトウェア開発において顕著な能力を発揮していますが、長い対話コンテキストによって性能が阻害され、高いAPIコストと遅延が生じています。この課題に対処するためLongLLMLinguaなどの様々なコンテキスト圧縮手法が登場していますが、それらは一般にPPLのような固定指標に依存し、コード理解のタスク固有性を無視しています。その結果、構文や論理構造が頻繁に破壊され、重要な実装詳細が保持されないことがあります。本論文では、コーディングエージェント向けに調整された自己適応型コンテキスト剪定フレームワークであるSWE-Prunerを提案します。人間のプログラマが開発やデバッグ中にソースコードを「選択的に流し読み」する方法に着想を得て、SWE-Prunerは長いコンテキストに対してタスク認識型の適応的剪定を実行します。現在のタスクが与えられると、エージェントは剪定対象を導くヒントとして明示的な目標（例：「エラー処理に焦点を当てる」）を策定します。軽量なニューラルスキマー（0.6Bパラメータ）が、目標を考慮して周辺コンテキストから関連行を動的に選択するように訓練されます。4つのベンチマークと複数モデルによる評価により、SWE-Bench Verifiedのようなエージェントタスクでは23-54%のトークン削減を、LongCodeQAのような単一ターンタスクでは性能影響を最小限に抑えつつ最大14.84倍の圧縮を達成するなど、様々なシナリオにおけるSWE-Prunerの有効性が実証されました。

TwinBrainVLA：非対称型Mixture-of-Transformersによる身体性タスクへの汎用VLMの可能性解放
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

標準的なVision-Language-Action（VLA）モデルは通常、ロボット制御のために単一のVision-Language Model（VLM）バックボーンを明示的にファインチューニングする。しかし、このアプローチは高レベルの汎用的な意味理解の維持と、低レベルで細かなセンサモータースキルの学習との間に深刻な緊張関係を生み出し、モデルのオープンワールド能力の「破滅的忘却」を引き起こしがちである。この課題を解決するため、我々は汎用的な意味理解を保持する一般家VLMと、具象化された固有受容に特化した専門家VLMを連携させる新規アーキテクチャTwinBrainVLAを提案する。TwinBrainVLAは、強固な汎用的視覚推論能力を保持する凍結された「左脳」と、具象化知覚に特化した学習可能な「右脳」を、新規の非対称型Mixture-of-Transformers（AsyMoT）機構により協調させる。この設計により、右脳は凍結された左脳から意味的知識を動的に問い合わせ、それを固有受容状態と融合させ、Flow-Matching Action Expertが正確な連続制御を生成するための豊富な条件付けを提供する。SimplerEnvおよびRoboCasaベンチマークにおける大規模な実験により、TwinBrainVLAが事前学習済みVLMの包括的視覚理解能力を明示的に保持しつつ、最先端のベースラインを上回る優れた把持性能を達成することを実証した。これは、高レベルの意味理解と低レベルの物理的器用さを同時に実現する汎用ロボット構築に向けた有望な方向性を示すものである。

VisGym：マルチモーダルエージェントのための多様でカスタマイズ可能なスケーラブルな環境
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

現代の視覚言語モデル（VLM）は、多段階の視覚的インタラクション、特に長い時間軸にわたる知覚・記憶・行動の統合方法について十分に特性評価されていない。本研究では、VLMの評価と学習のための17種類の環境からなる「VisGym」を提案する。このスイートは記号パズル、実画像理解、ナビゲーション、操作タスクを網羅し、難易度、入力表現、計画ホライゾン、フィードバックを柔軟に制御できる。さらに、構造化されたデモンストレーションを生成する多段階ソルバーを提供し、教師ありファインチューニングを可能にする。評価結果では、最先端モデルも対話的設定で課題があり、容易な設定（46.6%）と困難な設定（26.0%）の両方で低い成功率を示した。実験から顕著な限界が明らかになった：モデルは長い文脈を効果的に活用できず、履歴を無制限にした場合では切り詰めた場合より性能が低下する。さらに、テキストベースの記号タスクの多くは視覚的に表現されると難易度が大幅に上昇する。しかし、部分観測や未知のダイナミクス環境において、明示的な目標提示、テキストフィードバック、探索的デモンストレーションを教師あり学習に活用することで一貫した改善が得られ、多段階視覚意思決定の具体的な失敗モードと改善手法を示唆している。コード、データ、モデルは以下で公開：https://visgym.github.io/

Memory-V2V: メモリを用いたビデオ間拡散モデルの拡張
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

最近の基盤的なビデオ間拡散モデルは、外観、動き、カメラ動作を変更することで、ユーザー提供のビデオ編集において印象的な結果を達成しています。しかし、現実世界のビデオ編集は、ユーザーが複数回のインタラクションを通じて結果を洗練させる反復的なプロセスであることが多くあります。このマルチターン設定において、現在のビデオエディタは連続的な編集間の相互一貫性を維持するのに苦戦しています。本研究では、マルチターンビデオ編集における相互一貫性の問題に初めて取り組み、既存のビデオ間モデルに明示的メモリを組み込んだシンプルかつ効果的なフレームワークであるMemory-V2Vを提案します。過去に編集されたビデオの外部キャッシュを活用し、Memory-V2Vは正確な検索と動的トークン化戦略を用いて、現在の編集ステップを過去の結果に条件付けします。さらに冗長性と計算オーバーヘッドを軽減するため、DiTバックボーン内に学習可能なトークン圧縮器を提案し、必須の視覚的手がかりを保持しながら冗長な条件付けトークンを圧縮することで、全体で30%の高速化を実現します。Memory-V2Vを、ビデオ新規視点合成やテキスト条件付き長尺ビデオ編集を含む挑戦的なタスクで検証しました。大規模な実験により、Memory-V2Vが最小限の計算オーバーヘッドで大幅に相互一貫性の高いビデオを生成し、最先端のベースラインと比較してタスク固有の性能を維持あるいは向上させることを示しています。プロジェクトページ: https://dohunlee1.github.io/MemoryV2V

Jet-RL: 統一された学習とロールアウトの精度フローによるオンポリシーFP8強化学習の実現
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

強化学習（RL）は大規模言語モデル（LLM）の複雑な推論能力を高める上で不可欠である。しかし、既存のRLトレーニングパイプラインは計算効率が低くリソース集約的であり、ロールアウト段階が全体のトレーニング時間の70%以上を占めている。量子化RLトレーニング、特にFP8精度の使用は、このボトルネックを軽減する有望なアプローチを提供する。一般的に採用されている戦略は、ロールアウト中にFP8精度を適用し、トレーニングにはBF16精度を維持するというものである。本研究では、FP8 RLトレーニングに関する初の包括的な研究を提示し、広く使用されている「BF16トレーニング＋FP8ロールアウト」戦略が、長期的なロールアウトや困難なタスクにおいて、深刻なトレーニング不安定性と壊滅的な精度低下に陥ることを実証する。我々の分析によれば、これらの失敗はアプローチのオフポリシー性に起因し、トレーニングと推論の間に数値的不一致を大幅に導入している。これらの観察に動機付けられ、我々は堅牢で安定したRL最適化を可能にするFP8 RLトレーニングフレームワーク「Jet-RL」を提案する。核心となるアイデアは、トレーニングとロールアウトの両方に統一されたFP8精度フローを採用することで、数値的不一致を最小限に抑え、非効率的なステップ間キャリブレーションの必要性を排除することである。大規模な実験によりJet-RLの有効性が検証された：本手法は、ロールアウト段階で最大33%、トレーニング段階で最大41%、BF16トレーニングと比較してエンドツーエンドで最大16%の高速化を達成し、全ての設定で安定した収束を維持し、無視できる程度の精度劣落しか生じない。

推論時検証のスケーリング：テスト時ルーブリック誘導検証による自己進化型深層研究エージェント
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

深層研究エージェント（DRA）の最近の進展は、自動化された知識発見と問題解決を変革しつつある。既存研究の大半はポストトレーニングによる方策能力の向上に焦点を当てているが、我々は代替パラダイムを提案する：厳密に設計された評価基準に基づいて方策モデルの出力を反復検証することで、エージェントの能力を自己進化させる手法である。このアプローチは「検証の推論時スケーリング」を実現し、エージェントが自身の生成した回答を評価して反復的フィードバックと改良を産出することで自己改善する。評価基準は自動構築された「DRA失敗分類学」に基づいて導出され、エージェントの失敗を5大カテゴリ・13サブカテゴリに体系的に分類する。我々はDeepVerifierを提案する。これは評価基準に基づく成果報酬検証器であり、検証の非対称性を活用することで、素朴なエージェント自身による評価やLLM評価ベースラインをメタ評価F1スコアで12%-48%上回る。実用的な自己進化を可能にするため、DeepVerifierはテスト時推論においてプラグアンドプレイモジュールとして統合される。検証器は詳細な評価基準に基づくフィードバックを生成し、これをエージェントに返して反復的ブートストラップを実施し、追加トレーニングなしで回答を洗練する。このテスト時スケーリングは、高性能なクローズドソースLLMを活用した場合、GAIAとXBench-DeepResearchの難易度高いサブセットで8%-11%の精度向上をもたらす。最後に、オープンソースの発展を支援するため、DRA検証に特化した4,646の高品質なエージェントステップから成る教師ありファインチューニングデータセットDeepVerifier-4Kを公開する。これらの事例は反省と自己批判に重点を置き、オープンモデルが堅牢な検証能力を開発することを可能にする。

エンドレスターミナル：ターミナルエージェントのための強化学習環境のスケーリング
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

環境は自己改善型エージェントのボトルネックである。現在のターミナルベンチマークは評価用に構築されており、学習用ではない。強化学習にはデータセットだけでなく、スケーラブルなパイプラインが求められる。我々は、人間の注釈を必要とせずにターミナル使用タスクを手続き的に生成する完全自律パイプライン「Endless Terminals」を提案する。このパイプラインは、多様なタスク記述の生成、コンテナ化環境の構築と検証、完了テストの作成、解決可能性によるフィルタリングの4段階からなる。本パイプラインから、ファイル操作、ログ管理、データ処理、スクリプティング、データベース操作にわたる3255のタスクを獲得した。エージェントの学習には、二値のエピソード単位報酬と最小限のインタラクションループ（検索、マルチエージェント協調、専用ツールなし）を用いた標準PPOを採用した。この単純さにも関わらず、Endless Terminalsで学習したモデルは大幅な性能向上を示した：保留開発セットでは、Llama-3.2-3Bが4.0%から18.2%に、Qwen2.5-7Bが10.7%から53.3%に、Qwen3-8B-openthinker-sftが42.6%から59.0%に改善した。この改善は人手で精選されたベンチマークにも転移し：TerminalBench 2.0では、Llama-3.2-3Bが0.0%から2.2%に、Qwen2.5-7Bが2.2%から3.4%に、Qwen3-8B-openthinker-sftが1.1%から6.7%に改善し、より複雑なエージェント基盤を有するモデルを含む他の手法をいずれのケースでも上回った。これらの結果は、環境がスケールすれば単純なRLが成功することを実証している。

SALAD：ビデオ拡散Transformerにおける効率的線形注意機構チューニングによる高スパース性注意機構の実現
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

拡散トランスフォーマーは近年、映像生成において顕著な性能を示している。しかし、長い入力シーケンスは、フルアテンションの二次的な計算量のため、高い計算遅延を引き起こす。様々な疎アテンション手法が提案されてきた。学習不要の疎アテンションは限られた疎性に制約されるため、加速効果は控えめである。一方、学習ベースの手法ははるかに高い疎性を達成できるが、学習に大量のデータと計算資源を必要とする。本研究では、SALADを提案し、疎アテンションと並列に軽量な線形アテンションブランチを導入する。入力依存のゲーティング機構を組み込むことで二つのブランチを精密に調整し、我々の手法は90%の疎性と1.72倍の推論高速化を達成しつつ、フルアテンションベースラインと同等の生成品質を維持する。さらに、我々のファインチューニングプロセスは極めて効率的で、バッチサイズ8でわずか2,000の映像サンプルと1,600学習ステップのみを要する。

鎖の中で踊る：心の理論による学術的反駁における戦略的説得
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

人工知能（AI）が研究ワークフローの様々な段階に深く統合され、目覚ましい進歩を遂げている一方で、学術的反駁（リバタル）は依然として重要でありながら十分に研究されていない課題である。これは、反駁が単純な技術的議論ではなく、深刻な情報の非対称性下における戦略的コミュニケーションの複雑なプロセスであるためである。その結果、現在のアプローチは表面的な言語表現を模倣することが主であり、効果的な説得に必要な視点取得という本質的要素を見落としているため、苦戦している。本論文では、学術的反駁を心の理論（Theory of Mind; ToM）に基づいて構築する初めてのフレームワークであるRebuttalAgentを提案する。本フレームワークは、査読者の心的状態をモデル化し、説得戦略を策定し、戦略に基づいた応答を生成するToM-Strategy-Response（TSR）パイプラインを通じて運用化される。エージェントを訓練するため、新規の批評と洗練（critique-and-refine）アプローチにより合成された大規模データセットRebuttalBenchを構築した。訓練プロセスは2段階からなり、まず教師ありファインチューニング段階でエージェントにToMに基づく分析と戦略的計画能力を付与し、続く強化学習段階ではスケーラブルな自己改善のための自己報酬メカニズムを活用する。信頼性が高く効率的な自動評価のために、多様な情報源からの10万サンプル超の反駁データで訓練された専門評価器Rebuttal-RMをさらに開発し、強力な審判モデルGPT-4.1を超える人間の選好との採点一致性を達成した。大規模な実験により、RebuttalAgentが自動評価指標においてベースモデルを平均18.3%大幅に上回り、さらに自動評価及び人的評価の両方において先進的なプロプライエタリモデルをも凌駕することを示す。免責事項：生成された反駁内容は、著者へのインスピレーション提供および草稿作成補助を目的とした参考情報であり、著者自身の批判的分析と応答に代わるものではない。

GameTalk: 戦略的会話のための大規模言語モデルトレーニング
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

マルチエージェント環境における戦略的意思決定は、大規模言語モデル（LLM）にとって重要な課題であり、特に長い対話を通じた調整や交渉が必要な場面で顕著です。近年の研究では単発的な意思決定タスクへのLLM応用が探求されていますが、対話を通じた長期的目標の最適化にはほとんど注目されていません。本論文では、マルチターン相互作用を通じて戦略的意思決定を行うLLMを訓練するフレームワーク「GameTalk」を提案します。単一ターンの目標や静的な行動予測に焦点を当てた従来研究と異なり、私たちは完全な対話全体にわたる大域的目標を最適化するようLLMを訓練します。これを実現するため、GRPO、DPO、STaRなどのファインチューニング手法を改良し、相互作用全体に依存する報酬信号を組み込みました。推論・調整・相手のモデル化といった様々な側面を検証するため、複雑度を段階的に上げたゲーム群で評価を実施した結果、GameTalkは未訓練モデルを大幅に上回り、特に報酬形成条件下でDPOが一貫して最高の改善効果を示しました。これらの知見は、対話型環境においてLLMが推論・交渉・行動するための有望なアプローチとして、会話ベースのファインチューニングの重要性を位置づけるものです。

MeepleLM: 多様な主観的体験をシミュレートする仮想プレイテスター
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

大規模言語モデルのボードゲームにおける役割は、近年の進歩により、単なるプレイングエージェントから創造的な共同デザイナーへと拡大している。しかし、決定的な隔たりが残されている。現在のシステムは、創発的なユーザー体験に基づいた建設的な批評を提供する能力を欠いているのである。この隔たりを埋めることは、人間とAIの協調を調和させるために不可欠である。なぜなら、それはデザイナーが外部の視点を通じて自身の創造物を洗練させると同時に、モデルを偏ったまたは予測不能な結果から遠ざけることを可能にするからだ。ボードゲームに対する批評の自動化には、2つの課題がある。1つは、明示的なゲームエンジンなしに、ルールとゲームプレイを結びつける潜在的なダイナミクスを推論すること。もう1つは、多様なプレイヤーグループの主観的な多様性をモデル化することである。これらの課題に対処するため、我々は構造的に修正された1,727のルールブックと、品質スコアリングと側面考慮型サンプリングによって選ばれた15万件のレビューからなるデータセットを構築した。このデータをMechanics-Dynamics-Aesthetics（MDA）の推論で拡張し、記述されたルールとプレイヤー体験の間の因果的隔たりを明示的に橋渡しする。さらに、プレイヤーペルソナを蒸留し、特定のペルソナに特化した推論パターンを内在化させ、多様なプレイヤーアーキタイプの主観的フィードバックを正確にシミュレートする専門モデル、MeepleLMを導入する。実験結果は、MeepleLMがコミュニティとの整合性および批評の質において、最新の商用モデル（GPT-5.1、Gemini3-Proなど）を大きく上回り、有用性を評価するユーザー調査で70%の選好率を達成することを示している。MeepleLMは、一般的なインタラクティブシステムにおける信頼性の高い仮想プレイテスターとして機能し、視聴者に沿った、体験を意識した人間-AI協調への重要な一歩を示すものである。

ChartVerse: 信頼性のあるプログラム的合成によるゼロからのチャート推論のスケーリング
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

チャート推論は、視覚言語モデル（VLM）にとって極めて重要な能力である。しかし、高品質な訓練データの不足により、オープンソースモデルの開発は深刻な妨げを受けている。既存のデータセットは二重の課題に直面している。すなわち、合成チャートは単純で反復的であることが多く、関連するQAペアは幻覚（ハルシネーション）が生じやすく、複雑なタスクに必要な推論の深さを欠いている。このギャップを埋めるため、我々は複雑なチャートと信頼性の高い推論データをゼロから合成するためのスケーラブルなフレームワーク、ChartVerseを提案する。(1) 単純なパターンというボトルネックに対処するため、まずチャートの複雑さを定量化する新しい指標であるRollout Posterior Entropy（RPE）を導入する。RPEに導かれ、複雑度を考慮したチャートコーダを開発し、実行可能なプログラムを通じて多様で高複雑度のチャートを自律的に合成する。(2) 推論の厳密性を保証するため、真実に固定された逆方向QA合成を開発する。標準的な生成手法とは異なり、回答先行のパラダイムを採用する。すなわち、ソースコードから決定的な回答を直接抽出し、これらのアンカーに条件づけて質問を生成し、厳格な一貫性検証を実施する。難易度と推論の深さをさらに高めるため、モデルの失敗率に基づいてサンプルをフィルタリングし、高品質な連鎖思考（Chain-of-Thought, CoT）推論を蒸留する。Qwen3-VL-30B-A3B-Thinkingを教師モデルとして用い、ChartVerse-SFT-600KとChartVerse-RL-40Kを構築した。実験結果は、ChartVerse-8Bが最先端の性能を達成し、特にその教師モデルを凌駕し、より強力なQwen3-VL-32B-Thinkingに匹敵することを示している。

DSGym: データサイエンスエージェントの評価とトレーニングのための包括的フレームワーク
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

データサイエンスエージェントは、データを実行可能な分析と知見に変換することで、発見と洞察生成を加速することが期待されている。しかし、既存のデータサイエンスベンチマークは、ベンチマーク間の比較を困難にする断片的な評価インターフェース、狭いタスク範囲、厳密なデータに基づいた評価の欠如により、不十分である。特に、現在のベンチマークのタスクの大部分が、実際のデータを使用せずに解決可能であることを示す。これらの限界に対処するため、我々は独立した実行環境でデータサイエンスエージェントを評価・訓練するための標準化されたフレームワークであるDSGymを提案する。静的なベンチマークとは異なり、DSGymはモジュール式アーキテクチャを提供し、タスク、エージェントスキャフォールド、ツールの追加を容易にし、拡張可能なライブなテストベッドとして位置づけられる。我々は、既存のベンチマークを品質とショートカット解決可能性フィルタリングを通じて標準化・精選した総合的なタスクスイートであるDSGym-Tasksを構築した。さらに、(1)文献に基づいた専門家由来のバイオインフォマティクスタスクであるDSBioと、(2)コンピュータビジョン、分子予測、単一細胞摂動などの分野にわたる挑戦的な予測タスクであるDSPredictにより、対象範囲を拡大した。評価に加えて、DSGymは実行検証済みデータ合成パイプラインによるエージェント訓練を可能にする。事例研究として、2,000例の訓練セットを構築し、4BパラメータのモデルをDSGymで訓練したところ、標準化された分析ベンチマークにおいてGPT-4oを上回る性能を示した。全体として、DSGymは、エージェントが現実的な科学技術文脈においてデータ分析を計画し、実装し、検証できるかを厳密にエンドツーエンドで測定することを可能にする。

知識だけでは不十分：継続的適応のための強化学習スキルの注入
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

大規模言語モデル(LLM)は、固定化されたパラメトリックメモリによって新情報の直接的な内部化が阻まれる「知識カットオフ」課題に直面している。教師ありファインチューニング(SFT)はモデル知識の更新に広く用いられるが、事実内容を更新する一方で、新たに組み込まれた情報を質問応答や意思決定に活用する能力を確実に向上させるとは限らない。強化学習(RL)は推論スキルの習得に不可欠であるものの、計算コストが高く効率的なオンライン適応には実用的ではない。我々は実証的に、SFTとRLによって生じるパラメータ更新がほぼ直交関係にあることを確認した。この観察に基づき、効率的かつ効果的な知識適応のためのモジュール化スキル転移を実現するフレームワークParametric Skill Transfer (PaST)を提案する。ソースドメインからドメイン非依存のスキルベクトルを抽出することで、ターゲットモデルが新規データに対して軽量なSFTを実施した後、知識操作スキルを線形注入することが可能となる。知識組み込みQA(SQuAD、LooGLE)とエージェント的ツール利用ベンチマーク(ToolBench)における実験により、本手法の有効性を実証した。SQuADでは、PaSTは最先端の自己編集型SFTベースラインを最大9.9ポイント上回った。PaSTはさらにLooGLEの長文QAにスケーラブルに適用され8.0ポイントの絶対精度向上を達成し、ToolBenchではゼロショット成功率を平均+10.3ポイント改善（全ツールカテゴリで一貫した向上を示し）、スキルベクトルの強力な拡張性とクロスドメイン転移性を明らかにした。

Mecelle Modelleri: Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modelleri
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

本論文は、ドメイン適応戦略を通じてトルコ法分野に特化した言語モデルを開発するフレームワーク「Mecellemモデル」を提案する。主な貢献は二つある：(1)スクラッチから事前学習されたエンコーダモデル：1127億トークンからなるトルコ語主体のコーパスで事前学習されたModernBERTベースの双方向エンコーダ。学習過程を通じて下流検索性能を評価するチェックポイント選択戦略を実装し、最適なチェックポイントが事前学習損失が最小値に達する前に最高の検索スコアを達成することを明らかにした。当該エンコーダモデルはトルコ語検索リーダーボードでトップ3入りし、小規模モデル（1億5500万パラメータ）が大規模参照モデル（3億700万～5億6700万パラメータ）と同等の性能を達成。生産性効率は92.36%を達成（最先端モデル比較：embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%）、計算資源が少ないにも関わらず総合4位にランクイン。SOTAモデルが多段階で計算集約的な訓練パイプラインに依存する中、我々の単段階事前学習と効率的な事後訓練を組み合わせたアプローチはコスト効率に優れる。(2)継続事前学習（CPT）を施したデコーダモデル：Qwen3-1.7BおよびQwen3-4Bモデルを制御されたカリキュラム学習でトルコ法分野に適応。最適なサンプル比率による4段階CPTにより、一般言語知識から専門的法術語及び長文脈推論への段階的移行を実現。このアプローチはトルコ法文書で36.2%のパープレキシティ低減を達成し、ドメイン適応の効果を実証した。

VISTA-PATH：計算病理学における病理画像セグメンテーションと定量解析のための対話型基盤モデル
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

組織病理画像の正確なセマンティックセグメンテーションは、定量的な組織解析と下流の臨床モデリングにおいて極めて重要である。近年のセグメンテーション基盤モデルは大規模な事前学習により一般化性能を向上させてきたが、セグメンテーションを静的な視覚予測タスクとして扱うため、病理学との整合性が不十分である。本論文では、不均一な構造を解釈し、専門家のフィードバックを取り込み、臨床解釈に直接意味を持つピクセルレベルのセグメンテーションを生成する、インタラクティブでクラスを意識した病理セグメンテーション基盤モデル「VISTA-PATH」を提案する。VISTA-PATHは、視覚的コンテキスト、意味的組織記述、およびオプションとして専門家が提供する空間的プロンプトに基づいてセグメンテーションを共同で条件付けし、不均一な病理画像にわたる精密なマルチクラスセグメンテーションを実現する。このパラダイムを支援するため、9臓器、93組織クラスにわたる160万以上の画像-マスク-テキストトリプルから構成される大規模病理セグメンテーションコーパス「VISTA-PATH Data」を構築した。大規模なホールドアウトおよび外部ベンチマーク評価において、VISTA-PATHは既存のセグメンテーション基盤モデルを一貫して上回った。重要な点として、VISTA-PATHは疎なパッチレベルのバウンディングボックス注釈フィードバックをホールスライドセグメンテーションに伝播させることで、動的なヒューマンインザループによる改良を支援する。最後に、VISTA-PATHが生成する高精度でクラスを意識したセグメンテーションが計算病理学における優先モデルであることを示す。提案する腫瘍相互作用スコア（TIS）を通じて組織微小環境分析を改善し、患者の生存率との強い有意な関連性を示す。これらの結果は総合して、VISTA-PATHが病理画像セグメンテーションを静的な予測から、デジタル病理学のためのインタラクティブで臨床に根ざした表現へと昇華させる基盤モデルであることを立証する。ソースコードとデモはhttps://github.com/zhihuanglab/VISTA-PATHで公開されている。

大規模言語モデルを用いたコード生成のためのプロンプトガイドライン：実証的考察
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

大規模言語モデル（LLM）は現在、主にコード生成をはじめとする様々なソフトウェアエンジニアリングタスクに広く活用されている。これまでの研究では、適切なプロンプトエンジニアリングが開発者のコード生成プロンプト改善に寄与し得ることが示されてきた。しかしながら、現時点では、コード生成に適したプロンプト作成を開発者に導く具体的なガイドラインは存在しない。本研究では、ソフトウェア開発に特化したプロンプト最適化ガイドラインを導出し評価する。まず、テスト駆動型の反復的アプローチを用いてコード生成プロンプトを自動改良し、このプロセスから得られた結果を分析して、テスト合格に繋がるプロンプト改善要素を特定する。これらの要素に基づき、入出力や事前事後条件の明確化、事例の提示、各種詳細情報の付与、あいまいさの解消などに関連する10のプロンプト改善ガイドラインを抽出した。50名の実務開発者を対象に評価を実施した結果、彼らが抽出されたプロンプト改善パターンをどの程度利用しているか、またその有用性をどのように認識しているかが明らかになった。有用性の認識は、ガイドラインを知る前の実際の使用頻度と必ずしも一致しないことが分かった。本研究の成果は、実務家や教育関係者だけでなく、より優れたLLM支援型ソフトウェア開発ツールの構築を目指す関係者にとっても示唆に富むものである。

LongCat-Flash-Thinking-2601 技術報告書
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

175