ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1
AIエージェントは数百の職業領域(救急部門のトリアージから原子炉安全監視、税関輸入処理まで)で専門的な業務を遂行することが期待されているが、既存のベンチマークは公開環境が存在する限られた領域でのみ評価可能である。本論文ではOccuBenchを紹介する。これは10の産業カテゴリ、65の専門領域にわたる100の現実的な職業タスクシナリオをカバーするベンチマークであり、LLM駆動のツール応答生成を通じて領域特化的環境をシミュレートするLanguage World Models(LWM)によって実現されている。当社のマルチエージェント合成パイプラインは、解決可能性の保証、較正された難易度、文書に基づく多様性を備えた評価インスタンスを自動生成する。OccuBenchはエージェントを2つの相補的次元で評価する:専門領域横断的なタスク完遂度と、制御された障害注入(明示的エラー、暗黙的データ劣化、混合障害)下での環境ロバスト性である。8モデルファミリーにわたる15の先進モデルを評価した結果、(1)単一モデルが全産業を支配するものはなく、各モデルが独自の職業能力プロファイルを持つ;(2)暗黙的障害(データ断片化、フィールド欠落)は、明示的エラー(タイムアウト、500エラー)や混合障害よりも難易度が高く、これは明瞭なエラー信号を欠き、エージェントが自律的にデータ劣化を検出する必要があるため;(3)大規模モデル、新しい世代、高い推論努力が一貫して性能向上をもたらす(GPT-5.2は最小から最大の推論努力で27.5ポイント向上);(4)強力なエージェントが必ずしも優れた環境シミュレーターとは限らない(シミュレーター品質はLWMベース評価の信頼性に重要)という知見が得られた。OccuBenchは職業的タスクにおけるAIエージェントの初の体系的な産業横断評価を提供する。
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1
検証可能な報酬を用いた強化学習(RLVR)は条件付き分布P(y|x)を最適化することでLLMの推論能力を大幅に強化するが、その可能性は基本モデルが持つ既存の出力分布によって根本的に制限されている。周辺分布P(y)を事前学習空間で最適化するアプローチは、推論能力を符号化し広範な探索能力を保持することでこのボトルネックを解決する。しかし従来の事前学習は静的なコーパスに依存した受動的学習であるため、分布シフトが生じ、標的型の推論強化を妨げている。本論文では、報酬駆動型のオンライン更新をP(y)に直接適用するPreRL(Pre-train Space RL)を提案する。我々は理論的・実証的にlog P(y)とlog P(y|x)の強い勾配整合性を検証し、PreRLが標準RLの有効な代替手段であることを立証する。さらに、PreRL内の負例強化(NSR)が推論の極めて効果的な駆動力となる重要なメカニズムを発見した。NSR-PreRLは誤った推論空間を迅速に刈り込みながら内省的な反射行動を促進し、推移的思考と反射的思考をそれぞれ14.89倍、6.54倍増加させる。これらの知見を活かし、推論の地平を拡大するNSR-PreRLによるモデル初期化後、細粒度最適化のために標準RLに移行する政策転生戦略「Dual Space RL(DSRL)」を提案する。大規模な実験により、DSRLが強力なベースラインを一貫して上回り、事前学習空間の刈り込みが政策を洗練された正しい推論部分空間へと効果的に導くことを実証する。
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan