翻訳付きの日次キュレーションされたAI研究論文
批評者不要の強化学習手法、特にグループポリシーは、複雑なタスクにおける効率性から大きな注目を集めている。しかし、これらの手法は、利点を推定するためにポリシー内での複数のサンプリングと比較に大きく依存しており、これがポリシーを局所最適に陥らせ、計算コストを増大させる可能性がある。これらの問題に対処するため、我々は利点参照アンカーとデータ事前サンプリングを強化した効率的な強化学習手法であるPVPOを提案する。具体的には、参照モデルを事前にロールアウトし、計算された報酬スコアを参照アンカーとして使用する。我々のアプローチは、グループ内比較によって導入される累積バイアスを効果的に補正し、ロールアウト回数への依存を大幅に削減する。同時に、参照モデルはデータ事前サンプリング中にサンプルの難易度を評価し、高利得データを効果的に選択してトレーニング効率を向上させる。2つのドメインにわたる9つのデータセットで実施された実験は、PVPOがState-Of-The-Art(SOTA)の性能を達成することを示している。我々のアプローチは、複数のタスクにわたる堅牢な汎化性能を示すだけでなく、異なるスケールのモデルにわたるスケーラブルな性能も示す。
大規模言語モデル(LLMs)の表推論能力を探るための広範な研究が行われてきた。しかし、表の情報をレポートに変換するという本質的なタスクは、産業応用において依然として重要な課題である。このタスクは、以下の2つの重大な問題に悩まされている:1)表の複雑さと多様性が最適でない推論結果を引き起こすこと;2)既存の表ベンチマークがこのタスクの実用的な応用を適切に評価する能力を欠いていること。このギャップを埋めるため、我々は表からレポートへのタスクを提案し、このタスクのための表からレポートへの主要な情報フローをカバーする二言語ベンチマーク「T2R-bench」を構築した。このベンチマークは、実世界のシナリオから得られた457の産業用表を含み、19の産業ドメインと4種類の産業用表を網羅している。さらに、レポート生成の品質を公平に測定するための評価基準を提案した。25の広く使用されているLLMを用いた実験では、Deepseek-R1のような最先端のモデルでさえ62.71の総合スコアしか達成できず、LLMがT2R-benchにおいてまだ改善の余地があることを示している。ソースコードとデータは受理後に公開される予定である。
大規模言語モデル(LLMs)の推論および計画能力の最近の進展により、動的な環境におけるツール使用が可能な自律エージェントとしての潜在性が示されている。しかし、tau-benchのような多ターン会話環境では、これらのエージェントは一貫した推論、ドメイン固有のポリシーへの準拠、および長期的なツール呼び出しと会話における正確な情報の抽出に苦戦することが多い。これらの失敗を捕捉し緩和するため、会話軌跡において発生する一般的なエラーを包括的に手動分析した。次に、エージェントの意思決定を改善するために、ツール呼び出しエージェントへの入力の再構成を実験した。最後に、ユーザークエリを関連するドメインルールとツール提案で補強し、ツール呼び出しエージェントが焦点を当てるべき内容を自動的に再構成するInput-Reformulation Multi-Agent(IRMA)フレームワークを提案する。結果は、IRMAが全体のpass^5スコアにおいて、ReAct、Function Calling、およびSelf-Reflectionをそれぞれ16.1%、12.7%、19.1%上回ることを示している。これらの結果は、動的な環境においてIRMAが他の方法と比較して優れた信頼性と一貫性を有することを強調している。
表面欠陥検出は、製造部品の欠陥や不規則性を効率的に識別・位置特定することを目的とした、数多くの産業において重要な課題である。これまで多くの手法が提案されてきたが、高性能、効率性、適応性といった産業界の要求を満たすものは少ない。既存のアプローチは特定の教師ありシナリオに限定されることが多く、実世界の製造プロセスで遭遇する多様なデータアノテーション(教師なし、弱教師あり、混合教師あり、完全教師あり設定など)に適応するのが困難である。これらの課題に対処するため、我々はSimpleNetを基盤とした、高効率で適応性の高い識別モデルであるSuperSimpleNetを提案する。SuperSimpleNetは、新規の合成異常生成プロセス、強化された分類ヘッド、改善された学習手順を組み込んでおり、4つの教師ありシナリオすべてで効率的な学習を可能にし、利用可能なすべてのデータアノテーションを完全に活用できる初のモデルとなっている。SuperSimpleNetは、4つの挑戦的なベンチマークデータセットでの結果が示すように、すべてのシナリオにおいて新たな性能基準を確立している。精度に加えて非常に高速で、推論時間は10ミリ秒未満を達成している。多様な教師ありパラダイムを統合しつつ、優れた速度と信頼性を維持する能力により、SuperSimpleNetは実世界の製造課題に対処し、学術研究と産業応用のギャップを埋めるための有望な一歩を表している。コード: https://github.com/blaz-r/SuperSimpleNet
主に英語コーパスで訓練された大規模言語モデル(LLM)は、アラビア語の言語的・文化的ニュアンスを捉えるのに苦労することが多い。このギャップを埋めるため、サウジアラビアデータ・AI庁(SDAIA)はアラビア語に特化したALLaMファミリーモデルを導入した。その中で一般公開されている最も高性能なALLaM-34Bは、その後HUMAINによって採用され、このモデルを基に構築されたクローズドな会話型ウェブサービス「HUMAIN Chat」が開発・展開された。本論文では、ALLaM-34BのUIレベル評価を拡張・精緻化した結果を提示する。現代標準アラビア語、5つの地域方言、コードスイッチング、事実知識、算術および時間的推論、創造的生成、敵対的安全性を網羅するプロンプトパックを使用し、115の出力(23プロンプト×5回実行)を収集し、それぞれを3つの最先端LLM評価者(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)で採点した。カテゴリ別平均値を95%信頼区間で計算し、スコア分布を分析し、方言別メトリックのヒートマップを可視化した。更新された分析により、生成およびコードスイッチングタスクで一貫して高い性能(平均4.92/5)を示し、現代標準アラビア語の処理(4.74/5)、堅実な推論能力(4.64/5)、改善された方言忠実度(4.21/5)においても強力な結果が得られた。安全性関連のプロンプトでは安定した信頼性(4.54/5)を示している。これらの結果を総合すると、ALLaM-34Bは技術的強さと実世界での展開のための実用性を兼ね備えた、堅牢で文化的に根ざしたアラビア語LLMとして位置づけられる。
空間認知は、空間の内部モデルを構築することで適応的な目標指向行動を可能にする。堅牢な生物学的システムは、空間知識を3つの相互接続された形式に統合する:顕著な手がかりのためのランドマーク、移動軌跡のための経路知識、地図のような表現のための俯瞰知識である。近年のマルチモーダル大規模言語モデル(MLLMs)の進展により、具現化エージェントにおける視覚-言語推論が可能になったが、これらの取り組みは構造化された空間記憶を欠いており、反応的に動作するため、複雑な現実世界の環境における汎化と適応性が制限されている。本論文では、具現化エージェントにおける構造化された空間記憶の構築と活用のための統一フレームワークであるBrain-inspired Spatial Cognition for Navigation(BSC-Nav)を提案する。BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知地図を構築し、意味的目標に沿った空間知識を動的に検索する。強力なMLLMsと統合されたBSC-Navは、多様なナビゲーションタスクにおいて最先端の有効性と効率性を達成し、強力なゼロショット汎化を示し、現実の物理世界における多様な具現化行動をサポートする。これにより、汎用空間知能に向けたスケーラブルで生物学的に基づいた道筋を提供する。
本論文では、Democracy-in-Silicoを紹介する。これは、複雑な心理的特性を備えた高度なAIエージェントの社会が、異なる制度的枠組みの下で自己統治を行うエージェントベースのシミュレーションである。我々は、大規模言語モデル(LLMs)に、トラウマ的記憶、隠れた意図、心理的トリガーを持つエージェントを体現させることで、AI時代における人間性の意味を探求する。これらのエージェントは、予算危機や資源不足などの様々なストレッサーの下で、審議、立法、選挙に従事する。我々は、エージェントが公共の福祉よりも自己の権力を優先するような不整合な行動を定量化するための新たな指標、Power-Preservation Index(PPI)を提示する。我々の研究結果は、特にConstitutional AI(CAI)憲章と仲介された審議プロトコルの組み合わせが、強力な整合メカニズムとして機能することを示している。これらの構造は、制約の少ない民主主義モデルと比較して、腐敗した権力追求行動を大幅に減少させ、政策の安定性を向上させ、市民の福祉を向上させる。このシミュレーションは、制度的設計が、将来の人工エージェント社会の複雑で創発的な行動を整合させるための枠組みを提供する可能性を示しており、非人間的エンティティとの共創時代において、人間の儀式や責任の本質を再考することを迫るものである。