翻訳付きの日次キュレーションされたAI研究論文
近年、Hyper-Connections(HC)に代表される研究は、過去10年にわたって確立されてきたユビキタスな残差接続のパラダイムを、残差ストリームの幅拡張と接続パターンの多様化によって発展させてきた。しかしながら、この多様化は性能向上をもたらす一方で、残差接続に内在する恒等写像の特性を根本的に損なうため、深刻な訓練不安定性やスケーラビリティの制限を引き起こし、さらに顕著なメモリアクセスオーバーヘッドを生じさせる。これらの課題に対処するため、本論文ではManifold-Constrained Hyper-Connections(mHC)を提案する。これはHCの残差接続空間を特定の多様体上に射影することで恒等写像特性を回復しつつ、効率性を確保するための厳密なインフラストラクチャ最適化を組み込んだ汎用フレームワークである。実証実験により、mHCが大規模訓練において有効であり、実質的な性能向上と優れたスケーラビリティを提供することが示された。mHCはHCの柔軟かつ実用的な拡張として、トポロジカルなアーキテクチャ設計の理解深化に寄与し、基盤モデルの進化に向けた有望な方向性を示すことが期待される。
我々はYoutu-LLMを紹介する。これは軽量でありながら強力な言語モデルであり、高い計算効率と本質的なエージェント知能を調和させている。蒸留に依存する典型的な小型モデルとは異なり、Youtu-LLM(1.96B)は推論能力と計画能力を体系的に育成するためスクラッチから事前学習されている。主な技術的進歩は以下の通りである: (1)長文脈対応のコンパクトアーキテクチャ:高密度のMulti-Latent Attention(MLA)アーキテクチャと新規のSTEM指向語彙を基盤とし、128kトークンの文脈ウィンドウをサポートする。この設計により、最小限のメモリ使用量で堅牢な長文脈推論と状態追跡が可能となり、長期的なエージェントタスクや推論タスクに理想的である。 (2)体系的な「常識-STEM-エージェント」カリキュラム:約11Tトークンに及ぶ大規模コーパスを精選し、多段階学習戦略を採用。事前学習データの分布を一般常識から複雑なSTEM課題、さらにエージェントタスクへと段階的に移行させることで、表面的な適合ではなく深い認知能力の獲得を保証する。 (3)スケーラブルなエージェント中間学習:エージェント中間学習では、数学・コーディング・ツール利用領域において多様な軌道を合成するため、複数のデータ構築手法を採用。この高品質データにより、モデルが計画立案と内省の行動様式を効果的に内在化できる。 大規模評価により、Youtu-LLMが2B未満のLLMにおいて新たなstate-of-the-artを確立することが示された。一般ベンチマークでは大規模モデルに匹敵する性能を発揮し、エージェント特化タスクでは既存のSOTAベースラインを大幅に上回り、軽量モデルが強力な本質的エージェント能力を有し得ることを実証している。
エージェント的創作には、LLMが現実世界環境で複数ターンにわたり行動を起こし、結果を観察し、成果物を反復的に洗練させる能力が求められます。この重要性にもかかわらず、オープンソースコミュニティにはエージェント開発を効率化する体系的なエンドツーエンドのエコシステムが不足しています。本稿では、エージェントLLMの生産パイプラインを最適化する基盤インフラ「Agentic Learning Ecosystem(ALE)」を提案します。ALEは3つのコンポーネントで構成されます:重み最適化のためのポストトレーニングフレームワーク「ROLL」、軌道生成のためのサンドボックス環境マネージャー「ROCK」、効率的なコンテキストエンジニアリングのためのエージェントフレームワーク「iFlow CLI」です。ALEに基づいて構築し、100万以上の軌道で学習したオープンソースエージェント「ROME(ROME is Obviously an Agentic Model)」を公開します。私たちのアプローチには、複雑な行動を合成するためのデータ構成プロトコルと、個々のトークンではなく意味的相互作用の塊に対して信用割り当てを行うことで長期訓練の安定性を向上させる新規政策最適化アルゴリズム「Interaction-based Policy Alignment(IPA)」が含まれます。実証実験では、構造化環境でROMEを評価し、規模と混入制御を改善したベンチマーク「Terminal Bench Pro」を導入しました。ROMEはSWE-bench VerifiedやTerminal Benchなどのベンチマークで強力な性能を示し、ALEインフラの有効性を実証しています。
ログ異常検知は、オペレーティングシステムのセキュリティを維持する上で極めて重要である。ログデータ収集のソースに応じて、ログモダリティと見なせる多様な情報がログに記録される。この直観に基づき、単一モダリティ手法はログデータの異なるモダリティを無視するため、しばしば困難に直面する。一方、マルチモダリティ手法はこれらのモダリティ間の相互作用を扱うことができない。マルチモダリティ感情分析をログ異常検知に応用し、我々は多様なモダリティを活用して協調的にログをエンコードするフレームワークであるCoLogを提案する。CoLogは協調型トランスフォーマーとマルチヘッド印象注意機構を利用して、複数のモダリティ間の相互作用を学習し、包括的な異常検知を保証する。これらの相互作用によって生じる異質性を扱うため、CoLogはモダリティ適応層を組み込んでおり、異なるログモダリティからの表現を適応させる。この方法論により、CoLogはデータ内の微妙なパターンと依存関係を学習し、その異常検知能力を強化する。大規模な実験により、CoLogが既存の最先端手法を凌駕することを実証した。さらに、ポイント異常と集合異常の両方の検出において、CoLogはログベース異常検知の7つのベンチマークデータセットで平均精度99.63%、平均再現率99.59%、平均F1スコア99.61%を達成した。CoLogの包括的な検出能力は、サイバーセキュリティ、システム監視、運用効率化に極めて適している。CoLogはログ異常検知における重要な進歩を代表し、統一フレームワークを通じたポイント異常と集合異常検出に対する洗練された効果的ソリューション、および自動ログデータ分析が提起する複雑な課題への解決策を提供する。実装はhttps://github.com/NasirzadehMoh/CoLogで公開している。
3D再構成技術の最近の進展は、高密度なマルチビュー画像からの高品質なシーンキャプチャにおいて顕著な進歩を遂げているが、入力ビュー数が限られる場合には依然として困難が伴う。この課題に対処するため、正則化手法、セマンティック事前情報、幾何学的制約など様々なアプローチが実装されてきた。最新の拡散モデルベースの手法は、新しいカメラポーズから新規ビューを生成して学習データを拡張することで、従来の正則化や事前情報ベースの手法を凌駕する大幅な改善を示している。しかしながら、こうした最先端手法には三つの重大な限界が存在する:既知ビュー周辺域を超えたカバレッジの不足、生成ビュー間の幾何学的不整合、そして計算コストの高い処理パイプラインである。我々はGaMO(Geometry-aware Multi-view Outpainter)を提案する。これはマルチビュー outpaining を通じて疎ビュー再構成を再定義するフレームワークである。GaMOは新規視点を生成する代わりに、既存のカメラポーズから画角を拡大することで、幾何学的一貫性を本質的に維持しつつ、より広範なシーンカバレッジを実現する。我々の手法は、学習を必要としないゼロショット方式で、マルチビュー条件付けと幾何学的考慮を組み込んだノイズ除去戦略を採用する。ReplicaとScanNet++を用いた大規模実験により、3、6、9入力ビューにおける最先端の再構成品質を実証し、PSNRとLPIPSの両指標で従来手法を上回る性能を示すとともに、処理時間10分未満で拡散モデルベースのSOTA手法比25倍の高速化を達成した。プロジェクトページ: https://yichuanh.github.io/GaMO/
記憶は、過去と未来を結ぶ重要な接点として機能し、人間とAIシステムの双方に、複雑なタスクを遂行するための貴重な概念と経験を提供する。自律エージェントに関する最近の研究では、認知神経科学に基づいて効率的なメモリワークフローを設計することに焦点が当てられるようになってきている。しかし、学際的な障壁に制約され、既存の研究は人間の記憶メカニズムの本質を十分に取り込むのに苦労している。このギャップを埋めるため、我々は認知神経科学の知見と言語モデル駆動エージェントを結びつけ、記憶に関する学際的知識を体系的に統合する。具体的には、まず認知神経科学から大規模言語モデル、さらにエージェントへと至る進化的軌跡に沿って、記憶の定義と機能を明らかにする。次に、生物学的視点と人工的視点の双方から、記憶の分類法、記憶貯蔵メカニズム、そして完全な管理ライフサイクルに関する比較分析を行う。その後、エージェントの記憶を評価する主流のベンチマークを概観する。加えて、攻撃と防御の二つの視点から記憶のセキュリティについて探求する。最後に、マルチモーダル記憶システムとスキル獲得に焦点を当てた将来の研究方向性を展望する。
視覚言語動作(VLA)モデルは言語条件付きの長期的ロボット操作を実現してきたが、既存システムの多くはグリッパーに限定されている。高自由度な五指ロボットハンドを備えた両腕ロボットへのVLAポリシーの拡張は、動作空間の拡大、頻繁なハンドと対象物のオクルージョン、実機データ収集のコストといった課題により困難が伴う。本論文では両腕五指ロボットにおけるVLAベースの汎用操作のための統合的ハードウェア・モデル・データフレームワーク「GR-Dexter」を提案する。本アプローチでは、コンパクトな21自由度ロボットハンドの設計、実機データ収集のための直感的な両腕遠隔操作システム、遠隔操作によるロボット軌道データと大規模視覚言語データセット、厳選されたクロスエンボディメントデータセットを活用した学習手法を組み合わせている。日常的な長期的操作と一般化可能なピックアンドプレースを含む実世界評価において、GR-Dexterはドメイン内で高い性能を発揮し、未見の物体や未見の指示に対するロバスト性の向上を実現した。GR-Dexterが汎用五指ロボット操作に向けた実践的な一歩となることを期待する。
テキストからビデオ(T2V)生成における最近の進展は良好な視覚的品質を達成しているが、物理法則に忠実に従うビデオの合成は未解決の課題である。既存のグラフィックスベースやプロンプト拡張を主とした手法は、単純なシミュレーション環境を超えた一般化や暗黙的な物理推論の学習に苦戦している。豊富な物理的相互作用や現象を含む学習データの不足も問題となっている。本論文ではまず、思考連鎖推論を備えた視覚言語モデル(VLM)を活用して大規模学習データセットPhyVidGen-135Kを収集する物理拡張ビデオデータ構築パイプライン「PhyAugPipe」を提案する。次に、ペアワイズ比較を超えた全体的な選好を捉えるために、グループ単位のプラケット・ルース確率モデルに基づく原理的な物理認識グループ単位直接選好最適化フレームワーク「PhyGDPO」を定式化する。PhyGDPOでは、VLMベースの物理報酬を埋め込んで物理的一貫性に向けた最適化を導く「物理誘導報酬(PGR)」スキームを設計する。さらに、メモリ負荷の高い参照モデルの複製を排除する効率的な訓練手法「LoRA-Switch Reference(LoRA-SR)」スキームを提案する。実験結果では、PhyGenBenchおよびVideoPhy2において、我々の手法が最先端のオープンソース手法を大幅に上回る性能を示す。詳細なビデオ結果はプロジェクトページ(https://caiyuanhao1998.github.io/project/PhyGDPO)で確認可能。コード、モデル、データはhttps://github.com/caiyuanhao1998/Open-PhyGDPOで公開予定。
本論文は、Joint Audio-Video (JAV) の理解と生成を統合的に行う初のマルチモーダル大規模言語モデル (MLLM) である JavisGPT を提案する。JavisGPT は、事前学習済みの JAV-DiT 生成器と連携するための時空間的音声-映像融合を行う SyncFusion モジュールと、同期を考慮した学習可能なクエリを特徴とする、簡潔なエンコーダ-LLM-デコーダ構造を採用している。この設計により、マルチモーダルな指示から時間的に一貫性のある映像-音声の理解と生成が可能となる。既存の視覚言語モデルからマルチモーダルな理解と生成能力を段階的に構築するため、マルチモーダル事前学習、音声-映像ファインチューニング、大規模指示チューニングからなる効果的な3段階の学習パイプラインを設計した。これを支援するため、多様かつ多段階の理解・生成シナリオにわたる20万以上の GPT-4o によって精選された音声-映像-テキスト対話を含む、高品質な指示データセット JavisInst-Omni を構築した。JAV の理解と生成に関するベンチマークでの広範な実験により、JavisGPT が既存の MLLM を凌駕し、特に複雑で時間的同期が要求される設定において優れた性能を発揮することを示す。
本論文では、長時間ビデオを短いコンテキストに圧縮するニューラルネットワーク構造PFPを提案する。この手法は、任意の時間位置における単一フレームの高周波詳細を保持することを明示的な事前学習目標としている。ベースラインモデルは20秒のビデオを約5kトークン長のコンテキストに圧縮可能であり、ランダムに抽出したフレームを知覚的に劣化の少ない状態で復元できる。このように事前学習されたモデルは、オートレグレッシブ動画モデルのメモリエンコーダとして直接ファインチューニングが可能であり、低コンテキストコストかつ比較的高い忠実度で長時間の履歴記憶を実現する。本フレームワークについて削除実験による評価を行い、ニューラルネットワーク構造設計におけるトレードオフについて考察する。
高リスク意思決定は、将来の不確実性を伴う推論を必要とします。本研究では、言語モデルに対してオープンエンドな予測質問に関する予測を行うよう訓練します。訓練データを拡大するため、日々のニュースで報道される国際的な出来事から、完全に自動化された注意深い選定レシピを用いて新規の予測質問を合成します。私たちはOpenForesightデータセットを用いてQwen3思考モデルを訓練しました。訓練と評価における将来情報の漏洩を防ぐため、データ生成と予測システムにおける検索の両方にオフラインニュースコーパスを採用しています。小規模な検証セットに基づき、検索の利点と、強化学習(RL)における改良された報酬関数の効果を実証します。最終的な予測システムを構築後、2025年5月から8月にかけて保留検定を実施しました。専門化されたモデルであるOpenForecaster 8Bは、はるかに大規模なプロプライエタリモデルに匹敵する性能を示し、私たちの訓練が予測の精度、較正、一貫性を向上させることが確認されました。予測訓練による較正の改善効果は、一般的なベンチマーク全体に一般化することが分かりました。言語モデル予測に関する研究の広範な発展を促進するため、すべてのモデル、コード、データをオープンソースとして公開します。
近年の大規模言語モデル(LLM)の推論能力は向上しているものの、推論プロセスにおける内部メカニズムは未解明な部分が多い。従来のアプローチでは、単語レベルで人間が定義した概念(例:過剰推論、内省)を用いて、教師あり手法で推論を分析することが多かった。しかし、潜在的な推論行動の全容を捉えることは不可能であり、多くの行動はトークン空間で定義することが困難であるため、こうした手法には限界がある。本研究では、推論ベクトル(異なる推論行動を符号化する活性化空間内の方向性と定義)を発見するための教師なしフレームワーク(RISE: Reasoning behavior Interpretability via Sparse auto-Encoder)を提案する。連鎖思考(chain-of-thought)の軌跡を文レベルの「ステップ」に分割し、ステップ単位の活性化に対してスパースオートエンコーダ(SAE)を学習させることで、内省やバックトラッキングといった解釈可能な行動に対応する分離された特徴を抽出する。可視化とクラスタリング分析により、これらの行動がデコーダ列空間内で分離可能な領域を占めることが示される。さらに、SAEから得られたベクトルに対する標的介入により、特定の推論行動を制御的に増幅または抑制でき、再学習なしで推論軌道を変更できる。行動特異的な分離に加えて、SAEは応答長などの構造的特性も捉え、長い推論軌跡と短い推論軌跡のクラスタを明らかにする。より興味深いことに、SAEは人間の監督を超えた新規行動の発見を可能にする。SAEデコーダ空間内の信頼度関連ベクトルを同定することで、応答の信頼度を制御する能力を実証する。これらの発見は、教師なし潜在発見がLLMの推論を解釈し制御する上で有効である可能性を示唆している。
本論文では、空間と時間を分離して制御可能な生成レンダリングを実現するビデオ拡散モデル「SpaceTimePilot」を提案する。単眼ビデオを入力として、SpaceTimePilotは生成プロセス内でカメラ視点と動きのシーケンスを独立に変更し、空間と時間にわたる連続的かつ任意の探索のためにシーンを再レンダリングすることができる。これを実現するため、拡散過程に効果的なアニメーション時間埋め込みメカニズムを導入し、ソースビデオに対する出力ビデオの動きシーケンスの明示的な制御を可能にした。同一の動的シーンにおける連続的時間変動を持つペアビデオを提供するデータセットが存在しないため、既存の多視点データセットを時間差を模倣するように再利用する、簡潔かつ効果的な時間ワーピング訓練スキームを提案する。この戦略は、モデルが時間制御を学習し、ロバストな時空間分離を達成することを効果的に監督する。二重制御の精度をさらに高めるため、2つの追加コンポーネントを導入する:最初のフレームからカメラを変更可能にする改良されたカメラ条件付けメカニズムと、シーン内で完全に自由な時空間ビデオ軌道を提供する初の合成的時空間フルカバレッジレンダリングデータセット「CamxTime」である。時間ワーピングスキームとCamxTimeデータセットによる共同訓練は、より精密な時間制御を実現する。SpaceTimePilotを実世界データおよび合成データで評価し、従来研究と比較して明瞭な時空間分離と強力な結果を示す。プロジェクトページ: https://zheninghuang.github.io/Space-Time-Pilot/ コード: https://github.com/ZheningHuang/spacetimepilot
拡散モデルは(条件付き)データ分布全体を捕捉する強力な能力を示す。しかしながら、低確率領域をカバーすることを学習するための十分な訓練とデータが不足しているため、モデルはこれらの領域に対応する高品質な画像を生成できないことに対してペナルティを受けることになる。より良い生成品質を達成するために、Classifier Free Guidance (CFG) のようなガイダンス戦略は、サンプリング段階においてサンプルを高確率領域へと導くことができる。しかし、標準的なCFGは往々にして過度に単純化された、あるいは歪んだサンプルを生み出す。一方、劣化版の拡散モデルを用いてガイダンスを行う別の手法は、注意深く設計された劣化戦略、追加の訓練、および余分なサンプリングステップによって制限されている。本論文では、我々はシンプルかつ効果的な戦略であるInternal Guidance (IG)を提案する。これは、訓練過程において中間層への補助的な監督を導入し、サンプリング過程において中間層および深層の出力を外挿することで生成結果を得るものである。このシンプルな戦略は、様々なベースラインにおいて、訓練効率と生成品質の両方で顕著な改善をもたらす。ImageNet 256x256において、SiT-XL/2+IGは80エポックおよび800エポックでそれぞれFID=5.31、FID=1.75を達成する。さらに印象的なことに、LightningDiT-XL/1+IGはFID=1.34を達成し、これら全ての手法間で大きな差をつけた。CFGと組み合わせることで、LightningDiT-XL/1+IGは現在のstate-of-the-artであるFID 1.19を達成する。
自律走行車やドローンを含む自律システムの急速な進展に伴い、マルチモーダルな搭載センサーデータから真の空間知能を構築する必要性が高まっている。基盤モデルは単一モダリティの文脈では優れた性能を発揮するものの、カメラやLiDARといった多様なセンサー間で能力を統合し、統一的な理解を創出することは依然として困難な課題である。本論文は、この目標に向けた進歩を推進する中核的技術群を特定し、マルチモーダル事前学習の包括的フレームワークを提示する。我々は、基本的なセンサー特性と学習戦略の相互作用を分析し、これらの進歩を可能にするプラットフォーム固有データセットの役割を評価する。主な貢献は、事前学習パラダイムの統一的分類体系の確立である:単一モダリティのベースラインから、3D物体検出やセマンティック占有予測といった高度なタスクのための統合的な表現を学習する洗練された統一フレームワークまでを含む。さらに、オープンワールド知覚と計画を促進するためのテキスト入力と占有表現の統合について検討する。最後に、計算効率やモデルの拡張性といった重大なボトルネックを特定し、実世界での展開に耐える堅牢な空間知能を実現する汎用マルチモーダル基盤モデルへのロードマップを提案する。
呼吸音分類は、ICBHI 2017のようなベンチマークデータセットのデータサイズの限界、高ノイズレベル、深刻なクラス不均衡によって妨げられている。Transformerベースモデルは強力な特徴抽出能力を提供するが、このような制約の多い医療データで学習すると、過学習を起こしやすく、損失ランドスケープの急峻な最小値に収束しがちである。この問題に対処するため、我々はシャープネス意識最小化(SAM)を用いてAudio Spectrogram Transformer(AST)を強化するフレームワークを提案する。単に訓練損失を最小化するのではなく、本手法は損失面の幾何学的構造を最適化し、モデルを未見の患者データに対しても汎化性能の高い、より平坦な最小値へと導く。さらに、クラス不均衡を効果的に処理するための重み付きサンプリング戦略も実装する。我々の手法は、ICBHI 2017データセットにおいて68.10%という最新のスコアを達成し、既存のCNNおよびハイブリッドベースライン手法を上回った。より重要なことに、信頼性の高い臨床スクリーニングにとって極めて重要な改善である、68.31%の感度(感度)に到達した。t-SNEおよびアテンションマップを用いた詳細分析により、本モデルが背景ノイズを記憶するのではなく、ロバストで識別性の高い特徴を学習していることが確認された。
複雑な推論問題には、テキストに明示的に符号化されていない暗黙的な空間的・幾何学的・構造的関係が含まれることが多い。近年の推論モデルは多くの領域で高い性能を達成しているが、純粋にテキストベースの推論では、複雑な状況における大域的な構造的制約を表現することが困難である。本論文では、能動的な視覚的思考をエンドツーエンドの強化学習によりマルチターン推論に統合するFIGRを提案する。FIGRは、問題解決過程で視覚的表現を構築することにより、中間的な構造仮説を外在化する。視覚的推論をいつ、どのように呼び出すかを適応的に制御することで、テキストのみからは捉えにくい大域的な構造特性に対する、より安定かつ首尾一貫した推論を実現する。難易度の高い数学的推論ベンチマークによる実験により、FIGRが強力なテキストのみの連鎖思考ベースラインを上回る性能を示すことを確認した。特に、FIGRはベースモデルに対し、AIME 2025で13.12%、BeyondAIMEで11.00%の改善をもたらし、図形誘導型マルチモーダル推論が複雑な推論の安定性と信頼性を向上させる効果の高さを明らかにした。
近年、ビデオ言語モデルは映像理解において大きな可能性を示しているが、イベントレベルの知覚における正確な時間的定位には依然として課題を抱えている。我々は、映像理解における二つの主要要素(すなわち、時間的定位とテキスト応答)が論理的な階層を形成していることを観察した:正確な時間的証拠の定位が、信頼性の高いテキスト応答の基盤となる。しかし、既存研究では通常、これら二つのタスクを明確な論理構造なく結合的に扱っており、最適ではない目的関数設定につながっている。我々はこの問題を、分解された学習の観点からアプローチする。まず、これら二つのタスクの学習を分離しつつ、その内在的な依存関係も強調する枠組みであるD^2VLMを提案する。我々は「証拠に基づく定位を行った後、回答する」というパラダイムを採用し、証拠定位のための証拠トークンを導入する。これは既存研究でのタイムスタンプ表現への注視を超えて、イベントレベルの視覚的意味捕捉を重視するものである。さらにこれら二つのタスクの学習を促進するため、新たな因子分解選好最適化(FPO)アルゴリズムを導入する。標準的な選好最適化とは異なり、FPOは確率的時間的定位モデリングを明示的に最適化目的に組み込み、時間的定位とテキスト応答の両方に対する選好学習を可能にする。また、明示的な時間的定位を伴う因子分解選好学習に適したデータセットの不足に対処するため、合成データセットを構築した。様々なタスクにおける実験は、我々のアプローチの明確な優位性を示している。ソースコードはhttps://github.com/nusnlp/d2vlm で公開されている。
戦略的対話では、エージェントが個別の発話行為を実行する必要があり、そのためには信念推定が不可欠である。従来の研究では信念を正確に推定するものが多いが、生成時にそれらの信念を利用する原理的なメカニズムが欠如している。我々はこの隔たりを埋めるため、まず「敵対的」と「協調的」という二つの核心的行為を形式化し、それらをエージェントが生成し得る発話に対する確率的制約として操作化する。この考え方を具体化したBEDAフレームワークは、世界集合、信念推定のための信念推定器、および推定された信念と整合性のある行為の選択と発話の実現を行う条件付き生成器で構成される。Conditional Keeper Burglar(CKBG、敵対的)、Mutual Friends(MF、協調的)、CaSiNo(交渉)の3設定において、BEDAは強力なベースラインを一貫して上回った:CKBGではバックボーン間で成功率を少なくとも5.0ポイント向上させ、GPT-4.1-nanoでは20.6ポイントの向上を達成;Mutual Friendsでは平均9.3ポイントの改善を達成;CaSiNoでは全てのベースラインに対して最適な合意を達成した。これらの結果は、信念推定を制約として定式化することが、信頼性の高い戦略的対話のための簡潔で汎用的なメカニズムを提供することを示唆している。
現代のAIシステムは、浮動小数点演算を用いて保存・検索されるベクトル埋め込みに依存している。近似類似性検索には有効だが、この設計は根本的な非決定性を導入する。同一のモデル、入力、コードでも、ハードウェアアーキテクチャ(x86対ARMなど)が異なると、メモリ状態や検索結果が異なる可能性がある。これにより再現性が損なわれ、安全なデプロイが妨げられ、検知困難なデータの不一致が生じる。結果として、規制業界における事後的検証や監査証跡が損なわれる。本論文では、浮動小数点メモリ操作を固定小数点演算(Q16.16)で置き換え、メモリを再現可能な状態機械としてモデル化する、決定論的AIメモリ基盤「Valori」を提案する。Valoriは、プラットフォーム間でビット単位で同一のメモリ状態、スナップショット、検索結果を保証する。非決定性がインデックス作成や検索の前段階で発生することを示し、Valoriがメモリ境界で如何に決定性を強制するかを説明する。我々の結果は、決定論的メモリが信頼できるAIシステムの必須の基本要素であることを示唆する。リファレンス実装はオープンソースであり、https://github.com/varshith-Git/Valori-Kernel で利用可能である(アーカイブは https://zenodo.org/records/18022660)。