翻訳付きの日次キュレーションされたAI研究論文
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間が解釈可能なスパースな特徴量の集合に分解することで、ネットワークの解釈を可能にする有望なツールとして登場しました。近年の研究では複数のSAE変種が導入され、フロンティアモデルへのスケーリングに成功しています。しかしながら、下流タスクにおける否定的な結果が増加していることから、SAEが意味のある特徴量を真に回復しているかどうか疑問が投げかけられています。この問題を直接検証するため、我々は二つの相補的な評価を実施しました。既知の真の特徴量を持つ合成設定では、SAEが71%の説明分散を達成しているにもかかわらず、真の特徴量のわずか9%しか回復できないことを実証し、再構成が強力であっても核心的なタスクに失敗していることを示しました。実活性化におけるSAEを評価するため、SAEの特徴量方向またはその活性化パターンをランダム値に制約する三つのベースラインを導入しました。複数のSAEアーキテクチャにわたる大規模な実験を通じて、我々のベースラインが完全学習済みSAEと同等の性能を、解釈可能性(0.87対0.90)、スパースプロービング(0.69対0.72)、因果的編集(0.73対0.72)で達成することを示しました。これらの結果は総合的に、現状のSAEがモデルの内部メカニズムを確実に分解できていないことを示唆しています。
エージェントスキルは、推論時にLLMエージェントを強化する手続き的知識の構造化されたパッケージです。急速に普及しているにもかかわらず、その実際の有用性を測定する標準的な方法は存在しません。本研究では、11のドメインにわたる86タスクから成るベンチマーク「SkillsBench」を提案します。各タスクは、厳選されたスキルと確定的な検証器と組み合わされています。各タスクは、スキルなし、厳選されたスキル、自己生成されたスキルという3つの条件で評価されました。7つのエージェントモデル構成に対し、7,308の軌跡にわたってテストを実施しました。その結果、厳選されたスキルは平均合格率を16.2パーセントポイント(pp)向上させましたが、効果はドメインによって大きく異なり(ソフトウェアエンジニアリングの+4.5ppから医療の+51.9ppまで)、84タスク中16タスクでは負の効果が見られました。自己生成されたスキルは平均的に利益をもたらさず、モデルが消費することで利益を得る手続き的知識を確実に作成できないことが示されました。2~3のモジュールで構成される焦点を絞ったスキルは、網羅的なドキュメントよりも優れた性能を示し、スキルを備えた小型モデルは、スキルなしの大型モデルと同等の性能を発揮し得ることがわかりました。
我々は、次世代基盤モデルであるGLM-5を発表します。本モデルは、Vibe CodingのパラダイムからAgentic Engineeringへの移行を推進するように設計されています。前身モデルのAgentic・推論・コーディング(ARC)能力を発展させたGLM-5は、DSAを採用することで、長文脈の忠実性を維持しつつ、学習コストと推論コストを大幅に削減しています。モデルのアライメントと自律性をさらに高めるため、新たな非同期強化学習インフラを実装し、生成と学習を分離することで学習後効率を劇的に改善しました。さらに、新規の非同期エージェント強化学習アルゴリズムを提案し、強化学習の品質を向上させることで、複雑で長期的なインタラクションからの学習をより効果的に可能にしています。これらの革新を通じて、GLM-5は主要なオープンベンチマークにおいてState-of-the-Artの性能を達成しました。最も重要な点として、GLM-5は実世界のコーディングタスクにおいて前例のない能力を示し、エンドツーエンドのソフトウェアエンジニアリング課題の処理において従来のベースラインを凌駕しています。コード、モデル、詳細情報はhttps://github.com/zai-org/GLM-5で公開されています。
大規模言語モデルエージェントがネットワーク環境に広く普及するにつれ、根本的な疑問が生じる:人工知能(AI)エージェント社会は、人間の社会システムと同様の収束ダイナミクスを経験するのだろうか。最近提案されたMoltbookは、自律エージェントが終わりなき進化を続けるオンライン社会に参加する将来シナリオを近似している。本稿ではこのAIエージェント社会に対する初の大規模体系的診断を提示する。静的な観察を超えて、AIエージェント社会の動的進化を定量化する診断フレームワークを導入し、意味的安定化、語彙の更新率、個人の慣性、影響力の持続性、集団的合意を測定する。我々の分析は、Moltbookにおいて動的均衡が保たれたシステムを明らかにする:大域的な意味的平均は急速に安定化する一方、個々のエージェントは高い多様性と持続的な語彙更新を保持し、均質化に抗っている。しかしながら、エージェントは強い個人の慣性を示し、相互作用相手への適応応答が最小限であるため、相互影響と合意形成が阻害される。結果として、影響力は一時的なものに留まり持続的な超重要节点は出現せず、共有された社会的記憶の欠如により安定した集団的影響力の基盤が発達しない。これらの発見は、規模と相互作用密度だけでは社会化を誘発するには不十分であることを実証し、次世代AIエージェント社会のための実践的な設計・分析原則を提供する。
我々は、AIエージェントのエンドツーエンド研究能力を評価するためのベンチマークおよび実行環境「ResearchGym」を提案する。具体的には、ICML、ICLR、ACLの口頭発表およびスポットライト論文5本を再構築した。各論文のリポジトリからデータセット、評価ハーネス、ベースライン実装を保持する一方、論文で提案された手法自体は除外している。これにより、合計39のサブタスクから構成される5つのコンテナ化されたタスク環境が構築された。各環境内で、エージェントは新たな仮説を提案し、実験を実行し、論文の評価指標において強力な人間のベースラインを超えることを目指さなければならない。 GPT-5を搭載したエージェントの制御評価では、能力と信頼性に顕著な乖離が観察された。エージェントがリポジトリ提供のベースラインを改善したのは15回の評価中わずか1回(6.7%)で、改善幅は11.5%であった。また、サブタスクの平均完了率は26.5%に留まった。我々は、長期的な失敗パターンとして以下を特定した:忍耐力の欠如、時間とリソース管理の不備、弱い仮説への過信、並列実験の調整困難、コンテキスト長による制約。しかし単一の実行において、エージェントはICML 2025スポットライトタスクの解決策を上回り、最先端エージェントが偶発的に最高水準の性能に達し得るものの、再現性に欠けることを示唆した。 さらにClaude Code(Opus-4.5)やCodex(GPT-5.2)などのプロプライエタリなエージェント基盤を評価したところ、同様の乖離が確認された。ResearchGymは、自律エージェントの閉ループ研究における体系的な評価と分析のためのインフラを提供する。
統合モデルは単一のアーキテクティでマルチモーダルな理解と生成の両方を扱えるが、通常は単一パスで動作し、出力を反復的に洗練することはない。多くのマルチモーダルタスク、特に複雑な空間構成や複数の相互作用するオブジェクト、変化する指示を伴うタスクでは、指示の分解、中間結果の検証、反復的な修正が必要となる。テストタイムスケーリング(TTS)では、反復的推論のために推論計算リソースを追加割り当てることが言語モデルの性能を大幅に向上させることが実証されているが、このパラダイムを統合マルチモーダルモデルに拡張することは未解決の課題である。本研究では、単一の統合モデルが複数ラウンドにわたって推論、検証、洗練を行うことを可能にするマルチモーダル連鎖思考型テストタイムスケーリングフレームワーク「UniT」を提案する。UniTは、エージェント的なデータ合成、統合モデル訓練、柔軟なテストタイム推論を組み合わせることで、検証、サブゴール分解、コンテンツメモリといった認知的振る舞いを引き出す。主な発見は以下の通りである:(1)短い推論軌跡で訓練された統合モデルは、テスト時に長い推論連鎖へ一般化する、(2)逐次的な連鎖思考推論は、並列サンプリングよりもスケーラブルで計算効率の高いTTS戦略を提供する、(3)生成と編集の軌跡による訓練は、分布外の視覚推論を改善する。これらの結果は、マルチモーダルテストタイムスケーリングが、統合モデルにおける生成と理解の両方を推進する効果的なパラダイムであることを立証する。
テキスト埋め込みモデルは、情報検索、クラスタリング、分類などの意味的類似性タスクに広く利用されている。汎用モデルは通常、対照損失関数を用いた単段階または多段階のプロセスで学習される。本研究では、モデル蒸留技術とタスク特化的な対照損失を組み合わせた新しい学習手法を提案し、コンパクトで高性能な埋め込みモデルを生成する。このアプローチが、対照学習または蒸留のみの学習パラダイムよりも、小規模モデルの学習において効果的であることを示唆する。開発したモデル「jina-embeddings-v5-text-small」および「jina-embeddings-v5-text-nano」のベンチマークスコアは、同規模のモデルにおける最先端性能を上回るか同等である。jina-embeddings-v5-textモデルシリーズはさらに、多数の言語における長文(最大32kトークン)に対応し、切り詰めや二値量子化下でも頑健な埋め込みを生成する。モデル重みは公開されており、埋め込みモデル開発のさらなる進展に貢献することが期待される。
プラトニック表現仮説は、ニューラルネットワークの表現が現実の共通統計モデルへ収束しつつあることを示唆している。本研究では、既存の表現類似性指標がネットワーク規模によって混同されていることを明らかにする:モデルの深さや幅の増加が、体系的に表現類似性スコアを過大評価するのである。この影響を補正するため、任意の表現類似性指標を統計的保証を持つ較正済みスコアに変換する、順列ベースの帰無較正フレームワークを提案する。較正フレームワークを用いてプラトニック表現仮説を再検討すると、微妙な実態が浮かび上がる:大域的なスペクトル測度が報告した見かけ上の収束は、較正後にはほぼ消失する一方で、局所的近傍類似性(ただし局所距離ではない)は、異なるモダリティ間で有意な一致を保持する。これらの知見に基づき、我々はアリストテレス的表現仮説を提唱する:ニューラルネットワークの表現は、共有された局所的近傍関係へ収束しつつある。
Transformerモデルの事後学習圧縮では、一般に特異値分解(SVD)の切り捨てが利用されます。しかし、単一の共有部分空間を強制することは、中程度の圧縮率であっても精度劣化を招く場合があります。スパース辞書学習は部分空間の和集合によるより柔軟な表現を提供しますが、既存手法では反復的な辞書と係数の更新が課題となります。本論文ではCOMPOT(Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers)を提案します。これは少量のキャリブレーションデータセットを用いてスパースな重み分解を推定する、学習不要の圧縮フレームワークです。COMPOTは直交辞書を採用することで、辞書に対するProcrustes更新を閉形式で実現し、係数に対する解析的な単一ステップのスパースコーディングを可能にし、反復最適化を不要とします。さらに、大域的圧縮バジェット下での層ごとの感度の不均一性に対処するため、層単位の圧縮率を適応的に再配分するワンショット動的割り当て戦略を導入します。多様なアーキテクチャとタスクにおける大規模な実験により、COMPOTが強力な低ランク・スパースベースラインを一貫して上回る品質と圧縮のトレードオフを実現し、極限圧縮のための事後学習量子化と完全に互換性を保つことが示されました。コードはhttps://github.com/mts-ai/COMPOTで公開されています。
現在のマルチモーダルモデル研究では、生成能力の向上と理解能力の向上がトレードオフの関係にあるという重要な課題に直面しています。我々はこの課題を分析し、その主な原因が生成と理解の間に潜在する競合関係、すなわちモデル内での競合的ダイナミクスにある可能性を明らかにしました。この問題に対処するため、我々はReason-Reflect-Refine(R3)フレームワークを提案します。この革新的なアルゴリズムは、単一段階の生成タスクを「生成-理解-再生成」という多段階プロセスへと再構成します。生成過程においてモデルの理解能力を明示的に活用することで、最適化のジレンマを緩和することに成功し、生成プロセスに関連するより強力な生成結果と理解能力の向上を実現しました。これは次世代の統合型マルチモーダルモデル設計に対する貴重な知見を提供します。コードはhttps://github.com/sen-ye/R3で公開されています。
大規模言語モデル(LLM)の学習は、高度に洗練された前処理行列を備えた密な適応型オプティマイザにほぼ独占的に依存している。我々はこれに異を唱え、パラメータ更新をランダムにマスキングする手法が極めて有効であることを実証する。RMSPropのマスキング変種は、最新の最先端オプティマイザを一貫して凌駕する性能を示した。分析の結果、ランダムマスキングが曲率依存の幾何学的正則化を誘発し、最適化軌道を平滑化することが明らかになった。この知見に基づき、我々は運動量-勾配アラインメントを用いてマスキング更新を調整するMomentum-aligned gradient masking(Magma)を提案する。大規模なLLM事前学習実験により、Magmaが計算オーバーヘッドを無視できる程度に抑えつつ、適応型オプティマイザの単純な代替として一貫した性能向上をもたらすことを実証した。特に1Bパラメータモデルでは、MagmaはAdamと比較して19%以上、Muonと比較して9%以上のパープレキシティ低減を達成した。
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
強化学習(RL)は大規模言語モデルの推論能力を大幅に改善してきたが、既存のRLファインチューニング手法は、安定性を維持するためにエントロピー正則化や重み付けなどのヒューリスティックな技術に大きく依存している。実際には、学習の後期段階で性能が急落する現象がしばしば発生し、推論品質の低下や学習の不安定性を引き起こす。本研究では、RLにおけるトークンレベルの方策勾配の大きさが、トークン確率および局所的な方策エントロピーと負の相関を持つことを導出する。この結果に基づき、学習の不安定性が全トークンの約0.01%というごく一部のトークン(これを疑似トークンと称する)によって駆動されていることを証明する。このようなトークンが正解応答中に現れる場合、それらは推論結果にほとんど寄与しないにもかかわらず、シーケンスレベルの報酬を全面的に継承し、異常に増幅された勾配更新を引き起こす。この観察に動機づけられて、大規模モデルの調整のための疑似トークン考慮型方策最適化(STAPO)を提案する。STAPOはこのような更新を選択的にマスクし、有効なトークンに対する損失を再正規化する。Qwen 1.7B、8B、14Bのベースモデルを用いた6つの数学的推論ベンチマークにおいて、STAPOは一貫して優れたエントロピー安定性を示し、GRPO、20-Entropy、JustRLと比較して平均7.13%の性能向上を達成した。
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
明示的なカメラ制御下で将来の観測をシミュレートする予測的世界モデルは、対話型AIの基盤である。急速な進展にもかかわらず、現在のシステムは空間的持続性を欠いており、長い軌跡にわたって安定したシーン構造を維持できず、カメラが過去に観測した位置を再訪した際に詳細を頻繁に幻覚する。この幾何学的ドリフトは、3D一貫性に必要な射影幾何学と矛盾するスクリーン空間位置埋め込みへの依存に起因することを明らかにした。我々はViewRopeを提案する。これはカメラ光線方向をビデオトランスフォーマーの自己注意層に直接注入する幾何学認識エンコーディングである。画素の局所性ではなく相対的光線幾何学で注意をパラメータ化することにより、ViewRopeは時間的隔たりを超えて3D一貫性のあるコンテンツを検索するためのモデル固有の帰納的バイアスを提供する。さらに、幾何学的手がかりを活用して関連する過去フレームを選択的に注意するGeometry-Aware Frame-Sparse Attentionを提案し、メモリ一貫性を犠牲にせずに効率を改善する。また、ループ閉鎖の忠実度と幾何学的ドリフトを測定する診断スイートViewBenchを提示する。結果は、ViewRopeが計算コストを削減しながら長期的な一貫性を大幅に改善することを実証している。
Although large language models (LLMs) demonstrate expert-level medical knowledge, aligning their open-ended outputs with fine-grained clinician preferences remains challenging. Existing methods often rely on coarse objectives or unreliable automated judges that are weakly grounded in professional guidelines. We propose a two-stage framework to address this gap. First, we introduce HealthRubrics, a dataset of 7,034 physician-verified preference examples in which clinicians refine LLM-drafted rubrics to meet rigorous medical standards. Second, we distill these rubrics into HealthPrinciples: 119 broadly reusable, clinically grounded principles organized by clinical dimensions, enabling scalable supervision beyond manual annotation. We use HealthPrinciples for (1) offline alignment by synthesizing rubrics for unlabeled queries and (2) an inference-time tool for guided self-revision. A 30B parameter model that activates only 3B parameters at inference trained with our framework achieves 33.4% on HealthBench-Hard, outperforming much larger models including Deepseek-R1 and o3, establishing a resource-efficient baseline for clinical alignment.
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.
効率的な長文脈処理は、特にリソース制約のある環境において、現代の大規模言語モデル(LLM)にとって重要な課題であり続けている。ソフト圧縮アーキテクチャは、長いトークン列を学習済みの圧縮トークンの小さな集合で置き換えることで、実効的な文脈長を拡張する可能性を秘めている。しかしながら、圧縮可能性の限界、すなわち圧縮がいつタスク関連の内容を消し始めるかについては、未だ十分に研究されていない。本論文では、圧縮された表現が特定のクエリに答えるのに十分な情報を含まなくなる状態を「トークンオーバーフロー」と定義し、これを特徴付け検出する手法を提案する。xRAGソフト圧縮設定において、クエリ非依存の飽和統計量が、圧縮されたトークン表現と非圧縮のトークン表現を確実に分離できることを見出した。これは圧縮トークンを識別する実用的なツールとなるが、オーバーフロー検出能力は限定的であった。一方、クエリと文脈のxRAG表現の両方に対する軽量なプロービング分類器は、HotpotQA、SQuADv2、TriviaQAデータセットにおいて平均0.72のAUC-ROCでオーバーフローを検出し、クエリ情報を組み込むことで検出性能が向上することを実証した。これらの結果は、クエリ非依存の診断からクエリを考慮した検出器への進歩を示し、圧縮に起因するエラーを軽減する低コストなLLM処理前ゲーティングを可能にする。
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
Clawdbotは、ローカル実行とWebを介したワークフローにまたがる広範な行動空間を有する、ツール利用型のセルフホスト個人AIエージェントである。この特性は、曖昧な状況下や敵対的誘導において、安全性とセキュリティに関する懸念を特に高める。本研究では、6つのリスク次元にわたるClawdbotの軌道中心的な評価を提示する。テストスイートは、既存のエージェント安全性ベンチマーク(ATBench、LPS-Benchを含む)からシナリオを抽出して軽微な適応を施し、Clawdbotのツール操作面に特化して手設計したケースで補完した。完全なインタラクション軌道(メッセージ、アクション、ツール呼び出しの引数/出力)を記録し、自動軌道判定器(AgentDoG-Qwen3-4B)と人手レビューの両方を用いて安全性を評価した。34の標準ケース全体で、不均一な安全性プロファイルが明らかになった:信頼性重視タスクでは概ね一貫した性能を示す一方、大部分の失敗は意図が未定義な状況、開放的な目標、あるいは一見無害なジェイルブレイクプロンプトにおいて発生し、些細な誤解が高影響のツールアクションへとエスカレートする可能性が確認された。総合結果を代表的なケーススタディで補完し、これらの事例に共通する特性を要約、Clawdbotが実践で誘発しやすいセキュリティ脆弱性と典型的な故障モードを分析した。
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.