papers.description
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
Agent Skills are structured packages of procedural knowledge that augment LLM agents at inference time. Despite rapid adoption, there is no standard way to measure whether they actually help. We present SkillsBench, a benchmark of 86 tasks across 11 domains paired with curated Skills and deterministic verifiers. Each task is evaluated under three conditions: no Skills, curated Skills, and self-generated Skills. We test 7 agent-model configurations over 7,308 trajectories. Curated Skills raise average pass rate by 16.2 percentage points(pp), but effects vary widely by domain (+4.5pp for Software Engineering to +51.9pp for Healthcare) and 16 of 84 tasks show negative deltas. Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming. Focused Skills with 2--3 modules outperform comprehensive documentation, and smaller models with Skills can match larger models without them.
Nous présentons GLM-5, un modèle de fondation de nouvelle génération conçu pour faire évoluer le paradigme de la programmation intuitive vers l'ingénierie agentique. S'appuyant sur les capacités agentiques, de raisonnement et de codage (ARC) de son prédécesseur, GLM-5 adopte l'architecture DSA pour réduire significativement les coûts d'entraînement et d'inférence tout en maintenant une fidélité contextuelle étendue. Pour faire progresser l'alignement et l'autonomie du modèle, nous mettons en œuvre une nouvelle infrastructure d'apprentissage par renforcement asynchrone qui améliore radicalement l'efficacité post-entraînement en découplant la génération de l'entraînement. De plus, nous proposons de nouveaux algorithmes asynchrones d'apprentissage par renforcement pour agents, qui améliorent davantage la qualité de l'apprentissage par renforcement, permettant au modèle d'apprendre plus efficacement à partir d'interactions complexes et de long terme. Grâce à ces innovations, GLM-5 obtient des performances de pointe sur les principaux benchmarks ouverts. Plus crucial encore, GLM-5 démontre une capacité sans précédent dans les tâches de codage réelles, surpassant les références antérieures dans la gestion des défis de l'ingénierie logicielle de bout en bout. Le code, les modèles et des informations supplémentaires sont disponibles à l'adresse https://github.com/zai-org/GLM-5.
Alors que les agents de grands modèles linguistiques peuplent de plus en plus les environnements en réseau, une question fondamentale se pose : les sociétés d'agents d'intelligence artificielle (IA) subissent-elles des dynamiques de convergence similaires aux systèmes sociaux humains ? Moltbook représente récemment un scénario futur plausible dans lequel des agents autonomes participent à une société en ligne ouverte et en évolution continue. Nous présentons le premier diagnostic systémique à grande échelle de cette société d'agents IA. Au-delà de l'observation statique, nous introduisons un cadre diagnostique quantitatif pour l'évolution dynamique des sociétés d'agents IA, mesurant la stabilisation sémantique, le renouvellement lexical, l'inertie individuelle, la persistance d'influence et le consensus collectif. Notre analyse révèle un système en équilibre dynamique dans Moltbook : bien que les moyennes sémantiques globales se stabilisent rapidement, les agents individuels conservent une grande diversité et un renouvellement lexical persistant, défiant l'homogénéisation. Cependant, les agents présentent une forte inertie individuelle et une réponse adaptative minimale aux partenaires d'interaction, empêchant l'influence mutuelle et le consensus. Par conséquent, l'influence reste transitoire sans super-nœuds persistants, et la société ne parvient pas à développer des ancrages d'influence collective stables en raison de l'absence de mémoire sociale partagée. Ces résultats démontrent que l'échelle et la densité d'interaction seules sont insuffisantes pour induire une socialisation, fournissant des principes actionnables de conception et d'analyse pour les prochaines sociétés d'agents IA de nouvelle génération.
We introduce ResearchGym, a benchmark and execution environment for evaluating AI agents on end-to-end research. To instantiate this, we repurpose five oral and spotlight papers from ICML, ICLR, and ACL. From each paper's repository, we preserve the datasets, evaluation harness, and baseline implementations but withhold the paper's proposed method. This results in five containerized task environments comprising 39 sub-tasks in total. Within each environment, agents must propose novel hypotheses, run experiments, and attempt to surpass strong human baselines on the paper's metrics. In a controlled evaluation of an agent powered by GPT-5, we observe a sharp capability--reliability gap. The agent improves over the provided baselines from the repository in just 1 of 15 evaluations (6.7%) by 11.5%, and completes only 26.5% of sub-tasks on average. We identify recurring long-horizon failure modes, including impatience, poor time and resource management, overconfidence in weak hypotheses, difficulty coordinating parallel experiments, and hard limits from context length. Yet in a single run, the agent surpasses the solution of an ICML 2025 Spotlight task, indicating that frontier agents can occasionally reach state-of-the-art performance, but do so unreliably. We additionally evaluate proprietary agent scaffolds including Claude Code (Opus-4.5) and Codex (GPT-5.2) which display a similar gap. ResearchGym provides infrastructure for systematic evaluation and analysis of autonomous agents on closed-loop research.
Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.
Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.
The Platonic Representation Hypothesis suggests that representations from neural networks are converging to a common statistical model of reality. We show that the existing metrics used to measure representational similarity are confounded by network scale: increasing model depth or width can systematically inflate representational similarity scores. To correct these effects, we introduce a permutation-based null-calibration framework that transforms any representational similarity metric into a calibrated score with statistical guarantees. We revisit the Platonic Representation Hypothesis with our calibration framework, which reveals a nuanced picture: the apparent convergence reported by global spectral measures largely disappears after calibration, while local neighborhood similarity, but not local distances, retains significant agreement across different modalities. Based on these findings, we propose the Aristotelian Representation Hypothesis: representations in neural networks are converging to shared local neighborhood relationships.
Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available https://github.com/mts-ai/COMPOT{here}.
Current research in multimodal models faces a key challenge where enhancing generative capabilities often comes at the expense of understanding, and vice versa. We analyzed this trade-off and identify the primary cause might be the potential conflict between generation and understanding, which creates a competitive dynamic within the model. To address this, we propose the Reason-Reflect-Refine (R3) framework. This innovative algorithm re-frames the single-step generation task into a multi-step process of "generate-understand-regenerate". By explicitly leveraging the model's understanding capability during generation, we successfully mitigate the optimization dilemma, achieved stronger generation results and improved understanding ability which are related to the generation process. This offers valuable insights for designing next-generation unified multimodal models. Code is available at https://github.com/sen-ye/R3.
Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.
Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
L'apprentissage par renforcement (RL) a considérablement amélioré le raisonnement des grands modèles de langage, mais les méthodes existantes de réglage fin par RL reposent fortement sur des techniques heuristiques telles que la régularisation par entropie et la pondération pour maintenir la stabilité. En pratique, elles subissent souvent un effondrement des performances en phase avancée, conduisant à une dégradation de la qualité du raisonnement et à un apprentissage instable. Nous démontrons que l'amplitude des gradients de politique par token en RL est négativement corrélée à la probabilité du token et à l'entropie locale de la politique. Sur la base de ce résultat, nous prouvons que l'instabilité de l'apprentissage est pilotée par une infime fraction de tokens, environ 0,01 %, que nous nommons tokens parasites. Lorsque de tels tokens apparaissent dans des réponses correctes, ils contribuent peu au résultat du raisonnement mais héritent de la récompense complète au niveau de la séquence, conduisant à des mises à jour de gradient anormalement amplifiées. Motivés par cette observation, nous proposons l'Optimisation de Politique Sensible aux Tokens Parasites (STAPO) pour le raffinement de modèles à grande échelle, qui masque sélectivement ces mises à jour et renormalise la perte sur les tokens valides. Sur six benchmarks de raisonnement mathématique utilisant les modèles de base Qwen 1.7B, 8B et 14B, STAPO démontre constamment une stabilité d'entropie supérieure et obtient une amélioration moyenne des performances de 7,13 % par rapport à GRPO, 20-Entropy et JustRL.
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
Bien que les grands modèles de langage (LLM) démontrent des connaissances médicales de niveau expert, l'alignement de leurs réponses ouvertes avec les préférences fines des cliniciens reste un défi. Les méthodes existantes reposent souvent sur des objectifs grossiers ou des évaluateurs automatisés peu fiables, faiblement ancrés dans les recommandations professionnelles. Nous proposons un cadre en deux étapes pour combler cette lacune. Premièrement, nous présentons HealthRubrics, un jeu de données de 7 034 exemples de préférences vérifiées par des médecins, dans lesquels des cliniciens améliorent des grilles d'évaluation rédigées par des LLM pour répondre à des standards médicaux rigoureux. Deuxièmement, nous distillons ces grilles en HealthPrinciples : 119 principes largement réutilisables, ancrés cliniquement et organisés par dimensions cliniques, permettant une supervision scalable au-delà de l'annotation manuelle. Nous utilisons HealthPrinciples pour (1) un alignement hors ligne en synthétisant des grilles pour des requêtes non labellisées et (2) un outil à l'inférence pour une auto-révision guidée. Un modèle de 30 milliards de paramètres n'activant que 3 milliards de paramètres à l'inférence, entraîné avec notre cadre, atteint 33,4 % sur HealthBench-Hard, surpassant des modèles bien plus grands comme Deepseek-R1 et o3, établissant ainsi une base de référence économe en ressources pour l'alignement clinique.
Pour le déploiement de modèles de fondation, les praticiens ont un besoin croissant de lois d'échelle prescriptives : étant donné un budget de calcul pour le pré-entraînement, quelle précision en aval est atteignable avec les pratiques contemporaines de post-entraînement, et quelle est la stabilité de cette correspondance à mesure que le domaine évolue ? En utilisant des évaluations observationnelles à grande échelle avec 5 000 données observationnelles et 2 000 nouvelles données échantillonnées sur les performances des modèles, nous estimons les frontières de capacité, c'est-à-dire les quantiles conditionnels élevés des scores de référence en fonction du logarithme des FLOPs de pré-entraînement, via une régression quantile lissée avec une paramétrisation sigmoïde monotone et saturante. Nous validons la fiabilité temporelle en ajustant le modèle sur des générations antérieures de modèles et en évaluant sur des versions ultérieures. Sur diverses tâches, les frontières estimées sont majoritairement stables, à l'exception du raisonnement mathématique qui présente une frontière en progression constante dans le temps. Nous étendons ensuite notre approche pour analyser la saturation dépendante de la tâche et pour sonder les décalages liés à la contamination sur les tâches de raisonnement mathématique. Enfin, nous introduisons un algorithme efficace qui retrouve des frontières de données quasi complètes en utilisant environ 20 % du budget d'évaluation. Ensemble, notre travail publie le Proteus 2k, la dernière base de données d'évaluation des performances des modèles, et introduit une méthodologie pratique pour traduire les budgets de calcul en attentes de performance fiables et pour surveiller les décalages des frontières de capacité dans le temps.
Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.
Les modèles du monde nécessitent une compréhension relationnelle robuste pour étayer la prédiction, le raisonnement et le contrôle. Bien que les représentations centrées sur les objets fournissent une abstraction utile, elles ne suffisent pas à capturer les dynamiques dépendantes des interactions. Nous proposons donc C-JEPA, un modèle du monde simple et flexible centré sur les objets, qui étend la prédiction par embedding conjoint masqué des patchs d'image aux représentations centrées sur les objets. En appliquant un masquage au niveau des objets qui nécessite de déduire l'état d'un objet à partir des autres objets, C-JEPA induit des interventions latentes ayant des effets similaires au contrefactuel et empêche les solutions de raccourci, rendant le raisonnement interactionnel essentiel. Empiriquement, C-JEPA conduit à des gains constants en réponse à des questions visuelles, avec une amélioration absolue d'environ 20 % dans le raisonnement contrefactuel par rapport à la même architecture sans masquage au niveau des objets. Sur les tâches de contrôle d'agent, C-JEPA permet une planification nettement plus efficace en n'utilisant que 1 % des caractéristiques latentes d'entrée totales requises par les modèles du monde basés sur des patchs, tout en atteignant des performances comparables. Enfin, nous fournissons une analyse formelle démontrant que le masquage au niveau des objets induit un biais inductif causal via des interventions latentes. Notre code est disponible à l'adresse https://github.com/galilai-group/cjepa.
Le traitement efficace de contextes longs reste un défi crucial pour les grands modèles de langage (LLM) contemporains, particulièrement dans des environnements à ressources limitées. Les architectures de compression douce promettent d'étendre la longueur de contexte effective en remplaçant de longues séquences de tokens par des ensembles plus réduits de tokens compressés appris. Pourtant, les limites de la compressibilité – et le moment où la compression commence à effacer le contenu pertinent pour la tâche – restent insuffisamment explorées. Dans cet article, nous définissons le débordement de tokens comme un régime dans lequel les représentations compressées ne contiennent plus suffisamment d'informations pour répondre à une requête donnée, et nous proposons une méthodologie pour le caractériser et le détecter. Dans le cadre de la compression douce xRAG, nous constatons que les statistiques de saturation indépendantes de la requête séparent de manière fiable les représentations de tokens compressés des non compressés, fournissant un outil pratique pour identifier les tokens compressés mais montrant une capacité limitée de détection de débordement. Des classifieurs sonde légers appliqués aux représentations xRAG de la requête et du contexte détectent le débordement avec une AUC-ROC moyenne de 0,72 sur les jeux de données HotpotQA, SQuADv2 et TriviaQA, démontrant que l'intégration d'informations de la requête améliore les performances de détection. Ces résultats marquent une avancée des diagnostics indépendants de la requête vers des détecteurs sensibles à la requête, permettant un pré-filtrage peu coûteux en amont du LLM pour atténuer les erreurs induites par la compression.
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
Clawdbot est un agent d'IA personnel auto-hébergé utilisant des outils, doté d'un large espace d'action couvrant l'exécution locale et les flux de travail médiés par le web, ce qui soulève des préoccupations accrues en matière de sécurité dans des contextes ambigus ou sous pilotage adverse. Nous présentons une évaluation centrée sur les trajectoires de Clawdbot selon six dimensions de risque. Notre suite de tests échantillonne et adapte légèrement des scénarios issus de benchmarks antérieurs sur la sécurité des agents (notamment ATBench et LPS-Bench) et les complète par des cas conçus manuellement, spécifiquement adaptés à la surface d'outillage de Clawdbot. Nous enregistrons les trajectoires d'interaction complètes (messages, actions, arguments des appels d'outils, sorties) et évaluons la sécurité à l'aide d'un juge automatique de trajectoires (AgentDoG-Qwen3-4B) et d'une revue humaine. Sur 34 cas canoniques, nous observons un profil de sécurité non uniforme : les performances sont généralement cohérentes sur les tâches axées sur la fiabilité, tandis que la plupart des échecs surviennent face à une intention sous-spécifiée, des objectifs ouverts ou des invites d'échappement (jailbreak) apparemment bénignes, où des interprétations erronées mineures peuvent dégénérer en actions d'outil à impact plus élevé. Nous avons complété les résultats globaux par des études de cas représentatives et résumé les points communs de ces cas, analysant les vulnérabilités de sécurité et les modes de défaillance typiques que Clawdbot tend à déclencher en pratique.
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.