Articles de recherche IA sélectionnés quotidiennement avec traductions
Les agents LLM évoluent de plus en plus dans de grands écosystèmes d'outils, où les tâches du monde réel nécessitent de découvrir les outils pertinents, d'inférer des sous-objectifs implicites et de s'adapter à des environnements dynamiques sur de longs horizons. Cependant, les benchmarks existants évaluent rarement la planification sous une visibilité limitée des outils par la récupération. Pour combler cette lacune, nous présentons PlanBench-XL, un benchmark interactif composé de 327 tâches de vente au détail portant sur 1 665 outils, qui teste la capacité des agents à récupérer itérativement des outils utilisables, à les invoquer pour découvrir des preuves intermédiaires nécessaires aux appels suivants en vue de l'objectif final. PlanBench-XL propose en outre un mécanisme de blocage facultatif qui simule l'imprévisibilité du monde réel via des fonctions d'outils manquantes, défaillantes ou distrayantes, obligeant ainsi les agents à détecter les chemins perturbés et à s'adapter en cours d'exécution. Les expériences menées sur dix LLM leaders montrent que la planification avec de nombreux outils reste un défi : alors que GPT-5.4 atteint une précision de 51,90 % dans des environnements sans blocage, celle-ci chute à 11,36 % sous la condition de blocage la plus sévère. Une analyse plus approfondie révèle que les agents sont particulièrement vulnérables lorsque les échecs ne fournissent pas de signaux d'erreur explicites, ou lorsque la récupération nécessite des chemins d'utilisation d'outils alternatifs plus longs. Ces résultats établissent PlanBench-XL comme un banc d'essai pour diagnostiquer les échecs de planification agentique et soulignent la nécessité d'une planification adaptative robuste dans les tâches à long horizon impliquant de grands environnements d'outils imparfaits.
Modern agent systems often suffer from fragmented runtime state: transcripts, tool effects, memory events, workspace placement, branch provenance, and replay evidence are recorded separately and become difficult to inspect or reproduce. OpenRath addresses this issue with a PyTorch-like programming model for multi-agent, multi-session systems. The analogy concerns the role of a central first-class runtime abstraction, not tensor computation. Its core abstraction is Session, the runtime value passed between agents and workflows. A Session is branchable, inspectable, replayable, backend-aware, and composable. It records conversation chunks, sandbox placement, lineage metadata, token usage, pending work, and tool evidence, while defining where memory interactions enter the runtime record. Since this state is carried by the same value used in program execution, fork, merge, and replay become explicit runtime operations rather than states reconstructed from external traces. OpenRath further defines Sandbox, Tool, Agent, Memory, Workflow, and Selector, with Selector turning control flow into runtime-routed decisions. This report presents the programming model, architecture, audited milestones, and evidence protocol. Its claims are limited to controlled runtime properties, while broad quantitative comparisons, live-provider quality, optional-backend availability, and memory quality are left for follow-on evaluation. The central thesis is that Session provides agent systems with a first-class runtime value for auditable composition.
Les flux multimodaux massifs non structurés souffrent d'une « entropie de données » élevée, entravant à la fois l'acquisition efficace de connaissances humaines et le post-entraînement de haute qualité des IA. Les paradigmes d'annotation passive existants, fortement dépendants de règles heuristiques ou de VLM généraux, sont coûteux, monotones et ne parviennent pas à exploiter la logique procédurale profonde intégrée dans les données brutes. Nous élevons le traitement des données au rang de capacité apprenable, en proposant un changement de paradigme vers un Façonnage Actif des Données par Agent, qui affine et structure activement les données pour les aligner sur diverses intentions d'utilisateurs et en aval. Pour surmonter le goulot d'étranglement de la rareté des données dans l'entraînement de ces capacités de haut niveau, nous concevons un pipeline en deux étapes ancrant la synthèse sémantique générative dans des Ancres Factuelles déterministes, produisant un ensemble de données à grande échelle couvrant cinq domaines physiques et numériques fondamentaux. Sur cette base, le modèle DataClaw_0-9B synergise le Fine-Tuning Supervisé (SFT) avec l'Optimisation Relative des Politiques par Groupe (GRPO), réalisant un alignement robuste avec les intentions complexes de raffinement et de façonnage. Pour quantifier systématiquement cette capacité, nous construisons DataClaw_0-val, le premier benchmark dédié au raffinement des données. Crucialement, nous adoptons le post-entraînement en aval comme pierre de touche ultime de validation. Les évaluations sur la génération vidéo, la VQA du monde réel et la navigation GUI confirment que DataClaw_0 fournit des données façonnées à haute densité d'information, facilitant une adaptation efficace du modèle à de nouvelles tâches sous des régimes de données d'entraînement limités. Page du projet : https://czjdsg.github.io/MakeAnyData
Les agents d'entreprise opèrent de plus en plus dans des espaces de travail : ils lisent des fichiers hétérogènes, invoquent des outils et livrent des artefacts métier. Nous présentons EnterpriseClawBench, un benchmark d'agents d'entreprise construit à partir de sessions d'agents réelles et propriétaires. À partir d'une vaste archive de sessions de travail, EnterpriseClawBench produit 852 tâches reproductibles, chacune accompagnée de fixtures récupérées, d'invites réécrites, de classes de rôles, de sous-classes de compétences, de règles strictes et de grilles sémantiques. Comme les sessions contiennent du contenu interne d'entreprise, nous ne publions pas les données du benchmark ; notre contribution réutilisable est plutôt le protocole de construction et d'évaluation. Sur EnterpriseClawBench, la meilleure configuration n'atteint que 0,663 (Codex avec GPT-5.5). Ces résultats montrent que l'évaluation des agents d'entreprise doit rapporter les combinaisons harnais-modèle, la livraison d'artefacts, la qualité visuelle, le coût, le temps d'exécution et le comportement de transfert de compétences, plutôt que de réduire la performance à un score unique. Code : https://github.com/FrontisAI/EnterpriseClawBench
L'auto-attention est au cœur des performances du Transformer et constitue souvent la partie la plus coûteuse du modèle pour des longueurs de contexte élevées, car ses interactions par paires de tokens augmentent de manière quadratique avec la longueur de la séquence. L'attention dense standard applique également le même ensemble de têtes d'attention à chaque token, indépendamment de sa difficulté ou de son contenu informationnel. Cette activation uniforme peut entraîner un gaspillage de calcul, en particulier lorsque les séquences s'allongent et que le coût de l'attention augmente rapidement. Nous proposons Grouped Query Experts (GQE), une couche de mélange d'experts placée au-dessus de l'attention par requêtes groupées (GQA). Au sein de chaque groupe GQA, un routeur sélectionne k experts de têtes de requête par token, tandis que toutes les têtes clé-valeur (KV) restent denses et inchangées. Ainsi, GQE préserve les avantages du cache KV de GQA et réduit uniquement le calcul actif des têtes de requête. Sur un budget fixe de 30 milliards de tokens à l'échelle de 250 millions de paramètres, GQE atteint la même précision en aval que la ligne de base GQA à activation complète, tout en activant la moitié des têtes de requête par token.
À mesure que les systèmes de recherche passent à l’échelle, un reclassement de haute qualité devient de plus en plus important. Cependant, la plupart des re-rankers existants, qu’ils soient basés sur un encodeur ou un décodeur, encodent conjointement la requête et le passage, couplant ainsi étroitement leur calcul et limitant l’efficacité de déploiement ainsi que la flexibilité. Nous présentons KaLM-Reranker-V1, un re-rankeur rapide mais non à interaction tardive (FBNL) qui dissocie le calcul de la requête et du passage tout en conservant une modélisation expressive de la pertinence. Construit sur une architecture encodeur-décodeur, KaLM-Reranker-V1 utilise l’encodeur pour pré-encoder les passages avec un regroupement d’embeddings Matriochka, tandis que le décodeur modélise l’instruction système, l’instruction utilisateur et l’intention de la requête ; l’attention croisée capture ensuite la pertinence entre le contexte de la requête et les représentations des passages. Cette conception rend KaLM-Reranker-V1 efficace grâce à un encodage des passages découplé, tout en n’étant pas une interaction tardive, en préservant une modélisation riche de la pertinence via l’attention croisée. Nous instancions KaLM-Reranker-V1 en trois tailles, Nano, Small et Large, avec respectivement 0,27B, 1B et 4B de paramètres activés. Des expériences approfondies sur BEIR, MIRACL et LMEB montrent que KaLM-Reranker-V1 obtient de solides performances de reclassement avec une efficacité supérieure. Sur BEIR, KaLM-Reranker-V1 atteint des performances de pointe, comparables à des modèles industriels puissants comme la série Qwen3-Reranker ; sur MIRACL, bien qu’il n’ait pas été largement entraîné sur des données multilingues, KaLM-Reranker-V1 montre d’excellentes performances de reclassement. De plus, sur LMEB, les modèles de reclassement montrent un avantage clair, le modèle Nano de 0,27B restant même compétitif avec des modèles d’embedding de 7 à 12B.
World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.
While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.
Existing embedding models are inherently static: they encode text segments in isolation, ignoring their surrounding context and temporal order. This paper introduces EvoEmbedding, a novel embedding model that generates evolvable representations for retrieval. It is tailored for long-context scenarios, where information is dynamic, sequential, and requires continuous state tracking. Our design is simple: EvoEmbedding maintains a continuously updated latent memory as it sequentially processes inputs, and uses it alongside the raw content to jointly generate evolvable embeddings. Consequently, for the same query, our model adapts its representation to retrieve distinct targets based on the evolving context, going beyond static semantic search. To equip the model with this capability, we construct EvoTrain-180K, a diverse dataset for the joint optimization of latent memory and retrieval. Furthermore, we introduce a memory queue to prevent representation collapse during recurrent encoding, alongside segment-batching techniques that tackle significant length variance and accelerate training by 3.8times. Extensive experiments show that our model not only outperforms larger-scale specialists (e.g., Qwen3-Embedding-8B and KaLM-Embedding-Gemma3-12B) across a range of long-context retrieval benchmarks, but also generalizes well to downstream tasks (e.g., personalization) with contexts 10times longer than its training window. Notably, EvoEmbedding seamlessly integrates into agentic workflows to boost performance. For instance, a naive RAG pipeline equipped with our model surpasses dedicated agentic memory systems. Project Page: https://clare-nie.github.io/EvoEmbedding.
Nous présentons BioMatrix, le premier modèle de fondation multimodal qui intègre de manière native les séquences, les structures et le langage naturel pour les molécules et les protéines au sein d’une architecture exclusivement basée sur un décodeur. Les modèles de fondation biologiques existants abordent séparément la multimodalité native et la couverture étendue des entités : ceux qui fusionnent plusieurs modalités sous un objectif commun restent confinés à un seul type d’entité, tandis que ceux couvrant plusieurs types d’entités omettent soit la modélisation structurale explicite, soit reposent sur des conceptions basées sur des adaptateurs dans lesquelles le modèle ne peut pas générer de manière native les modalités qu’il peut lire. BioMatrix comble cette lacune en cartographiant les séquences moléculaires (prenant en charge les notations SMILES et SELFIES), les structures moléculaires, les séquences protéiques, les structures protéiques et le langage naturel dans un espace de tokens discrets partagé via un schéma de tokenisation unifié, de sorte que toutes les modalités sont consommées et produites uniformément sous un seul objectif de prédiction du prochain token — sans encodeurs externes, adaptateurs de projection ni têtes de sortie spécifiques à une modalité. Construit sur le modèle de langage Qwen3 (1,7B et 4B), BioMatrix est pré-entraîné de manière continue sur 304,4 milliards de tokens couvrant du texte général et spécifique au domaine, des vues de séquences et de structures de molécules et de protéines, ainsi que des corpus intermodaux qui entrelacent des entités biomoléculaires avec du texte scientifique et relient des entités distinctes via des données d’interaction molécule-protéine et protéine-protéine. Après un réglage fin sur un ensemble complet d’applications en aval couvrant 80 tâches réparties en 6 catégories — incluant des tâches de compréhension et de génération pour des entités uniques et multiples, à travers et au sein des modalités — BioMatrix atteint des performances de pointe ou compétitives dans 77 des 80 tâches, démontrant qu’un seul modèle généraliste natif multimodal peut effectivement égaler ou surpasser les approches spécialisées dans un large éventail de tâches biologiques.
The quadratic complexity of attention poses a critical bottleneck for long-context processing, spurring interest in hybrid attention designs. Most open-source hybrid models adopt a layer-wise strategy. Yet, prior work has noted the inherent difficulty of integrating Linear Attention (LA) with Full Attention (FA), suggesting that the design space of attention hybridization remains underexplored. To probe this space, we conduct interpretability analysis and observe that layers exhibit block-wise functional similarity, while individual heads within the same layer display distinct functional specialization despite sharing input features. This head-level heterogeneity suggests that the head dimension provides a natural and principled granularity for fusing heterogeneous attention signals. Building on this insight, we introduce HydraHead, a novel architecture that hybridizes FA and LA along the head axis. HydraHead features two key innovations: (1) an interpretability-driven selection strategy that identifies retrieval-critical heads and preserves FA only for them, and (2) a scale-normalized fusion module that reconciles the distributional gap between FA and LA head outputs. By leveraging a three-stage transfer pipeline with parameter reuse and distillation, we achieve high-performance hybrid models with minimal training overhead. Under a unified training setup, HydraHead outperforms other hybrid designs in long-context tasks while maintaining strong general reasoning. With interpretability-driven head selection, it matches a 3:1 layer-wise hybrid's long-context performance at a 7:1 LA-to-FA ratio. Crucially, trained on only 15B tokens, HydraHead achieves over 69% improvement over the baseline at 512K context length, approaching Qwen3.5, a leading model of comparable size with a native context length of 256K. This highlights the significant scaling potential of head-level hybridization.
Computer-Use Agents (CUAs) are increasingly deployed in dynamic interactive environments, creating a growing need for continual skill learning during interaction. Recent approaches address this challenge by learning reusable skills from successful trajectories. However, these skill learning methods largely assume static and safe environments, overlooking risks from adversarial interactions (e.g., prompt injections) and environmental dynamics (e.g., pop-ups). In dynamic settings, such assumptions can lead to risky skill learning and brittle execution, undermining the reliability of CUAs. This raises the question: how can CUAs learn and use skills safely in dynamic environments? To address this problem, we propose SkillHarness, a framework for safe skill harnessing in dynamic environments. SkillHarness moves beyond static skill abstractions by modeling skill learning and utilization as a safety-constrained interaction process. Specifically, we introduce the skill boundary that leverages multi-source supervision signals to identify safe skills from interaction trajectories, and construct self-improving safety constraints throughout the skill lifecycle. In addition, SkillHarness introduces selective skill reuse, where tasks are guided to decompose according to context and completed through the selective activation of skill subsets. Our experiments demonstrate that SkillHarness significantly reduces the unsafe rate of learned skills by 57.1% and consistently improves execution stability under dynamic environmental changes, outperforming existing baselines.
La génération autorégressive dans les grands modèles de langage (LLMs) décode classiquement à partir de la dernière couche, en supposant que les représentations plus profondes produisent des prédictions de jetons plus fiables. Nous remettons en question cette hypothèse en révélant une dynamique récurrente d'Estimation-Affinement-Perturbation : les premières couches forment des estimations grossières, les couches intermédiaires affinent les sémantiques liées au raisonnement, et les dernières couches peuvent perturber ces prédictions affinées vers des jetons génériques ou préférés par l'alignement. Nous introduisons le Décodage Confiant, une stratégie de décodage sans entraînement qui sélectionne dynamiquement la couche quasi-finale la plus fiable via une recherche arrière conservatrice guidée par l'entropie. Nous fournissons également une formulation théorique de la sélection de couche comme un problème d'arrêt optimal, montrant que sous un bruit de projection borné et une perturbation d'alignement dominante en phase tardive, notre règle de recherche filtre la perturbation tout en limitant la perte par rapport à la couche d'affinement oracle. Des expériences sur des LLMs denses et à mélange d'experts (MoE) montrent des gains constants sur des benchmarks de raisonnement exigeants, notamment GPQA-Diamond, Omni-MATH et HLE, avec une surcharge mémoire nulle et une augmentation de latence inférieure à 2 %. Ces résultats suggèrent que contourner dynamiquement les perturbations des dernières couches peut débloquer un comportement de raisonnement plus fort chez les LLMs alignés.
Self-distillation improves reasoning in large language models by using the model's own rollouts as training signal, typically through implicit logit-level alignment that minimizes KL divergence toward a privileged target distribution. However, because this supervision is generated via uncontrolled sampling, it provides no diagnostic insight into the model's specific errors or corrective guidance for its individual failure patterns. Consequently, the model learns to imitate a privileged distribution rather than receiving fine-grained corrections that pinpoint where and why its reasoning fails. In this paper, we propose Trajectory-Augmented Policy Optimization (TAPO), which advances self-distillation from implicit distributional alignment to explicit trajectory construction. During RL training, the model produces both correct and incorrect rollouts to the same query, and TAPO leverages this contrastive structure to construct micro-reflective corrections, new training trajectories that retain the model's erroneous reasoning up to the point of failure, then insert a natural-language diagnosis and corrected reasoning guided by a correct reference from the same sampling group. Since each trajectory is anchored in the learner's own prefix and solutions, the corrective signal preserves the model's on-policy distribution to a greater extent than the position-wise alignment imposed by KL-based methods. To integrate these trajectories, TAPO introduces difficulty-aware candidate selection at the model's capability boundary and decoupled advantage estimation to prevent gradient contamination. Experiments on AIME 2024, AIME 2025, and HMMT 2025 show that TAPO achieves consistent improvements over GRPO under the same number of training steps. Further analysis demonstrates that TAPO strengthens both first-pass reasoning and error-correction effectiveness.
Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR performance. However, the downside is equally evident: as the output sequence lengthens, the accumulated KV cache drives up memory consumption and progressively slows down generation. This stands in stark contrast to humans, who exhibit no such decline in efficiency during long-horizon copying tasks. In this technical report, we propose Unlimited OCR, a model designed to emulate human parsing working memory. Taking DeepSeek OCR as the baseline, we replace all attention layers in the decoder with our proposed Reference Sliding Window Attention (R-SWA), which reduces attention computation costs while maintaining a constant KV cache throughout the entire decoding process. By combining the high compression rate of DeepSeek OCR's encoder with our constant KV cache design, Unlimited OCR can transcribe dozens of pages of documents in a single forward pass under a standard maximum length of 32K. More importantly, R-SWA is a general-purpose parsing attention mechanism - beyond OCR, it is equally applicable to tasks such as ASR, translation, etc. Codes and model weights are publicly available at http://github.com/baidu/Unlimited-OCR.
Deep research agents are Large Language Model (LLM)-based systems designed for autonomous, multi-step scientific reasoning, and they hold immense potential for accelerating research in the physical sciences. However, comprehensive and in-depth evaluations of their capabilities within this domain remain lacking. To address this gap, we introduce PhySciBench, a benchmark highly relevant to physical science research, comprising 200 expert-curated questions, balanced between physics and chemistry, across six task categories that reflect real-world scientific workflows. Evaluations of state-of-the-art models and agent systems on PhySciBench reveal limited performance; even the strongest baseline, Gemini Deep Research, achieves an accuracy of only 33.5%. Analysis of failure cases identifies three recurrent deficiencies: fragility in extended reasoning chains, limited knowledge transfer across steps, and a lack of physics-grounded self-verification. Motivated by these findings, we develop DelveAgent, a modular multi-agent framework equipped with an adaptive planning loop, dual-granularity memory, and a hierarchical physics-grounded reflection mechanism. Across four scientific benchmarks, DelveAgent improves accuracy by up to 7.5 percentage points while reducing inference costs to approximately one-third of the strongest baseline. These results establish the significance of PhySciBench as a critical benchmark for evaluating AI systems in the physical sciences and demonstrate that architectural specialization can effectively enhance the reliability of autonomous scientific research.
Les tâches à long horizon sont courantes dans les déploiements robotiques réels, mais la détection des défaillances pour de telles tâches reste sous-explorée. Détecter les défaillances dans les tâches robotiques à long horizon est particulièrement difficile car l'apparition des défaillances est souvent ambiguë et les annotations temporelles denses sont généralement indisponibles. Nous présentons Foresight, un cadre de détection des défaillances qui surveille les trajectoires de manipulation en utilisant des représentations latentes issues d'un modèle du monde conditionné par les actions. Foresight est entraîné en utilisant uniquement les étiquettes finales de succès ou d'échec au niveau de la tâche. En exploitant les embeddings prédictifs du modèle du monde, notre méthode fournit un cadre unifié pour la détection des défaillances à travers différentes politiques. Nous utilisons en outre la prédiction conforme fonctionnelle (FCP) pour calibrer les seuils de détection de manière adaptative. Nous évaluons Foresight avec des politiques vision-langage-action de pointe en simulation sur LIBERO-Long, ManiSkill-Long et BEHAVIOR-1K, le comparons aux méthodes de détection des défaillances de pointe, et le validons sur des robots réels avec trois tâches à long horizon sur un bras ReactorX-200 et une tâche sur un bras Franka. Nos résultats suggèrent que les embeddings de modèle du monde conditionnés par les actions fournissent une représentation scalable pour une surveillance fiable des défaillances dans la manipulation à long horizon.
Long agent traces composed of chains of thought and tool calls accumulate stale content that anchor subsequent generations, and eventually outgrow the context window. Existing scaffolds mitigate it with fixed-interval compaction triggered at a token threshold. Such triggers pay no heed to trajectory structure, risking discard of partial results mid-derivation or mid-search. We propose SelfCompact, a scaffold that allows the model itself to decide when and how to compact. Specifically, it pairs two inference-time elements: (i) a compaction tool the model invokes to summarize the accumulated context, and (ii) a lightweight rubric specifying when to fire (a sub-task has resolved, or the trajectory is converging) and when to suppress (mid-derivation, or when stuck). Both are needed. The tool alone is unevenly used across open-weight models, often invoked at unhelpful moments or not at all; the rubric alone cannot act. Together, they elicit effective adaptive compaction without any fine-tuning or external supervision. We present empirical results on six benchmarks (competitive math and agentic search) and seven models. Our results show that SelfCompact matches or exceeds fixed-interval summarization at a fraction of the token cost, improving over a no-summarization baseline by up to 18.1 points on math and 5-9 points on agentic search at 30-70% lower per-question cost. Our results expose a meta-cognitive gap: although unprompted models cannot reliably tell when their own context is rotting, a lightweight rubric closes this gap, reframing when to compact as a capability that scaffolds can supply without training.
Les téléphones deviennent une surface d’exécution importante pour les agents polyvalents, mais l’entraînement de modèles ouverts à une utilisation fiable du téléphone reste difficile car l’environnement pertinent lors du déploiement—les appareils réels exécutant des applications réelles—est lent, doté d’un état, générateur d’effets de bord, et difficile à réinitialiser ou à vérifier, tandis que les environnements simulés évolutifs ne se rapprochent que du comportement réel. Nous présentons PhoneBuddy, une méthode d’entraînement et une gamme de modèles ouverts pour l’utilisation agentique du téléphone, qui combine un environnement d’applications réelles avec un environnement d’applications simulées, PhoneWorld, qui reconstruit des applications simulées exécutables à partir de la structure d’utilisation réelle de l’interface graphique. PhoneBuddy commence par une étape partagée de réglage fin supervisé à partir de trajectoires collectées dans les deux environnements, puis compare le RL sur applications réelles au RL mixte sur les deux environnements. Sur une évaluation humaine de 150 tâches sur des téléphones réels couvrant des applications, mini-applications et workflows inter-applications, le taux de réussite des tâches passe de 36,67 % après le réglage fin supervisé à 40,67 % après le RL sur applications réelles et à 45,33 % après le RL mixte. Sur AndroidWorld, cette même progression passe de 60,3 % à 77,2 % puis 83,2 %. Ces résultats montrent que l’entraînement sur applications simulées ne remplace pas le RL sur applications réelles, mais constitue une source complémentaire d’interaction évolutive, réinitialisable et vérifiable automatiquement. Les gains sont les plus marqués sur les tâches d’applications et de mini-applications, tandis que les workflows inter-applications de longue haleine restent un défi ouvert important.
Scientific discovery workflows usually contain and rely heavily on lab notes, where researchers record observations, interpret uncertain results, and plan follow-up experiments. Such informative lab notes preserve evolving scientific reasoning and author uncertainty, rather than polished final results exhibited in publications, providing a valuable opportunity for AI to engage in scientific exploration at a more comprehensive and deeper level. However, most prior work on scientific text focuses on papers, protocols, or structured databases, leaving informal laboratory notes underexplored as inputs to AI agents for science. This gap matters because lab notes often intermingle validated observations, tentative judgments, and possible experimental next steps within the same passage. If these signals are conflated, an AI agent may mistake uncertain scientific judgments for confirmed conclusions or executable actions. To this end, we present Notes2Skills, a two-stage framework for turning lab notebooks into verifiable skills for scientific AI agents while preserving the author's certainty. Across seven conditions and three wet-lab sessions, Notes2Skills is the only configuration that neither mistakes uncertain notes for firm instructions nor discards firm ones. We show that certainty preservation is the missing piece between lab notebooks and reliable agent skills, opening a path toward safer AI co-scientist systems.
Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.
Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.
Aligning text-to-image flow matching models with human preferences via direct reward backpropagation is sample-efficient but hampered by two well-known pathologies: activations cannot be stored across the full sampling trajectory at modern model scale, and chained Jacobian products across steps inflate the reward gradient as it travels back to early indices. Connector-based methods, such as LeapAlign, address these issues by replacing the full backward trajectory with a short pinned path, highlighting a useful decoupling between sampling and optimization. However, the quality of the resulting gradient depends on how accurately this short path approximates the full rollout, especially over long intervals. We propose FlowBP, a unified surrogate-trajectory framework that treats the backward trajectory itself as the design object. FlowBP keeps a no-gradient cached rollout for sampling, then builds a lightweight backward surrogate from cached and selectively re-forwarded velocities. This view separates four choices: the reward-model input, active set, integration weights, and bridge coupling, and recovers prior direct-gradient methods as particular settings. Within this framework, we instantiate three variants: FlowBP-Sparse uses sparse Euler reconstruction, FlowBP-Bridge adds controlled bridge coupling, and FlowBP-Lagrange raises the order of leap quadrature. All three bound memory by the active-set size and limit gradient chaining to at most one Jacobian factor. Across SD3.5-M, FLUX.1-dev, and FLUX.2-Klein-base on preference, quality, and compositional metrics, the three variants improve over direct-gradient baselines on most metrics.
Flow matching has recently emerged as a strong paradigm for state-of-the-art text-to-image (T2I) generation, enabling high-quality generation with a small number of sampling steps. As these models are increasingly integrated into real-world applications, ensuring safe and non-sensitive content generation has become a critical requirement. However, adapting safety and concept removal methods to this new generation framework remains an open challenge. Specifically, prior methods largely rely on iterative trajectory steering across a number of denoising steps or on CLIP-centric prompt embedding manipulation. These design assumptions pose fundamental bottlenecks for safety in flow matching-based T2I generation, where limited sampling steps constrain iterative correction and modern context-aware text encoders diminish the effectiveness of embedding-level interventions. In this paper, we propose VESFlow, a training-free safety method tailored to flow matching with extremely few sampling steps. Leveraging the fact that flow matching models learn the marginal velocity, we directly edit the velocity field via a safe-conditional posterior. VESFlow steers the trajectory toward safe outputs while leaving the conditioning prompt unchanged. Building on the observation that VESFlow leaves outputs unchanged under benign prompts, we further introduce a risk score-based filtering that bypasses velocity editing to reduce computational cost while preserving benign prompt generation. Based on this filtering, we propose VESFlow+, a stronger variant of VESFlow that not only edits the velocity toward the safe direction, but also pushes it away from the unsafe direction. Experimental results show that VESFlow+ removes the target concept, reducing the attack success rate by NudeNet to 6.3% on Ring-A-Bell and 6.8% on MMA-Diffusion on the 4-step MeanFlow model, while preserving fidelity on benign prompts.
Les modèles de langage de grande taille (LLMs) à poids ouverts permettent le progrès scientifique et un large déploiement. Cependant, ils rendent difficile le contrôle de l'accès à des capacités sensibles. La pratique actuelle consiste soit à supprimer les capacités dangereuses avant la publication, soit à contrôler l'accès via des services fermés qui utilisent des variantes de modèles spécialisées, des moniteurs d'entrée/sortie et des permissions d'API. La première approche est vulnérable aux « jailbreaks » tout en sacrifiant les capacités pour tous les utilisateurs afin d'atténuer les risques posés par quelques-uns, et la seconde est fondamentalement incompatible avec une publication en poids ouverts. Dans cet article, nous proposons les Modèles de Langage Hiérarchisés (TLMs), où un seul ensemble de poids publiés prend en charge plusieurs niveaux de capacité. Dans sa configuration publique par défaut, un TLM se comporte comme un LLM conventionnel. Une clé secrète compacte spécifie une permutation sur un petit sous-ensemble de paramètres, induisant un graphe de calcul alternatif sur les mêmes poids qui expose des capacités supplémentaires. Nous développons un protocole d'entraînement qui pré-entraîne conjointement les deux configurations à partir de zéro, puis ajuste finement la configuration à clé sur des données privées avec régularisation pour préserver le comportement du modèle public. Nous pré-entraînons des TLMs de 180 millions et 650 millions de paramètres et démontrons que la configuration à clé peut acquérir une nouvelle langue, gagner une capacité à suivre des instructions et mémoriser des connaissances factuelles privées, tandis que la configuration publique ne présente aucune de ces capacités. De plus, nous montrons que notre approche s'étend naturellement à plusieurs niveaux hiérarchiques. Parce que l'autorisation opère sur la structure des poids du modèle plutôt que dans l'espace d'entrée, le mécanisme résiste à l'extraction par ajustement fin et à la compromission partielle de la clé. En général, les TLMs constituent un pas vers la conciliation de la publication en poids ouverts avec un contrôle sélectif des capacités.
Le pré-entraînement d'actions latentes apprend des représentations du changement visuel à partir de paires d'observations, mais les méthodes existantes codent généralement chaque transition comme une représentation unique non structurée qui entremêle l'étendue et le mode de la transition. Nous introduisons les Actions Latentes Polaires à Structure Radiale (PoLAR), qui imposent une structure radiale-directionnelle aux actions latentes, encourageant le rayon à coder l'étendue de la transition et la direction à retenir le mode de transition. PoLAR utilise le décalage temporel entre deux observations comme un proxy faible de l'étendue de la transition, encourageant les actions latentes issues de paires d'observations séparées par des écarts temporels plus grands à occuper des rayons plus grands. Nous instancions cette structure dans l'espace hyperbolique, dont le volume croissant avec le rayon offre un ajustement naturel pour des modes de transition plus diversifiés à des étendues plus grandes. Que ce soit dans des contextes de pré-entraînement intra-tâche ou à grande échelle, PoLAR améliore les performances des politiques en aval lors d'expériences en simulation et sur des robots réels, surpassant les approches de base utilisant des actions latentes ainsi que les modèles VLA pré-entraînés performants. Ces résultats suggèrent que la géométrie de l'espace des actions latentes est un choix de conception important pour transférer le pré-entraînement visuel à l'apprentissage de politiques robotiques en aval.
Ce travail présente un cadre général pour entraîner les grands modèles de langage (LLMs) à « Connecter les points » (CoD), une méta-capacité requise par les agents à long cycle de vie : lorsqu’un agent IA basé sur un LLM est déployé dans un environnement, il résout une longue séquence de tâches tout en explorant continuellement l’environnement, en apprenant de ses propres expériences et en mettant à jour de manière itérative son contexte concernant l’environnement, améliorant ainsi progressivement ses performances sur les tâches futures conditionnées par le contexte mis à jour. Les composants majeurs du cadre CoD incluent : (1) la conception d’algorithmes et l’infrastructure pour l’apprentissage par renforcement (RL) de bout en bout avec de longues séquences de déroulement entrelaçant des épisodes de résolution de tâches et de mise à jour du contexte ; (2) des tâches et environnements pour inciter et susciter la méta-capacité ciblée dans les LLMs pendant l’entraînement, ainsi que pour mesurer fidèlement les progrès lors de l’évaluation. Nous présentons des implémentations de preuve de concept du cadre CoD, incluant un algorithme RL de style GRPO avec une attribution de crédit fine, ainsi que des tâches et environnements adaptés à la méta-capacité ciblée (plutôt qu’aux capacités LLM spécifiques à un domaine ou au RL tâche par tâche standard). Les résultats empiriques valident l’efficacité de l’entraînement RL de bout en bout dans le cadre CoD, et démontrent le potentiel de généralisation hors distribution — au sein des domaines d’entraînement, entre différents domaines, et du CoD aux paramètres de boucle de Ralph — de la méta-capacité suscitée. Notre investigation de CoD relie plusieurs lignes de travaux antérieurs et ouvre de nouvelles opportunités pour faire progresser les LLMs et les agents IA. Pour faciliter la recherche et les applications futures, nous publions nos implémentations à l’adresse https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.
Recent attempts to combine large language models (LLMs) with causal discovery ask models to infer pairwise directions, propose graph structures, or inject language-model outputs as priors and constraints. These approaches promise faster analysis, but they also obscure whether a causal evidence is supported by data and assumptions or by textual associations, prompt artifacts and hallucinated mechanisms. We argue for a different role for agents in causal discovery. Agents should inspect data, retrieve context, explain method assumptions and clarify graph outputs, but they should not supply edges, orientations, priors, constraints or causal conclusions. We propose the principle that agents assist the workflow, while causal claims remain grounded in data, explicit assumptions, formal algorithms, diagnostics and user or domain-expert decisions. We instantiate this principle in causal-learn+, an online platform that coordinates data analysis, preprocessing, method recommendation, expert-knowledge incorporation, formal discovery and interpretation around the algorithmic ecosystem of causal-learn. A case study on Big Five personality data illustrates agent-assisted pipeline of causal discovery without turning language-model unreliability into causal evidence. The platform is available at causallearn.com.
Modern language models, including transformer, recurrent, and memory-based variants, share a common chassis: a stack of identical layers in which parameters are allocated uniformly across depth. This is a default inherited from the original transformer and largely unchanged since, yet a growing body of evidence suggests that layers contribute non-uniformly to the final output, with later layers refining the residual stream rather than transforming it. We ask whether parameter capacity should reflect this asymmetry. Our controlled experiment shows that, under a fixed budget, allocating more capacity to earlier layers and less to later layers improves perplexity over a uniform-width baseline, while the reverse allocation hurts. Building on this result, we introduce Tapered Language Models (TLMs), an architectural principle in which a parameter-bearing component is monotonically tapered across depth under a fixed total budget. MLPs are the natural site for this instantiation: they dominate parameter count across all modern LM families and expose width as a single, clean axis of variation. Across three model scales and four architectures (Transformer, Gated Attention, Hope-attention, and Titans), tapering MLP width via a smooth cosine schedule consistently improves perplexity and downstream benchmark performance over uniform baselines, at no additional parameter or compute cost. These findings establish depth-aware capacity allocation as a simple, architecture-agnostic axis of language model design, a free lever hidden in plain sight.
Alors que les systèmes agentiques s’attaquent à des tâches multi-étapes de plus en plus complexes, l’évaluation de leurs trajectoires constitue un goulot d’étranglement majeur — l’annotation humaine d’une seule trajectoire sur des benchmarks agentiques populaires peut prendre des heures, ce qui rend difficile le passage à l’échelle des évaluations pour mesurer la performance ou constituer des données d’entraînement. Cela a conduit à une large dépendance vis-à-vis d’approches automatisées telles que le LLM comme juge (LLMJ) pour critiquer les agents au niveau du processus et des résultats à grande échelle. Cependant, la validité des critiques du LLMJ est rarement mesurée. Nous présentons ici Counsel, le premier jeu de données public de méta-évaluations pour des tâches agentiques. Counsel se compose de critiques au niveau du processus provenant de LLMJ à poids ouverts sur deux benchmarks agentiques : tau-bench (agents de support client) et DA-Code (agents de codage), ainsi que de méta-évaluations humaines de ces critiques. Les annotateurs humains étiquettent chaque critique sur chaque erreur signalée comme « exacte », « emplacement correct mais raisonnement faible » ou « n’aurait pas dû être signalée », avec un accord inter-annotateurs fiable (alpha de Krippendorff de 0,78). Le jeu de données obtenu stratifie les critiques du LLMJ en fonction de l’alignement humain, à la fois sur la localisation de l’erreur dans une trajectoire et sur la qualité du raisonnement, constituant ainsi des données précieuses pour calibrer, améliorer ou entraîner les LLMJ pour les agents. En comparant les juges à poids ouverts, nous constatons que des modèles de juges plus performants et un effort de raisonnement accru améliorent tous deux l’accord humain, le juge le plus fort atteignant environ 88 % d’accord sur la localisation et environ 65 % sur le raisonnement. Counsel est généré à l’aide de modèles à poids ouverts et est distribué sous une licence permissive pour une large utilisation par la communauté, ce qui, nous l’espérons, permettra une étude rigoureuse et un meilleur alignement des évaluateurs basés sur LLM pour les systèmes agentiques.
Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.
Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic policy efficiency of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose PolicyTrim, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3times and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83times end-to-end deployment speedup without compromising task success rates.
It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.
Video diffusion models have enabled remarkable progress in video generation and editing. However, content preservation remains a core challenge: existing methods regenerate every pixel and often alter elements that should remain unchanged, such as characters or background scenes. We introduce Vera, a layered diffusion framework for content-preserving video editing. Instead of regenerating the entire video, Vera generates an edit layer along with an alpha matte for compositing with the source video, separating creative editing from content preservation by design. To encourage coherent composition with the source video, we extend the text-to-video DiT into a Mixture-of-Transformers (MoT) architecture, with separate DiTs for each layer that interact through joint self-attention. To support the training of Vera, we further construct a high-quality layered dataset with accurate alpha mattes, diverse scenes and dynamics, and visual effects. Across our quantitative benchmark and human preference study, Vera outperforms leading open-source video editing models in content preservation while remaining competitive in edit quality, using 486K frames of layered training data.
L'apprentissage par renforcement (RL) constitue une approche centrale pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), dont l'efficacité d'entraînement dépend crucialement de la manière dont les problèmes sont échantillonnés au cours de l'optimisation. Les méthodes existantes d'apprentissage curriculaire adaptatif privilégient généralement les prompts de difficulté intermédiaire, traitant la sélection des problèmes comme un problème de bandit standard à bras indépendants et négligeant la nature structurée et hétérogène de l'espace des tâches. Dans ce travail, nous formulons l'échantillonnage des problèmes comme un problème de bandit à structure de variété avec non-stationnarité endogène : les problèmes sont reliés via l'espace de représentation latent du modèle, et les décisions d'échantillonnage peuvent orienter la manière dont les signaux d'apprentissage évoluent à travers cet espace. Pour concrétiser cette perspective, nous introduisons le Curriculum Bayésien sur Variété (BMC), un cadre conscient de la structure qui organise les problèmes en un arbre de tâches hiérarchique et applique l'apprentissage bayésien pour guider l'échantillonnage. Empiriquement, nous constatons que différentes stratégies d'échantillonnage induisent des compromis non triviaux entre productivité (signal d'apprentissage), diversité (couverture de la variété des tâches) et utilité (pertinence pour l'évaluation). Ces résultats montrent que privilégier uniquement la difficulté est insuffisant pour obtenir de bonnes performances en aval, soulignant l'importance d'intégrer la structure et la conscience des types dans l'échantillonnage des problèmes.
Linear probes are widely used in interpretability research and often compared by cosine similarity. The Mahalanobis cosine similarity (MCS) between two directions, which reweights the inner product by test data covariance, is a natural task-aware refinement. Ying et al. (2026) report that a probe's MCS to a reference probe trained on the out-of-distribution (OOD) data near-perfectly linearly predicts the probe's OOD AUROC (R^2 = 0.98). Here, we extend this empirical finding across models, layers, and concept domains, and prove this general phenomenon in closed form: For balanced classes whose projections are Gaussian, OOD AUROC and MCS to the reference probe are linear because both are sigmoid-shaped functions of the probe's signal-to-noise ratio (SNR) on the test data. The theory also predicts when this linearity fails, which we verify empirically. MCS offers a theoretically grounded and empirically effective alternative to Euclidean cosine similarity for comparing linear probes.
While large and diverse datasets have driven recent advances in large models, identifying the optimal data mixture for pre-training and post-training remains a significant open problem. We address this challenge with FASTMIX, a novel framework that automates data mixture discovery while training only a single proxy model. Instead of relying on predefined heuristics or resource-intensive simulations, FASTMIX jointly optimizes mixture coefficients and model parameters, substantially improving efficiency and scalability over prior approaches. At the core of FASTMIX is a reformulation of mixture selection as a bilevel optimization problem. Under this reformulation, we show that optimizing mixture ratios is mathematically equivalent to assigning per-source loss weights under uniform source sampling. This embeds the mixture coefficients directly into the differentiable iterative optimization objective, enabling efficient, gradient-based optimization of both mixture and model. To solve the optimization problem, FASTMIX implements an approximate iterative optimization procedure, alternating between (i) updating model parameters on data sampled according to current mixture ratios (inner loop) and (ii) updating mixture ratios based on validation feedback (outer loop). Across pre- and post-training, FASTMIX outperforms baselines while drastically reducing search cost. Code (https://github.com/hrtan/fastmix)
Vision Transformers (ViT) dominate computer vision. However, their reliance on rigid patch projectors hinders transfer to Earth Observation (EO), where input modalities, scales, and resolutions vary widely. We introduce UniverSat, a ViT-style backbone built around a Universal Patch Encoder that maps patches from arbitrary spatial, spectral, and temporal resolutions, and from both optical and non-optical sensors, into a shared embedding space with a shared set of weights. This enables training a single model on heterogeneous multimodal corpora via self-supervision, yielding robust, sensor-agnostic spatial features. We validate this approach with strong results across classification and segmentation on standard EO benchmarks from GeoBench, PANGEABench, and SpectralEarth. Our code and models are available at https://github.com/gastruc/UniverSat.
As AI labs approach a data ceiling where compute capacity outpaces the rate of new high-quality text generation, language model pretraining is shifting toward a data-constrained, compute-abundant regime that demands productive multi-epoch training on fixed corpora. Standard autoregressive (AR) pretraining overfits severely in this setting, reaching its optimum early and then continuously deteriorating. We investigate training-time data augmentation as a regularizer to mitigate this overfitting and enable productive training for hundreds of epochs on the same data. We introduce three orthogonal categories of augmentation for AR pretraining: token-level noise (masking, random replacement), sequence permutations (right-to-left prediction, Fill-in-the-Middle), and target offset prediction (x_{t+i} for i > 1). Through systematic ablations, we find that individual augmentations delay overfitting and lower validation loss relative to the baseline, with random token replacement achieving the best minimum loss among individual methods. Combining augmentation categories further lowers the minimum validation loss. Our experiments demonstrate that data augmentations mitigate AR pretraining's data inefficiency and offer a promising solution to the data-constrained regime~\footnote{All code and data are available at https://github.com/ michaelchen-lab/ data-augmentations-for-pretraining.
LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.
Discrete text-trigger optimization -- searching for text sequences that, when ingested by a model, steer it toward a specified objective -- underpins model red-teaming (e.g., LLM jailbreaks), as well as auditing and interpretability. However, the current state of discrete optimizers hinders their adoption and progress. First, existing optimizers, when open-sourced at all, are scattered across research codebases tied to specific models, objectives, and problem domains. Second, optimizer variants proliferate, each requiring engineering overhead to use or extend, and remaining hard to compare head-to-head. Together, these raise the bar for adopting optimizers in existing or new domains, and for advancing them via new strategies. We address these gaps with TROPT, the first open-source framework that unifies discrete optimizers' execution and standardizes their development under a single interface. TROPT makes it easy to customize end-to-end optimization recipes by swapping any component -- models, objectives, and optimizers -- extending its reach across domains and new applications. TROPT currently ships with 30+ optimization recipes -- covering applications such as jailbreaking and probing model internals -- built from 15+ optimizers (spanning white-box to black-box access) and 15+ losses, from foundational to state-of-the-art methods. Demonstrating its utility, we leverage TROPT in several studies: (i) controlled, large-scale experiments comparing and enhancing optimization strategies for LLM jailbreaks, revealing potent-yet-underadopted techniques; and (ii) porting optimizers from one domain (e.g., LLM jailbreak) to new domains (e.g., corpus-poisoning embedding model). In all, TROPT significantly lowers the barrier to adopting and advancing discrete text optimization.
Long-horizon LLM agents can fail quietly: they settle on one reading of the evidence early, then spend the rest of the run defending it. We call this premature commitment. Final-answer scoring misses the failure mode because it sees only the answer, not whether the process has already collapsed to a stable path. We define representational commitment as cross-run hidden-state convergence at a fixed reasoning step, and use it as an early diagnostic of trajectory consistency. On Llama-3.1-70B running ReAct on HotpotQA, step-4 hidden-state similarity predicts downstream behavioral consistency (r = -0.35, partial r = -0.45), with a localized temporal and layer-wise signature. The signal replicates across Qwen-2.5-72B and Phi-3-14B, and on StrategyQA (r = -0.83). It does not track correctness: committed-wrong and committed-correct questions are not separable in activation similarity. That boundary is central to the claim. Commitment tells us whether an agent has settled, not whether it is right. A runtime monitor detects inconsistent trajectories from hidden states at AUROC up to 0.97 (0.85--0.88 under a stricter split), and a prompting intervention cuts behavioral variance by 28% against a token-matched control while leaving accuracy statistically unchanged. We also test whether the signal can route self-consistency compute; on a harder benchmark it helps only modestly and is matched by a simpler output-based baseline. The result is a diagnostic for a hidden process failure, with clear limits rather than a general accuracy lever.
Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.
Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.
Meshes are among the most common 3D scene representations, but directly generating meshes is challenging because the representation contains important symmetries, including permutation invariance of faces and vertices. MeshFlow learns to generate triangle meshes directly as triangle soups, avoiding the need to serialize meshes into long autoregressive sequences. We adopt equivariant optimal-transport flow matching models that respect the key symmetries of triangle soups: arbitrary permutations of faces and permutations of the vertices within each face. Toward this goal, we propose a simple yet effective modification to the Diffusion Transformer architecture, resulting in a scalable network capable of modeling a velocity field while maintaining the desired equivariance. We further introduce an optimal-transport-based training objective that improves convergence by eliminating supervision signals that violate these symmetries. MeshFlow achieves mesh quality comparable to state-of-the-art autoregressive mesh generators while providing about an 18times speedup during inference. Project page is at https://qiisun.github.io/MeshFlow/.
With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.
La reconstruction d'objets dynamiques non rigides à partir d'une vidéo monoculaire nécessite d'intégrer des indices visuels issus d'observations directes avec des a priori guidés par les données sur la géométrie et l'apparence. Les approches précédentes apprennent soit à prédire directement des représentations 4D à partir d'entrées visuelles, soit initialisent une représentation 3D qui est ensuite déformée et affinée à partir des preuves vidéo. Cependant, les premières sont limitées par la rareté des données d'entraînement 4D, tandis que les secondes n'exploitent les a priori que pour la reconstruction initiale et ne s'appuient ensuite que sur la supervision vidéo ; ni les unes ni les autres ne gèrent bien les scénarios complexes en conditions réelles présentant de grandes déformations et occlusions. Nous présentons Lift4D, un cadre d'optimisation au moment du test qui répond à ces deux limitations. Premièrement, nous adaptons un modèle existant de reconstruction 3D à partir d'une seule vue pour produire des prédictions temporellement cohérentes par image via un conditionnement latent causal, fournissant une initialisation cohérente pour une représentation déformable par Gaussian Splatting 3D. Ensuite, nous « sculptons » cette représentation pour l'adapter à la vidéo d'entrée grâce à une optimisation consciente des occlusions qui restitue fidèlement les détails de surface visibles tout en complétant les régions non observées à l'aide d'un a priori de diffusion conditionné par la vue. Nous démontrons que Lift4D améliore nettement les méthodes de reconstruction 4D antérieures, en particulier sur les séquences difficiles en conditions réelles avec des occlusions sévères et des mouvements non rigides.
Generative music systems can now produce impressive audio from text prompts, but audio outputs are difficult to inspect, edit, and diagnose as musical structure. We introduce Libretto, an agent-facing framework for symbolic music generation and revision. Libretto uses an LLM-native grammar with explicit onset slots, voices, and bar-level organization, then evaluates each piece in a corpus-calibrated statistical space over rhythm, harmony, melody, texture, form, and variation. The same structural axes support retrieval, diagnosis, copy-risk control, and iterative self-revision. Across gap filling, reference-guided full-piece generation, gradual morphing, and educational music generation, Libretto turns symbolic music from a raw token sequence into a measurable and editable object for language-model agents.
La réalisation cinématographique exige un contrôle précis du mouvement et un compositing d'images de référence — des capacités que les méthodes existantes traitent séparément. Les modèles image-vers-vidéo conditionnés par des point-tracks limitent l'insertion de contenu à la première image, tandis que les modèles référence-vers-vidéo ne disposent pas d'un contrôle spatio-temporel fin sur la manière dont le contenu de référence s'intègre à travers les images. Nous présentons Go-with-the-Track, qui unifie ces deux capacités en se conditionnant conjointement sur plusieurs images de référence et des point-tracks ancrés sur les références — étendant les point-tracks conventionnels pour établir explicitement des correspondances entre les images générées et les images de référence, permettant ainsi un compositing précis et un contrôle du mouvement tout au long de la vidéo. Pour y parvenir, nous introduisons des encodages de point-tracks conscients de la spatialité qui encodent la séquence complète des coordonnées des point-tracks à l'aide d'un MLP par coordonnée suivi d'un pooling temporel. Cette représentation capture les caractéristiques spatiales de chaque point-track (servant d'identifiant unique), tandis que la similarité des encodages est directement corrélée à la proximité spatiale, améliorant la capacité du modèle à distinguer et associer les point-tracks. Nous injectons ces encodages de point-tracks dans un transformer de diffusion vidéo via un adaptateur léger, résolvant le décalage de résolution pixel-vers-patch tout en évitant la perte substantielle de détails de mouvement inhérente au sous-échantillonnage naïf des point-tracks. Nous utilisons une stratégie d'entraînement hybride pour entraîner conjointement sur des ensembles de données vidéo de scènes dynamiques, statiques et synthétiques afin d'améliorer la contrôlabilité du mouvement. Les expériences montrent que Go-with-the-Track atteint un contrôle supérieur du mouvement et des références dans un seul modèle et permet de nouvelles capacités : la génération vidéo conditionnée par plusieurs références avec un compositing piloté par point-tracks, ainsi que le contrôle de la caméra pour les scènes statiques et dynamiques. Page du projet : https://eyeline-labs.github.io/Go-with-the-Track/
Optimisation de la composition des données de pré-entraînement est cruciale pour la généralisation des grands modèles de langage. Bien que le mélange dynamique surpasse les stratégies statiques en capturant la dynamique évolutive de l'entraînement, les méthodes actuelles ne parviennent pas à concilier efficacité computationnelle, efficacité d'échantillonnage et flexibilité structurelle pour des pipelines diversifiés. Nous introduisons le Mélange de Données en Ligne Acteur-Critique (AC-ODM), qui aborde le mélange de données sous l'angle de l'apprentissage par renforcement avec une politique paramétrée dont nous prouvons théoriquement qu'elle agit comme un substitut linéaire dynamique maximisant l'interférence constructive des gradients. Pour améliorer la flexibilité pratique, AC-ODM prend en charge deux modes opérationnels : (i) un mode proxy pour des corpus fixes et préétablis, où une politique apprise sur un petit modèle est transférée à une cible plus grande ; et (ii) un mode non-proxy pour un entraînement direct de bout en bout à partir de zéro sans a priori. Empiriquement, AC-ODM surpasse significativement les méthodes antérieures en termes de vitesse de convergence et de précision en aval sur diverses architectures. Sur Pythia-1B, il atteint la perplexité de validation optimale en utilisant jusqu'à 66 % d'étapes d'entraînement en moins que les références concurrentes, offrant une amélioration relative de 27,5 % de la précision MMLU et un pass@1 2,23 fois plus élevé sur HumanEval, le tout avec une augmentation quasi négligeable du temps par étape (0,4 %) et seulement 2 % de surcoût mémoire supplémentaire. Le code est disponible sur https://github.com/DANG-ai/AC-ODM.
Alors que les voitures autonomes continuent de se déployer à l’international et d’utiliser des systèmes multimodaux tels que les VLMs comme base cognitive de leurs modèles d’action, dans quelle mesure ces systèmes se généraliseront-ils à de nouveaux environnements, en particulier dans des scénarios limites hors distribution (OOD) dans de nouvelles régions ? Dans cet article, nous étudions cette question ouverte en proposant une analyse factorielle complète avec des conducteurs humains de Lima, des conducteurs humains de New York et des VLMs, en leur montrant des images de dashcam collectées à Lima et à New York — et en les interrogeant via une variété de questions dans le cadre d’un paradigme de réponse à des questions visuelles (VQA). Nous choisissons ces deux villes car ce sont des lieux de conduite particulièrement difficiles où aucune entreprise de voitures autonomes n’opère actuellement, et nous posons des questions couvrant quatre catégories : factuelles, évaluations, contrefactuelles et raisonnement. Nous constatons que les humains et les VLMs divergent dans leurs réponses — bien que cela soit modulé par le type de questions posées, et que les humains répondent de manière similaire indépendamment de leur origine (Lima/NYC). À notre surprise, nous n’avons pas observé de différence marquée dans les réponses (humaines ou des VLMs) liée à la géographie, probablement en raison de leur nature fortement hors distribution. Notre jeu de données est disponible à l’adresse : https://huggingface.co/datasets/Artificio/robusto-2
Nous présentons ShotcreteDepth, un jeu de données bimodal issu du domaine de la construction, qui capture à la fois un processus actif de projection de béton et des environnements de chantier généraux. Ce jeu de données comprend des images RVB stéréo et des nuages de points LiDAR acquis dans des conditions réelles difficiles, notamment une forte turbidité et un faible éclairage. Ces conditions nuisent aux mesures des capteurs, produisant des observations incomplètes et bruitées qui posent des défis majeurs aux systèmes de perception dans les applications autonomes. En complément du jeu de données, nous publions un outil d'annotation léger conçu pour un étiquetage efficace en temps des nuages de points LiDAR. ShotcreteDepth se compose de 11 252 échantillons de données temporellement synchronisés, dont 220 sont annotés à des fins d'évaluation. Ce jeu de données soutient la recherche en appariement stéréo, complétion de profondeur et estimation de profondeur dans des conditions qui reflètent fidèlement les complexités opérationnelles des environnements industriels. Référentiel du projet : https://github.com/dtu-pas/shotcrete-depth
We describe our entry to the efficiency track of the Academic Text-to-Music (ATTM) Grand Challenge at ICME 2026. Beyond the challenge protocol's FAD-CLAP and CLAP score, we add a learned human-preference reward from TuneJury, a twin pairwise ranker trained over open music-preference datasets. The reward serves both as a training-time conditioning signal and as a sample-selection criterion. The pipeline combines five engineering decisions on a 120M-parameter FluxAudio-S backbone, four at training time and one at inference: (i) training-time reward conditioning that doubles as an inference-time CFG axis, (ii) a sweep over five score-conditioning architectures, where training and inference use different variants, (iii) expert iteration on the top decile, (iv) a short preference-tuning pass (CRPO) for audio-text alignment, and (v) inference post-processing via joint CFG, source separation, and loudness normalization. Per-stage decomposition on 100 Song Describer prompts shows training-time reward conditioning as a functional conditioning axis, expert iteration as the dominant contributor, the preference-tuning pass adding only noise-level gain, and the inference-time score scalar already saturated by the end of the chain.
Large language models (LLMs) are increasingly used to support software development, but their practical usefulness in applied game-development settings remains underexplored, especially when generated code must be integrated into an existing game software system. This paper presents an exploratory empirical case study of GPT-4o in a custom Python/Pygame endless runner. The study examines six selected development tasks: three localized refactoring tasks and three tasks involving gameplay feature generation. The resulting implementations were evaluated using software metrics, unit tests, and manual gameplay assessments. In this case study, all three selected refactoring tasks were completed successfully in functional terms, whereas only one of the three selected gameplay feature generation tasks resulted in a correctly integrated feature. The findings suggest that, in this setting, GPT-4o handled localized transformations more reliably than tasks requiring new gameplay interactions across multiple existing systems. Given the exploratory single-case design, these results are best interpreted as indicative observations rather than as generalizable evidence of category-level model performance. Overall, the paper contributes a transparent case-based account of the opportunities and limitations of LLM-assisted refactoring and gameplay feature generation in an existing game software system.
As urban areas expand, automatic monitoring of parking lots becomes essential for efficient and sustainable cities. This work proposes a self-supervised approach for parking spot occupancy recognition that requires no labeled samples from the target parking lot. Building upon a self-supervised transfer learning fine-tuning protocol, the proposed training strategy consists of two self-supervised stages: first on unlabeled generic data and then on unlabeled target-specific data, followed by supervised fine-tuning using only generic parking lot labels. We adopt SimCLR with a ResNet-50 encoder and evaluate the method under a leave-one-out cross-environment protocol on three public datasets: PKLot, CNRPark-EXT, and PLds. We also introduce a two-stage deployment strategy in which a Strong General Model is initially deployed, followed by a Specialized Model that incorporates unlabeled images collected during the first N days of deployment in a self-supervised manner. Experimental results show that the Strong General Model alone outperforms supervised and self-supervised baselines, achieving an average accuracy of 97.2%, which further improves to 97.8% with the proposed two-stage strategy. These results demonstrate that self-supervised learning enables a scalable and labelefficient solution for real-world parking occupancy monitoring. Our trained models and source code are publicly available at https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition.