papers.description
Récemment, des études illustrées par les Hyper-Connexions (HC) ont étendu le paradigme ubiquiste des connexions résiduelles établi au cours de la dernière décennie, en élargissant la largeur du flux résiduel et en diversifiant les schémas de connectivité. Bien qu'elles produisent des gains de performance substantiels, cette diversification compromet fondamentalement la propriété de correspondance d'identité intrinsèque à la connexion résiduelle, ce qui entraîne une instabilité sévère lors de l'entraînement, une extensibilité limitée, et engendre en outre des surcoûts significatifs d'accès mémoire. Pour relever ces défis, nous proposons les Hyper-Connexions à Contrainte de Variété (mHC), un cadre général qui projette l'espace de connexion résiduelle des HC sur une variété spécifique afin de restaurer la propriété de correspondance d'identité, tout en intégrant une optimisation rigoureuse de l'infrastructure pour garantir l'efficacité. Des expériences empiriques démontrent que mHC est efficace pour l'entraînement à grande échelle, offrant des améliorations tangibles de performance et une extensibilité supérieure. Nous anticipons que mHC, en tant qu'extension flexible et pratique des HC, contribuera à une compréhension plus approfondie de la conception architecturale topologique et indiquera des pistes prometteuses pour l'évolution des modèles fondateurs.
Nous présentons Youtu-LLM, un modèle de langage léger mais puissant qui allie haute efficacité computationnelle et intelligence agentique native. Contrairement aux petits modèles typiques qui reposent sur la distillation, Youtu-LLM (1,96 milliard de paramètres) est pré-entraîné à partir de zéro pour cultiver systématiquement des capacités de raisonnement et de planification. Les avancées techniques clés sont les suivantes : (1) Architecture compacte avec support de contexte long : Construit sur une architecture dense à attention multi-latente (MLA) avec un nouveau vocabulaire orienté STIM, Youtu-LLM prend en charge une fenêtre de contexte de 128k. Cette conception permet un raisonnement robuste en contexte long et un suivi d'état avec une empreinte mémoire minimale, le rendant idéal pour les tâches agentiques et de raisonnement à long horizon. (2) Curriculum principié « Common Sense - STIM - Agent » : Nous avons constitué un corpus massif d'environ 11 000 milliards de jetons et mis en œuvre une stratégie d'entraînement multi-étapes. En faisant progressivement évoluer la distribution des données de pré-entraînement du bon sens général vers les tâches STIM complexes et agentiques, nous assurons que le modèle acquiert des capacités cognitives profondes plutôt qu'un alignement superficiel. (3) Mid-training agentique évolutif : Spécialement pour le mid-training agentique, nous utilisons divers schémas de construction de données pour synthétiser des trajectoires riches et variées dans les domaines des mathématiques, de la programmation et de l'utilisation d'outils. Ces données de haute qualité permettent au modèle d'intérioriser efficacement les comportements de planification et de réflexion. Des évaluations approfondies montrent que Youtu-LLM établit un nouvel état de l'art pour les LLM de moins de 2 milliards de paramètres. Sur les benchmarks généraux, il atteint des performances compétitives par rapport à des modèles plus grands, tandis que sur les tâches spécifiquement agentiques, il surpasse significativement les lignes de base SOTA existantes, démontrant que les modèles légers peuvent posséder de fortes capacités agentiques intrinsèques.
La conception agentique nécessite que les LLMs opèrent dans des environnements réels sur plusieurs tours en prenant des actions, observant les résultats et affinant itérativement les artefacts. Malgré son importance, la communauté open-source manque d'un écosystème fondamental et de bout en bout pour rationaliser le développement d'agents. Nous présentons l'Agentic Learning Ecosystem (ALE), une infrastructure fondamentale qui optimise le pipeline de production pour les LLMs agents. ALE se compose de trois éléments : ROLL, un cadre de post-formation pour l'optimisation des poids ; ROCK, un gestionnaire d'environnement sandbox pour la génération de trajectoires ; et iFlow CLI, un cadre agent pour l'ingénierie de contexte efficace. Nous publions ROME (ROME est manifestement un modèle agentique), un agent open-source fondé sur ALE et entraîné sur plus d'un million de trajectoires. Notre approche inclut des protocoles de composition de données pour synthétiser des comportements complexes et un nouvel algorithme d'optimisation de politique, l'Alignement de Politique par Interaction (IPA), qui attribue le crédit sur des blocs d'interaction sémantique plutôt que sur des tokens individuels pour améliorer la stabilité de l'entraînement à long terme. Empiriquement, nous évaluons ROME dans un cadre structuré et introduisons Terminal Bench Pro, un benchmark avec une échelle améliorée et un contrôle de contamination. ROME démontre de solides performances sur des benchmarks comme SWE-bench Verified et Terminal Bench, prouvant l'efficacité de l'infrastructure ALE.
La détection d'anomalies dans les logs est cruciale pour préserver la sécurité des systèmes d'exploitation. Selon la source de collecte des données de logs, diverses informations sont enregistrées dans les logs qui peuvent être considérées comme des modalités de logs. Compte tenu de cette intuition, les méthodes unimodales peinent souvent en ignorant les différentes modalités des données de logs. Parallèlement, les méthodes multimodales échouent à gérer les interactions entre ces modalités. En appliquant l'analyse de sentiment multimodale à la détection d'anomalies dans les logs, nous proposons CoLog, un framework qui encode collaborativement les logs en utilisant diverses modalités. CoLog utilise des transformers collaboratifs et une attention multi-têtes imprimée pour apprendre les interactions entre plusieurs modalités, garantissant une détection d'anomalies complète. Pour gérer l'hétérogénéité causée par ces interactions, CoLog intègre une couche d'adaptation de modalité, qui adapte les représentations des différentes modalités de logs. Cette méthodologie permet à CoLog d'apprendre les motifs nuancés et les dépendances within les données, améliorant ainsi ses capacités de détection d'anomalies. Des expériences approfondies démontrent la supériorité de CoLog par rapport aux méthodes état de l'art existantes. De plus, dans la détection des anomalies ponctuelles et collectives, CoLog atteint une précision moyenne de 99,63 %, un rappel moyen de 99,59 % et un score F1 moyen de 99,61 % sur sept ensembles de données de référence pour la détection d'anomalies basée sur les logs. Les capacités de détection complètes de CoLog le rendent très adapté à la cybersécurité, à la surveillance des systèmes et à l'efficacité opérationnelle. CoLog représente une avancée significative dans la détection d'anomalies dans les logs, fournissant une solution sophistiquée et efficace pour la détection d'anomalies ponctuelles et collectives through un framework unifié et une solution aux défis complexes que pose l'analyse automatique des données de logs. Nous fournissons également l'implémentation de CoLog à l'adresse https://github.com/NasirzadehMoh/CoLog.
Les progrès récents en reconstruction 3D ont accompli des avancées remarquables dans la capture de scènes de haute qualité à partir d'imagerie multi-vues dense, mais peinent lorsque les vues d'entrée sont limitées. Diverses approches, incluant des techniques de régularisation, des connaissances sémantiques a priori et des contraintes géométriques, ont été mises en œuvre pour relever ce défi. Les méthodes récentes basées sur la diffusion ont démontré des améliorations substantielles en générant de nouvelles vues à partir de poses de caméra inédites pour augmenter les données d'apprentissage, surpassant les techniques antérieures de régularisation et utilisant des connaissances a priori. Malgré ces progrès, nous identifions trois limitations critiques dans ces approches de pointe : une couverture inadéquate au-delà des périmètres des vues connues, des incohérences géométriques entre les vues générées et des chaînes de traitement numériquement coûteuses. Nous présentons GaMO (Geometry-aware Multi-view Outpainter), un cadre qui reformule la reconstruction à vues éparses via un agrandissement de champ multi-vues. Au lieu de générer de nouveaux points de vue, GaMO étend le champ de vision à partir des poses de caméra existantes, ce qui préserve intrinsèquement la cohérence géométrique tout en offrant une couverture plus large de la scène. Notre approche utilise de manière zero-shot un conditionnement multi-vues et des stratégies de débruitage sensibles à la géométrie, sans apprentissage préalable. Des expériences approfondies sur Replica et ScanNet++ démontrent une qualité de reconstruction à la pointe de l'état de l'art pour 3, 6 et 9 vues d'entrée, surpassant les méthodes précédentes en PSNR et LPIPS, tout en réalisant une accélération par 25 par rapport aux méthodes de pointe basées sur la diffusion, avec un temps de traitement inférieur à 10 minutes. Page du projet : https://yichuanh.github.io/GaMO/
La mémoire constitue le pivot essentiel reliant le passé et le futur, fournissant aux humains comme aux systèmes d’IA des concepts et une expérience indispensables pour accomplir des tâches complexes. Les recherches récentes sur les agents autonomes se concentrent de plus en plus sur la conception de flux de travail efficaces pour la mémoire en s’inspirant des neurosciences cognitives. Cependant, freinés par les barrières interdisciplinaires, les travaux existants peinent à assimiler l’essence des mécanismes de la mémoire humaine. Pour combler cette lacune, nous synthétisons systématiquement les connaissances interdisciplinaires sur la mémoire, en reliant les perspectives des neurosciences cognitives à celles des agents pilotés par les LLM. Plus précisément, nous élucidons d’abord la définition et la fonction de la mémoire en suivant une trajectoire progressive allant des neurosciences cognitives aux LLM, puis aux agents. Nous proposons ensuite une analyse comparative de la taxonomie de la mémoire, des mécanismes de stockage et du cycle complet de gestion, à la fois sous les angles biologique et artificiel. Par la suite, nous passons en revue les principaux benchmarks utilisés pour évaluer la mémoire des agents. De plus, nous explorons la sécurité de la mémoire sous les angles complémentaires de l’attaque et de la défense. Enfin, nous envisageons des orientations futures pour la recherche, en mettant l’accent sur les systèmes de mémoire multimodale et l’acquisition de compétences.
Les modèles vision-langage-action (VLA) ont permis la manipulation robotique à long terme conditionnée par le langage, mais la plupart des systèmes existants se limitent à des pinces. La mise à l'échelle des politiques VLA pour des robots bimanuels dotés de mains dextres à haut degré de liberté (DDL) reste difficile en raison de l'espace d'action élargi, des occlusions fréquentes main-objet et du coût de collecte de données sur robot réel. Nous présentons GR-Dexter, un cadre matériel-modèle-données holistique pour la manipulation généraliste basée sur VLA sur un robot bimanuel à mains dextres. Notre approche combine la conception d'une main robotique compacte à 21 DDL, un système de téléopération bimanuel intuitif pour la collecte de données réelles, et une méthode d'entraînement qui exploite des trajectoires robotiques téléopérées ainsi que des ensembles de données vision-langage à grande échelle et soigneusement sélectionnés d'embodiment croisé. Lors d'évaluations en conditions réelles couvrant la manipulation quotidienne à long terme et la prise-et-place généralisable, GR-Dexter démontre de fortes performances en domaine connu et une robustesse améliorée face à des objets et des instructions non vus. Nous espérons que GR-Dexter constitue une étape pratique vers la manipulation robotique généraliste avec des mains dextres.
Les récents progrès en génération texte-vidéo (T2V) ont permis d'obtenir une bonne qualité visuelle, mais la synthèse de vidéos respectant fidèlement les lois physiques reste un défi non résolu. Les méthodes existantes, principalement basées sur des techniques graphiques ou l'extension de prompts, peinent à généraliser au-delà d'environnements simulés simples ou à acquérir un raisonnement physique implicite. La rareté des données d'entraînement comportant des interactions et phénomènes physiques riches constitue également un problème. Dans cet article, nous introduisons d'abord PhyAugPipe, un pipeline de construction de données vidéo augmentées par la physique, qui exploite un modèle vision-langage (VLM) avec un raisonnement en chaîne de pensée pour collecter un jeu de données d'entraînement à grande échelle, PhyVidGen-135K. Ensuite, nous formulons un cadre théorique de optimisation directe des préférences groupées sensible à la physique, PhyGDPO, qui s'appuie sur le modèle probabiliste groupé de Plackett-Luce pour capturer des préférences holistiques au-delà des comparaisons par paires. Dans PhyGDPO, nous concevons un mécanisme de récompense guidée par la physique (PGR) intégrant des récompenses physiques basées sur VLM pour orienter l'optimisation vers la cohérence physique. Nous proposons également un schéma de référence à commutation LoRA (LoRA-SR) qui élimine la duplication de références gourmande en mémoire pour un entraînement efficace. Les expériences montrent que notre méthode surpasse significativement les méthodes open-source de l'état de l'art sur PhyGenBench et VideoPhy2. Consultez notre page projet à l'adresse https://caiyuanhao1998.github.io/project/PhyGDPO pour plus de résultats vidéo. Notre code, modèles et données seront publiés sur https://github.com/caiyuanhao1998/Open-PhyGDPO.
Ce document présente JavisGPT, le premier modèle de langage multimodal unifié (MLLM) dédié à la compréhension et à la génération conjointes audio-vidéo (JAV). JavisGPT adopte une architecture concise encodeur-LLM-décodeur, intégrant un module SyncFusion pour la fusion spatio-temporelle audio-vidéo et des requêtes apprenables sensibles à la synchronisation pour connecter un générateur JAV-DiT préentraîné. Cette conception permet une compréhension et une génération audio-vidéo temporellement cohérentes à partir d'instructions multimodales. Nous concevons un pipeline d'entraînement efficace en trois étapes comprenant un préentraînement multimodal, un ajustement fin audio-vidéo et un ajustement par instruction à grande échelle, afin de développer progressivement les capacités de compréhension et de génération multimodales à partir de modèles vision-langage existants. Pour soutenir cette démarche, nous construisons également JavisInst-Omni, un jeu de données d'instructions de haute qualité contenant plus de 200 000 dialogues audio-vidéo-texte élaborés par GPT-4o, couvrant des scénarios de compréhension et de génération diversifiés et multi-niveaux. Des expériences approfondies sur des benchmarks de compréhension et de génération JAV montrent que JavisGPT surpasse les MLLM existants, en particulier dans des configurations complexes et temporellement synchronisées.
Nous présentons PFP, une architecture de réseau neuronal permettant de compresser de longues vidéos en des contextes courts, avec un objectif de pré-entraînement explicite visant à préserver les détails haute fréquence de frames individuelles à des positions temporelles arbitraires. Le modèle de référence peut compresser une vidéo de 20 secondes en un contexte d'environ 5k tokens, à partir duquel des frames aléatoires peuvent être récupérées avec une apparence perceptuellement préservée. Ces modèles pré-entraînés peuvent être directement fine-tunés comme encodeurs de mémoire pour des modèles vidéo autorégressifs, permettant une mémoire à long historique avec un faible coût contextuel et une perte de fidélité relativement limitée. Nous évaluons le cadre proposé avec des configurations ablatives et discutons les compromis des conceptions architecturales neuronales possibles.
La prise de décision à enjeux élevés implique un raisonnement sous incertitude concernant le futur. Dans ce travail, nous entraînons des modèles de langage à effectuer des prédictions sur des questions de prévision ouvertes. Pour augmenter le volume de données d'entraînement, nous synthétisons de nouvelles questions prévisionnelles à partir d'événements mondiaux rapportés dans l'actualité quotidienne, en utilisant une méthode de curation rigoureuse entièrement automatisée. Nous entraînons les modèles de raisonnement Qwen3 sur notre jeu de données, OpenForesight. Pour éviter toute fuite d'informations futures pendant l'entraînement et l'évaluation, nous utilisons un corpus d'actualités hors ligne, à la fois pour la génération de données et le système de recherche de notre système de prévision. Guidés par un petit ensemble de validation, nous démontrons les bénéfices de la recherche documentaire et d'une fonction de récompense améliorée pour l'apprentissage par renforcement (RL). Une fois notre système de prévision final obtenu, nous effectuons des tests sur données masquées entre mai et août 2025. Notre modèle spécialisé, OpenForecaster 8B, rivalise avec des modèles propriétaires bien plus grands, notre entraînement améliorant la précision, l'étalonnage et la cohérence des prédictions. Nous constatons que les améliorations d'étalonnage issues de l'entraînement prévisionnel se généralisent à travers les benchmarks populaires. Nous ouvrons en accès libre l'ensemble de nos modèles, codes et données pour rendre la recherche sur la prévision par modèles de langage largement accessible.
Malgré les capacités de raisonnement croissantes des grands modèles de langage (LLM) récents, leurs mécanismes internes durant le processus de raisonnement restent peu explorés. Les approches antérieures s'appuient souvent sur des concepts définis par l'homme (par exemple, la surréflexion, la réflexion) au niveau lexical pour analyser le raisonnement de manière supervisée. Cependant, ces méthodes sont limitées, car il est irréalisable de saisir l'ensemble du spectre des comportements de raisonnement potentiels, dont beaucoup sont difficiles à définir dans l'espace des tokens. Dans ce travail, nous proposons un cadre non supervisé (nommé RISE : *Reasoning behavior Interpretability via Sparse auto-Encoder*) pour découvrir des vecteurs de raisonnement, que nous définissons comme des directions dans l'espace d'activation qui codent des comportements de raisonnement distincts. En segmentant les traces de raisonnement chaîné en « étapes » au niveau de la phrase et en entraînant des auto-encodeurs épars (SAE) sur les activations au niveau de l'étape, nous mettons au jour des caractéristences désentrelacées correspondant à des comportements interprétables tels que la réflexion et le retour en arrière. Des analyses de visualisation et de clustering montrent que ces comportements occupent des régions séparables dans l'espace des colonnes du décodeur. De plus, des interventions ciblées sur les vecteurs dérivés des SAE peuvent amplifier ou supprimer de manière contrôlable des comportements de raisonnement spécifiques, modifiant ainsi les trajectoires d'inférence sans réentraînement. Au-delà du désentrelacement spécifique au comportement, les SAE capturent des propriétés structurelles telles que la longueur de la réponse, révélant des clusters de traces de raisonnement longues versus courtes. Plus intéressant encore, les SAE permettent la découverte de nouveaux comportements sans supervision humaine. Nous démontrons la capacité à contrôler la confiance de la réponse en identifiant des vecteurs liés à la confiance dans l'espace du décodeur du SAE. Ces résultats soulignent le potentiel de la découverte latente non supervisée à la fois pour interpréter et pour piloter de manière contrôlable le raisonnement des LLM.
Nous présentons SpaceTimePilot, un modèle de diffusion vidéo qui dissocie l'espace et le temps pour un rendu génératif contrôlable. Étant donné une vidéo monoculaire, SpaceTimePilot peut modifier indépendamment le point de vue de la caméra et la séquence temporelle au sein du processus génératif, re-rendant la scène pour une exploration continue et arbitraire à travers l'espace et le temps. Pour y parvenir, nous introduisons un mécanisme efficace d'incorporation temporelle d'animation dans le processus de diffusion, permettant un contrôle explicite de la séquence de mouvement de la vidéo générée par rapport à celle de la vidéo source. Comme aucun jeu de données ne fournit de vidéos appariées de la même scène dynamique avec des variations temporelles continues, nous proposons un schéma d'entraînement par déformation temporelle simple mais efficace, qui réutilise des jeux de données multi-vues existants pour imiter des différences temporelles. Cette stratégie supervise efficacement le modèle pour apprendre le contrôle temporel et atteindre une robuste dissociation espace-temps. Pour améliorer encore la précision du double contrôle, nous introduisons deux composants supplémentaires : un mécanisme amélioré de conditionnement par la caméra permettant de modifier le point de vue dès la première image, et CamxTime, le premier jeu de données de rendu synthétique à couverture complète espace-temps qui fournit des trajectoires vidéo entièrement libres en espace-temps au sein d'une scène. Un entraînement conjoint sur le schéma de déformation temporelle et le jeu de données CamxTime permet un contrôle temporel plus précis. Nous évaluons SpaceTimePilot sur des données réelles et synthétiques, démontrant une nette dissociation espace-temps et de solides résultats par rapport aux travaux antérieurs. Page du projet : https://zheninghuang.github.io/Space-Time-Pilot/ Code : https://github.com/ZheningHuang/spacetimepilot
Le modèle de diffusion présente une capacité remarquable à capturer l'intégralité de la distribution de données (conditionnelle). Cependant, en raison d'un apprentissage et de données insuffisants pour couvrir les zones de faible probabilité, le modèle est pénalisé par son incapacité à générer des images de haute qualité correspondant à ces zones. Pour obtenir une meilleure qualité de génération, des stratégies de guidage telles que le guidage sans classifieur (CFG) peuvent orienter les échantillons vers les zones de haute probabilité durant l'étape d'échantillonnage. Toutefois, le CFG standard conduit souvent à des échantillons excessivement simplifiés ou déformés. D'autre part, l'approche alternative consistant à guider le modèle de diffusion avec une version dégradée est limitée par des stratégies de dégradation minutieusement conçues, un entraînement supplémentaire et des étapes d'échantillonnage additionnelles. Dans cet article, nous proposons une stratégie simple mais efficace, le Guidage Interne (IG), qui introduit une supervision auxiliaire sur la couche intermédiaire pendant l'entraînement et extrapole les sorties des couches intermédiaires et profondes pour obtenir des résultats génératifs durant l'échantillonnage. Cette stratégie simple apporte des améliorations significatives tant en efficacité d'entraînement qu'en qualité de génération sur diverses lignes de base. Sur ImageNet 256x256, SiT-XL/2+IG atteint un FID=5,31 et un FID=1,75 à 80 et 800 époques. Plus impressionnant encore, LightningDiT-XL/1+IG atteint un FID=1,34, créant un écart important avec toutes ces méthodes. Combiné au CFG, LightningDiT-XL/1+IG établit l'état de l'art actuel avec un FID de 1,19.
Les progrès rapides des systèmes autonomes, incluant les véhicules autonomes et les drones, ont intensifié la nécessité de forger une véritable Intelligence Spatiale à partir de données multi-modales de capteurs embarqués. Bien que les modèles de fondation excellent dans des contextes unimodaux, l'intégration de leurs capacités à travers divers capteurs comme les caméras et le LiDAR pour créer une compréhension unifiée reste un défi de taille. Cet article présente un cadre complet pour le pré-entraînement multimodal, en identifiant l'ensemble fondamental des techniques qui propulsent les progrès vers cet objectif. Nous analysons l'interaction entre les caractéristiques fondamentales des capteurs et les stratégies d'apprentissage, en évaluant le rôle des jeux de données spécifiques aux plateformes dans l'activation de ces avancées. Notre contribution centrale est la formulation d'une taxinomie unifiée pour les paradigmes de pré-entraînement : allant des lignes de base unimodales aux cadres unifiés sophistiqués qui apprennent des représentations holistiques pour des tâches avancées comme la détection d'objets 3D et la prédiction d'occupation sémantique. De plus, nous étudions l'intégration d'entrées textuelles et de représentations d'occupation pour faciliter la perception et la planification en monde ouvert. Enfin, nous identifions des goulots d'étranglement critiques, tels que l'efficacité computationnelle et l'évolutivité des modèles, et proposons une feuille de route vers des modèles de fondation multimodaux polyvalents capables d'atteindre une Intelligence Spatiale robuste pour un déploiement réel.
La classification des sons respiratoires est entravée par la taille limitée, les niveaux de bruit élevés et le déséquilibre sévère entre les classes des ensembles de données de référence comme ICBHI 2017. Bien que les modèles basés sur les Transformers offrent des capacités d'extraction de caractéristiques puissantes, ils sont sujets au surapprentissage et convergent souvent vers des minima aigus dans le paysage de la fonction de perte lorsqu'ils sont entraînés sur de telles données médicales contraintes. Pour résoudre ce problème, nous introduisons un cadre qui améliore le Transformer à Spectrogramme Audio (AST) en utilisant la Minimisation Sensible à l'Acuité (SAM). Au lieu de simplement minimiser la perte d'entraînement, notre approche optimise la géométrie de la surface de perte, guidant le modèle vers des minima plus plats qui généralisent mieux aux patients non vus. Nous mettons également en œuvre une stratégie d'échantillonnage pondéré pour gérer efficacement le déséquilibre des classes. Notre méthode atteint un score de pointe de 68,10 % sur l'ensemble de données ICBHI 2017, surpassant les approches de référence existantes basées sur les CNN et les architectures hybrides. Plus important encore, elle atteint une sensibilité de 68,31 %, une amélioration cruciale pour un dépistage clinique fiable. Une analyse plus poussée utilisant les visualisations t-SNE et les cartes d'attention confirme que le modèle apprend des caractéristiques robustes et discriminantes plutôt que de mémoriser le bruit de fond.
Les problèmes de raisonnement complexes impliquent souvent des relations spatiales, géométriques et structurelles implicites qui ne sont pas explicitement encodées dans le texte. Si les modèles de raisonnement récents ont obtenu des performances solides dans de nombreux domaines, le raisonnement purement textuel peine à représenter les contraintes structurelles globales dans des contextes complexes. Dans cet article, nous présentons FIGR, qui intègre la pensée visuelle active dans le raisonnement multi-étapes via un apprentissage par renforcement de bout en bout. FIGR externalise les hypothèses structurelles intermédiaires en construisant des représentations visuelles durant la résolution de problèmes. En régulant de manière adaptative quand et comment le raisonnement visuel doit être invoqué, FIGR permet un raisonnement plus stable et cohérent sur les propriétés structurelles globales difficiles à capturer à partir du texte seul. Les expériences sur des benchmarks exigeants de raisonnement mathématique démontrent que FIGR surpasse les solides bases de référence à chaîne de pensée purement textuelle. En particulier, FIGR améliore le modèle de base de 13,12 % sur AIME 2025 et de 11,00 % sur BeyondAIME, soulignant l'efficacité du raisonnement multimodal guidé par les figures pour améliorer la stabilité et la fiabilité du raisonnement complexe.
Les modèles vidéo-langage récents ont montré un grand potentiel pour la compréhension vidéo, mais peinent encore à assurer un ancrage temporel précis pour la perception au niveau des événements. Nous observons que deux facteurs principaux de la compréhension vidéo (à savoir, l'ancrage temporel et la réponse textuelle) forment une hiérarchie logique : un ancrage précis des preuves temporelles jette les bases d'une réponse textuelle fiable. Cependant, les travaux existants traitent généralement ces deux tâches de manière couplée sans structure logique claire, conduisant à des objectifs sous-optimaux. Nous abordons ce problème sous l'angle de l'apprentissage factorisé. Nous proposons d'abord D²VLM, un cadre qui découple l'apprentissage de ces deux tâches tout en soulignant leur dépendance inhérente. Nous adoptons un paradigme « d'abord ancrer, puis répondre avec référence aux preuves » et introduisons des tokens de preuve pour l'ancrage des évidences, qui mettent l'accent sur la capture sémantique visuelle au niveau des événements, au-delà de l'attention portée à la représentation des horodatages dans les travaux existants. Pour faciliter davantage l'apprentissage de ces deux tâches, nous introduisons un nouvel algorithme d'optimisation des préférences factorisées (FPO). Contrairement à l'optimisation standard des préférences, la FPO intègre explicitement la modélisation probabiliste de l'ancrage temporel dans l'objectif d'optimisation, permettant un apprentissage par préférences à la fois pour l'ancrage temporel et la réponse textuelle. Nous construisons également un jeu de données synthétique pour pallier le manque de jeux de données adaptés à l'apprentissage des préférences factorisées avec ancrage temporel explicite. Les expériences sur diverses tâches démontrent l'avantage net de notre approche. Notre code source est disponible à l'adresse https://github.com/nusnlp/d2vlm.
Le dialogue stratégique nécessite que les agents exécutent des actes de dialogue distincts, pour lesquels l'estimation des croyances est essentielle. Si les travaux antérieurs estiment souvent les croyances avec précision, ils manquent d'un mécanisme structuré pour utiliser ces croyances lors de la génération. Nous comblons cette lacune en formalisant d'abord deux actes fondamentaux, Adversarial et Alignment, et en les opérationnalisant via des contraintes probabilistes sur ce qu'un agent peut générer. Nous concrétisons cette idée dans BEDA, un cadre qui comprend l'ensemble du monde, l'estimateur de croyances pour l'estimation des croyances, et le générateur conditionnel qui sélectionne les actes et produit des énoncés cohérents avec les croyances inférées. Sur trois scénarios – Conditional Keeper Burglar (CKBG, adversarial), Mutual Friends (MF, coopératif) et CaSiNo (négociation) – BEDA surpasse systématiquement des bases de référence solides : sur CKBG, il améliore le taux de réussite d'au moins 5,0 points sur toutes les architectures et de 20,6 points avec GPT-4.1-nano ; sur Mutual Friends, il obtient une amélioration moyenne de 9,3 points ; et sur CaSiNo, il atteint l'accord optimal par rapport à toutes les bases de référence. Ces résultats indiquent que le fait de modéliser l'estimation des croyances comme des contraintes fournit un mécanisme simple et général pour un dialogue stratégique fiable.
Les systèmes d'IA modernes reposent sur des embeddings vectoriels stockés et recherchés à l'aide d'opérations en virgule flottante. Bien qu'efficace pour la recherche approximative de similarité, cette conception introduit un non-déterminisme fondamental : des modèles, des entrées et un code identiques peuvent produire des états mémoire et des résultats de recherche différents selon les architectures matérielles (par exemple, x86 vs ARM). Cela empêche la rejouabilité et le déploiement sécurisé, entraînant une divergence silencieuse des données qui compromet la vérification a posteriori et les pistes d'audit dans les secteurs réglementés. Nous présentons Valori, un substrat mémoire d'IA déterministe qui remplace les opérations mémoire en virgule flottante par de l'arithmétique en virgule fixe (Q16.16) et modélise la mémoire comme une machine à états rejouable. Valori garantit des états mémoire, des instantanés et des résultats de recherche bit à bit identiques sur toutes les plateformes. Nous démontrons que le non-déterminisme survient avant l'indexation ou la récupération et montrons comment Valori impose le déterminisme à la frontière mémoire. Nos résultats suggèrent qu'une mémoire déterministe est une primitive nécessaire pour des systèmes d'IA dignes de confiance. L'implémentation de référence est open-source et disponible à l'adresse https://github.com/varshith-Git/Valori-Kernel (archivée à https://zenodo.org/records/18022660).