papers.description
Le raisonnement multimodal nécessite une coordination itérative entre le langage et la vision, mais il reste difficile de définir ce qui constitue un enchaînement de pensée entrelacé significatif. Nous postulons que les pensées textuelles et visuelles devraient fonctionner comme des modalités complémentaires plutôt qu'isomorphes, qui font progresser mutuellement le raisonnement. Guidés par ce principe, nous construisons ThinkMorph, un modèle unifié affiné sur 24 000 traces de raisonnement entrelacées de haute qualité couvrant des tâches avec des engagements visuels variables. ThinkMorph apprend à générer des étapes de raisonnement texte-image progressives qui manipulent concrètement le contenu visuel tout en maintenant une logique verbale cohérente. Il obtient des gains significatifs sur des benchmarks centrés sur la vision (une moyenne de 34,7 % par rapport au modèle de base) et généralise à des tâches hors domaine, égalant ou surpassant des modèles de langage visuel plus grands et propriétaires. Au-delà des performances, ThinkMorph présente une intelligence multimodale émergente, incluant des compétences de manipulation visuelle inédites, une commutation adaptative entre les modes de raisonnement et une meilleure échelle au moment du test grâce à des pensées multimodales diversifiées. Ces résultats suggèrent des pistes prometteuses pour caractériser les capacités émergentes des modèles unifiés de raisonnement multimodal.
Le matériel d'IA moderne, tel que l'architecture Blackwell de Nvidia, adopte de plus en plus des formats de nombres flottants (FP) de faible précision pour gérer les valeurs aberrantes omniprésentes dans les modèles de langage de grande taille (LLM). Malgré cette tendance industrielle, une comparaison unifiée entre la quantification FP et entière (INT) à différentes granularités faisait défaut, privant la co-conception algorithme-matériel de lignes directrices claires. Cet article comble cette lacune en étudiant systématiquement les compromis entre les formats FP et INT. Nous révélons un croisement critique des performances : si FP excelle dans la quantification à granularité grossière, la comparaison aux niveaux à granularité fine (par blocs) est plus nuancée. Notre comparaison exhaustive démontre que pour les formats à granularité fine 8 bits populaires (par exemple MX avec une taille de bloc de 32), MXINT8 est supérieur à son homologue FP en précision algorithmique et en efficacité matérielle. Cependant, pour les formats 4 bits, FP (par exemple MXFP4, NVFP4) conserve souvent un avantage en précision, bien que nous montrions que NVINT4 peut surpasser NVFP4 lorsque des techniques d'atténuation des valeurs aberrantes comme la rotation de Hadamard sont appliquées. Nous introduisons également une méthode de clipping symétrique qui résout le biais du gradient dans l'entraînement INT à faible bit et granularité fine, permettant des performances quasi sans perte pour l'entraînement MXINT8. Ces résultats remettent en question la trajectoire matérielle actuelle, démontrant qu'une approche FP universelle est sous-optimale et préconisant que les formats INT à granularité fine, particulièrement MXINT8, offrent un meilleur équilibre entre précision, puissance et efficacité pour les accélérateurs d'IA futurs.
Les agents informatiques utilisant des modèles vision-langage (VLM) ont démontré des capacités quasi humaines pour opérer dans des environnements numériques comme les plateformes mobiles. Bien que ces agents promettent d'importantes avancées en automatisation numérique, leur potentiel d'opérations non sécurisées, telles que la compromission de systèmes et la fuite de données privées, soulève des préoccupations majeures. Détecter ces risques de sécurité dans l'espace opérationnel vaste et complexe des environnements mobiles représente un défi formidable qui reste cruellement sous-exploré. Pour établir les bases de la recherche sur la sécurité des agents mobiles, nous présentons MobileRisk-Live, un environnement sandbox dynamique accompagné d'un benchmark de détection de sécurité comprenant des trajectoires réalistes avec des annotations granulaires. Sur cette base, nous proposons OS-Sentinel, un nouveau cadre hybride de détection de sécurité qui combine de manière synergique un Vérificateur Formel pour détecter les violations explicites au niveau système avec un Juge Contextuel basé sur VLM pour évaluer les risques contextuels et les actions des agents. Les expériences montrent qu'OS-Sentinel obtient des améliorations de 10% à 30% par rapport aux approches existantes sur plusieurs métriques. Une analyse plus poussée fournit des insights critiques qui favorisent le développement d'agents mobiles autonomes plus sûrs et plus fiables.
L'efficacité des grands modèles de langage (LLM) est fondamentalement limitée par leur processus de génération séquentiel, token par token. Nous soutenons que pour surmonter ce goulot d'étranglement, il est nécessaire d'introduire un nouvel axe de conception pour la mise à l'échelle des LLM : l'augmentation de la bande passante sémantique à chaque étape générative. À cette fin, nous présentons les modèles de langage autorégressifs continus (CALM), un changement de paradigme qui passe de la prédiction discrète du token suivant à la prédiction continue du vecteur suivant. CALM utilise un autoencodeur à haute fidélité pour compresser un bloc de K tokens en un seul vecteur continu, à partir duquel les tokens originaux peuvent être reconstruits avec une précision supérieure à 99,9 %. Cela nous permet de modéliser le langage comme une séquence de vecteurs continus au lieu de tokens discrets, ce qui réduit le nombre d'étapes génératives d'un facteur K. Ce changement de paradigme nécessite une nouvelle boîte à outils de modélisation ; par conséquent, nous développons un cadre complet sans vraisemblance qui permet un entraînement robuste, une évaluation et un échantillonnage contrôlable dans le domaine continu. Les expériences montrent que CALM améliore significativement le compromis performance-calcul, atteignant les performances de modèles discrets de référence solides à un coût computationnel nettement inférieur. Plus important encore, ces résultats établissent la prédiction du vecteur suivant comme une voie puissante et évolutive vers des modèles de langage ultra-efficaces. Code : https://github.com/shaochenze/calm. Projet : https://shaochenze.github.io/blog/2025/CALM.
Les modèles Vision-Langage-Action (VLA) permettent aux robots de comprendre et d'exécuter des tâches complexes à partir d'entrées multimodales. Bien que des travaux récents explorent l'utilisation de l'apprentissage par renforcement (RL) pour automatiser le processus fastidieux de collecte de données lors de la mise à l'échelle du fine-tuning supervisé (SFT), l'application du RL à grande échelle aux VLA basés sur des flux (par exemple, π₀, π₀.₅) reste difficile en raison de l'incalculabilité des log-vraisemblances d'actions lors du débruîtage itératif. Nous relevons ce défi avec π_RL, un framework open-source pour l'entraînement des VLA basés sur des flux en simulation parallèle. π_RL implémente deux algorithmes de RL : (1) {Flow-Noise} modélise le processus de débruîtage comme un MDP à temps discret avec un réseau de bruit apprenable pour le calcul exact de la log-vraisemblance. (2) {Flow-SDE} intègre le débruîtage avec l'interaction agent-environnement, formulant un MDP à deux couches qui utilise une conversion ODE-vers-SDE pour une exploration RL efficace. Nous évaluons π_RL sur les benchmarks LIBERO et ManiSkill. Sur LIBERO, π_RL améliore les modèles SFT en few-shot π₀ et π₀.₅, les faisant passer respectivement de 57,6 % à 97,6 % et de 77,1 % à 98,3 %. Dans ManiSkill, nous entraînons π_RL dans 320 environnements parallèles, améliorant π₀ de 41,6 % à 85,7 % et π₀.₅ de 40,0 % à 84,8 % sur 4352 tâches de pick-and-place, démontrant ainsi un RL multitâche scalable dans des simulations hétérogènes. Globalement, π_RL obtient des gains de performance significatifs et une généralisation plus robuste que les modèles SFT, validant l'efficacité du RL en ligne pour les VLA basés sur des flux.
Le réglage fin par apprentissage par renforcement (RL) des grands modèles de langage (LLM) souffre souvent d'une instabilité due à l'inadéquation numérique entre les politiques d'entraînement et d'inférence. Si les travaux antérieurs ont tenté de remédier à ce problème par des corrections algorithmiques ou des alignements techniques, nous montrons que sa cause fondamentale réside dans la précision des nombres à virgule flottante elle-même. Le format BF16, bien que largement adopté pour sa grande plage dynamique, introduit des erreurs d'arrondi importantes qui rompent la cohérence entre l'entraînement et l'inférence. Dans ce travail, nous démontrons que le simple retour au format FP16 élimine efficacement cette inadéquation. Ce changement est simple, entièrement pris en charge par les frameworks modernes avec seulement quelques lignes de code modifiées, et ne nécessite aucune modification de l'architecture du modèle ou de l'algorithme d'apprentissage. Nos résultats suggèrent qu'une utilisation uniforme du FP16 permet une optimisation plus stable, une convergence plus rapide et de meilleures performances sur diverses tâches, algorithmes et frameworks. Nous espérons que ces conclusions motiveront une reconsidération plus large des compromis de précision dans le réglage fin par RL.
La compréhension spatiale demeure un point faible des grands modèles vision-langage (LVLM). Les pipelines existants de fine-tuning supervisé (SFT) et les approches récentes d'apprentissage par renforcement avec récompenses vérifiables (RLVR) dépendent d'une supervision coûteuse, d'outils spécialisés ou d'environnements contraints qui limitent leur passage à l'échelle. Nous présentons Spatial-SSRL, un paradigme d'apprentissage par renforcement auto-supervisé qui tire des signaux vérifiables directement d'images RVB ou RVB-D ordinaires. Spatial-SSRL formule automatiquement cinq tâches prétextes qui capturent la structure spatiale 2D et 3D : réorganisation de patchs mélangés, reconnaissance de patchs inversés, inpainting de patchs rognés, ordonnancement des profondeurs régionales et prédiction de position 3D relative. Ces tâches fournissent des réponses de référence faciles à vérifier et ne nécessitent aucune annotation humaine ou par LVLM. L'entraînement sur nos tâches améliore considérablement le raisonnement spatial tout en préservant les capacités visuelles générales. Sur sept benchmarks de compréhension spatiale en contexte image et vidéo, Spatial-SSRL apporte des gains de précision moyens de 4,63 % (3B) et 3,89 % (7B) par rapport aux modèles de référence Qwen2.5-VL. Nos résultats montrent qu'une supervision intrinsèque simple permet la RLVR à grande échelle et offre une voie pratique vers une intelligence spatiale plus robuste dans les LVLM.
La Distillation par Appariement de Distribution (DMD) condense les modèles génératifs à base de scores en générateurs efficaces en une seule étape, sans exiger une correspondance un-à-un avec les trajectoires d'échantillonnage de leurs modèles enseignants. Cependant, une capacité de modèle limitée fait que les modèles distillés en une étape sous-performent sur des tâches génératives complexes, par exemple, pour synthétiser des mouvements d'objets complexes dans la génération vidéo à partir de texte. Étendre directement DMD à une distillation multi-étapes augmente l'utilisation de la mémoire et la profondeur computationnelle, conduisant à une instabilité et une efficacité réduite. Bien que des travaux antérieurs proposent la troncature stochastique du gradient comme solution potentielle, nous observons qu'elle réduit substantiellement la diversité de génération des modèles distillés multi-étapes, la ramenant au niveau de leurs équivalents en une étape. Pour résoudre ces limitations, nous proposons Phased DMD, un cadre de distillation multi-étapes qui associe l'idée de distillation par phases avec les Mixtures d'Experts (MoE), réduisant la difficulté d'apprentissage tout en augmentant la capacité du modèle. Phased DMD repose sur deux idées clés : l'appariement de distribution progressive et l'appariement de scores dans des sous-intervalles. Premièrement, notre modèle divise la plage de RSB en sous-intervalles, affinant progressivement le modèle vers des niveaux de RSB plus élevés, pour mieux capturer des distributions complexes. Ensuite, pour garantir l'exactitude de l'objectif d'entraînement dans chaque sous-intervalle, nous avons conduit des dérivations mathématiques rigoureuses. Nous validons Phased DMD en distillant des modèles de génération d'images et de vidéo à la pointe, incluant Qwen-Image (20 milliards de paramètres) et Wan2.2 (28 milliards de paramètres). Les résultats expérimentaux démontrent que Phased DMD préserve mieux la diversité des sorties que DMD tout en conservant les capacités génératives clés. Nous publierons notre code et nos modèles.
Les agents autonomes d'interface graphique (GUI) reposent sur un ancrage précis des éléments de l'interface, qui consiste à mapper les instructions en langage naturel vers des coordonnées à l'écran, pour exécuter les commandes utilisateur. Cependant, les modèles actuels, qu'ils soient entraînés par fine-tuning supervisé (SFT) ou par fine-tuning par renforcement (RFT), manquent d'auto-conscience de leurs limites capacitives, conduisant à une surconfiance et à des prédictions peu fiables. Nous évaluons d'abord systématiquement la confiance probabiliste et verbalisée dans les modèles généraux et spécifiques aux GUI, révélant un décalage entre la confiance et la précision réelle, ce qui est particulièrement critique dans les tâches d'automatisation d'interfaces dynamiques, où une seule erreur peut entraîner l'échec de la tâche. Pour résoudre ce problème, nous proposons HyperClick, un nouveau cadre qui améliore la fiabilité de l'ancrage des GUI par le calibrage d'incertitude. HyperClick introduit un mécanisme de récompense dual, combinant une récompense binaire pour les actions correctes avec une modélisation de la confiance spatiale basée sur une Gaussienne tronquée, calibrée à l'aide du score de Brier. Cette approche optimise conjointement la précision de l'ancrage et la fiabilité de la confiance, favorisant une introspection autocritique. Des expériences approfondies sur sept benchmarks difficiles montrent qu'HyperClick atteint des performances à l'état de l'art tout en fournissant une confiance bien calibrée. En permettant un calibrage explicite de la confiance et une introspection autocritique, HyperClick réduit la surconfiance et favorise une automatisation des GUI plus fiable.
L'encodage positionnel multimodal est essentiel pour les modèles vision-langage, mais il a fait l'objet de peu d'études systématiques. Nous menons une analyse approfondie de l'Embedding Positionnel Rotatif (RoPE) multimodal en examinant ses deux composantes principales : la conception positionnelle et l'allocation des fréquences. Par le biais d'expériences approfondies, nous identifions trois principes clés : la cohérence positionnelle, l'utilisation complète des fréquences et la préservation des prérequis textuels – garantissant une disposition non ambiguë, une représentation riche et un transfert fidèle depuis le LLM pré-entraîné. Sur la base de ces observations, nous proposons Multi-Head RoPE (MHRoPE) et MRoPE-Interleave (MRoPE-I), deux variantes simples et prêtes à l'emploi qui ne nécessitent aucune modification architecturale. Nos méthodes surpassent constamment les approches existantes sur divers benchmarks, avec des améliorations significatives tant dans la compréhension multimodale générale que fine. Le code sera disponible à l'adresse https://github.com/JJJYmmm/Multimodal-RoPEs.
La verbosité du raisonnement en chaîne de pensée (CoT) entrave son déploiement massif dans les applications critiques pour l'efficacité. Récemment, des approches implicites de CoT ont émergé, qui encodent les étapes de raisonnement dans les embeddings cachés des LLM (appelés « raisonnement implicite ») plutôt que dans des tokens explicites. Cette approche accélère le CoT en réduisant la longueur du raisonnement et en contournant certains composants des LLM. Cependant, les méthodes implicites de CoT existantes sont confrontées à deux défis majeurs : (1) elles ne préservent pas l'alignement sémantique entre le raisonnement implicite (lorsqu'il est transformé en langage naturel) et le raisonnement de référence, ce qui entraîne une dégradation significative des performances du CoT, et (2) elles se concentrent sur la réduction de la longueur du raisonnement implicite, mais négligent le coût temporel considérable pour un LLM à générer un token individuel de raisonnement implicite. Pour relever ces défis, nous proposons un nouveau cadre de CoT implicite sémantiquement aligné, nommé SemCoT. En particulier, pour le premier défi, nous concevons un transformeur de phrases entraîné par contraste qui évalue l'alignement sémantique entre les raisonnements implicite et explicite, utilisé pour préserver la sémantique lors de l'optimisation du raisonnement implicite. Pour adresser le second défi, nous introduisons un générateur de raisonnement implicite efficace en affinant un modèle de langage léger par distillation de connaissances. Ce générateur est guidé par notre transformeur de phrases pour distiller le raisonnement de référence en un raisonnement implicite sémantiquement aligné, tout en optimisant la précision. SemCoT est la première approche qui améliore l'efficacité du CoT en optimisant conjointement la vitesse de génération au niveau des tokens et la préservation de l'alignement sémantique avec le raisonnement de référence. Des expériences approfondies démontrent la performance supérieure de SemCoT par rapport aux méthodes de l'état de l'art en termes d'efficacité et d'efficience. Notre code est disponible à l'adresse https://github.com/YinhanHe123/SemCoT/.
Le coût quadratique de l'attention par produit scalaire mis à l'échelle est un obstacle central à la mise à l'échelle des modèles de langage autorégressifs pour de longs contextes. Les mécanismes d'attention à temps linéaire et les modèles à espace d'états (SSM) offrent des alternatives évolutives, mais sont généralement limités à des approximations du premier ordre ou basées sur des noyaux, ce qui peut restreindre l'expressivité. Nous présentons l'Attention Linéaire d'Ordre Supérieur (HLA), un mécanisme causal et séquentiel qui réalise des interactions d'ordre supérieur via des statistiques exhaustives de préfixe compactes. Dans le cas du second ordre, HLA maintient un état de taille constante et calcule les sorties par token en temps linéaire sans matérialiser de matrices n fois n. Nous fournissons des identités de traitement séquentiel sous forme fermée, une variante masquée strictement causale utilisant deux résumés supplémentaires, et un schéma d'entraînement parallèle par blocs basé sur des scans associatifs qui reproduit exactement les activations d'une récurrence série. Nous esquissons en outre des extensions aux ordres trois et supérieurs. Collectivement, ces résultats positionnent HLA comme un bloc de construction évolutif et fondé, qui combine un mélange dépendant des données, semblable à l'attention, avec l'efficacité des architectures récurrentes modernes. Page du projet : https://github.com/yifanzhang-pro/HLA.
Les modèles de langage multimodaux (MLLM) ont fait progresser les agents incarnés en permettant la perception directe, le raisonnement et la planification d'actions orientées tâches à partir d'entrées visuelles. Cependant, ces agents incarnés pilotés par la vision ouvrent une nouvelle surface d'attaque : les attaques par porte dérobée visuelle, où l'agent se comporte normalement jusqu'à ce qu'un déclencheur visuel apparaisse dans la scène, puis exécute persistamment une politique en plusieurs étapes spécifiée par l'attaquant. Nous présentons BEAT, le premier cadre pour injecter de telles portes dérobées visuelles dans les agents incarnés basés sur les MLLM en utilisant les objets de l'environnement comme déclencheurs. Contrairement aux déclencheurs textuels, les déclencheurs objets présentent de grandes variations selon les points de vue et l'éclairage, ce qui les rend difficiles à implanter de manière fiable. BEAT relève ce défi en (1) construisant un ensemble d'entraînement couvrant diverses scènes, tâches et positions de déclencheurs pour exposer les agents à la variabilité des déclencheurs, et (2) introduisant un schéma d'entraînement en deux étapes qui applique d'abord un réglage fin supervisé (SFT), puis notre nouvelle méthode d'apprentissage par contraste des déclencheurs (CTL). Le CTL formule la discrimination des déclencheurs comme un apprentissage de préférence entre les entrées avec et sans déclencheur, affinant explicitement les frontières de décision pour garantir une activation précise de la porte dérobée. Sur diverses benchmarks d'agents incarnés et de MLLM, BEAT atteint des taux de réussite d'attaque allant jusqu'à 80%, tout en maintenant de solides performances sur les tâches bénignes, et généralise de manière fiable à des positions de déclencheurs hors distribution. Notamment, comparé au SFT naïf, le CTL améliore la précision d'activation de la porte dérobée jusqu'à 39% avec des données de porte dérobée limitées. Ces résultats révèlent un risque de sécurité critique et inexploré dans les agents incarnés basés sur les MLLM, soulignant la nécessité de défenses robustes avant un déploiement réel.
Alors que les LLM occupent une place de plus en plus importante dans la société, ils sont confrontés à un nombre croissant de questions qui exigent non seulement de mobiliser leurs connaissances générales, mais aussi de s'aligner sur certains systèmes de valeurs humaines. Par conséquent, l'étude de l'alignement des LLM sur les valeurs humaines est devenue un domaine de recherche crucial. Cependant, les travaux antérieurs se concentrent principalement sur l'évaluation de l'alignement des modèles entièrement entraînés, négligeant la dynamique d'apprentissage par laquelle les modèles apprennent à exprimer les valeurs humaines. Dans ce travail, nous étudions comment et à quel stade l'alignement des valeurs émerge au cours du post-entraînement d'un modèle. Notre analyse distingue les effets des algorithmes et des jeux de données de post-entraînement, en mesurant à la fois l'amplitude et le moment des dérives de valeurs pendant l'entraînement. En expérimentant avec des modèles Llama-3 et Qwen-3 de différentes tailles, ainsi qu'avec des jeux de données et algorithmes populaires de fine-tuning supervisé (SFT) et d'optimisation des préférences, nous constatons que la phase SFT établit généralement les valeurs d'un modèle, et que l'optimisation des préférences qui suit ne réaligne que rarement ces valeurs. De plus, en utilisant un jeu de données de préférences synthétiques permettant une manipulation contrôlée des valeurs, nous constatons que différents algorithmes d'optimisation des préférences conduisent à des résultats d'alignement des valeurs différents, même lorsque les données de préférences sont maintenues constantes. Nos résultats fournissent des indications pratiques sur la manière dont les valeurs sont apprises pendant le post-entraînement et contribuent à éclairer la curation des données, ainsi que la sélection des modèles et des algorithmes pour l'optimisation des préférences, afin d'améliorer l'alignement des modèles sur les valeurs humaines.
Récemment, l'augmentation des modèles Vision-Langage-Action (VLA) par la modélisation du monde a montré des résultats prometteurs pour améliorer l'apprentissage de politiques robotiques. Cependant, la prédiction conjointe des observations d'état suivant et des séquences d'actions reste difficile en raison de la différence inhérente entre ces deux modalités. Pour résoudre ce problème, nous proposons DUal-STream diffusion (DUST), un cadre VLA augmenté par un modèle du monde qui gère le conflit de modalités et améliore les performances des VLA sur diverses tâches. Plus précisément, nous proposons une architecture de transformateur à diffusion multimodale qui maintient explicitement des flux de modalités séparés tout en permettant le partage de connaissances inter-modales. De plus, nous introduisons des perturbations de bruit indépendantes pour chaque modalité et une fonction de perte de couplage de flux découplée. Cette conception permet au modèle d'apprendre la distribution conjointe de manière bidirectionnelle tout en évitant la nécessité d'un espace latent unifié. Sur la base du découplage des modalités pendant l'entraînement, nous introduisons également une méthode d'échantillonnage conjoint qui prend en charge la mise à l'échelle au moment du test, où les tokens d'action et de vision évoluent de manière asynchrone à des rythmes différents. À travers des expériences sur des benchmarks de simulation tels que RoboCasa et GR-1, DUST obtient des gains allant jusqu'à 6 % par rapport aux méthodes de référence, tandis que notre approche de mise à l'échelle au moment du test fournit une amélioration supplémentaire de 2 à 5 %. Sur des tâches du monde réel avec le Franka Research 3, DUST améliore les taux de réussite de 13 %, confirmant son efficacité au-delà de la simulation. De plus, le pré-entraînement sur des vidéos sans action de BridgeV2 produit des gains de transfert significatifs sur RoboCasa, soulignant le potentiel de DUST pour le pré-entraînement à grande échelle des VLA.
Nous présentons Denario, un système multi-agent d'IA conçu pour servir d'assistant de recherche scientifique. Denario peut accomplir diverses tâches telles que générer des idées, consulter la littérature, élaborer des plans de recherche, écrire et exécuter du code, créer des graphiques, et rédiger ou réviser un article scientifique. Le système possède une architecture modulaire lui permettant de traiter des tâches spécifiques, comme la génération d'idées, ou de réaliser une analyse scientifique de bout en bout en utilisant Cmbagent comme moteur de recherche approfondie. Dans cet article, nous décrivons en détail Denario et ses modules, et illustrons ses capacités en présentant plusieurs articles générés par l'IA dans diverses disciplines scientifiques telles que l'astrophysique, la biologie, la biophysique, l'informatique biomédicale, la chimie, la science des matériaux, la physique mathématique, la médecine, les neurosciences et les sciences planétaires. Denario excelle également dans la combinaison d'idées issues de différentes disciplines, comme en témoigne un article appliquant des méthodes de physique quantique et d'apprentissage automatique à des données astrophysiques. Nous rapportons les évaluations effectuées sur ces articles par des experts du domaine, qui ont fourni à la fois des scores numériques et des retours similaires à des relectures. Nous mettons ensuite en lumière les forces, les faiblesses et les limites du système actuel. Enfin, nous discutons des implications éthiques de la recherche pilotée par l'IA et réfléchissons à la manière dont cette technologie s'inscrit dans la philosophie des sciences. Nous rendons le code public à l'adresse https://github.com/AstroPilot-AI/Denario. Une démonstration de Denario est également accessible en ligne sur https://huggingface.co/spaces/astropilot-ai/Denario, et l'application complète sera déployée sur le cloud.
Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLM), nécessitant non seulement des réponses correctes mais aussi des processus de raisonnement fidèles. Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est apparu comme une approche prometteuse pour améliorer ces capacités ; cependant, sa capacité à favoriser un raisonnement authentique reste incertaine. Nous étudions RLVR sur deux problèmes combinatoires avec des solutions entièrement vérifiables : la Planification d'Activités et la Sous-Suite Croissante la Plus Longue, en utilisant des ensembles de données soigneusement constitués avec des optimums uniques. À travers plusieurs conceptions de récompenses, nous constatons que RLVR améliore les métriques d'évaluation mais souvent en renforçant des heuristiques superficielles plutôt qu'en acquérant de nouvelles stratégies de raisonnement. Ces résultats soulignent les limites de la généralisation de RLVR, en mettant l'accent sur l'importance de benchmarks qui distinguent le raisonnement mathématique authentique de l'exploitation de raccourcis et fournissent des mesures fidèles des progrès. Code disponible à l'adresse https://github.com/xashru/rlvr-seq-generalization.
Les modèles vision-langage-action (VLA) représentent une frontière significative dans l'intelligence incarnée, visant à établir un pont entre les connaissances numériques et l'interaction avec le monde physique. Bien que ces modèles aient démontré des capacités généralistes remarquables, leur déploiement est sévèrement entravé par les exigences substantielles en calcul et en données inhérentes à leurs modèles de fondation à grande échelle. Motivée par le besoin urgent de relever ces défis, cette étude présente la première revue complète des modèles efficaces vision-langage-action (VLA efficaces) à travers l'ensemble du processus données-modèle-apprentissage. Plus précisément, nous introduisons une taxonomie unifiée pour organiser systématiquement les efforts disparates dans ce domaine, en catégorisant les techniques actuelles en trois piliers fondamentaux : (1) la conception efficace de modèles, axée sur les architectures efficaces et la compression de modèles ; (2) l'apprentissage efficace, qui réduit les charges computationnelles durant l'apprentissage du modèle ; et (3) la collecte efficace de données, qui aborde les goulots d'étranglement dans l'acquisition et l'utilisation des données robotiques. À travers une analyse critique des méthodes de pointe dans ce cadre, cette étude établit non seulement une référence fondamentale pour la communauté, mais résume également les applications représentatives, délimite les défis clés et trace une feuille de route pour les recherches futures. Nous maintenons une page de projet continuellement mise à jour pour suivre nos derniers développements : https://evla-survey.github.io/
Les grands modèles de langage (LLM) redéfinissent le paradigme des systèmes de recommandation en permettant aux utilisateurs d'exprimer leurs préférences et de recevoir des suggestions par le biais de conversations. Cependant, l'alignement des LLM sur la tâche de recommandation reste problématique : les LLM pré-entraînés génèrent souvent des éléments hors catalogue, violent les formats de sortie requis, et leur qualité de classement se dégrade considérablement vers la fin de la liste générée. Pour pallier cela, nous proposons ConvRec-R1, un cadre en deux étapes pour l'entraînement de bout en bout de systèmes de recommandation conversationnels basés sur LLM. Dans l'Étape 1, nous construisons un jeu de données de clonage comportemental avec un pipeline Remap-Reflect-Adjust, qui produit des démonstrations de haute qualité, ancrées dans le catalogue, à partir de LLM boîte noire puissants pour amorcer l'entraînement par apprentissage par renforcement (RL). Dans l'Étape 2, nous proposons Rank-GRPO, une extension principielle de l'optimisation de politique relative par groupe (GRPO) adaptée aux tâches avec des sorties de type classement. Rank-GRPO traite chaque rang dans la liste de recommandation comme unité au lieu du jeton (trop granulaire) ou de la séquence (trop grossier), redéfinissant les récompenses pour supprimer l'attribution de crédit non causale et introduisant un ratio d'importance au niveau du rang basé sur la moyenne géométrique des probabilités de jetons par rang pour stabiliser les mises à jour de la politique. Les expériences sur le jeu de données public Reddit-v2 montrent que ConvRec-R1 converge plus rapidement et atteint des Recall et NDCG plus élevés que les méthodes de référence de type GRPO. Le code et les jeux de données sont disponibles à l'adresse https://github.com/yaochenzhu/Rank-GRPO.
La segmentation précise des bâtiments et la classification de leur hauteur sont essentielles pour l'urbanisme, la modélisation 3D des villes et la surveillance des infrastructures. Cet article présente une analyse détaillée de YOLOv11, l'avancée récente de la série de modèles d'apprentissage profond YOLO, en se concentrant sur son application pour l'extraction conjointe des bâtiments et la classification discrète de leur hauteur à partir d'imagerie satellitaire. YOLOv11 s'appuie sur les forces des modèles YOLO antérieurs en introduisant une architecture plus efficace qui combine mieux les caractéristiques à différentes échelles, améliore la précision de localisation des objets et optimise les performances dans les scènes urbaines complexes. En utilisant le jeu de données DFC2023 Track 2 – qui comprend plus de 125 000 bâtiments annotés répartis sur 12 villes – nous évaluons les performances de YOLOv11 avec des métriques telles que la précision, le rappel, le score F1 et la précision moyenne moyenne (mAP). Nos résultats démontrent que YOLOv11 obtient d'excellentes performances en segmentation d'instances avec 60,4 % de mAP@50 et 38,3 % de mAP@50–95 tout en maintenant une robuste précision de classification sur cinq niveaux de hauteur prédéfinis. Le modèle excelle dans le traitement des occlusions, des formes architecturales complexes et du déséquilibre de classes, particulièrement pour les structures élevées rares. L'analyse comparative confirme que YOLOv11 surpasse les frameworks multitâches antérieurs tant en précision de détection qu'en vitesse d'inférence, le rendant particulièrement adapté à la cartographie urbaine en temps réel et à grande échelle. Cette recherche souligne le potentiel de YOLOv11 pour faire progresser la reconstruction sémantique urbaine grâce à une modélisation catégorielle simplifiée des hauteurs, offrant des perspectives opérationnelles pour les futurs développements en télédétection et intelligence géospatiale.
La désinformation liée à la santé est très répandue et potentiellement dangereuse. Elle est difficile à identifier, particulièrement lorsque les affirmations déforment ou interprètent incorrectement des résultats scientifiques. Nous étudions l'impact des techniques de génération de données synthétiques et de fine-tuning léger sur la capacité des grands modèles de langage (LLM) à reconnaître les arguments fallacieux en utilisant le jeu de données et le cadre MISSCI. Dans ce travail, nous proposons MisSynth, un pipeline qui applique la génération augmentée par retrieval (RAG) pour produire des échantillons de sophismes synthétiques, lesquels sont ensuite utilisés pour effectuer un fine-tuning d'un modèle LLM. Nos résultats montrent des gains substantiels en précision avec les modèles fine-tunés par rapport aux modèles de base non entraînés. Par exemple, le modèle LLaMA 3.1 8B fine-tuné a obtenu une amélioration absolue du score F1 de plus de 35 % sur la partition de test de MISSCI par rapport à sa version de base. Nous démontrons que l'introduction de données de sophismes synthétiques pour augmenter des ressources annotées limitées peut significativement améliorer les performances de classification en zero-shot des LLM sur des tâches de désinformation scientifique réelle, même avec des ressources computationnelles limitées. Le code et le jeu de données synthétiques sont disponibles sur https://github.com/mxpoliakov/MisSynth.
Les modèles texte-image (T2I) sont de plus en plus utilisés pour la génération de jeux de données synthétiques, mais la production de données d'entraînement synthétiques efficaces pour la classification reste difficile. Le micro-ajustement d'un modèle T2I avec quelques exemples réels peut aider à améliorer la qualité des données d'entraînement synthétiques ; cependant, il peut également provoquer un surapprentissage et réduire la diversité des échantillons générés. Nous proposons une stratégie de micro-ajustement BOB (BeyondOBjects) pour atténuer ces problèmes dans le cadre de la classification fine. Étant donné un petit ensemble d'exemples réels, nous extrayons d'abord des attributs agnostiques à la classe, tels que l'arrière-plan de la scène et la pose de l'objet. Nous conditionnons ensuite explicitement le micro-ajustement du modèle T2I sur ces attributs et les marginalisons lors de la génération. Cette conception atténue le surapprentissage, préserve l'a priori génératif du modèle T2I, réduit les erreurs d'estimation et minimise davantage les associations inter-classes non intentionnelles. Des expériences approfondies sur plusieurs modèles T2I, architectures de base et jeux de données montrent que notre méthode atteint des performances de pointe en classification fine à faible échantillonnage lorsqu'elle est augmentée par des données synthétiques. Concrètement, BOB surpasse DataDream de 7,4 % sur le jeu de données Aircraft (passant de 50,0 % à 57,4 % lors du micro-ajustement d'un classifieur CLIP avec cinq images réelles augmentées de 100 images synthétiques). Sur trois des quatre benchmarks, le micro-ajustement de modèles avals avec 5 images réelles augmentées par BOB obtient de meilleures performances qu'avec 10 images réelles. Globalement, BOB surpasse l'état de l'art dans 18 des 24 configurations expérimentales, avec des améliorations de précision de plus de 2 % dans 14 de ces configurations.
Les jeux de cartes sont largement utilisés pour étudier la prise de décision séquentielle dans des conditions d'incertitude, avec des analogues dans le monde réel en négociation, finance et cybersécurité. Ces jeux se répartissent généralement en trois catégories selon le flux de contrôle : séquentiel strict (les joueurs alternent des actions uniques), réponse déterministe (certaines actions déclenchent un résultat fixe) et réponse réciproque non bornée (les contre-jeux alternés sont autorisés). Une structure moins explorée mais stratégiquement riche est la réponse unilatérale bornée, où l'action d'un joueur transfère brièvement le contrôle à l'adversaire, qui doit satisfaire une condition fixe via un ou plusieurs coups avant la résolution du tour. Nous nommons jeux à réponse unilatérale bornée (JRUB) les jeux comportant ce mécanisme. Nous présentons une version modifiée de Monopoly Deal comme environnement de référence isolant cette dynamique, où une action Loyers force l'adversaire à choisir des actifs de paiement. L'algorithme de référence, la minimisation des regrets contrefactuels (CFR), converge vers des stratégies efficaces sans extensions algorithmiques novatrices. Une plateforme de recherche légère full-stack unifie l'environnement, un moteur CFR parallélisé et une interface web jouable par des humains. L'agent CFR entraîné et le code source sont disponibles sur https://monopolydeal.ai.