papers.description
Nous présentons SAM 3D, un modèle génératif pour la reconstruction 3D ancrée visuellement, qui prédit la géométrie, la texture et la disposition à partir d'une seule image. SAM 3D excelle sur les images naturelles, où l'occlusion et l'encombrement de la scène sont courants, et où les indices de reconnaissance visuelle issus du contexte jouent un rôle plus important. Nous y parvenons grâce à un pipeline intégrant l'humain et le modèle pour annoter la forme, la texture et la pose des objets, fournissant des données de reconstruction 3D visuellement ancrées à une échelle sans précédent. Nous apprenons de ces données dans un cadre d'entraînement moderne et multi-étapes qui combine un pré-entraînement synthétique avec un alignement sur le monde réel, brisant ainsi la « barrière des données 3D ». Nous obtenons des gains significatifs par rapport aux travaux récents, avec un taux de préférence humaine d'au moins 5:1 sur des objets et scènes du monde réel. Nous publierons notre code et nos poids de modèle, une démonstration en ligne et un nouveau benchmark exigeant pour la reconstruction 3D d'objets en conditions réelles.
Les agents de modèles de langage de grande taille (LLM), souvent entraînés par apprentissage par renforcement (RL), sont limités par une dépendance aux données sélectionnées par des humains, ce qui restreint leur extensibilité et assujettit l'IA au savoir humain. Les cadres d'auto-évolution existants offrent une alternative, mais sont généralement contraints par les capacités intrinsèques du modèle et des interactions en une seule étape, entravant le développement de cursus complexes impliquant l'utilisation d'outils ou un raisonnement dynamique. Nous présentons Agent0, un cadre entièrement autonome qui fait évoluer des agents performants sans données externes grâce à une coévolution multi-étapes et une intégration transparente d'outils. Agent0 établit une compétition symbiotique entre deux agents initialisés à partir du même LLM de base : un agent de cursus qui propose des tâches frontalières de plus en plus difficiles, et un agent exécuteur qui apprend à les résoudre. Nous intégrons des outils externes pour renforcer la capacité de résolution de problèmes de l'exécuteur ; cette amélioration pousse à son tour l'agent de cursus à construire des tâches plus complexes, adaptées aux outils. Grâce à ce processus itératif, Agent0 établit un cycle auto-renforçant qui produit continuellement des cursus de haute qualité. Empiriquement, Agent0 améliore substantiellement les capacités de raisonnement, augmentant les performances du modèle Qwen3-8B-Base de 18 % en raisonnement mathématique et de 24 % sur des benchmarks de raisonnement général. Le code est disponible à l'adresse https://github.com/aiming-lab/Agent0.
Quel rôle joue la première image dans les modèles de génération vidéo ? Traditionnellement, elle est considérée comme le point de départ spatio-temporel d'une vidéo, simplement une amorce pour l'animation ultérieure. Dans ce travail, nous révélons une perspective fondamentalement différente : les modèles vidéo traitent implicitement la première image comme une mémoire tampon conceptuelle qui stocke des entités visuelles pour une réutilisation ultérieure lors de la génération. En tirant parti de cette intuition, nous montrons qu'il est possible d'atteindre une personnalisation robuste et généralisée du contenu vidéo dans divers scénarios, en utilisant seulement 20 à 50 exemples d'entraînement sans modifications architecturales ni fine-tuning à grande échelle. Cela révèle une capacité puissante mais négligée des modèles de génération vidéo pour la personnalisation vidéo par référence.
Les récents progrès des modèles de raisonnement ont démontré un succès remarquable dans les domaines du texte et de la vision grâce à une délibération étendue de type chaîne de pensée. Cependant, un phénomène déroutant persiste dans les modèles de langage audio : ils obtiennent systématiquement de meilleures performances avec un raisonnement minimal ou nul, soulevant une question fondamentale - l'intelligence audio peut-elle vraiment bénéficier d'une pensée délibérée ? Nous présentons Step-Audio-R1, le premier modèle de raisonnement audio qui déverrouille avec succès les capacités de raisonnement dans le domaine audio. Grâce à notre cadre proposé de Distillation du Raisonnement Ancré dans la Modalité (MGRD), Step-Audio-R1 apprend à générer des chaînes de raisonnement pertinentes pour l'audio qui s'ancrent véritablement dans les caractéristiques acoustiques plutôt que d'halluciner des délibérations déconnectées. Notre modèle présente de solides capacités de raisonnement audio, surpassant Gemini 2.5 Pro et atteignant des performances comparables à l'état de l'art Gemini 3 Pro sur des benchmarks complets de compréhension et de raisonnement audio couvrant la parole, les sons environnementaux et la musique. Ces résultats démontrent que le raisonnement est une capacité transférable entre les modalités lorsqu'il est correctement ancré, transformant la délibération étendue d'un handicap en un atout puissant pour l'intelligence audio. En établissant le premier modèle de raisonnement audio réussi, Step-Audio-R1 ouvre de nouvelles voies vers la construction de systèmes de raisonnement véritablement multimodaux qui pensent profondément à travers toutes les modalités sensorielles.
Malgré des progrès remarquables, les modèles de fondation multimodaux présentent encore des lacunes surprenantes en intelligence spatiale. Dans ce travail, nous explorons la mise à l'échelle des modèles de fondation multimodaux pour développer l'intelligence spatiale au sein de la famille SenseNova-SI, construite sur des bases multimodales établies incluant des modèles de compréhension visuelle (Qwen3-VL et InternVL3) et des modèles unifiés de compréhension et de génération (Bagel). Nous adoptons une approche méthodique pour construire une intelligence spatiale performante et robuste en constituant systématiquement SenseNova-SI-8M : huit millions d'échantillons de données diversifiés selon une taxonomie rigoureuse des capacités spatiales. SenseNova-SI démontre des performances sans précédent sur un large éventail de benchmarks d'intelligence spatiale : 68,7% sur VSI-Bench, 43,3% sur MMSI, 85,6% sur MindCube, 54,6% sur ViewSpatial et 50,1% sur SITE, tout en maintenant une solide compréhension multimodale générale (84,9% sur MMBench-En). Plus important encore, nous analysons l'impact de la mise à l'échelle des données, discutons des signes précoces de capacités de généralisation émergentes permis par l'entraînement sur des données diversifiées, analysons le risque de surapprentissage et de raccourcis linguistiques, présentons une étude préliminaire sur le raisonnement spatial en chaîne de pensée et validons l'application en aval potentielle. SenseNova-SI est un projet continu, et ce rapport sera mis à jour régulièrement. Tous les nouveaux modèles de fondation multimodaux entraînés sont publiés publiquement pour faciliter les recherches ultérieures dans cette direction.
Les récents progrès des modèles génératifs vidéo, tels que Veo-3, ont révélé des capacités de raisonnement en zero-shot surprenantes, créant un besoin croissant d'évaluation systématique et fiable. Nous présentons V-ReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo selon quatre dimensions clés : la résolution de problèmes structurés, la cognition spatiale, l'inférence basée sur des motifs et la dynamique physique. Ce benchmark est construit à partir de séquences d'images synthétiques et réelles, et propose un ensemble diversifié de tâches vérifiables, reproductibles, évolutives et non ambiguës. Les évaluations de six modèles vidéo de pointe révèlent des différences marquées selon les dimensions, avec des variations significatives dans le raisonnement structuré, spatial, basé sur des motifs et physique. Nous comparons également les modèles vidéo avec des modèles d'images performants, analysons les comportements courants d'hallucination et étudions l'impact de la durée des vidéos sur le raisonnement en chaîne d'images. Globalement, V-ReasonBench offre un cadre unifié et reproductible pour mesurer le raisonnement vidéo et vise à soutenir le développement de modèles dotés de compétences de raisonnement plus fiables et alignées sur l'humain.
Si les modèles de langage ont eu un impact considérable dans de nombreuses applications réelles, la génération vidéo reste largement confinée au domaine du divertissement. Motivés par la capacité inhérente de la vidéo à démontrer des informations du monde physique difficiles à transmettre par le langage seul (par exemple, imaginez apprendre à quelqu'un à faire un nœud de cravate en utilisant uniquement du texte), nous identifions une opportunité sous-exploitée : étendre la vidéo en tant que nouvelle modalité de réponse pour la Prédiction du Prochain Événement (Next-Event Prediction, NEP), formalisée sous le nom de Prédiction du Prochain Événement par Vidéo (Video-Next-Event Prediction, VNEP). Alors que la tâche NEP établie prend une vidéo accompagnée d'une question procédurale ou prédictive en entrée pour prédire le prochain événement sous forme de texte, la VNEP nécessite des réponses vidéo dynamiques. Ce passage de la description à la démonstration permet des réponses plus intuitives et personnalisées pour l'apprentissage procédural et l'exploration créative. Cependant, cette tâche reste difficile pour les modèles existants, car elle exige une compréhension d'une entrée multimodale, un raisonnement conditionné par des instructions et la génération d'une vidéo avec une cohérence visuelle et sémantique. Pour y remédier, nous présentons VANS, un modèle qui utilise l'apprentissage par renforcement pour aligner un Modèle Vision-Langage (Vision-Language Model, VLM) avec un Modèle de Diffusion Vidéo (Video Diffusion Model, VDM) pour la VNEP. Le cœur de VANS est notre méthode Joint-GRPO proposée, qui orchestre le VLM et le VDM pour qu'ils fonctionnent comme une unité. Guidée par une récompense partagée basée sur leurs sorties respectives, elle optimise le VLM pour produire des légendes à la fois précises et faciles à visualiser, tout en guidant le VDM pour générer des vidéos fidèles à ces légendes et au contexte visuel d'entrée. Pour permettre cet apprentissage, nous avons créé VANS-Data-100K, un jeu de données dédié à la tâche VNEP. Les expériences sur des benchmarks procéduraux et prédictifs démontrent que VANS obtient des performances à l'état de l'art à la fois en prédiction d'événements vidéo et en visualisation. Les codes sont disponibles à l'adresse https://github.com/KlingTeam/VANS.
L'entraînement d'une famille de grands modèles de langage ciblant différentes échelles et objectifs de déploiement est extrêmement coûteux, nécessitant des cycles d'entraînement distincts pour chaque taille. Les travaux récents sur la compression de modèles par élagage et distillation des connaissances ont réduit ce coût ; cependant, ce processus engendre toujours un coût d'entraînement équivalant à des centaines de milliards de tokens par modèle compressé. Dans cet article, nous présentons Nemotron Elastic, un cadre pour construire des LLM orientés raisonnement, incluant des architectures hybrides Mamba-Attention, qui intègrent plusieurs sous-modèles imbriqués au sein d'un modèle parent unique, chacun étant optimisé pour différentes configurations de déploiement et budgets. Chacun de ces sous-modèles partage les poids avec le modèle parent et peut être extrait de manière zero-shot lors du déploiement sans entraînement ou ajustement supplémentaire. Nous permettons cette fonctionnalité via un routeur entraîné de bout en bout, étroitement couplé à un curriculum d'entraînement en deux étapes conçu spécifiquement pour les modèles de raisonnement. Nous introduisons également une élasticification SSM sensible aux groupes qui préserve les contraintes structurelles de Mamba, une élasticification hétérogène des MLP, une importance des couches basée sur MSE normalisée pour une meilleure sélection en profondeur, et une distillation des connaissances permettant une optimisation multi-budgétaire simultanée. Nous appliquons Nemotron Elastic au modèle Nemotron Nano V2 12B, produisant simultanément un modèle 9B et un modèle 6B en utilisant seulement 110 milliards de tokens d'entraînement ; cela se traduit par une réduction des coûts de plus de 360x par rapport à l'entraînement de familles de modèles from scratch, et d'environ 7x par rapport aux techniques de compression SoTA. Chacun des modèles imbriqués affiche une précision équivalente ou supérieure à l'état de l'art. De plus, contrairement aux autres méthodes de compression, la capacité d'imbrication de notre approche permet d'obtenir un modèle de raisonnement multi-fonctions qui présente une empreinte mémoire de déploiement constante quel que soit le nombre de modèles dans la famille.
Nous rendons public MiMo-Embodied, le premier modèle de fondation inter-embarqué à intégrer avec succès et à atteindre des performances de pointe à la fois dans la Conduite Autonome et l'IA Embarquée. MiMo-Embodied établit de nouveaux records sur 17 benchmarks d'IA embarquée dans les domaines de la Planification de Tâches, de la Prédiction d'Affordance et de la Compréhension Spatiale, tout en excellant également sur 12 benchmarks de conduite autonome couvrant la Perception de l'Environnement, la Prédiction d'État et la Planification de la Conduite. Sur l'ensemble de ces tâches, MiMo-Embodied surpasse significativement les lignes de base existantes, qu'elles soient open-source, fermées ou spécialisées. Nos résultats indiquent que grâce à un apprentissage multi-étapes, une construction de données soigneusement sélectionnées et un fine-tuning par CoT/RL, ces deux domaines présentent un fort transfert positif et se renforcent mutuellement. Nous fournissons une analyse détaillée de la conception de notre modèle et de nos méthodologies d'entraînement pour faciliter les recherches futures. Le code et les modèles sont disponibles à l'adresse https://github.com/XiaomiMiMo/MiMo-Embodied.
Les modèles Vision-Langage-Action (VLA) excellent dans la manipulation robotique, mais sont limités par leur forte dépendance aux démonstrations expertes, ce qui entraîne un biais de démonstration et restreint leurs performances. L'apprentissage par renforcement (RL) est une stratégie cruciale en post-formation pour surmonter ces limites, mais les méthodes VLA-RL actuelles, y compris les approches d'optimisation par groupe, sont handicapées par une sévère parcimonie des récompenses. S'appuyer sur des indicateurs de succès binaires gaspille les informations précieuses des trajectoires d'échec, conduisant à une faible efficacité d'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation de Politique Auto-Référentielle (SRPO), un nouveau cadre VLA-RL. SRPO élimine le besoin de démonstrations externes ou d'ingénierie manuelle des récompenses en exploitant les propres trajectoires de succès du modèle, générées dans le lot d'entraînement courant, comme référence auto-référentielle. Cela nous permet d'attribuer une récompense progressive aux tentatives infructueuses. Une innovation centrale est l'utilisation de représentations latentes du monde pour mesurer robustement le progrès comportemental. Au lieu de s'appuyer sur des pixels bruts ou de nécessiter un ajustement fin spécifique au domaine, nous utilisons les encodages compressés et transférables de l'espace latent d'un modèle du monde. Ces représentations capturent naturellement les motifs de progrès à travers les environnements, permettant une comparaison précise et généralisée des trajectoires. Les évaluations empiriques sur le benchmark LIBERO démontrent l'efficacité de SRPO. Partant d'une baseline supervisée avec 48,9% de succès, SRPO atteint un nouveau state-of-the-art à 99,2% de taux de succès en seulement 200 pas de RL, représentant une amélioration relative de 103% sans aucune supervision supplémentaire. De plus, SRPO montre une robustesse substantielle, obtenant une amélioration de performance de 167% sur le benchmark LIBERO-Plus.
Les hôpitaux et les systèmes de santé s'appuient sur des décisions opérationnelles qui déterminent le flux de patients, les coûts et la qualité des soins. Malgré de bonnes performances sur les référentiels de connaissances médicales et conversationnelles, les modèles de fondation entraînés sur du texte général peuvent manquer des connaissances spécialisées nécessaires à ces décisions opérationnelles. Nous présentons Lang1, une famille de modèles (100M à 7B de paramètres) pré-entraînée sur un corpus spécialisé combinant 80 milliards de tokens cliniques provenus des dossiers de santé électroniques (DSE) de NYU Langone Health et 627 milliards de tokens provenant d'Internet. Pour évaluer rigoureusement Lang1 dans des contextes réels, nous avons développé le REalistic Medical Evaluation (ReMedE), un référentiel dérivé de 668 331 notes de DSE qui évalue cinq tâches critiques : la prédiction de réadmission sous 30 jours, la prédiction de mortalité sous 30 jours, la durée de séjour, le codage des comorbidités et la prédiction du refus de prise en charge par l'assurance. En mode zero-shot, les modèles généralistes et spécialisés obtiennent des performances inférieures sur quatre des cinq tâches (36,6 % à 71,7 % d'AUROC), à l'exception de la prédiction de mortalité. Après un affinage, Lang1-1B surpasse les modèles généralistes affinés jusqu'à 70 fois plus grands et les modèles zero-shot jusqu'à 671 fois plus grands, améliorant l'AUROC de 3,64 % à 6,75 % et de 1,66 % à 23,66 % respectivement. Nous avons également observé un effet d'échelle trans-tâches, l'affinage conjoint sur plusieurs tâches conduisant à une amélioration sur d'autres tâches. Lang1-1B se transfère efficacement à des contextes hors distribution, incluant d'autres tâches cliniques et un système de santé externe. Nos résultats suggèrent que les capacités prédictives pour les opérations hospitalières nécessitent un affinage supervisé explicite, et que ce processus d'affinage est rendu plus efficace par un pré-entraînement dans le domaine sur les DSE. Nos résultats soutiennent l'opinion émergente que les LLM spécialisés peuvent rivaliser avec les modèles généralistes sur des tâches spécialisées, et montrent qu'une IA efficace pour les systèmes de santé nécessite la combinaison d'un pré-entraînement dans le domaine, d'un affinage supervisé et d'une évaluation en conditions réelles au-delà des référentiels proxys.
Les systèmes de recherche d'information neuronaux excellent dans les langues riches en ressources mais restent peu explorés pour les langues morphologiquement riches et moins dotées comme le turc. Les bi-encodeurs denses dominent actuellement la RI turque, pourtant les modèles à interaction tardive – qui conservent des représentations au niveau des tokens pour un appariement plus fin – n'ont pas été évalués systématiquement. Nous présentons TurkColBERT, la première référence complète comparant les encodeurs denses et les modèles à interaction tardive pour la recherche en turc. Notre pipeline d'adaptation en deux étapes affine des encodeurs anglais et multilingues sur des tâches turques de NLI/STS, puis les convertit en systèmes de recherche de type ColBERT en utilisant PyLate entraîné sur MS MARCO-TR. Nous évaluons 10 modèles sur cinq ensembles de données turcs BEIR couvrant les domaines scientifique, financier et argumentatif. Les résultats montrent une forte efficacité paramétrique : le colbert-hash-nano-tr (1,0 million de paramètres) est 600 fois plus petit que l'encodeur dense turkish-e5-large (600 millions) tout en conservant plus de 71 % de sa mAP moyenne. Les modèles à interaction tardive, 3 à 5 fois plus petits que les encodeurs denses, les surpassent significativement ; ColmmBERT-base-TR atteint jusqu'à +13,8 % de mAP sur des tâches spécifiques à un domaine. Pour la mise en production, nous comparons des algorithmes d'indexation : MUVERA+Rerank est 3,33 fois plus rapide que PLAID et offre un gain relatif de mAP de +1,7 %. Cela permet une recherche à faible latence, ColmmBERT-base-TR atteignant des temps de requête de 0,54 ms avec MUVERA. Nous publions tous les points de contrôle, configurations et scripts d'évaluation. Les limites incluent le recours à des jeux de données de taille modérée (≤50 000 documents) et à des références traduites, qui peuvent ne pas refléter entièrement les conditions réelles de recherche en turc ; des évaluations MUVERA à plus grande échelle restent nécessaires.
Nous présentons NaTex, un cadre natif de génération de textures qui prédit directement la couleur des textures dans l'espace 3D. Contrairement aux approches antérieures qui s'appuient sur la cuisson d'images multi-vues 2D synthétisées par des modèles de diffusion conditionnés par la géométrie (MVD), NaTex évite plusieurs limitations inhérentes au pipeline MVD. Celles-ci incluent les difficultés à traiter les régions occluses nécessitant une inpainting, à obtenir un alignement précis maillage-texture le long des contours, et à maintenir une cohérence inter-vues tant au niveau du contenu que de l'intensité colorimétrique. NaTex introduit un nouveau paradigme qui résout les problèmes précités en considérant la texture comme un nuage de points coloré dense. Portés par cette idée, nous proposons la diffusion latente de couleur, qui comprend un VAE de nuage de points coloré sensible à la géométrie et un transformeur de diffusion à contrôles multiples (DiT), entièrement entraînés à partir de zéro sur des données 3D, pour la reconstruction et la génération de textures. Pour permettre un alignement précis, nous introduisons un contrôle géométrique natif qui conditionne le DiT sur des informations spatiales 3D directes via des plongements positionnels et des latents géométriques. Nous co-concevons l'architecture VAE-DiT, où les latents géométriques sont extraits via une branche géométrique dédiée étroitement couplée au VAE de couleur, fournissant un guidage de surface fin qui maintient une forte correspondance avec la texture. Grâce à ces conceptions, NaTex démontre de solides performances, surpassant significativement les méthodes précédentes en termes de cohérence texturale et d'alignement. De plus, NaTex présente également de fortes capacités de généralisation, sans entraînement supplémentaire ou avec un réglage simple, pour diverses applications en aval, par exemple la génération de matériaux, le raffinement de textures, et la segmentation et texturation de parties.
Les progrès récents en génération visuelle explorent de plus en plus l'intégration de capacités de raisonnement. Ces approches incorporent un raisonnement textuel, c'est-à-dire une phase de réflexion, soit avant (comme pré-planification) soit après (comme post-rafinement) le processus de génération, mais elles manquent d'interaction multimodale en temps réel pendant la génération elle-même. Dans cette étude préliminaire, nous présentons Thinking-while-Generating (TwiG), le premier cadre entrelacé permettant une co-évolution du raisonnement textuel tout au long du processus de génération visuelle. Au fur et à mesure que le contenu visuel est généré progressivement, le raisonnement textuel s'entrelace pour à la fois guider les régions locales à venir et réfléchir sur celles précédemment synthétisées. Cette interaction dynamique produit des résultats visuels plus conscients du contexte et sémantiquement riches. Pour révéler le potentiel de ce cadre, nous étudions trois stratégies candidates : l'invocation zero-shot, le réglage fin supervisé (SFT) sur notre jeu de données TwiG-50K constitué manuellement, et l'apprentissage par renforcement (RL) via une stratégie personnalisée TwiG-GRPO, chacune offrant des perspectives uniques sur la dynamique du raisonnement entrelacé. Nous espérons que ce travail inspirera des recherches plus poussées sur l'entrelacement du raisonnement textuel pour une génération visuelle améliorée. Le code sera publié à l'adresse : https://github.com/ZiyuGuo99/Thinking-while-Generating.
Nous présentons TimeViper, un modèle hybride vision-langage conçu pour relever les défis de la compréhension de vidéos longues. Le traitement de vidéos longues exige à la fois une architecture de modèle efficace et un mécanisme performant pour gérer des contextes temporels étendus. À cette fin, TimeViper adopte une architecture hybride Mamba-Transformer qui combine l'efficacité des modèles à espace d'états avec l'expressivité des mécanismes d'attention. Grâce à cette conception hybride, nous mettons en évidence le phénomène d'agrégation d'informations vision-texte, où l'information circule progressivement des tokens visuels vers les tokens textuels à travers les couches profondes du LLM, entraînant une redondance importante des tokens visuels. Motivés par cette observation, nous proposons TransV, un module de transfert d'information des tokens qui transfère et compresse les tokens visuels en tokens d'instruction tout en préservant les capacités de compréhension multimodale. Cette conception permet à TimeViper de traiter des vidéos d'une heure dépassant les 10 000 frames. Des expériences approfondies sur plusieurs benchmarks démontrent que TimeViper rivalise avec les modèles de l'état de l'art tout en étendant le nombre de frames. Nous analysons en outre les comportements attentionnels des couches Mamba et Transformer, offrant de nouvelles perspectives sur l'interprétabilité des modèles hybrides. Ce travail représente une première étape vers le développement, l'interprétation et la compression des architectures hybrides Mamba-Transformer.
Le dépliage UV aplatit les surfaces 3D en 2D avec une distorsion minimale, nécessitant souvent la décomposition de la surface complexe en plusieurs chartes. Bien que largement étudiées, les méthodes de dépliage UV existantes peinent fréquemment avec les maillages générés par IA, qui sont généralement bruités, bosselés et mal conditionnés. Ces méthodes produisent souvent des chartes très fragmentées et des limites sous-optimales, introduisant des artéfacts et entravant les tâches en aval. Nous présentons PartUV, un pipeline de dépliage UV basé sur les parties qui génère un nombre significativement moindre de chartes alignées sur les parties tout en maintenant une faible distorsion. Construit sur la méthode récente de décomposition en parties par apprentissage PartField, PartUV combine une décomposition sémantique de haut niveau des parties avec de nouvelles heuristiques géométriques dans un cadre récursif descendant. Il garantit que la distorsion de chaque charte reste inférieure à un seuil défini par l'utilisateur tout en minimisant le nombre total de chartes. Le pipeline intègre et étend des algorithmes de paramétrisation et d'empaquetage, intègre une gestion dédiée des maillages non-variétés et dégénérés, et est largement parallélisé pour l'efficacité. Évalué sur quatre ensembles de données diversifiés, incluant des objets manufacturés, de la CAO, des formes générées par IA et des formes communes, PartUV surpasse les outils existants et les méthodes neuronales récentes en nombre de chartes et longueur de coutures, atteint une distorsion comparable, affiche des taux de réussite élevés sur des maillages difficiles, et permet de nouvelles applications comme l'empaquetage multi-tuiles spécifique aux parties. Notre page projet est à l'adresse https://www.zhaoningwang.com/PartUV.
La segmentation vidéo chirurgicale est cruciale pour la chirurgie assistée par ordinateur, permettant une localisation et un suivi précis des instruments et des tissus. Les modèles de segmentation vidéo interactive (iVOS) tels que Segment Anything Model 2 (SAM2) offrent une flexibilité basée sur des invites au-delà des méthodes à catégories prédéfinies, mais rencontrent des difficultés dans les scénarios chirurgicaux en raison de l'écart de domaine et du suivi à long terme limité. Pour remédier à ces limitations, nous construisons SA-SV, le plus grand benchmark iVOS chirurgical avec des annotations spatio-temporelles au niveau de l'instance (masklets) couvrant huit types d'interventions (61k images, 1.6k masklets), permettant un développement et une évaluation complets pour le suivi à long terme et la généralisation zero-shot. Sur la base de SA-SV, nous proposons SAM2S, un modèle de base améliorant SAM2 pour l'iVOS chirurgical grâce à : (1) DiveMem, un mécanisme de mémoire diversifiable entraînable pour un suivi à long terme robuste ; (2) un apprentissage sémantique temporel pour la compréhension des instruments ; et (3) un apprentissage résilient à l'ambiguïté pour atténuer les incohérences d'annotation dans les ensembles de données multi-sources. Des expériences approfondies démontrent que le fine-tuning sur SA-SV permet des gains de performance substantiels, SAM2 s'améliorant de 12.99 points en J\&F moyen par rapport à SAM2 standard. SAM2S pousse plus loin les performances à 80.42 de J\&F moyen, surpassant SAM2 standard et fine-tuné de respectivement 17.10 et 4.11 points, tout en maintenant une inférence en temps réel à 68 FPS et une forte généralisation zero-shot. Le code et le jeu de données seront publiés sur https://jinlab-imvr.github.io/SAM2S.
L'entraînement à long terme des grands modèles de langage (LLM) nécessite de maintenir une exploration stable pour éviter que le modèle ne s'effondre dans des comportements sous-optimaux. L'entropie est cruciale dans ce contexte, car elle contrôle l'exploration et aide à éviter une convergence prématurée vers des solutions sous-optimales. Cependant, les méthodes existantes d'apprentissage par renforcement peinent à maintenir un niveau d'entropie approprié, le processus d'entraînement impliquant un mélange d'échantillons positifs et négatifs, chacun affectant l'entropie de manière différente au fil des étapes. Pour résoudre ce problème, nous proposons la **Stabilisation de l'Entropie par Contrôle Proportionnel-Intégral (EntroPIC)**, une méthode novatrice qui ajuste de manière adaptive l'influence des échantillons positifs et négatifs en modulant dynamiquement leurs coefficients de perte. Cette approche stabilise l'entropie tout au long de l'entraînement, garantissant une exploration efficace et une progression régulière. Nous fournissons une analyse théorique complète pour les cadres d'apprentissage sur politique et hors politique, démontrant qu'EntroPIC est efficace pour contrôler l'entropie dans l'entraînement à grande échelle des LLM. Les résultats expérimentaux montrent que notre méthode maintient avec succès les niveaux d'entropie souhaités, permettant un entraînement RL stable et optimal pour les LLM.
Les architectures basées sur les transformers sont largement adoptées dans les systèmes de recommandation séquentielle, mais leur application dans les Services Financiers (SF) présente des défis pratiques et de modélisation distincts pour la recommandation en temps réel. Ceux-ci incluent : a) des interactions utilisateur à long terme (implicites et explicites) couvrant à la fois les canaux numériques et physiques, générant un contexte temporellement hétérogène, b) la présence de multiples produits interdépendants nécessitant des modèles coordonnés pour prendre en charge divers placements publicitaires et flux personnalisés, tout en équilibrant des objectifs commerciaux concurrents. Nous proposons FinTRec, un cadre basé sur les transformers qui relève ces défis et répond aux objectifs opérationnels dans les SF. Bien que les modèles arborescents aient traditionnellement été privilégiés dans les SF en raison de leur explicabilité et de leur conformité aux exigences réglementaires, notre étude démontre que FinTRec offre une transition viable et efficace vers les architectures basées sur les transformers. Grâce à des simulations historiques et des corrélations de tests A/B en direct, nous montrons que FinTRec surpasse constamment la baseline arborescente de qualité production. L'architecture unifiée, lorsqu'elle est affinée pour l'adaptation aux produits, permet le partage de signaux inter-produits, réduit les coûts d'entraînement et la dette technique, tout en améliorant les performances hors ligne pour tous les produits. À notre connaissance, il s'agit de la première étude complète sur la modélisation unifiée de recommandation séquentielle dans les SF qui aborde à la fois les considérations techniques et commerciales.
La précision en transfert par sonde linéaire sur ImageNet-1K reste la mesure proxy par défaut pour la qualité des représentations visuelles, mais elle ne prédit plus les performances sur les images scientifiques. Sur 46 points de contrôle de modèles de vision modernes, la précision top-1 sur ImageNet n'explique que 34 % de la variance sur les tâches d'écologie et classe incorrectement 30 % des modèles au-dessus de 75 % de précision. Nous présentons BioBench, un benchmark de vision écologique ouvert qui capture ce qu'ImageNet manque. BioBench unifie 9 tâches publiques axées sur l'application, 4 règnes taxonomiques et 6 modalités d'acquisition (RGB de drone, vidéos web, micrographies, photos in-situ et de spécimens, images de pièges photographiques), totalisant 3,1 millions d'images. Une API Python unique télécharge les données, ajuste des classifieurs légers sur des réseaux de base figés et rapporte le macro-F1 équilibré (plus des métriques spécifiques pour FishNet et FungiCLEF) ; les modèles ViT-L s'évaluent en 6 heures sur un GPU A6000. BioBench fournit un nouveau signal pour la vision par ordinateur en écologie et une recette type pour construire des benchmarks IA-pour-la-science fiables dans n'importe quel domaine. Le code et les prédictions sont disponibles à l'adresse https://github.com/samuelstevens/biobench et les résultats sur https://samuelstevens.me/biobench.
Bien que les modèles de vision et langage à grande échelle (LVLM) récents présentent de solides capacités de raisonnement multimodal, ils produisent souvent des réponses non fondées ou hallucinées car ils s’appuient trop sur des préjugés linguistiques plutôt que sur des preuves visuelles. Cette limitation souligne l’absence d’une mesure quantitative permettant d’évaluer dans quelle mesure ces modèles utilisent réellement l’information visuelle lors du raisonnement. Nous proposons Draft and Refine (DnR), un cadre d’agent piloté par une métrique d’utilisation conditionnée par la question. Cette métrique quantifie la dépendance du modèle aux preuves visuelles en construisant d’abord une carte de pertinence conditionnée par la requête pour localiser les indices spécifiques à la question, puis en mesurant la dépendance via un masquage probabiliste guidé par la pertinence. Guidé par cette métrique, l’agent DnR affine son brouillon initial en utilisant des retours ciblés d’experts visuels externes. La sortie de chaque expert (telle que des boîtes ou des masques) est rendue sous forme d’indices visuels sur l’image, et le modèle est réinterrogé pour sélectionner la réponse qui génère la plus grande amélioration de l’utilisation. Ce processus renforce l’ancrage visuel sans réentraînement ni modification de l’architecture. Les expériences menées sur des benchmarks de VQA et de description d’images montrent des gains de précision constants et une réduction des hallucinations, démontrant que la mesure de l’utilisation visuelle offre une voie rigoureuse vers des systèmes d’agents multimodaux plus interprétables et fondés sur des preuves.
Les progrès récents en pré-entraînement image-texte ont considérablement amélioré la compréhension visuelle grâce à l'alignement des représentations visuelles et textuelles. Le pré-entraînement contrasté image-langage (CLIP) a joué un rôle central dans l'apprentissage multimodal. Cependant, son accent sur l'alignement à granularité unique et à étiquette unique limite son efficacité dans des domaines complexes comme l'imagerie médicale, où les images correspondent souvent à plusieurs étiquettes de haut niveau (par exemple, des catégories de maladies) selon différentes granularités d'annotation (par exemple, description diagnostique, explication clinique). Pour remédier à cela, nous proposons l'apprentissage linguistique multi-granularité (MGLL), un cadre d'apprentissage contrasté conçu pour améliorer à la fois l'alignement multi-étiquettes et inter-granularités. MGLL exploite une supervision structurée multi-étiquettes, intègre des descriptions textuelles across granularités, et introduit une supervision par étiquettes douces avec des contraintes ponctuelles pour renforcer l'alignement. MGLL utilise la divergence de Kullback-Leibler (KL) lissée pour garantir la cohérence inter-granularités tout en maintenant une efficacité computationnelle en tant que module plug-and-play pour les modèles vision-langage. Pré-entraîné sur nos jeux de données à grande échelle multi-granularités construits et évalué sur plusieurs ensembles de données, MGLL surpasse les autres méthodes de pointe dans les tâches en aval. Le code est disponible à l'adresse https://github.com/HUANGLIZI/MGLL.