papers.description
La création de mondes 3D immersifs et jouables à partir de textes ou d'images reste un défi fondamental en vision par ordinateur et en infographie. Les approches existantes de génération de mondes se divisent généralement en deux catégories : les méthodes basées sur la vidéo, qui offrent une grande diversité mais manquent de cohérence 3D et d'efficacité de rendu, et les méthodes basées sur la 3D, qui assurent une cohérence géométrique mais peinent avec des données d'entraînement limitées et des représentations peu efficaces en termes de mémoire. Pour surmonter ces limitations, nous présentons HunyuanWorld 1.0, un cadre novateur qui combine le meilleur des deux mondes pour générer des scènes 3D immersives, explorables et interactives à partir de conditions textuelles et visuelles. Notre approche présente trois avantages clés : 1) des expériences immersives à 360{\deg} via des proxies panoramiques du monde ; 2) des capacités d'exportation de maillages pour une compatibilité fluide avec les pipelines d'infographie existants ; 3) des représentations d'objets désentrelacées pour une interactivité accrue. Le cœur de notre cadre repose sur une représentation de maillage 3D sémantiquement stratifiée qui exploite des images panoramiques comme proxies mondiaux à 360{\deg} pour la décomposition et la reconstruction du monde basées sur la sémantique, permettant ainsi la génération de mondes 3D diversifiés. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe dans la génération de mondes 3D cohérents, explorables et interactifs, tout en permettant des applications variées dans la réalité virtuelle, la simulation physique, le développement de jeux et la création de contenu interactif.
De nombreux efforts ont été déployés pour étendre le paradigme de la « prédiction du prochain jeton » aux contenus visuels, dans le but de créer une approche unifiée pour la génération et la compréhension d'images. Cependant, les tentatives de génération d'images par modélisation autorégressive avec des jetons discrets ont été entravées par des problèmes tels qu'une faible fidélité visuelle, des sorties déformées et une incapacité à respecter des instructions complexes lors du rendu de détails élaborés. Ces lacunes sont probablement attribuables à des erreurs cumulatives lors de l'inférence autorégressive ou à une perte d'information survenant pendant le processus de discrétisation. Probablement en raison de ce défi, les recherches récentes se sont de plus en plus orientées vers un entraînement conjoint de la génération d'images avec des objectifs de diffusion et de la génération de langage avec des objectifs autorégressifs, s'éloignant ainsi des approches de modélisation unifiée. Dans ce travail, nous démontrons que l'apprentissage par renforcement peut efficacement atténuer les artefacts et améliorer considérablement la qualité de génération d'une méthode de modélisation autorégressive discrète, permettant ainsi une intégration fluide de la génération d'images et de langage. Notre cadre comprend un tokeniseur d'images sémantiques, un modèle autorégressif unifié pour le langage et les images, et un décodeur de diffusion hors ligne pour la génération d'images, appelé X-Omni. X-Omni atteint des performances de pointe dans les tâches de génération d'images en utilisant un modèle de langage de 7 milliards de paramètres, produisant des images de haute qualité esthétique tout en démontrant de solides capacités à suivre les instructions et à rendre des textes longs.
Si les grands modèles de langage (LLM) ont réalisé des progrès impressionnants, leur application dans des domaines scientifiques comme la chimie reste entravée par une compréhension superficielle du domaine et des capacités de raisonnement limitées. Dans ce travail, nous nous concentrons sur le domaine spécifique de la chimie et développons un modèle de langage spécialisé en raisonnement chimique, ChemDFM-R. Nous commençons par construire un ensemble de données complet de points de connaissance atomisés pour améliorer la compréhension du modèle des principes fondamentaux et de la structure logique de la chimie. Ensuite, nous proposons une stratégie de distillation mixte qui intègre des connaissances expertes avec des compétences de raisonnement générales, suivie d'un apprentissage par renforcement spécifique au domaine pour renforcer le raisonnement chimique. Les expériences sur divers benchmarks chimiques démontrent que ChemDFM-R atteint des performances de pointe tout en fournissant des sorties interprétables et guidées par des justifications. Des études de cas supplémentaires illustrent comment des chaînes de raisonnement explicites améliorent significativement la fiabilité, la transparence et l'utilité pratique du modèle dans des scénarios réels de collaboration humain-IA.
La croissance exponentielle de la demande en ressources de calcul GPU, alimentée par les progrès rapides des modèles de langage de grande taille (LLM), a créé un besoin urgent de stratégies automatisées d'optimisation CUDA. Bien que les avancées récentes des LLM montrent un potentiel pour la génération de code, les modèles actuels de pointe (par exemple, R1, o1) obtiennent des taux de réussite faibles dans l'amélioration de la vitesse CUDA. Dans cet article, nous présentons CUDA-L1, un cadre d'apprentissage par renforcement automatisé pour l'optimisation CUDA. CUDA-L1 réalise des améliorations de performance sur la tâche d'optimisation CUDA : entraîné sur un NVIDIA A100, il offre une accélération moyenne de x17,7 sur l'ensemble des 250 noyaux CUDA de KernelBench, avec des pics d'accélération atteignant x449. De plus, le modèle démontre également une excellente portabilité à travers les architectures GPU, obtenant des accélérations moyennes de x17,8 sur H100, x19,0 sur RTX 3090, x16,5 sur L40, x14,7 sur H800 et x13,9 sur H20, bien qu'il ait été spécifiquement optimisé pour A100. Au-delà de ces résultats de référence, CUDA-L1 présente plusieurs propriétés remarquables : 1) Il découvre une variété de techniques d'optimisation CUDA et apprend à les combiner stratégiquement pour atteindre des performances optimales ; 2) Il révèle des principes fondamentaux de l'optimisation CUDA ; 3) Il identifie des goulots d'étranglement de performance non évidents et rejette des optimisations apparemment bénéfiques qui nuisent aux performances. Les capacités de CUDA-L1 démontrent que l'apprentissage par renforcement peut transformer un LLM initialement peu performant en un optimiseur CUDA efficace uniquement grâce à des signaux de récompense basés sur l'accélération, sans expertise humaine ni connaissance du domaine. Plus important encore, le modèle RL entraîné étend ses capacités de raisonnement à de nouveaux noyaux. Ce paradigme ouvre des possibilités pour l'optimisation automatisée des opérations CUDA et promet d'améliorer considérablement l'efficacité des GPU, tout en atténuant la pression croissante sur les ressources de calcul GPU.
Les interfaces cerveau-ordinateur (BCI) permettent une communication directe entre le cerveau et des dispositifs externes. Les modèles de fondation EEG récents visent à apprendre des représentations généralisées à travers divers paradigmes BCI. Cependant, ces approches négligent les distinctions neurophysiologiques fondamentales spécifiques à chaque paradigme, limitant ainsi leur capacité de généralisation. Il est important de noter que dans les déploiements pratiques de BCI, le paradigme spécifique, comme l'imagerie motrice (MI) pour la rééducation post-AVC ou la robotique d'assistance, est généralement déterminé avant l'acquisition des données. Cet article propose MIRepNet, le premier modèle de fondation EEG conçu spécifiquement pour le paradigme MI. MIRepNet comprend un pipeline de prétraitement EEG de haute qualité intégrant un modèle de canaux informé par la neurophysiologie, adaptable aux casques EEG avec des configurations d'électrodes arbitraires. De plus, nous introduisons une stratégie de pré-entraînement hybride qui combine la reconstruction auto-supervisée de tokens masqués et la classification supervisée MI, facilitant une adaptation rapide et un décodage précis sur de nouvelles tâches MI en aval avec moins de 30 essais par classe. Des évaluations approfondies sur cinq ensembles de données MI publics ont démontré que MIRepNet atteint systématiquement des performances de pointe, surpassant significativement à la fois les modèles EEG spécialisés et généralisés. Notre code sera disponible sur GitHub https://github.com/staraink/MIRepNet.
Alors que l'ère des grands modèles de langage (LLMs) agissant au nom des utilisateurs se déploie, les méthodes d'Optimisation des Préférences (Preference Optimization, PO) sont devenues une approche centrale pour aligner les LLMs sur les préférences humaines et améliorer leurs performances. Nous proposons l'Optimisation des Préférences par Maximum a Posteriori (MaPPO), un cadre d'apprentissage à partir des préférences qui intègre explicitement des connaissances préalables sur les récompenses dans l'objectif d'optimisation. Alors que les méthodes existantes telles que l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) et ses variantes traitent l'apprentissage des préférences comme un problème d'Estimation du Maximum de Vraisemblance (Maximum Likelihood Estimation, MLE), MaPPO étend ce paradigme en intégrant des estimations préalables de récompense dans un objectif de Maximum a Posteriori (MaP) structuré. Cela généralise non seulement DPO et ses variantes, mais améliore également l'alignement en atténuant la classification binaire simpliste des réponses. Plus important encore, MaPPO n'introduit aucun hyperparamètre supplémentaire et prend en charge l'optimisation des préférences dans des contextes hors ligne et en ligne. De plus, MaPPO peut être utilisé comme un module complémentaire, apportant des améliorations constantes aux variantes de DPO, y compris les méthodes largement utilisées telles que SimPO, IPO et CPO. Des évaluations empiriques approfondies sur différentes tailles de modèles et séries de modèles, sur trois benchmarks standards incluant MT-Bench, AlpacaEval 2.0 et Arena-Hard, démontrent des améliorations constantes des performances d'alignement sans sacrifier l'efficacité computationnelle.
L'observation de la faune joue un rôle crucial dans la conservation de la biodiversité, nécessitant des méthodologies robustes pour surveiller les populations animales et les interactions interspécifiques. Les récents progrès en vision par ordinateur ont grandement contribué à l'automatisation des tâches fondamentales d'observation de la faune, telles que la détection d'animaux et l'identification des espèces. Cependant, l'identification précise des espèces à partir de preuves indirectes comme les empreintes et les excréments reste relativement peu explorée, malgré son importance pour la surveillance de la faune. Pour combler cette lacune, nous présentons AnimalClue, le premier jeu de données à grande échelle pour l'identification des espèces à partir d'images de preuves indirectes. Notre jeu de données comprend 159 605 boîtes englobantes couvrant cinq catégories de preuves indirectes : empreintes, excréments, œufs, os et plumes. Il englobe 968 espèces, 200 familles et 65 ordres. Chaque image est annotée avec des étiquettes au niveau des espèces, des boîtes englobantes ou des masques de segmentation, ainsi que des informations détaillées sur les traits, incluant les schémas d'activité et les préférences d'habitat. Contrairement aux jeux de données existants principalement axés sur les caractéristiques visuelles directes (par exemple, l'apparence des animaux), AnimalClue présente des défis uniques pour les tâches de classification, de détection et de segmentation d'instances en raison de la nécessité de reconnaître des caractéristiques visuelles plus détaillées et subtiles. Dans nos expériences, nous évaluons de manière approfondie des modèles de vision représentatifs et identifions les principaux défis dans l'identification des animaux à partir de leurs traces. Notre jeu de données et notre code sont disponibles à l'adresse https://dahlian00.github.io/AnimalCluePage/
Ce travail aborde la segmentation d'objets vidéo en peu de coups guidée par le mouvement (FSVOS), qui vise à segmenter des objets dynamiques dans des vidéos à partir de quelques exemples annotés présentant les mêmes motifs de mouvement. Les ensembles de données et méthodes existants en FSVOS se concentrent généralement sur les catégories d'objets, qui sont des attributs statiques ignorant la richesse des dynamiques temporelles dans les vidéos, limitant ainsi leur application dans des scénarios nécessitant une compréhension du mouvement. Pour combler cette lacune, nous introduisons MOVE, un ensemble de données à grande échelle spécifiquement conçu pour la FSVOS guidée par le mouvement. Sur la base de MOVE, nous évaluons de manière exhaustive 6 méthodes de pointe issues de 3 tâches connexes différentes dans 2 configurations expérimentales. Nos résultats révèlent que les méthodes actuelles peinent à répondre aux exigences de la FSVOS guidée par le mouvement, ce qui nous amène à analyser les défis associés et à proposer une méthode de référence, le Réseau d'Apparence de Mouvement Découplé (DMA). Les expériences démontrent que notre approche obtient des performances supérieures dans la compréhension du mouvement en peu de coups, établissant ainsi une base solide pour les recherches futures dans cette direction.
Les populations fauniques en Afrique sont confrontées à des menaces graves, avec une diminution de plus de 65 % des nombres de vertébrés au cours des cinq dernières décennies. En réponse, la classification d'images par apprentissage profond est apparue comme un outil prometteur pour la surveillance et la conservation de la biodiversité. Cet article présente une étude comparative des modèles d'apprentissage profond pour la classification automatique d'images de la faune africaine, en mettant l'accent sur l'apprentissage par transfert avec des extracteurs de caractéristiques figés. En utilisant un jeu de données public de quatre espèces : buffle, éléphant, rhinocéros et zèbre, nous évaluons les performances de DenseNet-201, ResNet-152, EfficientNet-B4 et Vision Transformer ViT-H/14. DenseNet-201 a obtenu les meilleures performances parmi les réseaux convolutifs (67 % de précision), tandis que ViT-H/14 a atteint la précision globale la plus élevée (99 %), mais avec un coût de calcul significativement plus élevé, soulevant des préoccupations quant à son déploiement. Nos expériences mettent en évidence les compromis entre la précision, les exigences en ressources et la facilité de déploiement. Le meilleur réseau de neurones convolutifs (DenseNet-201) a été intégré dans un espace Hugging Face Gradio pour une utilisation en temps réel sur le terrain, démontrant la faisabilité du déploiement de modèles légers dans des contextes de conservation. Ce travail contribue à la recherche en intelligence artificielle ancrée en Afrique en offrant des insights pratiques sur la sélection des modèles, la préparation des jeux de données et le déploiement responsable des outils d'apprentissage profond pour la conservation de la faune.
Récemment, les modèles de langage multimodaux de grande taille (MLLMs) ont réalisé des avancées considérables dans les tâches vision-langage, mais produisent parfois du contenu potentiellement nuisible ou peu fiable. Malgré des travaux substantiels sur la fiabilité des modèles de langage, la capacité des MLLMs à agir honnêtement, en particulier face à des questions visuellement impossibles à répondre, reste largement inexplorée. Ce travail présente la première évaluation systématique des comportements d'honnêteté parmi divers MLLMs. Nous ancrons l'honnêteté dans les comportements de réponse des modèles à des questions visuelles impossibles, définissons quatre types représentatifs de telles questions, et construisons MoHoBench, un benchmark d'honnêteté à grande échelle pour les MLLMs, composé de plus de 12 000 échantillons de questions visuelles, dont la qualité est garantie par un filtrage multi-étapes et une vérification humaine. En utilisant MoHoBench, nous avons évalué l'honnêteté de 28 MLLMs populaires et mené une analyse approfondie. Nos résultats montrent que : (1) la plupart des modèles échouent à refuser de répondre de manière appropriée lorsque nécessaire, et (2) l'honnêteté des MLLMs n'est pas uniquement une question de modélisation du langage, mais est profondément influencée par l'information visuelle, nécessitant le développement de méthodes dédiées pour l'alignement multimodal de l'honnêteté. Par conséquent, nous avons mis en œuvre des méthodes d'alignement initiales utilisant l'apprentissage supervisé et par préférence pour améliorer les comportements d'honnêteté, fournissant une base pour les travaux futurs sur les MLLMs fiables. Nos données et code sont disponibles à l'adresse https://github.com/DSTTSD/MoHoBench.