Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans la génération vidéo ont permis d'atteindre un réalisme impressionnant dans les mouvements, mais ils négligent souvent la narration centrée sur les personnages, une tâche cruciale pour la production automatisée de films et d'animations. Nous présentons Talking Characters, une tâche plus réaliste visant à générer des animations de personnages parlants directement à partir de la parole et du texte. Contrairement aux "talking heads", Talking Characters vise à générer le portrait complet d'un ou plusieurs personnages, au-delà de la région faciale. Dans cet article, nous proposons MoCha, le premier système de ce genre à générer des personnages parlants. Pour garantir une synchronisation précise entre la vidéo et la parole, nous proposons un mécanisme d'attention par fenêtre parole-vidéo qui aligne efficacement les tokens de parole et de vidéo. Pour pallier le manque de jeux de données vidéo à grande échelle annotés en parole, nous introduisons une stratégie d'entraînement conjoint qui exploite à la fois des données vidéo annotées en parole et en texte, améliorant ainsi significativement la généralisation à travers diverses actions de personnages. Nous concevons également des modèles de prompts structurés avec des étiquettes de personnages, permettant, pour la première fois, des conversations multi-personnages avec des dialogues tour à tour, ce qui permet aux personnages générés par l'IA de s'engager dans des conversations contextuelles avec une cohérence cinématographique. Des évaluations qualitatives et quantitatives approfondies, incluant des études de préférence humaine et des comparaisons de benchmarks, démontrent que MoCha établit un nouveau standard pour la narration cinématographique générée par l'IA, atteignant un réalisme, une expressivité, une contrôlabilité et une généralisation supérieurs.
Cet article explore la tâche de Génération de Texte Visuel Complexe (CVTG), qui consiste à générer du contenu textuel complexe réparti dans diverses régions d'images visuelles. Dans le cadre du CVTG, les modèles de génération d'images produisent souvent du texte visuel déformé, flou ou manquant. Pour relever ces défis, nous proposons TextCrafter, une nouvelle méthode de rendu multi-texte visuel. TextCrafter utilise une stratégie progressive pour décomposer le texte visuel complexe en composants distincts tout en assurant un alignement robuste entre le contenu textuel et son support visuel. De plus, il intègre un mécanisme d'amélioration de la focalisation sur les tokens pour accentuer la visibilité du texte visuel lors du processus de génération. TextCrafter résout efficacement les principaux défis des tâches CVTG, tels que la confusion, les omissions et le flou du texte. Par ailleurs, nous présentons un nouveau jeu de données de référence, CVTG-2K, conçu pour évaluer rigoureusement les performances des modèles génératifs sur les tâches CVTG. Des expériences approfondies démontrent que notre méthode surpasse les approches de pointe.
Nous présentons Open-Reasoner-Zero, la première implémentation open source d'un entraînement RL à grande échelle axé sur le raisonnement, mettant l'accent sur l'évolutivité, la simplicité et l'accessibilité. À travers des expériences approfondies, nous démontrons qu'une approche minimaliste, utilisant PPO standard avec GAE (lambda=1, gamma=1) et des récompenses basées sur des règles simples, sans aucune régularisation KL, est suffisante pour augmenter à la fois la longueur des réponses et les performances sur les benchmarks, similairement au phénomène observé dans DeepSeek-R1-Zero. En utilisant le même modèle de base que DeepSeek-R1-Zero-Qwen-32B, notre implémentation atteint des performances supérieures sur AIME2024, MATH500 et le benchmark GPQA Diamond, tout en démontrant une efficacité remarquable — nécessitant seulement un dixième des étapes d'entraînement par rapport au pipeline DeepSeek-R1-Zero. Dans l'esprit de l'open source, nous publions notre code source, les paramètres, les données d'entraînement et les poids du modèle pour différentes tailles.
Alors que l'enthousiasme pour l'augmentation de la puissance de calcul (données et paramètres) à l'ère du pré-entraînement s'est progressivement atténué, le scaling au moment du test (TTS), également appelé « calcul au moment du test », est devenu un axe de recherche majeur. Des études récentes montrent que le TTS peut encore améliorer les capacités de résolution de problèmes des grands modèles de langage (LLMs), permettant des avancées significatives non seulement dans des tâches de raisonnement spécialisées, comme les mathématiques et la programmation, mais aussi dans des tâches générales telles que les questions-réponses ouvertes. Cependant, malgré l'explosion récente des efforts dans ce domaine, il reste un besoin urgent d'une étude complète offrant une compréhension systémique. Pour combler cette lacune, nous proposons un cadre unifié et multidimensionnel structuré autour de quatre dimensions clés de la recherche sur le TTS : quoi scaler, comment scaler, où scaler, et dans quelle mesure scaler. Sur la base de cette taxonomie, nous menons une revue approfondie des méthodes, des scénarios d'application et des aspects d'évaluation, et présentons une décomposition organisée qui met en lumière les rôles fonctionnels uniques des techniques individuelles dans le paysage plus large du TTS. À partir de cette analyse, nous dégageons les principales trajectoires de développement du TTS à ce jour et proposons des directives pratiques pour le déploiement. En outre, nous identifions plusieurs défis ouverts et offrons des perspectives sur des directions futures prometteuses, notamment un scaling accru, la clarification de l'essence fonctionnelle des techniques, la généralisation à davantage de tâches, et plus d'attributions.
Les modèles de raisonnement à grande échelle (LRMs) améliorent considérablement la capacité de raisonnement des modèles de langage à grande échelle (LLMs) en apprenant à raisonner, démontrant des performances prometteuses dans la résolution de tâches complexes. Cependant, leur processus de raisonnement délibéré entraîne des inefficacités en termes d'utilisation des tokens, de consommation de mémoire et de temps d'inférence. Ainsi, cette étude propose une revue des méthodes d'inférence efficaces conçues spécifiquement pour les LRMs, en se concentrant sur la réduction de l'inefficacité des tokens tout en préservant la qualité du raisonnement. Tout d'abord, nous introduisons une taxonomie pour regrouper les méthodes récentes en deux catégories principales : (a) la chaîne de pensée (CoT) explicite compacte, qui réduit les tokens tout en conservant la structure explicite du raisonnement, et (b) la CoT latente implicite, qui encode les étapes de raisonnement dans des représentations cachées plutôt que dans des tokens explicites. Parallèlement, nous discutons de leurs forces et faiblesses. Ensuite, nous réalisons des analyses empiriques sur les méthodes existantes, en termes de performance et d'efficacité. De plus, nous présentons les défis ouverts dans ce domaine, notamment le raisonnement contrôlable centré sur l'humain, le compromis entre interprétabilité et efficacité du raisonnement, la garantie de la sécurité du raisonnement efficace, et les applications plus larges du raisonnement efficace. En outre, nous mettons en lumière des idées clés pour améliorer l'efficacité de l'inférence des LRMs grâce à des techniques telles que la fusion de modèles, les nouvelles architectures et les routeurs d'agents. Nous espérons que ce travail servira de guide précieux, aidant les chercheurs à surmonter les défis dans ce domaine dynamique.
La synthèse d'interactions humain-scène (HSI) diversifiées et physiquement plausibles est cruciale à la fois pour l'animation par ordinateur et l'intelligence artificielle incarnée. Malgré des progrès encourageants, les méthodes actuelles se concentrent principalement sur le développement de contrôleurs séparés, chacun spécialisé pour une tâche d'interaction spécifique. Cela entrave considérablement la capacité à aborder une grande variété de tâches HSI complexes qui nécessitent l'intégration de multiples compétences, par exemple s'asseoir tout en portant un objet. Pour résoudre ce problème, nous présentons TokenHSI, une politique unique et unifiée basée sur un transformateur, capable d'unifier plusieurs compétences et de s'adapter de manière flexible. L'idée clé est de modéliser la proprioception de l'humanoïde comme un jeton partagé distinct et de la combiner avec des jetons de tâches spécifiques via un mécanisme de masquage. Une telle politique unifiée permet un partage efficace des connaissances entre les compétences, facilitant ainsi l'entraînement multi-tâches. De plus, l'architecture de notre politique prend en charge des entrées de longueur variable, permettant une adaptation flexible des compétences apprises à de nouveaux scénarios. En entraînant des tokenizers de tâches supplémentaires, nous pouvons non seulement modifier les géométries des cibles d'interaction, mais aussi coordonner plusieurs compétences pour résoudre des tâches complexes. Les expériences démontrent que notre approche peut considérablement améliorer la polyvalence, l'adaptabilité et l'extensibilité dans diverses tâches HSI. Site web : https://liangpan99.github.io/TokenHSI/
L'entraînement des modèles vision-langage (VLMs) nécessite généralement des paires image-texte à grande échelle et de haute qualité, mais la collecte ou la synthèse de telles données est coûteuse. En revanche, les données textuelles sont abondantes et peu coûteuses, ce qui soulève la question : peut-on synthétiser des données multimodales de haute qualité uniquement à partir de texte ? Pour répondre à cela, nous proposons un cadre de synthèse de données multimodales en trois étapes intégrées, qui génère deux ensembles de données : Unicorn-1.2M et Unicorn-471K-Instruction. Dans l'Étape 1 : Synthèse de Données de Légendes Diversifiées, nous construisons 1,2 million de légendes de haute qualité et sémantiquement diversifiées en étendant des graines de légendes éparses à l'aide de grands modèles de langage (LLMs). Dans l'Étape 2 : Génération de Données pour l'Ajustement par Instruction, nous transformons ensuite 471 000 légendes en tâches d'ajustement par instruction multi-tours pour soutenir le raisonnement complexe. Enfin, dans l'Étape 3 : Transfert de Représentation Modale, ces représentations textuelles de légendes sont transformées en représentations visuelles, aboutissant à des représentations d'images synthétiques diversifiées. Ce processus en trois étapes nous permet de construire Unicorn-1.2M pour le pré-entraînement et Unicorn-471K-Instruction pour l'ajustement par instruction, sans dépendre d'images réelles. En éliminant la dépendance aux images réelles tout en maintenant la qualité et la diversité des données, notre cadre offre une solution économique et évolutive pour l'entraînement des VLMs. Le code est disponible à l'adresse https://github.com/Yu-xm/Unicorn.git.
La raison avant l'action et l'imagination des résultats potentiels (c'est-à-dire, les modèles du monde) sont essentielles pour les agents incarnés opérant dans des environnements complexes et ouverts. Cependant, les travaux antérieurs intègrent soit seulement l'une de ces capacités dans un agent de bout en bout, soit combinent plusieurs modèles spécialisés dans un système d'agent, limitant ainsi l'efficacité d'apprentissage et la généralisation de la politique. Par conséquent, cet article fait une première tentative pour synergiser la Raison et l'Imagination dans une politique généraliste de bout en bout, appelée RIG. Pour entraîner RIG de manière end-to-end, nous construisons un pipeline de données qui intègre et enrichit progressivement le contenu de l'imagination et du raisonnement dans les trajectoires collectées à partir d'agents existants. L'apprentissage conjoint du raisonnement et de la génération d'images suivantes modélise explicitement la corrélation inhérente entre le raisonnement, l'action et la dynamique des environnements, et montre ainsi une amélioration de plus de 17 fois en termes d'efficacité d'échantillonnage et de généralisation par rapport aux travaux précédents. Pendant l'inférence, RIG raisonne d'abord sur la prochaine action, produit une action potentielle, puis prédit les résultats de l'action, offrant ainsi à l'agent une chance de revoir et de s'auto-corriger sur la base de l'imagination avant de prendre des actions réelles. Les résultats expérimentaux montrent que la synergie entre le raisonnement et l'imagination améliore non seulement la robustesse, la généralisation et l'interopérabilité de la politique généraliste, mais permet également une mise à l'échelle au moment du test pour améliorer les performances globales.
L'apprentissage par renforcement (RL) avec récompenses vérifiables (RLVR) a montré des résultats prometteurs dans les tâches de raisonnement mathématique et de codage où des réponses de référence bien structurées sont disponibles. Cependant, son applicabilité à des domaines plus vastes reste peu explorée. Dans ce travail, nous étudions l'extension de RLVR à des domaines plus diversifiés tels que la médecine, la chimie, la psychologie et l'économie. Nous observons un fort accord dans les jugements binaires entre différents grands modèles de langage (LLMs) lorsque des réponses de référence objectives existent, ce qui remet en question la nécessité d'une annotation à grande échelle pour entraîner des modèles de récompense spécifiques à un domaine. Pour pallier les limitations des récompenses binaires lors de la gestion de réponses de référence non structurées, nous intégrons en outre un système de notation douce basé sur un modèle dans RLVR pour améliorer sa flexibilité. Nos expériences montrent qu'un modèle génératif de récompense distillé peut servir de vérificateur interdomaine efficace, fournissant des signaux de récompense fiables pour RL sans nécessiter d'annotations spécifiques à un domaine. En affinant un modèle de base de 7B à l'aide de divers algorithmes de RL contre notre modèle de récompense, nous obtenons des politiques qui surpassent largement les LLMs alignés open-source de pointe tels que Qwen2.5-72B-Instruct et DeepSeek-R1-Distill-Qwen-32B, dans des contextes de réponses libres et variées. Cela renforce également la robustesse et l'évolutivité de RLVR, mettant en lumière son potentiel pour des applications réelles avec des étiquettes bruyantes ou faibles.
La génération et l'édition de vidéos conditionnées par des invites textuelles ou des images ont connu des avancées significatives. Cependant, des défis subsistent pour contrôler avec précision la disposition globale et les détails géométriques uniquement par le texte, ainsi que pour supporter le contrôle du mouvement et les modifications locales via des images. Dans cet article, nous visons à réaliser un contrôle spatial et de mouvement basé sur des croquis pour la génération de vidéos, et à supporter une édition fine de vidéos réelles ou synthétiques. Basé sur le modèle de génération de vidéos DiT, nous proposons une structure de contrôle économe en mémoire avec des blocs de contrôle de croquis qui prédisent les caractéristiques résiduelles des blocs DiT sautés. Les croquis sont dessinés sur une ou deux images clés (à des points temporels arbitraires) pour une interaction facile. Pour propager ces conditions de croquis temporellement éparses à travers toutes les images, nous proposons un mécanisme d'attention inter-images pour analyser la relation entre les images clés et chaque image de la vidéo. Pour l'édition de vidéos basée sur des croquis, nous concevons un module d'insertion vidéo supplémentaire qui maintient la cohérence entre le contenu nouvellement édité et la caractéristique spatiale et le mouvement dynamique de la vidéo originale. Pendant l'inférence, nous utilisons la fusion latente pour la préservation précise des régions non éditées. Des expériences approfondies démontrent que notre SketchVideo atteint des performances supérieures en génération et édition de vidéos contrôlables.
Les grands modèles de langage (LLM) améliorés pour le raisonnement génèrent explicitement des étapes de raisonnement intermédiaires avant de produire des réponses finales, ce qui permet au modèle d'exceller dans la résolution de problèmes complexes. Dans cet article, nous démontrons que ce cadre de génération émergent offre une opportunité unique pour un contrôle plus fin du comportement des modèles. Nous proposons l'Intervention de Pensée, un nouveau paradigme conçu pour guider explicitement les processus de raisonnement internes des LLM en insérant ou en révisant stratégiquement des tokens de pensée spécifiques. Nous menons des évaluations approfondies sur plusieurs tâches, notamment le suivi d'instructions sur IFEval, la hiérarchie des instructions sur SEP, et l'alignement de sécurité sur XSTest et SORRY-Bench. Nos résultats montrent que l'Intervention de Pensée surpasse significativement les approches de prompting de base, avec des gains de précision allant jusqu'à 6,7 % dans les scénarios de suivi d'instructions, des améliorations de 15,4 % dans le raisonnement sur les hiérarchies d'instructions, et une augmentation de 40,0 % des taux de refus pour les prompts non sécurisés en utilisant les modèles open-source DeepSeek R1. Globalement, notre travail ouvre une nouvelle voie de recherche prometteuse pour le contrôle des LLM de raisonnement.
Nous proposons une nouvelle approche pour générer des sorties complexes qui améliore significativement la précision dans les tâches de conversion texte-SQL. Notre méthode exploite les résultats d'exécution pour sélectionner la requête la plus cohérente sémantiquement parmi plusieurs candidats, permettant ainsi à des modèles plus petits et économiques de surpasser des méthodes de raisonnement intensives en calcul telles que o1, o3-mini et DeepSeek R1, tout en réduisant les coûts d'inférence jusqu'à 30 fois. Elle s'intègre facilement aux modèles existants, offrant une voie pratique et évolutive vers une génération SQL de pointe.
Il est très souhaitable d'obtenir un modèle capable de générer des maillages 3D de haute qualité à partir de prompts textuels en quelques secondes. Bien que des tentatives récentes aient adapté des modèles de diffusion pré-entraînés de texte à image, tels que Stable Diffusion (SD), pour générer des représentations 3D (par exemple, Triplane), elles souffrent souvent d'une qualité médiocre en raison du manque de données d'entraînement 3D de haute qualité suffisantes. Visant à surmonter cette pénurie de données, nous proposons un nouveau schéma d'entraînement, appelé Progressive Rendering Distillation (PRD), qui élimine le besoin de vérités terrain 3D en distillant des modèles de diffusion multi-vues et en adaptant SD pour en faire un générateur 3D natif. À chaque itération de l'entraînement, PRD utilise l'U-Net pour débruiter progressivement le latent à partir d'un bruit aléatoire en quelques étapes, et à chaque étape, il décode le latent débruité en une sortie 3D. Les modèles de diffusion multi-vues, incluant MVDream et RichDreamer, sont utilisés conjointement avec SD pour distiller des textures et des géométries cohérentes avec le texte dans les sorties 3D via la distillation de score. Comme PRD permet l'entraînement sans vérités terrain 3D, nous pouvons facilement augmenter les données d'entraînement et améliorer la qualité de génération pour des prompts textuels complexes avec des concepts créatifs. Par ailleurs, PRD peut accélérer la vitesse d'inférence du modèle de génération en quelques étapes seulement. Avec PRD, nous entraînons un générateur Triplane, nommé TriplaneTurbo, qui ajoute seulement 2,5 % de paramètres entraînables pour adapter SD à la génération de Triplane. TriplaneTurbo surpasse les générateurs texte-à-3D précédents à la fois en efficacité et en qualité. Plus précisément, il peut produire des maillages 3D de haute qualité en 1,2 seconde et généraliser efficacement pour des entrées textuelles complexes. Le code est disponible à l'adresse https://github.com/theEricMa/TriplaneTurbo.
La détection des fraudes télécoms fait face à des défis majeurs en raison du manque de données d'entraînement multimodales de haute qualité intégrant des signaux audio avec une analyse textuelle orientée raisonnement. Pour combler cette lacune, nous présentons TeleAntiFraud-28k, le premier ensemble de données audio-texte open-source conçu spécifiquement pour l'analyse automatisée des fraudes télécoms. Notre ensemble de données est construit à travers trois stratégies : (1) Génération d'échantillons texte-vérité préservant la confidentialité en utilisant des enregistrements d'appels transcrits par reconnaissance automatique de la parole (ASR) (avec l'audio original anonymisé), assurant une cohérence réaliste grâce à la régénération par un modèle de synthèse vocale (TTS) ; (2) Amélioration sémantique via un échantillonnage auto-instructif basé sur un modèle de langage de grande envergure (LLM) appliqué à des sorties ASR authentiques pour étendre la couverture des scénarios ; (3) Synthèse antagoniste multi-agents simulant des tactiques de fraude émergentes à travers des scénarios de communication prédéfinis et des typologies de fraude. L'ensemble de données généré contient 28 511 paires parole-texte rigoureusement traitées, accompagnées d'annotations détaillées pour le raisonnement sur la fraude. L'ensemble de données est divisé en trois tâches : classification de scénario, détection de fraude, classification du type de fraude. De plus, nous construisons TeleAntiFraud-Bench, un benchmark d'évaluation standardisé comprenant des instances échantillonnées proportionnellement à partir de l'ensemble de données, pour faciliter le test systématique des performances des modèles sur les tâches de détection de fraude télécom. Nous contribuons également un modèle de fine-tuning supervisé (SFT) optimisé pour la production, entraîné sur des données hybrides réelles/synthétiques, tout en ouvrant le cadre de traitement des données pour permettre une expansion communautaire de l'ensemble de données. Ce travail établit un cadre fondamental pour la recherche multimodale anti-fraude tout en abordant les défis critiques de la confidentialité des données et de la diversité des scénarios. Le projet sera disponible à l'adresse https://github.com/JimmyMa99/TeleAntiFraud.
Les modèles d'action sont essentiels pour permettre aux agents autonomes d'exécuter des tâches complexes. Cependant, l'entraînement de grands modèles d'action reste un défi en raison de la diversité des environnements des agents et de la complexité des données agentiques. Malgré un intérêt croissant, l'infrastructure existante offre un soutien limité pour un ajustement fin spécifique aux agents et évolutif. Nous présentons ActionStudio, un cadre de données et d'entraînement léger et extensible conçu pour les grands modèles d'action. ActionStudio unifie les trajectoires hétérogènes des agents grâce à un format standardisé, prend en charge divers paradigmes d'entraînement incluant LoRA, l'ajustement fin complet et les configurations distribuées, et intègre des outils robustes de prétraitement et de vérification. Nous validons son efficacité sur des benchmarks publics et réalistes de l'industrie, démontrant des performances solides et une scalabilité pratique. Nous avons ouvert le code et les données sur https://github.com/SalesforceAIResearch/xLAM pour faciliter la recherche dans la communauté.
Ces dernières années, les grands modèles de langage (LLMs) ont démontré des capacités remarquables pour résoudre divers problèmes d'intelligence artificielle. Cependant, ils échouent à planifier de manière fiable, même lorsqu'ils sont guidés par une définition détaillée de la tâche de planification. Les tentatives pour améliorer leurs capacités de planification, telles que l'incitation en chaîne de pensée, le fine-tuning et le "raisonnement" explicite, produisent encore des plans incorrects et échouent généralement à généraliser pour des tâches plus vastes. Dans cet article, nous montrons comment utiliser les LLMs pour générer des plans corrects, même pour des tâches hors distribution de taille croissante. Pour un domaine de planification donné, nous demandons à un LLM de générer plusieurs fonctions heuristiques dépendantes du domaine sous forme de code Python, de les évaluer sur un ensemble de tâches d'entraînement dans le cadre d'une recherche gloutonne du meilleur d'abord, et de sélectionner la plus performante. Les heuristiques générées par les LLMs résolvent bien plus de tâches de test inédites que les heuristiques indépendantes du domaine de pointe pour la planification classique. Elles rivalisent même avec l'algorithme d'apprentissage le plus performant pour la planification dépendante du domaine. Ces résultats sont d'autant plus remarquables que notre implémentation de preuve de concept repose sur un planificateur Python non optimisé, tandis que les références s'appuient sur du code C++ hautement optimisé. Dans certains domaines, les heuristiques générées par les LLMs explorent moins d'états que les références, révélant qu'elles sont non seulement efficaces à calculer, mais parfois même plus informatives que les heuristiques de pointe. Globalement, nos résultats montrent que l'échantillonnage d'un ensemble de programmes de fonctions heuristiques de planification peut considérablement améliorer les capacités de planification des LLMs.
Ce travail se concentre sur l'avatarisation 4D en domaine ouvert, dans le but de créer un avatar 4D à partir d'une image portrait dans un style arbitraire. Nous choisissons les triplans paramétriques comme représentation intermédiaire 4D et proposons un paradigme d'entraînement pratique qui tire parti à la fois des réseaux antagonistes génératifs (GAN) et des modèles de diffusion. Notre conception découle de l'observation que les GAN 4D excellent à relier les images et les triplans sans supervision, mais rencontrent généralement des difficultés à gérer des distributions de données diverses. Un prior robuste de diffusion 2D apparaît comme la solution, aidant le GAN à transférer son expertise à travers divers domaines. La synergie entre ces experts permet la construction d'un ensemble de données image-triplan multi-domaines, qui alimente le développement d'un créateur d'avatars 4D général. Des expériences approfondies suggèrent que notre modèle, AvatarArtist, est capable de produire des avatars 4D de haute qualité avec une forte robustesse face à divers domaines d'images sources. Le code, les données et les modèles seront rendus publics pour faciliter les études futures.
Les récentes avancées dans DUSt3R ont permis une estimation robuste de nuages de points denses et des paramètres de caméra pour des scènes statiques, en exploitant des architectures de réseaux Transformer et une supervision directe sur des ensembles de données 3D à grande échelle. En revanche, l'échelle limitée et la diversité réduite des ensembles de données 4D disponibles constituent un goulot d'étranglement majeur pour l'entraînement d'un modèle 4D hautement généralisable. Cette contrainte a poussé les méthodes 4D conventionnelles à affiner des modèles 3D sur des données vidéo dynamiques évolutives, en utilisant des informations géométriques supplémentaires telles que le flux optique et les profondeurs. Dans ce travail, nous empruntons une voie opposée et introduisons Easi3R, une méthode simple mais efficace pour la reconstruction 4D, ne nécessitant aucun entraînement. Notre approche applique une adaptation de l'attention lors de l'inférence, éliminant ainsi le besoin d'un pré-entraînement à partir de zéro ou d'un affinage du réseau. Nous constatons que les couches d'attention dans DUSt3R encodent intrinsèquement des informations riches sur le mouvement de la caméra et des objets. En démêlant soigneusement ces cartes d'attention, nous obtenons une segmentation précise des régions dynamiques, une estimation de la pose de la caméra et une reconstruction de cartes de points denses 4D. Des expériences approfondies sur des vidéos dynamiques du monde réel démontrent que notre adaptation légère de l'attention surpasse significativement les méthodes état de l'art précédentes, entraînées ou affinées sur des ensembles de données dynamiques étendus. Notre code est disponible publiquement à des fins de recherche sur https://easi3r.github.io/.
Dans le domaine de la création de contenu 3D, l'obtention d'une topologie de maillage optimale grâce à des modèles d'IA a longtemps été un objectif pour les artistes 3D. Les méthodes précédentes, telles que MeshGPT, ont exploré la génération d'objets 3D prêts à l'emploi via des techniques auto-régressives sur les maillages. Bien que ces méthodes produisent des résultats visuellement impressionnants, leur dépendance à des prédictions token par token dans le processus auto-régressif entraîne plusieurs limitations significatives. Celles-ci incluent des vitesses de génération extrêmement lentes et un nombre incontrôlable de faces de maillage. Dans cet article, nous présentons MeshCraft, un nouveau cadre pour la génération efficace et contrôlable de maillages, qui exploite la diffusion spatiale continue pour générer des faces triangulaires discrètes. Plus précisément, MeshCraft se compose de deux éléments clés : 1) un VAE basé sur un transformateur qui encode les maillages bruts en tokens continus au niveau des faces et les décode en maillages originaux, et 2) un transformateur de diffusion basé sur des flux conditionné par le nombre de faces, permettant la génération de maillages 3D de haute qualité avec un nombre prédéfini de faces. En utilisant le modèle de diffusion pour la génération simultanée de l'ensemble de la topologie du maillage, MeshCraft réalise une génération de maillages haute fidélité à des vitesses significativement plus rapides que les méthodes auto-régressives. Plus précisément, MeshCraft peut générer un maillage de 800 faces en seulement 3,2 secondes (35 fois plus rapide que les bases de référence existantes). Des expériences approfondies démontrent que MeshCraft surpasse les techniques de pointe dans les évaluations qualitatives et quantitatives sur le dataset ShapeNet et montre des performances supérieures sur le dataset Objaverse. De plus, il s'intègre parfaitement avec les stratégies de guidage conditionnel existantes, mettant en évidence son potentiel pour soulager les artistes du travail manuel chronophage impliqué dans la création de maillages.
La plupart des générateurs d'objets 3D se concentrent sur la qualité esthétique, négligeant souvent les contraintes physiques nécessaires dans les applications. Une telle contrainte est que l'objet 3D doit être auto-portant, c'est-à-dire qu'il reste équilibré sous l'effet de la gravité. Les approches précédentes pour générer des objets 3D stables utilisaient des simulateurs physiques différentiables pour optimiser la géométrie au moment du test, ce qui est lent, instable et sujet à des optima locaux. Inspirés par la littérature sur l'alignement des modèles génératifs à des retours externes, nous proposons l'Optimisation par Simulation Directe (Direct Simulation Optimization, DSO), un cadre pour utiliser les retours d'un simulateur (non-différentiable) afin d'augmenter la probabilité que le générateur 3D produise directement des objets 3D stables. Nous construisons un ensemble de données d'objets 3D étiquetés avec un score de stabilité obtenu à partir du simulateur physique. Nous pouvons ensuite affiner le générateur 3D en utilisant le score de stabilité comme métrique d'alignement, via l'optimisation de préférences directes (Direct Preference Optimization, DPO) ou l'optimisation de récompenses directes (Direct Reward Optimization, DRO), un nouvel objectif que nous introduisons pour aligner les modèles de diffusion sans nécessiter de préférences par paires. Nos expériences montrent que le générateur affiné en mode feed-forward, utilisant soit l'objectif DPO soit DRO, est beaucoup plus rapide et plus susceptible de produire des objets stables que l'optimisation au moment du test. Notamment, le cadre DSO fonctionne même sans aucun objet 3D de référence pour l'entraînement, permettant au générateur 3D de s'améliorer automatiquement en collectant les retours de simulation sur ses propres sorties.
Les modèles de langage multimodaux de grande taille (MLLM) ont émergé pour relever les défis du question-réponse visuel (VQA), suscitant un nouvel axe de recherche sur l'évaluation objective de ces modèles. Les méthodes d'évaluation existantes présentent des limitations en raison de la charge de travail humaine importante nécessaire pour concevoir des paires de questions-réponses pour des images visuelles, ce qui restreint intrinsèquement l'échelle et la portée des évaluations. Bien que les approches automatisées de type MLLM-comme-juge tentent de réduire la charge de travail humaine grâce à des évaluations automatiques, elles introduisent souvent des biais. Pour résoudre ces problèmes, nous proposons un cadre d'évaluation non supervisé par examen par les pairs des MLLM. Ce cadre utilise uniquement des données d'images, permettant aux modèles de générer automatiquement des questions et de réaliser des évaluations par les pairs des réponses d'autres modèles, réduisant ainsi efficacement la dépendance à la charge de travail humaine. De plus, nous introduisons un système de notation vision-langage pour atténuer les problèmes de biais, en se concentrant sur trois aspects : (i) la justesse des réponses ; (ii) la compréhension et le raisonnement visuels ; et (iii) la corrélation image-texte. Les résultats expérimentaux montrent que UPME atteint une corrélation de Pearson de 0,944 avec les évaluations humaines sur le jeu de données MMstar et de 0,814 sur le jeu de données ScienceQA, indiquant que notre cadre s'aligne étroitement avec les benchmarks conçus par l'homme et les préférences humaines inhérentes.
Les capacités de résolution de problèmes mathématiques des grands modèles de langage sont devenues un point central de la recherche, avec un intérêt croissant pour l'exploitation de chemins de raisonnement auto-générés comme une voie prometteuse pour affiner et améliorer ces modèles. Ces chemins capturent des processus logiques étape par étape tout en ne nécessitant que la réponse correcte pour la supervision. La méthode d'auto-apprentissage s'est avérée efficace pour les tâches de raisonnement tout en éliminant le besoin de modèles externes et d'annotations manuelles. Cependant, optimiser l'utilisation des données auto-générées pour l'entraînement des modèles reste un défi ouvert. Dans ce travail, nous proposons l'Adaptation Ponderée Basée sur l'Entropie pour l'Auto-Apprentissage (EAST), une stratégie de pondération adaptative conçue pour prioriser les données incertaines lors de l'auto-apprentissage. Plus précisément, EAST utilise une fonction de mappage avec un paramètre ajustable qui contrôle la netteté de la pondération, attribuant des poids plus élevés aux données où le modèle présente une plus grande incertitude. Cette approche guide le modèle à se concentrer sur des exemples plus informatifs et plus difficiles, améliorant ainsi sa capacité de raisonnement. Nous évaluons notre approche sur les benchmarks GSM8K et MATH. Les résultats empiriques montrent que, tandis que la méthode de base ne produit pratiquement aucune amélioration (0%) sur MATH, EAST obtient un gain d'environ 1% par rapport au modèle de référence. Sur GSM8K, EAST atteint une amélioration supplémentaire de 1 à 2% par rapport à la méthode de base.
L'émergence récente des grands modèles vision-langage (VLMs) a conduit à une variété de benchmarks pour évaluer ces modèles. Cependant, nous observons que la plupart des méthodes d'évaluation existantes souffrent du fait qu'elles obligent le modèle à choisir parmi des réponses prédéterminées, sacrifiant ainsi l'ouverture, ou qu'elles évaluent les réponses à l'aide d'un modèle juge, ce qui entraîne une évaluation subjective et peu fiable. De plus, nous constatons un manque de benchmarks pour les VLMs en langue coréenne, qui sont nécessaires comme métrique distincte des benchmarks plus courants en anglais, car les performances des modèles de langage génératifs peuvent varier considérablement selon la langue utilisée. Par conséquent, nous présentons KOFFVQA, un benchmark de question-réponse visuelle libre et généraliste en langue coréenne pour l'évaluation des VLMs. Notre benchmark comprend 275 questions soigneusement élaborées, chacune associée à une image et à des critères de notation couvrant 10 aspects différents de la performance des VLMs. Les critères de notation éliminent le problème de la fiabilité en permettant au modèle juge de noter chaque réponse sur la base d'un ensemble de règles prédéfinies. En définissant les critères d'évaluation de manière objective, même un petit modèle open-source peut être utilisé pour évaluer les modèles sur notre benchmark de manière fiable. En plus d'évaluer un grand nombre de VLMs existants sur notre benchmark, nous vérifions également expérimentalement que notre méthode d'utilisation de critères de notation préexistants pour l'évaluation est beaucoup plus fiable que les méthodes existantes. Notre code d'évaluation est disponible à l'adresse https://github.com/maum-ai/KOFFVQA.
L'optimisation multiobjectif évolutionnaire (EMO) a réalisé des progrès significatifs au cours des deux dernières décennies. Cependant, à mesure que l'échelle et la complexité des problèmes augmentent, les algorithmes EMO traditionnels rencontrent des limitations de performance substantielles dues à un parallélisme et une scalabilité insuffisants. Bien que la plupart des travaux se soient concentrés sur la conception d'algorithmes pour relever ces défis, peu d'attention a été accordée à l'accélération matérielle, laissant ainsi un écart évident entre les algorithmes EMO et les dispositifs de calcul avancés, tels que les GPU. Pour combler cet écart, nous proposons de paralléliser les algorithmes EMO sur les GPU via la méthodologie de tensorisation. En employant la tensorisation, les structures de données et les opérations des algorithmes EMO sont transformées en représentations tensorielles concises, ce qui permet une utilisation automatique et fluide du calcul GPU. Nous démontrons l'efficacité de notre approche en l'appliquant à trois algorithmes EMO représentatifs : NSGA-III, MOEA/D et HypE. Pour évaluer de manière exhaustive notre méthodologie, nous introduisons un benchmark de contrôle robotique multiobjectif utilisant un moteur physique accéléré par GPU. Nos expériences montrent que les algorithmes EMO tensorisés atteignent des accélérations allant jusqu'à 1113x par rapport à leurs versions basées sur CPU, tout en maintenant la qualité des solutions et en augmentant efficacement la taille des populations à des centaines de milliers. De plus, les algorithmes EMO tensorisés traitent efficacement des tâches complexes de contrôle robotique multiobjectif, produisant des solutions de haute qualité avec des comportements diversifiés. Les codes sources sont disponibles à l'adresse suivante : https://github.com/EMI-Group/evomo.
Les grands modèles de langage pré-entraînés pour la vidéo (Video LLMs) démontrent des capacités de raisonnement remarquables, mais leur adaptation à de nouvelles tâches impliquant des modalités ou des types de données supplémentaires (par exemple, l'audio ou les informations 3D) reste un défi. Dans cet article, nous présentons PAVE, un cadre flexible pour adapter les Video LLMs pré-entraînés à des tâches en aval avec des signaux annexes, tels que l'audio, les indices 3D ou les vidéos multi-vues. PAVE introduit des adaptateurs légers, appelés "patches", qui ajoutent un petit nombre de paramètres et d'opérations à un modèle de base sans modifier son architecture ou ses poids pré-entraînés. Ainsi, PAVE peut adapter efficacement le modèle de base pré-entraîné pour prendre en charge diverses tâches en aval, notamment la réponse à des questions audio-visuelles, le raisonnement 3D, la reconnaissance de vidéos multi-vues et la compréhension de vidéos à haute fréquence d'images. Sur ces tâches, PAVE améliore significativement les performances du modèle de base, surpassant les modèles spécifiques à la tâche de pointe tout en engendrant un coût minime d'environ 0,1 % de FLOPs et de paramètres supplémentaires. De plus, PAVE prend en charge l'apprentissage multi-tâches et généralise bien à travers différents Video LLMs. Notre code est disponible à l'adresse https://github.com/dragonlzm/PAVE.
Les méthodes de Fine-Tuning Paramétriquement Efficaces (PEFT) ont récemment gagné en popularité grâce à la disponibilité généralisée de modèles pré-entraînés à grande échelle. Ces méthodes permettent une adaptation rapide à des tâches en aval avec un coût computationnel minimal. Cependant, les méthodes de fine-tuning populaires telles que LoRA présentent une robustesse limitée en ce qui concerne les choix d'hyperparamètres ou les régimes d'entraînement prolongés, empêchant une performance optimale prête à l'emploi. En revanche, les approches bornées, comme ETHER, offrent une plus grande robustesse mais sont limitées à des adaptations de rang extrêmement faible et à des transformations de force fixe, réduisant ainsi leur puissance d'adaptation expressive. Dans ce travail, nous proposons Decoupled Low-rank Adaptation (DeLoRA), une nouvelle méthode de fine-tuning qui normalise et met à l'échelle des matrices de bas rang apprenables. En bornant la distance de la transformation, DeLoRA découple efficacement l'apprentissage angulaire de la force d'adaptation, améliorant ainsi la robustesse sans compromettre les performances. À travers des évaluations sur la génération d'images pilotée par sujet, la compréhension du langage naturel et le réglage d'instructions, nous montrons que DeLoRA égale ou dépasse les performances des méthodes PEFT concurrentes, tout en présentant une robustesse accrue. Le code est disponible à l'adresse suivante : https://github.com/ExplainableML/DeLoRA.
Les gestes co-verbaux jouent un rôle essentiel dans la communication non verbale. Dans cet article, nous introduisons un nouveau cadre pour la compréhension des gestes co-verbaux en conditions réelles. Plus précisément, nous proposons trois nouvelles tâches et benchmarks pour évaluer la capacité d'un modèle à comprendre les associations entre gestes, texte et parole : (i) la recherche basée sur les gestes, (ii) la détection de mots gestuels, et (iii) la détection de locuteur actif à l'aide des gestes. Nous présentons une nouvelle approche qui apprend une représentation tri-modale parole-texte-vidéo-gestes pour résoudre ces tâches. En exploitant une combinaison de perte contrastive globale de phrases et de perte de couplage locale geste-mot, nous démontrons qu'une représentation robuste des gestes peut être apprise de manière faiblement supervisée à partir de vidéos en conditions réelles. Nos représentations apprises surpassent les méthodes précédentes, y compris les grands modèles vision-langage (VLMs), sur les trois tâches. Une analyse approfondie révèle que les modalités parole et texte capturent des signaux distincts liés aux gestes, mettant en évidence les avantages de l'apprentissage d'un espace d'embedding tri-modal partagé. Le jeu de données, le modèle et le code sont disponibles à l'adresse : https://www.robots.ox.ac.uk/~vgg/research/jegal