Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion pour la super-résolution (SR) produisent des résultats visuels de haute qualité mais nécessitent des coûts de calcul élevés. Malgré le développement de plusieurs méthodes pour accélérer les modèles de SR basés sur la diffusion, certaines (par exemple, SinSR) échouent à produire des détails perceptuels réalistes, tandis que d'autres (par exemple, OSEDiff) peuvent halluciner des structures inexistantes. Pour surmonter ces problèmes, nous présentons RSD, une nouvelle méthode de distillation pour ResShift, l'un des meilleurs modèles de SR basés sur la diffusion. Notre méthode repose sur l'entraînement du réseau étudiant à produire des images telles qu'un nouveau modèle ResShift fictif entraîné sur ces images coïncidera avec le modèle enseignant. RSD permet une restauration en une seule étape et surpasse largement le modèle enseignant. Nous montrons que notre méthode de distillation peut surpasser l'autre méthode de distillation pour ResShift - SinSR - la rendant comparable aux méthodes de distillation de SR basées sur la diffusion de pointe. Par rapport aux méthodes de SR basées sur des modèles pré-entraînés de texte à image, RSD produit une qualité perceptuelle compétitive, fournit des images mieux alignées avec les images d'entrée dégradées, et nécessite moins de paramètres et de mémoire GPU. Nous fournissons des résultats expérimentaux sur divers ensembles de données réels et synthétiques, notamment RealSR, RealSet65, DRealSR, ImageNet et DIV2K.
L'émergence d'agents basés sur des modèles de langage de grande taille (LLM) marque un changement de paradigme dans l'IA, permettant à des systèmes autonomes de planifier, raisonner, utiliser des outils et maintenir une mémoire tout en interagissant avec des environnements dynamiques. Cet article propose la première étude exhaustive des méthodologies d'évaluation pour ces agents de plus en plus performants. Nous analysons systématiquement les benchmarks et cadres d'évaluation selon quatre dimensions critiques : (1) les capacités fondamentales des agents, incluant la planification, l'utilisation d'outils, l'auto-réflexion et la mémoire ; (2) les benchmarks spécifiques aux applications pour les agents web, d'ingénierie logicielle, scientifiques et conversationnels ; (3) les benchmarks pour les agents généralistes ; et (4) les cadres d'évaluation des agents. Notre analyse révèle des tendances émergentes, notamment un virage vers des évaluations plus réalistes et exigeantes avec des benchmarks continuellement mis à jour. Nous identifions également des lacunes critiques que les recherches futures devront combler, en particulier dans l'évaluation de la rentabilité, de la sécurité et de la robustesse, ainsi que dans le développement de méthodes d'évaluation fines et évolutives. Cette étude cartographie le paysage en rapide évolution de l'évaluation des agents, met en lumière les tendances émergentes dans le domaine, identifie les limites actuelles et propose des orientations pour les recherches futures.
Les modèles de langage à grande échelle (LLMs) ont démontré des capacités remarquables dans des tâches complexes. Les avancées récentes dans les modèles de raisonnement à grande échelle (LRMs), tels qu'OpenAI o1 et DeepSeek-R1, ont encore amélioré les performances dans les domaines de raisonnement de type Système-2, comme les mathématiques et la programmation, en exploitant le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) pour améliorer le raisonnement en chaîne de pensée (CoT). Cependant, bien que des séquences de raisonnement CoT plus longues améliorent les performances, elles introduisent également une surcharge computationnelle significative en raison de sorties verbeuses et redondantes, un phénomène connu sous le nom de "surréflexion". Dans cet article, nous proposons la première étude structurée visant à examiner et explorer systématiquement les progrès actuels vers un raisonnement efficace dans les LLMs. En nous appuyant sur le mécanisme inhérent des LLMs, nous catégorisons les travaux existants en plusieurs directions clés : (1) le raisonnement efficace basé sur le modèle, qui consiste à optimiser des modèles de raisonnement complets en des modèles plus concis ou à entraîner directement des modèles de raisonnement efficaces ; (2) le raisonnement efficace basé sur la sortie de raisonnement, qui vise à réduire dynamiquement les étapes et la longueur du raisonnement lors de l'inférence ; (3) le raisonnement efficace basé sur les invites d'entrée, qui cherche à améliorer l'efficacité du raisonnement en fonction des propriétés des invites d'entrée, telles que la difficulté ou le contrôle de la longueur. De plus, nous introduisons l'utilisation de données efficaces pour l'entraînement des modèles de raisonnement, explorons les capacités de raisonnement des petits modèles de langage, et discutons des méthodes d'évaluation et des benchmarks.
Ce travail présente un cadre pour évaluer si les grands modèles de langage (LLMs) encodent davantage de connaissances factuelles dans leurs paramètres que ce qu'ils expriment dans leurs sorties. Bien que quelques études suggèrent cette possibilité, aucune n'a clairement défini ou démontré ce phénomène. Nous proposons d'abord une définition formelle de la connaissance, la quantifiant pour une question donnée comme la fraction de paires de réponses correctes-incorrectes où la réponse correcte est classée plus haut. Cela donne lieu à des connaissances externes et internes, selon les informations utilisées pour évaluer les candidats de réponse individuels : soit les probabilités observables au niveau des tokens du modèle, soit ses calculs intermédiaires. Une connaissance cachée apparaît lorsque la connaissance interne dépasse la connaissance externe. Nous présentons ensuite une étude de cas, appliquant ce cadre à trois LLMs populaires à poids ouverts dans un contexte de question-réponse en mode fermé. Nos résultats indiquent que : (1) Les LLMs encodent systématiquement plus de connaissances factuelles en interne que ce qu'ils expriment en externe, avec un écart moyen de 40 %. (2) Étonnamment, certaines connaissances sont si profondément cachées qu'un modèle peut parfaitement connaître une réponse en interne, tout en échouant à la générer même une fois, malgré un échantillonnage répété à grande échelle de 1 000 réponses. Cela révèle des limitations fondamentales dans les capacités de génération des LLMs, ce qui (3) impose une contrainte pratique sur l'augmentation des calculs au moment du test via l'échantillonnage répété de réponses dans un contexte de question-réponse en mode fermé : des améliorations significatives des performances restent inaccessibles car certaines réponses ne sont pratiquement jamais échantillonnées, alors que si elles l'étaient, nous serions assurés de les classer en premier.
Améliorer les capacités de raisonnement des grands modèles de langage (LLMs) repose généralement sur des ressources computationnelles massives et des jeux de données étendus, limitant ainsi leur accessibilité dans des contextes aux ressources limitées. Notre étude explore le potentiel de l'apprentissage par renforcement (RL) pour améliorer le raisonnement dans des LLMs de petite taille, en se concentrant sur un modèle de 1,5 milliard de paramètres, DeepSeek-R1-Distill-Qwen-1.5B, sous des contraintes strictes : entraînement sur 4 GPU NVIDIA A40 (48 Go de VRAM chacun) en moins de 24 heures. En adaptant l'algorithme d'optimisation de politique relative par groupe (GRPO) et en constituant un jeu de données compact et de haute qualité pour le raisonnement mathématique, nous avons mené trois expériences pour explorer le comportement et les performances du modèle. Nos résultats montrent des gains rapides en raisonnement - par exemple, la précision sur AMC23 passant de 63 % à 80 % et AIME24 atteignant 46,7 %, surpassant o1-preview - en utilisant seulement 7 000 échantillons et un coût d'entraînement de 42 $, comparé à des milliers de dollars pour les modèles de référence. Cependant, des défis tels que l'instabilité de l'optimisation et les contraintes de longueur sont apparus avec un entraînement prolongé. Ces résultats mettent en lumière l'efficacité du fine-tuning basé sur le RL pour les petits LLMs, offrant une alternative économique aux approches à grande échelle. Nous publions notre code et nos jeux de données en tant que ressources open-source, fournissant des insights sur les compromis et posant les bases pour des LLMs capables de raisonnement dans des environnements aux ressources limitées. Tout est disponible à l'adresse https://github.com/knoveleng/open-rs.
Les systèmes d'IA physique doivent percevoir, comprendre et exécuter des actions complexes dans le monde physique. Dans cet article, nous présentons les modèles Cosmos-Reason1 capables de comprendre le monde physique et de générer des décisions incarnées appropriées (par exemple, l'action suivante) en langage naturel grâce à des processus de raisonnement en chaîne de pensée étendue. Nous commençons par définir les capacités clés pour le raisonnement en IA physique, en mettant l'accent sur le bon sens physique et le raisonnement incarné. Pour représenter le bon sens physique, nous utilisons une ontologie hiérarchique qui capture les connaissances fondamentales sur l'espace, le temps et la physique. Pour le raisonnement incarné, nous nous appuyons sur une ontologie bidimensionnelle qui généralise à travers différentes incarnations physiques. Sur la base de ces capacités, nous développons deux modèles de langage multimodal de grande taille, Cosmos-Reason1-8B et Cosmos-Reason1-56B. Nous organisons les données et entraînons nos modèles en quatre étapes : pré-entraînement visuel, fine-tuning supervisé général (SFT), fine-tuning supervisé en IA physique (SFT), et apprentissage par renforcement (RL) en IA physique comme post-entraînement. Pour évaluer nos modèles, nous construisons des benchmarks complets pour le bon sens physique et le raisonnement incarné selon nos ontologies. Les résultats d'évaluation montrent que le fine-tuning supervisé en IA physique et l'apprentissage par renforcement apportent des améliorations significatives. Pour faciliter le développement de l'IA physique, nous mettrons notre code et nos modèles pré-entraînés à disposition sous la licence NVIDIA Open Model License à l'adresse https://github.com/nvidia-cosmos/cosmos-reason1.
Malgré l'enthousiasme croissant pour les systèmes multi-agents (MAS), où plusieurs agents LLM collaborent pour accomplir des tâches, leurs gains de performance sur les benchmarks populaires restent minimes par rapport aux frameworks mono-agent. Cet écart met en lumière la nécessité d'analyser les défis qui entravent l'efficacité des MAS. Dans cet article, nous présentons la première étude exhaustive des défis des MAS. Nous analysons cinq frameworks MAS populaires sur plus de 150 tâches, impliquant six annotateurs humains experts. Nous identifions 14 modes d'échec uniques et proposons une taxonomie complète applicable à divers frameworks MAS. Cette taxonomie émerge itérativement des accords entre trois annotateurs experts par étude, atteignant un score de Kappa de Cohen de 0,88. Ces modes d'échec granulaires sont organisés en trois catégories : (i) les échecs de spécification et de conception du système, (ii) le désalignement inter-agents, et (iii) la vérification et la terminaison des tâches. Pour soutenir une évaluation scalable, nous intégrons MASFT avec LLM-as-a-Judge. Nous explorons également si les échecs identifiés pourraient être facilement prévenus en proposant deux interventions : une meilleure spécification des rôles des agents et des stratégies d'orchestration améliorées. Nos résultats révèlent que les échecs identifiés nécessitent des solutions plus complexes, mettant en évidence une feuille de route claire pour les recherches futures. Nous ouvrons notre dataset et notre annotateur LLM en open-source.
La génération de formes 3D a connu un essor considérable grâce au développement de la diffusion dite "native" en 3D, en particulier via le modèle de diffusion Vecset (VDM). Bien que les avancées récentes aient montré des résultats prometteurs dans la génération de formes 3D haute résolution, le VDM rencontre encore des difficultés en matière de génération à haute vitesse. Ces défis découlent non seulement des problèmes d'accélération de l'échantillonnage par diffusion, mais aussi du décodage VAE dans le VDM, des domaines peu explorés dans les travaux précédents. Pour relever ces défis, nous présentons FlashVDM, un cadre systématique pour accélérer à la fois le VAE et le DiT dans le VDM. Pour le DiT, FlashVDM permet un échantillonnage flexible de la diffusion avec aussi peu que 5 étapes d'inférence tout en maintenant une qualité comparable, rendue possible par la stabilisation de la distillation de cohérence grâce à notre nouvelle méthode de Distillation Progressive de Flux. Pour le VAE, nous introduisons un décodeur vecset ultra-rapide équipé de la Sélection Adaptative KV, du Décodage Hiérarchique de Volume et d'une Conception de Réseau Efficace. En exploitant la localité du vecset et la sparsité de la surface de la forme dans le volume, notre décodeur réduit considérablement les FLOPs, minimisant ainsi la surcharge globale du décodage. Nous appliquons FlashVDM à Hunyuan3D-2 pour obtenir Hunyuan3D-2 Turbo. Grâce à une évaluation systématique, nous montrons que notre modèle surpasse significativement les méthodes existantes de génération rapide en 3D, atteignant des performances comparables à l'état de l'art tout en réduisant le temps d'inférence de plus de 45x pour la reconstruction et de 32x pour la génération. Le code et les modèles sont disponibles à l'adresse https://github.com/Tencent/FlashVDM.
Nous présentons SwD, un cadre de distillation multi-échelle pour les modèles de diffusion (DMs), qui exploite efficacement les idées de prédiction à l'échelle suivante pour les générateurs basés sur la diffusion à faible nombre d'étapes. Plus précisément, SwD s'inspire des récentes perspectives reliant les processus de diffusion à l'autorégression spectrale implicite. Nous supposons que les DMs peuvent initier la génération à des résolutions de données plus faibles et augmenter progressivement la résolution des échantillons à chaque étape de débruitage sans perte de performance, tout en réduisant significativement les coûts de calcul. SwD intègre naturellement cette idée dans les méthodes existantes de distillation par diffusion basées sur l'appariement de distributions. De plus, nous enrichissons la famille des approches d'appariement de distributions en introduisant une nouvelle fonction de perte par patch qui impose une similarité plus fine avec la distribution cible. Lorsqu'il est appliqué aux modèles de diffusion texte-image de pointe, SwD approche les temps d'inférence de deux étapes à pleine résolution et surpasse significativement les alternatives sous le même budget de calcul, comme en témoignent les métriques automatisées et les études de préférence humaine.
Récemment, la prise de décision basée sur l'action dans des environnements en monde ouvert a suscité une attention considérable. Les modèles de Langage Visuel Action (VLA), pré-entraînés sur des ensembles de données web à grande échelle, ont montré des résultats prometteurs dans les tâches de prise de décision. Cependant, les travaux précédents se sont principalement concentrés sur l'action post-entraînement, négligeant souvent les améliorations apportées au modèle de base lui-même. En réponse, nous introduisons une nouvelle approche, Act from Visual Language Post-Training, qui affine les modèles de Langage Visuel (VLMs) grâce à des guidages visuels et linguistiques de manière auto-supervisée. Cette amélioration renforce les capacités des modèles en matière de connaissances du monde, de reconnaissance visuelle et de localisation spatiale dans des environnements en monde ouvert. En suivant les paradigmes de post-entraînement mentionnés ci-dessus, nous obtenons les premiers modèles VLA dans Minecraft capables de suivre des instructions humaines sur plus de 1 000 tâches atomiques différentes, incluant la fabrication, la fusion, la cuisine, l'extraction minière et le combat. Nos expériences démontrent que le post-entraînement sur des tâches non-trajectoires conduit à une amélioration significative de 40 % par rapport au meilleur agent de référence sur un ensemble diversifié de tâches atomiques. De plus, nous montrons que notre approche surpasse les politiques traditionnelles basées sur l'apprentissage par imitation dans Minecraft, atteignant des performances de pointe. Nous avons ouvert le code, les modèles et les ensembles de données pour favoriser des recherches ultérieures. La page du projet est disponible à l'adresse suivante : https://craftjarvis.github.io/JarvisVLA.
Atteindre une génération d'images flexible et de haute fidélité tout en préservant l'identité reste un défi de taille, en particulier avec des modèles avancés de Transformers de Diffusion (DiTs) comme FLUX. Nous présentons InfiniteYou (InfU), l'un des premiers cadres robustes exploitant les DiTs pour cette tâche. InfU résout des problèmes majeurs des méthodes existantes, tels qu'une similarité d'identité insuffisante, un mauvais alignement texte-image, ainsi qu'une qualité et une esthétique de génération médiocres. Au cœur d'InfU se trouve InfuseNet, un composant qui injecte des caractéristiques d'identité dans le modèle de base DiT via des connexions résiduelles, améliorant ainsi la similarité d'identité tout en préservant les capacités de génération. Une stratégie d'entraînement en plusieurs étapes, incluant un pré-entraînement et un ajustement fin supervisé (SFT) avec des données synthétiques de type single-person-multiple-sample (SPMS), améliore davantage l'alignement texte-image, optimise la qualité des images et atténue le copier-coller de visages. Des expériences approfondies démontrent qu'InfU atteint des performances de pointe, surpassant les bases de référence existantes. De plus, la conception plug-and-play d'InfU garantit une compatibilité avec diverses méthodes existantes, offrant ainsi une contribution précieuse à la communauté élargie.
La reconstruction animable d'humains en 3D à partir d'une seule image est un problème complexe en raison de l'ambiguïté dans la séparation de la géométrie, de l'apparence et de la déformation. Les avancées récentes en reconstruction 3D humaine se concentrent principalement sur la modélisation statique, et la dépendance à l'utilisation de scans 3D synthétiques pour l'entraînement limite leur capacité de généralisation. À l'inverse, les méthodes basées sur l'optimisation à partir de vidéos atteignent une fidélité plus élevée, mais nécessitent des conditions de capture contrôlées et des processus de raffinement intensifs en calcul. Motivés par l'émergence de modèles de reconstruction à grande échelle pour une reconstruction statique efficace, nous proposons LHM (Large Animatable Human Reconstruction Model) pour inférer des avatars haute fidélité représentés par un splatting de Gaussiennes 3D en une passe directe. Notre modèle exploite une architecture de transformateur multimodal pour encoder efficacement les caractéristiques positionnelles du corps humain et les caractéristiques de l'image grâce à un mécanisme d'attention, permettant une préservation détaillée de la géométrie et de la texture des vêtements. Pour renforcer la préservation de l'identité faciale et la récupération des détails fins, nous proposons un schéma d'encodage pyramidal des caractéristiques de la tête pour agréger les caractéristiques multi-échelles des régions de la tête. Des expériences approfondies démontrent que notre LHM génère des humains animables plausibles en quelques secondes sans post-traitement pour le visage et les mains, surpassant les méthodes existantes en termes de précision de reconstruction et de capacité de généralisation.
Les modèles de langage à grande échelle (LLM) dotés de capacités de raisonnement évoluent rapidement dans divers domaines. Cependant, leurs aptitudes à gérer des tâches financières complexes nécessitent encore une exploration approfondie. Dans cet article, nous présentons Fin-R1, un modèle de langage à grande échelle spécialement conçu pour le secteur financier. Fin-R1 est construit selon une architecture en deux étapes, exploitant un ensemble de données de raisonnement financier distillé et traité à partir de DeepSeek-R1. Grâce à un réglage fin supervisé (SFT) et à un apprentissage par renforcement (RL), il démontre des performances proches de celles de DeepSeek-R1 avec une taille de paramètres de 7 milliards sur une gamme de tâches de raisonnement financier. Il atteint l'état de l'art (SOTA) dans les tâches FinQA et ConvFinQA parmi les LLM évalués, surpassant également des modèles plus volumineux dans d'autres tâches. Fin-R1 montre de solides capacités de raisonnement et de prise de décision, offrant des solutions à divers problèmes rencontrés dans le domaine financier. Notre code est disponible à l'adresse suivante : https://github.com/SUFE-AIFLM-Lab/Fin-R1.
Les modèles de diffusion ont démontré un succès remarquable dans diverses tâches de génération d'images, mais leurs performances sont souvent limitées par le traitement uniforme des entrées dans des conditions et niveaux de bruit variables. Pour remédier à cette limitation, nous proposons une approche novatrice qui exploite l'hétérogénéité inhérente au processus de diffusion. Notre méthode, DiffMoE, introduit un pool global de tokens au niveau du lot, permettant aux experts d'accéder aux distributions globales de tokens pendant l'entraînement, favorisant ainsi un comportement spécialisé des experts. Pour libérer tout le potentiel du processus de diffusion, DiffMoE intègre un prédicteur de capacité qui alloue dynamiquement les ressources de calcul en fonction des niveaux de bruit et de la complexité des échantillons. À travers une évaluation approfondie, DiffMoE atteint des performances de pointe parmi les modèles de diffusion sur le benchmark ImageNet, surpassant largement à la fois les architectures denses avec 3x paramètres activés et les approches MoE existantes tout en maintenant 1x paramètres activés. L'efficacité de notre approche s'étend au-delà de la génération conditionnelle par classe à des tâches plus complexes telles que la génération texte-à-image, démontrant son applicabilité étendue à différentes applications des modèles de diffusion. Page du projet : https://shiml20.github.io/DiffMoE/
Nous abordons le défi de générer des mondes en 3D à partir de descriptions textuelles. Nous proposons SynCity, une approche sans entraînement ni optimisation, qui exploite la précision géométrique des modèles génératifs 3D pré-entraînés et la polyvalence artistique des générateurs d'images 2D pour créer des espaces 3D étendus et de haute qualité. Alors que la plupart des modèles génératifs 3D sont centrés sur des objets et ne peuvent pas générer des mondes à grande échelle, nous montrons comment les générateurs 3D et 2D peuvent être combinés pour produire des scènes en expansion continue. Grâce à une approche basée sur des tuiles, nous permettons un contrôle précis de la disposition et de l'apparence des scènes. Le monde est généré tuile par tuile, chaque nouvelle tuile étant générée dans son contexte mondial puis fusionnée avec la scène. SynCity produit des scènes immersives et captivantes, riches en détails et en diversité.
Les modèles de langage de grande taille pour vidéo (VideoLLMs) ont démontré leur capacité à traiter des entrées vidéo plus longues et à permettre un raisonnement et une analyse complexes. Cependant, en raison des milliers de tokens visuels provenant des images vidéo, le cache clé-valeur (KV) peut considérablement augmenter les besoins en mémoire, devenant un goulot d'étranglement pour la vitesse d'inférence et l'utilisation de la mémoire. La quantification du cache KV est une approche largement utilisée pour résoudre ce problème. Dans cet article, nous constatons que la quantification à 2 bits du cache KV des VideoLLMs affecte à peine les performances du modèle, tandis que la limite de la quantification du cache KV à des bits encore plus bas n'a pas été explorée. Pour combler cette lacune, nous introduisons VidKV, une méthode de quantification du cache KV plug-and-play pour compresser le cache KV à moins de 2 bits. Plus précisément, (1) pour la clé, nous proposons une stratégie de quantification en précision mixte dans la dimension des canaux, où nous effectuons une quantification à 2 bits pour les canaux anormaux et une quantification à 1 bit combinée à la FFT pour les canaux normaux ; (2) pour la valeur, nous mettons en œuvre une quantification à 1,58 bits tout en filtrant sélectivement les tokens visuels sémantiquement saillants pour une préservation ciblée, afin d'obtenir un meilleur compromis entre précision et performances du modèle. Il est important de noter que nos résultats suggèrent que le cache de valeur des VideoLLMs devrait être quantifié de manière par canal plutôt que par token, comme proposé par les travaux précédents sur la quantification du cache KV pour les LLMs. Empiriquement, des résultats approfondis avec LLaVA-OV-7B et Qwen2.5-VL-7B sur six benchmarks montrent que VidKV compresse efficacement le cache KV à une précision de 1,5 bit et 1,58 bit avec presque aucune baisse de performance par rapport aux versions FP16.
Les modèles de langage de grande taille (LLMs) ont montré des progrès impressionnants en matière de raisonnement mathématique. Bien que l'augmentation de données soit prometteuse pour améliorer la capacité à résoudre des problèmes mathématiques, les approches actuelles se limitent principalement à des modifications au niveau des instances—telles que la reformulation ou la génération de variations syntaxiques—qui ne parviennent pas à capturer et à exploiter les structures relationnelles intrinsèques inhérentes aux connaissances mathématiques. Inspirés par les processus d'apprentissage humains, où la compétence mathématique se développe grâce à une exposition systématique à des concepts interconnectés, nous introduisons MathFusion, un cadre novateur qui améliore le raisonnement mathématique grâce à la synthèse d'instructions inter-problèmes. MathFusion met en œuvre cela à travers trois stratégies de fusion : (1) la fusion séquentielle, qui enchaîne des problèmes liés pour modéliser les dépendances de solutions ; (2) la fusion parallèle, qui combine des problèmes analogues pour renforcer la compréhension conceptuelle ; et (3) la fusion conditionnelle, qui crée des problèmes sélectifs conscients du contexte pour améliorer la flexibilité du raisonnement. En appliquant ces stratégies, nous générons un nouveau jeu de données, MathFusionQA, suivi d'un ajustement fin des modèles (DeepSeekMath-7B, Mistral-7B, Llama3-8B) sur celui-ci. Les résultats expérimentaux démontrent que MathFusion obtient des améliorations substantielles en matière de raisonnement mathématique tout en maintenant une haute efficacité des données, augmentant la performance de 18,0 points en précision à travers divers benchmarks tout en nécessitant seulement 45K instructions synthétiques supplémentaires, représentant une amélioration significative par rapport aux approches traditionnelles à instruction unique. Nos jeux de données, modèles et code sont disponibles publiquement à l'adresse https://github.com/QizhiPei/mathfusion.
Cet article propose un paradigme fondamentalement nouveau pour la génération d'images à travers la tokenisation basée sur des ensembles et la modélisation de distributions. Contrairement aux méthodes conventionnelles qui sérialisent les images en codes latents à position fixe avec un taux de compression uniforme, nous introduisons une représentation par ensemble de tokens non ordonnés pour allouer dynamiquement la capacité de codage en fonction de la complexité sémantique régionale. Ce TokenSet améliore l'agrégation du contexte global et renforce la robustesse face aux perturbations locales. Pour relever le défi crucial de la modélisation des ensembles discrets, nous concevons un mécanisme de double transformation qui convertit bijectivement les ensembles en séquences d'entiers de longueur fixe avec des contraintes de sommation. De plus, nous proposons la Diffusion Discrète à Somme Fixe—le premier cadre capable de gérer simultanément des valeurs discrètes, une longueur de séquence fixe et l'invariance de sommation—permettant une modélisation efficace des distributions d'ensembles. Les expériences démontrent la supériorité de notre méthode en termes de représentation sémantique et de qualité de génération. Nos innovations, englobant des stratégies de représentation et de modélisation novatrices, font progresser la génération visuelle au-delà des paradigmes traditionnels de tokens séquentiels. Notre code et nos modèles sont disponibles publiquement à l'adresse https://github.com/Gengzigang/TokenSet.
Nous présentons 3D Spatial MultiModal Memory (M3), un système de mémoire multimodale conçu pour retenir des informations sur des scènes statiques de taille moyenne à travers des sources vidéo pour la perception visuelle. En intégrant les techniques de 3D Gaussian Splatting avec des modèles de base, M3 construit une mémoire multimodale capable de restituer des représentations de caractéristiques à différentes granularités, englobant un large éventail de connaissances. Dans notre exploration, nous identifions deux défis majeurs dans les travaux précédents sur le splatting de caractéristiques : (1) les contraintes computationnelles liées au stockage de caractéristiques de haute dimension pour chaque primitive gaussienne, et (2) le désalignement ou la perte d'information entre les caractéristiques distillées et celles des modèles de base. Pour relever ces défis, nous proposons M3 avec des composants clés que sont les principaux éléments de scène et l'attention de mémoire gaussienne, permettant un entraînement et une inférence efficaces. Pour valider M3, nous menons des évaluations quantitatives complètes de la similarité des caractéristiques et des tâches en aval, ainsi que des visualisations qualitatives pour mettre en évidence la trace pixel de l'attention de mémoire gaussienne. Notre approche englobe une diversité de modèles de base, incluant des modèles vision-langage (VLMs), des modèles de perception, et des grands modèles multimodaux et de langage (LMMs/LLMs). De plus, pour démontrer l'applicabilité dans le monde réel, nous déployons le champ de caractéristiques de M3 dans des scènes intérieures sur un robot quadrupède. Il est à noter que nous affirmons que M3 est le premier travail à aborder les défis fondamentaux de compression dans la distillation de caractéristiques 3D.
L'édition de connaissances (Knowledge Editing, KE) permet de modifier les informations obsolètes ou incorrectes dans les grands modèles de langage (LLMs). Bien que les méthodes existantes de KE puissent mettre à jour des faits isolés, elles peinent à généraliser ces mises à jour pour des tâches de raisonnement multi-étapes qui dépendent des connaissances modifiées. À travers une analyse des circuits de raisonnement — les voies neuronales que les LLMs utilisent pour l'inférence basée sur les connaissances —, nous observons que les approches actuelles de KE localisées par couches, telles que MEMIT et WISE, qui ne modifient qu'une seule ou quelques couches du modèle, ont du mal à intégrer efficacement les informations mises à jour dans ces circuits de raisonnement. Pour pallier cette limitation, nous proposons CaKE (Circuit-aware Knowledge Editing), une méthode novatrice qui permet une intégration plus efficace des connaissances mises à jour dans les LLMs. CaKE s'appuie sur des données stratégiquement sélectionnées, guidées par notre analyse basée sur les circuits, qui obligent le modèle à utiliser les connaissances modifiées, stimulant ainsi le développement de circuits de raisonnement appropriés pour les nouvelles connaissances intégrées. Les résultats expérimentaux montrent que CaKE permet une utilisation plus précise et cohérente des connaissances mises à jour dans des tâches de raisonnement connexes, conduisant à une amélioration moyenne de 20 % de la précision du raisonnement multi-étapes sur le jeu de données MQuAKE par rapport aux méthodes de KE existantes. Nous mettons à disposition le code et les données sur https://github.com/zjunlp/CaKE.
Cet article aborde le défi de la génération de mouvements en flux continu conditionnée par du texte, qui nécessite de prédire la posture humaine à l'étape suivante en se basant sur des mouvements historiques de longueur variable et des textes entrants. Les méthodes existantes peinent à réaliser une génération de mouvements en flux continu : par exemple, les modèles de diffusion sont limités par des longueurs de mouvements prédéfinies, tandis que les méthodes basées sur GPT souffrent d'un retard de réponse et d'une accumulation d'erreurs dues à une tokenisation discrète non causale. Pour résoudre ces problèmes, nous proposons MotionStreamer, un nouveau cadre qui intègre un espace latent causal continu dans un modèle autoregressif probabiliste. Les latents continus atténuent la perte d'information causée par la discrétisation et réduisent efficacement l'accumulation d'erreurs lors de la génération autoregressive à long terme. De plus, en établissant des dépendances causales temporelles entre les latents de mouvement actuels et historiques, notre modèle exploite pleinement les informations disponibles pour réaliser un décodage précis des mouvements en temps réel. Les expériences montrent que notre méthode surpasse les approches existantes tout en offrant davantage d'applications, notamment la génération multi-tours, la génération à long terme et la composition dynamique de mouvements. Page du projet : https://zju3dv.github.io/MotionStreamer/
Les modèles Transformer à contexte long (LCTMs) sont essentiels pour les applications réelles, mais ils souffrent de coûts de calcul élevés en raison de la complexité quadratique de l'attention. L'attention parcimonieuse par blocs atténue ce problème en concentrant les calculs sur les régions critiques, mais les méthodes existantes peinent à équilibrer précision et efficacité en raison des mesures coûteuses de l'importance des blocs. Dans cet article, nous présentons XAttention, un framework plug-and-play qui accélère considérablement l'inférence à contexte long dans les modèles Transformer grâce à une attention parcimonieuse. L'innovation clé de XAttention réside dans l'idée que la somme des valeurs antidiagonales (c'est-à-dire du coin inférieur gauche au coin supérieur droit) dans la matrice d'attention constitue un puissant indicateur de l'importance des blocs. Cela permet une identification et une élimination précises des blocs non essentiels, entraînant une forte parcimonie et une accélération significative de l'inférence. À travers des évaluations approfondies sur des benchmarks exigeants à contexte long — incluant RULER et LongBench pour le langage, VideoMME pour la compréhension vidéo, et VBench pour la génération vidéo — XAttention atteint une précision comparable à celle de l'attention complète tout en offrant des gains de calcul substantiels. Nous démontrons une accélération allant jusqu'à 13,5 fois dans le calcul de l'attention. Ces résultats soulignent la capacité de XAttention à libérer le potentiel pratique de l'attention parcimonieuse par blocs, ouvrant la voie à un déploiement scalable et efficace des LCTMs dans des applications réelles. Le code est disponible à l'adresse https://github.com/mit-han-lab/x-attention.
Le 4D Gaussian Splatting (4DGS) a récemment suscité un intérêt considérable en tant que méthode pour la reconstruction de scènes dynamiques. Bien qu'il offre une qualité supérieure, le 4DGS nécessite généralement un stockage important et souffre d'une vitesse de rendu lente. Dans ce travail, nous explorons ces problèmes et identifions deux sources clés de redondance temporelle. (Q1) Gaussiennes à courte durée de vie : le 4DGS utilise une grande proportion de Gaussiennes ayant une durée temporelle courte pour représenter la dynamique des scènes, ce qui entraîne un nombre excessif de Gaussiennes. (Q2) Gaussiennes inactives : lors du rendu, seule une petite sous-ensemble de Gaussiennes contribue à chaque image. Malgré cela, toutes les Gaussiennes sont traitées pendant la rasterisation, ce qui génère un surcoût de calcul redondant. Pour résoudre ces redondances, nous présentons le 4DGS-1K, qui fonctionne à plus de 1000 FPS sur les GPU modernes. Pour Q1, nous introduisons le Spatial-Temporal Variation Score, un nouveau critère d'élagage qui supprime efficacement les Gaussiennes à courte durée de vie tout en encourageant le 4DGS à capturer la dynamique des scènes à l'aide de Gaussiennes ayant une durée temporelle plus longue. Pour Q2, nous stockons un masque pour les Gaussiennes actives sur plusieurs images consécutives, réduisant ainsi significativement les calculs redondants lors du rendu. Par rapport au 4DGS classique, notre méthode permet une réduction de 41 fois du stockage et une accélération de 9 fois de la vitesse de rasterisation sur des scènes dynamiques complexes, tout en maintenant une qualité visuelle comparable. Consultez notre page de projet à l'adresse https://4DGS-1K.github.io.
Les modèles de diffusion sont devenus un cadre de référence dominant dans la génération visuelle. S'appuyant sur ce succès, l'intégration des méthodes de Mélange d'Experts (MoE) a montré des perspectives prometteuses pour améliorer l'évolutivité et les performances des modèles. Dans cet article, nous présentons Race-DiT, un nouveau modèle MoE pour les transformeurs de diffusion doté d'une stratégie de routage flexible, Expert Race. En permettant aux tokens et aux experts de concourir ensemble et de sélectionner les meilleurs candidats, le modèle apprend à attribuer dynamiquement les experts aux tokens critiques. De plus, nous proposons une régularisation par couche pour résoudre les défis liés à l'apprentissage des couches superficielles, ainsi qu'une perte de similarité du routeur pour éviter l'effondrement des modes, garantissant ainsi une meilleure utilisation des experts. Des expériences approfondies sur ImageNet valident l'efficacité de notre approche, démontrant des gains de performance significatifs tout en promettant des propriétés d'évolutivité.
Les modèles de diffusion texte-image ont réalisé des progrès remarquables ces dernières années. Cependant, l'entraînement de modèles pour la génération d'images haute résolution reste un défi, en particulier lorsque les données d'entraînement et les ressources computationnelles sont limitées. Dans cet article, nous explorons ce problème pratique sous deux perspectives clés : l'efficacité des données et des paramètres, et proposons un ensemble de directives clés pour l'adaptation à ultra-résolution, appelé URAE. Pour l'efficacité des données, nous démontrons théoriquement et empiriquement que les données synthétiques générées par certains modèles enseignants peuvent significativement accélérer la convergence de l'entraînement. Pour l'efficacité des paramètres, nous constatons que l'ajustement de composants mineurs des matrices de poids surpasse les adaptateurs à faible rang largement utilisés lorsque les données synthétiques ne sont pas disponibles, offrant des gains de performance substantiels tout en maintenant l'efficacité. De plus, pour les modèles exploitant la distillation guidée, comme FLUX, nous montrons que la désactivation du guidage sans classificateur, c'est-à-dire la fixation de l'échelle de guidage à 1 pendant l'adaptation, est cruciale pour une performance satisfaisante. Des expériences approfondies valident qu'URAE atteint des performances comparables en génération 2K aux modèles propriétaires de pointe comme FLUX1.1 [Pro] Ultra avec seulement 3 000 échantillons et 2 000 itérations, tout en établissant de nouveaux repères pour la génération en résolution 4K. Les codes sont disponibles {ici} : https://github.com/Huage001/URAE.
Dans cet article, nous nous interrogeons sur l'existence d'un modèle auto-supervisé fiable pour les nuages de points, capable d'être utilisé pour diverses tâches 3D via un simple sondage linéaire, même avec des données limitées et un calcul minimal. Nous constatons que les approches existantes d'apprentissage auto-supervisé en 3D ne répondent pas aux attentes en termes de qualité de représentation lorsqu'elles sont évaluées par sondage linéaire. Nous émettons l'hypothèse que cela est dû à ce que nous appelons le "raccourci géométrique", qui entraîne un effondrement des représentations vers des caractéristiques spatiales de bas niveau. Ce défi est unique à la 3D et découle de la nature parcellaire des données de nuages de points. Nous y remédions grâce à deux stratégies clés : l'obscurcissement des informations spatiales et le renforcement de la dépendance aux caractéristiques d'entrée, aboutissant finalement à la composition d'une Sonata de 140 000 nuages de points par auto-distillation. Sonata est simple et intuitif, mais ses représentations apprises sont robustes et fiables : les visualisations en zero-shot démontrent un regroupement sémantique, ainsi qu'un raisonnement spatial solide à travers les relations de plus proches voisins. Sonata montre une efficacité exceptionnelle en termes de paramètres et de données, triplant la précision du sondage linéaire (de 21,8 % à 72,5 %) sur ScanNet et doublant presque les performances avec seulement 1 % des données par rapport aux approches précédentes. Un réglage fin complet fait progresser l'état de l'art dans les tâches de perception 3D en intérieur et en extérieur.
Les récentes avancées dans la génération vidéo ont conduit à des améliorations remarquables en termes de qualité visuelle et de cohérence temporelle. Sur cette base, la génération vidéo contrôlable par trajectoire a émergé, permettant un contrôle précis des mouvements d'objets grâce à des chemins spatiaux explicitement définis. Cependant, les méthodes existantes peinent à gérer les mouvements complexes d'objets et le contrôle de mouvements multi-objets, ce qui entraîne une adhérence imprécise aux trajectoires, une faible cohérence des objets et une qualité visuelle compromise. De plus, ces méthodes ne prennent en charge le contrôle de trajectoire que dans un seul format, limitant ainsi leur applicabilité dans divers scénarios. Par ailleurs, il n'existe aucun ensemble de données ou benchmark public spécifiquement conçu pour la génération vidéo contrôlable par trajectoire, ce qui entrave l'entraînement robuste et l'évaluation systématique. Pour relever ces défis, nous présentons MagicMotion, un nouveau cadre de génération d'images en vidéo qui permet un contrôle de trajectoire à travers trois niveaux de conditions, du dense au sparse : masques, boîtes englobantes et boîtes sparse. Étant donné une image d'entrée et des trajectoires, MagicMotion anime de manière fluide les objets le long des trajectoires définies tout en maintenant la cohérence des objets et la qualité visuelle. En outre, nous présentons MagicData, un ensemble de données vidéo à grande échelle contrôlé par trajectoire, ainsi qu'un pipeline automatisé pour l'annotation et le filtrage. Nous introduisons également MagicBench, un benchmark complet qui évalue à la fois la qualité vidéo et la précision du contrôle de trajectoire pour différents nombres d'objets. Des expériences approfondies démontrent que MagicMotion surpasse les méthodes précédentes sur diverses métriques. Notre page de projet est accessible publiquement à l'adresse https://quanhaol.github.io/magicmotion-site.
La génération d'avatars de tête animables nécessite généralement des données importantes pour l'entraînement. Pour réduire ces besoins en données, une solution naturelle consiste à exploiter les méthodes existantes de génération d'avatars statiques sans données, telles que les modèles de diffusion pré-entraînés avec échantillonnage par distillation de score (SDS), qui alignent les avatars avec des sorties pseudo ground-truth issues du modèle de diffusion. Cependant, la distillation directe d'avatars 4D à partir de la diffusion vidéo conduit souvent à des résultats trop lissés en raison d'incohérences spatiales et temporelles dans la vidéo générée. Pour résoudre ce problème, nous proposons Zero-1-to-A, une méthode robuste qui synthétise un ensemble de données de cohérence spatiale et temporelle pour la reconstruction d'avatars 4D en utilisant le modèle de diffusion vidéo. Plus précisément, Zero-1-to-A construit itérativement des ensembles de données vidéo et optimise les avatars animables de manière progressive, garantissant que la qualité des avatars augmente de manière fluide et cohérente tout au long du processus d'apprentissage. Cet apprentissage progressif comprend deux étapes : (1) l'apprentissage de la cohérence spatiale, qui fixe les expressions et apprend à partir de vues de face à profil, et (2) l'apprentissage de la cohérence temporelle, qui fixe les vues et apprend à partir d'expressions détendues à exagérées, générant ainsi des avatars 4D de manière simple à complexe. Des expériences approfondies démontrent que Zero-1-to-A améliore la fidélité, la qualité de l'animation et la vitesse de rendu par rapport aux méthodes existantes basées sur la diffusion, offrant une solution pour la création d'avatars réalistes. Le code est disponible publiquement à l'adresse : https://github.com/ZhenglinZhou/Zero-1-to-A.
Dans cet article, nous explorons la tâche de génération de scènes extérieures étendues, allant des châteaux aux gratte-ciels. Contrairement à la génération de scènes intérieures, qui a été l'objet principal des travaux antérieurs, la génération de scènes extérieures présente des défis uniques, notamment des variations importantes dans les hauteurs des scènes et la nécessité d'une méthode capable de produire rapidement de vastes paysages. Pour répondre à cela, nous proposons une approche efficace qui encode des segments de scènes sous forme d'ensembles de vecteurs uniformes, offrant une meilleure compression et performance que les latents structurés spatialement utilisés dans les méthodes précédentes. De plus, nous entraînons un modèle explicite d'extension pour une génération illimitée, ce qui améliore la cohérence par rapport aux schémas de rééchantillonnage basés sur l'inpainting tout en accélérant la génération en éliminant les étapes de diffusion supplémentaires. Pour faciliter cette tâche, nous avons constitué NuiScene43, un ensemble de scènes petit mais de haute qualité, prétraité pour un entraînement conjoint. Notamment, lorsqu'il est entraîné sur des scènes de styles variés, notre modèle peut fusionner différents environnements, tels que des maisons rurales et des gratte-ciels urbains, au sein d'une même scène, mettant en évidence le potentiel de notre processus de curation pour exploiter des scènes hétérogènes dans un entraînement conjoint.
La classification est une tâche fondamentale en apprentissage automatique. Des recherches récentes ont montré que bien que les modèles de langage multimodaux de grande taille (MLLMs) soient initialement médiocres en classification d'images, leur fine-tuning avec une quantité adéquate de données peut considérablement améliorer leurs performances, les rendant comparables aux modèles de classification de pointe (SOTA). Cependant, l'acquisition de données annotées à grande échelle est coûteuse. Dans cet article, nous explorons le fine-tuning de classification MLLM en contexte few-shot. Nous avons constaté que le fine-tuning supervisé (SFT) peut entraîner des problèmes de sur-apprentissage sévères et même dégrader les performances par rapport à l'approche zero-shot. Pour relever ce défi, inspirés par les récents succès en apprentissage par renforcement basé sur des règles, nous proposons CLS-RL, qui utilise des signaux vérifiables comme récompense pour fine-tuner les MLLMs. Nous avons découvert que CLS-RL surpasse SFT sur la plupart des jeux de données et présente une précision moyenne bien plus élevée dans les contextes d'apprentissage base-to-new et few-shot. De plus, nous avons observé un phénomène de "free-lunch" pour CLS-RL ; lorsque les modèles sont fine-tunés sur un jeu de données particulier, leurs performances sur d'autres jeux de données distincts peuvent également s'améliorer par rapport aux modèles zero-shot, même si ces jeux de données diffèrent en termes de distribution et de noms de classes. Cela suggère que les méthodes basées sur le renforcement enseignent efficacement les fondamentaux de la classification aux modèles. Enfin, inspirés par les travaux récents sur le processus de réflexion au moment de l'inférence, nous réexaminons le "processus de réflexion" pendant le fine-tuning, un aspect critique des méthodes basées sur le renforcement, dans le contexte de la classification visuelle. Nous nous interrogeons sur la nécessité d'un processus de réflexion étendu pendant le fine-tuning pour de telles tâches, proposant que cela pourrait en fait nuire aux performances. Sur cette base, nous introduisons la méthode No-Thinking-CLS-RL, qui minimise les processus de réflexion pendant l'entraînement en définissant une récompense basée sur l'exactitude égale. Nos résultats indiquent qu'avec un temps de fine-tuning bien moindre, la méthode No-Thinking-CLS-RL atteint des performances supérieures en domaine et des capacités de généralisation par rapport à CLS-RL.
Nous présentons BigO(Bench), un nouveau benchmark de codage conçu pour évaluer les capacités des modèles de langage génératifs à comprendre et à générer du code avec des complexités temporelles et spatiales spécifiées. Ce benchmark comble une lacune dans les évaluations actuelles qui négligent souvent la capacité des modèles à comprendre et à produire du code contraint par des complexités computationnelles. BigO(Bench) inclut des outils pour déduire la complexité algorithmique de toute fonction Python à partir de mesures de profilage, y compris des solutions générées par des humains ou des LLM. BigO(Bench) comprend également un ensemble de 3 105 problèmes de codage et 1 190 250 solutions issues de concours de programmation, annotées avec des étiquettes de complexité temporelle et spatiale inférées (synthétiques) selon le cadre de complexité, ainsi que des valeurs correspondantes de temps d'exécution et d'empreinte mémoire pour un large ensemble de tailles d'entrée. Nous présentons les résultats de l'évaluation de plusieurs modèles de langage de pointe sur ce benchmark, mettant en évidence leurs forces et leurs faiblesses dans la gestion des exigences de complexité. En particulier, les modèles de raisonnement dans l'espace des jetons sont inégalés en génération de code mais pas en compréhension de la complexité, suggérant qu'ils pourraient ne pas bien généraliser à des tâches pour lesquelles aucune récompense n'a été donnée pendant l'entraînement.
Nous présentons PORTAL, un nouveau cadre de développement pour des agents d'intelligence artificielle capables de jouer à des milliers de jeux vidéo en 3D grâce à la génération de politiques guidée par le langage. En transformant les problèmes de prise de décision en tâches de modélisation du langage, notre approche exploite les grands modèles de langage (LLMs) pour générer des arbres de comportement représentés dans un langage spécifique au domaine (DSL). Cette méthode élimine la charge computationnelle associée aux approches traditionnelles d'apprentissage par renforcement tout en préservant la profondeur stratégique et l'adaptabilité rapide. Notre cadre introduit une structure de politique hybride qui combine des nœuds basés sur des règles avec des composants de réseaux neuronaux, permettant à la fois un raisonnement stratégique de haut niveau et un contrôle précis de bas niveau. Un mécanisme de double rétroaction intégrant des métriques quantitatives du jeu et une analyse par modèle vision-langage facilite l'amélioration itérative des politiques aux niveaux tactique et stratégique. Les politiques résultantes sont instantanément déployables, interprétables par l'homme et capables de généraliser à travers divers environnements de jeu. Les résultats expérimentaux démontrent l'efficacité de PORTAL sur des milliers de jeux de tir à la première personne (FPS), montrant des améliorations significatives en termes d'efficacité de développement, de généralisation des politiques et de diversité des comportements par rapport aux approches traditionnelles. PORTAL représente une avancée majeure dans le développement de l'IA pour les jeux, offrant une solution pratique pour créer des agents sophistiqués capables d'opérer à travers des milliers de jeux vidéo commerciaux avec un minimum de surcharge de développement. Les résultats expérimentaux sur les jeux vidéo en 3D sont mieux visualisés sur https://zhongwen.one/projects/portal.
Les modèles autorégressifs ont montré un succès remarquable dans la génération d'images en adaptant les techniques de prédiction séquentielle issues de la modélisation du langage. Cependant, l'application de ces approches aux images nécessite de discrétiser les données de pixels continues via des méthodes de quantification vectorielle comme le VQ-VAE. Pour atténuer les erreurs de quantification présentes dans le VQ-VAE, les travaux récents tendent à utiliser des codebooks plus volumineux. Cependant, cela augmente proportionnellement la taille du vocabulaire, compliquant ainsi la tâche de modélisation autorégressive. Cet article vise à trouver un moyen de bénéficier des avantages des grands codebooks sans rendre la modélisation autorégressive plus difficile. Grâce à une investigation empirique, nous découvrons que les tokens avec des représentations de mots de code similaires produisent des effets similaires sur l'image générée finale, révélant une redondance significative dans les grands codebooks. Sur la base de cette observation, nous proposons de prédire les tokens de manière grossière à fine (CTF), réalisée en attribuant la même étiquette grossière à des tokens similaires. Notre cadre se compose de deux étapes : (1) un modèle autorégressif qui prédit séquentiellement les étiquettes grossières pour chaque token dans la séquence, et (2) un modèle auxiliaire qui prédit simultanément les étiquettes fines pour tous les tokens conditionnées par leurs étiquettes grossières. Les expériences sur ImageNet démontrent la performance supérieure de notre méthode, avec une amélioration moyenne de 59 points dans le score Inception par rapport aux méthodes de référence. Notamment, malgré l'ajout d'une étape d'inférence, notre approche permet des vitesses d'échantillonnage plus rapides.
La nature complexe de la segmentation d'images médicales nécessite des modèles spécifiquement conçus pour capturer des caractéristiques détaillées et propres au domaine. Les grands modèles de base offrent une flexibilité considérable, mais le coût de leur ajustement fin reste un obstacle majeur. Les méthodes d'ajustement fin paramétriquement efficaces (PEFT), telles que l'adaptation de bas rang (LoRA), mettent à jour efficacement les poids du modèle avec des matrices de bas rang, mais peuvent souffrir de sous-ajustement lorsque le rang choisi est insuffisant pour capturer les nuances spécifiques au domaine. À l'inverse, les méthodes basées sur la décomposition en valeurs singulières (SVD) de rang complet fournissent des mises à jour exhaustives en modifiant toutes les valeurs singulières, mais manquent souvent de flexibilité et présentent des performances variables selon les ensembles de données. Nous proposons SALT (Adaptation des Valeurs Singulières avec Transformation de Bas Rang), une méthode qui adapte sélectivement les valeurs singulières les plus influentes à l'aide de paramètres d'échelle et de décalage entraînables, tout en complétant cela par une mise à jour de bas rang pour le sous-espace restant. Cette approche hybride combine les avantages de LoRA et de SVD, permettant une adaptation efficace sans augmenter la taille ou la profondeur du modèle. Évalué sur 5 ensembles de données médicales complexes, allant de 20 à 1000 échantillons, SALT surpasse les méthodes PEFT de pointe (LoRA et SVD) de 2 % à 5 % en termes de score Dice avec seulement 3,9 % de paramètres entraînables, démontrant une adaptation robuste même dans des contextes à ressources limitées. Le code de SALT est disponible à l'adresse suivante : https://github.com/BioMedIA-MBZUAI/SALT.
Les grands modèles vision-langage (LVLMs) ont démontré des performances prometteuses dans les tâches de compréhension et de raisonnement vision-langage. Cependant, leurs comportements de compréhension visuelle restent peu explorés. Une question fondamentale se pose : dans quelle mesure les LVLMs s'appuient-ils sur l'entrée visuelle, et quelles régions de l'image contribuent à leurs réponses ? Il est non trivial d'interpréter la génération libre des LVLMs en raison de leur architecture visuelle complexe (par exemple, plusieurs encodeurs et multi-résolution) et de leurs sorties de longueur variable. Dans cet article, nous étendons les méthodes existantes de visualisation par carte de chaleur (par exemple, iGOS++) pour prendre en charge les LVLMs dans le cadre de réponses ouvertes à des questions visuelles. Nous proposons une méthode pour sélectionner les tokens visuellement pertinents qui reflètent la pertinence entre les réponses générées et l'image d'entrée. De plus, nous menons une analyse approfondie des LVLMs de pointe sur des benchmarks conçus pour nécessiter des informations visuelles pour répondre. Nos résultats offrent plusieurs insights sur le comportement des LVLMs, notamment la relation entre la région de focalisation et la justesse de la réponse, les différences d'attention visuelle selon les architectures, et l'impact de l'échelle du modèle de langage sur la compréhension visuelle. Le code et les données sont disponibles à l'adresse suivante : https://github.com/bytedance/LVLM_Interpretation.
Les récentes avancées dans les modèles de langage de grande taille et leurs extensions multimodales ont démontré l'efficacité de l'unification de la génération et de la compréhension grâce à la prédiction autoregressive du prochain jeton. Cependant, malgré le rôle crucial de la génération et de la compréhension des structures 3D ({3D GU}) dans l'IA pour la science, ces tâches ont largement évolué de manière indépendante, les méthodes autoregressives restant peu explorées. Pour combler cette lacune, nous introduisons Uni-3DAR, un cadre unifié qui intègre de manière transparente les tâches de {3D GU} via la prédiction autoregressive. Au cœur d'Uni-3DAR se trouve une nouvelle tokenisation hiérarchique qui compresse l'espace 3D en utilisant un octree, exploitant ainsi la sparsité inhérente des structures 3D. Une tokenisation supplémentaire est ensuite appliquée pour capturer les détails structurels fins, tels que les types d'atomes et les coordonnées spatiales précises dans les structures microscopiques 3D. Nous proposons également deux optimisations pour améliorer l'efficacité et l'efficience. La première est une stratégie de compression à deux niveaux des sous-arbres, qui réduit la séquence de jetons de l'octree jusqu'à 8 fois. La seconde est un mécanisme de prédiction masquée du prochain jeton, conçu pour les positions de jetons variant dynamiquement, ce qui améliore significativement les performances du modèle. En combinant ces stratégies, Uni-3DAR réussit à unifier diverses tâches de {3D GU} dans un seul cadre autoregressif. Des expériences approfondies sur plusieurs tâches microscopiques de {3D GU}, incluant les molécules, les protéines, les polymères et les cristaux, valident son efficacité et sa polyvalence. Notamment, Uni-3DAR surpasse les modèles de diffusion précédents de manière substantielle, atteignant une amélioration relative allant jusqu'à 256\% tout en offrant des vitesses d'inférence jusqu'à 21,8 fois plus rapides. Le code est disponible publiquement à l'adresse suivante : https://github.com/dptech-corp/Uni-3DAR.
La génération de molécules 3D est cruciale pour la découverte de médicaments et la science des matériaux, nécessitant des modèles capables de traiter des multi-modalités complexes, incluant les types d'atomes, les liaisons chimiques et les coordonnées 3D. Un défi majeur consiste à intégrer ces modalités de formes différentes tout en maintenant l'équivariance SE(3) pour les coordonnées 3D. Pour y parvenir, les approches existantes maintiennent généralement des espaces latents séparés pour les modalités invariantes et équivariantes, ce qui réduit l'efficacité à la fois lors de l'entraînement et de l'échantillonnage. Dans ce travail, nous proposons l'Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D), un VAE multi-modal qui compresse les molécules 3D en séquences latentes à partir d'un espace latent unifié, tout en maintenant une erreur de reconstruction proche de zéro. Cet espace latent unifié élimine les complexités liées à la gestion de la multi-modalité et de l'équivariance lors de la modélisation de diffusion latente. Nous démontrons cela en utilisant le Diffusion Transformer—un modèle de diffusion à usage général sans biais inductif moléculaire—pour la génération latente. Des expériences approfondies sur les ensembles de données GEOM-Drugs et QM9 montrent que notre méthode établit de nouveaux référentiels significatifs à la fois pour la génération de novo et conditionnelle de molécules 3D, atteignant une efficacité et une qualité de premier plan.
Les méthodes populaires d'entraînement vidéo opèrent principalement sur un nombre fixe de tokens échantillonnés à partir d'une grille spatiotemporelle prédéfinie, ce qui entraîne des compromis précision-calcul sous-optimaux en raison de la redondance inhérente des vidéos. Elles manquent également d'adaptabilité aux budgets de calcul variables pour les tâches en aval, limitant ainsi l'application des modèles les plus compétitifs dans des scénarios réels. Nous proposons donc un nouveau cadre de test, l'Optimisation de Tokens, pour maximiser l'information d'entrée selon les budgets disponibles, en optimisant l'ensemble limité de tokens d'entrée via une sélection de tokens à partir de vidéos échantillonnées de manière plus appropriée. À cette fin, nous proposons un nouvel outil d'augmentation appelé Flux. En rendant la grille d'échantillonnage flexible et en exploitant la sélection de tokens, il s'intègre facilement dans la plupart des frameworks d'entraînement vidéo populaires, améliorant la robustesse du modèle avec un coût supplémentaire quasi nul. Nous intégrons Flux dans un pré-entraînement vidéo à grande échelle, et le modèle résultant, FluxViT, établit de nouveaux records de pointe sur une multitude de tâches à des coûts standards. Notamment, avec seulement 1/4 des tokens, il peut égaler les performances des modèles précédents de pointe avec l'Optimisation de Tokens, permettant des économies de près de 90 %. Tous les modèles et données sont disponibles à l'adresse https://github.com/OpenGVLab/FluxViT.
Les modèles vision-langage (VL) ont démontré de solides performances sur diverses tâches. Cependant, ces modèles s'appuient souvent sur une modalité spécifique pour leurs prédictions, ce qui entraîne un "biais de modalité dominante". Ce biais nuit considérablement aux performances, en particulier lorsqu'une modalité est altérée. Dans cette étude, nous analysons le comportement des modèles sous l'effet du biais de modalité dominante et montrons théoriquement que des gradients non alignés ou des différences dans les magnitudes des gradients empêchent une convergence équilibrée de la fonction de perte. Sur la base de ces observations, nous proposons un nouveau cadre, BalGrad, pour atténuer le biais de modalité dominante. Notre approche inclut une pondération inter-modale des gradients, ajustant le gradient de la divergence KL en fonction de la contribution de chaque modalité, ainsi qu'une projection inter-tâche des gradients pour aligner les directions des tâches de manière non conflictuelle. Les expériences sur les ensembles de données UPMC Food-101, Hateful Memes et MM-IMDb confirment que BalGrad réduit efficacement la surdépendance à des modalités spécifiques lors des prédictions.
La personnalisation d'identité vidéo vise à produire des vidéos haute fidélité qui maintiennent une identité cohérente et présentent des dynamiques significatives à partir d'images de référence fournies par les utilisateurs. Cependant, les approches existantes rencontrent deux défis majeurs : la dégradation de l'identité sur de longues durées vidéo et une réduction des dynamiques pendant l'entraînement, principalement en raison de leur dépendance à l'auto-reconstruction traditionnelle avec des images statiques. Pour résoudre ces problèmes, nous introduisons MagicID, un nouveau cadre conçu pour favoriser directement la génération de vidéos cohérentes en termes d'identité et riches en dynamiques, adaptées aux préférences des utilisateurs. Plus précisément, nous proposons de construire des données vidéo de préférences par paires avec des récompenses explicites pour l'identité et la dynamique, plutôt que de s'en tenir à l'auto-reconstruction traditionnelle. Pour répondre aux contraintes des données de préférences personnalisées, nous introduisons une stratégie d'échantillonnage hybride. Cette approche priorise d'abord la préservation de l'identité en exploitant des vidéos statiques dérivées des images de référence, puis améliore la qualité des mouvements dynamiques dans les vidéos générées en utilisant une méthode d'échantillonnage basée sur les frontières. En utilisant ces paires de préférences hybrides, nous optimisons le modèle pour qu'il s'aligne sur les différences de récompenses entre les paires de préférences personnalisées. Des expériences approfondies montrent que MagicID réussit à atteindre une identité cohérente et des dynamiques naturelles, surpassant les méthodes existantes sur diverses métriques.
Avec la croissance rapide des modèles génératifs de vidéos (VGMs), il est essentiel de développer des métriques automatiques fiables et exhaustives pour les vidéos générées par l'IA (AIGVs). Les méthodes existantes utilisent soit des modèles prêts à l'emploi optimisés pour d'autres tâches, soit s'appuient sur des données d'évaluation humaine pour entraîner des évaluateurs spécialisés. Ces approches sont limitées à des aspects d'évaluation spécifiques et sont difficiles à adapter face aux demandes croissantes d'évaluations plus fines et plus complètes. Pour résoudre ce problème, ce travail explore la faisabilité d'utiliser des modèles de langage multimodaux de grande taille (MLLMs) comme évaluateurs unifiés pour les AIGVs, en tirant parti de leurs fortes capacités de perception visuelle et de compréhension du langage. Pour évaluer la performance des métriques automatiques dans l'évaluation unifiée des AIGVs, nous introduisons un benchmark appelé UVE-Bench. UVE-Bench collecte des vidéos générées par des VGMs de pointe et fournit des annotations de préférence humaine par paires couvrant 15 aspects d'évaluation. En utilisant UVE-Bench, nous évaluons de manière approfondie 16 MLLMs. Nos résultats empiriques suggèrent que, bien que les MLLMs avancés (par exemple, Qwen2VL-72B et InternVL2.5-78B) soient encore en retard par rapport aux évaluateurs humains, ils démontrent une capacité prometteuse dans l'évaluation unifiée des AIGVs, surpassant significativement les méthodes d'évaluation spécialisées existantes. De plus, nous menons une analyse approfondie des choix de conception clés qui influencent la performance des évaluateurs basés sur les MLLMs, offrant des insights précieux pour les recherches futures sur l'évaluation des AIGVs. Le code est disponible à l'adresse https://github.com/bytedance/UVE.
Nous proposons VideoRFSplat, un modèle direct de texte-à-3D qui exploite un modèle de génération vidéo pour produire des représentations réalistes en 3D par splatting gaussien (3DGS) pour des scènes du monde réel sans limites. Pour générer des poses de caméra variées et une étendue spatiale illimitée de scènes réelles, tout en assurant une généralisation à des prompts textuels arbitraires, les méthodes précédentes ajustent finement des modèles génératifs 2D pour modéliser conjointement les poses de caméra et les images multi-vues. Cependant, ces méthodes souffrent d'instabilité lors de l'extension des modèles génératifs 2D à une modélisation conjointe en raison de l'écart de modalité, ce qui nécessite des modèles supplémentaires pour stabiliser l'entraînement et l'inférence. Dans ce travail, nous proposons une architecture et une stratégie d'échantillonnage pour modéliser conjointement les images multi-vues et les poses de caméra lors de l'ajustement fin d'un modèle de génération vidéo. Notre idée centrale repose sur une architecture à double flux qui associe un modèle dédié à la génération de poses à un modèle de génération vidéo pré-entraîné via des blocs de communication, générant ainsi les images multi-vues et les poses de caméra à travers des flux séparés. Cette conception réduit les interférences entre les modalités de pose et d'image. De plus, nous proposons une stratégie d'échantillonnage asynchrone qui débruite les poses de caméra plus rapidement que les images multi-vues, permettant ainsi aux poses rapidement débruitées de conditionner la génération multi-vue, réduisant l'ambiguïté mutuelle et améliorant la cohérence inter-modale. Entraîné sur plusieurs ensembles de données à grande échelle du monde réel (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat surpasse les méthodes existantes de génération directe texte-à-3D qui dépendent fortement d'un raffinement post-hoc via l'échantillonnage par distillation de score, obtenant des résultats supérieurs sans un tel raffinement.
Les outils de complétion de code basés sur l'apprentissage profond (DL) ont transformé le développement logiciel en permettant une génération de code avancée. Ces outils s'appuient sur des modèles entraînés sur de vastes quantités de code provenant de nombreux dépôts, capturant ainsi des modèles de codage généraux. Cependant, l'impact du réglage fin de ces modèles pour des organisations ou des développeurs spécifiques afin d'améliorer leurs performances sur ces sujets reste inexploré. Dans ce travail, nous comblons cette lacune en présentant des preuves empiriques solides répondant à cette question. Plus précisément, nous considérons 136 développeurs issus de deux organisations (Apache et Spring), deux architectures de modèles (T5 et Code Llama), et trois tailles de modèles (60M, 750M et 7B paramètres entraînables). Les modèles T5 (60M, 750M) ont été pré-entraînés et réglés fin sur plus de 2 000 projets open source, excluant les données des organisations étudiées, et comparés à des versions réglées fin sur des ensembles de données spécifiques à l'organisation et au développeur. Pour le modèle Code Llama (7B), nous avons comparé les performances du modèle déjà pré-entraîné disponible publiquement en ligne avec le même modèle réglé fin via un réglage fin efficace en paramètres sur des ensembles de données spécifiques à l'organisation et au développeur. Nos résultats montrent qu'il y a une amélioration des capacités de prédiction grâce à un réglage fin supplémentaire spécifique à l'organisation et au développeur, le premier étant particulièrement performant. Une telle conclusion se généralise à (i) les deux organisations étudiées (c'est-à-dire Apache et Spring) et (ii) des modèles de magnitudes complètement différentes (de 60M à 7B paramètres entraînables). Enfin, nous montrons que les modèles DL réglés fin sur un ensemble de données spécifique à une organisation atteignent les mêmes performances de complétion que les modèles de code pré-entraînés utilisés tels quels et étant environ 10 fois plus grands, avec des économies conséquentes en termes de déploiement et de coût d'inférence (par exemple, des GPU plus petits nécessaires).
La génération de légendes d'images a longtemps été une tâche centrale dans la compréhension visuelle, avec les récents progrès des modèles vision-langage (VLMs) qui ont considérablement amélioré la capacité à produire des descriptions détaillées d'images. Cependant, l'évaluation des légendes détaillées reste peu explorée en raison de métriques d'évaluation obsolètes et d'annotations grossières. Dans cet article, nous introduisons DeCapBench ainsi qu'une nouvelle métrique, DCScore, spécialement conçue pour les tâches de légendes détaillées. DCScore évalue les hallucinations et la précision fine en décomposant les réponses en les plus petites unités autonomes, appelées unités d'information primitives, et en les évaluant individuellement. Notre évaluation montre que DCScore s'aligne plus étroitement avec le jugement humain que d'autres métriques basées sur des règles ou des modèles. Parallèlement, DeCapBench présente une forte corrélation avec les résultats de l'arène VLM sur les tâches descriptives, surpassant les benchmarks existants pour les modèles vision-langage. De plus, nous présentons une méthode automatique de collecte de feedback granulaire, FeedQuill, pour l'optimisation des préférences basée sur notre métrique avancée, démontrant des capacités de généralisation robustes sur des données de préférence générées automatiquement. Des expériences approfondies sur plusieurs VLMs montrent que notre méthode réduit non seulement significativement les hallucinations, mais améliore également les performances sur divers benchmarks, atteignant une performance supérieure en génération de légendes détaillées tout en surpassant GPT-4o.
Cet article présente le Deceptive Humor Dataset (DHD), une nouvelle ressource pour étudier l'humour issu de déclarations fabriquées et de la désinformation. À une époque où la désinformation est omniprésente, comprendre comment l'humour s'entrelace avec la tromperie est essentiel. Le DHD est composé de commentaires humoristiques générés à partir de récits faux, incorporant des déclarations fabriquées et des informations manipulées à l'aide du modèle ChatGPT-4o. Chaque instance est étiquetée avec un Niveau de Satire, allant de 1 pour une satire subtile à 3 pour une satire de haut niveau, et classée en cinq Catégories d'Humour distinctes : Humour Noir, Ironie, Commentaire Social, Jeu de Mots et Absurdité. Le dataset couvre plusieurs langues, notamment l'anglais, le télougou, l'hindi, le kannada, le tamoul et leurs variantes code-mixées (Te-En, Hi-En, Ka-En, Ta-En), ce qui en fait un benchmark multilingue précieux. En introduisant le DHD, nous établissons une base structurée pour analyser l'humour dans des contextes trompeurs, ouvrant la voie à une nouvelle direction de recherche qui explore comment l'humour interagit non seulement avec la désinformation, mais influence également sa perception et sa diffusion. Nous établissons des bases solides pour le dataset proposé, fournissant un fondement pour les recherches futures afin de benchmarker et faire progresser les modèles de détection de l'humour trompeur.
Le pré-entraînement auto-supervisé basé sur la prédiction du token suivant a permis aux grands modèles de langage de capturer la structure sous-jacente du texte, conduisant à des performances sans précédent sur un large éventail de tâches lorsqu'il est appliqué à grande échelle. De même, la conduite autonome génère d'immenses quantités de données spatio-temporelles, suggérant la possibilité d'exploiter l'échelle pour apprendre la structure géométrique et sémantique sous-jacente de l'environnement et son évolution dans le temps. Dans cette direction, nous proposons une méthode de pré-entraînement auto-supervisé géométrique et sémantique, GASP, qui apprend une représentation unifiée en prédisant, à tout point futur interrogé dans l'espace-temps, (1) l'occupation générale, capturant la structure évolutive de la scène 3D ; (2) l'occupation ego, modélisant la trajectoire du véhicule ego à travers l'environnement ; et (3) des caractéristiques de haut niveau distillées à partir d'un modèle de fondation visuelle. En modélisant des champs d'occupation géométriques et sémantiques 4D plutôt que des mesures brutes des capteurs, le modèle apprend une représentation structurée et généralisable de l'environnement et de son évolution dans le temps. Nous validons GASP sur plusieurs benchmarks de conduite autonome, démontrant des améliorations significatives dans la prévision de l'occupation sémantique, la cartographie en ligne et la prédiction de la trajectoire ego. Nos résultats montrent que la prédiction continue de l'occupation géométrique et sémantique 4D fournit un paradigme de pré-entraînement scalable et efficace pour la conduite autonome. Pour le code et des visualisations supplémentaires, voir \href{https://research.zenseact.com/publications/gasp/.
Avec l'essor de l'IA générative, la synthèse de figures à partir de légendes textuelles devient une application prometteuse. Cependant, atteindre une précision géométrique élevée et une bonne éditabilité nécessite de représenter les figures sous forme de programmes graphiques dans des langages comme TikZ, et les données d'entraînement alignées (c'est-à-dire des programmes graphiques accompagnés de légendes) restent rares. Par ailleurs, de grandes quantités de programmes graphiques non alignés et d'images raster légendées sont plus facilement disponibles. Nous concilions ces sources de données disparates en présentant TikZero, qui découple la génération de programmes graphiques de la compréhension du texte en utilisant des représentations d'images comme pont intermédiaire. Cela permet un entraînement indépendant sur les programmes graphiques et les images légendées, et autorise la synthèse de programmes graphiques guidés par le texte en mode zero-shot lors de l'inférence. Nous montrons que notre méthode surpasse largement les approches de référence qui ne peuvent fonctionner qu'avec des programmes graphiques alignés sur des légendes. De plus, en exploitant les programmes graphiques alignés sur des légendes comme signal d'entraînement complémentaire, TikZero atteint ou dépasse les performances de modèles bien plus volumineux, y compris des systèmes commerciaux comme GPT-4o. Notre code, jeux de données et certains modèles sont disponibles publiquement.
Le respect des traitements prescrits est crucial pour les personnes atteintes de maladies chroniques afin d'éviter des résultats de santé coûteux ou indésirables. Pour certains groupes de patients, des interventions intensives sur le mode de vie sont essentielles pour améliorer l'observance médicamenteuse. Une prévision précise de l'observance thérapeutique peut ouvrir la voie au développement d'un outil d'intervention à la demande, permettant un soutien personnalisé et opportun. Avec la popularité croissante des smartphones et des dispositifs portables, il est désormais plus facile que jamais de développer et de déployer des systèmes intelligents de surveillance des activités. Cependant, les systèmes de prévision efficaces pour l'observance thérapeutique basés sur des capteurs portables ne sont pas encore largement disponibles. Nous comblons cette lacune en proposant Adherence Forecasting and Intervention with Machine Intelligence (AIMI). AIMI est un système de prévision de l'observance guidé par la connaissance qui exploite les capteurs des smartphones et les antécédents médicamenteux pour estimer la probabilité d'oublier de prendre un médicament prescrit. Une étude utilisateur a été menée avec 27 participants prenant des médicaments quotidiens pour gérer leurs maladies cardiovasculaires. Nous avons conçu et développé des modèles de prévision basés sur CNN et LSTM avec diverses combinaisons de caractéristiques d'entrée et avons constaté que les modèles LSTM peuvent prévoir l'observance médicamenteuse avec une précision de 0,932 et un score F-1 de 0,936. De plus, à travers une série d'études d'ablation impliquant des architectures de réseaux neuronaux convolutifs et récurrents, nous démontrons que l'exploitation de connaissances connues sur l'avenir et l'entraînement personnalisé améliorent la précision de la prévision de l'observance médicamenteuse. Code disponible : https://github.com/ab9mamun/AIMI.