papers.description
Les humains apprennent des concepts abstraits grâce à la synergie multisensorielle, et une fois formées, ces représentations peuvent souvent être rappelées à partir d'une seule modalité. Inspiré par ce principe, nous présentons Concerto, une simulation minimaliste de l'apprentissage conceptuel humain pour la cognition spatiale, combinant l'auto-distillation intra-modale 3D avec un embedding conjoint cross-modal 2D-3D. Malgré sa simplicité, Concerto apprend des caractéristiques spatiales plus cohérentes et informatives, comme le démontrent les visualisations zero-shot. Il surpasse à la fois les modèles auto-supervisés SOTA 2D et 3D autonomes de 14,2 % et 4,8 % respectivement, ainsi que leur concaténation de caractéristiques, dans le sondage linéaire pour la perception de scènes 3D. Avec un fine-tuning complet, Concerto établit de nouveaux résultats SOTA sur plusieurs benchmarks de compréhension de scènes (par exemple, 80,7 % mIoU sur ScanNet). Nous présentons également une variante de Concerto adaptée à la compréhension spatiale de nuages de points issus de vidéos, et un traducteur qui projette linéairement les représentations de Concerto dans l'espace linguistique de CLIP, permettant une perception en monde ouvert. Ces résultats soulignent que Concerto fait émerger des représentations spatiales avec une cohérence géométrique et sémantique fine supérieure.
Les tâches du monde réel nécessitent des décisions à différents niveaux de granularité, et les humains excellent dans ce domaine en exploitant une représentation cognitive unifiée où la planification est fondamentalement comprise comme une forme d'action de haut niveau. Cependant, les agents actuels basés sur les grands modèles de langage (LLM) manquent de cette capacité cruciale pour opérer fluidement à travers les granularités décisionnelles. Cette limitation découle des paradigmes existants qui imposent une séparation rigide entre la planification de haut niveau et l'action de bas niveau, ce qui altère l'adaptabilité dynamique et limite la généralisation. Nous proposons ReCode (Génération de Code Récursive), un nouveau paradigme qui résout cette limitation en unifiant la planification et l'action au sein d'une unique représentation codée. Dans cette représentation, ReCode traite les plans de haut niveau comme des fonctions abstraites réservées, que l'agent décompose ensuite récursivement en sous-fonctions plus fines jusqu'à atteindre des actions primitives. Cette approche récursive dissout la frontière rigide entre le plan et l'action, permettant à l'agent de contrôler dynamiquement sa granularité décisionnelle. De plus, la structure récursive génère intrinsèquement des données d'entraînement riches et multi-granularités, permettant aux modèles d'apprendre des processus décisionnels hiérarchiques. Des expériences approfondies montrent que ReCode surpasse significativement les modèles de référence avancés en performance d'inférence et démontre une exceptionnelle efficacité des données lors de l'entraînement, validant notre idée centrale qu'unifier planification et action via la génération récursive de code est une approche puissante et efficace pour atteindre un contrôle universel de la granularité. Le code est disponible à l'adresse https://github.com/FoundationAgents/ReCode.
La progression rapide des grands modèles de langage (LLM) a stimulé l'émergence d'agents de données – des systèmes autonomes conçus pour orchestrer des écosystèmes Données + IA afin de traiter des tâches complexes liées aux données. Cependant, le terme « agent de données » souffre actuellement d'une ambiguïté terminologique et d'une adoption incohérente, confondant des répondeurs à des requêtes simples avec des architectures autonomes sophistiquées. Cette ambiguïté terminologique favorise des attentes utilisateurs disproportionnées, des défis de responsabilisation et des obstacles à la croissance de l'industrie. Inspiré par la norme SAE J3016 pour l'automatisation de la conduite, cette étude introduit la première taxonomie hiérarchique systématique pour les agents de données, comprenant six niveaux qui délimitent et retracent les transitions progressives de l'autonomie, depuis les opérations manuelles (L0) jusqu'à une vision d'agents de données génératifs et entièrement autonomes (L5), clarifiant ainsi les limites des capacités et l'allocation des responsabilités. À travers ce prisme, nous proposons une revue structurée de la recherche existante, organisée par autonomie croissante, englobant les agents de données spécialisés pour la gestion, la préparation et l'analyse des données, ainsi que les efforts émergents vers des systèmes polyvalents et complets dotés d'une autonomie accrue. Nous analysons en outre les sauts évolutifs critiques et les lacunes techniques pour faire progresser les agents de données, en particulier la transition en cours du L2 au L3, où les agents de données évoluent d'une exécution procédurale vers une orchestration autonome. Enfin, nous concluons par une feuille de route prospective, envisageant l'avènement d'agents de données proactifs et génératifs.
La modélisation directe de la vraisemblance explicite de la distribution des données brutes est un sujet clé dans le domaine de l'apprentissage automatique, qui a permis les succès à grande échelle des modèles de langage grâce à la modélisation autorégressive. Cependant, la modélisation AR continue sur des données de pixels visuels souffre de séquences extrêmement longues et d'espaces à haute dimension. Dans cet article, nous présentons FARMER, un nouveau cadre génératif de bout en bout qui unifie les flux de normalisation (NF) et les modèles autorégressifs (AR) pour l'estimation tractable de la vraisemblance et la synthèse d'images de haute qualité directement à partir des pixels bruts. FARMER utilise un flux autorégressif inversible pour transformer les images en séquences latentes, dont la distribution est modélisée implicitement par un modèle autorégressif. Pour résoudre la redondance et la complexité de la modélisation au niveau des pixels, nous proposons un schéma de réduction de dimension auto-supervisé qui partitionne les canaux latents NF en groupes informatifs et redondants, permettant une modélisation AR plus efficace et efficiente. De plus, nous concevons un schéma de distillation en une étape pour accélérer significativement la vitesse d'inférence et introduisons un algorithme de guidage sans classifieur basé sur le rééchantillonnage pour améliorer la qualité de génération d'images. Des expériences approfondies démontrent que FARMER atteint des performances compétitives par rapport aux modèles génératifs existants basés sur les pixels, tout en fournissant des vraisemblances exactes et un entraînement scalable.
Les modèles Vision-Langage-Action (VLA) actuels sont souvent limités par un paradigme d'interaction rigide et statique, qui ne permet pas de voir, d'entendre, de parler et d'agir de manière concurrente, ni de gérer dynamiquement les interruptions utilisateur en temps réel. Cela entrave la collaboration incarnée fluide, conduisant à une expérience utilisateur inflexible et peu réactive. Pour résoudre ces limitations, nous présentons VITA-E, un nouveau cadre d'interaction incarnée conçu pour la concurrence comportementale et les interruptions quasi-temps réel. Le cœur de notre approche est une architecture à double modèle où deux instances VLA parallèles fonctionnent comme un « Modèle Actif » et un « Modèle En Veille », permettant à l'agent incarné d'observer son environnement, d'écouter la parole de l'utilisateur, de fournir des réponses verbales et d'exécuter des actions, le tout de manière concurrente et interruptible, imitant les capacités multitâches humaines. Nous proposons en outre un paradigme de « modèle-en-tant-que-contrôleur », où nous affinons le VLM pour générer des tokens spéciaux servant de commandes directes au niveau du système, couplant le raisonnement du modèle avec le comportement du système. Les expériences menées sur une plateforme humanoïde physique démontrent que VITA-E peut gérer de manière fiable des scénarios interactifs complexes. Notre cadre est compatible avec divers modèles VLA à double système, atteignant un taux de réussite extrêmement élevé pour les arrêts d'urgence et les interruptions vocales, tout en réalisant avec succès la parole et l'action concurrentes. Cela représente une avancée significative vers des assistants incarnés plus naturels et performants.
Les modèles d'animation humaine pilotés par l'audio souffrent souvent d'une dérive identitaire lors de la génération autoregressive temporelle, où les personnages perdent progressivement leur identité au fil du temps. Une solution consiste à générer des images clés comme ancres temporelles intermédiaires pour prévenir la dégradation, mais cela nécessite une étape supplémentaire de génération de keyframes et peut restreindre la dynamique naturelle du mouvement. Pour résoudre ce problème, nous proposons l'Ancrage Prospectif (Lookahead Anchoring), qui exploite des images clés provenant d'instants futurs au-delà de la fenêtre de génération courante, plutôt qu'à l'intérieur de celle-ci. Cette approche transforme les images clés de limites fixes en balises directionnelles : le modèle poursuit continuellement ces ancres futures tout en répondant aux indices audio immédiats, maintenant une identité cohérente grâce à un guidage persistant. Cela permet également l'auto-génération de keyframes, où l'image de référence sert elle-même de cible prospective, éliminant totalement le besoin de générer des images clés. Nous constatons que la distance prospective temporelle contrôle naturellement l'équilibre entre expressivité et cohérence : des distances plus grandes permettent une plus grande liberté de mouvement, tandis que des distances plus réduites renforcent la fidélité identitaire. Appliqué à trois modèles récents d'animation humaine, l'Ancrage Prospectif permet d'atteindre une synchronisation labiale, une préservation de l'identité et une qualité visuelle supérieures, démontrant une amélioration du conditionnement temporel across plusieurs architectures différentes. Les résultats vidéo sont disponibles à l'adresse suivante : https://lookahead-anchoring.github.io.
L'être humain perçoit naturellement la structure géométrique et le contenu sémantique d'un monde 3D comme des dimensions entrelacées, permettant une compréhension cohérente et précise de scènes complexes. Cependant, la plupart des approches antérieures privilégient l'entraînement de grands modèles géométriques pour la reconstruction 3D de bas niveau et traitent la compréhension spatiale de haut niveau de manière isolée, négligeant l'interaction cruciale entre ces deux aspects fondamentaux de l'analyse de scènes 3D, limitant ainsi la généralisation et conduisant à de faibles performances dans les tâches aval de compréhension 3D. Des tentatives récentes ont atténué ce problème en alignant simplement des modèles 3D avec des modèles de langage spécifiques, restreignant ainsi la perception aux capacités du modèle aligné et limitant l'adaptabilité aux tâches en aval. Dans cet article, nous proposons InstanceGrounded Geometry Transformer (IGGT), un grand transformateur unifié de bout en bout pour unifier les connaissances liées à la reconstruction spatiale et à la compréhension contextuelle au niveau des instances. Plus précisément, nous concevons une stratégie d'apprentissage contrastif 3D-consistant qui guide IGGT pour encoder une représentation unifiée avec des structures géométriques et un regroupement ancré sur les instances à partir de seulement des entrées visuelles 2D. Cette représentation permet de transformer de manière cohérente des entrées visuelles 2D en une scène 3D cohérente avec des instances d'objets explicitement distinctes. Pour faciliter cette tâche, nous construisons en outre InsScene-15K, un jeu de données à grande échelle contenant des images RVB de haute qualité, des poses, des cartes de profondeur et des annotations de masques au niveau des instances 3D-consistantes, grâce à un nouveau pipeline de curation de données.
Les modèles de diffusion et d'appariement de flux sont apparus comme des politiques robotiques puissantes, permettant aux modèles Vision-Langage-Action (VLA) de généraliser à travers des scènes et des instructions diverses. Cependant, lorsqu'ils sont entraînés par apprentissage par imitation, leur forte capacité générative les rend sensibles au bruit présent dans les démonstrations humaines : saccades, pauses et tremblements qui réduisent la cohérence des actions. Cette réduction de cohérence actionnelle provoque une instabilité et une dérive de trajectoire lors du déploiement, des défaillances catastrophiques dans les manipulations fines où la précision est cruciale. Dans cet article, nous présentons l'Action Coherence Guidance (ACG) pour les modèles VLA, un algorithme de guidage à l'inférence qui améliore la cohérence des actions et génère ainsi des gains de performance, sans nécessiter de réentraînement. Évalué sur RoboCasa, DexMimicGen et des tâches réelles SO-101, ACG améliore constamment la cohérence actionnelle et augmente les taux de réussite sur diverses tâches de manipulation. Le code et la page du projet sont disponibles respectivement à l'adresse https://github.com/DAVIAN-Robotics/ACG et https://DAVIAN-Robotics.github.io/ACG.
Les modèles d'embedding de texte constituent un composant fondamental dans les applications de recherche réelles. En projetant les requêtes et les documents dans un espace d'embedding partagé, ils offrent des performances de recherche compétitives avec une grande efficacité. Cependant, leur fidélité de classement reste limitée comparée aux rerankeurs dédiés, particulièrement les rerankeurs récents basés sur des LLM utilisant une approche par liste, qui capturent les interactions fines requête-document et document-document. Dans cet article, nous proposons un cadre unifié simple mais efficace, E²Rank (signifiant Efficient Embedding-based Ranking, ou aussi Embedding-to-Rank), qui étend un modèle d'embedding de texte unique pour effectuer à la fois une recherche de haute qualité et un reranking par liste via un entraînement continu sous un objectif de classement par liste, atteignant ainsi une forte efficacité avec une remarquable rapidité. En utilisant la similarité cosinus entre les embeddings de la requête et du document comme fonction de classement unifiée, l'invite de classement par liste, construite à partir de la requête originale et de ses documents candidats, sert de requête enrichie avec des signaux provenant des K premiers documents, semblable au feedback de pertinence pseudo (PRF) dans les modèles de recherche traditionnels. Cette conception préserve l'efficacité et la qualité représentationnelle du modèle d'embedding de base tout en améliorant significativement ses performances de reranking. Empiriquement, E²Rank obtient des résultats state-of-the-art sur le benchmark de reranking BEIR et démontre des performances compétitives sur le benchmark BRIGHT nécessitant un raisonnement poussé, avec une latence de reranking très faible. Nous montrons également que le processus d'entraînement au classement améliore les performances d'embedding sur le benchmark MTEB. Nos résultats indiquent qu'un modèle d'embedding unique peut unifier efficacement la recherche et le reranking, offrant à la fois une efficacité computationnelle et une précision de classement compétitive.
Les grands modèles multimodaux (LMM) ont réalisé des progrès remarquables dans la génération d'images photoréalistes et alignées avec les prompts, mais ils produisent souvent des résultats qui contredisent des connaissances vérifiables, en particulier lorsque les prompts impliquent des attributs à granularité fine ou des événements sensibles au facteur temps. Les approches conventionnelles augmentées par recherche tentent de résoudre ce problème en introduisant des informations externes, mais elles sont fondamentalement incapables d'ancrer la génération dans des connaissances précises et évolutives en raison de leur dépendance à des sources statiques et d'une intégration superficielle des preuves. Pour combler cette lacune, nous présentons ORIG, un cadre agentique ouvert et multimodal augmenté par recherche pour la Génération d'Images Factuelles (FIG), une nouvelle tâche qui exige à la fois un réalisme visuel et un ancrage factuel. ORIG récupère et filtre itérativement des preuves multimodales depuis le web et intègre progressivement les connaissances raffinées dans des prompts enrichis pour guider la génération. Pour permettre une évaluation systématique, nous construisons FIG-Eval, un benchmark couvrant dix catégories à travers des dimensions perceptuelles, compositionnelles et temporelles. Les expériences démontrent qu'ORIG améliore substantiellement la cohérence factuelle et la qualité globale de l'image par rapport à des bases de référence solides, soulignant le potentiel de la recherche multimodale ouverte pour la génération d'images factuelles.
La génération vidéo est une voie essentielle vers les modèles de monde, avec l'inférence efficace de vidéos longues comme capacité clé. Dans cette optique, nous présentons LongCat-Video, un modèle fondateur de génération vidéo doté de 13,6 milliards de paramètres, offrant des performances solides sur diverses tâches de génération vidéo. Il excelle particulièrement dans la génération efficace et de haute qualité de vidéos longues, représentant notre première étape vers les modèles de monde. Les caractéristiques principales incluent : Architecture unifiée pour multiples tâches : Basé sur le framework Diffusion Transformer (DiT), LongCat-Video prend en charge les tâches Texte-vers-Vidéo, Image-vers-Vidéo et Poursuite Vidéo avec un modèle unique ; Génération de vidéos longues : Le pré-entraînement sur les tâches de Poursuite Vidéo permet à LongCat-Video de maintenir une haute qualité et une cohérence temporelle dans la génération de vidéos de plusieurs minutes ; Inférence efficace : LongCat-Video génère des vidéos 720p à 30 ips en quelques minutes grâce à une stratégie de génération grossière-à-fine sur les axes temporel et spatial. L'Attention Sparse par Blocs améliore encore l'efficacité, particulièrement aux hautes résolutions ; Performances robustes avec RLHF multi-récompenses : L'entraînement RLHF multi-récompenses permet à LongCat-Video d'atteindre des performances comparables aux derniers modèles privateurs et aux modèles open-source leaders. Le code et les poids des modèles sont publiquement disponibles pour accélérer les progrès dans le domaine.
L'attention multi-têtes (MTA) est devenue la pierre angulaire des grands modèles de langage modernes, améliorant la capacité de représentation grâce à des têtes d'attention parallèles. Cependant, l'augmentation du nombre de têtes affaiblit intrinsèquement la capacité individuelle de chaque tête, et les mécanismes d'attention existants - qu'il s'agisse de la MTA standard ou de ses variantes comme l'attention à requêtes groupées (GQA) et l'attention liée groupée (GTA - se contentent de concaténer les sorties de têtes isolées sans interaction forte. Pour remédier à cette limitation, nous proposons l'attention par "cognement de têtes" (KHA), qui permet aux têtes d'attention de "cogner" les unes contre les autres - facilitant des interactions au niveau des caractéristiques entre les têtes avant l'attention par produit scalaire mis à l'échelle. Ceci est réalisé en appliquant une matrice de projection partagée, initialisée de manière diagonale, à toutes les têtes. L'initialisation diagonale préserve la spécialisation spécifique à chaque tête au début de l'entraînement tout en permettant au modèle d'apprendre progressivement des représentations intégrées entre les têtes. KHA n'ajoute que des paramètres et des FLOPs minimaux et peut être intégré de manière transparente dans la MTA, la GQA, la GTA et d'autres variantes d'attention. Nous validons KHA en entraînant un modèle MoE de 6,1 milliards de paramètres (1,01 milliard activé) sur 1 000 milliards de tokens de haute qualité. Par rapport aux mécanismes d'attention de référence, KHA offre une dynamique d'entraînement supérieure et plus stable, obtenant de meilleures performances sur diverses tâches en aval.
Les modèles de récompense (RMs) jouent un rôle crucial dans l'alignement des comportements de l'IA avec les préférences humaines, mais ils font face à deux défis fondamentaux : (1) le Déséquilibre Modal, où la plupart des RMs se concentrent principalement sur les modalités texte et image, offrant un support limité pour la vidéo, l'audio et autres modalités ; et (2) la Rigidité des Préférences, où l'entraînement sur des paires de préférences binaires fixes échoue à capturer la complexité et la diversité des préférences personnalisées. Pour relever ces défis, nous proposons Omni-Reward, une avancée vers la modélisation de récompense omni-modale généraliste avec support pour les préférences de forme libre, comprenant : (1) Évaluation : Nous introduisons Omni-RewardBench, le premier benchmark RM omni-modal avec préférences libres, couvrant neuf tâches across cinq modalités incluant le texte, l'image, la vidéo, l'audio et la 3D ; (2) Données : Nous construisons Omni-RewardData, un ensemble de données de préférences multimodales comprenant 248K paires de préférences générales et 69K paires d'ajustement instructionnel pour l'entraînement de RMs omni-modaux généralistes ; (3) Modèle : Nous proposons Omni-RewardModel, qui inclut à la fois des RMs discriminatifs et génératifs, et atteint des performances solides sur Omni-RewardBench ainsi que sur d'autres benchmarks de modélisation de récompense largement utilisés.
Les modèles de langage multimodaux de grande taille (MLLM) ont démontré d'impressionnantes capacités polyvalentes dans la compréhension visuelle de scènes ouvertes. Cependant, la plupart des MLLM existants se concentrent principalement sur une compréhension holistique au niveau de la scène, négligeant souvent le besoin d'un raisonnement centré sur les objets à granularité fine. Dans cet article, nous présentons PixelRefer, un cadre unifié de MLLM au niveau régional qui permet une compréhension fine avancée sur des zones spécifiées par l'utilisateur, tant dans les images que dans les vidéos. Motivés par l'observation que l'attention des LLM se concentre principalement sur les tokens au niveau objet, nous proposons un Tokeniseur d'Objets Adaptatif à l'Échelle (SAOT) pour générer des représentations d'objets compactes et sémantiquement riches à partir de régions de forme libre. Notre analyse révèle que les tokens visuels globaux contribuent principalement dans les premières couches des LLM, ce qui inspire la conception de PixelRefer-Lite, une variante efficace qui utilise un module d'Infusion Centré sur les Objets pour pré-fusionner le contexte global dans les tokens objets. Cela produit un Cadre Objet-Only léger qui réduit substantiellement le coût computationnel tout en maintenant une haute fidélité sémantique. Pour faciliter le réglage instructionnel à granularité fine, nous avons constitué PixelRefer-2.2M, un jeu de données instructionnel de haute qualité centré sur les objets. Des expériences approfondies sur une série de benchmarks valident que PixelRefer atteint des performances leaders avec moins d'échantillons d'entraînement, tandis que PixelRefer-Lite offre une précision compétitive avec des gains notables en efficacité.
L'application du Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) aux domaines mathématiques et de programmation a démontré des améliorations significatives des capacités de raisonnement et de résolution de problèmes des Grands Modèles de Langage. Malgré son succès dans la résolution de problèmes à génération unique, le processus de mise au point par apprentissage par renforcement peut nuire à la capacité d'exploration du modèle, comme en témoigne la diminution de la diversité des générations et une dégradation conséquente des performances lors de l'échantillonnage Best-of-N pour de grandes valeurs de N. Dans ce travail, nous nous concentrons sur l'optimisation de la métrique max@k, une généralisation continue de pass@k. Nous dérivons une estimation de gradient non biaisée sur la politique pour l'optimisation directe de cette métrique. De plus, nous étendons nos dérivations aux mises à jour hors politique, un élément commun dans les algorithmes RLVR modernes, qui permet une meilleure efficacité d'échantillonnage. Empiriquement, nous montrons que notre objectif optimise efficacement la métrique max@k dans des scénarios hors politique, alignant le modèle avec la stratégie d'inférence Best-of-N.
Les modèles multimodaux unifiés ont récemment montré des progrès remarquables en capacité et polyvalence, mais la plupart des systèmes leaders restent entraînés à partir de zéro et nécessitent des ressources computationnelles substantielles. Dans cet article, nous démontrons qu’une performance compétitive peut être obtenue bien plus efficacement en fusionnant stratégiquement des modèles publics spécialisés soit pour la génération, soit pour la compréhension. Notre conception clé consiste à conserver les blocs originaux tout en intercalant de manière supplémentaire des blocs d’auto-attention multimodale dans l’ensemble des réseaux. Ce mécanisme de double fusion (1) permet efficacement une riche fusion multimodale tout en préservant largement les forces originales des modèles de base, et (2) catalyse une fusion synergique des représentations sémantiques de haut niveau provenant de l’encodeur de compréhension avec les signaux spatiaux de bas niveau issus de l’encodeur de génération. En s’entraînant avec seulement ~35 milliards de tokens, cette approche obtient des résultats solides sur plusieurs benchmarks : 0,91 sur GenEval pour la génération compositionnelle texte-image, 82,16 sur DPG-Bench pour la génération complexe texte-image, 6,06 sur GEditBench et 3,77 sur ImgEdit-Bench pour l’édition d’images. En libérant intégralement l’ensemble du code, des poids des modèles et des jeux de données, nous espérons soutenir les futures recherches sur la modélisation multimodale unifiée.
L'alignement vision-langage dans les modèles de langage de grande taille multimodaux (MLLMs) repose généralement sur le fine-tuning supervisé (SFT) ou l'apprentissage par renforcement (RL). Le SFT est stable et efficace mais nécessite des annotations humaines à grande échelle et ne peut pas capturer les préférences subtiles, tandis que le RL introduit un signal de récompense pour l'entraînement, mais souffre de surcharge computationnelle et d'instabilité. Ces limitations mettent en lumière un compromis entre l'évolutivité, la robustesse et la qualité de l'alignement. Pour résoudre ce problème, nous proposons MergeMix, un paradigme d'augmentation à l'entraînement qui fait le pont entre le SFT et le RL. Il applique d'abord un mélange d'images sensible à l'attention via une fusion de tokens avec une représentation plus clusterisée et un contexte spatial, puis présente un paradigme d'entraînement axé sur les préférences pour les MLLMs en construisant des paires de préférences avec des images mélangées et des images brutes, et en optimisant via la perte SimPO. En tant qu'augmentation de type mixup, MergeMix améliore la cohérence et l'efficacité de l'attention, surpassant les autres méthodes heuristiques en classification. Des expériences approfondies démontrent que MergeMix atteint une précision compétitive avec une efficacité améliorée, fournissant une approche évolutive pour l'alignement des préférences dans la classification et les MLLMs.
L'apprentissage par renforcement (RL) a démontré un potentiel significatif pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, le succès du RL pour les LLM dépend fortement de jeux de données organisés par des humains et de récompenses vérifiables, ce qui limite leur évolutivité et leur généralité. Les méthodes récentes de RL par auto-jeu, inspirées par le succès de ce paradigme dans les jeux et le Go, visent à améliorer les capacités de raisonnement des LLM sans données annotées manuellement. Cependant, ces méthodes dépendent principalement d'un environnement ancré pour le retour d'information (par exemple, un interpréteur Python ou un moteur de jeu) ; leur extension à des domaines généraux reste difficile. Pour relever ces défis, nous proposons Multi-Agent Evolve (MAE), un cadre qui permet aux LLMs de s'auto-évoluer pour résoudre des tâches diverses, incluant les mathématiques, le raisonnement et les questions-réponses de culture générale. La conception centrale de MAE repose sur un triplet d'agents en interaction (Proposant, Solveur, Juge) qui sont instanciés à partir d'un seul LLM, et applique l'apprentissage par renforcement pour optimiser leurs comportements. Le Proposant génère des questions, le Solveur tente des solutions et le Juge évalue les deux, le tout en co-évolution. Des expériences sur Qwen2.5-3B-Instruct démontrent que MAE atteint une amélioration moyenne de 4,54 % sur plusieurs benchmarks. Ces résultats soulignent que MAE est une méthode évolutive et économe en données pour améliorer les capacités de raisonnement général des LLMs avec une dépendance minimale à la supervision humaine.
La quête de robots généralistes - des agents pilotables capables d'exécuter diverses tâches dans divers environnements - exige une évaluation rigoureuse et évolutive. Pourtant, les tests en conditions réelles des politiques robotiques restent fondamentalement limités : ils sont laborieux, lents, dangereux à grande échelle et difficiles à reproduire. Les bancs d'essai en simulation existants sont similairement limités, car ils entraînent et testent les politiques dans les mêmes domaines synthétiques et ne peuvent pas évaluer les modèles entraînés à partir de démonstrations du monde réel ou d'environnements de simulation alternatifs. Alors que les politiques gagnent en portée et en complexité, ces obstacles ne font que s'intensifier, puisque la définition du "succès" en robotique dépend souvent de jugements humains nuancés sur la qualité d'exécution. Dans cet article, nous présentons un nouveau cadre d'évaluation qui surmonte ces défis en déplaçant l'évaluation des VLA vers des environnements simulés à grande échelle augmentés par un retour humain en ligne. Tirant parti des progrès des modèles vision-langage, de la modélisation générative 2D-vers-3D et du rendu différenciable, notre approche convertit automatiquement les démonstrations vidéo de jeux de données robotiques largement utilisés en contreparties simulées. Au sein de ces jumeaux numériques, nous évaluons les politiques VLA en utilisant à la fois un score automatisé guidé par VLM et des jugements de préférence humaine évolutifs collectés auprès de travailleurs crowdsourcés, transformant l'implication humaine de la fastidieuse configuration de scènes, réinitialisation et supervision de sécurité en simples comparaisons de préférences. Pour mesurer la robustesse, nous perturbons systématiquement les environnements simulés selon plusieurs axes, tels que les textures et le placement des objets, testant ainsi la généralisation des politiques sous variation contrôlée. Le résultat est un banc d'essai évolutif, reproductible et en constante évolution pour les politiques de manipulation robotique entraînées en conditions réelles, répondant à une capacité manquante critique dans le paysage robotique actuel.
Les approches existantes reposent généralement sur un ajustement à grande échelle pour adapter les LLM aux tâches de reranking d'information, ce qui est coûteux en calcul. Dans ce travail, nous démontrons que les LLM modernes peuvent être efficacement adaptés en utilisant uniquement une supervision minimale et de haute qualité. Pour y parvenir, nous concevons LIMRANK-SYNTHESIZER, un pipeline réutilisable et open-source pour générer des exemples de reranking diversifiés, complexes et réalistes. En utilisant ces données synthétiques, nous affinons notre modèle de reranking, LIMRANK. Nous évaluons LIMRANK sur deux benchmarks exigeants, à savoir BRIGHT pour la recherche nécessitant un raisonnement poussé et FollowIR pour la recherche suivant des instructions. Nos expériences démontrent que LIMRANK atteint des performances compétitives, tout en étant entraîné sur moins de 5 % des données typiquement utilisées dans les travaux antérieurs. Des études d'ablation supplémentaires démontrent l'efficacité de LIMRANK-SYNTHESIZER et les fortes capacités de généralisation de LIMRANK sur diverses tâches en aval, incluant la recherche de littérature scientifique et la génération augmentée par la récupération d'information pour la résolution de problèmes nécessitant des connaissances approfondies.
Les grands modèles de langage (LLM) sont devenus des assistants précieux pour les développeurs dans les tâches liées au code. Bien que les LLM excellent dans les tâches de programmation traditionnelles telles que la génération de code et la correction de bogues, ils peinent avec les tâches de codage à orientation visuelle, produisant souvent des résultats esthétiques sous-optimaux. Dans cet article, nous présentons une nouvelle pipeline pour améliorer la qualité esthétique du code généré par les LLM. Nous construisons d'abord AesCode-358K, un jeu de données d'ajustement par instruction à grande échelle axé sur l'esthétique du code. Ensuite, nous proposons le *feedback de récompense agentique*, un système multi-agents qui évalue l'exécutabilité, l'esthétique statique et l'esthétique interactive. Sur cette base, nous développons GRPO-AR, qui intègre ces signaux dans l'algorithme GRPO pour une optimisation conjointe de la fonctionnalité et de l'esthétique du code. Enfin, nous développons OpenDesign, un benchmark pour évaluer l'esthétique du code. Les résultats expérimentaux montrent que la combinaison de l'ajustement fin supervisé sur AesCode-358K avec l'apprentissage par renforcement utilisant le feedback de récompense agentique améliore significativement les performances sur OpenDesign et améliore également les résultats sur des benchmarks existants tels que PandasPlotBench. Notamment, notre modèle AesCoder-4B surpasse GPT-4o et GPT-4.1, et atteint des performances comparables à de grands modèles open-source avec 480B-685B paramètres, soulignant l'efficacité de notre approche.
Les modèles autorégressifs (AR) d'images sont devenus un paradigme puissant pour les modèles génératifs visuels. Malgré leurs performances prometteuses, leur vitesse de génération reste lente en raison du grand nombre d'étapes d'échantillonnage requis. Bien que le décodage distillé 1 (DD1) ait été récemment proposé pour permettre un échantillonnage en peu d'étapes pour les modèles AR d'images, il subit encore une dégradation significative des performances dans le cadre d'un échantillonnage en une étape, et repose sur une correspondance prédéfinie qui limite sa flexibilité. Dans ce travail, nous proposons une nouvelle méthode, le décodage distillé 2 (DD2), pour faire progresser la faisabilité de l'échantillonnage en une étape pour les modèles AR d'images. Contrairement à DD1, DD2 ne repose pas sur une correspondance prédéfinie. Nous considérons le modèle AR original comme un modèle enseignant qui fournit le score conditionnel de référence dans l'espace latent d'embedding à chaque position de token. Sur cette base, nous proposons une nouvelle fonction de perte de distillation de score conditionnel pour entraîner un générateur en une étape. Plus précisément, nous entraînons un réseau séparé pour prédire le score conditionnel de la distribution générée et appliquons la distillation du score à chaque position de token conditionnée par les tokens précédents. Les résultats expérimentaux montrent que DD2 permet un échantillonnage en une étape pour les modèles AR d'images avec une augmentation minimale de l'FID de 3,40 à 5,43 sur ImageNet-256. Par rapport à la base de référence la plus forte, DD1, DD2 réduit l'écart entre l'échantillonnage en une étape et le modèle AR original de 67 %, avec une accélération de l'entraînement allant jusqu'à 12,3 fois simultanément. DD2 représente une avancée significative vers l'objectif de génération AR en une étape, ouvrant de nouvelles possibilités pour une modélisation AR rapide et de haute qualité. Le code est disponible à l'adresse https://github.com/imagination-research/Distilled-Decoding-2.
La simulation physique repose sur des propriétés mécaniques variant spatialement, souvent laborieusement conçues manuellement. VoMP est une méthode feed-forward entraînée à prédire le module d'Young (E), le coefficient de Poisson (ν) et la masse volumique (ρ) dans tout le volume d'objets 3D, quelle que soit leur représentation pouvant être rendue et voxélisée. VoMP agrège des caractéristiques multi-vues par voxel et les transmet à notre Geometry Transformer entraîné pour prédire des codes latents matériaux par voxel. Ces latents résident sur une variété de matériaux physiquement plausibles, que nous apprenons à partir d'un jeu de données réel, garantissant la validité des matériaux décodés par voxel. Pour obtenir des données d'entraînement au niveau objet, nous proposons un pipeline d'annotation combinant des connaissances issues de jeux de données 3D segmentées, de bases de données matériaux et d'un modèle vision-langage, ainsi qu'un nouveau benchmark. Les expériences montrent que VoMP estime avec précision les propriétés volumétriques, surpassant largement l'état de l'art en précision et en vitesse.
Nous présentons PRISM-Bench, un benchmark d'énigmes visuelles conçu pour évaluer non seulement la capacité des modèles à résoudre des problèmes, mais aussi le déroulement de leur raisonnement. Contrairement aux évaluations antérieures qui ne mesuraient que la précision de la réponse finale, PRISM-Bench introduit une tâche diagnostique : face à une énigme visuelle et un enchaînement pas-à-pas de raisonnement (chain-of-thought, CoT) contenant exactement une erreur, les modèles doivent identifier la première étape incorrecte. Ce cadre permet une évaluation fine de la cohérence logique, de la détection d'erreurs et du raisonnement visuel. Les énigmes de PRISM-Bench nécessitent un raisonnement symbolique, géométrique et analogique en plusieurs étapes, résistant aux raccourcis basés sur une correspondance superficielle de motifs. Les évaluations sur les MLLM (Modèles de Langage Multimodaux) les plus avancés révèlent un écart persistant entre la génération fluide et le raisonnement fidèle : les modèles qui produisent des CoT plausibles échouent souvent à localiser des fautes logiques simples. En dissociant la génération de réponses de la vérification du raisonnement, PRISM-Bench offre une perspective plus précise sur les compétences en raisonnement multimodal et souligne la nécessité de protocoles d'évaluation diagnostique dans le développement de MLLM dignes de confiance.
Les méthodes actuelles de génération 3D/4D sont généralement optimisées pour le photoréalisme, l'efficacité et l'esthétique. Cependant, elles échouent souvent à préserver l'identité sémantique du sujet sous différents points de vue. L'adaptation des méthodes de génération avec une ou quelques images d'un sujet spécifique (également appelée personnalisation ou génération pilotée par le sujet) permet de créer un contenu visuel aligné avec l'identité du sujet. Néanmoins, la génération 3D/4D personnalisée reste largement inexplorée. Dans ce travail, nous présentons TIRE (Track, Inpaint, REsplat), une nouvelle méthode pour la génération 3D/4D pilotée par le sujet. Notre approche prend comme entrée un actif 3D initial produit par un modèle génératif 3D existant et utilise le suivi vidéo pour identifier les régions nécessitant une modification. Ensuite, nous adoptons un modèle d'inpainting 2D piloté par le sujet pour remplir progressivement les zones identifiées. Enfin, nous réintégrons les observations 2D multi-vues modifiées dans l'espace 3D tout en maintenant la cohérence. Des expériences approfondies démontrent que notre approche améliore significativement la préservation de l'identité dans la génération 3D/4D par rapport aux méthodes state-of-the-art. Notre site web projet est disponible à l'adresse https://zsh2000.github.io/track-inpaint-resplat.github.io/.
La reconstruction photoréaliste en 3D du corps humain complet à partir d'une seule image est une tâche cruciale mais difficile pour les applications dans les films et les jeux vidéo, en raison des ambiguïtés intrinsèques et des autocclusions sévères. Si les approches récentes exploitent l'estimation SMPL et des modèles génératifs d'images conditionnés par SMPL pour générer de nouvelles vues, elles souffrent d'imprécisions des priors 3D estimés à partir des maillages SMPL et éprouvent des difficultés à traiter les poses humaines complexes et à reconstruire les détails fins. Dans cet article, nous proposons SyncHuman, une nouvelle architecture qui combine pour la première fois un modèle génératif multivue 2D et un modèle génératif natif 3D, permettant une reconstruction de maillages humains habillés de haute qualité à partir d'images monovues, même pour des poses humaines difficiles. Le modèle génératif multivue excelle à capturer les détails 2D fins mais peine avec la cohérence structurelle, tandis que le modèle génératif natif 3D génère des formes 3D grossières mais structurellement cohérentes. En intégrant les forces complémentaires de ces deux approches, nous développons un cadre de génération plus efficace. Concrètement, nous affinons conjointement le modèle génératif multivue et le modèle génératif natif 3D avec une attention de synchronisation 2D-3D alignée sur les pixels que nous proposons, pour produire des formes 3D et des images multivues 2D géométriquement alignées. Pour encore améliorer les détails, nous introduisons un mécanisme d'injection de caractéristiques qui transfère les détails fins des images multivues 2D vers les formes 3D alignées, permettant une reconstruction précise et fidèle. Des expériences approfondies démontrent que SyncHuman réalise une reconstruction 3D humaine robuste et photoréaliste, même pour des images avec des poses complexes. Notre méthode surpasse les méthodes de référence en précision géométrique et fidélité visuelle, indiquant une voie prometteuse pour les futurs modèles de génération 3D.
Les grands modèles de langage produisent régulièrement des hallucinations d'API et localisent incorrectement les modifications, tandis que les serveurs de langage calculent des faits vérifiés de qualité IDE sur du code réel. Nous présentons Lanser-CLI, une couche d'orchestration axée CLI qui ancre et médiatise un serveur LSP (Language Server Protocol) pour les agents de programmation et l'intégration continue, exposant des workflows déterministes et rejouables. Notre position est que les serveurs de langage fournissent non seulement des informations structurelles (définitions, références, types, diagnostics) mais aussi une récompense processuelle actionnable : des signaux vérifiés machine et incrémentaux qui alignent la boucle de planification d'un agent avec la réalité du programme. Dans ce travail, Lanser-CLI apporte : (i) un schéma d'adressage robuste dépassant la fragilité "fichier:ligne:col" via un DSL Selector (sélecteurs symboliques, par chemin AST et ancrés au contenu) avec un algorithme de relocation fondé ; (ii) des Bundles d'Analyse déterministes qui normalisent les réponses du serveur de langage et capturent les métadonnées d'environnement/de capacité avec des hachages de contenu stables ; (iii) une enveloppe de sécurité pour les opérations de mutation (renommage, actions de code) avec prévisualisation, espaces de travail isolés et application transactionnelle compatible Git ; et (iv) une fonctionnelle de récompense processuelle dérivée des faits du serveur de langage (deltas de diagnostics, confiance de désambiguïsation et vérifications d'application sécurisée) calculable en ligne et rejouable hors ligne. Nous formalisons le déterminisme sous instantanés gelés et établissons une propriété de monotonie pour la récompense processuelle, la rendant adaptée à la supervision de processus et l'analyse contrefactuelle. Page du projet : https://github.com/yifanzhang-pro/lanser-cli
Ce document présente une étude systématique des lois d'échelle pour la tâche de détection de deepfakes. Plus précisément, nous analysons la performance du modèle en fonction du nombre de domaines d'images réelles, des méthodes de génération de deepfakes et des images d'entraînement. Aucun ensemble de données existant ne répondant aux exigences d'échelle de cette recherche, nous avons construit ScaleDF, le plus grand ensemble de données à ce jour dans ce domaine, qui contient plus de 5,8 millions d'images réelles provenant de 51 ensembles de données (domaines) différents et plus de 8,8 millions d'images fausses générées par 102 méthodes de deepfake. En utilisant ScaleDF, nous observons une mise à l'échelle en loi de puissance similaire à celle observée dans les grands modèles de langage (LLM). Plus précisément, l'erreur de détection moyenne suit une décroissance prévisible selon une loi de puissance à mesure que le nombre de domaines réels ou le nombre de méthodes de deepfake augmente. Cette observation clé nous permet non seulement de prévoir le nombre supplémentaire de domaines réels ou de méthodes de deepfake requis pour atteindre une performance cible, mais nous inspire également à contrer l'évolution de la technologie des deepfakes de manière centrée sur les données. Au-delà de cela, nous examinons le rôle du pré-entraînement et de l'augmentation des données dans la détection de deepfakes dans un contexte de mise à l'échelle, ainsi que les limites de la mise à l'échelle elle-même.
Les grands modèles de langage (LLM) excellent en inférence zero-shot mais continuent de rencontrer des difficultés avec les raisonnements complexes à multiples étapes. Les méthodes récentes qui augmentent les LLM avec des étapes de raisonnement intermédiaires telles que la Chaîne de Pensée (CoT) et le Programme de Pensée (PoT) améliorent les performances mais produisent souvent des solutions indésirables, particulièrement dans les domaines algorithmiques. Nous présentons la Synthèse de Programme par Instance (PIPS), une méthode qui génère et affine des programmes au niveau de l'instance en utilisant un retour structurel, sans dépendre de directives spécifiques à la tâche ou de cas de test explicites. Pour améliorer davantage les performances, PIPS intègre une métrique de confiance qui choisit dynamiquement entre l'inférence directe et la synthèse de programme sur une base par instance. Les expériences menées sur trois LLM de pointe et 30 benchmarks, incluant toutes les tâches de Big Bench Extra Hard (BBEH), des tâches de question-réponse visuelle, des tâches de raisonnement relationnel et des tâches de raisonnement mathématique, montrent que PIPS améliore la précision moyenne harmonique absolue jusqu'à 8,6 % et 9,4 % par rapport à PoT et CoT respectivement, et réduit les générations de programmes indésirables de 65,1 % sur les tâches algorithmiques par rapport à PoT avec Gemini-2.0-Flash.
Les progrès récents dans l'accélération des modèles de diffusion texte-image (T2I) ont permis la synthèse d'images de haute fidélité, même en une seule étape. Cependant, la personnalisation de ces modèles pour intégrer de nouveaux concepts reste un défi en raison de la capacité limitée des modèles à une étape à capturer efficacement les distributions de nouveaux concepts. Nous proposons un cadre de distillation bidirectionnelle de concepts, EchoDistill, pour permettre une personnalisation de la diffusion en une étape (1-SDP). Notre approche implique un processus d'entraînement de bout en bout où un modèle de diffusion multi-étapes (enseignant) et un modèle de diffusion à une étape (élève) sont entraînés simultanément. Le concept est d'abord distillé du modèle enseignant vers l'élève, puis renvoyé (echoed back) de l'élève vers l'enseignant. Pendant EchoDistill, nous partageons l'encodeur de texte entre les deux modèles pour assurer une compréhension sémantique cohérente. Ensuite, le modèle élève est optimisé avec des pertes adverses pour s'aligner sur la distribution d'images réelles et avec des pertes d'alignement pour maintenir la cohérence avec la sortie de l'enseignant. De plus, nous introduisons la stratégie de raffinement par écho bidirectionnel, dans laquelle le modèle élève exploite sa capacité de génération plus rapide pour effectuer un retour vers le modèle enseignant. Ce mécanisme de distillation bidirectionnelle des concepts améliore non seulement la capacité de l'élève à personnaliser de nouveaux concepts, mais améliore également la qualité générative du modèle enseignant. Nos expériences démontrent que ce cadre collaboratif surpasse significativement les méthodes de personnalisation existantes dans le cadre du 1-SDP, établissant un nouveau paradigme pour une personnalisation rapide et efficace dans les modèles de diffusion T2I.
Nous présentons la modélisation du langage par mémoire comme une alternative efficace et écologique à la modélisation du langage basée sur les réseaux neuronaux profonds. Elle offre des performances de prédiction du token suivant évoluant de manière log-linéaire et d'excellentes capacités de mémorisation. En mettant en œuvre des approximations rapides de la classification par k-plus proches voisins, la modélisation du langage par mémoire laisse une empreinte écologique relativement faible tant à l'entraînement qu'en inférence, puisqu'elle repose entièrement sur les CPU et atteint de faibles latences par token. Son fonctionnement interne est simple et entièrement transparent. Nous comparons notre implémentation de la modélisation du langage par mémoire, OLIFANT, avec GPT-2 et GPT-Neo sur la précision de prédiction du token suivant, les émissions estimées et les vitesses, et proposons des analyses plus approfondies du modèle.
Dans cet article, nous présentons un nouveau modèle basé sur la diffusion pour la détection de voies, appelé DiffusionLane, qui traite la tâche de détection de voies comme un processus de diffusion par débruitage dans l'espace paramétrique de la voie. Premièrement, nous ajoutons un bruit gaussien aux paramètres (le point de départ et l'angle) des voies de référence pour obtenir des ancres de voie bruitées, et le modèle apprend à affiner ces ancres de manière progressive pour obtenir les voies cibles. Deuxièmement, nous proposons une stratégie de décodage hybride pour remédier à la mauvaise représentation des caractéristiques de l'encodeur, résultant des ancres de voie bruitées. Plus précisément, nous concevons un décodeur de diffusion hybride qui combine des décodeurs de niveau global et de niveau local pour produire des ancres de voie de haute qualité. Ensuite, pour améliorer la représentation des caractéristiques de l'encodeur, nous utilisons une tête auxiliaire lors de la phase d'entraînement pour adopter des ancres de voie apprenables afin d'enrichir la supervision de l'encodeur. Les résultats expérimentaux sur quatre benchmarks, Carlane, Tusimple, CULane et LLAMAS, montrent que DiffusionLane possède une forte capacité de généralisation et des performances de détection prometteuses par rapport aux méthodes précédentes de l'état de l'art. Par exemple, DiffusionLane avec ResNet18 surpasse les méthodes existantes d'au moins 1 % en précision sur l'ensemble de données d'adaptation de domaine Carlane. Par ailleurs, DiffusionLane avec MobileNetV4 obtient un score F1 de 81,32 % sur CULane, une précision de 96,89 % sur Tusimple avec ResNet34, et un score F1 de 97,59 % sur LLAMAS avec ResNet101. Le code sera disponible à l'adresse https://github.com/zkyntu/UnLanedet.
Les Transformers de Diffusion (DiTs) offrent des performances génératives de pointe, mais leur coût d'entraînement quadratique avec la longueur de séquence rend le pré-entraînement à grande échelle prohibitif. L'abandon de tokens peut réduire ce coût, mais les stratégies naïves dégradent les représentations, et les méthodes existantes sont soit paramétriquement lourdes, soit inefficaces à des taux d'abandon élevés. Nous présentons SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, une méthode simple qui permet un abandon agressif de tokens (jusqu'à 75 %) tout en préservant la qualité. SPRINT exploite les rôles complémentaires des couches superficielles et profondes : les premières traitent tous les tokens pour capturer les détails locaux, les couches plus profondes opèrent sur un sous-ensemble sparse pour réduire les calculs, et leurs sorties sont fusionnées via des connexions résiduelles. L'entraînement suit un calendrier en deux étapes : un long pré-entraînement masqué pour l'efficacité, suivi d'un micro réglage avec tous les tokens pour combler l'écart entraînement-inférence. Sur ImageNet-1K 256x256, SPRINT réalise une économie d'entraînement de 9,8x avec des FID/FDD comparables, et à l'inférence, son *Path-Drop Guidance* (PDG) réduit de près de moitié les FLOPs tout en améliorant la qualité. Ces résultats établissent SPRINT comme une solution simple, efficace et générale pour l'entraînement efficace des DiTs.
Le succès remarquable des modèles de diffusion et d'appariement de flux a déclenché une vague de travaux visant à les adapter au moment du test pour des tâches de génération contrôlée. Les exemples vont de l'édition d'image à la restauration, la compression et la personnalisation. Cependant, en raison de la nature itérative du processus d'échantillonnage de ces modèles, il est informatiquement impraticable d'utiliser une optimisation basée sur le gradient pour contrôler directement l'image générée à la fin du processus. Par conséquent, les méthodes existantes ont généralement recours à la manipulation de chaque pas de temps séparément. Nous présentons ici FlowOpt - un cadre d'optimisation d'ordre zéro (sans gradient) qui traite l'ensemble du processus de flux comme une boîte noire, permettant une optimisation à travers le chemin d'échantillonnage entier sans rétropropagation à travers le modèle. Notre méthode est à la fois très efficace et permet aux utilisateurs de surveiller les résultats intermédiaires de l'optimisation et d'effectuer un arrêt anticipé si souhaité. Nous prouvons une condition suffisante sur la taille du pas de FlowOpt, sous laquelle la convergence vers l'optimum global est garantie. Nous montrons en outre comment estimer empiriquement cette borne supérieure afin de choisir une taille de pas appropriée. Nous démontrons comment FlowOpt peut être utilisé pour l'édition d'image, en présentant deux options : (i) l'inversion (déterminer le bruit initial qui génère une image donnée), et (ii) l'orientation directe de l'image modifiée pour qu'elle soit similaire à l'image source tout en respectant une invite textuelle cible. Dans les deux cas, FlowOpt obtient des résultats à l'état de l'art tout en utilisant à peu près le même nombre d'évaluations de fonctions neuronales (NFE) que les méthodes existantes. Le code et des exemples sont disponibles sur la page web du projet.
Les optimiseurs préconditionnés matriciels, tels que Muon, ont récemment démontré une efficacité supérieure aux optimiseurs scalaires pour l'entraînement de réseaux neuronaux à grande échelle, y compris les grands modèles de langage (LLM). Parallèlement, des benchmarks récents sur les optimiseurs pour le pré-entraînement de LLM ont montré que les techniques de réduction de variance comme MARS permettent des accélérations substantielles par rapport aux optimiseurs standards n'utilisant pas cette technique. Dans cet article, pour combiner les avantages des deux approches, nous présentons MARS-M, un nouvel optimiseur intégrant la technique de réduction de variance de MARS à Muon. Sous des conditions de régularité standard, nous démontrons que Muon-M converge vers un point stationnaire du premier ordre à un taux de \(\mathcal{O}(T^{-1/3})\), améliorant ainsi le taux \(\mathcal{O}(T^{-1/4})\) atteint par Muon. Nos résultats empiriques sur des tâches de modélisation du langage et de vision par ordinateur montrent que MARS-M produit systématiquement des pertes plus faibles et de meilleures performances sur divers benchmarks en aval. L'implémentation de MARS-M est disponible à l'adresse https://github.com/AGI-Arena/MARS/MARS_M.
Les grands modèles de langage (LLM) ont récemment fait progresser la reconnaissance automatique de la parole (ASR), la reconnaissance visuelle de la parole (VSR) et la reconnaissance audio-visuelle de la parole (AVSR). Cependant, la compréhension de leur dynamique interne lors du réglage fin reste limitée. En traitement du langage naturel, des travaux récents ont mis en évidence des puits d'attention (attention sinks), des tokens qui attirent une attention disproportionnellement élevée, et des activations massives associées où certaines caractéristiques des tokens puits présentent une activation massive dans les LLM. Dans ce travail, nous sommes les premiers à étudier ces phénomènes dans la reconnaissance de la parole multimodale. Par une analyse détaillée de LLM audio-visuels, nous identifions des puits d'attention et des activations massives non seulement au niveau du token BOS (début de séquence), mais aussi au niveau de tokens intermédiaires à faible sémantique dans les tâches ASR, VSR et AVSR. Nous montrons que les activations massives prennent naissance dans les couches MLP (Perceptron Multicouche) et correspondent à des indices de caractéristiques fixes pour tous les tokens puits. Nous démontrons en outre que les tokens puits intermédiaires présentent une similarité cosinus élevée avec le token BOS, amplifiant ainsi l'attention et l'activation. En nous appuyant sur ces observations, nous introduisons une simple fonction de perte de décorrélation qui réduit la similarité cosinus entre le token BOS et les autres tokens, atténuant efficacement les puits intermédiaires et les activations massives. De plus, notre méthode améliore le taux d'erreur sur les mots (WER) dans des conditions de sous-échantillonnage important des caractéristiques audio-visuelles, tout en restant stable à des taux de sous-échantillonnage plus faibles.