papers.description
Dans ce rapport, nous présentons UltraShape 1.0, un cadre de diffusion 3D évolutif pour la génération de géométries 3D haute fidélité. L'approche proposée adopte un pipeline de génération en deux étapes : une structure globale grossière est d'abord synthétisée, puis affinée pour produire une géométrie détaillée et de haute qualité. Pour soutenir une génération 3D fiable, nous avons développé un pipeline complet de traitement des données qui inclut une nouvelle méthode de traitement de l'étanchéité et un filtrage de données de haute qualité. Ce pipeline améliore la qualité géométrique des ensembles de données 3D publiquement disponibles en supprimant les échantillons de faible qualité, en comblant les trous et en épaississant les structures minces, tout en préservant les détails géométriques fins. Pour permettre un affinage granulaire de la géométrie, nous découplons la localisation spatiale de la synthèse des détails géométriques dans le processus de diffusion. Nous y parvenons en effectuant un raffinement basé sur des voxels à des emplacements spatiaux fixes. Des requêtes voxel dérivées de la géométrie grossière fournissent des ancres positionnelles explicites encodées via RoPE, permettant au modèle de diffusion de se concentrer sur la synthèse de détails géométriques locaux dans un espace de solution structuré et réduit. Notre modèle est entraîné exclusivement sur des ensembles de données 3D publics, atteignant une forte qualité géométrique malgré des ressources d'entraînement limitées. Des évaluations approfondies démontrent qu'UltraShape 1.0 rivalise avec les méthodes open-source existantes, à la fois en qualité de traitement des données et en génération de géométrie. L'intégralité du code et des modèles entraînés sera publiée pour soutenir les recherches futures.
Les modèles récemment unifiés de génération et d'édition ont obtenu un succès remarquable grâce à leurs performances impressionnantes. Ces modèles s'appuient principalement sur des invites textuelles pour l'édition et la génération basées sur des instructions, mais le langage échoue souvent à capturer les emplacements d'édition souhaités par les utilisateurs et les détails visuels fins. Pour cela, nous proposons deux tâches : l'édition et la génération basées sur des gribouillis, qui permettent une création plus flexible sur une interface graphique (GUI) combinant le texte, les images et les croquis libres de l'utilisateur. Nous présentons DreamOmni3, abordant deux défis : la création de données et la conception du cadre. Notre pipeline de synthèse de données comprend deux parties : l'édition et la génération basées sur des gribouillis. Pour l'édition basée sur des gribouillis, nous définissons quatre tâches : l'édition basée sur des gribouillis et des instructions, l'édition multimodale basée sur des gribouillis et des instructions, la fusion d'images et l'édition de dessins. En nous appuyant sur l'ensemble de données DreamOmni2, nous extrayons les régions modifiables et superposons des boîtes, des cercles, des dessins ou des images rognées dessinés à la main pour construire les données d'entraînement. Pour la génération basée sur des gribouillis, nous définissons trois tâches : la génération basée sur des gribouillis et des instructions, la génération multimodale basée sur des gribouillis et des instructions, et la génération de dessins, suivant des pipelines de création de données similaires. Pour le cadre, au lieu d'utiliser des masques binaires, qui peinent avec les modifications complexes impliquant plusieurs gribouillis, images et instructions, nous proposons un schéma d'entrée conjoint qui alimente le modèle à la fois avec l'image source originale et l'image source gribouillée, en utilisant différentes couleurs pour distinguer les régions et simplifier le traitement. En appliquant les mêmes encodages d'index et de position aux deux images, le modèle peut localiser précisément les régions gribouillées tout en maintenant une édition précise. Enfin, nous établissons des référentiels complets pour ces tâches afin de promouvoir la recherche future. Les résultats expérimentaux démontrent que DreamOmni3 atteint des performances exceptionnelles, et les modèles et le code seront rendus publics.
Nous formulons la modélisation linguistique à long contexte comme un problème d'apprentissage continu plutôt que de conception architecturale. Selon cette formulation, nous utilisons uniquement une architecture standard – un Transformer avec attention par fenêtre glissante. Cependant, notre modèle continue d'apprendre au moment du test via la prédiction du token suivant sur le contexte donné, compressant le contexte qu'il lit dans ses poids. De plus, nous améliorons l'initialisation du modèle pour l'apprentissage au moment du test via du méta-apprentissage pendant l'entraînement. Globalement, notre méthode, une forme d'Apprentissage au Moment du Test (TTT), est de bout en bout (E2E) tant au moment du test (via la prédiction du token suivant) qu'à l'entraînement (via le méta-apprentissage), contrairement aux formes précédentes. Nous menons des expériences approfondies en nous concentrant sur les propriétés d'échelle. En particulier, pour des modèles de 3B paramètres entraînés avec 164B tokens, notre méthode (TTT-E2E) s'adapte à la longueur du contexte de la même manière qu'un Transformer avec attention complète, tandis que d'autres, comme Mamba 2 et Gated DeltaNet, ne le font pas. Cependant, similairement aux RNN, TTT-E2E a une latence d'inférence constante quelle que soit la longueur du contexte, le rendant 2,7 fois plus rapide que l'attention complète pour un contexte de 128K tokens. Notre code est publiquement disponible.
Nous évaluons systématiquement les méthodes de réglage fin paramétriquement efficace (PEFT) dans le paradigme de l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Le RLVR incite les modèles de langage à améliorer leurs capacités de raisonnement grâce à un retour vérifiable ; cependant, bien que des méthodes comme LoRA soient couramment utilisées, l'architecture PEFT optimale pour le RLVR reste à identifier. Dans ce travail, nous menons la première évaluation complète de plus de 12 méthodologies PEFT sur les familles de modèles DeepSeek-R1-Distill, à l'aide de benchmarks de raisonnement mathématique. Nos résultats empiriques remettent en question l'adoption par défaut de LoRA standard, avec trois conclusions principales. Premièrement, nous démontrons que des variantes structurelles, telles que DoRA, AdaLoRA et MiSS, surpassent systématiquement LoRA. Deuxièmement, nous mettons en évidence un phénomène d'effondrement spectral dans les stratégies d'initialisation informées par SVD (par exemple, PiSSA, MiLoRA), attribuant leur échec à un désalignement fondamental entre les mises à jour par composantes principales et l'optimisation par renforcement. De plus, nos études d'ablation révèlent qu'une réduction paramétrique extrême (par exemple, VeRA, Rang-1) limite sévèrement la capacité de raisonnement. Nous menons en outre des études d'ablation et des expériences de mise à l'échelle pour valider nos conclusions. Ce travail fournit un guide définitif pour plaider en faveur d'une exploration accrue des méthodes de RL paramétriquement efficaces.
La tâche de localisation des problèmes vise à identifier les emplacements d'un dépôt de logiciels nécessitant des modifications à partir d'une description en langage naturel d'un problème. Cette tâche est fondamentale mais difficile dans l'ingénierie logicielle automatisée en raison du fossé sémantique entre la description du problème et l'implémentation du code source. Ce fossé se manifeste par deux inadéquations : (1) les inadéquations symptôme-cause, où les descriptions ne révèlent pas explicitement les causes racines sous-jacentes ; (2) les inadéquations un-à-plusieurs, où un seul problème correspond à plusieurs entités de code interdépendantes. Pour résoudre ces deux inadéquations, nous proposons GraphLocator, une approche qui atténue les inadéquations symptôme-cause par la découverte de structure causale et résout les inadéquations un-à-plusieurs via un désentrelacement dynamique des problèmes. L'artefact clé est le graphe causal de problèmes (CIG), dans lequel les sommets représentent les sous-problèmes découverts ainsi que leurs entités de code associées, et les arêtes encodent les dépendances causales entre eux. Le flux de travail de GraphLocator se compose de deux phases : la localisation des sommets symptômes et la découverte dynamique du CIG ; il identifie d'abord les emplacements des symptômes sur le graphe du dépôt, puis étend dynamiquement le CIG en raisonnant itérativement sur les sommets voisins. Les expériences sur trois ensembles de données réels démontrent l'efficacité de GraphLocator : (1) Par rapport aux lignes de base, GraphLocator achieve une localisation plus précise avec des améliorations moyennes de +19,49% en rappel au niveau fonction et de +11,89% en précision. (2) GraphLocator surpasse les lignes de base à la fois dans les scénarios d'inadéquation symptôme-cause et un-à-plusieurs, obtenant une amélioration du rappel de +16,44% et +19,18%, et une amélioration de la précision de +7,78% et +13,23%, respectivement. (3) Le CIG généré par GraphLocator produit l'amélioration relative la plus élevée, entraînant une augmentation de 28,74% des performances sur la tâche de résolution en aval.
Les architectures Mixture-of-Experts (MoE) ont fait progresser la mise à l'échelle des grands modèles de langage (LLM) en n'activant qu'un sous-ensemble parcimonieux de paramètres par entrée, permettant ainsi des performances de pointe à un coût computationnel réduit. Alors que ces modèles sont de plus en plus déployés dans des domaines critiques, comprendre et renforcer leurs mécanismes d'alignement est essentiel pour prévenir les résultats nuisibles. Cependant, la recherche existante sur la sécurité des LLM s'est concentrée presque exclusivement sur les architectures denses, laissant les propriétés de sécurité uniques des MoE largement inexplorées. La conception modulaire et à activation parcimonieuse des MoE suggère que les mécanismes de sécurité pourraient fonctionner différemment que dans les modèles denses, soulevant des questions sur leur robustesse. Dans cet article, nous présentons GateBreaker, le premier cadre d'attaque non supervisé, léger et agnostique à l'architecture qui compromet l'alignement de sécurité des MoE LLM modernes au moment de l'inférence. GateBreaker opère en trois étapes : (i) le profilage au niveau des portes, qui identifie les experts de sécurité acheminés de manière disproportionnée sur des entrées nuisibles, (ii) la localisation au niveau des experts, qui localise la structure de sécurité au sein des experts de sécurité, et (iii) la suppression ciblée de la sécurité, qui désactive la structure de sécurité identifiée pour compromettre l'alignement de sécurité. Notre étude montre que la sécurité des MoE se concentre au sein d'un petit sous-ensemble de neurones coordonnés par un routage parcimonieux. La désactivation sélective de ces neurones, représentant environ 3 % des neurones dans les couches d'experts ciblées, augmente significativement le taux de réussite moyen des attaques (ASR) de 7,4 % à 64,9 % contre les huit derniers MoE LLM alignés, avec une dégradation limitée de l'utilité. Ces neurones de sécurité se transfèrent entre les modèles d'une même famille, augmentant l'ASR de 17,9 % à 67,7 % avec une attaque de transfert en un seul essai. De plus, GateBreaker se généralise à cinq modèles de langage visuel (VLM) de type MoE, atteignant un ASR de 60,9 % sur des entrées d'image non sécurisées.