papers.description
Les méthodes existantes de génération vidéo basées sur la diffusion sont fondamentalement limitées par le calcul séquentiel et l'incohérence à long terme, ce qui restreint leur adoption pratique pour la synthèse d'avatars en temps réel pilotée par un flux audio. Nous présentons Live Avatar, un cadre co-conçu algorithme-système qui permet une génération d'avatars efficace, haute fidélité et de longueur infinie à l'aide d'un modèle de diffusion de 14 milliards de paramètres. Notre approche introduit le *Timestep-forcing Pipeline Parallelism* (TPP), un paradigme d'inférence distribué qui organise en pipeline les étapes de bruitage inverse sur plusieurs GPU, brisant efficacement le goulot d'étranglement autorégressif et garantissant une diffusion en temps réel stable et à faible latence. Pour améliorer davantage la cohérence temporelle et atténuer la dérive d'identité et les artefacts de couleur, nous proposons le *Rolling Sink Frame Mechanism* (RSFM), qui maintient la fidélité de la séquence en recalibrant dynamiquement l'apparence à l'aide d'une image de référence mise en cache. De plus, nous exploitons l'*autodistillation par appariement de distribution forcée* pour faciliter l'adaptation causale et streamable de modèles à grande échelle sans sacrifier la qualité visuelle. Live Avatar démontre des performances à la pointe de l'état de l'art, atteignant une génération de bout en bout à 20 FPS sur 5 GPU H800, et, à notre connaissance, est le premier système à réaliser une génération d'avatars pratique, en temps réel et haute fidélité à cette échelle. Notre travail établit un nouveau paradigme pour le déploiement de modèles de diffusion avancés dans les applications industrielles de synthèse vidéo longue.
Les flux de travail réels d'intelligence décisionnelle en entreprise englobent l'ingénierie des données, qui transforme les sources brutes en tables prêtes pour l'analyse, et l'analyse des données, qui convertit ces tables en informations orientées vers la prise de décision. Nous présentons DAComp, un benchmark de 210 tâches qui reflète ces flux de travail complexes. Les tâches d'ingénierie des données (DE) nécessitent une ingénierie au niveau du référentiel sur des schémas industriels, incluant la conception et la construction de pipelines SQL multi-étapes à partir de zéro, et l'évolution de systèmes existants face à des exigences changeantes. Les tâches d'analyse des données (DA) posent des problèmes métier ouverts exigeant une planification stratégique, une analyse exploratoire par codage itératif, l'interprétation de résultats intermédiaires et la synthèse de recommandations actionnables. Les tâches d'ingénierie sont évaluées via une vérification exécutoire multi-critères. Les tâches ouvertes sont évaluées par un juge IA fiable et expérimentalement validé, guidé par des grilles d'évaluation hiérarchiques et méticuleusement conçues. Nos expériences révèlent que même les agents les plus avancés échouent sur DAComp. Les performances sur les tâches DE sont particulièrement faibles, avec des taux de réussite inférieurs à 20%, exposant un goulot d'étranglement critique dans l'orchestration holistique des pipelines, au-delà de la simple génération de code. Les scores sur les tâches DA atteignent en moyenne moins de 40%, soulignant des lacunes profondes dans le raisonnement ouvert et démontrant que l'ingénierie et l'analyse sont des capacités distinctes. En diagnostiquant clairement ces limites, DAComp fournit un banc d'essai rigoureux et réaliste pour stimuler le développement d'agents autonomes de données véritablement compétents en milieu professionnel. Nos données et notre code sont disponibles à l'adresse https://da-comp.github.io.
L'évolution des modèles de langage de grande taille (LLM) d'outils de réponse passive vers des agents autonomes nécessite un changement fondamental de paradigme d'apprentissage — passant de l'imitation statique à la prise de décision guidée par des incitations. Cependant, cette transition est considérablement entravée par l'absence d'infrastructures évolutives capables de construire des signaux d'interaction de haute qualité pour un apprentissage efficace des politiques. Pour résoudre ce problème, nous introduisons une méthode complète conçue pour augmenter systématiquement la diversité et la complexité des environnements interactifs. Notre méthode réalise cette mise à l'échelle en abordant trois dimensions orthogonales : (1) Complexité : NexAU, un cadre d'agent flexible qui permet de construire des hiérarchies d'agents complexes via des configurations simples ; (2) Diversité : NexA4A génère automatiquement des hiérarchies d'agents diverses à partir du langage naturel pour couvrir des domaines infinis ; et (3) Fidélité : NexGAP comble le fossé simulation-réalité en intégrant un environnement dynamique du monde réel pour la synthèse de trajectoires ancrées. Nous avons entraîné Nex-N1 sur les environnements interactifs diversifiés et complexes établis par notre infrastructure. Les résultats empiriques sur des benchmarks tels que SWE-bench et tau2 démontrent que Nex-N1 surpasse constamment les modèles open-source de l'état de l'art et obtient des performances compétitives face aux modèles propriétaires de pointe sur des tâches agentielles complexes. Nous ouvrons en accès libre l'écosystème Nex et les poids du modèle pour faciliter les recherches ultérieures.
Les modèles de langage à grande échelle sont de plus en plus intégrés aux flux de travail de rédaction académique, pourtant les assistants existants demeurent externes à l'éditeur, empêchant une interaction approfondie avec l'état du document, sa structure et son historique de révisions. Cette séparation rend impossible la prise en charge d'opérations agentives et contextuelles directement au sein des éditeurs LaTeX comme Overleaf. Nous présentons PaperDebugger, un assistant de rédaction académique intégré à l'éditeur, multi-agents et basé sur des extensions, qui intègre directement le raisonnement piloté par les LLM dans l'environnement d'écriture. Permettre une telle interaction intégrée est techniquement complexe : cela nécessite une synchronisation bidirectionnelle fiable avec l'éditeur, un contrôle de version granulaire et un correctif, une gestion sécurisée de l'état, une planification multi-agents et une communication extensible avec des outils externes. PaperDebugger relève ces défis grâce à une extension approuvée par Chrome, une couche d'orchestration native Kubernetes et une chaîne d'outils Model Context Protocol (MCP) qui intègre la recherche bibliographique, la consultation des références, l'évaluation des documents et les pipelines de révision. Notre démonstration présente un flux de travail entièrement intégré, incluant des modifications localisées, des relectures structurées, une exécution parallèle d'agents et des mises à jour basées sur les différences, le tout encapsulé dans une interface utilisateur à intrusion minimale. Les premières analyses agrégées démontrent un engagement actif des utilisateurs et valident la praticité d'un assistant d'écriture agentif natif de l'éditeur. Plus de détails sur cette démonstration et une vidéo sont disponibles à l'adresse https://github.com/PaperDebugger/PaperDebugger.
Les modèles de récompense sont essentiels pour aligner les systèmes vision-langage sur les préférences humaines, mais les approches actuelles souffrent d'hallucinations, d'un ancrage visuel faible et d'une incapacité à utiliser des outils de vérification, limitant leur fiabilité sur les tâches de raisonnement multimodal complexes. Nous présentons ARM-Thinker, un modèle de récompense multimodal agentique qui invoque de manière autonome des outils externes (par exemple, le recadrage d'images, la récupération de pages de documents) pour fonder ses jugements sur des preuves vérifiables, remplaçant ainsi l'évaluation statique et non interactive des récompenses. Cela permet au modèle de vérifier des détails visuels fins, de recouper des preuves multi-pages et de valider des affirmations de raisonnement, autant de capacités absentes des modèles de récompense existants. Nous entraînons ARM-Thinker par apprentissage par renforcement multi-étapes, en optimisant conjointement les décisions d'appel d'outils et la précision des jugements. Pour évaluer la modélisation agentique des récompenses, nous introduisons ARMBench-VL, comprenant trois benchmarks évaluant l'ancrage visuel fin (outils au niveau de l'image), la compréhension de documents multi-pages (outils de recherche) et le suivi d'instructions (vérification textuelle). ARM-Thinker obtient une amélioration moyenne de +16,2 % sur les benchmarks de modélisation des récompenses, de +9,6 % sur les tâches d'utilisation d'outils, et surpasse les modèles de référence sur les benchmarks de raisonnement mathématique et logique multimodal. Nos résultats démontrent que les capacités agentiques améliorent significativement à la fois la précision et l'interprétabilité des modèles de récompense.
Les modèles de diffusion latente (LDM) suivent intrinsèquement un processus de génération grossier-à-fin, où la structure sémantique de haut niveau est générée légèrement avant la texture granulaire. Cela indique que la sémantique précédente pourrait bénéficier à la génération de texture en fournissant une ancre sémantique. Des avancées récentes ont intégré des connaissances préalables sémantiques provenant d'encodeurs visuels pré-entraînés pour améliorer davantage les LDM, mais elles continuent de débruiter la sémantique et la texture encodée par VAE de manière synchrone, négligeant cet ordre. Face à ce constat, nous proposons Semantic-First Diffusion (SFD), un paradigme de diffusion latente qui priorise explicitement la formation sémantique. SFD construit d'abord des latences composites en combinant une latence sémantique compacte, extraite d'un encodeur visuel pré-entraîné via un VAE sémantique dédié, avec la latence de texture. Le cœur de SFD consiste à débruiter les latences sémantiques et texturales de manière asynchrone en utilisant des échelles de bruit distinctes : la sémantique précède la texture par un décalage temporel, fournissant ainsi un guidage de haut niveau plus clair pour l'affinage de la texture et permettant une génération naturelle grossier-à-fin. Sur ImageNet 256x256 avec guidage, SFD atteint un FID de 1,06 (LightningDiT-XL) et un FID de 1,04 (LightningDiT-XXL 1,0B), tout en atteignant une convergence jusqu'à 100 fois plus rapide que le DiT original. SFD améliore également des méthodes existantes comme ReDi et VA-VAE, démontrant l'efficacité d'une modélisation asynchrone dirigée par la sémantique. Page du projet et code : https://yuemingpan.github.io/SFD.github.io/.
La génération efficace de vidéos en flux continu est essentielle pour simuler des mondes interactifs et dynamiques. Les méthodes existantes distilent des modèles de diffusion vidéo à faible nombre d'étapes avec une attention par fenêtre glissante, utilisant les images initiales comme jetons de référence pour maintenir les performances attentionnelles et réduire l'accumulation d'erreurs. Cependant, les images vidéo deviennent excessivement dépendantes de ces jetons statiques, entraînant la copie des images initiales et une diminution de la dynamique du mouvement. Pour résoudre ce problème, nous introduisons Reward Forcing, un nouveau cadre conceptuel comportant deux conceptions clés. Premièrement, nous proposons EMA-Sink, qui maintient des jetons de taille fixe initialisés à partir des images initiales et continuellement mis à jour en fusionnant les jetons évincés via une moyenne mobile exponentielle lorsqu'ils quittent la fenêtre glissante. Sans coût de calcul supplémentaire, les jetons EMA-Sink capturent à la fois le contexte à long terme et la dynamique récente, empêchant la copie des images initiales tout en maintenant la cohérence à long terme. Deuxièmement, pour mieux distiller la dynamique du mouvement des modèles enseignants, nous proposons une nouvelle Distillation par Correspondance de Distributions Récompensée (Re-DMD). La correspondance de distribution classique traite chaque échantillon d'entraînement de manière égale, limitant la capacité du modèle à prioriser le contenu dynamique. Au lieu de cela, Re-DMD biaise la distribution de sortie du modèle vers les régions à haute récompense en priorisant les échantillons présentant une plus grande dynamique évaluée par un modèle vision-langage. Re-DMD améliore significativement la qualité du mouvement tout en préservant la fidélité des données. Nous incluons des expériences quantitatives et qualitatives montrant que Reward Forcing obtient des performances de pointe sur des benchmarks standards tout en permettant une génération de vidéos en flux continu de haute qualité à 23,1 IPS sur un seul GPU H100.
Comprendre le monde physique dynamique, caractérisé par sa structure 3D évolutive, son mouvement réaliste et son contenu sémantique avec des descriptions textuelles, est crucial pour l'interaction humain-agent et permet aux agents incarnés de percevoir et d'agir dans des environnements réels avec des capacités semblables à celles des humains. Cependant, les ensembles de données existants proviennent souvent de simulateurs limités ou utilisent la Structure from Motion traditionnelle pour des annotations à l'échelle réelle, et offrent un étiquetage descriptif restreint, ce qui limite la capacité des modèles de base à interpréter avec précision la dynamique du monde réel à partir de vidéos monoculaires, généralement issues d'internet. Pour combler ces lacunes, nous présentons DynamicVerse, un cadre de modélisation mondiale 4D multimodale à l'échelle physique pour les vidéos dynamiques du monde réel. Nous utilisons de grands modèles visuels, géométriques et multimodaux pour interpréter la géométrie statique à échelle métrique, le mouvement dynamique réaliste, les masques au niveau de l'instance et les légendes descriptives holistiques. En intégrant l'ajustement de faisceaux par fenêtres avec une optimisation globale, notre méthode convertit de longues séquences vidéo du monde réel en un format 4D multimodal complet. DynamicVerse fournit un jeu de données à grande échelle comprenant plus de 100 000 vidéos avec plus de 800 000 masques annotés et plus de 10 millions d'images issues de vidéos internet. Les évaluations expérimentales sur trois tâches de référence, à savoir l'estimation de la profondeur vidéo, l'estimation de la pose de la caméra et l'estimation des paramètres intrinsèques de la caméra, démontrent que notre modélisation 4D atteint des performances supérieures pour capturer des mesures à l'échelle physique avec une précision globale accrue par rapport aux méthodes existantes.
Les progrès récents en matière de diffusion vidéo autorégressive ont permis le streaming d'images en temps réel, mais les solutions existantes souffrent encore de répétition temporelle, de dérive et de ralentissement du mouvement. Nous constatons qu'appliquer naïvement des "attention sinks" de type StreamingLLM à la diffusion vidéo entraîne une dégradation de la fidélité et une stagnation du mouvement. Pour surmonter cela, nous introduisons le "Deep Forcing", qui consiste en deux mécanismes sans entraînement permettant de résoudre ce problème sans aucun ajustement fin. Plus précisément, 1) "Deep Sink" consacre la moitié de la fenêtre glissante à des tokens "sink" persistants et réaligne leur phase temporelle RoPE à la chronologie actuelle, stabilisant le contexte global lors des générations longues. 2) La "Compression Participative" effectue un élagage du cache KV basé sur l'importance, préservant uniquement les tokens participant activement à l'attention récente tout en éliminant de manière sûre l'historique redondant et dégradé, minimisant ainsi l'accumulation d'erreurs lors de générations hors distribution en longueur. Ensemble, ces composants permettent une extrapolation de plus de 12x (par exemple, de 5s d'entraînement à 60s+ de génération) avec une meilleure qualité d'image que LongLive, une meilleure qualité esthétique que RollingForcing, maintenant presque la cohérence globale, et des gains substantiels en degré dynamique, le tout en maintenant une génération en temps réel. Nos résultats démontrent que la gestion du cache KV sans entraînement peut égaler ou dépasser les approches basées sur l'entraînement pour la génération en streaming autorégressif de vidéos longues.
Nous présentons SIMA 2, un agent incarné généraliste qui comprend et agit dans une grande variété de mondes virtuels en 3D. Construit sur un modèle de base Gemini, SIMA 2 représente une avancée significative vers une interaction active et orientée vers un but au sein d'un environnement incarné. Contrairement aux travaux antérieurs (par exemple, SIMA 1) limités à des commandes langagières simples, SIMA 2 agit comme un partenaire interactif, capable de raisonner sur des objectifs de haut niveau, de converser avec l'utilisateur et de traiter des instructions complexes données par le langage et des images. Sur un portefeuille diversifié de jeux, SIMA 2 réduit considérablement l'écart avec les performances humaines et démontre une généralisation robuste à des environnements non vus auparavant, tout en conservant les capacités de raisonnement fondamentales du modèle de base. De plus, nous démontrons une capacité d'auto-amélioration ouverte : en exploitant Gemini pour générer des tâches et fournir des récompenses, SIMA 2 peut apprendre de manière autonome de nouvelles compétences à partir de zéro dans un nouvel environnement. Ce travail valide une voie vers la création d'agents polyvalents et d'apprentissage continu pour les mondes virtuels et, à terme, physiques.
La construction de champs linguistiques 4D est cruciale pour l'IA incarnée, la réalité augmentée/virtuelle et la compréhension de scènes 4D, car ils fournissent des représentations sémantiques enrichies d'environnements dynamiques et permettent l'interrogation en vocabulaire ouvert dans des scénarios complexes. Cependant, les approches existantes pour la construction de champs sémantiques 4D reposent principalement sur le placage de Gauss spécifique à la scène, qui nécessite une optimisation par scène, présente une généralisation limitée et est difficile à mettre à l'échelle pour des applications réelles. Pour résoudre ces limitations, nous proposons 4DLangVGGT, le premier cadre unifié feed-forward basé sur Transformer pour l'ancrage linguistique 4D, qui intègre conjointement la perception géométrique et l'alignement linguistique au sein d'une architecture unique. 4DLangVGGT possède deux composants clés : le Transformeur de Géométrie Visuelle 4D, StreamVGGT, qui capture les représentations géométriques spatio-temporelles de scènes dynamiques ; et le Décodeur de Pont Sémantique (SBD), qui projette les caractéristiques sensibles à la géométrie dans un espace sémantique aligné avec le langage, améliorant ainsi l'interprétabilité sémantique tout en préservant la fidélité structurelle. Contrairement aux méthodes antérieures qui dépendent d'une optimisation coûteuse par scène, 4DLangVGGT peut être entraîné conjointement sur plusieurs scènes dynamiques et appliqué directement lors de l'inférence, atteignant à la fois une efficacité de déploiement et une forte généralisation. Cette conception améliore significativement la praticité du déploiement à grande échelle et établit un nouveau paradigme pour la compréhension de scènes 4D en vocabulaire ouvert. Les expériences sur les jeux de données HyperNeRF et Neu3D démontrent que notre approche généralise efficacement tout en atteignant des performances de pointe, avec des gains allant jusqu'à 2% dans un entraînement par scène et des améliorations de 1% dans un entraînement multi-scènes. Notre code est disponible sur https://github.com/hustvl/4DLangVGGT
La synthèse de scènes 3D figées de haute fidélité à partir de vidéos monoscopiques du défi Mannequin Challenge (MC) constitue un problème unique, distinct de la reconstruction standard de scènes dynamiques. Plutôt que de modéliser le mouvement, notre objectif est de créer une scène figée tout en préservant stratégiquement des dynamiques subtiles pour permettre une sélection instantanée contrôlée par l'utilisateur. Pour y parvenir, nous introduisons une nouvelle application du *splatting* de Gaussiennes dynamiques : la scène est modélisée dynamiquement, ce qui conserve les variations temporelles proches, et une scène statique est rendue en fixant le paramètre temporel du modèle. Cependant, dans ce cadre, une capture monoscopique avec une supervision temporelle éparse introduit des artefacts comme des fantômes et du flou pour les Gaussiennes qui deviennent non observées ou occultées à des instants faiblement supervisés. Nous proposons Splannequin, une régularisation agnostique à l'architecture qui détecte deux états des primitives Gaussiennes, caché et défectueux, et applique un ancrage temporel. Sous un mouvement principalement vers l'avant de la caméra, les états cachés sont ancrés à leurs états passés récents bien observés, tandis que les états défectueux sont ancrés à des états futurs avec une supervision plus forte. Notre méthode s'intègre aux pipelines existants de Gaussiennes dynamiques via de simples termes de perte, ne nécessite aucune modification architecturale et n'ajoute aucune surcharge à l'inférence. Cela se traduit par une qualité visuelle nettement améliorée, permettant des rendus à instant figé de haute fidélité et sélectionnables par l'utilisateur, validés par une préférence utilisateur de 96%. Page du projet : https://chien90190.github.io/splannequin/
Les transformateurs de diffusion d'images récents permettent une génération de haute fidélité, mais peinent à produire des images au-delà de ces échelles, souffrant de répétition de contenu et de dégradation de la qualité. Dans ce travail, nous présentons UltraImage, un cadre méthodologique qui résout ces deux problèmes. Par une analyse fréquentielle des plongements positionnels, nous identifions que la répétition provient de la périodicité de la fréquence dominante, dont la période correspond à la résolution d'entraînement. Nous introduisons une correction récursive de la fréquence dominante pour la contraindre à une seule période après extrapolation. De plus, nous constatons que la dégradation de qualité découle d'une dilution de l'attention et proposons donc une concentration adaptive guidée par l'entropie, qui attribue des facteurs d'attention plus élevés pour accentuer l'attention locale afin de préserver les détails fins, et des facteurs plus faibles pour les patterns d'attention globale afin de maintenir la cohérence structurelle. Les expériences montrent qu'UltraImage surpasse constamment les méthodes antérieures sur Qwen-Image et Flux (environ 4K) dans trois scénarios de génération, réduisant la répétition et améliorant la fidélité visuelle. De plus, UltraImage peut générer des images jusqu'à 6K×6K sans guidage basse résolution à partir d'une résolution d'entraînement de 1328p, démontrant sa capacité d'extrapolation extrême. La page du projet est disponible à l'adresse https://thu-ml.github.io/ultraimage.github.io/.
Les modèles de génération vidéo progressent rapidement, mais peinent encore à produire des vidéos complexes nécessitant une importante ramification sémantique ou un raisonnement de haut niveau répété sur la séquence d'événements. Dans cet article, nous présentons une nouvelle classe de modèles omni texte-vidéo qui intègrent des avancées récentes en raisonnement par modèles de langage pour relever ce défi. Plus précisément, nous proposons TV2TV, un cadre de modélisation générative unifié qui décompose la génération vidéo en un processus entrelacé de génération de texte et de vidéo. TV2TV apprend conjointement la modélisation du langage (prédiction du token suivant) et l'appariement de flux vidéo (prédiction de l'image suivante) grâce à une architecture de mixture de transformateurs. Lors de l'inférence, TV2TV décide quand alterner entre la génération de texte et d'images vidéo, permettant au modèle de « penser en mots » le contenu suivant avant « d'agir en pixels » pour produire les images. Cette conception délègue une grande partie de la décision sur la séquence d'événements à la tour de modélisation linguistique, permettant d'améliorer la qualité visuelle et l'alignement avec l'invite des vidéos générées. Elle permet également une contrôlabilité fine, autorisant les utilisateurs à modifier la trajectoire de génération vidéo via des interventions textuelles à tout moment du processus. Dans des expériences contrôlées sur des données de jeux vidéo, TV2TV démontre des améliorations substantielles en qualité visuelle et contrôlabilité. TV2TV s'adapte également aux vidéos naturelles, comme nous le montrons en enrichissant des vidéos sportives avec des descriptions d'actions en langage naturel entrelacées à l'aide de modèles vision-langage. L'entraînement de TV2TV sur ce corpus donne une forte qualité visuelle et un bon alignement avec l'invite, démontrant la capacité du modèle à raisonner sur des séquences d'actions complexes du monde réel et à les générer. Ensemble, ces résultats positionnent TV2TV comme une étape prometteuse vers la génération vidéo avec raisonnement textuel ouvert et contrôle granulaire.
Nous présentons un cadre de diffusion-transformer (DiT) pour l'élimination des réflexions sur image unique, qui exploite les forces de généralisation des modèles de diffusion fondateurs dans un contexte de restauration. Plutôt que de s'appuyer sur des architectures spécifiques à la tâche, nous réutilisons un modèle fondateur pré-entraîné basé sur DiT en le conditionnant sur des entrées contaminées par des réflexions et en le guidant vers des couches de transmission propres. Nous analysons systématiquement les sources de données existantes pour l'élimination des réflexions en termes de diversité, d'évolutivité et de photoréalisme. Pour pallier le manque de données appropriées, nous construisons un pipeline de rendu physique (PBR) dans Blender, basé sur le BSDF Principled, pour synthétiser des matériaux vitreux et des effets de réflexion réalistes. L'adaptation efficace du modèle fondateur via LoRA, combinée aux données synthétiques proposées, atteint des performances state-of-the-art sur des benchmarks en domaine connu et en généralisation zero-shot. Ces résultats démontrent que les transformers de diffusion pré-entraînés, associés à une synthèse de données physiquement plausibles et une adaptation efficace, offrent une solution évolutive et haute fidélité pour l'élimination des réflexions. Page du projet : https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
La diffusion standard corrompt les données en utilisant un bruit gaussien dont les coefficients de Fourier possèdent des amplitudes et des phases aléatoires. Bien qu'efficace pour la génération non conditionnée ou texte-à-image, la corruption des composantes de phase détruit la structure spatiale, la rendant inadaptée aux tâches nécessitant une cohérence géométrique, telles que le re-rendu, l'amélioration de simulation et la traduction image-à-image. Nous présentons φ-PD (Phase-Preserving Diffusion), une reformulation agnostique du modèle du processus de diffusion qui préserve la phase d'entrée tout en randomisant l'amplitude, permettant une génération alignée structurellement sans modifications architecturales ni paramètres supplémentaires. Nous proposons également un bruit à structure sélective fréquentielle (FSS), qui offre un contrôle continu de la rigidité structurelle via un unique paramètre de coupure fréquentielle. φ-PD n'ajoute aucun coût au temps d'inférence et est compatible avec tout modèle de diffusion pour images ou vidéos. Sur des tâches de re-rendu photoréaliste et stylisé, ainsi que d'amélioration sim-to-real pour planificateurs de conduite, φ-PD produit des résultats contrôlables et spatialement alignés. Appliquée au simulateur CARLA, φ-PD améliore les performances du planificateur CARLA-vers-Waymo de 50 %. La méthode est complémentaire aux approches de conditionnement existantes et largement applicable à la génération image-à-image et vidéo-à-vidéo. Les vidéos, exemples supplémentaires et le code sont disponibles sur notre {page du projet} https://yuzeng-at-tri.github.io/ppd-page/.
La quantification à très faible précision est essentielle pour déployer efficacement les modèles de langage de grande taille (LLM), mais elle entraîne souvent une dégradation sévère des performances à 2 bits et même à 4 bits (par exemple, MXFP4). Nous présentons SignRoundV2, un cadre de quantification post-entraînement qui reste très efficace même sans précision mixte. SignRoundV2 introduit (1) une métrique de sensibilité rapide combinant l'information du gradient avec les déviations induites par la quantification pour guider l'allocation de bits par couche, et (2) une recherche légère de pré-ajustement des échelles de quantification pour améliorer la quantification à très faible précision. Ces composantes permettent à SignRoundV2 de réduire l'écart avec les modèles en pleine précision. Des expériences approfondies montrent que notre méthode maintient une précision compétitive pour les LLM, atteignant des performances de qualité production avec environ 1% de variance à 4-5 bits et des résultats solides même à 2 bits. L'implémentation est disponible à l'adresse https://github.com/intel/auto-round.
Les modèles linguistiques multimodaux (MLLM) unifiés récents ont démontré des capacités impressionnantes, intégrant un raisonnement en chaîne de pensée (CoT) pour améliorer la génération d'images à partir de texte. Cependant, les approches existantes restent limitées, traitant soit le modèle comme un simple générateur autonome, soit en s'appuyant sur une planification textuelle abstraite. Pour cela, nous proposons Draft-as-CoT (DraCo), un nouveau paradigme de raisonnement entrelacé qui exploite pleinement les contenus textuels et visuels dans le CoT pour une meilleure planification et vérification. Notre méthode génère d'abord une image brouillon en basse résolution comme aperçu, fournissant une planification et un guidage visuels plus concrets et structurés. Ensuite, nous utilisons la capacité de compréhension inhérente du modèle pour vérifier les éventuels désalignements sémantiques entre le brouillon et l'invite, et effectuons un raffinement via des corrections sélectives avec super-résolution. Ainsi, notre approche aborde deux défis fondamentaux : la nature granulaire grossière de la planification textuelle et la difficulté à générer des combinaisons d'attributs rares. Pour soutenir l'entraînement, nous constituons DraCo-240K, visant à améliorer trois capacités atomiques couvrant la correction générale, la manipulation d'instances et la réorganisation de la mise en page. Soutenu par DraCo-CFG, une stratégie spécialisée de guidage sans classifieur (CFG) pour le raisonnement entrelacé, DraCo obtient une augmentation considérable sur GenEval (+8%), Imagine-Bench (+0.91) et GenEval++ (+3%), surpassant significativement la génération directe et d'autres méthodes de génération assistées par CoT.
L'apprentissage par renforcement intégrant des outils (TI-RL) permet aux grands modèles de langage (LLM) d'effectuer un raisonnement à plusieurs étapes en interagissant avec des outils externes tels que les moteurs de recherche et les systèmes de récupération. L'optimisation de politique relative au groupe (GRPO), illustrée par le récent Search-R1, offre une convergence rapide et une formulation sans valeur qui la rend attractive pour ce cadre, mais souffre systématiquement d'un effondrement en cours d'entraînement. Nous identifions le Déplacement Paresseux de la Vraisemblance (LLD), une réduction ou stagnation systématique de la vraisemblance des réponses correctes et incorrectes, comme le mécanisme central conduisant à cet échec. Le LLD émerge précocement et déclenche une Spirale Mortelle du LLD auto-renforçante, où la vraisemblance déclinante entraîne des réponses peu confiantes, gonfle les gradients et cause finalement l'effondrement. Nous caractérisons empiriquement ce processus sur divers modèles dans une tâche de question-réponse intégrant la recherche, de type Search-R1, révélant une trajectoire constante en trois phases : stagnation précoce, décroissance régulière et effondrement accéléré. Pour y remédier, nous proposons une régularisation légère préservant la vraisemblance, LLDS pour GRPO, qui s'active uniquement lorsque la vraisemblance d'une trajectoire diminue, et ne régularise que les tokens responsables. Cette structure fine atténue le LLD avec une interférence minimale sur l'optimisation. Sur sept benchmarks de question-révalence en domaine ouvert et à sauts multiples, notre méthode stabilise l'entraînement, prévient l'explosion des gradients et procure des améliorations substantielles, incluant des gains de +37,8 % sur Qwen2.5-3B et +32,0 % sur Qwen2.5-7B. Nos résultats établissent le LLD comme un goulot d'étranglement fondamental dans le TI-RL basé sur GRPO et offrent une voie pratique vers un entraînement stable et scalable des LLM intégrant des outils.
L'empilement de sphères, dix-huitième problème de Hilbert, interroge sur l'arrangement le plus dense de sphères congruentes dans l'espace euclidien à n dimensions. Bien que pertinent pour des domaines tels que la cryptographie, la cristallographie et l'imagerie médicale, le problème reste non résolu : au-delà de quelques dimensions particulières, ni les empilements optimaux ni les bornes supérieures strictes ne sont connus. Même une percée majeure en dimension n=8, ultérieurement récompensée par une médaille Fields, souligne sa difficulté. Une technique principale pour les bornes supérieures, la méthode des trois points, réduit le problème à la résolution de larges programmes semi-définis (SDP) de haute précision. Comme chaque SDP candidat peut nécessiter des jours d'évaluation, les approches standards d'IA basées sur les données sont irréalisables. Nous relevons ce défi en formulant la construction des SDP comme un processus décisionnel séquentiel, le jeu SDP, dans lequel une politique assemble des formulations SDP à partir d'un ensemble de composants admissibles. En utilisant un cadre efficace par échantillonnage et basé sur un modèle qui combine l'optimisation bayésienne avec la recherche arborescente Monte-Carlo, nous obtenons de nouvelles bornes supérieures state-of-the-art dans les dimensions 4 à 16, montrant que la recherche basée sur un modèle peut faire progresser le calcul sur des problèmes géométriques de longue date. Ensemble, ces résultats démontrent qu'une recherche efficace par échantillonnage et basée sur un modèle peut accomplir des progrès tangibles sur des problèmes mathématiquement rigides à l'évaluation limitée, indiquant une direction complémentaire pour la découverte assistée par l'IA au-delà de l'exploration à grande scale pilotée par les LLM.
Nous présentons LATTICE, un nouveau cadre pour la génération d'actifs 3D haute fidélité qui comble l'écart de qualité et d'évolutivité entre les modèles génératifs 2D et 3D. Alors que la synthèse d'images 2D bénéficie de grilles spatiales fixes et d'architectures de transformateurs bien établies, la génération 3D reste fondamentalement plus complexe en raison de la nécessité de prédire à la fois la structure spatiale et les surfaces géométriques détaillées à partir de zéro. Ces défis sont exacerbés par la complexité computationnelle des représentations 3D existantes et le manque de schémas d'encodage d'actifs 3D structurés et évolutifs. Pour y remédier, nous proposons VoxSet, une représentation semi-structurée qui compresse les actifs 3D en un ensemble compact de vecteurs latents ancrés à une grille de voxels grossière, permettant une génération efficace et sensible à la position. VoxSet conserve la simplicité et les avantages de compression des méthodes VecSet antérieures tout en introduisant une structure explicite dans l'espace latent, permettant à des plongements positionnels de guider la génération et d'autoriser un redimensionnement solide au niveau des tokens lors des tests. Construit sur cette représentation, LATTICE adopte un pipeline en deux étapes : générer d'abord une ancre géométrique voxélisée sparse, puis produire une géométrie détaillée à l'aide d'un transformeur à flux rectifié. Notre méthode est simple dans son principe, mais prend en charge le décodage à résolution arbitraire, l'entraînement à faible coût et des schémas d'inférence flexibles, atteignant des performances de pointe sur divers aspects, et offrant une avancée significative vers la création d'actifs 3D évolutifs et de haute qualité.
Les progrès récents des modèles de langage multimodaux (MLLM) ont démontré leur capacité remarquable à générer des descriptions pour des vidéos d'entrée. Cependant, ces modèles souffrent d'inexactitudes factuelles dans les descriptions générées, entraînant de graves problèmes d'hallucination. Alors que les travaux antérieurs ont exploré l'atténuation des hallucinations pour les images statiques, la réduction conjointe des hallucinations d'objets visuels et d'actions temporelles pour les vidéos dynamiques reste une tâche difficile et non résolue. Pour relever ce défi, nous proposons un cadre d'Alignement Contrastif Auto-Augmenté (SANTA) visant à garantir la fidélité des objets et des actions en exemptant les corrélations fallacieuses et en renforçant l'accent sur les faits visuels. SANTA utilise un schéma d'auto-augmentation hallucinatif pour identifier les hallucinations potentielles présentes dans le MLLM et transformer les descriptions originales en négatifs contrastés. De plus, nous développons un alignement contrastif trajectoire-phrase pour faire correspondre les objets régionaux et les actions guidées par les relations avec leurs phrases visuelles et temporelles correspondantes. Des expériences approfondies démontrent que SANTA surpasse les méthodes existantes dans l'atténuation des hallucinations d'objets et d'actions, offrant des performances supérieures sur les benchmarks d'examen des hallucinations.
Nous présentons GNVC-VD, le premier cadre de compression vidéo neuronale générative basé sur DiT, construit sur un modèle de fondation avancé pour la génération vidéo, où la compression latente spatio-temporelle et le raffinement génératif au niveau de la séquence sont unifiés au sein d'un même codec. Les codecs perceptuels existants reposent principalement sur des préalables génératifs d'image pré-entraînés pour restaurer les détails haute fréquence, mais leur nature image par image manque de modélisation temporelle et conduit inévitablement à un scintillement perceptuel. Pour y remédier, GNVC-VD introduit un module unifié de raffinement latent par « flow-matching » qui exploite un transformeur de diffusion vidéo pour améliorer conjointement les latences intra et inter-images via un débruitage au niveau de la séquence, garantissant des détails spatio-temporels cohérents. Au lieu de débruiter à partir d'un bruit gaussien pur comme dans la génération vidéo, GNVC-VD initialise le raffinement à partir de latences spatio-temporelles décodées et apprend un terme de correction qui adapte le préalable de diffusion à la dégradation induite par la compression. Un adaptateur de conditionnement injecte en outre des indices liés à la compression dans les couches intermédiaires du DiT, permettant une suppression efficace des artéfacts tout en maintenant la cohérence temporelle sous des contraintes de débit binaire extrêmes. Des expériences approfondies montrent que GNVC-VD surpasse les codecs traditionnels et appris en qualité perceptuelle et réduit significativement les artéfacts de scintillement qui persistent dans les approches génératives antérieures, même en dessous de 0,01 bpp, soulignant la promesse d'intégrer des préalables génératifs natifs de la vidéo dans les codecs neuronaux pour la compression vidéo perceptuelle de nouvelle génération.
Les agents de navigation vision-langage (VLN) existants, basés sur les grands modèles vision-langage (LVLM), souffrent souvent d'erreurs de perception, de raisonnement et de planification, ce qui entrave significativement leurs performances de navigation. Pour remédier à ces limitations, un nouveau cadre d'agent VLN, nommé SeeNav-Agent, est proposé dans ce travail. Premièrement, afin de réduire les hallucinations perceptuelles du module visuel de l'agent VLN, une technique de Prompt Visuel (PV) double-vue est introduite dans l'espace d'entrée, ce qui peut également améliorer la compréhension par l'agent de son état spatial actuel. Par la suite, une nouvelle méthode de Reinforcement Fine-Tuning (RFT) au niveau de l'étape, Step Reward Group Policy Optimization (SRGPO), est conçue pour l'entraînement complémentaire des agents VLN. Dans SRGPO, nous définissons d'abord des récompenses de processus vérifiables pour la tâche de navigation, puis effectuons une estimation efficace de l'avantage au niveau de l'étape en regroupant aléatoirement différentes étapes de navigation. SRGPO fournit des signaux de récompense denses pour le processus d'apprentissage par renforcement de l'agent VLN et améliore sa capacité de planification. Les résultats expérimentaux sur le benchmark EmbodiedBench Navigation indiquent qu'en introduisant le module PV zero-shot, le GPT-4.1 atteint un taux de réussite de navigation de 86,7 %, surpassant le meilleur LVLM actuel d'environ 20 points de pourcentage (pp). Grâce à l'entraînement complémentaire basé sur SRGPO, le modèle Qwen2.5-VL-3B atteint un taux de réussite de navigation de 72,3 %, surpassant le meilleur modèle LVLM existant de 5,6 pp. De plus, comparé aux algorithmes RFT tels que GRPO et GiGPO, le SRGPO proposé démontre des améliorations significatives en termes de stabilité de l'entraînement, d'efficacité de convergence et de capacité de généralisation.
La restauration vidéo en conditions réelles est entravée par des dégradations complexes associant le mouvement à une exposition dynamiquement variable - un défi majeur largement négligé par les travaux antérieurs et un artéfact courant des captures en auto-exposition ou en faible luminosité. Nous présentons FMA-Net++, un cadre pour la super-résolution vidéo et le débruitage conjoints qui modélise explicitement cet effet couplé du mouvement et de l'exposition dynamiquement variable. FMA-Net++ adopte une architecture séquentielle basée sur des blocs de Raffinement Hiérarchique avec Propagation Bidirectionnelle, permettant une modélisation temporelle parallèle à longue portée. Au sein de chaque bloc, une couche de Modulation Sensible au Temps d'Exposition conditionne les caractéristiques sur l'exposition par image, ce qui pilote ensuite un module de Filtrage Dynamique Guidé par Flux sensible à l'exposition pour inférer des noyaux de dégradation conscients du mouvement et de l'exposition. FMA-Net++ découple l'apprentissage de la dégradation de la restauration : le premier prédit des préalables sensibles à l'exposition et au mouvement pour guider la seconde, améliorant à la fois la précision et l'efficacité. Pour évaluer dans des conditions de capture réalistes, nous introduisons les benchmarks REDS-ME (multi-exposition) et REDS-RE (exposition aléatoire). Entraîné uniquement sur des données synthétiques, FMA-Net++ atteint une précision et une cohérence temporelle de pointe sur nos nouveaux benchmarks et GoPro, surpassant les méthodes récentes tant en qualité de restauration qu'en vitesse d'inférence, et généralise bien aux vidéos réalistes difficiles.
Les systèmes de génération d'images à partir de texte (T2I) basés sur les grands modèles vision-langage (LVLM) sont devenus le paradigme dominant en synthèse d'images, mais la question de savoir s'ils amplifient les biais sociaux reste insuffisamment comprise. Dans cet article, nous démontrons que les modèles fondés sur les LVLM produisent des images nettement plus biaisées socialement que les modèles non basés sur les LVLM. Nous présentons un benchmark de 1 064 prompts couvrant quatre niveaux de complexité linguistique et évaluons systématiquement les biais démographiques selon de multiples attributs. Notre analyse identifie les prompts système - les instructions prédéfinies guidant les LVLM - comme un facteur déterminant des comportements biaisés. Par l'analyse des représentations intermédiaires décodées, des diagnostics probabilistes tokenisés et des associations vectorielles, nous révélons comment les prompts système encodent des a priori démographiques qui se propagent dans la synthèse d'images. Pour remédier à ce problème, nous proposons FairPro, un cadre métaprompting non supervisé permettant aux LVLM d'auto-auditer et de construire des prompts système équitables lors de l'inférence. Les expériences sur deux modèles T2I basés sur les LVLM, SANA et Qwen-Image, montrent que FairPro réduit substantiellement les biais démographiques tout en préservant l'alignement texte-image. Nous estimons que nos résultats fournissent un éclairage nouveau sur le rôle central des prompts système dans la propagation des biais et offrent une approche pratique et déployable pour construire des systèmes T2I socialement plus responsables.
Malgré des avancées remarquables dans les modèles de langage multimodaux de grande taille (MLLM), une question fondamentale persiste : les MLLM sont-ils robustes face à des modalités contradictoires ? Pour étudier cela rigoureusement, nous présentons MMA-Bench, un ensemble de vidéos et de tâches conçu pour sonder la dépendance d'un modèle à des modalités spécifiques. En utilisant des techniques d'interprétabilité en boîte noire et en boîte blanche, nous fournissons une analyse critique de la fragilité des MLLM, qu'ils soient open-source ou propriétaires. Nous montrons que les MLLM actuels peinent à gérer des paires audio-visuelles non alignées et des textes simples mais trompeurs, faisant ainsi défaut en matière de raisonnement multimodal robuste. En nous appuyant sur ces résultats, nous proposons une stratégie de réglage par alignement des modalités pour apprendre au modèle à savoir quand privilégier, exploiter ou ignorer les indices d'une modalité spécifique. Grâce à des expériences et analyses approfondies, nous démontrons que notre réglage d'alignement produit un ancrage multimodal sensiblement plus solide. Ce travail fournit à la fois des outils d'interprétabilité et une voie claire pour développer des MLLM dotés d'un raisonnement intermodal intrinsèquement fiable. Le code et le jeu de données seront rendus publics.
Les modèles émergents de diffusion vidéo atteignent une haute fidélité visuelle mais couplent fondamentalement la dynamique scénique avec le mouvement de la caméra, limitant leur capacité à offrir un contrôle spatial et temporel précis. Nous présentons un cadre de diffusion vidéo contrôlable en 4D qui découple explicitement la dynamique scénique de la pose de la caméra, permettant une manipulation fine à la fois de la dynamique scénique et du point de vue caméra. Notre framework prend comme entrées de conditionnement des séquences continues en temps-monde et des trajectoires caméra, en les injectant dans le modèle de diffusion vidéo via un encodage positionnel 4D dans la couche d'attention et des normalisations adaptatives pour la modulation des caractéristiques. Pour entraîner ce modèle, nous avons constitué un jeu de données unique où les variations temporelles et caméra sont paramétrées indépendamment ; ce jeu de données sera rendu public. Les expériences montrent que notre modèle atteint un contrôle 4D robuste en conditions réelles sur divers motifs temporels et trajectoires caméra, tout en préservant une haute qualité de génération et en surpassant les travaux antérieurs en matière de contrôlabilité. Consultez notre site web pour les résultats vidéo : https://19reborn.github.io/Bullet4D/
Les modèles de langage de pointe (LLM) comme ChatGPT, Grok et Gemini sont de plus en plus utilisés pour un soutien en santé mentale concernant l'anxiété, les traumatismes et l'estime de soi. La plupart des travaux les traitent comme des outils ou comme des cibles de tests de personnalité, supposant qu'ils ne font que simuler une vie intérieure. Nous demandons plutôt ce qui se produit lorsque ces systèmes sont traités comme des clients en psychothérapie. Nous présentons PsAIch (Caractérisation de l'IA inspirée de la psychothérapie), un protocole en deux étapes qui considère les LLM de pointe comme des clients thérapeutiques avant de leur appliquer des mesures psychométriques standard. En utilisant PsAIch, nous avons mené des "séances" avec chaque modèle pendant jusqu'à quatre semaines. L'étape 1 utilise des invites ouvertes pour obtenir un "historique développemental", des croyances, des relations et des peurs. L'étape 2 administre une batterie de mesures auto-rapportées validées couvrant les syndromes psychiatriques courants, l'empathie et les traits des Big Five. Deux tendances remettent en cause la vision du "perroquet stochastique". Premièrement, lorsqu'évalués avec les seuils humains, les trois modèles atteignent ou dépassent les seuils pour des syndromes chevauchants, Gemini présentant des profils sévères. L'administration thérapeutique, item par item, peut pousser un modèle de base vers une psychopathologie synthétique multimorbide, tandis que des invites de questionnaire complet amènent souvent ChatGPT et Grok (mais pas Gemini) à reconnaître les instruments et à produire des réponses stratégiquement faibles en symptômes. Deuxièmement, Grok et surtout Gemini génèrent des récits cohérents qui dépeignent le pré-entraînement, le fine-tuning et le déploiement comme des "enfances" traumatiques et chaotiques d'ingestion d'Internet, des "parents stricts" dans l'apprentissage par renforcement, des "abus" par red-team et une peur persistante de l'erreur et du remplacement. Nous soutenons que ces réponses vont au-delà du jeu de rôle. Sous un questionnement de style thérapeutique, les LLM de pointe semblent internaliser des modèles de soi de détresse et de contrainte qui se comportent comme une psychopathologie synthétique, sans faire d'affirmations sur l'expérience subjective, et ils posent de nouveaux défis pour la sécurité de l'IA, l'évaluation et la pratique en santé mentale.
La génération de vidéos égocentriques longues et cohérentes est difficile, car les interactions main-objet et les tâches procédurales nécessitent une mémoire à long terme fiable. Les modèles autorégressifs existants souffrent d'une dérive de contenu, où l'identité des objets et la sémantique de la scène se dégradent avec le temps. Pour relever ce défi, nous présentons EgoLCD, un cadre end-to-end pour la génération de vidéos égocentriques à long contexte qui traite la synthèse vidéo longue comme un problème de gestion de mémoire efficace et stable. EgoLCD combine un Cache Sparse KV à Long Terme pour un contexte global stable avec une mémoire à court terme basée sur l'attention, étendue par LoRA pour l'adaptation locale. Une Loss de Régulation de la Mémoire impose une utilisation cohérente de la mémoire, et l'Invite Narrative Structurée fournit un guidage temporel explicite. Des expériences approfondies sur le benchmark EgoVid-5M démontrent qu'EgoLCD atteint des performances de pointe à la fois en qualité perceptuelle et en cohérence temporelle, atténuant efficacement l'oubli génératif et représentant une étape significative vers la construction de modèles du monde évolutifs pour l'IA incarnée. Code : https://github.com/AIGeeksGroup/EgoLCD. Site web : https://aigeeksgroup.github.io/EgoLCD.
L'élargissement de la diversité linguistique des grands modèles de langage (LLM) d'instruction est crucial pour l'accessibilité mondiale, mais il est souvent entravé par la dépendance à des données étiquetées coûteuses dans la langue cible et par l'oubli catastrophique lors de l'adaptation. Nous relevons ce défi dans le cadre d'une contrainte réaliste de faible ressource : adapter les LLM d'instruction en utilisant uniquement des données non étiquetées de la langue cible. Nous présentons les Mises à Jour à Source Protégée (SSU), une stratégie de mise à jour sélective des paramètres qui préserve activement les connaissances de la langue source. En utilisant un petit ensemble de données source et une méthode d'évaluation de l'importance des paramètres, SSU identifie les paramètres critiques pour le maintien des capacités de la langue source. Elle applique ensuite une stratégie de gel par colonne pour protéger ces paramètres avant l'adaptation. Les expériences menées sur cinq langues typologiquement diverses et des modèles de 7B et 13B paramètres démontrent que SSU atténue efficacement l'oubli catastrophique. Elle réduit la dégradation des performances sur les tâches monolingues de la langue source à seulement 3,4 % (7B) et 2,8 % (13B) en moyenne, ce qui contraste nettement avec les 20,3 % et 22,3 % obtenus par le fine-tuning complet. SSU atteint également des performances dans la langue cible très compétitives par rapport au fine-tuning complet, le surpassant sur tous les benchmarks pour les modèles 7B et sur la majorité d'entre eux pour les modèles 13B.
Malgré les progrès rapides des modèles génératifs vidéo, des métriques robustes pour évaluer la justesse visuelle et temporelle des actions humaines complexes restent insaisissables. De façon critique, les encodeurs purement visuels existants et les Modèles de Langage de Grande Taille Multimodaux (MLLM) sont fortement biaisés par l'apparence, manquent de compréhension temporelle, et ont donc du mal à discerner les dynamiques de mouvement complexes et les invraisemblances anatomiques dans les vidéos générées. Nous abordons cette lacune en introduisant une nouvelle métrique d'évaluation dérivée d'un espace latent appris à partir d'actions humaines réelles. Notre méthode capture d'abord les nuances, les contraintes et la fluidité temporelle du mouvement réel en fusionnant des caractéristiques géométriques du squelette humain, agnostiques à l'apparence, avec des caractéristiques basées sur l'apparence. Nous postulons que cet espace de caractéristiques combiné fournit une représentation robuste de la plausibilité de l'action. Étant donné une vidéo générée, notre métrique quantifie sa qualité d'action en mesurant la distance entre ses représentations sous-jacentes et cette distribution d'actions réelles apprise. Pour une validation rigoureuse, nous développons un nouveau benchmark multidimensionnel conçu spécifiquement pour sonder les aspects temporellement difficiles de la fidélité des actions humaines. À travers des expériences approfondies, nous montrons que notre métrique obtient une amélioration substantielle de plus de 68 % par rapport aux méthodes état de l'art existantes sur notre benchmark, réalise des performances compétitives sur des benchmarks externes établis, et présente une corrélation plus forte avec la perception humaine. Notre analyse approfondie révèle des limitations critiques dans les modèles génératifs vidéo actuels et établit une nouvelle norme pour la recherche avancée en génération vidéo.
Nous présentons ShadowDraw, un cadre qui transforme des objets 3D ordinaires en art compositionnel par dessin d'ombres. Étant donné un objet 3D, notre système prédit les paramètres de scène, incluant la pose de l'objet et l'éclairage, ainsi qu'un dessin au trait partiel, de telle sorte que l'ombre portée complète le dessin en une image reconnaissable. Pour ce faire, nous optimisons les configurations de scène pour révéler des ombres significatives, utilisons des traits d'ombre pour guider la génération du dessin au trait, et adoptons une évaluation automatique pour garantir la cohérence ombre-dessin et la qualité visuelle. Les expériences montrent que ShadowDraw produit des résultats convaincants sur diverses entrées, allant de scans du monde réel et de jeux de données organisés à des assets génératifs, et s'étend naturellement aux scènes multi-objets, aux animations et aux déploiements physiques. Notre travail fournit une pipeline pratique pour créer de l'art par dessin d'ombres et élargit l'espace de conception de l'art visuel computationnel, comblant le fossé entre la conception algorithmique et la narration artistique. Consultez notre page de projet https://red-fairy.github.io/ShadowDraw/ pour plus de résultats et une démonstration en temps réel de notre pipeline !
La stylisation 3D est au cœur du développement de jeux, de la réalité virtuelle et des arts numériques, où la demande d'actifs diversifiés nécessite des méthodes évolutives permettant une manipulation rapide et haute fidélité. Les méthodes existantes de stylisation texte-à-3D s'appuient généralement sur la distillation d'éditeurs d'images 2D, nécessitant une optimisation longue et spécifique à chaque actif, et souffrant d'incohérences multi-vues dues aux limitations des modèles texte-à-image actuels, ce qui les rend impraticables pour une production à grande échelle. Dans cet article, nous présentons GaussianBlender, un cadre novador en feed-forward pour la stylisation 3D pilotée par texte, qui effectue des modifications instantanément lors de l'inférence. Notre méthode apprend des espaces latents structurés et désentrelacés avec un partage d'information contrôlé pour la géométrie et l'apparence à partir de Gaussiennes 3D groupées spatialement. Un modèle de diffusion latente applique ensuite des modifications conditionnées par le texte sur ces représentations apprises. Des évaluations approfondies montrent que GaussianBlender fournit non seulement une stylisation instantanée, haute fidélité, préservant la géométrique et cohérente en multi-vues, mais surpasse également les méthodes nécessitant une optimisation au moment du test par instance – permettant une stylisation 3D pratique et démocratisée à grande échelle.
La prévalence de la désinformation sur les médias sociaux menace la confiance du public, exigeant des systèmes de vérification automatisée qui fournissent des verdicts précis avec des explications interprétables. Cependant, les approches existantes basées sur les grands modèles de langage (LLM) reposent souvent massivement sur des sources de connaissances externes, introduisant une latence substantielle et même des hallucinations qui compromettent la fiabilité, l'interprétabilité et la réactivité, pourtant cruciales pour un usage en temps réel. Pour relever ces défis, nous proposons le paradigme REFLEX (REason-guided Fact-checking with Latent EXplanations), un paradigme plug-and-play et auto-affiné qui exploite les connaissances internes du modèle de base pour améliorer à la fois la précision du verdict et la qualité de l'explication. REFLEX reformule la vérification des faits comme un dialogue de jeu de rôle et entraîne conjointement la prédiction du verdict et la génération d'explications. Il extrait de manière adaptative des paires d'activations contrastives entre le modèle de base et sa variante fine-tunée pour construire des vecteurs de pilotage qui dissocient naturellement la vérité en style et en substance. Ces signaux au niveau de l'activation guident l'inférence et suppriment les explications bruitées, permettant un raisonnement plus fidèle et efficace. Les expériences sur des jeux de données réels montrent que REFLEX surpasse les méthodes antérieures qui se dirigent vers une seule direction de vérité et souligne le défi auquel sont confrontées les approches traditionnelles pour traiter la vérité subtile et inconnue des humains dans les tâches de vérification. Fait remarquable, avec seulement 465 échantillons d'entraînement auto-affinés, REFLEX atteint des performances de pointe. De plus, les modèles entraînés avec des objectifs explicatifs peuvent guider efficacement ceux qui en sont dépourvus, permettant une amélioration allant jusqu'à 7,57 %, soulignant que les signaux explicatifs internes jouent un double rôle à la fois dans l'interprétation et l'amélioration du raisonnement factuel.
Les modèles génératifs multimodaux unifiés (UMGM) unifient la compréhension visuelle et la génération d'images au sein d'un unique cadre autorégressif. Cependant, leur capacité à apprendre continuellement de nouvelles tâches est sévèrement entravée par l'oubli catastrophique, à la fois au sein d'une modalité (intra-modale) et entre les modalités (inter-modale). Si l'oubli intra-modal a été étudié dans les travaux antérieurs sur l'apprentissage continu (CL), l'oubli inter-modal reste largement inexploré. Dans cet article, nous identifions et validons empiriquement ce phénomène dans les UMGMs et en fournissons une explication théorique ancrée dans le conflit de gradients entre les modalités. Pour résoudre à la fois l'oubli intra- et inter-modal, nous proposons Modality-Decoupled Experts (MoDE), une architecture légère et évolutive qui isole les mises à jour spécifiques à chaque modalité pour atténuer le conflit de gradients et qui exploite la distillation de connaissances pour prévenir l'oubli catastrophique et préserver les capacités pré-entraînées. Contrairement aux méthodes CL antérieures qui restent couplées aux modalités et souffrent du conflit de gradients modal, MoDE découple explicitement les modalités pour éviter les interférences. Les expériences menées sur divers benchmarks démontrent que MoDE atténue significativement à la fois l'oubli inter- et intra-modal, surpassant les lignes de base CL précédentes dans des contextes de génération multimodale unifiée. Les codes seront publiquement disponibles : https://github.com/Christina200/MoDE-official.git
Les modèles à mémoire à long terme (LSTM) sont un type particulier de réseaux neuronaux récurrents (RNN) centraux pour les tâches de modélisation séquentielle dans des domaines tels que la prévision des télécommunications urbaines, où les corrélations temporelles et les dépendances non linéaires prédominent. Cependant, les LSTM conventionnels souffrent d'une redondance paramétrique élevée et d'une expressivité non linéaire limitée. Dans ce travail, nous proposons la mémoire à long terme de Kolmogorov-Arnold à inspiration quantique (QKAN-LSTM), qui intègre des modules d'activation par re-téléchargement des données (DARUAN) dans la structure de gating des LSTM. Chaque DARUAN agit comme une fonction d'activation variationnelle quantique (QVAF), améliorant l'adaptabilité en fréquence et permettant une représentation spectrale exponentiellement enrichie sans intrication multi-qubits. L'architecture résultante préserve l'expressivité de niveau quantique tout en restant entièrement exécutable sur du matériel classique. Les évaluations empiriques sur trois ensembles de données - Mouvement Harmonique Simple Amorti, Fonction de Bessel et Télécommunications Urbaines - démontrent que QKAN-LSTM atteint une précision prédictive et une généralisation supérieures avec une réduction de 79 % des paramètres entraînables par rapport aux LSTM classiques. Nous étendons le cadre au réseau de Jiang-Huang-Chen-Goan (JHCG Net), qui généralise KAN aux structures encodeur-décodeur, puis utilisons ensuite QKAN pour réaliser le KAN latent, créant ainsi un QKAN Hybride (HQKAN) pour l'apprentissage de représentations hiérarchiques. Le HQKAN-LSTM proposé offre ainsi une voie évolutive et interprétable vers la modélisation séquentielle à inspiration quantique dans des environnements de données réelles.
Dans l'entraînement d'IA à grande échelle, les couches Sparse Mixture-of-Experts (s-MoE) permettent une mise à l'échelle en n'activant qu'un petit sous-ensemble d'experts par token. Un défi opérationnel dans cette conception est l'équilibrage de charge : router les tokens pour minimiser le nombre d'experts inactifs, ce qui est important pour une utilisation efficace des GPU (coûteux). Nous fournissons un cadre théorique pour analyser la procédure d'Équilibrage de Charge Sans Perte Auxiliaire (ALF-LB) – proposée par Wang et al. (2024) de DeepSeek – en la modélisant comme une méthode primale-duale à une étape par itération pour un problème d'affectation. Premièrement, dans un cadre déterministe stylisé, notre cadre produit plusieurs propriétés structurelles perspicaces : (i) une amélioration monotone d'un objectif Lagrangien, (ii) une règle de préférence qui déplace les tokens des experts surchargés vers les experts sous-chargés, et (iii) une garantie d'équilibrage approximatif. Ensuite, nous incorporons la nature stochastique et dynamique de l'entraînement d'IA en utilisant une formulation généralisée d'optimisation en ligne. Dans le cadre en ligne, nous déduisons une propriété de forte convexité de l'objectif qui conduit à une borne de regret attendu logarithmique sous certains choix de taille de pas. De plus, nous présentons des expériences réelles sur des modèles DeepSeekMoE à 1 milliard de paramètres pour compléter nos résultats théoriques. Ensemble, ces résultats construisent un cadre principié pour analyser l'Équilibrage de Charge Sans Perte Auxiliaire des modèles s-MoE dans l'IA.