papers.description
Nous présentons Wan-Move, un cadre simple et évolutif qui intègre le contrôle du mouvement aux modèles génératifs vidéo. Les méthodes existantes de contrôle du mouvement souffrent généralement d'une granularité de contrôle grossière et d'une évolutivité limitée, rendant leurs résultats insuffisants pour un usage pratique. Nous réduisons cet écart en réalisant un contrôle du mouvement précis et de haute qualité. Notre idée centrale est de rendre directement les caractéristiques conditionnelles originales sensibles au mouvement pour guider la synthèse vidéo. Pour cela, nous représentons d'abord les mouvements d'objets par des trajectoires de points denses, permettant un contrôle fin de la scène. Nous projetons ensuite ces trajectoires dans l'espace latent et propageons les caractéristiques de la première image le long de chaque trajectoire, produisant une carte de caractéristiques spatiotemporelles alignée qui indique comment chaque élément de la scène doit se déplacer. Cette carte de caractéristiques sert de condition latente mise à jour, qui s'intègre naturellement dans le modèle image-à-vidéo existant, par exemple Wan-I2V-14B, comme guide de mouvement sans aucune modification architecturale. Cela élimine le besoin d'encodeurs de mouvement auxiliaires et rend le fine-tuning des modèles de base facilement évolutif. Grâce à un entraînement à grande échelle, Wan-Move génère des vidéos de 5 secondes en 480p dont la contrôlabilité du mouvement rivalise avec le pinceau de mouvement commercial de Kling 1.5 Pro, comme l'indiquent les études utilisateurs. Pour soutenir une évaluation complète, nous concevons en outre MoveBench, un benchmark rigoureusement constitué comprenant des catégories de contenu diversifiées et des annotations hybrides vérifiées. Il se distingue par un volume de données plus important, des durées vidéo plus longues et des annotations de mouvement de haute qualité. Des expériences approfondies sur MoveBench et le jeu de données public confirment systématiquement la qualité mouvement supérieure de Wan-Move. Le code, les modèles et les données du benchmark sont rendus publics.
Le rendu neuronal, en particulier la méthode du « Gaussian Splatting » 3D (3DGS), a évolué rapidement et est devenu un composant clé pour la construction de modèles du monde. Cependant, les solutions de visualisation existantes restent fragmentées, lourdes ou contraintes par des pipelines hérités, ce qui entraîne une friction de déploiement élevée et un support limité pour le contenu dynamique et les modèles génératifs. Dans ce travail, nous présentons Visionary, une plateforme ouverte et native du web pour le rendu en temps réel de scènes Gaussian Splatting variées et de maillages. Construit sur un moteur de rendu WebGPU efficace avec inférence ONNX par frame, Visionary permet un traitement neuronal dynamique tout en maintenant une expérience navigateur légère de type « cliquer-pour-exécuter ». Il introduit un contrat standardisé « Gaussian Generator », qui non seulement prend en charge le rendu 3DGS standard, mais permet également à des algorithmes plug-and-play de générer ou de mettre à jour les Gaussiennes à chaque frame. Cette inférence nous permet également d'appliquer un post-traitement génératif de type feedforward. La plateforme propose en outre une bibliothèque d'extension pour three.js avec une API TypeScript concise pour une intégration transparente dans les applications web existantes. Les expériences montrent que, sur des assets 3DGS identiques, Visionary atteint une efficacité de rendu supérieure aux visualiseurs Web actuels grâce à un tri des primitives basé sur le GPU. Elle prend déjà en charge de multiples variantes, incluant le 3DGS basé sur MLP, le 4DGS, les avatars neuronaux, et les réseaux de transformation ou d'amélioration de style. En unifiant l'inférence et le rendu directement dans le navigateur, Visionary abaisse significativement la barrière pour la reproduction, la comparaison et le déploiement des méthodes de la famille 3DGS, servant de « World Model Carrier » unifié pour les paradigmes reconstructifs et génératifs.
Le remplacement de visage vidéo est crucial dans la production cinématographique et divertissement, où atteindre une haute fidélité et une cohérence temporelle sur des séquences vidéo longues et complexes reste un défi majeur. Inspirés par les récentes avancées en édition d'images guidée par référence, nous explorons si les attributs visuels riches des vidéos sources peuvent être similairement exploités pour améliorer à la fois la fidélité et la cohérence temporelle dans le remplacement de visage vidéo. Forts de cette intuition, ce travail présente LivingSwap, le premier modèle de remplacement de visage guidé par référence vidéo. Notre approche utilise des images-clés comme signaux de conditionnement pour injecter l'identité cible, permettant un éditing flexible et contrôlable. En combinant le conditionnement par images-clés avec le guidage par référence vidéo, le modèle effectue un raccordement temporel pour assurer une préservation stable de l'identité et une reconstruction haute fidélité sur de longues séquences vidéo. Pour pallier le manque de données pour l'entraînement guidé par référence, nous construisons un jeu de données apparié de remplacement de visage, Face2Face, et inversons en outre les paires de données pour garantir une supervision de vérité terrain fiable. Des expériences approfondies démontrent que notre méthode obtient des résultats à la pointe de l'état de l'art, intégrant de manière transparente l'identité cible avec les expressions, l'éclairage et les mouvements de la vidéo source, tout en réduisant significativement l'effort manuel dans les workflows de production. Page web du projet : https://aim-uofa.github.io/LivingSwap
La narration dans les vidéos du monde réel se déroule souvent à travers plusieurs plans – des clips discontinus mais sémantiquement connectés qui, ensemble, véhiculent un récit cohérent. Cependant, les méthodes existantes de génération de vidéos multi-plans (MSV) peinent à modéliser efficacement le contexte à longue portée entre les plans, car elles reposent sur des fenêtres temporelles limitées ou un conditionnement sur une image clé unique, ce qui entraîne une dégradation des performances dans des récits complexes. Dans ce travail, nous proposons OneStory, qui permet une modélisation globale et compacte du contexte inter-plans pour une génération narrative cohérente et évolutive. OneStory reformule la MSV comme une tâche de génération de plan suivant, permettant une synthèse de plans autoregressive tout en exploitant des modèles pré-entraînés image-à-vidéo (I2V) pour un conditionnement visuel robuste. Nous introduisons deux modules clés : un module de Sélection d'Images qui construit une mémoire globale sémantiquement pertinente à partir des images informatives des plans précédents, et un Conditionneur Adaptatif qui effectue une patchification guidée par l'importance pour générer un contexte compact utilisé pour le conditionnement direct. Nous constituons en outre un jeu de données multi-plans de haute qualité avec des légendes référentielles pour refléter les schémas narratifs du monde réel, et concevons des stratégies d'entraînement efficaces dans le paradigme du plan suivant. Entraîné à partir d'un modèle I2V pré-entraîné sur notre jeu de données de 60K, OneStory atteint une cohérence narrative de pointe dans des scènes diverses et complexes, que le conditionnement soit basé sur du texte ou une image, permettant une narration vidéo longue et contrôlable.
L'augmentation de la capacité de calcul lors de l'inférence a permis aux grands modèles de langage (LLM) d'atteindre de solides performances en raisonnement, mais le décodage intrinsèquement séquentiel entraîne une latence substantielle, en particulier sur les tâches complexes. Les travaux récents sur le raisonnement parallèle adaptatif visent à améliorer l'efficacité de l'inférence en décomposant le processus de résolution de problèmes en fils de raisonnement concurrents lorsque cela est bénéfique. Cependant, les méthodes existantes sur des tâches réalistes se limitent soit à un clonage comportemental supervisé, soit présentent des baisses de précision significatives par rapport aux lignes de base séquentielles populaires utilisant de longues chaînes de pensée (CoT). De plus, beaucoup nécessitent des moteurs d'inférence personnalisés, ce qui complique le déploiement. Nous présentons ThreadWeaver, un cadre pour le raisonnement parallèle adaptatif qui atteint une précision équivalente aux modèles de raisonnement séquentiel populaires de taille comparable, tout en réduisant significativement la latence d'inférence. La performance de ThreadWeaver découle de trois innovations clés : 1) un générateur de trajectoires parallèles en deux étapes qui produit des données CoT à grande échelle et de haute qualité avec des annotations parallèles pour le réglage fin supervisé ; 2) une co-conception entraînement-inférence basée sur un trie qui permet un raisonnement parallèle sur n'importe quel moteur d'inférence autorégressif standard sans modifier les embeddings positionnels ou les caches KV ; et 3) un cadre d'apprentissage par renforcement conscient du parallélisme qui enseigne au modèle à équilibrer la précision avec une parallélisation efficace. Sur six benchmarks de raisonnement mathématique exigeants, ThreadWeaver entraîné sur Qwen3-8B atteint une précision comparable aux modèles de raisonnement séquentiel de pointe (71,9 % en moyenne et 79,9 % sur AIME24) tout en offrant jusqu'à 1,53x d'accélération moyenne de la latence par token, établissant une nouvelle frontière de Pareto entre précision et efficacité.
La segmentation d'instances vidéo (VIS) est confrontée à d'importants défis d'annotation en raison de ses exigences duales de masques au niveau pixel et d'étiquettes de cohérence temporelle. Bien que les méthodes non supervisées récentes comme VideoCutLER éliminent les dépendances au flux optique grâce aux données synthétiques, elles restent limitées par l'écart de domaine synthétique-réel. Nous présentons AutoQ-VIS, un nouveau cadre non supervisé qui comble cet écart par un auto-apprentissage guidé par la qualité. Notre approche établit un système en boucle fermée entre la génération de pseudo-étiquettes et l'évaluation automatique de la qualité, permettant une adaptation progressive des vidéos synthétiques aux vidéos réelles. Les expériences démontrent des performances de pointe avec 52,6 AP₅₀ sur l'ensemble de validation YouTubeVIS-2019, surpassant VideoCutLER de 4,4 %, sans nécessiter aucune annotation humaine. Cela démontre la viabilité de l'auto-apprentissage sensible à la qualité pour la VIS non supervisée. Le code sera disponible à l'adresse https://github.com/wcbup/AutoQ-VIS.
Les grands modèles de langage modernes atteignent des capacités de raisonnement impressionnantes grâce à de longues chaînes de pensée, mais ils entraînent des coûts computationnels substantiels lors de l'inférence, ce qui motive le développement de techniques pour améliorer le rapport performance-coût. Parmi ces techniques, le décodage spéculatif accélère l'inférence en utilisant un modèle de brouillon rapide mais peu précis pour proposer des jetons de manière autogressive, qui sont ensuite vérifiés en parallèle par un modèle cible plus performant. Cependant, en raison des rejets inutiles causés par des divergences de jetons dans des étapes sémantiquement équivalentes, le décodage spéculatif traditionnel au niveau des jetons peine dans les tâches de raisonnement. Bien que des travaux récents soient passés à une vérification sémantique au niveau des étapes, améliorant l'efficacité en acceptant ou rejetant des étapes de raisonnement entières, les méthodes existantes régénèrent encore de nombreuses étapes rejetées avec peu d'amélioration, gaspillant ainsi des ressources de calcul précieuses du modèle cible. Pour relever ce défi, nous proposons Arbitrage, un nouveau cadre de génération spéculative au niveau des étapes qui achemine la génération dynamiquement en fonction de l'avantage relatif entre les modèles de brouillon et cible. Au lieu d'appliquer un seuil d'acceptation fixe, Arbitrage utilise un routeur léger entraîné à prédire quand le modèle cible est susceptible de produire une étape significativement meilleure. Ce routage approxime un Oracle d'Arbitrage idéal qui choisit toujours l'étape de plus haute qualité, atteignant des compromis efficacité-précision quasi optimaux. Sur plusieurs benchmarks de raisonnement mathématique, Arbitrage surpasse constamment les méthodes de décodage spéculatif antérieures au niveau des étapes, réduisant la latence d'inférence jusqu'à sim2 fois pour une précision équivalente.
L'apprentissage par imitation incarné est limité par la rareté de données de manipulation robotique diverses et à long horizon. Les modèles existants de génération vidéo pour ce domaine se restreignent à la synthèse de courts clips d'actions simples et reposent souvent sur des trajectoires définies manuellement. Pour pallier cela, nous présentons MIND-V, un cadre hiérarchique conçu pour synthétiser des vidéos de manipulation robotique à long horizon, physiquement plausibles et logiquement cohérentes. Inspiré par les sciences cognitives, MIND-V fait le lien entre le raisonnement de haut niveau et la synthèse au niveau pixel via trois composants centraux : un Centre de Raisonnement Sémantique (CRS) qui exploite un modèle vision-langage pré-entraîné pour la planification de tâches ; un Pont Sémantique Comportemental (PSC) qui traduit les instructions abstraites en représentations invariantes au domaine ; et un Générateur Vidéo Moteur (GVM) pour le rendu vidéo conditionnel. MIND-V utilise la méthode des Prévisions Visuelles Échelonnées, une stratégie d'optimisation au moment du test pour renforcer la robustesse à long horizon. Pour aligner les vidéos générées avec les lois physiques, nous introduisons une phase de post-entraînement par apprentissage par renforcement GRPO guidée par une nouvelle récompense de Cohérence de Prévision Physique (CPP). La CPP exploite le modèle monde V-JEPA pour imposer la plausibilité physique en alignant les évolutions dynamiques prédites et réelles dans l'espace de caractéristiques. MIND-V démontre des performances de pointe dans la génération de vidéos de manipulation robotique à long horizon, établissant un paradigme évolutif et contrôlable pour la synthèse de données incarnées.
Les modèles linguistiques multimodaux (MLLM) sont censés interpréter conjointement la vision, l'audio et le langage, pourtant les benchmarks vidéo existants évaluent rarement le raisonnement fin sur la parole humaine. De nombreuses tâches restent résolubles visuellement ou n'évaluent la parole que de manière grossière, offrant peu d'indications sur la capacité des modèles à aligner qui parle, ce qui est dit et quand cela se produit. Nous présentons AV-SpeakerBench, un benchmark composé de 3 212 questions à choix multiples axées sur le raisonnement audiovisuel centré sur l'orateur dans des vidéos du monde réel. Il se caractérise par : (1) une formulation centrée sur l'orateur qui traite les locuteurs – et non les scènes – comme unité de raisonnement centrale ; (2) une conception de questions ancrée dans la fusion, intégrant les dépendances audiovisuelles dans la sémantique des questions ; et (3) des annotations expertes garantissant la précision temporelle et la validité intermodale. Des évaluations complètes montrent que la famille Gemini surpasse systématiquement les systèmes open-source, Gemini 2.5 Pro obtenant les meilleurs résultats. Parmi les modèles open source, Qwen3-Omni-30B approche les performances de Gemini 2.0 Flash mais reste loin derrière Gemini 2.5 Pro, principalement en raison d'une fusion audiovisuelle plus faible plutôt que d'une perception visuelle déficiente. Nous pensons qu'AV-SpeakerBench établit une base rigoureuse pour faire progresser le raisonnement audiovisuel fin dans les futurs systèmes multimodaux.
Les progrès récents des grands modèles de langage (LLM) ont donné naissance à des agents de codage puissants, permettant aux assistants de code d'évoluer vers des ingénieurs de code. Cependant, les méthodes existantes rencontrent encore des difficultés importantes pour réaliser une synthèse fidèle de documents vers des bases de code – comme la conversion d'articles scientifiques en code – principalement en raison d'un conflit fondamental entre la surcharge d'information et les goulots d'étranglement contextuels des LLM. Dans ce travail, nous présentons DeepCode, un cadre entièrement autonome qui aborde fondamentalement ce défi grâce à une gestion raisonnée des flux d'information. En traitant la synthèse de dépôts comme un problème d'optimisation de canal, DeepCode orchestre de manière transparente quatre opérations informationnelles pour maximiser les signaux pertinents à la tâche sous des budgets contextuels finis : la compression des sources via une distillation de plan, l'indexation structurée utilisant une mémoire de code étatique, l'injection conditionnelle de connaissances via la génération augmentée par retrieval, et la correction d'erreurs en boucle fermée. Des évaluations approfondies sur le benchmark PaperBench démontrent que DeepCode atteint des performances à la pointe de l'état de l'art, surpassant nettement des agents commerciaux leaders tels que Cursor et Claude Code, et surtout, dépassant les experts humains de niveau doctorat issus d'institutions prestigieuses sur des métriques clés de reproduction. En transformant systématiquement des spécifications papier en des implémentations de qualité production comparables à celles d'experts humains, ce travail établit de nouvelles bases pour la reproduction scientifique autonome pouvant accélérer l'évaluation et la découverte en recherche.
L'apprentissage par renforcement (RL) post-entraînement est crucial pour aligner les modèles génératifs sur les préférences humaines, mais son coût computationnel prohibitif reste un obstacle majeur à son adoption généralisée. Nous présentons TreeGRPO, un nouveau cadre de RL qui améliore considérablement l'efficacité de l'entraînement en reformulant le processus de débruitage comme un arbre de recherche. À partir d'échantillons de bruit initiaux partagés, TreeGRPO se ramifie stratégiquement pour générer de multiples trajectoires candidates tout en réutilisant efficacement leurs préfixes communs. Cette approche arborescente offre trois avantages clés : (1) Une grande efficacité des échantillons, obtenant de meilleures performances avec le même nombre d'échantillons d'entraînement ; (2) Une attribution de crédit fine via une rétropropagation des récompenses qui calcule des avantages spécifiques à chaque étape, surmontant la limitation de l'attribution uniforme du crédit des méthodes basées sur les trajectoires ; et (3) Un calcul amorti où le branchement multi-enfants permet plusieurs mises à jour de la politique par passe avant. Des expériences approfondies sur des modèles à base de diffusion et de flux démontrent que TreeGRPO permet un entraînement 2,4 fois plus rapide tout en établissant une frontière de Pareto supérieure dans l'espace de compromis efficacité-récompense. Notre méthode surpasse constamment les lignes de base GRPO sur plusieurs benchmarks et modèles de récompense, offrant une voie évolutive et efficace pour l'alignement des modèles génératifs visuels par RL. Le site web du projet est disponible à l'adresse treegrpo.github.io.
Ce document présente un cadre modulaire de traitement neuronal du signal d'image (ISP) qui traite les données brutes et produit des images de haute qualité référencées pour l'affichage. Contrairement aux conceptions neuronales ISP antérieures, notre méthode introduit un degré élevé de modularité, offrant un contrôle total sur de multiples étapes intermédiaires du processus de rendu. Cette conception modulaire atteint non seulement une grande précision de rendu, mais améliore également l'évolutivité, la capacité de débogage, la généralisation à des caméras non vues et la flexibilité pour s'adapter à différents styles préférés par l'utilisateur. Pour démontrer les avantages de cette conception, nous avons développé un outil de retouche photo interactif qui exploite notre ISP neuronal pour prendre en charge diverses opérations d'édition et styles d'image. L'outil est soigneusement conçu pour tirer parti du rendu de haute qualité de notre ISP neuronal et permettre une re-rendu illimité après édition. Notre méthode est un cadre entièrement basé sur l'apprentissage avec des variantes de capacités différentes, toutes de taille modérée (allant d'environ 0,5 M à environ 3,9 M de paramètres pour l'ensemble du pipeline), et fournit constamment des résultats qualitatifs et quantitatifs compétitifs sur plusieurs ensembles de test. Regardez la vidéo supplémentaire à l'adresse : https://youtu.be/ByhQjQSjxVM
Les grands modèles de langage (LLM) excellent en génération, mais le décodage autorégressif (AR) dominant est intrinsèquement séquentiel, créant un goulot d'étranglement de débit. Les modèles de langage par diffusion (DLM) – particulièrement leurs variantes par blocs – permettent une génération parallèle et un raisonnement bidirectionnel intra-bloc, mais l'entraînement de grands DLM à partir de zéro est coûteux et gaspille les connaissances contenues dans les checkpoints AR matures. Les tentatives précédentes d'« adaptation » modifient soit les logits, soit étendent aléatoirement les masques d'attention vers une diffusion à séquence complète, ou transplantent simplement les poids AR dans une recette de diffusion par blocs, sans résoudre l'inadéquation fondamentale entre la causalité AR et la bidirectionnalité par blocs. Nous reformulons l'adaptation comme un chemin intra-paradigme allant de l'AR vers la diffusion par blocs en considérant l'AR comme une diffusion par blocs avec une taille de bloc=1. Concrètement, nous concevons le chemin d'adaptation comme suit : nous utilisons un masque d'attention contextuel-causal (causal dans le contexte, bidirectionnel uniquement dans le bloc actif), une procédure d'adaptation parallèle efficace, une perte AR auxiliaire pour maximiser l'utilisation des données et préserver les connaissances pré-entraînées, et un accroissement progressif de la taille du bloc de génération. La recette s'intègre naturellement à la diffusion par blocs masqués et maintient la cohérence entraînement-inférence. Sur cette base, NBDiff-7B (Base et Instruct) peut hériter des capacités de modélisation de contexte long et de raisonnement, et atteint des performances de pointe parmi les DLM de classe 7B, apportant des gains significatifs sur les benchmarks de connaissances générales, de mathématiques et de code par rapport à des bases de référence solides. Ces résultats démontrent qu'une adaptation raisonnée de l'AR vers la diffusion par blocs est une alternative efficace et économe en calcul à l'entraînement de DLM à partir de zéro. Codes : https://github.com/YuchuanTian/NBDiff.
La compréhension et la reconstruction de la géométrie et du mouvement complexes de scènes dynamiques à partir de vidéo demeurent un défi de taille en vision par ordinateur. Cet article présente D4RT, un modèle feedforward simple mais puissant conçu pour résoudre efficacement cette tâche. D4RT utilise une architecture de transformateur unifiée pour inférer conjointement la profondeur, la correspondance spatio-temporelle et les paramètres complets de la caméra à partir d'une seule vidéo. Son innovation principale réside dans un nouveau mécanisme d'interrogation qui évite le calcul intensif du décodage dense image par image et la complexité de la gestion de multiples décodeurs spécialisés par tâche. Notre interface de décodage permet au modèle d'explorer de manière indépendante et flexible la position 3D de tout point dans l'espace et le temps. Il en résulte une méthode légère et très évolutive qui permet un entraînement et une inférence remarquablement efficaces. Nous démontrons que notre approche établit un nouvel état de l'art, surpassant les méthodes précédentes sur un large éventail de tâches de reconstruction 4D. Nous renvoyons à la page web du projet pour des résultats animés : https://d4rt-paper.github.io/.
Si les grands modèles vision-langage (VLM) récents ont amélioré la généralisation en navigation vision-langage (VLN), les méthodes existantes reposent généralement sur des pipelines de bout en bout qui mappent directement les entrées vision-langage vers des actions discrètes à court terme. De telles conceptions produisent souvent des mouvements fragmentés, entraînent une latence élevée et peinent à gérer les défis du monde réel comme l'évitement dynamique d'obstacles. Nous proposons DualVLN, le premier modèle fondation VLN à double système qui intègre de manière synergique un raisonnement de haut niveau avec une exécution d'actions de bas niveau. Le Système 2, un planificateur global basé sur un VLM, « ancre lentement » en prédisant des objectifs de points de passage à moyen terme via un raisonnement ancré dans l'image. Le Système 1, une politique légère de Transformers à Diffusion conditionnée de manière multimodale, « se déplace rapidement » en exploitant à la fois des objectifs pixels explicites et des caractéristiques latentes du Système 2 pour générer des trajectoires fluides et précises. La conception à double système permet un contrôle robuste en temps réel et une prise de décision locale adaptative dans des environnements complexes et dynamiques. En découplant l'entraînement, le VLM conserve sa capacité de généralisation, tandis que le Système 1 réalise une navigation locale interprétable et efficace. DualVLN surpasse les méthodes antérieures sur tous les benchmarks VLN, et des expériences en monde réel démontrent une planification robuste à long terme et une adaptabilité en temps réel dans des environnements dynamiques.
Les agents fondationnels ont rapidement progressé dans leur capacité à raisonner et à interagir avec des environnements réels, rendant l'évaluation de leurs compétences fondamentales de plus en plus cruciale. Bien que de nombreux benchmarks aient été développés pour évaluer les performances des agents, la plupart se concentrent sur des cadres académiques ou des scénarios artificiellement conçus, négligeant les défis rencontrés dans les applications réelles. Pour résoudre ce problème, nous nous intéressons à un cadre pratique très concret : le domaine du commerce électronique, qui implique un volume important d'interactions utilisateur diversifiées, des conditions de marché dynamiques et des tâches directement liées à de réels processus décisionnels. À cette fin, nous présentons EcomBench, un benchmark holistique conçu pour évaluer les performances des agents dans des environnements de commerce électronique réalistes. EcomBench est construit à partir de demandes utilisateur authentiques intégrées aux écosystèmes mondiaux leaders du e-commerce, et soigneusement organisé et annoté par des experts humains pour garantir clarté, précision et pertinence sectorielle. Il couvre plusieurs catégories de tâches dans des scénarios de e-commerce et définit trois niveaux de difficulté évaluant les agents sur des capacités clés telles que la recherche approfondie d'informations, le raisonnement multi-étape et l'intégration de connaissances multisources. En ancrant l'évaluation dans des contextes réels de e-commerce, EcomBench offre un banc d'essai rigoureux et dynamique pour mesurer les capacités pratiques des agents dans le commerce électronique moderne.
Les grands modèles de raisonnement obtiennent des performances élevées sur des tâches complexes en générant de longues chaînes de pensée, mais ils « réfléchissent souvent trop » : ils continuent à raisonner bien après avoir obtenu suffisamment d'informations pour répondre correctement. Cela gaspille les ressources de calcul lors de l'inférence et peut nuire à la précision. Les tentatives existantes pour un arrêt précoce manipulent le décodage avec un échantillonnage supplémentaire et des heuristiques, reposent sur des modèles vérificateurs auxiliaires, ou fonctionnent uniquement comme des pipelines d'analyse post-hoc sans garanties formelles. Nous présentons LYNX, un mécanisme de sortie anticipée en ligne qui transforme la conscience propre de l'état caché d'un modèle en décisions d'arrêt contrôlées par la confiance. LYNX attache des décisions de sortie à des indices de raisonnement naturellement présents (par exemple, « hmm », « attends ») pendant la génération, entraîne une sonde légère sur les états cachés à ces tokens d'indice en utilisant une supervision provenant de sorties forcées, et intègre les scores résultants dans une prédiction conforme partitionnée pour obtenir un contrôle indépendant de la distribution sur les sorties prématurées. Fait crucial, nous entraînons et étalonnons cette sonde une fois sur un corpus mathématique générique et la réutilisons inchangée sur divers benchmarks, températures de décodage, et même des tâches non mathématiques. Sur trois familles de modèles couvrant 1,5 à 32 milliards de paramètres, une seule sonde entraînée mathématiquement par modèle de base produit de forts compromis précision-efficacité. Sur GSM8K, LYNX égale ou améliore la précision de base tout en réduisant les tokens de 40 à 65 % ; sur MATH-500, il améliore la précision jusqu'à 12 points avec environ 35 à 60 % de tokens en moins ; sur AIME 2024, il retrouve la précision de base avec plus de 50 % d'économie de tokens ; et sur CommonsenseQA, un benchmark non mathématique, il se transfère zero-shot avec des gains de précision modestes et jusqu'à 70 % de tokens en moins. Par rapport aux méthodes de sortie anticipée de pointe, LYNX offre des frontières de Pareto compétitives ou supérieures tout en restant entièrement en ligne, sans nécessiter de modèles proxy lors de l'inférence, et en fournissant des garanties de confiance explicites et ajustables par l'utilisateur.
Le suivi 3D monoculaire vise à capturer le mouvement à long terme des pixels dans l'espace 3D à partir d'une seule vidéo monoculaire et a connu des progrès rapides ces dernières années. Cependant, nous soutenons que les méthodes existantes de suivi 3D monoculaire échouent encore à séparer le mouvement de la caméra du mouvement dynamique au premier plan et ne peuvent pas suivre de manière dense les nouveaux sujets dynamiques apparaissant dans les vidéos. Pour remédier à ces deux limitations, nous proposons TrackingWorld, une nouvelle pipeline pour le suivi 3D dense de presque tous les pixels dans un système de coordonnées 3D centré sur le monde. Premièrement, nous introduisons un suréchantillonneur de suivi qui relève efficacement des pistes 2D arbitrairement éparses en pistes 2D denses. Ensuite, pour généraliser les méthodes de suivi actuelles aux nouveaux objets apparaissant, nous appliquons le suréchantillonneur à toutes les images et réduisons la redondance des pistes 2D en éliminant les pistes dans les régions chevauchantes. Enfin, nous présentons un cadre d'optimisation efficace pour rétroprojeter les pistes 2D denses en trajectoires 3D centrées sur le monde en estimant les poses de la caméra et les coordonnées 3D de ces pistes 2D. Des évaluations approfondies sur des ensembles de données synthétiques et réelles démontrent que notre système atteint un suivi 3D précis et dense dans un repère de coordonnées centré sur le monde.
Les tumeurs cérébrales représentent une menace significative pour la vie humaine, ce qui rend leur détection précoce et précise essentielle pour un meilleur diagnostic et traitement. Les radiologues peuvent détecter manuellement les tumeurs cérébrales à partir des images IRM des patients. Cependant, l'incidence des tumeurs cérébrales a augmenté chez les enfants et les adolescents ces dernières années, générant un volume substantiel de données, ce qui rend la détection manuelle longue et difficile. Avec l'émergence de l'intelligence artificielle dans le monde moderne et sa vaste application dans le domaine médical, nous pouvons envisager une approche basée sur un système de diagnostic assisté par ordinateur (CAD) pour la détection automatique précoce des tumeurs cérébrales. Tous les modèles existants pour cette tâche ne sont pas complètement généralisés et présentent des performances médiocres sur les données de validation. Par conséquent, nous avons proposé deux nouvelles architectures d'apprentissage profond - (a) SAETCN (Réseau de Classification Tumorale par Amélioration par Auto-Attention) pour la classification des différents types de tumeurs cérébrales. Nous avons obtenu une précision de 99,38 % sur l'ensemble de données de validation, ce qui en fait l'une des rares nouvelles architectures basées sur l'apprentissage profond capables de détecter avec précision les tumeurs cérébrales. Nous avons entraîné le modèle sur un jeu de données contenant des images de 3 types de tumeurs (gliome, méningiome et tumeurs hypophysaires) et de cas non tumoraux. et (b) SAS-Net (Réseau de Segmentation par Auto-Attention) pour la segmentation précise des tumeurs cérébrales. Nous avons obtenu une précision pixel globale de 99,23 %.
Les grands modèles de langage augmentés par mémoire (LLM) ont démontré une remarquable cohérence lors de dialogues prolongés en stockant des souvenirs pertinents et en les intégrant comme contexte. Une telle personnalisation basée sur la mémoire est également cruciale dans les environnements sur appareil qui permettent aux utilisateurs de garder leurs conversations et données privées. Cependant, les systèmes à mémoire reposent généralement sur des LLM trop coûteux pour un déploiement local sur appareil. Bien que les petits modèles de langage (SLM) soient plus adaptés à l'inférence sur appareil que les LLM, ils ne peuvent atteindre des performances suffisantes. De plus, ces systèmes basés sur des LLM manquent de capacités visuelles natives, limitant leur applicabilité dans des contextes multimodaux. Dans cet article, nous présentons (i) MemLoRA, un nouveau système de mémoire permettant un déploiement local en équipant les SLM d'adaptateurs de mémoire spécialisés, et (ii) son extension visuelle MemLoRA-V, qui intègre de petits modèles vision-langage (SVLM) aux systèmes de mémoire, permettant une compréhension visuelle native. Suivant les principes de distillation de connaissances, chaque adaptateur est entraîné séparément pour des opérations mémoire spécifiques – extraction de connaissances, mise à jour de la mémoire et génération augmentée par la mémoire. Équipés d'adaptateurs de mémoire, les petits modèles permettent des opérations mémoire précises sur appareil sans dépendance au cloud. Sur les opérations textuelles uniquement, MemLoRA surpasse des modèles de référence 10 fois plus grands (par exemple, Gemma2-27B) et atteint des performances comparables à des modèles 60 fois plus grands (par exemple, GPT-OSS-120B) sur le benchmark LoCoMo. Pour évaluer les opérations de compréhension visuelle, nous étendons LoCoMo avec des tâches complexes de question-réponse visuelle qui nécessitent un raisonnement visuel direct. Sur ce point, notre MemLoRA-V intégrant un VLM montre des améliorations massives par rapport aux approches basées sur les légendes (81,3 contre 23,7 de précision) tout en maintenant de solides performances dans les tâches textuelles, démontrant l'efficacité de notre méthode dans des contextes multimodaux.
La reconstruction de maillages humains (HMR) vise à reconstruire la pose et la forme humaines en 3D à partir d'observations 2D et constitue un fondement essentiel pour la compréhension centrée sur l'humain dans des scénarios réels. Bien que les méthodes récentes de HMR basées sur l'image, telles que SAM 3D Body, obtiennent une robustesse élevée sur des images en conditions réelles, elles reposent sur une inférence image par image lorsqu'elles sont appliquées à des vidéos, entraînant une incohérence temporelle et une dégradation des performances en cas d'occlusions. Nous abordons ces problèmes sans entraînement supplémentaire en exploitant la continuité humaine inhérente aux vidéos. Nous proposons SAM-Body4D, un cadre sans entraînement pour une HMR temporellement cohérente et robuste aux occlusions à partir de vidéos. Nous générons d'abord des masquelets cohérents par identité à l'aide d'un modèle de segmentation vidéo adaptable par prompt, puis nous les affinons avec un module de prise en compte des occlusions pour restaurer les régions manquantes. Les masquelets raffinés guident SAM 3D Body pour produire des trajectoires de maillages corporels complets cohérentes, tandis qu'une stratégie parallèle par remplissage permet une inférence multi-personnes efficace. Les résultats expérimentaux démontrent que SAM-Body4D atteint une stabilité temporelle et une robustesse améliorées dans des vidéos en conditions réelles difficiles, sans aucun réentraînement. Notre code et notre démonstration sont disponibles à l'adresse : https://github.com/gaomingqi/sam-body4d.
La création de substituts rapides et généralisables à la géométrie pour les écoulements instationnaires reste un défi. Nous présentons un Deep Operator Network dépendant du temps et sensible à la géométrie, qui prédit les champs de vitesse pour des écoulements à nombre de Reynolds modéré autour de formes paramétriques et non paramétriques. Le modèle encode la géométrie via un tronc de champ de distance signée (SDF) et l'historique de l'écoulement via une branche CNN, entraîné sur 841 simulations haute fidélité. Pour des formes exclues de l'apprentissage, il atteint une erreur relative L2 mono-étape d'environ 5 % et des accélérations allant jusqu'à 1000 fois par rapport à la CFD. Nous fournissons des diagnostics de déploiement centrés sur la physique, incluant l'erreur de phase aux sondes et les normes de divergence, pour quantifier la fidélité à long terme. Ceux-ci révèlent des transitoires à court terme précis mais une accumulation d'erreur dans les sillages à fine échelle, plus prononcée pour les géométries à angles vifs. Nous analysons les modes de défaillance et esquissons des mesures d'atténuation pratiques. Le code, les jeux de données séparés et les scripts sont librement disponibles à l'adresse : https://github.com/baskargroup/TimeDependent-DeepONet pour favoriser la reproductibilité et l'évaluation comparative.
La splatting par gaussiennes 3D (3DGS) est apparue comme une représentation explicite puissante permettant une reconstruction 3D en temps réel et haute fidélité ainsi que la synthèse de nouvelles vues. Cependant, son utilisation pratique est entravée par les énormes besoins en mémoire et en calcul requis pour stocker et rendre des millions de gaussiennes. Ces défis deviennent encore plus sévères dans les scènes dynamiques 4D. Pour résoudre ces problèmes, le domaine de l'Efficient Gaussian Splatting a rapidement évolué, proposant des méthodes qui réduisent la redondance tout en préservant la qualité de la reconstruction. Cette étude fournit la première vue d'ensemble unifiée des techniques efficaces de splatting par gaussiennes 3D et 4D. Pour les contextes 3D et 4D, nous catégorisons systématiquement les méthodes existantes en deux grandes orientations, la Compression des Paramètres et la Compression par Restructuration, et résumons de manière exhaustive les idées centrales et les tendances méthodologiques au sein de chaque catégorie. Nous couvrons en outre les jeux de données largement utilisés, les métriques d'évaluation et les comparaisons représentatives de benchmarks. Enfin, nous discutons des limitations actuelles et esquissons des directions de recherche prometteuses pour une splatting par gaussiennes évolutive, compacte et en temps réel, destinée à la représentation de scènes 3D statiques et dynamiques.
Nous présentons deux nouveaux benchmarks REST et REST+ (Render-Equivalence Stress Tests) permettant l'évaluation systématique de l'incohérence intermodale dans les modèles de langage multimodaux (MLLMs). Bien que les MLLMs soient entraînés à représenter la vision et le langage dans un même espace d'embedding, ils ne peuvent pas réaliser les mêmes tâches dans les deux modalités. Nos benchmarks contiennent des échantillons avec la même information sémantique dans trois modalités (image, texte, mixte) et nous montrons que les MLLMs les plus performants ne peuvent pas raisonner de manière cohérente sur ces différentes modalités. Nous évaluons 15 MLLMs et constatons que le degré d'incohérence modale varie considérablement, même en tenant compte des problèmes de reconnaissance de texte (OCR). Ni le rendu du texte sous forme d'image, ni le rendu d'une image sous forme de texte ne résolvent l'incohérence. Même lorsque l'OCR est correcte, nous constatons que les caractéristiques visuelles (couleur du texte et résolution, mais pas la police) et le nombre de tokens visuels ont un impact sur les performances du modèle. Enfin, nous constatons que notre score de cohérence corrèle avec l'écart de modalité entre le texte et les images, mettant en lumière une interprétation mécaniste des MLLMs incohérents intermodaux.
Pendant des décennies, les mondes procéduraux ont été construits sur des fonctions de bruit procédural comme le bruit de Perlin, qui sont rapides et infinies, mais fondamentalement limitées en réalisme et en cohérence à grande échelle. Nous présentons Terrain Diffusion, un successeur à l'ère de l'IA du bruit de Perlin, qui allie la fidélité des modèles de diffusion aux propriétés qui ont rendu le bruit procédural indispensable : l'étendue infinie et sans couture, la cohérence des germes et l'accès aléatoire en temps constant. Son cœur est InfiniteDiffusion, un nouvel algorithme pour la génération infinie, permettant la synthèse en temps réel de paysages illimités sans soudure. Une pile hiérarchique de modèles de diffusion couple le contexte planétaire avec les détails locaux, tandis qu'un codage Laplacien compact stabilise les sorties sur des plages dynamiques à l'échelle de la Terre. Un framework open-source de tenseurs infinis supporte la manipulation à mémoire constante de tenseurs non bornés, et une distillation de cohérence en peu d'étapes permet une génération efficace. Ensemble, ces composants établissent les modèles de diffusion comme une base pratique pour la génération procédurale de mondes, capable de synthétiser des planètes entières de manière cohérente, contrôlable et sans limites.