papers.description
L'adoption croissante des dispositifs de réalité étendue (XR) a stimulé une forte demande pour des vidéos stéréoscopiques de haute qualité, mais leur production reste coûteuse et sujette aux artefacts. Pour relever ce défi, nous présentons StereoWorld, un cadre de travail de bout en bout qui réadapte un générateur de vidéos pré-entraîné pour la génération de vidéos monoculaires vers stéréoscopiques de haute fidélité. Notre cadre conditionne conjointement le modèle sur l'entrée vidéo monoculaire tout en supervisant explicitement la génération avec une régularisation géométrique pour garantir la fidélité structurelle 3D. Un schéma de pavage spatio-temporel est en outre intégré pour permettre une synthèse haute résolution efficace. Pour permettre un entraînement et une évaluation à grande échelle, nous avons constitué un jeu de données de vidéos stéréoscopiques haute définition contenant plus de 11 millions d'images alignées sur la distance interpupillaire (IPD) humaine naturelle. Des expériences approfondies démontrent que StereoWorld surpasse substantiellement les méthodes antérieures, générant des vidéos stéréoscopiques avec une fidélité visuelle et une cohérence géométrique supérieures. La page web du projet est disponible à l'adresse https://ke-xing.github.io/StereoWorld/.
Comprendre comment le cerveau humain représente les concepts visuels, et dans quelles régions cérébrales ces représentations sont encodées, demeure un défi de longue date. Des décennies de recherche ont fait progresser notre compréhension des représentations visuelles, mais les signaux cérébraux restent volumineux et complexes, et l'espace des concepts visuels possibles est vaste. Par conséquent, la plupart des études restent à petite échelle, reposent sur une inspection manuelle, se concentrent sur des régions et des propriétés spécifiques, et incluent rarement une validation systématique. Nous présentons un cadre automatisé à grande échelle pour découvrir et expliquer les représentations visuelles à travers le cortex humain. Notre méthode comprend deux étapes principales. Premièrement, nous découvrons des motifs interprétables candidats dans l'activité IRMf grâce à des méthodes de décomposition non supervisées et pilotées par les données. Ensuite, nous expliquons chaque motif en identifiant l'ensemble d'images naturelles qui l'évoquent le plus fortement et en générant une description en langage naturel de leur signification visuelle commune. Pour mettre ce processus à l'échelle, nous introduisons un pipeline automatisé qui teste de multiples explications candidates, attribue des scores quantitatifs de fiabilité et sélectionne la description la plus cohérente pour chaque motif de voxels. Notre cadre révèle des milliers de motifs interprétables couvrant de nombreux concepts visuels distincts, y compris des représentations à grain fin jamais rapportées auparavant.
La composition de concepts visuels, qui vise à intégrer différents éléments d'images et de vidéos en une sortie visuelle unique et cohérente, peine encore à extraire précisément des concepts complexes des entrées visuelles et à combiner flexiblement des concepts provenant d'images et de vidéos. Nous présentons Bind & Compose, une méthode one-shot qui permet une composition flexible de concepts visuels en liant des concepts visuels à des tokens d'invite correspondants et en composant l'invite cible avec des tokens liés provenant de diverses sources. Elle adopte une structure de lieur hiérarchique pour le conditionnement par attention croisée dans les Transformers de Diffusion, afin de coder les concepts visuels en tokens d'invite correspondants pour une décomposition précise des concepts visuels complexes. Pour améliorer la précision de la liaison concept-token, nous concevons un Mécanisme de Diversification et d'Absorption qui utilise un token absorbant supplémentaire pour éliminer l'impact des détails non pertinents au concept lors de l'entraînement avec des invites diversifiées. Pour améliorer la compatibilité entre les concepts d'image et de vidéo, nous présentons une Stratégie de Désentrelacement Temporel qui découple le processus d'entraînement des concepts vidéo en deux étapes avec une structure de lieur à double branche pour la modélisation temporelle. Les évaluations démontrent que notre méthode atteint une cohérence conceptuelle, une fidélité à l'invite et une qualité de mouvement supérieures aux approches existantes, ouvrant de nouvelles possibilités pour la créativité visuelle.
Les récents progrès des modèles de diffusion ont considérablement amélioré la génération et l'édition d'images, mais la génération ou la reconstruction de fichiers PSD stratifiés avec des canaux alpha transparents reste très difficile. Nous proposons OmniPSD, un framework de diffusion unifié construit sur l'écosystème Flux qui permet à la fois la génération texte-vers-PSD et la décomposition image-vers-PSD via l'apprentissage en contexte. Pour la génération texte-vers-PSD, OmniPSD arrange spatialement plusieurs calques cibles sur une seule toile et apprend leurs relations compositionnelles par attention spatiale, produisant des calques sémantiquement cohérents et structurellement hiérarchisés. Pour la décomposition image-vers-PSD, il effectue une édition itérative en contexte, extrayant et effaçant progressivement les composants textuels et de premier plan pour reconstruire des calques PSD modifiables à partir d'une seule image aplatie. Un RGBA-VAE est employé comme module de représentation auxiliaire pour préserver la transparence sans affecter l'apprentissage structurel. Des expériences approfondies sur notre nouveau jeu de données stratifié RGBA démontrent qu'OmniPSD atteint une génération haute fidélité, une cohérence structurelle et une conscience de la transparence, offrant un nouveau paradigme pour la génération et la décomposition de designs stratifiés avec des transformeurs de diffusion.
L'attention par fenêtre et l'attention linéaire constituent deux stratégies principales pour atténuer la complexité quadratique et la croissance constante du cache KV dans les modèles vision-langage (VLM). Cependant, nous observons que les VLM à fenêtres subissent une dégradation des performances lorsque la longueur de séquence dépasse la taille de fenêtre, tandis que l'attention linéaire obtient des résultats inférieurs sur des tâches intensives en information comme la ROC et la compréhension de documents. Pour surmonter ces limitations, nous proposons InfiniteVL, une architecture VLM à complexité linéaire qui combine l'attention par fenêtre glissante (SWA) avec Gated DeltaNet. Pour atteindre des performances multimodales compétitives avec des ressources limitées, nous concevons une stratégie d'entraînement en trois étapes comprenant un pré-entraînement par distillation, un réglage par instruction et un SFT à longues séquences. Fait remarquable, en utilisant moins de 2 % des données d'entraînement requises par les meilleurs VLM, InfiniteVL surpasse non seulement substantiellement les VLM à complexité linéaire précédents, mais égale également les performances des meilleurs VLM basés sur Transformer, tout en démontrant une rétention efficace de la mémoire à long terme. Comparé aux VLM basés sur Transformer de taille similaire accélérés par FlashAttention-2, InfiniteVL atteint une accélération d'inférence supérieure à 3,6× tout en maintenant une latence et une empreinte mémoire constantes. Dans les scénarios de compréhension de vidéo en flux continu, il maintient une vitesse de préremplissage en temps réel stable de 24 IPS tout en préservant le cache de mémoire à long terme. Le code et les modèles sont disponibles à l'adresse https://github.com/hustvl/InfiniteVL.
Les modèles Vision-Langage-Action (VLA) ont récemment permis la manipulation robotique en ancrant les indices visuels et linguistiques dans des actions. Cependant, la plupart des VLA supposent la propriété de Markov, s'appuyant uniquement sur l'observation courante et souffrant ainsi d'une myopie temporelle qui dégrade la cohérence sur les horizons longs. Dans ce travail, nous considérons le mouvement comme une représentation plus compacte et informative du contexte temporel et de la dynamique du monde, capturant les changements entre les états tout en filtrant le bruit statique au niveau des pixels. Sur cette base, nous proposons HiF-VLA (Hindsight, Insight, and Foresight for VLAs), un cadre unifié qui exploite le mouvement pour un raisonnement temporel bidirectionnel. HiF-VLA encode la dynamique passée via des priors de hindsight, anticipe le mouvement futur via un raisonnement de foresight, et intègre les deux grâce à un expert conjoint modulé par le hindsight pour permettre un paradigme de « réflexion pendant l'action » pour la manipulation à long terme. En conséquence, HiF-VLA surpasse les solides bases de référence sur les benchmarks LIBERO-Long et CALVIN ABC-D, tout en induisant une latence d'inférence supplémentaire négligeable. De plus, HiF-VLA réalise des améliorations substantielles dans les tâches de manipulation réelles à long terme, démontrant son efficacité étendue dans des contextes robotiques pratiques.
Les modèles de langage à diffusion (dLLM) constituent une alternative prometteuse aux modèles autorégressifs, mais leur utilité pratique est sévèrement limitée par un échantillonnage itératif lent. Nous présentons SchED, un algorithme de sortie anticipée agnostique au modèle et ne nécessitant aucun entraînement, qui agrège les marges des logits sur toute la portée et interrompt le décodage une fois qu'un seuil de confiance progressif et fluide est atteint. Nous avons évalué SchED sur deux familles de dLLM (Dream et LLaDA), dans leurs variantes de base et instructionnées, sur dix benchmarks couvrant des tâches en aval incluant le question-réponse à choix multiples (QACM), les mathématiques, le question-réponse/résumé long et la traduction. SchED offre des accélérations importantes et stables : sur les modèles instructionnés, il permet des accélérations de 3,8 à 4,0 fois tout en conservant 99,8 à 100 % du score de référence en moyenne. Sur les modèles de base, SchED procure des gains d'accélération constants avec une rétention des performances de 99,1 à 100 %, pouvant atteindre jusqu'à 2,34 fois dans des configurations plus agressives. En utilisant une métrique de vitesse conservative pénalisant fortement la perte de qualité (QPS, γ=4), nous montrons que SchED est robuste et surpasse clairement les méthodes précédentes de sortie anticipée basées sur la confiance, qui échouent sur la génération longue. Une analyse de l'entropie des prédictions de tokens du modèle révèle que l'instructionnement accélère la décroissance de l'entropie prédictive. En transformant une stabilisation réelle de la confiance en économies de calcul, SchED rend le décodage des dLLM substantiellement plus efficace.
Le raisonnement par chaîne de pensée (CoT) a connu un grand succès pour résoudre des tâches complexes en traitement du langage naturel, et les récents modèles de langage multimodaux de grande taille (MLLM) ont étendu ce paradigme au raisonnement vidéo. Cependant, ces modèles s'appuient généralement sur des chaînes de raisonnement longues et un grand nombre de jetons visuels en entrée. Motivés par des observations empiriques de notre étude comparative, nous émettons l'hypothèse qu'un raisonnement concis combiné à un ensemble réduit de jetons visuels peut suffire à un raisonnement vidéo efficace. Pour évaluer cette hypothèse, nous concevons et validons un cadre efficace d'après-entraînement et d'inférence qui améliore la capacité de raisonnement d'un MLLM vidéo. Notre cadre permet aux modèles de fonctionner sur des jetons visuels compressés et de générer des traces de raisonnement brèves avant de répondre. Les modèles ainsi obtenus atteignent une efficacité d'inférence considérablement améliorée, offrent des performances compétitives sur divers benchmarks, et évitent toute dépendance aux annotations CoT manuelles ou au réglage fin supervisé. Collectivement, nos résultats suggèrent qu'un raisonnement CoT long, semblable à celui des humains, pourrait ne pas être nécessaire pour le raisonnement vidéo général, et qu'un raisonnement concis peut être à la fois efficace et efficient. Notre code sera publié à l'adresse https://github.com/LaVi-Lab/Rethink_CoT_Video.
La modification des connaissances vise à mettre à jour des faits spécifiques dans les grands modèles de langage (LLM) sans nécessiter un réentraînement complet. Les travaux antérieurs ont cherché à ajuster les couches de connaissances des LLM, démontrant leur efficacité pour effectuer des modifications ciblées. Cependant, un écart significatif persiste entre leurs performances lors d'évaluations contrôlées en *teacher-forcing* et leur efficacité réelle dans des scénarios d'apprentissage continu, ce qui limite considérablement leur applicabilité pratique. Notre analyse empirique révèle deux problèmes récurrents liés à cet écart : (1) La plupart des méthodes traditionnelles amènent le modèle modifié à surajuster le nouveau fait, dégradant ainsi ses capacités pré-entraînées ; (2) Il y a une absence critique d’une phase de consolidation des connaissances, laissant les nouveaux faits insuffisamment intégrés dans le comportement des LLM lors de l'inférence en génération auto-régressive, conduisant ainsi à un décalage entre les connaissances paramétriques et le comportement génératif réel. Pour y remédier, nous proposons *Edit-then-Consolidate*, un nouveau paradigme de modification des connaissances visant à combler l'écart entre les méthodes théoriques de modification et leur applicabilité réelle. Plus précisément, (1) notre cadre atténue le surajustement via un *Fine-Tuning Supervisé Proximal Ciblé* (TPSFT) qui localise la modification via un objectif de région de confiance pour limiter la dérive de la politique ; (2) Ensuite, une phase de consolidation utilisant l'*Optimisation de Politique Relative par Groupe* (GRPO) aligne la connaissance modifiée avec la politique d'inférence basée sur le *CoT* en optimisant le comportement au niveau des trajectoires sous des signaux de récompense complets. Des expériences approfondies démontrent que notre cadre améliore constamment la fiabilité et la généralisation de la modification lors d'évaluations en conditions réelles, tout en préservant mieux la localité et les capacités pré-entraînées.
Les systèmes de conduite autonome (CA) peinent à gérer les scénarios de longue traîne en raison de leurs connaissances limitées du monde et de leur modélisation dynamique visuelle insuffisante. Les méthodes existantes basées sur vision-langage-action (VLA) ne peuvent pas exploiter les vidéos non étiquetées pour l'apprentissage de la causalité visuelle, tandis que les méthodes basées sur les modèles du monde manquent de capacités de raisonnement issues des grands modèles de langage. Dans cet article, nous construisons plusieurs ensembles de données spécialisés fournissant des annotations de raisonnement et de planification pour des scénarios complexes. Ensuite, un cadre unifié Compréhension-Génération-Planification, nommé UniUGP, est proposé pour synergiser le raisonnement scénique, la génération de vidéos futures et la planification de trajectoire via une architecture hybride d'experts. En intégrant des modèles de vision-langage pré-entraînés et des modèles de génération vidéo, UniUGP exploite la dynamique visuelle et le raisonnement sémantique pour améliorer les performances de planification. Prenant en entrée des observations multi-images et des instructions langagières, il produit un raisonnement explicable en chaîne de pensée, des trajectoires physiquement cohérentes et des vidéos futures cohérentes. Nous introduisons une stratégie d'entraînement en quatre étapes qui développe progressivement ces capacités sur plusieurs ensembles de données de CA existants, ainsi que sur les ensembles de données spécialisés proposés. Les expériences démontrent des performances de pointe en perception, raisonnement et prise de décision, avec une généralisation supérieure dans des situations de longue traîne difficiles.
Nous présentons WonderZoom, une nouvelle approche pour générer des scènes 3D avec un contenu couvrant de multiples échelles spatiales à partir d'une seule image. Les modèles de génération de mondes 3D existants se limitent à une synthèse à échelle unique et ne peuvent pas produire un contenu de scène cohérent à différents niveaux de granularité. Le défi fondamental est l'absence d'une représentation 3D sensible à l'échelle, capable de générer et de restituer un contenu avec des tailles spatiales très différentes. WonderZoom résout ce problème grâce à deux innovations clés : (1) des surfels gaussiens adaptatifs à l'échelle pour la génération et le rendu en temps réel de scènes 3D multi-échelles, et (2) un synthétiseur de détails progressif qui génère itérativement un contenu 3D à des échelles plus fines. Notre approche permet aux utilisateurs de « zoomer » sur une région 3D et de synthétiser de manière autorégressive des détails fins auparavant inexistants, allant des paysages aux caractéristiques microscopiques. Les expériences démontrent que WonderZoom surpasse significativement les modèles vidéo et 3D de l'état de l'art en termes de qualité et d'alignement, permettant la création de mondes 3D multi-échelles à partir d'une seule image. Nous présentons des résultats vidéo et une visionneuse interactive des mondes 3D multi-échelles générés sur https://wonderzoom.github.io/.
Les modèles de langage à diffusion (dLLMs) égalent désormais les performances en aval de leurs homologues autorégressifs sur de nombreuses tâches, tout en promettant une inférence plus efficace. Une variante particulièrement réussie est la diffusion discrète masquée, où un tampon rempli de jetons de masquage spéciaux est progressivement remplacé par des jetons échantillonnés depuis le vocabulaire du modèle. L'efficacité peut être améliorée en démasquant plusieurs jetons en parallèle, mais en traiter trop simultanément risque de dégrader la qualité de la génération. Ainsi, un aspect crucial de la conception des dLLMs est la procédure d'échantillonnage qui sélectionne, à chaque étape du processus de diffusion, quels jetons remplacer. De récents travaux ont effectivement montré que des stratégies heuristiques comme le seuillage de confiance conduisent à une qualité et un débit de jetons supérieurs par rapport au démasquage aléatoire. Cependant, ces heuristiques présentent des inconvénients : elles nécessitent un réglage manuel, et nous observons que leurs performances se dégradent avec des tailles de tampon plus importantes. Dans ce travail, nous proposons plutôt d'entraîner les procédures d'échantillonnage à l'aide de l'apprentissage par renforcement. Plus précisément, nous formalisons l'échantillonnage par diffusion masquée comme un processus de décision markovien où le dLLM sert d'environnement, et nous proposons une architecture de politique légère basée sur un transformeur monocouche qui mappe les confiances des jetons du dLLM vers des décisions de démasquage. Nos expériences montrent que ces politiques entraînées égalent les performances des heuristiques de pointe lorsqu'elles sont combinées à une génération semi-autorégressive, tout en les surpassant dans le cadre complet de la diffusion. Nous examinons également la transférabilité de ces politiques, constatant qu'elles peuvent généraliser à de nouveaux dLLMs sous-jacents et à des longueurs de séquence plus importantes. Cependant, nous observons aussi que leurs performances se dégradent lorsqu'elles sont appliquées à des données hors domaine, et qu'un réglage fin du compromis précision-efficacité peut s'avérer difficile avec notre approche.
Les agents, systèmes basés sur des modèles de langage (LM) capables de raisonner, de planifier et d'agir, deviennent le paradigme dominant pour les applications d'IA en conditions réelles. Malgré cette adoption généralisée, les principes déterminant leur performance restent peu explorés, contraignant les praticiens à s'appuyer sur des heuristiques plutôt que sur des choix de conception fondés. Nous comblons cette lacune en établissant des principes d'échelle quantitatifs pour les systèmes d'agents. Nous évaluons cela sur quatre benchmarks diversifiés : Finance-Agent, BrowseComp-Plus, PlanCraft et Workbench. En utilisant cinq architectures canoniques (Unique, Indépendante, Centralisée, Décentralisée, Hybride) instanciées sur trois familles de LLM, nous réalisons une évaluation contrôlée couvrant 180 configurations avec des outils et des budgets en tokens standardisés. Nous dérivons un modèle prédictif utilisant des métriques de coordination empiriques, incluant l'efficacité, la surcharge, l'amplification des erreurs et la redondance, qui atteint un R² validé croisé de 0,513. Nous identifions trois effets dominants : (1) un compromis outil-coordination : sous budgets computationnels fixes, les tâches intensives en outils pâtissent disproportionnément de la surcharge multi-agents. (2) une saturation des capacités : la coordination produit des rendements décroissants ou négatifs (bêta = -0,408, p < 0,001) une fois que les performances de base d'un agent unique dépassent ~45 %. (3) une amplification des erreurs dépendante de la topologie : les agents indépendants amplifient les erreurs d'un facteur 17,2 via une propagation non contrôlée, tandis que la coordination centralisée limite cela à un facteur 4,4. La coordination centralisée améliore les performances de 80,9 % sur des tâches parallélisables comme le raisonnement financier, tandis que la coordination décentralisée excelle sur la navigation web dynamique (+9,2 % contre +0,2 %). Cependant, pour les tâches de raisonnement séquentiel, toutes les variantes multi-agents ont dégradé les performances de 39 à 70 %. Le cadre prédit la stratégie de coordination optimale pour 87 % des configurations retenues, fournissant un principe prédictif de mise à l'échelle agentique basé sur des propriétés de tâche mesurables.
Les récentes avancées des modèles de langage multimodaux à grande échelle (MLLM) ont conduit à des progrès impressionnants sur diverses benchmarks. Cependant, leur capacité à comprendre les images infrarouges reste inexplorée. Pour combler cette lacune, nous présentons IF-Bench, la première benchmark de haute qualité conçue pour évaluer la compréhension multimodale des images infrarouges. IF-Bench se compose de 499 images issues de 23 jeux de données infrarouges et de 680 paires question-réponse visuelles soigneusement élaborées, couvrant 10 dimensions essentielles de la compréhension d'image. Sur la base de cette benchmark, nous évaluons systématiquement plus de 40 MLLM open-source et propriétaires, en employant des stratégies d'évaluation cyclique, d'évaluation bilingue et de jugement hybride pour améliorer la fiabilité des résultats. Notre analyse révèle comment l'échelle du modèle, l'architecture et les paradigmes d'inférence affectent la compréhension des images infrarouges, fournissant des insights précieux pour ce domaine. De plus, nous proposons une méthode générative d'invite visuelle sans entraînement (GenViP), qui exploite des modèles avancés d'édition d'image pour traduire les images infrarouges en leurs équivalents RGB alignés sémantiquement et spatialement, atténuant ainsi les décalages de distribution de domaine. Des expériences approfondies démontrent que notre méthode produit systématiquement des améliorations significatives de performance sur un large éventail de MLLM. La benchmark et le code sont disponibles à l'adresse https://github.com/casiatao/IF-Bench.
Forts du succès de la splatting par gaussiennes 3D (3DGS) pour la représentation de scènes 3D statiques, son extension aux scènes dynamiques, souvent appelée 4DGS ou 3DGS dynamique, a suscité un intérêt croissant. Cependant, la conception de schémas de déformation plus compacts et efficaces, associée à des stratégies de compression optimisées en débit-distorsion pour les représentations 3DGS dynamiques, reste un domaine peu exploré. Les méthodes antérieures reposent soit sur une approche 4DGS spatio-temporelle utilisant des primitives gaussiennes surspécifiées et à courte durée de vie, soit sur un modèle 3DGS canonique avec une déformation manquant de contrôle temporel explicite. Pour résoudre ce problème, nous présentons TED-4DGS, un schéma de déformation basé sur des embeddings et activé temporellement pour une compression 4DGS optimisée en débit-distorsion, qui unifie les forces des deux approches. TED-4DGS est construit sur une représentation 3DGS creuse basée sur des points d'ancrage. Chaque point d'ancrage canonique se voit attribuer des paramètres d'activation temporelle apprenables pour spécifier ses transitions d'apparition et de disparition dans le temps, tandis qu'un embedding temporel léger par point d'ancrage interroge une banque de déformation partagée pour produire une déformation spécifique à chaque ancrage. Pour la compression débit-distorsion, nous intégrons un hyperprior basé sur une représentation neuronale implicite (RNI) pour modéliser les distributions des attributs des points d'ancrage, ainsi qu'un modèle autorégressif canal par canal pour capturer les corrélations intra-ancrage. Grâce à ces nouveaux éléments, notre schéma atteint des performances débit-distorsion de pointe sur plusieurs jeux de données du monde réel. À notre connaissance, ce travail représente l'une des premières tentatives de mise en œuvre d'un cadre de compression optimisé en débit-distorsion pour les représentations 3DGS dynamiques.
Les systèmes de synthèse vocale légers et en temps réel sont essentiels pour l'accessibilité. Cependant, les modèles de TTS les plus efficaces reposent souvent sur des phonétiseurs légers qui peinent à gérer les défis dépendants du contexte. À l'inverse, les phonétiseurs plus avancés, dotés d'une compréhension linguistique plus profonde, entraînent généralement des coûts computationnels élevés, ce qui compromet les performances en temps réel. Cet article examine le compromis entre la qualité de la phonétisation et la vitesse d'inférence dans les systèmes de TTS assistés par G2P, en proposant un cadre pratique pour combler cet écart. Nous présentons des stratégies légères pour une phonétisation sensible au contexte et une architecture de TTS orientée services qui exécute ces modules comme des services indépendants. Cette conception dissocie les composants lourds sensibles au contexte du moteur TTS principal, franchissant efficacement la barrière de latence et permettant l'utilisation en temps réel de modèles de phonétisation de haute qualité. Les résultats expérimentaux confirment que le système proposé amène la robustesse de la prononciation et la précision linguistique tout en conservant une réactivité en temps réel, le rendant particulièrement adapté aux applications de TTS hors ligne et embarquées.
La diffusion autorégressive (AR) permet la génération interactive en flux de vidéos longues en produisant les images de manière causale, mais la préservation de la cohérence sur des horizons à l'échelle de la minute reste difficile en raison des erreurs accumulées, de la dérive du mouvement et des répétitions de contenu. Nous abordons ce problème sous l'angle de la mémoire, en considérant la synthèse vidéo comme un processus dynamique récurrent qui nécessite une coordination entre le contexte à court et à long terme. Nous proposons VideoSSM, un modèle de vidéo longue qui unifie la diffusion AR avec une mémoire hybride à espace d'états. Le modèle à espace d'états (SSM) sert de mémoire globale évolutive pour la dynamique de la scène sur toute la séquence, tandis qu'une fenêtre contextuelle fournit une mémoire locale pour les indices de mouvement et les détails fins. Cette conception hybride préserve la cohérence globale sans motifs figés ou répétitifs, prend en charge une interaction adaptative aux invites, et s'adapte avec un temps linéaire à la longueur de la séquence. Les expériences sur des benchmarks à courte et longue portée démontrent une cohérence temporelle et une stabilité du mouvement à l'état de l'art parmi les générateurs vidéo autorégressifs, particulièrement sur des horizons à l'échelle de la minute, permettant une diversité de contenu et un contrôle interactif basé sur des invites, établissant ainsi un cadre évolutif et conscient de la mémoire pour la génération de vidéos longues.
L'acquisition de matériel de minage de Bitcoin nécessite un timing stratégique en raison de la volatilité des marchés, de l'obsolescence technologique rapide et des cycles de revenus dictés par le protocole. Bien que le minage soit devenu une industrie capitalistique, il existe peu de conseils sur le moment opportun pour acheter de nouveaux matériels ASIC (Circuit Intégré Spécifique à une Application), et aucun cadre computationnel antérieur ne traite de ce problème décisionnel. Nous comblons cette lacune en formulant l'acquisition de matériel comme une tâche de classification de séries temporelles, prédisant si l'achat de machines ASIC génère des rendements rentables (Retour sur Investissement (ROI) >= 1), marginaux (0 < ROI < 1) ou non rentables (ROI <= 0) dans un délai d'un an. Nous proposons MineROI-Net, une architecture open source basée sur un Transformer conçue pour capturer les motifs temporels multi-échelles de la rentabilité du minage. Évalué sur des données de 20 mineurs ASIC commercialisés entre 2015 et 2024, couvrant divers régimes de marché, MineROI-Net surpasse les modèles de référence basés sur les LSTM et TSLANet, atteignant une précision de 83,7 % et un score F1 macro de 83,1 %. Le modèle démontre une forte pertinence économique, atteignant une précision de 93,6 % pour détecter les périodes non rentables et de 98,5 % pour les périodes rentables, tout en évitant de classer à tort les scénarios rentables comme non rentables et vice-versa. Ces résultats indiquent que MineROI-Net offre un outil pratique et fondé sur les données pour déterminer le moment d'acquisition du matériel de minage, permettant potentiellement de réduire le risque financier dans les opérations de minage capitalistiques. Le modèle est disponible à l'adresse : https://github.com/AMAAI-Lab/MineROI-Net.
Pour résoudre le compromis entre robustesse et performance des modèles vision-langage (VLM) robustes, nous observons que les mots-outils peuvent induire une vulnérabilité des VLM face aux attaques adverses cross-modales, et proposons en conséquence la Dé-Attention des Mots-Outils (FDA) pour atténuer leur impact. S’inspirant des amplificateurs différentiels, notre méthode FDA calcule les attentions croisées originales et celles des mots-outils au sein des têtes d’attention, puis soustrait différentiellement les secondes des premières afin d’obtenir des VLM mieux alignés et plus robustes. Les expérimentations exhaustives incluent 2 bases de référence state-of-the-art sous 6 attaques différentes, appliquées à 2 tâches en aval, 3 jeux de données et 3 modèles. Globalement, notre FDA réduit le taux de succès des attaques (ASR) de 18/13/53 % en moyenne pour seulement 0,2/0,3/0,6 % de baisse de performance sur les 3 modèles testés en tâche de retrieval, et obtient une réduction de 90 % de l’ASR avec un gain de performance de 0,3 % en ancrage visuel. Nous démontrons expérimentalement l’évolutivité, la généralisation et les performances zero-shot de FDA, ainsi que des études d’ablation et des analyses approfondies. Le code sera public sur https://github.com/michaeltian108/FDA.
Le dialogue clinique représente une dualité complexe exigeant à la fois l'aisance empathique de la conversation naturelle et la rigueur précisionnelle de la médecine factuelle. Bien que les grands modèles de langage possèdent des capacités linguistiques sans précédent, leur architecture reposant sur un traitement réactif et sans état favorise souvent la vraisemblance probabiliste au détriment de la véracité factuelle. Cette limitation structurelle a catalysé un changement de paradigme dans l'IA médicale, passant de la prédiction textuelle générative à l'autonomie agentique, où le modèle fonctionne comme un moteur de raisonnement central capable de planification délibérée et de mémoire persistante. Allant au-delà des revues existantes qui recensent principalement les applications en aval, cette étude propose une analyse fondée sur les premiers principes de l'architecture cognitive sous-tendant cette transition. Nous introduisons une taxonomie novatrice structurée selon les axes orthogonaux de la source de connaissance et de l'objectif d'agence pour délimiter la provenance des connaissances cliniques par rapport au champ opérationnel du système. Ce cadre facilite une analyse systématique des compromis intrinsèques entre créativité et fiabilité en catégorisant les méthodes selon quatre archétypes : les Cliniciens de l'Espace Latent, les Planificateurs Émergents, les Synthéticiens Ancrés et les Automateurs de Flux de Travail Vérifiables. Pour chaque paradigme, nous déconstruisons la réalisation technique à travers l'ensemble du pipeline cognitif, englobant la planification stratégique, la gestion de la mémoire, l'exécution des actions, la collaboration et l'évolution, pour révéler comment les choix architecturaux distincts équilibrent la tension entre autonomie et sécurité.
Les progrès récents en génération vidéo à partir de texte ont atteint un réalisme remarquable, mais le contrôle précis du mouvement et de l'orientation de la caméra reste difficile. Les approches existantes encodent généralement les trajectoires de caméra par des représentations relatives ou ambiguës, limitant le contrôle géométrique explicite. Nous présentons GimbalDiffusion, un cadre permettant un contrôle de la camère ancré dans les coordonnées du monde physique, utilisant la gravité comme référence globale. Au lieu de décrire le mouvement par rapport aux images précédentes, notre méthode définit les trajectoires de caméra dans un système de coordonnées absolu, permettant un contrôle précis et interprétable des paramètres de caméra sans nécessiter une image de référence initiale. Nous exploitons des vidéos panoramiques à 360 degrés pour construire une grande variété de trajectoires de caméra, bien au-delà des trajectoires majoritairement linéaires et orientées vers l'avant observées dans les données vidéo conventionnelles. Pour renforcer davantage le guidage de la caméra, nous introduisons le *null-pitch conditioning*, une stratégie d'annotation qui réduit la dépendance du modèle au contenu textuel lorsque celui-ci entre en conflit avec les spécifications de la caméra (par exemple, générer de l'herbe alors que la caméra pointe vers le ciel). Enfin, nous établissons un benchmark pour la génération vidéo sensible à la caméra en rééquilibrant SpatialVID-HQ pour une évaluation complète sous de larges variations d'inclinaison de caméra. Ensemble, ces contributions font progresser la contrôlabilité et la robustesse des modèles de génération vidéo à partir de texte, permettant une manipulation précise et alignée sur la gravité de la caméra dans les cadres génératifs.