papers.description
La mémoire est apparue et continuera de rester une capacité fondamentale des agents basés sur des modèles de fondation. Alors que la recherche sur la mémoire des agents se développe rapidement et attire une attention sans précédent, le domaine devient également de plus en plus fragmenté. Les travaux existants relevant de la mémoire des agents diffèrent souvent considérablement dans leurs motivations, leurs implémentations et leurs protocoles d'évaluation, tandis que la prolifération de terminologies mémorielles faiblement définies a encore obscurci la clarté conceptuelle. Les taxonomies traditionnelles telles que la mémoire à long/court terme se sont avérées insuffisantes pour capturer la diversité des systèmes de mémoire d'agents contemporains. Ce travail vise à fournir un panorama actualisé de la recherche actuelle sur la mémoire des agents. Nous commençons par délimiter clairement le périmètre de la mémoire des agents et la distinguer des concepts connexes tels que la mémoire des LLM, la génération augmentée par retrieval (RAG) et l'ingénierie du contexte. Nous examinons ensuite la mémoire des agents à travers les prismes unifiés des formes, des fonctions et de la dynamique. Du point de vue des formes, nous identifions trois réalisations dominantes de la mémoire des agents, à savoir la mémoire au niveau token, paramétrique et latente. Du point de vue des fonctions, nous proposons une taxonomie plus fine qui distingue la mémoire factuelle, la mémoire expérientielle et la mémoire de travail. Du point de vue de la dynamique, nous analysons comment la mémoire se forme, évolue et est récupérée au fil du temps. Pour soutenir le développement pratique, nous compilons un résumé complet des benchmarks de mémoire et des frameworks open source. Au-delà de la consolidation, nous articulons une perspective prospective sur les frontières de recherche émergentes, notamment l'automatisation de la mémoire, l'intégration de l'apprentissage par renforcement, la mémoire multimodale, la mémoire multi-agents et les problèmes de confiance. Nous espérons que cette étude servira non seulement de référence pour les travaux existants, mais aussi de fondement conceptuel pour repenser la mémoire comme une primitive de premier ordre dans la conception de l'intelligence agentielle future.
Nous présentons QwenLong-L1.5, un modèle qui atteint des capacités de raisonnement en contexte long supérieures grâce à des innovations systématiques en post-formation. Les percées techniques clés de QwenLong-L1.5 sont les suivantes : (1) Pipeline de Synthèse de Données pour Contexte Long : Nous avons développé un cadre de synthèse systématique qui génère des tâches de raisonnement complexes nécessitant un ancrage multi-sauts sur des preuves distribuées globalement. En déconstruisant les documents en faits atomiques et leurs relations sous-jacentes, puis en composant programmatiquement des questions de raisonnement vérifiables, notre approche crée des données d'entraînement de haute qualité à grande échelle, dépassant largement les simples tâches de recherche d'information pour permettre de véritables capacités de raisonnement à longue portée. (2) Apprentissage par Renforcement Stabilisé pour l'Entraînement en Contexte Long : Pour surmonter l'instabilité critique dans l'apprentissage par renforcement (RL) en contexte long, nous introduisons un échantillonnage équilibré par tâche avec une estimation d'avantage spécifique aux tâches pour atténuer le biais de récompense, et proposons une Optimisation de Politique à Entropie Adaptative (AEPO) qui régule dynamiquement les compromis exploration-exploitation. (3) Architecture à Mémoire Augmentée pour Contextes Ultra-Longs : Conscients que même des fenêtres de contexte étendues ne peuvent accueillir des séquences arbitrairement longues, nous avons développé un cadre de gestion de mémoire avec un entraînement RL par fusion multi-étapes qui intègre de manière transparente le raisonnement en une seule passe avec un traitement itératif basé sur la mémoire pour les tâches dépassant 4M de tokens. Basé sur Qwen3-30B-A3B-Thinking, QwenLong-L1.5 atteint des performances comparables à GPT-5 et Gemini-2.5-Pro sur les benchmarks de raisonnement en contexte long, dépassant sa baseline de 9,90 points en moyenne. Sur les tâches ultra-longues (1M~4M tokens), le cadre mémoire-agent de QwenLong-L1.5 procure un gain de 9,48 points par rapport à la baseline agent. De plus, la capacité de raisonnement en contexte long acquise se traduit par une performance améliorée dans des domaines généraux comme le raisonnement scientifique, l'utilisation d'outils de mémoire et le dialogue étendu.
La qualité de l'espace latent dans les tokeniseurs visuels (par exemple, les VAE) est cruciale pour les modèles génératifs modernes. Cependant, le paradigme d'entraînement standard basé sur la reconstruction produit un espace latent biaisé en faveur des informations de bas niveau, conduisant à un défaut fondamental : une meilleure précision au niveau pixel n'engendre pas une génération de plus haute qualité. Cela implique qu'investir massivement en calcul dans le pré-entraînement du tokeniseur visuel se traduit mal en une amélioration des performances génératives. Nous identifions ceci comme le « problème de mise à l'échelle du pré-entraînement » et suggérons un changement nécessaire : pour être efficace en génération, un espace latent doit représenter de manière concise la sémantique de haut niveau. Nous présentons VTP, un framework unifié de pré-entraînement pour tokeniseurs visuels, pionnier dans l'optimisation conjointe des pertes de contraste image-texte, auto-supervisée et de reconstruction. Notre étude à grande échelle révèle deux résultats principaux : (1) la compréhension est un moteur clé de la génération, et (2) de bien meilleures propriétés de mise à l'échelle, où les performances génératives s'améliorent efficacement avec le calcul, les paramètres et les données alloués au pré-entraînement du tokeniseur visuel. Après un pré-entraînement à grande échelle, notre tokeniseur offre un profil compétitif (78.2% de précision zero-shot et 0.36 rFID sur ImageNet) et une convergence 4.1 fois plus rapide en génération par rapport aux méthodes de distillation avancées. Plus important encore, il est efficacement scalable : sans modifier les spécifications d'entraînement DiT standard, le simple fait d'investir plus de FLOPS dans le pré-entraînement de VTP permet une amélioration du FID de 65.8% en génération en aval, tandis qu'un autoencodeur conventionnel stagne très tôt à 1/10ème des FLOPS. Nos modèles pré-entraînés sont disponibles à l'adresse https://github.com/MiniMax-AI/VTP.
Les modèles autorégressifs (ARM) sont entravés par une inférence séquentielle lente. Bien que les modèles de diffusion masquée (MDM) offrent une alternative parallèle, ils souffrent d'inconvénients majeurs : une surcharge computationnelle élevée due à l'impossibilité de mettre en cache les paires Clé-Valeur (KV), et une génération incohérente résultant de l'apprentissage de dépendances sur un espace intraitable de combinaisons de tokens. Pour résoudre ces limitations, nous présentons ReFusion, un nouveau modèle de diffusion masquée qui atteint une performance et une efficacité supérieures en élevant le décodage parallèle du niveau token à un niveau slot supérieur, où chaque slot est une sous-séquence contiguë de longueur fixe. Ceci est réalisé via un processus de décodage itératif « planifier-et-remplir » : une étape de planification basée sur la diffusion identifie d'abord un ensemble de slots faiblement dépendants, puis une étape de remplissage autorégressive décode ces slots sélectionnés en parallèle. La conception basée sur les slots permet simultanément la réutilisation complète du cache KV avec un cadre causal unifié et réduit la complexité d'apprentissage de l'espace des combinaisons de tokens à un espace de permutations au niveau des slots gérable. Des expériences approfondies sur sept benchmarks divers montrent que ReFusion surpasse non seulement massivement les MDM antérieurs avec des gains de performance de 34 % et une accélération moyenne de plus de 18 fois, mais comble également l'écart de performance avec les ARM robustes tout en maintenant une accélération moyenne de 2,33 fois.
La construction de modèles de monde vidéo sur la base de systèmes de génération vidéo pré-entraînés représente une étape importante mais difficile vers une intelligence spatiotemporelle générale. Un modèle de monde doit posséder trois propriétés essentielles : la contrôlabilité, la qualité visuelle à long terme et la cohérence temporelle. Pour cela, nous adoptons une approche progressive - en améliorant d'abord la contrôlabilité puis en nous étendant vers une génération à long terme et de haute qualité. Nous présentons LongVie 2, un cadre autorégressif de bout en bout entraîné en trois étapes : (1) Le guidage multimodal, qui intègre des signaux de contrôle denses et épars pour fournir une supervision implicite au niveau du monde et améliorer la contrôlabilité ; (2) L'entraînement tenant compte de la dégradation sur l'image d'entrée, comblant l'écart entre l'entraînement et l'inférence à long terme pour maintenir une haute qualité visuelle ; et (3) Le guidage par contexte historique, qui aligne les informations contextuelles entre clips adjacents pour assurer la cohérence temporelle. Nous introduisons en outre LongVGenBench, un benchmark complet comprenant 100 vidéos d'une minute en haute résolution couvrant divers environnements réels et synthétiques. Des expériences approfondies démontrent que LongVie 2 atteint des performances de pointe en matière de contrôlabilité à long terme, de cohérence temporelle et de fidélité visuelle, et prend en charge une génération vidéo continue durant jusqu'à cinq minutes, marquant une avancée significative vers une modélisation unifiée du monde vidéo.
Nous présentons un benchmark financier et comptable (Finch) pour évaluer les agents d'IA sur des flux de travail professionnels réalistes de niveau entreprise — intégrant des activités de saisie de données, de structuration, de mise en forme, de recherche web, d'extraction inter-fichiers, de calcul, de modélisation, de validation, de traduction, de visualisation et de reporting. Finch est constitué à partir d'espaces de travail d'entreprise authentiques provenant d'Enron (15 000 feuilles de calcul et 500 000 e-mails de 150 employés) et d'autres institutions financières, conservant le désordre caractéristique du terrain à travers des artefacts multimodaux (texte, tableaux, formules, graphiques, code et images) et couvrant divers domaines tels que la budgétisation, le trading et la gestion d'actifs. Nous proposons un processus de construction de flux de travail qui combine une découverte assistée par LLM avec une annotation experte : (1) une dérivation de flux de travail à partir de fils de discussion e-mail réels et de l'historique des versions de fichiers tableurs, vérifiée par des experts et assistée par LLM, et (2) une annotation méticuleuse des flux de travail par des experts, nécessitant plus de 700 heures d'effort de spécialistes du domaine. Ce processus produit 172 flux de travail composites comprenant 384 tâches, impliquant 1 710 feuilles de calcul totalisant 27 millions de cellules, ainsi que des PDFs et autres artefacts, capturant la nature intrinsèquement désordonnée, de long terme, gourmande en connaissances et collaborative du travail en entreprise réel. Nous menons des évaluations humaines et automatisées des systèmes d'IA de pointe, incluant GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 et Qwen 3 Max. GPT 5.1 Pro nécessite 48 heures au total mais ne valide que 38,4 % des flux de travail, tandis que Claude Sonnet 4.5 n'en valide que 25,0 %. Des études de cas approfondies mettent en lumière les défis que les flux de travail enterprise réels posent aux agents d'IA.
Les récents progrès des agents de programmation laissent entrevoir une avancée rapide vers le développement logiciel autonome, pourtant les benchmarks existants n’évaluent pas rigoureusement les capacités à long terme nécessaires à la construction de systèmes logiciels complets. La plupart des évaluations antérieures se concentrent sur la génération localisée de code, la complétion assistée ou des tâches de correction à court terme, laissant ouverte la question de savoir si les agents peuvent maintenir un raisonnement, une planification et une exécution cohérents sur les longues durées exigées par la construction réaliste de dépôts. Pour combler cette lacune, nous présentons NL2Repo Bench, un benchmark explicitement conçu pour évaluer la capacité des agents de programmation à générer des dépôts sur le long terme. Avec seulement un document de spécifications en langage naturel et un espace de travail vide, les agents doivent concevoir de manière autonome l’architecture, gérer les dépendances, implémenter une logique multi-modules et produire une bibliothèque Python entièrement installable. Nos expériences sur les modèles open source et propriétaires les plus avancés montrent que la génération de dépôts à long horizon reste largement non résolue : même les agents les plus performants n’atteignent en moyenne que moins de 40 % de taux de réussite aux tests et parviennent rarement à produire un dépôt complet et correct. Une analyse détaillée révèle des modes d’échec fondamentaux sur le long terme, notamment l’arrêt prématuré, la perte de cohérence globale, des dépendances inter-fichiers fragiles et une planification inadéquate sur des centaines d’étapes d’interaction. NL2Repo Bench établit un banc d’essai rigoureux et vérifiable pour mesurer la compétence agentielle soutenue et souligne le raisonnement à long terme comme un goulot d’étranglement central pour la prochaine génération d’agents de programmation autonomes.
Les modèles de génération vidéo d'avatars ont réalisé des progrès remarquables ces dernières années. Cependant, les travaux antérieurs présentent une efficacité limitée pour générer des vidéos longue durée en haute résolution, souffrant de dérive temporelle, de dégradation qualitative et d'un faible suivi des instructions à mesure que la durée vidéo augmente. Pour relever ces défis, nous proposons KlingAvatar 2.0, un cadre en cascade spatio-temporelle qui effectue un suréchantillonnage tant en résolution spatiale qu'en dimension temporelle. Le cadre génère d'abord des images clés vidéo en basse résolution capturant la sémantique globale et le mouvement, puis les affine en sous-clips haute résolution et cohérents temporellement à l'aide d'une stratégie de première-dernière image, tout en conservant des transitions temporelles fluides dans les vidéos long format. Pour améliorer la fusion et l'alignement des instructions multimodales dans les vidéos étendues, nous introduisons un Directeur de Co-Raisonnement composé de trois experts spécialisés par modalité utilisant de grands modèles de langage (LLM). Ces experts raisonnent sur les priorités modales et infèrent l'intention sous-jacente de l'utilisateur, convertissant les entrées en scénarios détaillés via un dialogue multi-tours. Un Directeur Négatif affine en outre les instructions négatives pour améliorer l'alignement aux consignes. Sur la base de ces composants, nous étendons le cadre pour prendre en charge le contrôle multi-personnages spécifique à une identité. Des expériences approfondies démontrent que notre modèle résout efficacement les défis de la génération vidéo longue durée haute résolution, efficace et multimodalement alignée, offrant une clarté visuelle accrue, un rendu réaliste des lèvres et des dents avec une synchronisation labiale précise, une forte préservation de l'identité et un suivi cohérent des instructions multimodales.
L'attention en temps linéaire et les modèles à espace d'états (SSM) promettent de résoudre le goulot d'étranglement du coût quadratique dans les modèles de langage à contexte long employant l'attention softmax. Nous présentons l'Attention Linéaire Sans Erreur (EFLA), une formulation numériquement stable, entièrement parallélisable et généralisée de la règle delta. Plus précisément, nous formulons la mise à jour de l'apprentissage en ligne comme un système dynamique en temps continu et prouvons que sa solution exacte est non seulement atteignable mais aussi calculable en temps linéaire avec un parallélisme total. En tirant parti de la structure de rang 1 de la matrice dynamique, nous dérivons directement la solution exacte sous forme fermée correspondant effectivement à la méthode de Runge-Kutta d'ordre infini. Ce mécanisme d'attention est théoriquement exempt d'accumulation d'erreurs, capturant parfaitement la dynamique continue tout en préservant la complexité en temps linéaire. Grâce à une vaste série d'expériences, nous montrons qu'EFLA permet des performances robustes dans des environnements bruités, atteignant une perplexité de modélisation du langage plus faible et des performances supérieures sur des benchmarks en aval par rapport à DeltaNet, sans introduire de paramètres supplémentaires. Notre travail fournit une nouvelle base théorique pour la construction de modèles d'attention en temps linéaire, évolutifs et à haute fidélité.
Les troubles de la santé mentale affectent des centaines de millions de personnes dans le monde, et le Web sert désormais de principal moyen d'accès au soutien, à l'information et à l'évaluation. Les grands modèles de langage (LLM) offrent une assistance évolutive et accessible, mais leur déploiement dans des contextes de santé mentale reste risqué lorsque leur raisonnement est incomplet, incohérent ou non fondé. Les LLM psychologiques existants mettent l'accent sur la compréhension émotionnelle ou la restitution des connaissances, mais négligent le raisonnement séquentiel et cliniquement aligné nécessaire pour l'évaluation, le diagnostic, la planification des interventions, l'abstraction et la vérification. Pour résoudre ces problèmes, nous présentons MentraSuite, un cadre unifié pour faire progresser le raisonnement fiable en santé mentale. Nous proposons MentraBench, un benchmark complet couvrant cinq aspects fondamentaux du raisonnement, six tâches et 13 jeux de données, évaluant à la fois la performance des tâches et la qualité du raisonnement selon cinq dimensions : concision, cohérence, évitement des hallucinations, compréhension de la tâche et cohérence interne. Nous présentons en outre Mindora, un modèle post-entraîné optimisé via un cadre hybride SFT-RL avec une récompense de détection des incohérences pour imposer un raisonnement fidèle et cohérent. Pour soutenir l'entraînement, nous construisons des trajectoires de haute qualité en utilisant une nouvelle stratégie de génération de trajectoires de raisonnement, qui filtre stratégiquement les échantillons difficiles et applique un processus de réécriture structuré et axé sur la cohérence pour produire des trajectoires concises, lisibles et bien équilibrées. Sur les 20 LLM évalués, Mindora obtient la performance moyenne la plus élevée sur MentraBench et montre des performances remarquables en fiabilité du raisonnement, démontrant son efficacité pour les scénarios complexes de santé mentale.
Le Défi BEHAVIOR 2025 est conçu pour suivre rigoureusement les progrès accomplis dans la résolution de tâches à long horizon par des agents physiques dans des environnements simulés. BEHAVIOR-1K se concentre sur les tâches domestiques quotidiennes pour lesquelles les personnes souhaitent le plus une assistance robotique. Ces tâches introduisent des défis de manipulation mobile à long horizon dans des cadres réalistes, comblant ainsi le fossé entre la recherche actuelle et les applications réelles centrées sur l'humain. Ce rapport présente notre solution pour le Défi BEHAVIOR 2025, qui s'est classée à une très proche 2ème place et surpasse substantiellement les autres soumissions. En nous appuyant sur π_{0.5}, nous nous concentrons sur la construction systématique de notre solution en étudiant les effets des techniques d'entraînement et des données. Par des ablations minutieuses, nous démontrons le potentiel de mise à l'échelle lors des phases de pré-entraînement et de post-entraînement pour obtenir des performances compétitives. Nous résumons nos enseignements pratiques et nos recommandations de conception, que nous espérons fourniront des perspectives actionnables à la communauté plus large de l'IA incarnée pour l'adaptation de modèles de fondation puissants à des scénarios incarnés complexes.
Les modèles Vision-Langage-Action (VLA) offrent un paradigme prometteur pour l'apprentissage robotique en intégrant la perception visuelle avec l'apprentissage de politiques guidé par le langage. Cependant, la plupart des approches existantes s'appuient sur des entrées visuelles 2D pour exécuter des actions dans des environnements physiques 3D, créant un décalage important entre la perception et l'ancrage de l'action. Pour combler cette lacune, nous proposons un paradigme de pré-entraînement VLA Spatialement Conscient qui réalise un alignement explicite entre l'espace visuel et l'espace physique durant le pré-entraînement, permettant aux modèles d'acquérir une compréhension spatiale 3D avant l'apprentissage des politiques robotiques. En partant de modèles vision-langage pré-entraînés, nous exploitons de grandes vidéos de démonstrations humaines pour extraire des annotations visuelles 3D et des annotations d'actions 3D, formant ainsi une nouvelle source de supervision qui aligne les observations visuelles 2D avec le raisonnement spatial 3D. Nous concrétisons ce paradigme avec VIPA-VLA, une architecture à double encodeur qui intègre un encodeur visuel 3D pour enrichir les représentations visuelles sémantiques avec des caractéristiques sensibles à la 3D. Lorsqu'il est adapté à des tâches robotiques en aval, VIPA-VLA permet une bien meilleure mise en correspondance entre la vision 2D et l'action 3D, ce qui se traduit par des politiques robotiques plus robustes et généralisables.
Les agents basés sur LLM fonctionnent souvent de manière gloutonne et séquentielle, sélectionnant des actions uniquement sur la base de l'observation courante sans considérer les conséquences à long terme ou les chemins alternatifs. Ce manque de prévoyance est particulièrement problématique dans les environnements web, qui ne sont que partiellement observables - limités au contenu visible dans le navigateur (par exemple, le DOM et les éléments d'interface utilisateur) - où une seule erreur nécessite souvent une navigation complexe et fragile pour être annulée. Sans mécanisme explicite de retour arrière, les agents peinent à corriger les erreurs ou à explorer systématiquement des alternatives. Les méthodes de recherche arborescente offrent un cadre théorique pour une telle exploration structurée, mais les approches existantes manquent de mécanismes pour un retour arrière sécurisé, les rendant susceptibles d'effets secondaires indésirables. Elles supposent également que toutes les actions sont réversibles, ignorant la présence d'actions irréversibles - des limitations qui réduisent leur efficacité dans les tâches web réalistes. Pour relever ces défis, nous présentons WebOperator, un cadre de recherche arborescente permettant un retour arrière fiable et une exploration stratégique. Notre méthode intègre une stratégie de recherche du meilleur d'abord qui classe les actions à la fois par des estimations de récompense et des considérations de sécurité, ainsi qu'un mécanisme robuste de retour arrière qui vérifie la faisabilité des chemins précédemment visités avant de les rejouer, évitant ainsi les effets secondaires non désirés. Pour mieux guider l'exploration, WebOperator génère des candidats d'actions à partir de multiples contextes de raisonnement variés afin d'assurer une exploration diverse et robuste, puis sélectionne un ensemble d'actions de haute qualité en filtrant les actions invalides avant exécution et en fusionnant celles sémantiquement équivalentes. Les résultats expérimentaux sur WebArena et WebVoyager démontrent l'efficacité de WebOperator. Sur WebArena, WebOperator atteint un taux de réussite de pointe de 54,6 % avec gpt-4o, soulignant l'avantage crucial d'intégrer une prévoyance stratégique à une exécution sécurisée.
Nous introduisons l'Intelligence Interactive, un nouveau paradigme d'humain numérique capable d'expression alignée sur la personnalité, d'interaction adaptative et d'auto-évolution. Pour la concrétiser, nous présentons Mio (Omni-Avatar Interactif Multimodal), un cadre end-to-end composé de cinq modules spécialisés : Penseur, Parleur, Animateur Facial, Animateur Corporel et Rendu. Cette architecture unifiée intègre le raisonnement cognitif avec une incarnation multimodale en temps réel pour permettre une interaction fluide et cohérente. Par ailleurs, nous établissons un nouveau benchmark pour évaluer rigoureusement les capacités de l'intelligence interactive. Des expériences approfondies démontrent que notre cadre atteint des performances supérieures aux méthodes de l'état de l'art sur toutes les dimensions évaluées. Ensemble, ces contributions font évoluer les humains numériques au-delà de l'imitation superficielle vers l'interaction intelligente.
Bien que les modèles de langage de grande taille multimodaux (MLLM) aient démontré de solides capacités dans divers domaines, leur application pour générer des sorties de perception 3D granulaire et de prédiction dans la conduite autonome reste peu explorée. Dans cet article, nous proposons DrivePI, un nouveau MLLM 4D conscient de l'espace qui sert de cadre unifié Vision-Langage-Action (VLA) également compatible avec les modèles vision-action (VA). Notre méthode effectue conjointement et en parallèle, via une optimisation de bout en bout, la compréhension spatiale, la perception 3D (c'est-à-dire l'occupation 3D), la prédiction (c'est-à-dire le flux d'occupation) et la planification (c'est-à-dire les sorties d'action). Pour obtenir à la fois des informations géométriques précises et une apparence visuelle riche, notre approche intègre les nuages de points, les images multi-vues et les instructions langagières au sein d'une architecture MLLM unifiée. Nous développons en outre un moteur de données pour générer des paires question-réponse texte-occupation et texte-flux pour la compréhension spatiale 4D. Fait remarquable, avec seulement un modèle Qwen2.5 de 0,5 milliard de paramètres comme backbone MLLM, DrivePI, en tant que modèle unique unifié, égale ou dépasse à la fois les modèles VLA existants et les modèles VA spécialisés. Concrètement, par rapport aux modèles VLA, DrivePI surpasse OpenDriveVLA-7B de 2,5 % en précision moyenne sur nuScenes-QA et réduit le taux de collision de 70 % par rapport à ORION (de 0,37 % à 0,11 %) sur nuScenes. Face aux modèles VA spécialisés, DrivePI surpasse FB-OCC de 10,3 points de RayIoU pour l'occupation 3D sur OpenOcc, réduit le mAVE de 0,591 à 0,509 pour le flux d'occupation sur OpenOcc, et atteint une erreur L2 inférieure de 32 % à celle de VAD (de 0,72 m à 0,49 m) pour la planification sur nuScenes. Le code sera disponible à l'adresse https://github.com/happinesslz/DrivePI
Les modèles de vision et langage (VLM) excellent dans les tâches de question-réponse visuelle (VQA) mais se limitent à une vision instantanée, raisonnant à partir d'images statiques. En revanche, les agents incarnés nécessitent une vision ambulatoire, se déplaçant activement pour obtenir des points de vue plus informatifs. Nous présentons la sélection active de vue visuellement ancrée (VG-AVS), une tâche qui choisit le point de vue suivant le plus informatif en utilisant uniquement l'information visuelle de l'image actuelle, sans recourir à la mémoire de scène ou à des connaissances externes. Pour soutenir cette tâche, nous construisons un ensemble de données synthétiques avec des paires de vues requête-cible et des invites question-réponse générées automatiquement. Nous proposons également un cadre qui affine des VLM pré-entraînés par un apprentissage supervisé (SFT) suivi d'une optimisation de politique basée sur l'apprentissage par renforcement. Notre approche atteint de solides performances en question-réponse basée sur la sélection de point de vue et généralise robustement à des scènes synthétiques et réelles non vues. De plus, l'intégration de notre cadre VG-AVS appris dans les systèmes existants de EQA basés sur l'exploration de scènes améliore la précision en aval des réponses aux questions.
Alors que de nombreux modèles vision-langage (VLM) sont conçus pour répondre à des questions bien définies et directes avec des cibles hautement spécifiées, comme dans la plupart des benchmarks, ils peinent souvent en pratique face à des tâches complexes et ouvertes, qui nécessitent généralement plusieurs étapes d'exploration et de raisonnement dans l'espace visuel. Ces chemins de pensée visuelle offrent non seulement une exploration et une vérification pas à pas, à la manière d'un détective IA, mais produisent également de meilleures interprétations des réponses finales. Cependant, ces chemins sont difficiles à évaluer en raison du vaste espace d'exploration des étapes intermédiaires. Pour combler cette lacune, nous développons une suite d'évaluation, « Visual Reasoning with multi-step EXploration (V-REX) », qui se compose d'un benchmark de tâches de raisonnement visuel difficiles nécessitant une exploration native en plusieurs étapes et d'un protocole d'évaluation. V-REX couvre de riches scénarios d'application dans divers domaines. V-REX transforme le raisonnement exploratoire multi-étapes en une Chaîne de Questions (CoQ) et distingue la capacité des VLM à (1) Planifier : décomposer une tâche ouverte en sélectionnant une chaîne de questions exploratoires ; et (2) Suivre : répondre séquentiellement à une CoQ préparée pour collecter des informations afin de déduire la réponse finale. En préparant un nombre fini d'options de questions et de réponses par étape, V-REX permet une analyse quantitative fiable et granulaire des étapes intermédiaires. En évaluant les VLM propriétaires et open-source à la pointe, nous révélons des tendances d'évolutivité cohérentes, des différences significatives entre les capacités de planification et de suivi, et une marge d'amélioration substantielle dans le raisonnement exploratoire multi-étapes.
Les modèles de diffusion peuvent reproduire involontairement des exemples d'entraînement, soulevant des préoccupations en matière de confidentialité et de droits d'auteur alors que ces systèmes sont de plus en plus déployés à grande échelle. Les méthodes existantes d'atténuation au moment de l'inférence manipulent généralement le guidage sans classifieur (CFG) ou perturbent les embeddings de prompt ; cependant, elles peinent souvent à réduire la mémorisation sans compromettre l'alignement avec le prompt conditionnant. Nous présentons CAPTAIN, un framework sans entraînement qui atténue la mémorisation en modifiant directement les caractéristiques latentes pendant le débruitage. CAPTAIN applique d'abord une initialisation du bruit basée sur les fréquences pour réduire la tendance à reproduire les motifs mémorisés au début du processus de débruitage. Il identifie ensuite les intervalles de débruitage optimaux pour l'injection de caractéristiques et localise les régions mémorisées. Enfin, CAPTAIN injecte des caractéristiques sémantiquement alignées provenant d'images de référence non mémorisées dans les régions latentes localisées, supprimant la mémorisation tout en préservant la fidélité au prompt et la qualité visuelle. Nos expériences montrent que CAPTAIN permet des réductions substantielles de la mémorisation par rapport aux méthodes de référence basées sur le CFG, tout en maintenant un alignement solide avec le prompt intentionnel.
Les modèles Vision-Langage-Action (VLA) ont démontré des capacités remarquables à généraliser sur diverses tâches de manipulation robotique. Cependant, leur déploiement dans des environnements non structurés reste difficile en raison du besoin crucial d'assurer simultanément la conformité à la tâche et la sécurité, notamment pour prévenir les collisions potentielles lors des interactions physiques. Dans ce travail, nous présentons une architecture Vision-Langage-Action Sûre (VLSA), nommée AEGIS, qui intègre une couche de contrainte de sécurité plug-and-play formulée via des fonctions barrières de contrôle. AEGIS s'intègre directement aux modèles VLA existants pour améliorer la sécurité avec des garanties théoriques, tout en maintenant leurs performances originales de suivi d'instructions. Pour évaluer l'efficacité de notre architecture, nous avons construit un benchmark complet de sécurité critique, SafeLIBERO, couvrant des scénarios de manipulation distincts caractérisés par des degrés variables de complexité spatiale et d'intervention d'obstacles. Des expériences approfondies démontrent la supériorité de notre méthode par rapport aux approches de l'état de l'art. Notamment, AEGIS atteint une amélioration de 59,16 % du taux d'évitement d'obstacles tout en augmentant substantiellement le taux de réussite de l'exécution des tâches de 17,25 %. Pour faciliter la reproductibilité et les recherches futures, nous mettons publiquement à disposition notre code, nos modèles et les jeux de données du benchmark à l'adresse https://vlsa-aegis.github.io/.
L'alignement des représentations (REPA) guide l'apprentissage génératif en distillant les représentations d'un encodeur visuel performant et pré-entraîné vers les caractéristiques intermédiaires d'un modèle de diffusion. Nous étudions une question fondamentale : quel aspect de la représentation cible importe pour la génération, son information sémantique globale (par exemple, mesurée par la précision sur ImageNet-1K) ou sa structure spatiale (c'est-à-dire la similarité cosinus par paires entre les patch tokens) ? La sagesse conventionnelle suggère qu'une meilleure performance sémantique globale conduit à une meilleure génération en tant que représentation cible. Pour étudier cela, nous effectuons d'abord une analyse empirique à large échelle sur 27 encodeurs visuels différents et différentes échelles de modèles. Les résultats sont surprenants ; la structure spatiale, plutôt que la performance globale, détermine la performance générative d'une représentation cible. Pour approfondir cette étude, nous introduisons deux modifications simples qui accentuent spécifiquement le transfert d'information spatiale. Nous remplaçons la couche de projection MLP standard dans REPA par une simple couche de convolution et introduisons une couche de normalisation spatiale pour la représentation externe. De manière surprenante, notre méthode simple (implémentée en <4 lignes de code), nommée iREPA, améliore constamment la vitesse de convergence de REPA, across un ensemble varié d'encodeurs visuels, de tailles de modèles et de variantes d'entraînement (telles que REPA, REPA-E, Meanflow, JiT, etc.). Notre travail incite à reconsidérer le mécanisme fondamental de l'alignement représentationnel et la manière dont il peut être exploité pour améliorer l'entraînement des modèles génératifs. Le code et la page du projet sont disponibles à l'adresse https://end2end-diffusion.github.io/irepa
Bien que l’apprentissage efficace après entraînement intègre le Fine-Tuning Supervisé (SFT) et l’Apprentissage par Renforcement (RL), le mécanisme optimal pour exploiter les trajectoires expertes reste une question ouverte. Nous proposons le Cadre Plasticité-Plafond pour théoriser ce paysage, en décomposant la performance en une performance SFT fondamentale et la plasticité RL subséquente. Par un benchmarking approfondi, nous établissons le pipeline séquentiel SFT-puis-RL comme la norme supérieure, surmontant les déficits de stabilité des approches synchronisées. De plus, nous dérivons des directives précises de mise à l’échelle : (1) La transition vers le RL durant la Sous-phase Stable ou de Léger Sur-apprentissage du SFT maximise le plafond final en sécurisant la performance SFT de base sans compromettre la plasticité RL ; (2) Réfutant l’idée que « Moins, c’est Mieux » dans le contexte de la mise à l’échelle SFT-puis-RL, nous démontrons que l’Échelle des Données détermine le potentiel principal après entraînement, tandis que la Difficulté des Trajectoires agit comme un multiplicateur de performance ; et (3) Identifiant que la Perte de Validation Minimale en SFT sert d’indicateur robuste pour sélectionner les trajectoires expertes qui maximisent le plafond de performance final. Nos résultats fournissent des directives pratiques pour maximiser la valeur extraite des trajectoires expertes.
La lenteur du processus d'inférence des modèles de diffusion d'images dégrade significativement l'expérience utilisateur interactive. Pour y remédier, nous introduisons Diffusion Preview, un nouveau paradigme utilisant un échantillonnage rapide à faible nombre d'étapes pour générer des résultats préliminaires destinés à l'évaluation par l'utilisateur, en reportant le raffinement complet jusqu'à ce que l'aperçu soit jugé satisfaisant. Les méthodes d'accélération existantes, incluant les solveurs sans apprentissage et la distillation post-entraînement, peinent à fournir des aperçus de haute qualité ou à garantir la cohérence entre les aperçus et les résultats finaux. Nous proposons ConsistencySolver, dérivé des méthodes linéaires multi-pas générales, un solveur entraînable léger d'ordre supérieur optimisé par apprentissage par renforcement, qui améliore la qualité et la cohérence des aperçus. Les résultats expérimentaux démontrent que ConsistencySolver améliore significativement la qualité de génération et la cohérence dans les scénarios à faible nombre d'étapes, le rendant idéal pour les workflows efficaces de prévisualisation et de raffinement. Notamment, il atteint des scores FID équivalents à Multistep DPM-Solver en utilisant 47 % d'étapes en moins, tout en surpassant les modèles de référence par distillation. De plus, les études utilisateurs indiquent que notre approche réduit le temps d'interaction global de près de 50 % tout en maintenant la qualité de génération. Le code est disponible à l'adresse https://github.com/G-U-N/consolver.
Un modèle de monde de conduite conscient de la physique est essentiel pour la planification de trajectoire, la synthèse de données hors distribution et l'évaluation en boucle fermée. Cependant, les méthodes existantes reposent souvent sur un unique modèle de diffusion pour mapper directement les actions de conduite vers des vidéos, ce qui rend l'apprentissage difficile et produit des résultats physiquement incohérents. Pour surmonter ces limitations, nous proposons GenieDrive, une nouvelle architecture conçue pour la génération de vidéos de conduite conscientes de la physique. Notre approche commence par générer une occupation 4D, qui sert de fondement physique pour la génération vidéo ultérieure. L'occupation 4D contient de riches informations physiques, incluant des structures 3D haute résolution et leur dynamique. Pour faciliter la compression efficace de cette occupation haute résolution, nous proposons un VAE qui encode l'occupation en une représentation latente tri-plan, réduisant la taille latente à seulement 58% de celle utilisée dans les méthodes précédentes. Nous introduisons ensuite une attention de contrôle mutuel (MCA) pour modéliser précisément l'influence du contrôle sur l'évolution de l'occupation, et nous entraînons conjointement le VAE et le module de prédiction suivant de manière end-to-end pour maximiser la précision des prévisions. Ensemble, ces conceptions permettent une amélioration de 7,2% du mIoU de prévision à une vitesse d'inférence de 41 FPS, tout en utilisant seulement 3,47 M de paramètres. De plus, une attention normalisée multi-vues est introduite dans le modèle de génération vidéo pour produire des vidéos de conduite multi-vues guidées par notre occupation 4D, améliorant significativement la qualité vidéo avec une réduction de 20,7% du FVD. Les expériences démontrent que GenieDrive permet une génération de vidéos de conduite hautement contrôlable, cohérente en multi-vues et consciente de la physique.
L'alignement excessif des modèles de génération d'images sur une préférence esthétique généralisée entre en conflit avec l'intention de l'utilisateur, particulièrement lorsque des résultats « anti-esthétiques » sont demandés à des fins artistiques ou critiques. Cette adhésion priorise des valeurs centrées sur le développeur, compromettant l'autonomie de l'utilisateur et le pluralisme esthétique. Nous testons ce biais en construisant un jeu de données esthétique à large spectre et en évaluant les modèles de génération et de récompense les plus avancés. Nous constatons que les modèles de génération alignés esthétiquement produisent fréquemment par défaut des résultats conventionnellement beaux, ne respectant pas les instructions demandant des images de faible qualité ou négatives. Fait crucial, les modèles de récompense pénalisent les images anti-esthétiques même lorsqu'elles correspondent parfaitement à l'instruction explicite de l'utilisateur. Nous confirmons ce biais systémique via l'édition d'image-à-image et l'évaluation contre de véritables œuvres d'art abstraites.
Les architectures neuronales modernes pour le traitement de nuages de points 3D intègrent à la fois des couches convolutionnelles et des blocs d'attention, mais la meilleure façon de les assembler reste incertaine. Nous analysons le rôle des différents blocs computationnels dans les réseaux de nuages de points 3D et observons un comportement intuitif : la convolution est adéquate pour extraire la géométrie de bas niveau à haute résolution dans les couches précoces, où l'attention est coûteuse sans apporter de bénéfices ; l'attention capture plus efficacement la sémantique de haut niveau et le contexte dans les couches profondes à basse résolution. Guidés par ce principe de conception, nous proposons une nouvelle architecture de base améliorée pour nuages de points 3D qui utilise des convolutions dans les premiers stades et passe à l'attention pour les couches plus profondes. Pour éviter la perte d'information de disposition spatiale lors de l'abandon des couches convolutionnelles redondantes, nous introduisons un nouvel encodage positionnel 3D non supervisé, PointROPE. Le modèle résultant, LitePT, présente 3,6 fois moins de paramètres, s'exécute 2 fois plus vite et utilise 2 fois moins de mémoire que le state-of-the-art Point Transformer V3, tout en égalant ou même surpassant ses performances sur une série de tâches et de jeux de données. Le code et les modèles sont disponibles à l'adresse : https://github.com/prs-eth/LitePT.
La distillation par diffusion a considérablement accéléré la synthèse d'images conditionnées par classe, mais son applicabilité à la génération ouverte texte-image (T2I) reste incertaine. Nous présentons la première étude systématique qui adapte et compare les techniques de distillation de pointe sur un modèle enseignant T2I performant, FLUX.1-lite. En reformulant les méthodes existantes dans un cadre unifié, nous identifions les principaux obstacles qui surviennent lors du passage d'étiquettes de classe discrètes à des invites linguistiques libres. Au-delà d'une analyse méthodologique approfondie, nous proposons des recommandations pratiques sur la mise à l'échelle des entrées, l'architecture du réseau et les hyperparamètres, accompagnées d'une implémentation open source et de modèles étudiants pré-entraînés. Nos résultats établissent une base solide pour le déploiement de générateurs de diffusion rapides, haute fidélité et économes en ressources dans les applications T2I réelles. Le code est disponible sur github.com/alibaba-damo-academy/T2I-Distill.
La génération de vidéos à partir de musique (Music-to-Video ou M2V) pour des chansons complètes présente des défis significatifs. Les méthodes existantes produisent des clips courts et décousus, échouant à aligner les visuels sur la structure musicale, le rythme ou les paroles, et manquent de cohérence temporelle. Nous proposons AutoMV, un système multi-agents qui génère des clips vidéo (MV) complets directement à partir d'une chanson. AutoMV applique d'abord des outils de traitement audio pour extraire les attributs musicaux, tels que la structure, les pistes vocales et les paroles alignées dans le temps, et construit ces caractéristiques comme entrées contextuelles pour les agents suivants. L'Agent scénariste et l'Agent réalisateur utilisent ensuite ces informations pour concevoir un script court, définir des profils de personnages dans une banque externe partagée, et spécifier des instructions caméra. Par la suite, ces agents sollicitent le générateur d'images pour les images clés et différents générateurs vidéo pour les scènes "histoire" ou "chanteur". Un Agent Vérificateur évalue leur production, permettant une collaboration multi-agents pour créer un MV long et cohérent. Pour évaluer la génération M2V, nous proposons en outre un benchmark avec quatre catégories de haut niveau (Contenu Musical, Technique, Post-production, Artistique) et douze critères granulaires. Ce benchmark a été appliqué pour comparer des produits commerciaux, AutoMV et des MVs réalisés par des humains, avec des évaluateurs experts humains : AutoMV surpasse significativement les bases de référence actuelles dans les quatre catégories, réduisant l'écart avec les MVs professionnels. Enfin, nous explorons l'utilisation de grands modèles multimodaux comme juges automatiques de MV ; bien que prometteuse, cette approche reste inférieure à l'expertise humaine, soulignant un axe d'amélioration future.
Les tokenizers visuels jouent un rôle crucial dans les modèles de diffusion. La dimensionnalité de l'espace latent régit à la fois la fidélité de reconstruction et l'expressivité sémantique des caractéristiques latentes. Cependant, un compromis fondamental existe entre la dimensionnalité et la qualité de génération, contraignant les méthodes existantes à des espaces latents de faible dimension. Bien que des travaux récents aient exploité des modèles de fondation visuelle pour enrichir la sémantique des tokenizers visuels et accélérer la convergence, les tokenizers haute dimension restent moins performants que leurs équivalents basse dimension. Dans ce travail, nous proposons RecTok, qui surmonte les limitations des tokenizers visuels haute dimension grâce à deux innovations clés : la distillation sémantique de flux et la distillation alignement-reconstruction. Notre idée maîtresse est de rendre le flux direct dans le "flow matching" sémantiquement riche, servant d'espace d'entraînement aux transformers de diffusion, plutôt que de se concentrer sur l'espace latent comme dans les travaux précédents. Concrètement, notre méthode distille l'information sémantique des VFMs dans les trajectoires de flux direct du "flow matching". Nous enrichissons davantage la sémantique en introduisant une perte de reconstruction de caractéristiques masquées. Notre RecTok obtient une reconstruction d'image, une qualité de génération et des performances discriminatives supérieures. Il atteint des résultats state-of-the-art sur gFID-50K avec et sans "classifier-free guidance", tout en maintenant une structure d'espace latent sémantiquement riche. De plus, nous observons des améliorations constantes avec l'augmentation de la dimensionnalité latente. Le code et le modèle sont disponibles à l'adresse https://shi-qingyu.github.io/rectok.github.io.
Les modèles de langage de grande taille (LLM) peuvent générer des jetons de raisonnement avant leur réponse finale pour améliorer leurs performances sur des tâches complexes. Bien que ces séquences semblent ressembler à des processus de pensée humains, les preuves empiriques révèlent qu'elles ne constituent pas une explication fidèle du véritable processus de raisonnement du modèle. Pour combler cet écart entre l'apparence et la fonction, nous introduisons le cadre conceptuel d'État sur les Jetons (SoT). SoT reconsidère les jetons de raisonnement non pas comme un récit linguistique, mais comme un état computationnel externalisé – le seul porteur d'information persistant à travers les cycles de génération sans état du modèle. Cela explique comment les jetons peuvent piloter un raisonnement correct sans pour autant être une explication fidèle lorsqu'ils sont lus comme du texte, et met en lumière des questions de recherche jusqu'alors négligées concernant ces jetons. Nous soutenons que pour vraiment comprendre le processus suivi par les LLM, la recherche doit dépasser la lecture des jetons de raisonnement comme du texte et se concentrer sur leur décodage en tant qu'état.
La généralisation demeure le principal défi pour la génération interactive de scènes 3D. Les approches existantes basées sur l'apprentissage ancrent la compréhension spatiale dans des jeux de données de scènes limités, restreignant la généralisation à de nouvelles configurations. Nous reprogrammons plutôt un générateur d'instances 3D pré-entraîné pour qu'il agisse comme un apprenant au niveau scénique, remplaçant la supervision limitée aux données par une supervision spatiale centrée sur le modèle. Cette reprogrammation libère les connaissances spatiales transférables du générateur, permettant une généralisation à des configurations inédites et à des compositions d'objets novatrices. Fait remarquable, le raisonnement spatial émerge même lorsque les scènes d'entraînement sont composées d'objets aléatoires. Cela démontre que l'a priori scénique transférable du générateur fournit un signal d'apprentissage riche pour déduire la proximité, le support et la symétrie à partir de signaux purement géométriques. Remplaçant l'espace canonique largement utilisé, nous matérialisons cette intuition par une formulation centrée sur la vue de l'espace scénique, produisant un générateur de scènes entièrement feed-forward et généralisable qui apprend les relations spatiales directement à partir du modèle d'instance. Les résultats quantitatifs et qualitatifs montrent qu'un générateur d'instances 3D est un apprenant et raisonneur spatial implicite, ouvrant la voie à des modèles de fondation pour la compréhension et la génération interactives de scènes 3D. Page du projet : https://luling06.github.io/I-Scene-project/
Nous présentons Flowception, un nouveau cadre de génération vidéo non autorégressif et à longueur variable. Flowception apprend un chemin de probabilité qui entrelace des insertions de trames discrètes avec un débruitage continu de trames. Comparé aux méthodes autorégressives, Flowception atténue l'accumulation/dérive d'erreurs car le mécanisme d'insertion de trames pendant l'échantillonnage sert de mécanisme de compression efficace pour gérer le contexte à long terme. Comparé aux flux de séquence complète, notre méthode réduit les FLOPs d'entraînement d'un facteur trois, tout en étant plus adaptée aux variantes d'attention locale et en permettant d'apprendre conjointement la longueur des vidéos et leur contenu. Les résultats expérimentaux quantitatifs montrent une amélioration des métriques FVD et VBench par rapport aux modèles de référence autorégressifs et à séquence complète, ce qui est en outre validé par des résultats qualitatifs. Enfin, en apprenant à insérer et à débruiter des trames dans une séquence, Flowception intègre de manière transparente différentes tâches telles que la génération image-à-vidéo et l'interpolation vidéo.
La compréhension du mouvement est fondamentale pour le raisonnement physique, permettant aux modèles d'inférer la dynamique et de prédire les états futurs. Cependant, les modèles de pointe peinent encore sur les benchmarks récents de mouvement, principalement en raison de la rareté des jeux de données de mouvement à grande échelle et à granularité fine. Les jeux de données existants sont souvent construits à partir d'annotations manuelles coûteuses, limitant considérablement leur évolutivité. Pour relever ce défi, nous présentons FoundationMotion, un pipeline de curation de données entièrement automatisé qui construit des jeux de données de mouvement à grande échelle. Notre approche détecte et suit d'abord les objets dans les vidéos pour extraire leurs trajectoires, puis exploite ces trajectoires et les images vidéo avec des modèles de langage de grande taille (LLM) pour générer des descriptions granulaires et des paires question-réponse diverses sur le raisonnement motionnel et spatial. En utilisant les jeux de données produits par ce pipeline, nous affinons des modèles open-source, notamment NVILA-Video-15B et Qwen2.5-7B, obtenant des améliorations substantielles dans la compréhension du mouvement sans compromettre les performances sur d'autres tâches. Notamment, nos modèles surpassent des bases de référence fermées solides comme Gemini-2.5 Flash et de grands modèles open-source tels que Qwen2.5-VL-72B sur divers jeux de données et benchmarks de compréhension du mouvement. FoundationMotion offre ainsi une solution évolutive pour curer des jeux de données de mouvement granulaires qui permettent un réglage fin efficace de modèles diversifiés pour améliorer les capacités de compréhension du mouvement et de raisonnement spatial.
Nous présentons FIN-bench-v2, une suite de benchmarks unifiée pour l'évaluation des grands modèles de langage en finnois. FIN-bench-v2 regroupe des versions finnoises de benchmarks largement utilisés ainsi qu'une version mise à jour et élargie du FIN-bench original en une collection unique et formatée de manière cohérente, couvrant des tâches à choix multiples et génératives dans les domaines de la compréhension de lecture, du raisonnement de bon sens, de l'analyse de sentiment, des connaissances générales et de l'alignement. Tous les jeux de données sont convertis au format HuggingFace Datasets et incluent des formulations de prompts de type "texte à trous" et à choix multiples avec cinq variantes par tâche. Nous avons intégré une annotation humaine ou une révision pour les ressources traduites automatiquement, telles que GoldenSwag et XED. Pour sélectionner des tâches robustes, nous avons pré-entraîné un ensemble de modèles décodeurs uniquement de 2,15 milliards de paramètres et utilisé leurs courbes d'apprentissage pour calculer la monotonie, le rapport signal-bruit, les performances non aléatoires et la cohérence de l'ordre des modèles, en ne conservant que les tâches satisfaisant tous ces critères. Nous avons en outre évalué un ensemble de modèles plus grands, fine-tunés par instruction, pour caractériser les performances à travers les tâches et les formulations de prompts. Tous les jeux de données, prompts et configurations d'évaluation sont disponibles publiquement via notre fork du Language Model Evaluation Harness à l'adresse https://github.com/LumiOpen/lm-evaluation-harness. Les ressources supplémentaires sont publiées dans un dépôt séparé à l'adresse https://github.com/TurkuNLP/FIN-bench-v2.
Les scènes du monde réel sont souvent composées de plusieurs objets statiques et dynamiques. Capturer leurs structures quadridimensionnelles, leur composition et leur configuration spatio-temporelle in-situ, bien qu'extrêmement intéressant, est tout aussi difficile. Par conséquent, les travaux existants se concentrent souvent sur un objet à la fois, tout en s'appuyant sur un modèle de forme paramétrique spécifique à une catégorie pour les objets dynamiques. Cela peut conduire à des configurations de scènes incohérentes, en plus d'être limité aux catégories d'objets modélisées. Nous proposons COM4D (Compositional 4D), une méthode qui prédit de manière cohérente et conjointe la structure et la configuration spatio-temporelle d'objets 4D/3D en utilisant uniquement une supervision par objets multiples statiques ou par objet dynamique unique. Nous y parvenons grâce à un entraînement soigneusement conçu des attentions spatiales et temporelles sur une entrée vidéo 2D. L'entraînement est désentremêlé en un apprentissage des compositions d'objets d'une part, et de la dynamique d'un objet unique tout au long de la vidéo d'autre part, évitant ainsi complètement toute dépendance à des données d'entraînement compositionnelles 4D. Au moment de l'inférence, notre mécanisme proposé de mélange d'attention combine ces attentions apprises indépendamment, sans nécessiter aucun exemple de composition 4D. En alternant entre le raisonnement spatial et temporel, COM4D reconstruit des scènes 4D complètes et persistantes avec plusieurs objets en interaction directement à partir de vidéos monoculaires. De plus, COM4D fournit des résultats à la pointe de l'état de l'art dans les problèmes distincts existants de reconstruction 4D d'objets et de reconstruction 3D compositionnelle, bien qu'étant purement piloté par les données.
La compréhension des graphiques est cruciale pour le déploiement des modèles de langage multimodaux de grande taille (MLLM) dans des scénarios réels, tels que l'analyse d'articles scientifiques et de rapports techniques. Contrairement aux images naturelles, les graphiques associent une disposition visuelle structurée (propriété spatiale) à une représentation de données sous-jacente (propriété textuelle) — la compréhension des deux est essentielle pour un raisonnement précis et granulaire sur les graphiques. Motivés par cette observation, nous proposons START, l'apprentissage Spatial et Textuel pour la compréhension des gRAPhiques. Plus précisément, nous introduisons (i) le grounding des éléments du graphique et (ii) la génération de code à partir du graphique pour renforcer la compréhension par un MLLM à la fois de la disposition visuelle et des détails des données du graphique. Pour faciliter l'apprentissage spatial et textuel, nous proposons le START-Dataset, généré grâce à un nouveau pipeline de génération de données qui exploite d'abord un MLLM pour traduire des images réelles de graphiques en code de graphique exécutable, restaurant ainsi la représentation des données sous-jacentes tout en préservant la distribution visuelle des graphiques du monde réel. Nous faisons ensuite évoluer le code à l'aide d'un modèle de langage de grande taille (LLM) pour déterminer les positions des éléments du graphique qui capturent sa structure visuelle, relevant ainsi des défis que les méthodes existantes ne peuvent pas traiter. Pour évaluer la capacité d'un modèle à comprendre les structures spatiales des graphiques, nous proposons le Benchmark de compréhension spatiale des graphiques (CS-Bench), comblant une lacune critique dans l'évaluation complète de la compréhension des graphiques. Tirant parti de l'apprentissage spatial et textuel, START offre des gains constants par rapport aux modèles de base, quelle que soit leur taille ou le benchmark utilisé, et surpasse nettement les précédents modèles de l'état de l'art. Le code, les données et les modèles seront rendus publics.
Les modèles de diffusion vidéo ont révolutionné la synthèse vidéo générative, mais ils manquent de précision, sont lents et peuvent manquer de transparence pendant la génération, laissant les utilisateurs dans l'incertitude pendant une période prolongée. Dans ce travail, nous proposons DiffusionBrowser, un framework de décodeur léger et agnostique au modèle, qui permet aux utilisateurs de générer interactivement des prévisualisations à n'importe quel point (étape de bruit ou bloc transformeur) pendant le processus de débruitage. Notre modèle peut générer des représentations de prévisualisation multimodales incluant le RVB et des caractéristiques intrinsèques de scène à une vitesse supérieure à 4 fois le temps réel (moins d'une seconde pour une vidéo de 4 secondes), transmettant une apparence et un mouvement cohérents avec la vidéo finale. Grâce au décodeur entraîné, nous montrons qu'il est possible de guider interactivement la génération à des étapes de bruit intermédiaires via la réinjection de stochasticité et le pilotage modal, débloquant une nouvelle capacité de contrôle. De plus, nous sondons systématiquement le modèle à l'aide des décodeurs appris, révélant comment la scène, les objets et autres détails sont composés et assemblés pendant le processus de débruitage autrement considéré comme une boîte noire.
Les récentes avancées des grands modèles multimodaux suggèrent que les mécanismes de raisonnement explicite jouent un rôle crucial dans l'amélioration de la fiabilité, de l'interprétabilité et de l'alignement intermodal des modèles. Bien que ces approches centrées sur le raisonnement aient fait leurs preuves dans les tâches linguistiques et visuelles, leur extension au domaine 3D reste sous-développée. CoRe3D introduit un cadre de raisonnement unifié pour la compréhension et la génération 3D, opérant conjointement sur des abstractions sémantiques et spatiales, permettant à l'intention de haut niveau inférée du langage de guider directement la formation de contenu 3D de bas niveau. Au cœur de cette conception se trouve une représentation de raisonnement spatialement ancrée qui décompose l'espace latent 3D en régions localisées, permettant au modèle de raisonner sur la géométrie de manière compositionnelle et procédurale. En couplant étroitement l'inférence par chaîne de pensée sémantique avec un raisonnement spatial structuré, CoRe3D produit des sorties 3D qui présentent une forte cohérence locale et un alignement fidèle avec les descriptions linguistiques.
L'Inversion Textuelle (TI) est une approche efficace pour la personnalisation texte-image, mais elle échoue souvent sur des invites complexes. Nous attribuons ces échecs à l'inflation de la norme des plongements : les tokens appris dérivent vers des magnitudes hors distribution, dégradant le conditionnement par l'invite dans les Transformers à pré-normalisation. Empiriquement, nous montrons que la sémantique est principalement encodée par la direction dans l'espace token de CLIP, tandis que des normes gonflées nuisent à la contextualisation ; théoriquement, nous analysons comment de grandes magnitudes atténuent l'information positionnelle et entravent les mises à jour résiduelles dans les blocs à pré-normalisation. Nous proposons l'Inversion Textuelle Directionnelle (DTI), qui fixe la magnitude du plongement à une échelle dans la distribution et optimise uniquement la direction sur l'hypersphère unitaire via une descente de gradient stochastique riemannienne. Nous formulons l'apprentissage de la direction comme une estimation du maximum a posteriori avec un a priori de von Mises-Fisher, produisant un gradient a priori à direction constante, simple et efficace à incorporer. Sur diverses tâches de personnalisation, DTI améliore la fidélité textuelle par rapport à TI et ses variantes tout en maintenant la similarité du sujet. Crucialement, la paramétrisation hypersphérique de DTI permet une interpolation fluide et sémantiquement cohérente entre les concepts appris (slerp), une capacité absente de la TI standard. Nos résultats suggèrent que l'optimisation uniquement directionnelle est une voie robuste et évolutive pour une personnalisation fidèle à l'invite.
Les modèles de monde ont démontré des performances impressionnantes sur les tâches d'apprentissage robotique. De nombreuses tâches de ce type exigent intrinsèquement un raisonnement multimodal ; par exemple, remplir une bouteille d'eau rendra les informations visuelles seules ambiguës ou incomplètes, nécessitant ainsi un raisonnement sur l'évolution temporelle de l'audio, en tenant compte de ses propriétés physiques sous-jacentes et de ses structures de hauteur. Dans cet article, nous proposons un modèle génératif d'appariement de flux latent pour anticiper les observations audio futures, permettant au système de raisonner sur les conséquences à long terme lorsqu'il est intégré dans une politique robotique. Nous démontrons les capacités supérieures de notre système à travers deux tâches de manipulation qui nécessitent de percevoir des signaux audio ou musicaux en conditions réelles, par rapport à des méthodes sans anticipation future. Nous soulignons en outre que l'apprentissage réussi des actions robotiques pour ces tâches ne repose pas seulement sur une entrée multimodale, mais critique
Les données halieutiques précises sont cruciales pour une gestion efficace et durable des ressources marines. Avec l'adoption récente des systèmes de surveillance électronique (EM), davantage de données vidéo sont désormais collectées qu'il n'est possible d'en examiner manuellement. Cet article relève ce défi en développant un pipeline d'apprentissage profond optimisé pour la ré-identification automatisée des poissons (Re-ID) en utilisant le nouvel ensemble de données AutoFish, qui simule des systèmes EM avec convoyeurs et six espèces de poissons d'apparence similaire. Nous démontrons que les métriques clés de Re-ID (R1 et mAP@k) sont substantiellement améliorées par l'utilisation du *hard triplet mining* conjointement avec un pipeline de transformation d'images personnalisé incluant une normalisation spécifique à l'ensemble de données. En employant ces stratégies, nous montrons que l'architecture Swin-T, basée sur le Vision Transformer, surpasse constamment l'architecture ResNet-50, basée sur un réseau de neurones convolutifs, atteignant des performances maximales de 41,65 % pour mAP@k et 90,43 % pour la précision Rank-1. Une analyse approfondie révèle que le principal défi consiste à distinguer visuellement les individus similaires d'une même espèce (erreurs intra-espèces), où l'incohérence du point de vue s'avère nettement plus préjudiciable que l'occlusion partielle. Le code source et la documentation sont disponibles à l'adresse : https://github.com/msamdk/Fish_Re_Identification.git
La dégénérescence maculaire liée à l'âge (DMLA) et les pathologies associées à la néovascularisation choroïdienne (NVC) sont des causes majeures de perte de vision dans le monde, la tomographie par cohérence optique (OCT) servant de pierre angulaire pour leur détection précoce et leur prise en charge. Cependant, le déploiement en milieu clinique de modèles d'apprentissage profond de pointe, comme ConvNeXtV2-Large, est entravé par leurs exigences computationnelles. Il est donc souhaitable de développer des modèles efficaces qui maintiennent des performances diagnostiques élevées tout en permettant un déploiement en temps réel. Dans cette étude, un nouveau cadre de distillation des connaissances, nommé KD-OCT, est proposé pour comprimer un modèle enseignant performant de type ConvNeXtV2-Large, amélioré par des augmentations avancées, une moyenne stochastique des poids et une perte focale, en un modèle étudiant léger de type EfficientNet-B2, destiné à classer les cas normaux, les drusen et les NVC. KD-OCT utilise une distillation en temps réel avec une fonction de perte combinée qui équilibre le transfert de connaissances doux de l'enseignant et la supervision dure des vérités terrain. L'efficacité de la méthode proposée est évaluée sur l'ensemble de données de l'Hôpital Ophtalmologique Noor (NEH) en utilisant une validation croisée au niveau du patient. Les résultats expérimentaux démontrent que KD-OCT surpasse les classificateurs OCT comparables à base de fusion multi-échelle ou de caractéristiques en termes d'équilibre entre l'efficacité et la précision, atteignant des performances proches de celles du modèle enseignant avec des réductions substantielles de la taille du modèle et du temps d'inférence. Malgré la compression, le modèle étudiant dépasse la plupart des cadres existants, facilitant le déploiement en périphérie pour le dépistage de la DMLA. Le code est disponible à l'adresse https://github.com/erfan-nourbakhsh/KD-OCT.