papers.description
Les récentes avancées en génération vidéo par diffusion ont ouvert de nouvelles possibilités pour l'édition vidéo contrôlable, mais l'insertion réaliste d'objets vidéo (VOI) reste difficile en raison d'une compréhension limitée des scènes 4D et d'une prise en charge inadéquate des effets d'occlusion et d'éclairage. Nous présentons InsertAnywhere, un nouveau cadre VOI qui réalise un placement d'objets géométriquement cohérent et une synthèse vidéo fidèle à l'apparence. Notre méthode commence par un module de génération de masques conscient en 4D qui reconstruit la géométrie de la scène et propage le placement d'objets spécifié par l'utilisateur à travers les images tout en maintenant la cohérence temporelle et la cohérence des occlusions. Sur cette base spatiale, nous étendons un modèle de génération vidéo par diffusion pour synthétiser conjointement l'objet inséré et ses variations locales environnantes, telles que l'illumination et l'ombrage. Pour permettre un apprentissage supervisé, nous introduisons ROSE++, un ensemble de données synthétiques conscient de l'illumination, construit en transformant l'ensemble de données de suppression d'objets ROSE en triplets de vidéo sans objet, de vidéo avec objet et d'une image de référence générée par un modèle de langage visuel (VLM). Par des expériences approfondies, nous démontrons que notre cadre produit des insertions d'objets géométriquement plausibles et visuellement cohérentes dans divers scénarios du monde réel, surpassant significativement les modèles de recherche et commerciaux existants.
Les humains comprennent les textes longs et complexes en s'appuyant sur une représentation sémantique holistique du contenu. Cette vision globale aide à organiser les connaissances antérieures, à interpréter les nouvelles informations et à intégrer les preuves dispersées dans un document, comme le révèle la capacité de conscience du paysage mental (Mindscape-Aware Capability) en psychologie. Les systèmes actuels de Génération Augmentée par Récupération (RAG) manquent d'un tel guidage et peinent donc avec les tâches à contexte long. Dans cet article, nous proposons MiA-RAG (Mindscape-Aware RAG), la première approche qui dote les systèmes RAG basés sur LLM d'une conscience explicite du contexte global. MiA-RAG construit un paysage mental via une synthèse hiérarchique et conditionne à la fois la récupération et la génération sur cette représentation sémantique globale. Cela permet au récupérateur de former des embeddings de requête enrichis et au générateur de raisonner sur les preuves récupérées dans un contexte global cohérent. Nous évaluons MiA-RAG sur divers benchmarks à contexte long et bilingues pour la compréhension fondée sur des preuves et la construction de sens globale. Il surpasse constamment les méthodes de référence, et une analyse plus poussée montre qu'il aligne les détails locaux avec une représentation globale cohérente, permettant une récupération et un raisonnement en contexte long plus proches de l'humain.
Le développement d'agents d'interface graphique (GUI) pourrait révolutionner la prochaine génération d'interaction homme-machine. Motivés par cette vision, nous présentons MAI-UI, une famille d'agents GUI fondamentaux couvrant un large spectre de tailles, incluant des variantes de 2B, 8B, 32B et 235B-A22B. Nous identifions quatre défis majeurs pour un déploiement réaliste : l'absence d'interaction native agent-utilisateur, les limites du fonctionnement basé uniquement sur l'interface utilisateur, le manque d'une architecture de déploiement pratique et la fragilité dans les environnements dynamiques. MAI-UI résout ces problèmes via une méthodologie unifiée : un pipeline de données auto-évolutif qui étend les données de navigation pour inclure l'interaction utilisateur et les appels d'outils MCP, un système natif de collaboration appareil-cloud qui achemine l'exécution par état de tâche, et un cadre d'apprentissage par renforcement en ligne avec des optimisations avancées pour mettre à l'échelle les environnements parallèles et la longueur de contexte. MAI-UI établit de nouveaux états de l'art dans le repérage GUI et la navigation mobile. Sur les benchmarks de repérage, il atteint 73,5% sur ScreenSpot-Pro, 91,3% sur MMBench GUI L2, 70,9% sur OSWorld-G et 49,2% sur UI-Vision, surpassant Gemini-3-Pro et Seed1.8 sur ScreenSpot-Pro. Sur la navigation GUI mobile, il établit un nouveau SOTA de 76,7% sur AndroidWorld, dépassant UI-Tars-2, Gemini-2.5-Pro et Seed1.8. Sur MobileWorld, MAI-UI obtient un taux de réussite de 41,7%, surpassant significativement les modèles GUI de bout en bout et rivalisant avec les cadres agentiels basés sur Gemini-3-Pro. Nos expériences d'apprentissage par renforcement en ligne montrent des gains significatifs en passant de 32 à 512 environnements parallèles (+5,2 points) et en augmentant le budget d'étapes de 15 à 50 (+4,3 points). Enfin, le système natif de collaboration appareil-cloud améliore les performances sur l'appareil de 33%, réduit les appels au modèle cloud de plus de 40% et préserve la vie privée des utilisateurs.
Les modèles de langage multimodaux (MLLM) ont réalisé des progrès remarquables dans les tâches de compréhension visuelle telles que l'ancrage visuel, la segmentation et la légende d'images. Cependant, leur capacité à percevoir les caractéristiques d'image au niveau perceptuel reste limitée. Dans ce travail, nous présentons UniPercept-Bench, un cadre unifié pour la compréhension d'images au niveau perceptuel couvrant trois domaines clés : l'Esthétique, la Qualité, la Structure et la Texture. Nous établissons un système de définition hiérarchique et construisons des jeux de données à grande échelle pour évaluer la compréhension d'images au niveau perceptuel. Sur cette base, nous développons un modèle de référence solide, UniPercept, entraîné via un pré-entraînement adaptatif au domaine et un apprentissage par renforcement aligné sur la tâche, permettant une généralisation robuste à la fois pour les tâches d'Évaluation Visuelle (VR) et de Question-Réponse Visuelle (VQA). UniPercept surpasse les MLLM existants en compréhension d'images au niveau perceptuel et peut servir de modèle de récompresse prêt-à-l'emploi pour la génération d'images à partir de texte. Ce travail définit la Compréhension d'Images au Niveau Perceptuel à l'ère des MLLM et, grâce à l'introduction d'un benchmark complet ainsi qu'un modèle de référence solide, fournit une base solide pour faire progresser la compréhension multimodale d'images au niveau perceptuel.
L'édition visuelle par inversion offre une méthode efficace et sans apprentissage pour modifier une image ou une vidéo selon les instructions de l'utilisateur. Les méthodes existantes injectent généralement des informations de l'image source durant le processus d'échantillonnage pour préserver la cohérence de l'édition. Cependant, cette stratégie d'échantillonnage repose excessivement sur les informations sources, ce qui affecte négativement les modifications dans l'image cible (par exemple, en échouant à changer les attributs du sujet comme la pose, le nombre ou la couleur comme demandé). Dans ce travail, nous proposons ProEdit pour résoudre ce problème à la fois au niveau de l'attention et des latentes. Pour l'attention, nous introduisons KV-mix, qui mélange les caractéristiques KV des régions source et cible dans la zone éditée, atténuant l'influence de l'image source sur cette zone tout en maintenant la cohérence de l'arrière-plan. Pour les latentes, nous proposons Latents-Shift, qui perturbe la zone éditée de la latente source, éliminant l'influence de la latente inversée sur l'échantillonnage. Des expériences approfondies sur plusieurs benchmarks d'édition d'images et de vidéos démontrent que notre méthode atteint des performances à l'état de l'art. De plus, notre conception est plug-and-play et peut être intégrée de manière transparente dans les méthodes d'inversion et d'édition existantes, telles que RF-Solver, FireFlow et UniEdit.
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes critiques en temps réel, tels que la robotique, la conduite autonome, l'intelligence incarnée et l'automatisation industrielle, où la génération de réponses précises dans un budget temps donné est cruciale pour la prise de décision, le contrôle ou les tâches critiques pour la sécurité. Cependant, le processus de génération auto-régressif des LLM rend difficile la modélisation et l'estimation du temps d'exécution de bout en bout. De plus, les méthodes d'inférence efficaces existantes, basées sur un ratio fixe d'éviction du cache clé-valeur (KV), peinent à s'adapter à des tâches variées avec des budgets temps divers, où un ratio d'éviction inapproprié peut entraîner une inférence incomplète ou une baisse des performances de la réponse. Dans cet article, nous proposons TimeBill, un nouveau cadre d'inférence à budget temps pour les LLM qui équilibre l'efficacité de l'inférence et les performances des réponses. Plus précisément, nous proposons un prédicteur de longueur de réponse à granularité fine (RLP) et un estimateur de temps d'exécution (ETE) pour prédire avec précision le temps d'exécution de bout en bout des LLM. Sur cette base, nous développons une approche d'inférence efficace à budget temps qui ajuste dynamiquement le ratio d'éviction du cache KV en fonction de la prédiction du temps d'exécution et du budget temps donné. Enfin, grâce à des expériences approfondies, nous démontrons les avantages de TimeBill pour améliorer le taux d'achèvement des tâches et maintenir les performances des réponses sous diverses stratégies de dépassement.
Les grands modèles vision-langage (VLM) bénéficient souvent d'indices visuels intermédiaires, injectés via des outils externes ou générés sous forme de tokens visuels latents lors du raisonnement. Cependant, ces mécanismes négligent encore les preuves visuelles fines (par exemple, les polylignes dans les graphiques), généralisent mal d'un domaine à l'autre et entraînent un coût élevé au moment de l'inférence. Dans cet article, nous proposons le Façonnage Perceptuel Bidirectionnel (BiPS), qui transforme des vues masquées conditionnées par la question en signaux bidirectionnels indiquant où regarder, afin de façonner la perception pendant l'entraînement. BiPS applique d'abord une contrainte de cohérence KL entre l'image originale et une vue préservant les preuves qui ne conserve que les régions pertinentes pour la question, encourageant ainsi une couverture grossière mais complète des pixels supports. Il applique ensuite une contrainte de séparation KL entre l'original et une vue où les preuves sont supprimées (les pixels critiques étant masqués de sorte que l'image ne supporte plus la réponse originale), décourageant ainsi les raccourcis basés uniquement sur le texte (c'est-à-dire répondre à partir du texte seul) et imposant une dépendance visuelle fine. Sur huit benchmarks, BiPS améliore Qwen2.5-VL-7B de 8,2 % en moyenne et démontre une forte généralisation hors domaine sur des ensembles de données et types d'images non vus.
La modélisation météorologique nécessite à la fois une prédiction précise et une interprétation mécaniste, pourtant les méthodes existantes traitent ces objectifs de manière isolée, séparant la génération de la compréhension. Pour combler cette lacune, nous présentons Omni-Weather, le premier modèle fondation multimodal qui unifie la génération et la compréhension météorologiques au sein d'une architecture unique. Omni-Weather intègre un encodeur radar pour les tâches de génération météorologique, suivi d'un traitement unifié utilisant un mécanisme d'auto-attention partagé. De plus, nous construisons un jeu de données de raisonnement en chaîne pour le raisonnement causal dans la génération météorologique, permettant des résultats interprétables et une qualité perceptuelle améliorée. Des expériences approfondies montrent qu'Omni-Weather atteint des performances de pointe à la fois en génération et en compréhension météorologiques. Nos résultats indiquent en outre que les tâches génératives et de compréhension dans le domaine météorologique peuvent s'améliorer mutuellement. Omni-Weather démontre également la faisabilité et la valeur de l'unification de la génération et de la compréhension météorologiques.
La capacité des agents d'IA à « penser avec des images » nécessite une combinaison sophistiquée de raisonnement et de perception. Cependant, les agents multimodaux ouverts actuels présentent encore largement des lacunes dans l'aspect raisonnement, pourtant crucial pour des tâches réelles comme l'analyse de documents contenant des graphiques/diagrammes denses ou la navigation cartographique. Pour combler cette lacune, nous présentons O3-Bench, un nouveau benchmark conçu pour évaluer le raisonnement multimodal avec une attention entrelacée aux détails visuels. O3-Bench propose des problèmes complexes qui exigent des agents qu'ils assemblent des informations visuelles subtiles provenant de zones d'image distinctes via un raisonnement en plusieurs étapes. Ces problèmes sont très difficiles, même pour les systèmes de pointe comme OpenAI o3, qui n'obtient qu'une précision de 40,8 % sur O3-Bench. Pour progresser, nous proposons InSight-o3, un cadre multi-agents composé d'un agent de raisonnement visuel (vReasoner) et d'un agent de recherche visuelle (vSearcher), pour lequel nous introduisons la tâche de recherche visuelle généralisée – localiser des zones relationnelles, floues ou conceptuelles décrites en langage naturel, au-delà de la simple détection d'objets ou de figures dans les images naturelles. Nous présentons ensuite un LLM multimodal spécialement entraîné pour cette tâche via l'apprentissage par renforcement. En tant qu'agent plug-and-play, notre vSearcher renforce les modèles multimodaux de pointe (en tant que vReasoners), améliorant significativement leurs performances sur un large éventail de benchmarks. Cela constitue une étape concrète vers de puissants systèmes ouverts de type o3. Notre code et notre jeu de données sont disponibles à l'adresse https://github.com/m-Just/InSight-o3.
Les modèles récents de génération texte-vidéo présentent des progrès remarquables en matière de réalisme visuel, de fidélité du mouvement et d'alignement texte-vidéo, mais ils restent fondamentalement limités dans leur capacité à générer des comportements socialement cohérents. Contrairement aux humains, qui infèrent sans effort les intentions, les croyances, les émotions et les normes sociales à partir de brefs indices visuels, les modèles actuels ont tendance à produire des scènes littérales sans saisir la logique causale ou psychologique sous-jacente. Pour évaluer systématiquement cet écart, nous introduisons le premier benchmark dédié au raisonnement social dans la génération vidéo. S'appuyant sur les résultats de la psychologie du développement et de la psychologie sociale, notre benchmark organise trente paradigmes classiques de cognition sociale en sept dimensions fondamentales, incluant l'inférence d'états mentaux, l'action orientée vers un but, l'attention conjointe, la coordination sociale, le comportement prosocial, les normes sociales et les stratégies multi-agents. Pour opérationnaliser ces paradigmes, nous développons une méthode entièrement libre d'apprentissage, basée sur des agents, qui (i) distille le mécanisme de raisonnement de chaque expérience, (ii) synthétise divers scénarios prêts pour la vidéo, (iii) impose une neutralité conceptuelle et un contrôle de la difficulté via une critique basée sur des indices, et (iv) évalue les vidéos générées à l'aide d'un juge VLM de grande capacité selon cinq dimensions interprétables du raisonnement social. En utilisant ce cadre, nous menons la première étude à grande échelle sur sept systèmes de génération vidéo de pointe. Nos résultats révèlent des écarts de performance substantiels : si les modèles modernes excellent dans la plausibilité de surface, ils échouent systématiquement dans la reconnaissance des intentions, le raisonnement sur les croyances, l'attention conjointe et l'inférence prosociale.
Les retours basés sur l'exécution, comme les tests unitaires, sont largement utilisés dans le développement d'agents de codage via la mise à l'échelle au moment des tests (TTS) et l'apprentissage par renforcement (RL). Ce paradigme nécessite une collecte évolutive et fiable de cas de test unitaires pour fournir un retour précis, et le feedback résultant est souvent sparse et ne peut pas distinguer efficacement les trajectoires qui sont soit toutes deux réussies, soit toutes deux infructueuses. En revanche, les retours sans exécution provenant de modèles de récompense peuvent fournir des signaux plus granulaires sans dépendre de cas de test unitaires. Malgré ce potentiel, les retours sans exécution pour les agents réalistes d'ingénierie logicielle (SWE) restent peu explorés. Visant à développer des modèles de récompense polyvalents efficaces à la fois en TTS et en RL, nous observons cependant que deux vérificateurs aux performances TTS quasi identiques peuvent néanmoins donner des résultats très différents en RL. Intuitivement, le TTS reflète principalement la capacité du modèle à sélectionner la meilleure trajectoire, mais cette capacité ne se généralise pas nécessairement au RL. Pour pallier cette limite, nous identifions deux aspects supplémentaires cruciaux pour l'entraînement en RL : la précision de classification et l'étalonnage. Nous menons ensuite des expériences contrôlées complètes pour étudier comment entraîner un modèle de récompense robuste performant sur ces métriques. En particulier, nous analysons l'impact de divers facteurs tels que l'échelle des données d'entraînement, les mélanges de politiques et la composition des sources de données. Guidés par ces investigations, nous présentons SWE-RM, un modèle de récompense précis et robuste adoptant une architecture de mélange d'experts avec 30B paramètres totaux et 3B activés lors de l'inférence. SWE-RM améliore substantiellement les agents SWE à la fois en performance TTS et RL. Par exemple, il augmente la précision de Qwen3-Coder-Flash de 51,6 % à 62,0 %, et de Qwen3-Coder-Max de 67,0 % à 74,6 % sur SWE-Bench Verified en utilisant le TTS, établissant ainsi de nouvelles performances de pointe parmi les modèles open source.
La génération automatique de diapositives de présentation peut considérablement rationaliser la création de contenu. Cependant, les préférences de chaque utilisateur pouvant varier, les formulations existantes sous-spécifiées produisent souvent des résultats sous-optimaux qui ne répondent pas aux besoins individuels des utilisateurs. Nous introduisons une nouvelle tâche qui conditionne la génération de diapositives à partir d'articles scientifiques sur des préférences spécifiées par l'utilisateur. Nous proposons un cadre agentiel inspiré du comportement humain, SlideTailor, qui génère progressivement des diapositives modifiables de manière alignée sur l'utilisateur. Au lieu d'exiger que les utilisateurs rédigent leurs préférences sous forme textuelle détaillée, notre système demande uniquement une paire d'exemples article-diapositives et un modèle visuel - des artefacts naturels et faciles à fournir qui encodent implicitement de riches préférences utilisateur en matière de contenu et de style visuel. Malgré la nature implicite et non étiquetée de ces entrées, notre cadre distille et généralise efficacement les préférences pour guider la génération de diapositives personnalisées. Nous introduisons également un nouveau mécanisme de chaîne de discours pour aligner le contenu des diapositives avec la narration orale planifiée. Une telle conception améliore significativement la qualité des diapositives générées et permet des applications en aval comme les présentations vidéo. Pour soutenir cette nouvelle tâche, nous constituons un jeu de données de référence qui capture des préférences utilisateur diverses, avec des métriques interprétables soigneusement conçues pour une évaluation robuste. Des expériences approfondies démontrent l'efficacité de notre cadre.
Ce document présente un nouvel algorithme de pointe pour la multiplication exacte de matrices 3×3 sur des anneaux non commutatifs généraux, atteignant un schéma de rang 23 avec seulement 58 additions scalaires. Ce résultat améliore la complexité additive précédemment établie de 60 additions sans changement de base. Cette découverte est le fruit d'une recherche automatisée combinant une exploration par graphe de retournements à restriction ternaire avec une réduction d'intersection gloutonne pour l'élimination des sous-expressions communes. Le schéma résultant n'utilise que des coefficients de l'ensemble {-1, 0, 1}, garantissant à la fois l'efficacité et la portabilité sur des corps arbitraires. Le nombre total d'opérations scalaires est réduit de 83 à 81.
Les grands modèles de raisonnement (LRM) sont généralement entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) pour améliorer leurs capacités de raisonnement. Dans ce paradigme, les politiques sont mises à jour en utilisant des déploiements auto-générés positifs et négatifs, qui correspondent à des polarités d'échantillons distinctes. Dans cet article, nous menons une investigation systématique sur la manière dont ces polarités d'échantillons affectent la dynamique d'entraînement et les comportements du RLVR. Nous constatons que les échantillons positifs affûtent les schémas de raisonnement corrects existants, tandis que les échantillons négatifs encouragent l'exploration de nouvelles trajectoires de raisonnement. Nous explorons ensuite comment l'ajustement des valeurs d'avantage des échantillons positifs et négatifs, à la fois au niveau de l'échantillon et au niveau du token, affecte l'entraînement RLVR. Sur la base de ces observations, nous proposons une méthode de Façonnage Adaptatif et Asymétrique de l'Avantage au niveau token pour l'Optimisation de Politique, nommée A3PO, qui alloue plus précisément les signaux d'avantage aux tokens clés selon les différentes polarités. Les expériences menées sur cinq benchmarks de raisonnement démontrent l'efficacité de notre approche.