papers.description
La mémoire est essentielle pour les agents d’IA, mais la mémoire statique largement adoptée, qui vise à créer une mémoire prête à l’emploi à l’avance, est inévitablement sujette à une perte sévère d’information. Pour remédier à cette limitation, nous proposons un nouveau cadre appelé mémoire agentique générale (GAM). GAM suit le principe de la « compilation juste à temps (JIT) » en se concentrant sur la création de contextes optimisés pour son client au moment de l’exécution, tout en conservant uniquement une mémoire simple mais utile pendant la phase hors ligne. Pour ce faire, GAM utilise une conception en duo avec les composants suivants. 1) Le Mémoriseur, qui met en évidence les informations historiques clés à l’aide d’une mémoire légère, tout en conservant l’intégralité des informations historiques dans un stockage universel de pages. 2) Le Chercheur, qui récupère et intègre les informations utiles du stockage de pages pour ses requêtes en ligne, guidé par la mémoire pré-construite. Cette conception permet à GAM d’exploiter efficacement les capacités agentiques et l’évolutivité au moment des tests des modèles de langage de pointe (LLMs), tout en facilitant l’optimisation des performances de bout en bout grâce à l’apprentissage par renforcement. Dans notre étude expérimentale, nous démontrons que GAM apporte une amélioration substantielle dans divers scénarios de tâches ancrées dans la mémoire par rapport aux systèmes de mémoire existants.
Les humains s'adaptent naturellement à des environnements divers en apprenant les règles sous-jacentes à travers des mondes aux dynamiques, observations et structures de récompense variées. En revanche, les agents existants démontrent généralement des améliorations via une auto-évolution au sein d'un domaine unique, supposant implicitement une distribution environnementale fixe. L'apprentissage trans-environnemental reste largement non mesuré : il n'existe ni collection standard d'environnements contrôlables et hétérogènes, ni méthode unifiée pour représenter l'apprentissage des agents. Nous comblons ces lacunes en deux étapes. Premièrement, nous proposons AutoEnv, un cadre automatisé traitant les environnements comme des distributions factorisables sur les transitions, observations et récompenses, permettant la génération à faible coût (4,12 USD en moyenne) de mondes hétérogènes. Utilisant AutoEnv, nous construisons AutoEnv-36, un jeu de données de 36 environnements comprenant 358 niveaux validés, sur lesquels sept modèles de langage atteignent 12 à 49% de récompense normalisée, démontrant le défi posé par AutoEnv-36. Deuxièmement, nous formalisons l'apprentissage de l'agent comme un processus centré sur les composants, piloté par trois étapes de Sélection, Optimisation et Évaluation appliquées à un composant agent améliorable. Sur cette base, nous concevons huit méthodes d'apprentissage que nous évaluons sur AutoEnv-36. Empiriquement, le gain de toute méthode unique diminue rapidement avec l'augmentation du nombre d'environnements, révélant que les méthodes fixes ne s'adaptent pas aux environnements hétérogènes. La sélection adaptative des méthodes d'apprentissage améliore substantiellement les performances mais présente des rendements décroissants avec l'expansion de l'espace méthodologique. Ces résultats soulignent à la fois la nécessité et les limitations actuelles de l'apprentissage des agents pour une généralisation trans-environnementale évolutive, et positionnent AutoEnv et AutoEnv-36 comme bancs d'essai pour étudier cet apprentissage. Le code est disponible à https://github.com/FoundationAgents/AutoEnv.
La diffusion de pixels vise à générer des images directement dans l'espace pixel de manière end-to-end. Cette approche évite les limitations du VAE dans la diffusion latente en deux étapes, offrant ainsi une capacité de modèle supérieure. Les modèles existants de diffusion de pixels souffrent d'un entraînement et d'une inférence lents, car ils modélisent généralement à la fois les signaux haute fréquence et la sémantique basse fréquence au sein d'un unique transformeur de diffusion (DiT). Pour développer un paradigme de diffusion de pixels plus efficace, nous proposons le cadre DeCo (Frequency-DeCoupled pixel diffusion). Partant de l'intuition de découpler la génération des composantes haute et basse fréquence, nous utilisons un décodeur de pixels léger pour générer les détails haute fréquence conditionnés par des indications sémantiques provenant du DiT. Cela libère ainsi le DiT pour qu'il se spécialise dans la modélisation de la sémantique basse fréquence. De plus, nous introduisons une perte d'appariement de flux (flow-matching) sensible aux fréquences, qui met l'accent sur les fréquences visuellement saillantes tout en supprimant celles qui sont insignifiantes. Des expériences approfondies montrent que DeCo obtient des performances supérieures parmi les modèles de diffusion de pixels, atteignant un FID de 1,62 (256x256) et 2,22 (512x512) sur ImageNet, réduisant ainsi l'écart avec les méthodes de diffusion latente. Par ailleurs, notre modèle préentraîné de génération d'images à partir de texte atteint un score global leader de 0,86 sur GenEval dans une comparaison au niveau système. Les codes sont disponibles publiquement à l'adresse https://github.com/Zehong-Ma/DeCo.
Les modèles de recherche approfondie effectuent des recherches multi-étapes pour produire des réponses longues et correctement attribuées. Cependant, la plupart des modèles ouverts de recherche approfondie sont entraînés sur des tâches de questions-réponses courtes et facilement vérifiables via l'apprentissage par renforcement avec récompenses vérifiables (RLVR), ce qui ne s'étend pas aux tâques réalistes de format long. Nous abordons ce problème avec l'Apprentissage par Renforcement avec Rubriques Évolutives (RLER), dans lequel nous construisons et maintenons des rubriques qui co-évoluent avec le modèle de politique pendant l'entraînement ; cela permet aux rubriques d'intégrer les informations nouvellement explorées par le modèle et de fournir un retour discriminant et sur-politique. En utilisant RLER, nous développons Deep Research Tulu (DR Tulu-8B), le premier modèle ouvert directement entraîné pour la recherche approfondie ouverte et de format long. Sur quatre benchmarks de recherche approfondie de format long dans les domaines scientifiques, médicaux et généraux, DR Tulu surpasse substantiellement les modèles ouverts de recherche approfondie existants, et égale ou dépasse les systèmes propriétaires de recherche approfondie, tout en étant significativement plus petit et moins coûteux par requête. Pour faciliter les recherches futures, nous publions toutes les données, modèles et codes, y compris notre nouvelle infrastructure d'agents basée sur MCP pour les systèmes de recherche approfondie.
Les agents d'utilisation informatique (CUA) deviennent de plus en plus capables d'opérer de manière autonome dans les environnements numériques via les interfaces graphiques (GUI). Pourtant, la plupart des GUI restent principalement conçues pour les humains - privilégiant l'esthétique et la facilité d'utilisation - forçant les agents à adopter des comportements orientés humains qui sont inutiles pour l'exécution efficace des tâches. Parallèlement, les progrès rapides des modèles de langage orientés code (Coder) ont transformé la conception automatique d'interfaces graphiques. Cela soulève une question fondamentale : Les CUA peuvent-ils servir de juges pour assister les Codeurs dans la conception automatique de GUI ? Pour investiguer cette question, nous introduisons AUI-Gym, un benchmark pour le développement automatique de GUI couvrant 52 applications dans divers domaines. En utilisant des modèles de langage, nous synthétisons 1560 tâches qui simulent des scénarios du monde réel. Pour garantir la fiabilité des tâches, nous développons en outre un vérificateur qui contrôle programmatiquement si chaque tâche est exécutable dans son environnement. Sur cette base, nous proposons un cadre de collaboration Codeur-CUA : le Codeur agit en tant que Concepteur, générant et révisant des sites web, tandis que le CUA sert de Juge, évaluant la fonctionnalité et affinant les conceptions. Le succès est mesuré non par l'apparence visuelle, mais par la résolubilité des tâches et le taux de réussite de navigation du CUA. Pour transformer les retours du CUA en conseils utilisables, nous concevons un Tableau de bord CUA qui compresse les historiques de navigation multi-étapes en résumés visuels concis, offrant des orientations interprétables pour la refonte itérative. En positionnant les agents à la fois comme concepteurs et juges, notre cadre fait évoluer la conception d'interfaces vers une efficacité et une fiabilité natives pour les agents. Notre travail représente un pas vers le passage des agents d'une utilisation passive à une participation active dans les environnements numériques. Notre code et jeu de données sont disponibles à l'adresse https://github.com/showlab/AUI.
Les transformers de diffusion ont récemment démontré d'excellentes performances en génération d'images à partir de texte autour de la résolution 1K, mais nous montrons que leur extension native au 4K avec des ratios d'aspect variés révèle un mode d'échecl étroitement couplé impliquant l'encodage positionnel, la compression VAE et l'optimisation. Aborder isolément l'un de ces facteurs laisse d'importants gains de qualité inexploités. Nous adoptons donc une approche de co-conception données-modèle et introduisons UltraFlux, un DiT basé sur Flux entraîné nativement en 4K sur MultiAspect-4K-1M, un corpus de 1 million d'images 4K avec une couverture multi-RA contrôlée, des légendes bilingues et de riches métadonnées VLM/IQA pour un échantillonnage sensible à la résolution et au RA. Côté modèle, UltraFlux combine (i) le RoPE 2D Resonance avec YaRN pour un encodage positionnel adapté à la fenêtre d'entraînement, aux fréquences et au RA en 4K ; (ii) un simple schéma post-entraînement VAE non adversarial qui améliore la fidélité de reconstruction en 4K ; (iii) une fonction de coût SNR-Aware Huber Wavelet qui rééquilibre les gradients selon les pas de temps et les bandes de fréquence ; et (iv) une stratégie d'apprentissage curriculaire esthétique par étapes qui concentre la supervision de haute qualité esthétique sur les étapes à fort bruit, guidée par l'a priori du modèle. Ensemble, ces composants produisent un DiT 4K stable, préservant les détails et généralisant aux RA larges, carrés et verticaux. Sur le benchmark Aesthetic-Eval à 4096 et dans des configurations 4K multi-RA, UltraFlux surpasse constamment les solides bases de référence open-source en termes de fidélité, d'esthétique et d'alignement, et – avec un raffineur d'invites par LLM – égale ou dépasse le modèle propriétaire Seedream 4.0.
Les modèles génératifs vidéo à grande échelle ont récemment démontré d’impressionnantes capacités visuelles, permettant la prédiction d’images futures conformes aux indices logiques et physiques présents dans l’observation courante. Dans ce travail, nous étudions si de telles capacités peuvent être exploitées pour la génération contrôlée d’images vers la vidéo en interprétant les signaux visuels intégrés dans les images comme des instructions, un paradigme que nous nommons Instruction In-Vidéo. Contrairement au contrôle par prompt textuel, qui fournit des descriptions globales et nécessairement approximatives, l’Instruction In-Vidéo encode les directives utilisateur directement dans le domaine visuel via des éléments tels que du texte superposé, des flèches ou des trajectoires. Cela permet d’établir des correspondances explicites, spatialement localisées et non ambiguës entre les sujets visuels et leurs actions intentionnelles, en attribuant des instructions distinctes à différents objets. Des expériences approfondies sur trois générateurs de pointe, incluant Veo 3.1, Kling 2.5 et Wan 2.2, montrent que les modèles vidéo peuvent interpréter et exécuter de manière fiable ces instructions visuellement intégrées, en particulier dans des scénarios complexes à plusieurs objets.
L'augmentation des calculs lors des tests améliore les performances des grands modèles de langage (LLM) sur diverses tâches, une approche étendue aux agents augmentés par des outils. Pour ces agents, la montée en puissance implique non seulement de « réfléchir » en tokens mais aussi d'« agir » via des appels d'outils. Le nombre d'appels d'outils limite directement l'interaction de l'agent avec son environnement externe. Cependant, nous constatons qu'accorder simplement aux agents un budget d'appels d'outils plus important n'améliore pas leurs performances, car ils manquent de « conscience du budget » et atteignent rapidement un plafond. Pour résoudre ce problème, nous étudions comment mettre efficacement à l'échelle ces agents sous des budgets d'appels d'outils explicites, en nous concentrant sur les agents de recherche web. Nous introduisons d'abord le Budget Tracker, un module d'extension léger qui fournit à l'agent une conscience continue du budget, permettant une montée en puissance simple mais efficace. Nous développons ensuite BATS (Budget Aware Test-time Scaling), un cadre avancé qui exploite cette conscience pour adapter dynamiquement sa stratégie de planification et de vérification, en décidant s'il faut « approfondir » une piste prometteuse ou « pivoter » vers de nouvelles voies en fonction des ressources restantes. Pour analyser de manière contrôlée la relation coût-performance, nous formalisons une métrique de coût unifiée qui prend conjointement en compte la consommation de tokens et d'outils. Nous présentons la première étude systématique sur les agents sous contrainte budgétaire, montrant que les méthodes conscientes du budget produisent des courbes d'échelle plus favorables et repoussent la frontière de Pareto coût-performance. Notre travail offre des insights empiriques pour une compréhension plus transparente et principielle de la montée en puissance des agents augmentés par des outils.
Les modèles vision-langage (VLM) excellent dans le raisonnement en espace linguistique mais peinent à appréhender la compréhension perceptuelle nécessitant une perception visuelle dense, comme le raisonnement spatial et la conscience géométrique. Cette limitation découle du fait que les VLM actuels disposent de mécanismes limités pour capturer l'information visuelle dense à travers les dimensions spatiales. Nous présentons Chain-of-Visual-Thought (COVT), un cadre permettant aux VLM de raisonner non seulement en mots mais aussi via des tokens visuels continus – des représentations latentes compactes encodant des indices perceptuels riches. Avec un budget réduit d'environ 20 tokens, COVT distille les connaissances d'experts visuels légers, capturant des propriétés complémentaires telles que l'apparence 2D, la géométrie 3D, la disposition spatiale et la structure des contours. Durant l'entraînement, le VLM équipé de COVT prédit de manière autorégressive ces tokens visuels pour reconstruire des signaux de supervision denses (par exemple, la profondeur, la segmentation, les contours et les caractéristiques DINO). Lors de l'inférence, le modèle raisonne directement dans l'espace continu des tokens visuels, préservant l'efficacité tout en décodant optionnellement les prédictions denses pour l'interprétabilité. Évalué sur plus de dix benchmarks de perception divers, incluant CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA et HRBench, l'intégration de COVT dans des VLM performants comme Qwen2.5-VL et LLaVA améliore constamment les performances de 3% à 16% et démontre qu'une pensée visuelle continue et compacte permet une intelligence multimodale plus précise, ancrée et interprétable.
Nous présentons HunyuanVideo 1.5, un modèle open-source de génération vidéo léger mais puissant qui atteint une qualité visuelle et une cohérence du mouvement à la pointe de l'état de l'art avec seulement 8,3 milliards de paramètres, permettant une inférence efficace sur des GPU grand public. Cette réalisation repose sur plusieurs composants clés, incluant une curation méticuleuse des données, une architecture DiT avancée dotée d'un mécanisme d'attention sélective et glissante (SSTA), une compréhension bilingue améliorée via un encodage de texte sensible à la glyphe, un pré-entraînement et un post-entraînement progressifs, et un réseau efficace de super-résolution vidéo. En capitalisant sur ces conceptions, nous avons développé un cadre unifié capable d'une génération vidéo de haute qualité, qu'elle soit texte-à-vidéo ou image-à-vidéo, sur plusieurs durées et résolutions. Des expériences approfondies démontrent que ce modèle compact et compétent établit un nouvel état de l'art parmi les modèles open-source de génération vidéo. En publiant le code et les poids du modèle, nous fournissons à la communauté une base performante qui abaisse la barrière à la création et à la recherche vidéo, rendant la génération vidéo avancée accessible à un public plus large. Tous les actifs open-source sont disponibles publiquement à l'adresse https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
Une fonction de récompense fiable est essentielle pour l'apprentissage par renforcement (RL) dans la génération d'images. La plupart des approches RL actuelles dépendent de modèles de préférence pré-entraînés qui produisent des récompenses scalaires pour approximer les préférences humaines. Cependant, ces récompenses échouent souvent à capturer la perception humaine et sont vulnérables au détournement de récompense (reward hacking), où des scores plus élevés ne correspondent pas à de meilleures images. Pour résoudre ce problème, nous présentons Adv-GRPO, un cadre RL avec une récompense antagoniste qui met à jour itérativement à la fois le modèle de récompense et le générateur. Le modèle de récompense est supervisé en utilisant des images de référence comme échantillons positifs et peut largement éviter d'être détourné. Contrairement à la régularisation KL qui contraint les mises à jour des paramètres, notre récompense apprise guide directement le générateur via ses sorties visuelles, conduisant à des images de plus haute qualité. De plus, bien qu'optimiser les fonctions de récompense existantes puisse atténuer le détournement de récompense, leurs biais inhérents persistent. Par exemple, PickScore peut dégrader la qualité de l'image, tandis que les récompenses basées sur la ROC réduisent souvent la fidélité esthétique. Pour résoudre cela, nous prenons l'image elle-même comme récompense, en utilisant des images de référence et des modèles de fondation vision (par exemple, DINO) pour fournir des récompenses visuelles riches. Ces signaux visuels denses, au lieu d'un seul scalaire, entraînent des gains constants sur la qualité d'image, l'esthétique et les métriques spécifiques aux tâches. Enfin, nous montrons que combiner des échantillons de référence avec des récompenses issues de modèles de fondation permet un transfert de distribution et une personnalisation de style flexible. Lors de l'évaluation humaine, notre méthode surpasse Flow-GRPO et SD3, atteignant des taux de victoire de 70,0 % et 72,4 % pour la qualité d'image et l'esthétique, respectivement. Le code et les modèles ont été publiés.
La radiologie joue un rôle essentiel dans la médecine moderne, mais l'augmentation des volumes d'imagerie a largement dépassé la croissance de la main-d'œuvre. Les modèles de fondation offrent une voie pour assister l'ensemble des tâches radiologiques, mais les modèles médicaux existants restent limités : ils traitent la tomodensitométrie (TDM) et l'imagerie par résonance magnétique (IRM) volumétriques comme des coupes 2D basse fidélité, ignorent les informations critiques de contraste en niveaux de gris et manquent de cadres d'évaluation reflétant la pratique clinique réelle. Nous présentons Pillar-0, un modèle de fondation pour la radiologie pré-entraîné sur 42 990 TDM abdomino-pelviennes, 86 411 TDM thoraciques, 14 348 TDM crâniennes et 11 543 IRM mammaires provenant d'un grand centre académique, ainsi que RATE, un cadre évolutif qui extrait des étiquettes structurées pour 366 observations radiologiques avec une précision quasi parfaite en utilisant des LLM. Sur des ensembles de tests internes de 14 230 TDM abdomino-pelviennes, 10 646 TDM thoraciques, 4 906 TDM crâniennes et 1 585 IRM mammaires, Pillar-0 établit une nouvelle frontière de performance, atteignant des AUROC moyens de 86,4, 88,0, 90,1 et 82,9, surpassant MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) et Merlin (Stanford) de 7,8 à 15,8 points d'AUROC et se classant premier dans 87,2 % (319/366) des tâches. Pillar-0 surpasse également toutes les méthodes de référence dans une validation externe sur le jeu de données Stanford Abdominal CT, incluant Merlin (82,2 contre 80,6 d'AUROC). Pillar-0 s'étend à des tâches au-delà de son pré-entraînement, comme la prédiction du risque à long terme du cancer du poumon, où il améliore l'état de l'art Sybil de 3,0 points d'indice C sur NLST, et se généralise avec des gains de 5,9 (MGH) et 1,9 (CGMH). Pour la détection d'hémorragie cérébrale, Pillar-0 a obtenu un AUROC >95 en n'utilisant qu'un vingtième des données nécessaires à la méthode de référence la plus efficace en échantillons suivante. Pillar-0 et RATE fournissent ensemble une base ouverte et cliniquement rigoureuse pour construire des systèmes de radiologie haute performance, permettant des applications auparavant impossibles en raison des contraintes de calcul, de données et d'évaluation.
Les Transformers à Diffusion ont démontré des capacités remarquables en synthèse visuelle, mais ils peinent souvent avec le raisonnement sémantique de haut niveau et la planification à long terme. Cette limitation entraîne fréquemment des hallucinations visuelles et des incohérences avec les instructions utilisateur, particulièrement dans les scénarios impliquant une compréhension de scène complexe, des interactions humain-objet, des actions multi-étapes et un raisonnement motionnel en contexte. Pour relever ces défis, nous proposons Plan-X, un cadre qui impose explicitement une planification sémantique de haut niveau pour guider le processus de génération vidéo. Son cœur repose sur un Planificateur Sémantique, un modèle de langage multimodal apprenable qui raisonne sur l'intention de l'utilisateur à partir des invites textuelles et du contexte visuel, et génère de manière autoregressive une séquence de jetons sémantiques spatio-temporels ancrés dans le texte. Ces jetons sémantiques, complémentaires aux instructions textuelles de haut niveau, servent d'« esquisses sémantiques » structurées dans le temps pour le modèle de diffusion vidéo, qui excelle dans la synthèse de détails visuels à haute fidélité. Plan-X intègre efficacement la force des modèles de langage en raisonnement et planification multimodale en contexte, avec la force des modèles de diffusion en synthèse vidéo photoréaliste. Des expériences approfondies démontrent que notre cadre réduit substantiellement les hallucinations visuelles et permet une génération vidéo granulaire, alignée sur les instructions et cohérente avec le contexte multimodal.
Les systèmes multi-agents obtiennent de bonnes performances sur les tâches de raisonnement général. Cependant, leur manque de formation dans des domaines spécialisés nuit à leur précision. Les méthodes d'entraînement actuelles forment un grand modèle de langage (LLM) unifié pour tous les agents du système. Cela peut limiter les performances en raison des distributions sous-jacentes différentes pour chaque agent. Par conséquent, l'entraînement de systèmes multi-agents avec des LLM distincts devrait constituer la prochaine étape à résoudre. Cependant, cette approche introduit des défis d'optimisation. Par exemple, les agents opèrent à différentes fréquences, les déploiements impliquent des invocations de sous-agents variables, et les agents sont souvent déployés sur des serveurs distincts, perturbant ainsi le flux de gradients de bout en bout. Pour résoudre ces problèmes, nous proposons M-GRPO, une extension hiérarchique de l'Optimisation de Politique Relative par Groupe conçue pour les systèmes multi-agents verticaux avec un agent principal (planificateur) et plusieurs sous-agents (exécuteurs d'outils multi-tours). M-GRPO calcule des avantages relatifs par groupe pour les agents principaux et sous-agents, en maintenant une attribution de crédit hiérarchique. Il introduit également un schéma d'alignement des trajectoires qui génère des lots de taille fixe malgré les invocations variables des sous-agents. Nous déployons un pipeline d'entraînement découplé dans lequel les agents s'exécutent sur des serveurs séparés et échangent des statistiques minimales via un stockage partagé. Cela permet un entraînement scalable sans rétropropagation inter-serveurs. Dans des expériences sur des benchmarks du monde réel (par exemple, GAIA, XBench-DeepSearch et WebWalkerQA), M-GRPO surpasse systématiquement à la fois l'agent unique GRPO et le multi-agent GRPO avec des sous-agents figés, démontrant une stabilité et une efficacité d'échantillonnage améliorées. Ces résultats montrent qu'aligner des trajectoires hétérogènes et découpler l'optimisation entre des agents spécialisés améliore les tâches de raisonnement assisté par outils.
Nous présentons M^3-Bench, le premier benchmark pour l'évaluation de l'utilisation d'outils multimodaux sous le protocole MCP (Model Context Protocol). Le benchmark cible des workflows réalistes, multi-étapes et multi-threadés qui nécessitent un ancrage visuel et un raisonnement textuel, des dépendances inter-outils, ainsi que la persistance de ressources intermédiaires entre les étapes. Nous introduisons un alignement piloté par similarité qui sérialise chaque appel d'outil, intègre les signatures avec un encodeur de phrases et effectue un appariement hongrois par regroupement de similarité pour obtenir des correspondances un-à-un vérifiables. Sur la base de cet alignement, nous rapportons des métriques interprétables qui découplent la fidélité sémantique de la cohérence du workflow. Le benchmark couvre 28 serveurs avec 231 outils et fournit des trajectoires standardisées organisées via un pipeline Exécuteur & Juge avec vérification humaine ; un ensemble auxiliaire de quatre grands modèles de langage (LLM) juges rapporte l'Achèvement de la Tâche et l'ancrage informationnel de la tâche finale. Les évaluations de modèles de langage multimodaux (MLLM) représentatifs de l'état de l'art révèlent des lacunes persistantes dans l'utilisation d'outils MCP multimodaux, particulièrement en matière de fidélité des arguments et de cohérence structurelle, soulignant le besoin de méthodes raisonnant conjointement sur les images, le texte et les graphes d'outils. Le dépôt anonyme de notre benchmark se trouve à l'adresse https://github.com/EtaYang10th/Open-M3-Bench.
Nous présentons One4D, un cadre unifié pour la génération et la reconstruction 4D qui produit un contenu 4D dynamique sous forme de trames RVB et de cartes de points synchronisées. En traitant de manière cohérente les différentes sparsités des trames de conditionnement grâce à un mécanisme de conditionnement masqué unifié (UMC), One4D peut passer de manière transparente de la génération 4D à partir d'une seule image, à la reconstruction 4D à partir d'une vidéo complète, et à la génération et reconstruction mixtes à partir de trames éparses. Notre cadre adapte un modèle puissant de génération vidéo pour la génération conjointe de trames RVB et de cartes de points, avec des architectures de réseau soigneusement conçues. Les stratégies de fine-tuning par diffusion couramment utilisées pour la reconstruction de cartes de profondeur ou de points échouent souvent sur la génération conjointe de trames RVB et de points, dégradant rapidement le modèle vidéo de base. Pour relever ce défi, nous introduisons le Contrôle LoRA Découplé (DLC), qui utilise deux adaptateurs LoRA spécifiques à la modalité pour former des branches de calcul découplées pour les trames RVB et les cartes de points, connectées par des liens de contrôle légers et initialisés à zéro qui apprennent progressivement une cohérence mutuelle au niveau pixel. Entraîné sur un mélange de jeux de données 4D synthétiques et réels avec des budgets de calcul modestes, One4D produit des trames RVB de haute qualité et des cartes de points précises pour les tâches de génération et de reconstruction. Ce travail représente une étape vers la modélisation générale et de haute qualité d'un monde 4D basée sur la géométrie à l'aide de modèles de diffusion vidéo. Page du projet : https://mizhenxing.github.io/One4D
La résolution de questions à choix multiples (MCQA) est un format populaire pour l'évaluation et le réglage fin par renforcement (RFT) des modèles linguistiques multimodaux modernes. Son format de sortie contraint permet une vérification automatique simplifiée et déterministe. Cependant, nous constatons que les options peuvent révéler des signaux exploitables, ce qui rend les métriques de précision peu fiables pour indiquer les capacités réelles et encourage des comportements de devinette explicites ou implicites durant le RFT. Nous proposons ReVeL (Rewrite and Verify by LLM), un framework qui reformule les questions à choix multiples en questions ouvertes tout en maintenant la vérifiabilité des réponses dans la mesure du possible. Le framework catégorise les questions selon différents types de réponses et applique respectivement différents schémas de reformulation et de vérification. Appliqué au RFT, nous avons converti 20 000 exemples MCQA et utilisé GRPO pour affiner les modèles Qwen2.5-VL. Les modèles entraînés sur ReVeL-OpenQA atteignent la précision MCQA sur les benchmarks à choix multiples et améliorent la précision OpenQA d'environ six points de pourcentage, indiquant une meilleure efficacité des données et des signaux de récompense plus robustes que l'entraînement basé sur MCQA. Utilisé pour l'évaluation, ReVeL révèle également jusqu'à 20 points de pourcentage d'inflation des scores dans les benchmarks MCQA (par rapport à l'OpenQA), améliore la précision du jugement, et réduit à la fois le coût et la latence. Nous publierons le code et les données.
Bien que la qualité des données web soit cruciale pour les grands modèles de langage, la plupart des efforts de curation se concentrent sur le filtrage et la déduplication, traitant l'extraction HTML-vers-texte comme une étape de prétraitement fixe. Les corpus web existants reposent sur des extracteurs heuristiques comme Trafilatura, qui peinent à préserver la structure des documents et altèrent fréquemment des éléments structurés tels que les formules, les codes et les tableaux. Nous émettons l'hypothèse qu'améliorer la qualité de l'extraction peut être aussi impactant que des stratégies de filtrage agressives pour les performances en aval. Nous présentons MinerU-HTML, un nouveau pipeline d'extraction qui reformule l'extraction de contenu en un problème d'étiquetage de séquence résolu par un modèle de langage de 0,6 milliard de paramètres. Contrairement aux heuristiques basées sur la densité textuelle, MinerU-HTML tire parti de la compréhension sémantique et utilise un pipeline de formatage en deux étapes qui catégorise explicitement les éléments sémantiques avant la conversion en Markdown. Essentiellement, son approche basée sur un modèle est intrinsèquement évolutive, tandis que les méthodes heuristiques offrent des perspectives d'amélioration limitées. Sur MainWebBench, notre benchmark de 7 887 pages web annotées, MinerU-HTML atteint un score F1 ROUGE-N de 81,8 % contre 63,6 % pour Trafilatura, avec une préservation exceptionnelle des éléments structurés (90,9 % pour les blocs de code, 94,0 % pour les formules). En utilisant MinerU-HTML, nous construisons AICC (AI-ready Common Crawl), un corpus multilingue de 7,3 billions de tokens provenant de deux instantanés de Common Crawl. Dans des expériences de pré-entraînement contrôlées où AICC et TfCC (extraite par Trafilatura) subissent un filtrage identique, les modèles entraînés sur AICC (62 milliards de tokens) atteignent une précision moyenne de 50,8 % sur 13 benchmarks, surpassant TfCC de 1,08 point de pourcentage - fournissant une preuve directe que la qualité de l'extraction influence significativement les capacités des modèles. AICC surpasse également RefinedWeb et FineWeb sur des benchmarks clés. Nous rendons publics MainWebBench, MinerU-HTML et AICC, démontrant que l'extraction HTML est une composante critique et souvent sous-estimée de la construction de corpus web.
Ce travail présente la Décomposition Contrôlable par Couches (CLD), une méthode permettant d'obtenir une séparation multi-couches fine et contrôlable d'images matricielles. Dans les flux de travail pratiques, les concepteurs génèrent et modifient généralement chaque couche RGBA indépendamment avant de les composer en une image matricielle finale. Cependant, ce processus est irréversible : une fois composée, l'édition au niveau des couches n'est plus possible. Les méthodes existantes reposent généralement sur la matting et l'inpainting d'images, mais restent limitées en termes de contrôlabilité et de précision de segmentation. Pour relever ces défis, nous proposons deux modules clés : LayerDecompose-DiT (LD-DiT), qui découple les éléments de l'image en couches distinctes et permet un contrôle granulaire ; et le Multi-Layer Conditional Adapter (MLCA), qui injecte les informations de l'image cible dans des tokens multi-couches pour réaliser une génération conditionnelle précise. Pour permettre une évaluation complète, nous construisons un nouveau benchmark et introduisons des métriques d'évaluation adaptées. Les résultats expérimentaux montrent que CLD surpasse constamment les méthodes existantes tant en qualité de décomposition qu'en contrôlabilité. De plus, les couches séparées produites par CLD peuvent être directement manipulées dans des outils de conception courants tels que PowerPoint, soulignant sa valeur pratique et son applicabilité dans les flux de travail créatifs réels.
Nous proposons une approche entièrement pilotée par les données pour concevoir des estimateurs d'information mutuelle (IM). Comme tout estimateur d'IM est une fonction de l'échantillon observé de deux variables aléatoires, nous paramétrons cette fonction avec un réseau de neurones (MIST) et l'entraînons de bout en bout pour prédire des valeurs d'IM. L'entraînement est effectué sur un large méta-jeu de données de 625 000 distributions jointes synthétiques dont l'IM réelle est connue. Pour gérer des tailles d'échantillon et des dimensions variables, nous employons un mécanisme d'attention bidimensionnel garantissant l'invariance par permutation des échantillons en entrée. Pour quantifier l'incertitude, nous optimisons une fonction de perte de régression quantile, permettant à l'estimateur d'approximer la distribution d'échantillonnage de l'IM plutôt que de retourner une estimation ponctuelle unique. Ce programme de recherche s'écarte des travaux antérieurs en empruntant une voie entièrement empirique, échangeant des garanties théoriques universelles contre la flexibilité et l'efficacité. Empiriquement, les estimateurs appris surpassent largement les méthodes classiques de référence, quelles que soient la taille de l'échantillon et la dimension, y compris sur des distributions jointes non vues pendant l'entraînement. Les intervalles basés sur les quantiles qui en résultent sont bien calibrés et plus fiables que les intervalles de confiance basés sur le bootstrap, tandis que l'inférence est plusieurs ordres de grandeur plus rapide que les estimateurs neuronaux existants. Au-delà des gains empiriques immédiats, ce cadre produit des estimateurs entraînables et entièrement différentiables qui peuvent être intégrés dans des pipelines d'apprentissage plus larges. De plus, en exploitant l'invariance de l'IM aux transformations inversibles, les méta-jeux de données peuvent être adaptés à des modalités de données arbitraires via des flux de normalisation, permettant un entraînement flexible pour diverses méta-distributions cibles.
La recherche d'information est une capacité fondamentale pour les agents d'IA, qui nécessite de collecter et de raisonner sur des informations générées par des outils au travers de longues trajectoires. Cependant, ces tâches de recherche d'information multi-étapes restent difficiles pour les agents reposant sur des modèles de langage. Bien que les modèles de récompense de processus (PRM) puissent guider les agents en classant les étapes candidates lors des tests, les PRM existants, conçus pour un raisonnement court avec un jugement binaire, ne peuvent pas capturer les dimensions plus riches des étapes de recherche d'information, telles que les interactions avec les outils et le raisonnement sur leurs sorties, ni gérer le contexte qui croît rapidement dans les tâches à long horizon. Pour résoudre ces limitations, nous présentons PRInTS, un PRM génératif entraîné avec des capacités duales : (1) un score dense basé sur le raisonnement du PRM à travers plusieurs dimensions de qualité d'étape (par exemple, l'interprétation des sorties d'outils, l'informativité des appels d'outils) et (2) un résumé de trajectoire qui compresse le contexte croissant tout en préservant les informations essentielles pour l'évaluation des étapes. Des évaluations approfondies sur les benchmarks FRAMES, GAIA (niveaux 1-3) et WebWalkerQA (facile-difficile) avec plusieurs modèles, ainsi que des ablations, révèlent que l'échantillonnage best-of-n avec PRInTS améliore les capacités de recherche d'information des modèles open source ainsi que des agents spécialisés, égalant ou dépassant les performances des modèles frontaliers avec un agent de base beaucoup plus petit et surpassant les autres modèles de référence solides en modélisation de récompense.
Nous présentons Upsample Anything, un cadre d'optimisation léger au moment du test (TTO) qui restaure des caractéristiques basse résolution en sorties haute résolution, pixel par pixel, sans aucun apprentissage. Bien que les modèles de fondation en vision (Vision Foundation Models) démontrent une forte généralisation sur diverses tâches en aval, leurs représentations sont généralement sous-échantillonnées par un facteur 14x/16x (par exemple, ViT), ce qui limite leur utilisation directe dans les applications au niveau du pixel. Les approches existantes de suréchantillonnage de caractéristiques dépendent d'un réentraînement spécifique à un jeu de données ou d'une optimisation implicite lourde, restreignant ainsi l'évolutivité et la généralisation. Upsample Anything résout ces problèmes grâce à une simple optimisation par image qui apprend un noyau gaussien anisotrope combinant des indices spatiaux et d'intensité, faisant efficacement le lien entre le Gaussian Splatting et le suréchantillonnage bilatéral conjoint (Joint Bilateral Upsampling). Le noyau appris agit comme un opérateur universel et sensible aux contours qui se transfère de manière transparente entre les architectures et les modalités, permettant une reconstruction haute résolution précise des caractéristiques, de la profondeur ou des cartes de probabilité. Il s'exécute en seulement environ 0,419 s par image de 224x224 et obtient des performances à l'état de l'art sur la segmentation sémantique, l'estimation de profondeur, et le suréchantillonnage des cartes de profondeur et de probabilité. Page du projet : https://seominseok0429.github.io/Upsample-Anything/
Les modèles de vision et langage (VLMs) obtiennent de bonnes performances sur les tâches vidéo standard mais peinent avec le raisonnement physique impliquant la dynamique du mouvement et les interactions spatiales. Cette limitation réduit leur capacité à interpréter les vidéos réelles ou le contenu généré par IA (AIGC) et à produire un contenu physiquement cohérent. Nous présentons une approche qui comble cet écart en traduisant les indices contextuels du monde physique en représentations interprétables alignées sur la perception, la compréhension et le raisonnement des VLMs. Nous introduisons MASS-Bench, un benchmark complet comprenant 4 350 vidéos du monde réel et AIGC, ainsi que 8 361 paires questions-réponses vidéo en libre format axées sur des tâches de compréhension physique, avec des annotations détaillées incluant les détections visuelles, l'ancrage temporel de sous-séquences et le suivi 3D du mouvement des entités sur toute la séquence. Nous présentons également MASS, une méthode agnostique aux modèles qui injecte des signaux spatio-temporels dans l'espace linguistique des VLMs via un encodage 3D basé sur la profondeur et l'ancrage visuel, couplé à un traqueur de mouvement pour la dynamique des objets. Pour renforcer l'alignement et le raisonnement multimodaux, nous appliquons un réglage fin par renforcement. Les expériences et ablations montrent que nos VLMs améliorés surpassent les modèles de référence comparables et plus grands, ainsi que les modèles de l'état de l'art précédents, de 8,7 % et 6,0 %, atteignant des performances comparables aux VLMs propriétaires de l'état de l'art tels que Gemini-2.5-Flash sur le raisonnement et la compréhension physiques. Ces résultats valident l'efficacité de notre approche.
La manipulation robotique à long terme demeure un défi pour les modèles Vision-Langage-Action (VLA), malgré les progrès récents en matière de généralisation zero-shot et de transfert simulation-monde réel. Les modèles VLA actuels souffrent d'hallucination d'étapes, où les agents exploitent des signaux d'évaluation grossiers pour court-circuiter les tâches multi-étapes, rapportant des progrès élevés sans les accomplir véritablement. Nous présentons EvoVLA, un cadre VLA auto-supervisé qui résout ce problème via trois composantes complémentaires : la Récompense Alignée sur les Étapes (SAR), qui utilise l'apprentissage par contraste triplet avec des négatifs difficiles générés par Gemini pour empêcher les raccourcis visuels ; l'Exploration d'Objets par Pose (POE), qui ancre la curiosité dans la pose relative objet-pince plutôt que dans les pixels bruts ; et la Mémoire à Long Terme, qui utilise une rétention contextuelle sélective et une fusion à seuil pour stabiliser le façonnage intrinsèque lors des déploiements prolongés. Des évaluations poussées sur Discoverse-L, un benchmark de manipulation à long terme avec trois tâches multi-étapes, montrent qu'EvoVLA améliore le taux de réussite moyen des tâches de 10,2 points de pourcentage par rapport au meilleur modèle de référence (OpenVLA-OFT), atteignant 69,2 %. EvoVLA atteint également une efficacité d'échantillonnage une fois et demie supérieure et réduit l'hallucination d'étapes de 38,5 % à 14,8 %. Le déploiement en conditions réelles sur des robots physiques atteint un taux de réussite moyen de 54,6 % sur quatre tâches de manipulation, surpassant OpenVLA-OFT de 11 points, démontrant un transfert simulation-réel efficace et une forte généralisation. Code : https://github.com/AIGeeksGroup/EvoVLA. Site web : https://aigeeksgroup.github.io/EvoVLA.
Les modèles de flux les plus avancés atteignent une qualité remarquable mais nécessitent un échantillonnage itératif et lent. Pour accélérer ce processus, des applications de flux peuvent être distillées à partir de modèles enseignants pré-entraînés, une procédure qui nécessite conventionnellement un échantillonnage à partir d'un jeu de données externe. Nous soutenons que cette dépendance aux données introduit un risque fondamental de *Mismatch Enseignant-Données*, car un jeu de données statique peut fournir une représentation incomplète, voire inadaptée, des capacités génératives complètes de l'enseignant. Cela nous amène à nous demander si cette dépendance aux données est véritablement nécessaire pour une distillation réussie des applications de flux. Dans ce travail, nous explorons une alternative sans données qui échantillonne uniquement à partir de la distribution a priori, une distribution que l'enseignant suit nécessairement par construction, évitant ainsi complètement le risque de mismatch. Pour démontrer la viabilité pratique de cette philosophie, nous introduisons un cadre méthodologique qui apprend à prédire le chemin d'échantillonnage de l'enseignant tout en corrigeant activement ses propres erreurs cumulatives pour garantir une haute fidélité. Notre approche surpasse toutes les contreparties basées sur les données et établit un nouvel état de l'art par une marge significative. Plus précisément, en distillant à partir de SiT-XL/2+REPA, notre méthode atteint un FID impressionnant de 1,45 sur ImageNet 256x256 et de 1,49 sur ImageNet 512x512, les deux avec seulement 1 étape d'échantillonnage. Nous espérons que notre travail établit un paradigme plus robuste pour l'accélération des modèles génératifs et motive l'adoption plus large de la distillation des applications de flux sans données.
Bien que les modèles du monde récents génèrent des vidéos très réalistes, leur capacité à effectuer une planification de trajectoire pour robots reste incertaine et non quantifiée. Nous présentons Target-Bench, le premier benchmark spécifiquement conçu pour évaluer les modèles du monde sur la planification de trajectoire sans carte vers des cibles sémantiques dans des environnements réels. Target-Bench fournit 450 séquences vidéo collectées par robot couvrant 45 catégories sémantiques avec des trajectoires de référence basées sur SLAM. Notre pipeline d'évaluation reconstruit le mouvement de la caméra à partir des vidéos générées et mesure les performances de planification à l'aide de cinq métriques complémentaires qui quantifient la capacité d'atteinte de la cible, la précision de la trajectoire et la cohérence directionnelle. Nous évaluons des modèles de pointe incluant Sora 2, Veo 3.1 et la série Wan. Le meilleur modèle prêt-à-l'emploi (Wan2.2-Flash) n'atteint qu'un score global de 0,299, révélant des limitations significatives des modèles du monde actuels pour les tâches de planification robotique. Nous montrons que le fine-tuning d'un modèle open-source de 5 milliards de paramètres sur seulement 325 scénarios de notre jeu de données atteint un score global de 0,345 - une amélioration de plus de 400% par rapport à sa version de base (0,066) et 15% supérieure au meilleur modèle prêt-à-l'emploi. Nous ouvrirons le code et le jeu de données en open-source.
Nous présentons une méthode pour extraire des neurones monosémantiques, définis comme des dimensions latentes alignées avec des concepts cohérents et interprétables, à partir des embeddings d'utilisateurs et d'articles dans les systèmes de recommandation. Notre approche utilise un Autoencodeur Sparse (SAE) pour révéler la structure sémantique au sein des représentations préentraînées. Contrairement aux travaux sur les modèles de langage, la monosémanticité en recommandation doit préserver les interactions entre les embeddings distincts des utilisateurs et des articles. Pour y parvenir, nous introduisons un objectif d'entraînement sensible à la prédiction qui rétropropage les gradients à travers un système de recommandation figé et aligne la structure latente apprise avec les prédictions d'affinité utilisateur-article du modèle. Les neurones résultants capturent des propriétés telles que le genre, la popularité et les tendances temporelles, et permettent des opérations de contrôle a posteriori incluant le filtrage ciblé et la promotion de contenu sans modifier le modèle de base. Notre méthode généralise à différents modèles de recommandation et jeux de données, offrant un outil pratique pour une personnalisation interprétable et contrôlable. Le code et les ressources d'évaluation sont disponibles à l'adresse https://github.com/DeltaLabTLV/Monosemanticity4Rec.
La fidélité explicative, qui mesure la précision avec laquelle une explication reflète le raisonnement véritable d'un modèle, demeure un domaine gravement sous-exploré dans les systèmes de recommandation. Nous présentons SPINRec (Intégration Stochastique de Chemins pour les Explications des Recommandeurs Neuronaux), une approche agnostique qui adapte les techniques d'intégration de chemin à la nature éparse et implicite des données de recommandation. Pour surmonter les limitations des méthodes antérieures, SPINRec utilise un échantillonnage stochastique de référence : au lieu d'intégrer à partir d'un point de référence fixe ou irréaliste, il échantillonne plusieurs profils utilisateurs plausibles à partir de la distribution empirique des données et sélectionne le chemin d'attribution le plus fidèle. Cette conception capture l'influence des interactions observées et non observées, produisant des explications plus stables et personnalisées. Nous menons l'évaluation de fidélité la plus exhaustive à ce jour sur trois modèles (MF, VAE, NCF), trois jeux de données (ML1M, Yahoo! Music, Pinterest) et une batterie de métriques contrefactuelles, incluant des courbes de perturbation basées sur l'AUC et des diagnostics à longueur fixe. SPINRec surpasse systématiquement toutes les méthodes de référence, établissant un nouveau standard pour l'explicabilité fidèle en recommandation. Le code et les outils d'évaluation sont disponibles publiquement à l'adresse https://github.com/DeltaLabTLV/SPINRec.
La génération d'interactions main-objet (HOI) joue un rôle essentiel dans le développement d'applications en animation et robotique. Les méthodes actuelles basées sur la vidéo sont majoritairement monoscopiques, ce qui entrave une perception géométrique 3D complète et génère souvent des distorsions géométriques ou des schémas de mouvement peu réalistes. Bien que les approches HOI 3D puissent produire des mouvements dynamiquement plausibles, leur dépendance à des données 3D de haute qualité capturées en environnement contrôlé limite fortement leur généralisation à des scénarios réels. Pour surmonter ces limitations, nous présentons SyncMV4D, le premier modèle générant conjointement des vidéos HOI multivues synchronisées et des mouvements 4D en unifiant l’apprentissage visuel, la dynamique du mouvement et la géométrie multivue. Notre cadre intègre deux innovations majeures : (1) un modèle de diffusion conjointe multivue (MJD) qui co-génère les vidéos HOI et les mouvements intermédiaires, et (2) un aligneur par diffusion de points (DPA) qui affine le mouvement intermédiaire brut en trajectoires ponctuelles métriques 4D alignées globalement. Pour coupler étroitement l'apparence 2D et la dynamique 4D, nous établissons une boucle fermée à amélioration mutuelle. Durant le processus de dé-bruitage par diffusion, la vidéo générée conditionne le raffinement du mouvement 4D, tandis que les trajectoires de points 4D alignées sont reprojetées pour guider l'étape suivante de génération conjointe. Expérimentalement, notre méthode démontre des performances supérieures aux alternatives de l'état de l'art en matière de réalisme visuel, de plausibilité du mouvement et de cohérence multivue.
Les grands modèles de langage (LLM) sont largement utilisés pour des tâches factuelles telles que "Qu'est-ce qui traite l'asthme ?" ou "Quelle est la capitale de la Lettonie ?". Cependant, il reste incertain comment les LLM encodent de manière stable les distinctions entre le vrai, le faux et le ni-vrai-ni-faux dans leurs représentations probabilistes internes. Nous introduisons la stabilité représentationnelle comme la robustesse des représentations de véracité d'un LLM face aux perturbations dans la définition opérationnelle de la vérité. Nous évaluons la stabilité représentationnelle en (i) entraînant une sonde linéaire sur les activations d'un LLM pour séparer les énoncés vrais des non vrais et (ii) en mesurant comment sa frontière de décision apprise se déplace sous des changements d'étiquettes contrôlés. En utilisant les activations de seize modèles open-source et trois domaines factuels, nous comparons deux types d'énoncés neutres. Les premiers sont des assertions de type factuel concernant des entités que nous croyons absentes de toute donnée d'entraînement. Nous appelons ceux-ci des énoncés neutres non familiers. Les seconds sont des affirmations non factuelles tirées de contextes fictionnels bien connus. Nous appelons ceux-ci des énoncés neutres familiers. Les énoncés non familiers induisent les plus grands déplacements de frontière, produisant jusqu'à 40 % de jugements de vérité inversés dans les domaines fragiles (tels que les définitions de mots), tandis que les énoncés fictionnels familiers restent plus cohéremment regroupés et entraînent des changements plus faibles (≤ 8,2 %). Ces résultats suggèrent que la stabilité représentationnelle découle davantage de la familiarité épistémique que de la forme linguistique. Plus largement, notre approge fournit un outil diagnostique pour auditer et entraîner les LLM afin de préserver des assignations de vérité cohérentes sous incertitude sémantique, plutôt que d'optimiser uniquement la précision des sorties.
La détection d'objets camouflés est une tâche émergente et complexe en vision par ordinateur qui consiste à identifier et à segmenter des objets se fondant parfaitement dans leur environnement en raison d'une similarité élevée de couleur, de texture et de taille. Cette tâche est encore compliquée par des conditions de faible luminosité, des occultations partielles, la petite taille des objets, des motifs d'arrière-plan complexes et la présence de multiples objets. Bien que de nombreuses méthodes sophistiquées aient été proposées pour cette tâche, les approches actuelles peinent encore à détecter avec précision les objets camouflés dans des scénarios complexes, particulièrement pour les petits et multiples objets, ce qui indique une marge d'amélioration. Nous proposons un Réseau Récurrent Multi-Échelle qui extrait des caractéristiques multi-échelles via un réseau dorsal de type Pyramid Vision Transformer et les combine via des Unités d'Intégration d'Échelle par Attention spécialisées, permettant une fusion sélective des caractéristiques. Pour une détection d'objets plus précise, notre décodeur affine récursivement les caractéristiques en incorporant des Unités de Fusion Multi-Granularité. Une nouvelle stratégie de décodage par rétroaction récursive est développée pour améliorer la compréhension du contexte global, aidant le modèle à surmonter les défis de cette tâche. En tirant parti conjointement de l'apprentissage multi-échelle et de l'optimisation récursive des caractéristiques, notre méthode proposée obtient des gains de performance, détectant avec succès les petits et multiples objets camouflés. Notre modèle atteint des résultats state-of-the-art sur deux ensembles de données de référence pour la détection d'objets camouflés et se classe deuxième sur les deux autres. Nos codes, poids de modèle et résultats sont disponibles à l'adresse https://github.com/linaagh98/MSRNet.