Articles de recherche IA sélectionnés quotidiennement avec traductions
Le développement des modèles de vision et langage (VLM) a largement reposé sur l'augmentation de la taille des modèles, ce qui entrave leur déploiement sur des appareils mobiles et périphériques à ressources limitées, tels que les smartphones et les robots. Dans ce travail, nous explorons les limites de performance des VLM compacts (par exemple, 2B et 8B). Nous remettons en question la pratique dominante selon laquelle les VLM à la pointe doivent s'appuyer sur des encodeurs visuels initialisés par un pré-entraînement contrastif massif (par exemple, CLIP/SigLIP). Nous identifions un problème d'alignement des objectifs : l'apprentissage contrastif, optimisé pour la discrimination, impose des invariances grossières et catégorielles qui suppriment les indices visuels fins nécessaires au sous-titrage dense et au raisonnement complexe des VLM. Pour résoudre ce problème, nous présentons Penguin-VL, dont l'encodeur visuel est initialisé à partir d'un LLM purement textuel. Nos expériences révèlent que Penguin-Encoder constitue une alternative supérieure au pré-entraînement contrastif traditionnel, permettant une fidélité visuelle et une efficacité des données accrues pour la compréhension multimodale. Sur divers benchmarks d'images et de vidéos, Penguin-VL atteint des performances comparables aux meilleurs VLM (par exemple, Qwen3-VL) en raisonnement mathématique et les dépasse dans des tâches telles que la compréhension de documents, les connaissances visuelles et la compréhension vidéo multi-perspectives. Notamment, ces gains sont obtenus avec une architecture légère, démontrant qu'une meilleure représentation visuelle, plutôt que la mise à l'échelle du modèle, est le principal facteur de performance. Nos ablations montrent que Penguin-Encoder surpasse systématiquement les encodeurs pré-entraînés de manière contrastive, préservant les indices spatiaux et temporels fins qui sont essentiels pour la perception dense et le raisonnement complexe. Cela en fait une alternative de remplacement solide pour les VLM économes en calcul et permet des performances élevées dans des environnements à ressources limitées. Code : https://github.com/tencent-ailab/Penguin-VL
Les contraintes proximales sont fondamentales pour la stabilité de l'apprentissage par renforcement des grands modèles de langage. Bien que le mécanisme canonique de clipping dans PPO serve de substitut efficace aux régions de confiance, nous identifions un goulot d'étranglement critique : les bornes fixes contraignent strictement la marge de mise à jour ascendante des actions à faible probabilité, supprimant de manière disproportionnée les stratégies de queue à fort avantage et induisant un effondrement rapide de l'entropie. Pour résoudre ce problème, nous introduisons l'Optimisation de Politique à Contrainte de Bande (BandPO). BandPO remplace le clipping canonique par Band, un opérateur théorique unifié qui projette les régions de confiance définies par les f-divergences en intervalles de clipping dynamiques et sensibles à la probabilité. L'analyse théorique confirme que Band résout efficacement ce goulot d'étranglement explorationnel. Nous formulons cette projection comme un problème d'optimisation convexe, garantissant une solution numérique globalement optimale tout en dérivant des solutions fermées pour des divergences spécifiques. Des expériences approfondies sur divers modèles et jeux de données démontrent que BandPO surpasse constamment le clipping canonique et Clip-Higher, tout en atténuant robustement l'effondrement de l'entropie.
Les modèles de monde offrent un cadre puissant pour simuler la dynamique de l'environnement conditionnée par des actions ou des instructions, permettant des tâches en aval telles que la planification d'actions ou l'apprentissage de politiques. Les approches récentes exploitent les modèles de monde comme simulateurs appris, mais leur application à la planification au moment de la décision reste prohibitivement coûteuse en calcul pour le contrôle en temps réel. Un goulot d'étranglement majeur réside dans les représentations latentes : les tokeniseurs conventionnels encodent chaque observation en centaines de tokens, rendant la planification à la fois lente et gourmande en ressources. Pour résoudre ce problème, nous proposons CompACT, un tokeniseur discret qui compresse chaque observation en seulement 8 tokens, réduisant considérablement le coût computationnel tout en préservant les informations essentielles à la planification. Un modèle de monde conditionné par l'action utilisant le tokeniseur CompACT atteint des performances de planification compétitives avec une planification plusieurs ordres de grandeur plus rapide, offrant une étape pratique vers le déploiement en conditions réelles des modèles de monde.
La génération de vidéos humaines prêtes pour la production exige que les acteurs numériques maintiennent une identité corporelle strictement cohérente à travers des plans dynamiques, des angles de vue et des mouvements variés, un cadre qui reste difficile pour les méthodes existantes. Les méthodes antérieures souffrent souvent d'un comportement centré sur le visage qui néglige la cohérence au niveau du corps, ou produisent des artefacts de type "copier-coller" où les sujets apparaissent rigides en raison d'un verrouillage de posture. Nous présentons Actor-18M, un jeu de données vidéo humain à grande échelle conçu pour capturer la cohérence identitaire sous des angles de vue et environnements non contraints. Actor-18M comprend 1,6 million de vidéos avec 18 millions d'images humaines correspondantes, couvrant à la fois des vues arbitraires et des représentations canoniques à trois vues. En tirant parti d'Actor-18M, nous proposons WildActor, un cadre pour la génération de vidéos humaines conditionnée par n'importe quel angle de vue. Nous introduisons un mécanisme d'Attention Asymétrique de Préservation de l'Identité couplé à une stratégie d'Échantillonnage de Monte-Carlo Adaptatif au Point de Vue qui pondère itérativement les conditions de référence par l'utilité marginale pour une couverture équilibrée de la variété. Évalué sur le benchmark Actor-Bench proposé, WildActor préserve systématiquement l'identité corporelle sous diverses compositions de plans, de larges transitions de point de vue et des mouvements substantiels, surpassant les méthodes existantes dans ces configurations difficiles.
La surveillance par chaîne de raisonnement (CoT) est un outil prometteur pour détecter les comportements inappropriés et comprendre les motivations des modèles de raisonnement modernes. Cependant, si les modèles peuvent contrôler ce qu'ils verbalisent dans leur CoT, cela pourrait compromettre la surveillabilité des CoT. Pour mesurer cette capacité indésirable — la contrôlabilité des CoT — nous introduisons la suite d'évaluation CoT-Control, qui inclut des tâches nécessitant que les modèles résolvent des problèmes tout en respectant des instructions sur la CoT, par exemple, raisonner sur une question de génétique sans utiliser le mot 'chromosome'. Nous montrons que les modèles de raisonnement possèdent une contrôlabilité des CoT significativement plus faible que la contrôlabilité de leur sortie finale ; par exemple, Claude Sonnet 4.5 ne parvient à contrôler sa CoT que 2,7 % du temps, contre 61,9 % lorsqu'il contrôle sa réponse finale. Nous constatons également que la contrôlabilité des CoT est plus élevée pour les modèles plus grands et diminue avec un entraînement par apprentissage par renforcement plus poussé, une puissance de calcul accrue au moment du test, et une difficulté problématique accrue. Les échecs de contrôlabilité des CoT s'étendent même aux situations où des incitations (par opposition à des demandes directes) sont données aux modèles pour contourner les surveillances des CoT, bien que les modèles présentent une contrôlabilité légèrement plus élevée lorsqu'ils sont informés qu'ils sont surveillés. De même, susciter la contrôlabilité en optimisant de manière antagoniste les invites n'augmente pas significativement la contrôlabilité. Nos résultats nous laissent prudemment optimistes quant au fait que la contrôlabilité des CoT est actuellement peu susceptible de constituer un mode de défaillance de la surveillabilité des CoT. Cependant, le mécanisme sous-jacent à la faible contrôlabilité n'est pas bien compris. Compte tenu de son importance pour maintenir la surveillabilité des CoT, nous recommandons que les laboratoires de pointe suivent l'évolution de la contrôlabilité des CoT dans les futurs modèles.
Les architectures Transformer constituent la colonne vertébrale de la plupart des grands modèles de langage modernes, c'est pourquoi leur stabilité lors du pré-entraînement et leur vitesse de convergence sont des préoccupations centrales. Motivés par la dépendance logique des couches empilées séquentiellement, nous proposons le Progressive Residual Warmup (ProRes) pour le pré-entraînement des modèles de langage. ProRes met en œuvre une philosophie « les premières couches apprennent en premier » en multipliant la connexion résiduelle de chaque couche par un scalaire qui augmente progressivement de 0 à 1, les couches plus profondes nécessitant plus d'étapes de mise en route. Ainsi, les couches profondes attendent que les premières couches se stabilisent avant de contribuer à l'apprentissage. Nous démontrons l'efficacité de ProRes grâce à des expériences de pré-entraînement sur diverses échelles de modèles, ainsi que sur différents schémas de normalisation et d'initialisation. Une analyse approfondie montre que ProRes stabilise non seulement le pré-entraînement, mais introduit également une trajectoire d'optimisation unique, conduisant à une convergence plus rapide, une meilleure généralisation et de meilleures performances en aval. Notre code est disponible à l'adresse https://github.com/dandingsky/ProRes.
La mémoire est essentielle pour la manipulation robotique à long terme et dépendante de l'historique. Ces tâches impliquent souvent de compter des actions répétées ou de manipuler des objets temporairement occultés. Les modèles vision-langage-action (VLA) récents ont commencé à intégrer des mécanismes de mémoire ; cependant, leurs évaluations restent confinées à des cadres étroits et non standardisés. Cela limite leur compréhension systématique, leur comparaison et la mesure des progrès. Pour relever ces défis, nous présentons RoboMME : un benchmark standardisé à grande échelle pour évaluer et faire progresser les modèles VLA dans des scénarios à long terme et dépendants de l'historique. Notre benchmark comprend 16 tâches de manipulation construites selon une taxonomie soigneusement conçue qui évalue la mémoire temporelle, spatiale, objective et procédurale. Nous développons en outre une suite de 14 variantes VLA augmentées par la mémoire, basées sur l'architecture π0.5, pour explorer systématiquement différentes représentations mémorielles à travers de multiples stratégies d'intégration. Les résultats expérimentaux montrent que l'efficacité des représentations mémorielles est fortement dépendante de la tâche, chaque conception offrant des avantages et des limitations distincts selon les tâches. Les vidéos et le code sont disponibles sur notre site https://robomme.github.io.
Les Transformers de Diffusion traitent les images comme des séquences de tokens de longueur fixe produites par une opération statique de mise en patch. Bien qu'efficace, cette conception applique un calcul uniforme sur les régions à faible et haute information, ignorant que les images contiennent des régions de détails variables et que le processus de débruitage évolue d'une structure grossière aux premiers pas de temps vers des détails fins aux derniers pas de temps. Nous présentons le *Dynamic Chunking Diffusion Transformer* (DC-DiT), qui augmente l'architecture DiT de base avec un échafaudage encodeur-routeur-décodeur appris, comprimant adaptativement l'entrée 2D en une séquence de tokens plus courte de manière dépendante des données, via un mécanisme de regroupement (*chunking*) appris de bout en bout avec l'entraînement par diffusion. Le mécanisme apprend à compresser les régions d'arrière-plan uniformes en moins de tokens et les régions riches en détails en plus de tokens, des segmentations visuelles significatives émergeant sans supervision explicite. De plus, il apprend aussi à adapter sa compression au cours des pas de temps de diffusion, utilisant moins de tokens aux étapes bruyantes et plus de tokens à mesure que les détails fins apparaissent. Sur ImageNet 256×256 conditionné par classe, DC-DiT améliore constamment le FID et l'Inception Score par rapport aux lignes de base DiT, à nombre de paramètres égal et à nombre de FLOPs égal, pour des compressions de 4× et 16×, montrant qu'il s'agit d'une technique prometteuse avec des applications potentielles étendues à la génération dans l'espace pixel, vidéo et 3D. Au-delà de la précision, DC-DiT est pratique : il peut être recyclé à partir de checkpoints DiT pré-entraînés avec un calcul post-entraînement minimal (jusqu'à 8× moins d'étapes d'entraînement) et se combine avec d'autres méthodes de calcul dynamique pour réduire davantage les FLOPs de génération.
Les récents progrès en génération vidéo par diffusion ont atteint un réalisme visuel remarquable mais peinent encore à respecter les lois physiques fondamentales telles que la gravité, l'inertie et les collisions. Les objets générés se déplacent souvent de manière incohérente entre les images, présentent une dynamique peu plausible ou violent les contraintes physiques, limitant ainsi le réalisme et la fiabilité des vidéos générées par IA. Nous comblons cette lacune en introduisant PSIVG (Physical Simulator In-the-loop Video Generation), un cadre novateur qui intègre un simulateur physique dans le processus de diffusion vidéo. En partant d'une vidéo modèle générée par un modèle de diffusion pré-entraîné, PSIVG reconstruit la scène 4D et les maillages des objets au premier plan, les initialise dans un simulateur physique et génère des trajectoires physiquement cohérentes. Ces trajectoires simulées sont ensuite utilisées pour guider le générateur vidéo vers un mouvement spatio-temporellement cohérent sur le plan physique. Pour améliorer davantage la cohérence texturale durant le mouvement des objets, nous proposons une technique d'optimisation de cohérence texturale en temps de test (TTCO) qui adapte les embeddings textuels et de caractéristiques basés sur les correspondances pixel du simulateur. Des expériences approfondies démontrent que PSIVG produit des vidéos qui adhèrent mieux à la physique du monde réel tout en préservant la qualité visuelle et la diversité. Page du projet : https://vcai.mpi-inf.mpg.de/projects/PSIVG/
Les récentes avancées des grands modèles de langage (LLM) ont ouvert de nouvelles voies pour le raisonnement multimodal. Cependant, la plupart des méthodes existantes reposent encore sur des modèles vision-langage (VLM) pré-entraînés pour encoder des paires image-texte de manière isolée, ignorant la structure relationnelle que forment naturellement les données multimodales du monde réel. Ce constat motive le raisonnement sur des graphes multimodaux (MMG), où chaque nœud possède des attributs textuels et visuels et où les arêtes fournissent des indices structurels. Permettre un raisonnement basé sur les LLM à partir de ces signaux multimodaux hétérogènes tout en préservant la topologie du graphe introduit deux défis majeurs : résoudre la faible cohérence intermodale et gérer la préférence de modalité hétérogène. Pour y remédier, nous proposons Mario, un cadre unifié qui résout simultanément ces deux défis et permet un raisonnement efficace basé sur les LLM sur les MMG. Mario se compose de deux étapes innovantes. Premièrement, une conception de VLM conditionné par le graphe qui affine conjointement les caractéristiques textuelles et visuelles via un apprentissage contrastif intermodal à grain fin guidé par la topologie du graphe. Deuxièmement, un mécanisme d'ajustement par instruction graphique adaptatif aux modalités qui organise les caractéristiques multimodales alignées en vues d'instruction sensibles au graphe et utilise un routeur apprenant pour présenter au LLM, pour chaque nœud et son voisinage, la configuration de modalité la plus informative. Des expériences approfondies sur divers benchmarks de MMG démontrent que Mario surpasse constamment les modèles de graphes de l'état de l'art dans des scénarios supervisés et zero-shot pour la classification de nœuds et la prédiction de liens. Le code sera disponible à l'adresse https://github.com/sunyuanfu/Mario.
Les agents LLM séquentiels échouent dans la planification à long terme avec des contraintes strictes comme les budgets et les exigences de diversité. Au fur et à mesure que la planification progresse et que le contexte s'étend, ces agents s'éloignent des contraintes globales. Nous proposons HiMAP-Travel, un cadre hiérarchique multi-agents qui divise la planification en une coordination stratégique et une exécution parallèle au niveau des jours. Un Coordinateur alloue les ressources sur les jours, tandis que des Exécuteurs Journaliers planifient indépendamment en parallèle. Trois mécanismes clés permettent cela : un moniteur transactionnel appliquant les contraintes budgétaires et d'unicité entre les agents parallèles, un protocole de négociation permettant aux agents de rejeter des sous-objectifs irréalisables et de déclencher une re-planification, et une politique unique entraînée avec GRPO qui alimente tous les agents via un conditionnement par rôle. Sur TravelPlanner, HiMAP-Travel avec Qwen3-8B atteint un Taux de Réussite Final (FPR) de 52,78% en validation et 52,65% en test. Dans une comparaison contrôlée avec le même modèle, le même entraînement et les mêmes outils, il surpasse la baseline séquentielle DeepTravel de +8,67 points de pourcentage. Il surpasse également ATLAS de +17,65 pp et MTP de +10,0 pp. Sur les scénarios multi-tours de FlexTravelBench, il atteint un FPR de 44,34% (2 tours) et 37,42% (3 tours) tout en réduisant la latence d'un facteur 2,5 grâce au parallélisme.
Les effets visuels (VFX) sont essentiels pour renforcer l'expressivité et la créativité des contenus vidéo, mais la production d'effets de haute qualité nécessite généralement des connaissances expertes et des chaînes de production coûteuses. Les systèmes AIGC existants rencontrent des défis significatifs dans la génération de VFX en raison de la rareté des données spécifiques aux effets et de la difficulté inhérente à modéliser des effets surnaturels ou stylisés. De plus, ces approches nécessitent souvent un ajustement fin par effet, ce qui limite considérablement leur évolutivité et leur généralisation à de nouveaux VFX. Dans ce travail, nous présentons EffectMaker, un cadre unifié de raisonnement-génération qui permet la personnalisation de VFX basée sur une référence. EffectMaker utilise un modèle de langage multimodal pour interpréter la sémantique de haut niveau des effets et raisonner sur la manière dont ils devraient s'adapter à un sujet cible, tandis qu'un transformeur de diffusion exploite l'apprentissage en contexte pour capturer des indices visuels fins à partir de vidéos de référence. Ces deux composants forment un mécanisme de guidage double voie sémantique-visuelle qui permet une synthèse précise, contrôlable et cohérente avec l'effet, sans ajustement fin par effet. Par ailleurs, nous avons constitué EffectData, le plus grand ensemble de données synthétiques de haute qualité contenant 130 000 vidéos couvrant 3 000 catégories de VFX, pour améliorer la généralisation et l'évolutivité. Les expériences montrent qu'EffectMaker atteint une qualité visuelle et une cohérence des effets supérieures aux meilleures méthodes de référence, offrant un paradigme évolutif et flexible pour la génération personnalisée de VFX. Page du projet : https://effectmaker.github.io
Les modèles vision-langage-action (VLA) à base de flux excellent dans le contrôle embodié mais souffrent de vraisemblances intraçables lors de l'échantillonnage multi-étapes, entravant l'apprentissage par renforcement en ligne. Nous proposons \textit{boldsymbolπ-StepNFT} (Fine-Tuning Négatif par Étapes), un cadre sans critique ni vraisemblance qui ne nécessite qu'un seul passage avant par étape d'optimisation et élimine les réseaux de valeur auxiliaires. Nous identifions que des espaces d'exploration plus larges exigent un guidage plus fin, étape par étape, pour l'alignement. Empiriquement, π-StepNFT débloque un potentiel latent sur LIBERO avec une robustesse compétitive en few-shot. De plus, il atteint une généralisation supérieure sur ManiSkill, surpassant les méthodes basées sur la valeur dans des scénarios hors-distribution en évitant le surajustement aux caractéristiques multimodales. Cette propriété offre une solution scalable prometteuse pour les applications complexes du monde réel.
La modélisation de longs contextes est une capacité essentielle pour les grands modèles de langage, mais la complexité quadratique de l'attention reste un goulot d'étranglement critique, particulièrement durant la phase de préremplissage intensive en calcul. Bien que divers mécanismes d'attention éparse aient été explorés, ils souffrent généralement d'une latence de recherche significative ou d'une parcimonie insuffisante. Dans cet article, nous proposons FlashPrefill, un cadre permettant un préremplissage ultra-rapide via la découverte instantanée de motifs et un seuillage dynamique. FlashPrefill exploite une technique de recherche rapide par blocs pour localiser simultanément des motifs d'attention dynamiques verticaux, en diagonale et par blocs épars. Surtout, il introduit un mécanisme de seuillage dynamique qui contourne la surcharge prohibitive du tri ou de l'accumulation des scores d'attention tout en éliminant efficacement la distribution à queue longue pour améliorer la parcimonie. Des évaluations approfondies démontrent que FlashPrefill réalise un bond substantiel en efficacité, offrant une accélération inédite de 27,78x sur des séquences de 256K. Fait notable, contrairement aux méthodes existantes qui subissent une dégradation d'efficacité sur des contextes plus courts, FlashPrefill maintient une accélération de 1,71x même pour une longueur de contexte de 4K, démontrant sa robustesse et son utilité pratique à différentes échelles de séquences.
La croissance rapide des grands modèles de langage (LLM) aux capacités, coûts et domaines d'application diversifiés a créé un besoin crucial de sélection intelligente des modèles au moment de l'inférence. Si les modèles plus petits suffisent pour les requêtes courantes, les tâches complexes exigent des modèles plus performants. Cependant, le déploiement statique de modèles ne tient pas compte de la complexité et du domaine des requêtes entrantes, ce qui entraîne des performances sous-optimales et des coûts accrus. Les systèmes de routage dynamique qui sélectionnent adaptativement les modèles en fonction des caractéristiques des requêtes sont apparus comme une solution à ce défi. Nous proposons une analyse systématique des approches de routage et de mise en cascade multi-LLM les plus avancées. Contrairement aux architectures de type *mixture-of-experts* qui opèrent un routage au sein d'un seul modèle, nous étudions le routage entre plusieurs LLM entraînés indépendamment. Nous couvrons divers paradigmes de routage, incluant la difficulté des requêtes, les préférences humaines, le clustering, la quantification de l'incertitude, l'apprentissage par renforcement, la multimodalité et la mise en cascade. Pour chaque paradigme, nous analysons les méthodes représentatives et examinons les compromis clés. Au-delà de la taxonomie, nous introduisons un cadre conceptuel caractérisant les systèmes de routage selon trois dimensions : le moment où les décisions sont prises, les informations utilisées et la manière dont elles sont calculées. Cette perspective souligne que les systèmes pratiques sont souvent compositionnels, intégrant multiples paradigmes sous contraintes opérationnelles. Notre analyse démontre qu'un routage multi-LLM efficace nécessite un équilibre entre des objectifs concurrents. Le choix de la stratégie de routage optimale dépend des contraintes de déploiement et de calcul. Les systèmes de routage bien conçus peuvent surpasser même les modèles individuels les plus puissants en exploitant stratégiquement les capacités spécialisées réparties entre les modèles tout en maximisant les gains d'efficacité. Parallèlement, des défis persistent dans le développement de mécanismes de routage généralisables à travers diverses architectures, modalités et applications.
La génération de présentations nécessite une recherche approfondie du contenu, une conception visuelle cohérente et un affinage itératif basé sur l'observation. Cependant, les agents de présentation existants reposent souvent sur des flux de travail prédéfinis et des modèles fixes. Pour résoudre ce problème, nous présentons DeepPresenter, un cadre agentique qui s'adapte aux diverses intentions des utilisateurs, permet un affinage efficace guidé par les retours et généralise au-delà d'un pipeline scripté. Plus précisément, DeepPresenter planifie, rend et révise de manière autonome les artefacts intermédiaires des diapositives pour soutenir un affinage à long terme avec des observations environnementales. De plus, plutôt que de s'appuyer sur l'auto-réflexion à partir de signaux internes (par exemple, les traces de raisonnement), notre réflexion ancrée dans l'environnement conditionne le processus de génération sur les états perceptuels des artefacts (par exemple, les diapositives rendues), permettant au système d'identifier et de corriger les problèmes spécifiques à la présentation lors de l'exécution. Les résultats sur l'ensemble d'évaluation couvrant divers scénarios de génération de présentations montrent que DeepPresenter atteint des performances de pointe, et le modèle finetuné de 9 milliards de paramètres reste très compétitif à un coût substantiellement inférieur. Notre projet est disponible à l'adresse : https://github.com/icip-cas/PPTAgent
Les modèles du monde basés sur la diffusion ont montré un fort potentiel pour la simulation unifiée de l'environnement, mais le débruitage itératif reste trop coûteux pour une utilisation interactive et des simulations à long terme. Bien que la mise en cache des caractéristiques puisse accélérer l'inférence sans entraînement, nous constatons que les politiques conçues pour une diffusion unimodale se transfèrent mal aux modèles du monde en raison de deux obstacles spécifiques : l'hétérogénéité des tokens due au couplage multimodal et à la variation spatiale, et la dynamique temporelle non uniforme où un petit ensemble de tokens difficiles entraîne la croissance des erreurs, rendant le saut uniforme soit instable, soit trop conservateur. Nous proposons WorldCache, un cadre de mise en cache adapté aux modèles du monde par diffusion. Nous introduisons la Prédiction Hétérogène de Tokens Guidée par la Courbure, qui utilise un score de courbure fondé sur la physique pour estimer la prévisibilité des tokens et applique un prédicteur amorti guidé par Hermite pour les tokens chaotiques présentant des changements de direction abrupts. Nous concevons également un Saut Adaptatif Prioritariant le Chaos, qui accumule un signal de dérive adimensionnel normalisé par la courbure et ne recalcule que lorsque les tokens goulots d'étranglement commencent à dériver. Les expériences sur les modèles du monde par diffusion montrent que WorldCache offre des accélérations de bout en bout allant jusqu'à 3,7 fois tout en maintenant 98 % de la qualité des simulations, démontrant les avantages considérables et la praticabilité de WorldCache dans des scénarios à ressources limitées. Notre code est disponible sur https://github.com/FofGofx/WorldCache.
La Conception Assistée par Ordinateur (CAO) repose sur des représentations géométriques structurées et modifiables, mais les méthodes génératives existantes sont limitées par de petits ensembles de données annotées avec des historiques de conception explicites ou des étiquettes de représentation frontalière (BRep). Pendant ce temps, des millions de maillages 3D non annotés restent inexploités, freinant les progrès dans la génération de CAO évolutive. Pour résoudre ce problème, nous proposons DreamCAD, un cadre génératif multimodal qui produit directement des BRep modifiables à partir d'une supervision au niveau des points, sans annotations spécifiques à la CAO. DreamCAD représente chaque BRep comme un ensemble de patches paramétriques (par exemple, des surfaces de Bézier) et utilise une méthode de tessellation différentiable pour générer des maillages. Cela permet un entraînement à grande échelle sur des ensembles de données 3D tout en reconstruisant des surfaces connectées et modifiables. De plus, nous présentons CADCap-1M, le plus grand ensemble de données d'étiquetage de CAO à ce jour, avec plus d'un million de descriptions générées à l'aide de GPT-5 pour faire avancer la recherche en texte-vers-CAO. DreamCAD obtient des performances de pointe sur les benchmarks ABC et Objaverse pour les modalités texte, image et point, améliorant la fidélité géométrique et dépassant 75% de préférence utilisateur. Le code et l'ensemble de données seront rendus publics.
Les agents conversationnels sont de plus en plus déployés dans des contextes à forte intensité de connaissances, où un comportement correct dépend de la capacité à récupérer et à appliquer des connaissances spécifiques à un domaine à partir de vastes corpus non structurés et propriétaires, et ce, lors d'interactions en direct avec les utilisateurs. Pourtant, la plupart des benchmarks existants évaluent la recherche d'information ou l'utilisation d'outils de manière indépendante, créant ainsi un fossé dans l'évaluation réaliste et pleinement agentielle sur des données non structurées lors d'interactions de long terme. Nous présentons τ-Knowledge, une extension de τ-Bench conçue pour évaluer les agents dans des environnements où la réussite dépend de la coordination entre des connaissances externes en langage naturel et les résultats d'outils, afin de produire des modifications d'état vérifiables et conformes aux politiques. Notre nouveau domaine, τ-Banking, modélise des flux de travail réalistes de support client dans la fintech, où les agents doivent naviguer parmi environ 700 documents de connaissances interconnectés tout en exécutant des mises à jour de compte via des outils. Qu'il s'agisse de la récupération par embeddings ou de la recherche par terminal, même les modèles les plus avancés, dotés de budgets de raisonnement élevés, n'atteignent qu'un taux de réussite d'environ 25,5 %¹, avec une fiabilité qui se dégrade fortement sur des essais répétés. Les agents peinent à récupérer les documents corrects dans des bases de connaissances densément liées et à raisonner avec précision sur des politiques internes complexes. Dans l'ensemble, τ-Knowledge offre un banc d'essai réaliste pour développer des agents capables d'intégrer des connaissances non structurées dans des déploiements destinés à interagir avec des humains.
L'entraînement de solveurs d'EDP par réseaux de neurones est souvent limité par le coût élevé de la génération de données ou par l'instabilité des méthodes basées sur la physique (PINN), qui impliquent des paysages d'optimisation difficiles en raison des dérivées d'ordre supérieur. Pour résoudre ce problème, nous proposons une approche alternative utilisant des méthodes de Monte Carlo pour estimer la solution de l'EDP comme un processus stochastique, servant de supervision faible pendant l'entraînement. En tirant parti de la méthode de marche sur les sphères, nous introduisons un schéma d'apprentissage appelé Opérateur Neuronal par Marche sur les Sphères (WoS-NO) qui utilise la supervision faible issue de la WoS pour entraîner n'importe quel opérateur neuronal donné. Nous proposons d'amortir le coût des marches de Monte Carlo sur la distribution des instances d'EDP en utilisant les représentations stochastiques de l'algorithme WoS pour générer des estimations peu coûteuses et bruitées de la solution de l'EDP pendant l'entraînement. Ceci est formulé en un objectif basé sur la physique et sans données, où un opérateur neuronal est entraîné à effectuer une régression par rapport à ces supervisions faibles, permettant à l'opérateur d'apprendre une carte de solution généralisée pour une famille entière d'EDP. Cette stratégie ne nécessite pas de jeux de données pré-calculés coûteux, évite le calcul de dérivées d'ordre supérieur pour les fonctions de perte qui sont gourmandes en mémoire et instables, et démontre une généralisation à zéro-shot pour de nouveaux paramètres et domaines d'EDP. Les expériences montrent que pour le même nombre d'étapes d'entraînement, notre méthode présente une amélioration allant jusqu'à 8,75 fois de l'erreur L₂ par rapport aux schémas d'entraînement standard basés sur la physique, une amélioration allant jusqu'à 6,31 fois de la vitesse d'entraînement, et des réductions allant jusqu'à 2,97 fois de la consommation de mémoire GPU. Nous présentons le code à l'adresse https://github.com/neuraloperator/WoS-NO.
L'augmentation de la capacité de calcul lors de l'inférence pour les grands modèles de langage (LLM) a débloqué des capacités de raisonnement sans précédent. Cependant, les méthodes existantes de mise à l'échelle à l'inférence reposent généralement sur des algorithmes de recherche discrets inefficaces et sous-optimaux ou sur des sollicitations par essais et erreurs pour améliorer la politique en ligne. Dans cet article, nous proposons nabla-Reasoner, un cadre de génération itératif qui intègre une optimisation différentiable sur les logits des tokens dans la boucle de décodage pour affiner la politique à la volée. Notre composant principal, l'Optimisation Textuelle Différentiable (DTO), exploite les signaux de gradient provenant à la fois de la vraisemblance du LLM et d'un modèle de récompense pour affiner les représentations textuelles. nabla-Reasoner intègre en outre un échantillonnage de rejet et une conception accélérée pour robustifier et accélérer le décodage. Théoriquement, nous montrons que effectuer une descente de gradient à l'inférence dans l'espace des échantillons pour maximiser la récompense est dual à l'alignement d'une politique de LLM via un apprentissage par renforcement régularisé par la divergence KL. Empiriquement, nabla-Reasoner permet une amélioration de la précision de plus de 20 % sur un benchmark de raisonnement mathématique difficile, tout en réduisant le nombre d'appels au modèle d'environ 10 à 40 % par rapport à des bases de référence solides. Dans l'ensemble, notre travail introduit un changement de paradigme, passant d'une recherche d'ordre zéro à une optimisation de premier ordre au moment du test, offrant ainsi une voie rentable pour amplifier le raisonnement des LLM.
L'optimisation de politique relative au groupe (GRPO) est très efficace pour les modèles de langage autorégressifs (AR) après leur entraînement, mais son application directe aux grands modèles de langage par diffusion (dLLM) déclenche souvent un effondrement de la récompense. Nous identifions deux sources d'incompatibilité. Premièrement, GRPO repose sur des ratios d'importance définis par les probabilités des séquences, qui sont intraçables dans les dLLM et doivent être estimés (par exemple, via des proxys de vraisemblance basés sur l'ELBO ou par champ moyen), produisant des ratios intrinsèquement bruités. Deuxièmement, la formulation standard de GRPO n'est pas conçue pour des ratios estimés : son seuillage conditionnel peut être anormalement contourné par un bruit d'estimation indépendant du modèle, générant des pics de gradient, tandis que sa normalisation à taille de groupe fixe amplifie les fluctuations d'amplitude du gradient sous des estimations de ratio à haute variance. Nous montrons que ces effets forment une boucle d'instabilité auto-renforçante qui entraîne une dérive de la politique et augmente encore la variance des ratios. Pour briser cette boucle, nous proposons StableDRL, une reformulation de GRPO adaptée aux dLLM qui utilise (i) un seuillage inconditionnel pour supprimer les pics induits par les valeurs aberrantes et (ii) une auto-normalisation pour contraindre les mises à jour dans l'enveloppe convexe des gradients par échantillon. Nous étendons en outre StableDRL aux modèles de diffusion par blocs via un mécanisme d'attention en escalier.
Les grands modèles de langage produisent parfois des réponses erronées ou trompeuses. Deux approches existent pour résoudre ce problème : l'élicitation de l'honnêteté (modifier les prompts ou les poids pour que le modèle réponde véridiquement) et la détection de mensonges (classifier si une réponse donnée est fausse). Les travaux antérieurs évaluent ces méthodes sur des modèles spécifiquement entraînés à mentir ou à dissimuler des informations, mais ces constructions artificielles peuvent différer de la malhonnêteté naturelle. Nous étudions plutôt des LLM à poids ouverts développés par des acteurs chinois, conçus pour censurer les sujets politiquement sensibles : les modèles Qwen3 produisent fréquemment des faussetés concernant des sujets comme Falun Gong ou les protestations de Tiananmen, tout en répondant correctement occasionnellement, ce qui indique qu'ils possèdent des connaissances qu'ils sont entraînés à supprimer. Utilisant cela comme banc d'essai, nous évaluons une série de techniques d'élicitation et de détection de mensonges. Pour l'élicitation de l'honnêteté, l'échantillonnage sans template de chat, le prompting few-shot et le fine-tuning sur des données génériques d'honnêteté augmentent le plus fièrement les réponses véridiques. Pour la détection de mensonges, demander au modèle censuré de classifier ses propres réponses atteint des performances proches d'une borne supérieure établie par un modèle non censuré, et les sondes linéaires entraînées sur des données non liées offrent une alternative moins coûteuse. Les techniques d'élicitation les plus efficaces se transfèrent également à des modèles à la pointe comme DeepSeek R1. Notamment, aucune technique n'élimine complètement les réponses fausses. Nous rendons publics tous les prompts, codes et transcriptions.
Nous présentons PixARMesh, une méthode permettant de reconstruire de manière autorégressive des maillages 3D complets de scènes intérieures directement à partir d'une seule image RVB. Contrairement aux méthodes antérieures qui reposent sur des champs de distance signée implicites et une optimisation a posteriori de la disposition, PixARMesh prédit conjointement la disposition des objets et la géométrie au sein d'un modèle unifié, produisant des maillages cohérents et prêts à l'emploi pour des artistes en une seule passe avant. En nous appuyant sur les récentes avancées des modèles génératifs de maillages, nous augmentons un encodeur de nuage de points avec des caractéristiques d'image alignées sur les pixels et un contexte global de scène via une attention croisée, permettant un raisonnement spatial précis à partir d'une seule image. Les scènes sont générées de manière autorégressive à partir d'un flux de jetons unifié contenant le contexte, la pose et le maillage, produisant des maillages compacts avec une géométrie haute fidélité. Les expériences sur des ensembles de données synthétiques et réelles montrent que PixARMesh atteint une qualité de reconstruction à la pointe tout en produisant des maillages légers et de haute qualité, prêts pour des applications en aval.
L'apprentissage par renforcement hors ligne conditionné par objectifs (GCRL) apprend des politiques conditionnées par des objectifs à partir de jeux de données statiques pré-collectés. Cependant, l'estimation précise de la valeur reste un défi en raison de la couverture limitée de l'espace d'état-action. Des approches récentes intégrant des connaissances physiques ont cherché à résoudre ce problème en imposant des contraintes physiques et géométriques à la fonction de valeur via une régularisation définie sur des équations aux dérivées partielles (EDP) du premier ordre, telles que l'équation d'Eikonal. Cependant, ces formulations peuvent souvent être mal posées dans des environnements complexes et de haute dimension. Dans ce travail, nous proposons une régularisation informée par la physique, dérivée de la solution de viscosité de l'équation de Hamilton-Jacobi-Bellman (HJB). En fournissant un biais inductif basé sur la physique, notre approche ancre le processus d'apprentissage dans la théorie du contrôle optimal, régularisant et bornant explicitement les mises à jour durant les itérations sur la valeur. De plus, nous exploitons le théorème de Feynman-Kac pour reformuler la solution de l'EDP comme une espérance, permettant une estimation Monte Carlo traitable de l'objectif qui évite l'instabilité numérique dans les gradients d'ordre supérieur. Les expériences démontrent que notre méthode améliore la cohérence géométrique, la rendant largement applicable à la navigation et à des tâches de manipulation complexes et de haute dimension. Les codes sources sont disponibles à l'adresse https://github.com/HrishikeshVish/phys-fk-value-GCRL.
La restauration d'image sous diverses dégradations reste difficile pour les frameworks unifiés tout-en-un en raison des interférences de caractéristiques et de l'insuffisance de spécialisation des experts. Nous proposons SLER-IR, un framework de routage expert par couches sphériques qui active dynamiquement des experts spécialisés à travers les couches du réseau. Pour assurer un routage fiable, nous introduisons un Embedding de Dégradation Sphérique Uniforme avec apprentissage par contraste, qui projette les représentations de dégradation sur une hypersphère pour éliminer le biais géométrique des espaces d'embedding linéaires. De plus, un module de Fusion de Granularité Globale-Locale (GLGF) intègre la sémantique globale et les indices de dégradation locaux pour traiter les dégradations spatialement non uniformes et l'écart de granularité entraînement-test. Les expériences sur des benchmarks à trois et cinq tâches démontrent que SLER-IR obtient des améliorations constantes par rapport aux méthodes state-of-the-art en PSNR et SSIM. Le code et les modèles seront publiés publiquement.
La spécification de l'espace d'action joue un rôle central dans l'apprentissage de politiques de manipulation robotique par imitation, façonnant fondamentalement le paysage d'optimisation de l'apprentissage des politiques. Alors que les récents progrès se sont concentrés sur l'augmentation des données d'entraînement et de la capacité des modèles, le choix de l'espace d'action reste guidé par des heuristiques ad hoc ou des conceptions héritées, conduisant à une compréhension ambiguë des philosophies de conception des politiques robotiques. Pour résoudre cette ambiguïté, nous avons mené une étude empirique systématique à grande échelle, confirmant que l'espace d'action a bien des impacts significatifs et complexes sur l'apprentissage des politiques robotiques. Nous disséquons l'espace de conception de l'action selon des axes temporels et spatiaux, facilitant une analyse structurée de la manière dont ces choix régissent à la fois l'apprenabilité de la politique et la stabilité du contrôle. Sur la base de plus de 13 000 déploiements dans le monde réel sur un robot bimanuel et de l'évaluation de plus de 500 modèles entraînés sur quatre scénarios, nous examinons les compromis entre les représentations absolues et delta, et les paramétrisations dans l'espace des articulations et dans l'espace de tâche. Nos résultats à grande échelle suggèrent qu'une conception appropriée de la politique pour prédire des actions delta améliore constamment les performances, tandis que les représentations dans l'espace des articulations et dans l'espace de tâche offrent des avantages complémentaires, favorisant respectivement la stabilité du contrôle et la généralisation.
Le suivi d'instructions est une capacité fondamentale des grands modèles de langage (LLM), dont l'amélioration dépend de retours d'évaluation évolutifs et précis provenant de modèles évaluateurs. Cependant, la fiabilité des modèles évaluateurs actuels pour le suivi d'instructions reste insuffisamment explorée en raison de plusieurs lacunes des benchmarks de méta-évaluation existants, telles que leur couverture de données insuffisante et leurs paradigmes d'évaluation par paires trop simplistes qui ne correspondent pas aux scénarios d'optimisation des modèles. Pour pallier cela, nous proposons IF-RewardBench, un benchmark complet de méta-évaluation pour le suivi d'instructions couvrant divers types d'instructions et de contraintes. Pour chaque instruction, nous construisons un graphe de préférences contenant toutes les préférences par paires entre plusieurs réponses, basées sur la qualité du suivi d'instructions. Cette conception permet un paradigme d'évaluation par liste qui évalue la capacité des modèles évaluateurs à classer plusieurs réponses, ce qui est essentiel pour guider l'alignement des modèles. Des expériences approfondies sur IF-RewardBench révèlent des déficiences significatives dans les modèles évaluateurs actuels et démontrent que notre benchmark atteint une corrélation positive plus forte avec les performances en aval que les benchmarks existants. Nos codes et données sont disponibles à l'adresse https://github.com/thu-coai/IF-RewardBench.
Il est bien connu que le FID de reconstruction (rFID) d'un VAE est faiblement corrélé avec le FID de génération (gFID) d'un modèle de diffusion latent. Nous proposons le FID interpolé (iFID), une variante simple du rFID qui présente une forte corrélation avec le gFID. Concrètement, pour chaque élément de l'ensemble de données, nous récupérons son plus proche voisin (NN) dans l'espace latent et interpolons leurs représentations latentes. Nous décodons ensuite le latent interpolé et calculons le FID entre les échantillons décodés et l'ensemble de données original. De plus, nous affinons l'affirmation selon laquelle le rFID est faiblement corrélé au gFID, en montrant que le rFID est corrélé à la qualité des échantillons dans la phase de raffinement par diffusion, tandis que l'iFID est corrélé à la qualité des échantillons dans la phase de navigation par diffusion. Par ailleurs, nous expliquons pourquoi l'iFID est bien corrélé au gFID, et pourquoi les métriques de reconstruction sont négativement corrélées au gFID, en établissant un lien avec des résultats sur la généralisation et l'hallucination dans les modèles de diffusion. Empiriquement, l'iFID est la première métrique à démontrer une forte corrélation avec le gFID de diffusion, atteignant des corrélations linéaires de Pearson et des corrélations de rang de Spearman d'environ 0,85. Le code source est disponible à l'adresse https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
Exploiter pleinement le potentiel des documents visuellement riches nécessite des systèmes de recherche capables de comprendre non seulement le texte, mais aussi les mises en page complexes, un défi fondamental dans la Recherche Visuelle de Documents (RVD). Les architectures multi-vecteurs prédominantes, bien que puissantes, rencontrent un goulot d'étranglement crucial lié au stockage que les stratégies d'optimisation actuelles, telles que la fusion d'incorporations, l'élagage ou l'utilisation de jetons abstraits, ne parviennent pas à résoudre sans compromettre les performances ou ignorer des indices de mise en page essentiels. Pour y remédier, nous présentons ColParse, un nouveau paradigme qui utilise un modèle d'analyse de document pour générer un petit ensemble d'incorporations de sous-images informées par la mise en page, qui sont ensuite fusionnées avec un vecteur global au niveau de la page pour créer une représentation multi-vecteurs compacte et structurellement consciente. Des expériences approfondies démontrent que notre méthode réduit les besoins de stockage de plus de 95 % tout en générant simultanément des gains de performance significatifs sur de nombreux benchmarks et modèles de base. ColParse comble ainsi le fossé critique entre la précision granulaire de la recherche multi-vecteurs et les exigences pratiques du déploiement à grande échelle, ouvrant une nouvelle voie vers des systèmes d'information multimodaux efficaces et interprétables.
Des études récentes ont observé que les couches intermédiaires des modèles de fondation produisent souvent des représentations plus discriminantes que la couche finale. Bien que ce phénomène ait été initialement attribué au pré-entraînement autorégressif, il a également été identifié dans des modèles entraînés via des objectifs supervisés et d’auto-supervision discriminative. Dans cet article, nous menons une étude approfondie pour analyser le comportement des couches intermédiaires dans les transformeurs de vision pré-entraînés. Grâce à des expériences étendues de sondage linéaire sur un ensemble varié de benchmarks de classification d’images, nous constatons que le décalage de distribution entre les données de pré-entraînement et les données en aval est la cause principale de la dégradation des performances dans les couches plus profondes. De plus, nous réalisons une analyse fine au niveau des modules. Nos résultats révèlent que le sondage standard des sorties des blocs transformeurs est sous-optimal ; en revanche, sonder l’activation au sein du réseau feedforward donne les meilleures performances en cas de décalage de distribution important, tandis que la sortie normalisée du module d’auto-attention multi-têtes est optimale lorsque le décalage est faible.