papers.description
La demande croissante de données de haute qualité pour les grands modèles de langage (LLM) a intensifié le besoin de pipelines de préparation des données évolutifs, fiables et sémantiquement riches. Cependant, les pratiques actuelles restent dominées par des scripts ad hoc et des workflows faiblement spécifiés, qui manquent d'abstractions principiées, entravent la reproductibilité et offrent un support limité pour la génération de données avec un modèle en boucle. Pour relever ces défis, nous présentons DataFlow, un framework unifié et extensible de préparation de données piloté par LLM. DataFlow est conçu avec des abstractions au niveau système qui permettent des transformations de données modulaires, réutilisables et composables, et fournit une API de construction de pipelines de style PyTorch pour créer des flux de données déboguables et optimisables. Le framework comprend près de 200 opérateurs réutilisables et six pipelines génériques couvrant le texte, le raisonnement mathématique, le code, le Text-to-SQL, le RAG agentique et l'extraction de connaissances à grande échelle. Pour améliorer davantage la facilité d'utilisation, nous introduisons DataFlow-Agent, qui traduit automatiquement des spécifications en langage naturel en pipelines exécutables via la synthèse d'opérateurs, la planification de pipelines et la vérification itérative. Sur six cas d'usage représentatifs, DataFlow améliore systématiquement les performances des LLM en aval. Nos pipelines pour les mathématiques, le code et le texte surpassent les ensembles de données humaines curatés et les bases synthétiques spécialisées, atteignant jusqu'à +3 % de précision d'exécution en Text-to-SQL par rapport à SynSQL, des améliorations moyennes de +7 % sur les benchmarks de code, et des gains de 1 à 3 points sur MATH, GSM8K et AIME. De plus, un ensemble de données unifié de 10 000 échantillons produit par DataFlow permet à des modèles de base de surpasser leurs homologues entraînés sur 1 million de données Infinity-Instruct. Ces résultats démontrent que DataFlow fournit un substrat pratique et performant pour une préparation de données LLM fiable, reproductible et évolutive, et établit une fondation au niveau système pour le futur développement de l'IA axée sur les données.
Les représentations profondes à travers les modalités sont intrinsèquement imbriquées. Dans cet article, nous analysons systématiquement les caractéristiques spectrales de divers encodeurs sémantiques et pixel. Il est intéressant de constater que notre étude révèle une correspondance hautement inspirante et rarement explorée entre le spectre des caractéristiques d'un encodeur et son rôle fonctionnel : les encodeurs sémantiques capturent principalement les composantes basse fréquence qui codent la signification abstraite, tandis que les encodeurs pixel conservent également les informations haute fréquence qui véhiculent les détails fins. Cette découverte heuristique offre une perspective unificatrice qui relie le comportement de l'encodeur à sa structure spectrale sous-jacente. Nous la définissons comme l'Hypothèse du Prisme, où chaque modalité de données peut être vue comme une projection du monde naturel sur un spectre de caractéristiques partagé, à l'image du prisme. Forts de cette intuition, nous proposons l'Auto-encodage Unifié (UAE), un modèle qui harmonise la structure sémantique et les détails pixel via un modulateur de bandes fréquentielles innovant, permettant leur coexistence transparente. Des expériences approfondies sur les benchmarks ImageNet et MS-COCO valident que notre UAE unifie efficacement l'abstraction sémantique et la fidélité au niveau pixel dans un espace latent unique, avec des performances à la pointe de l'état de l'art.
Le paradigme de génération contextuelle a récemment démontré une forte capacité en matière d'édition d'images par instruction, alliant efficacité des données et qualité de synthèse. Néanmoins, l'adaptation de cet apprentissage contextuel à l'édition vidéo basée sur des instructions n'est pas triviale. Sans spécification des régions à éditer, les résultats peuvent souffrir d'un problème de délimitation imprécise des zones d'édition et d'interférences entre les tokens des zones éditées et non éditées lors du débruitage. Pour résoudre ces problèmes, nous présentons ReCo, un nouveau paradigme d'édition vidéo par instruction qui explore de manière novatrice la modélisation des contraintes entre les régions éditées et non éditées durant la génération contextuelle. Techniquement, ReCo concatène horizontalement la vidéo source et la vidéo cible pour un débruitage conjoint. Pour calibrer l'apprentissage par diffusion vidéo, ReCo capitalise sur deux termes de régularisation, à savoir une régularisation latente et une régularisation attentionnelle, appliquées respectivement sur les latents débruités à un pas en arrière et sur les cartes d'attention. La première augmente la divergence latente de la région d'édition entre les vidéos source et cible tout en réduisant celle des zones non éditées, accentuant ainsi la modification de la zone d'édition et limitant la génération de contenu indésirable à l'extérieur. La seconde supprime l'attention des tokens de la région d'édition vers les tokens correspondants de la vidéo source, atténuant ainsi leur interférence durant la génération de nouveaux objets dans la vidéo cible. Par ailleurs, nous proposons un jeu de données d'édition vidéo à grande échelle et de haute qualité, ReCo-Data, comprenant 500 000 paires instruction-vidéo pour favoriser l'entraînement des modèles. Des expériences approfondies menées sur quatre tâches majeures d'édition vidéo par instruction démontrent la supériorité de notre proposition.
Les progrès récents des modèles de diffusion vidéo ont suscité un intérêt croissant pour la génération de vidéos sous contrôle de caméra offrant de nouveaux points de vue sur des scènes dynamiques, visant à fournir aux créateurs des capacités de contrôle cinématographique en post-production. Un défi majeur dans la génération vidéo contrôlée par caméra est d'assurer la fidélité à la pose de caméra spécifiée, tout en maintenant la cohérence des vues et en raisonnant sur la géométrie occluse à partir d'observations limitées. Pour y remédier, les méthodes existantes entraînent soit un modèle de génération vidéo conditionné par trajectoire sur un jeu de données de paires trajectoire-vidéo, soit estiment la profondeur à partir de la vidéo d'entrée pour la reprojeter le long d'une trajectoire cible et générer les régions non projetées. Néanmoins, les méthodes existantes peinent à générer des vidéos de haute qualité fidèles à la pose de caméra pour deux raisons principales : (1) les approches basées sur la reprojection sont très sensibles aux erreurs causées par l'estimation imprécise de la profondeur ; et (2) la diversité limitée des trajectoires de caméra dans les jeux de données existants restreint les modèles appris. Pour pallier ces limitations, nous présentons InfCam, un cadre de génération vidéo-à-vidéo sans profondeur et contrôlé par caméra, offrant une haute fidélité de pose. Le framework intègre deux composants clés : (1) un warping par homographie infinie, qui encode les rotations 3D de la caméra directement dans l'espace latent 2D d'un modèle de diffusion vidéo. En se conditionnant sur cette information rotationnelle exempte de bruit, le terme de parallaxe résiduel est prédit par un apprentissage de bout en bout pour atteindre une haute fidélité à la pose de caméra ; et (2) un pipeline d'augmentation de données qui transforme les jeux de données synthétiques multivues existants en séquences présentant des trajectoires et des longueurs focales variées. Les résultats expérimentaux démontrent qu'InfCam surpasse les méthodes de référence en précision de pose de caméra et en fidélité visuelle, généralisant bien des données synthétiques aux données réelles. Lien vers notre page projet : https://emjay73.github.io/InfCam/
La Génération Augmentée par Récupération Dynamique (Dynamic RAG) détermine de manière adaptative le moment de récupérer des informations pendant la génération pour atténuer les hallucinations dans les grands modèles de langage (LLM). Cependant, les méthodes existantes s'appuient sur des signaux internes au modèle (par exemple, les logits, l'entropie), qui sont fondamentalement peu fiables car les LLM sont généralement mal calibrés et présentent souvent une confiance élevée dans des sorties erronées. Nous proposons QuCo-RAG, qui passe d'une confiance subjective à des statistiques objectives calculées à partir des données de pré-entraînement. Notre méthode quantifie l'incertitude en deux étapes : (1) avant la génération, nous identifions les entités à faible fréquence indiquant des lacunes de connaissances dans la "long tail" ; (2) pendant la génération, nous vérifions la co-occurrence des entités dans le corpus de pré-entraînement, où une co-occurrence nulle signale souvent un risque d'hallucination. Les deux étapes exploitent Infini-gram pour des requêtes à latence milliseconde sur 4 000 milliards de tokens, déclenchant la récupération lorsque l'incertitude est élevée. Les expériences sur des benchmarks de questions-réponses multi-sauts montrent que QuCo-RAG obtient des gains de score EM de 5 à 12 points par rapport aux meilleures méthodes de référence avec les modèles OLMo-2, et se transpose efficacement à des modèles avec des données de pré-entraînement non divulguées (Llama, Qwen, GPT), améliorant le score EM jusqu'à 14 points. La généralisation au domaine biomédical valide en outre la robustesse de notre paradigme. Ces résultats établissent la vérification ancrée dans le corpus comme un paradigme dynamique de RAG, fondé et pratiquement agnostique au modèle. Notre code est disponible publiquement à l'adresse https://github.com/ZhishanQ/QuCo-RAG.
L'estimation précise de la difficulté des items (questions ou tâches) est cruciale pour l'évaluation éducative, mais elle souffre du problème du démarrage à froid. Bien que les modèles de langage à grande échelle démontrent des capacités de résolution de problèmes surhumaines, la question de savoir s'ils peuvent percevoir les difficultés cognitives des apprenants humains reste ouverte. Dans ce travail, nous présentons une analyse empirique à grande échelle de l'Alignement des Difficultés Humain-IA pour plus de 20 modèles, dans des domaines variés tels que les connaissances médicales et le raisonnement mathématique. Nos résultats révèlent un désalignement systématique où l'augmentation de la taille des modèles n'est pas une solution fiable ; au lieu de s'aligner sur les humains, les modèles convergent vers un consensus machine partagé. Nous observons que des performances élevées entravent souvent l'estimation précise de la difficulté, car les modèles peinent à simuler les limitations de capacités des étudiants, même lorsqu'ils sont explicitement invités à adopter des niveaux de compétence spécifiques. De plus, nous identifions un manque critique d'introspection, les modèles échouant à prédire leurs propres limites. Ces résultats suggèrent que la capacité générale de résolution de problèmes n'implique pas une compréhension des difficultés cognitives humaines, soulignant le défi que représente l'utilisation des modèles actuels pour la prédiction automatisée de la difficulté.
La génération de vidéos à longue portée et géométriquement cohérentes présente un dilemme fondamental : si la cohérence exige une adhérence stricte à la géométrie 3D dans l'espace des pixels, les modèles génératifs de pointe opèrent plus efficacement dans un espace latent conditionné par la caméra. Cette déconnexion amène les méthodes actuelles à éprouver des difficultés avec les zones occluses et les trajectoires complexes de la caméra. Pour combler cet écart, nous proposons WorldWarp, un cadre qui couple une ancre structurelle 3D avec un raffineur génératif 2D. Pour établir un ancrage géométrique, WorldWarp maintient un cache géométrique 3D en ligne construit via Gaussian Splatting (3DGS). En déformant explicitement le contenu historique dans de nouvelles vues, ce cache sert d'échafaudage structurel, garantissant que chaque nouvelle image respecte la géométrie antérieure. Cependant, la déformation statique laisse inévitablement des trous et des artéfacts dus aux occlusions. Nous résolvons ce problème à l'aide d'un modèle de diffusion spatio-temporelle (ST-Diff) conçu pour un objectif de "remplissage et révision". Notre innovation clé est un calendrier de bruit variable spatio-temporel : les régions vides reçoivent un bruit complet pour déclencher la génération, tandis que les régions déformées reçoivent un bruit partiel pour permettre un raffinement. En mettant à jour dynamiquement le cache 3D à chaque étape, WorldWarp maintient la cohérence entre les segments vidéo. Par conséquent, il atteint une fidélité de pointe en veillant à ce que la logique 3D guide la structure tandis que la logique de diffusion perfectionne la texture. Page du projet : https://hyokong.github.io/worldwarp-page/.
La planification de trajectoire dans des environnements non structurés est une capacité fondamentale et complexe pour les robots mobiles. Les approches modulaires traditionnelles souffrent de latence et d'erreurs en cascade entre les modules de perception, localisation, cartographie et planification. Les méthodes récentes d'apprentissage de bout en bout transforment directement les observations visuelles brutes en signaux de contrôle ou trajectoires, promettant une meilleure performance et efficacité dans des environnements ouverts. Cependant, la plupart des approches antérieures reposent encore sur des modules de localisation distincts nécessitant un étalonnage extrinsèque précis des capteurs pour l'estimation d'état, limitant ainsi la généralisation across embodiments et environnements. Nous présentons LoGoPlanner, un framework de navigation de bout en bout ancré dans la localisation, qui résout ces limitations en : (1) affinant un backbone visuel-géométrique à long horizon pour ancrer les prédictions avec une échelle métrique absolue, fournissant ainsi une estimation d'état implicite pour une localisation précise ; (2) reconstruisant la géométrie environnante à partir d'observations historiques pour offrir une perception environnementale dense et fine permettant d'éviter les obstacles de façon fiable ; et (3) conditionnant la politique sur la géométrie implicite amorcée par les tâches auxiliaires précitées, réduisant ainsi la propagation d'erreur. Nous évaluons LoGoPlanner en simulation et en conditions réelles, où sa conception entièrement de bout en bout réduit l'erreur cumulative tandis que la mémoire géométrique métrique améliore la cohérence de planification et l'évitement d'obstacles, entraînant une amélioration de plus de 27,3 % par rapport aux bases de référence à localisation idéale et une forte généralisation across embodiments et environnements. Le code et les modèles sont disponibles publiquement sur la {page du projet} https://steinate.github.io/logoplanner.github.io/.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans les tâches de génération de code. Cependant, leur efficacité dépend fortement d'un apprentissage supervisé nécessitant de vastes ensembles de données étiquetés (par exemple, des paires question-réponse) ou non étiquetés (par exemple, des fragments de code), qui sont souvent coûteux et difficiles à obtenir à grande échelle. Pour remédier à cette limitation, cet article présente une méthode IPC, un cadre non supervisé qui exploite le sondage interne des LLM pour la génération de code, sans aucun corpus externe, pas même des fragments de code non étiquetés. Nous introduisons le sondage de l'espace problème, le sondage de la compréhension des tests, le sondage de l'espace solution, et la consolidation et le renforcement des connaissances pour sonder les schémas de connaissance et de confiance internes existant dans les LLM. De plus, IPC identifie des candidats de code fiables grâce à des mécanismes d'auto-cohérence et à une estimation de la qualité basée sur les représentations pour entraîner UCoder (codeur avec apprentissage non supervisé). Nous validons l'approche proposée sur plusieurs benchmarks de code, démontrant que les méthodes non supervisées peuvent atteindre des performances compétitives par rapport aux approches supervisées tout en réduisant significativement la dépendance aux données étiquetées et aux ressources computationnelles. Des expériences analytiques révèlent que les états internes du modèle contiennent des signaux riches sur la qualité et la correction du code, et qu'exploiter correctement ces signaux permet un apprentissage non supervisé efficace pour les tâches de génération de code, ouvrant de nouvelles directions pour l'entraînement de LLM pour le code dans des scénarios à ressources limitées.
L'entraînement d'agents basés sur des modèles de langage de grande taille (LLM) performants est sévèrement limité par le coût élevé et la nature statique des données d'interaction du monde réel. Nous résolvons ce problème en introduisant GenEnv, un cadre qui établit un jeu co-évolutif aligné sur la difficulté entre un agent et un simulateur d'environnement génératif et scalable. Contrairement aux méthodes traditionnelles qui font évoluer les modèles sur des jeux de données statiques, GenEnv instancie une évolution des données : le simulateur agit comme une politique de curriculum dynamique, générant continuellement des tâches spécifiquement adaptées à la « zone de développement proximal » de l'agent. Ce processus est guidé par une récompense de curriculum α simple mais efficace, qui aligne la difficulté des tâches sur les capacités actuelles de l'agent. Nous évaluons GenEnv sur cinq benchmarks, incluant API-Bank, ALFWorld, BFCL, Bamboogle et TravelPlanner. Sur l'ensemble de ces tâches, GenEnv améliore les performances des agents jusqu'à +40,3 % par rapport aux modèles de référence de 7 milliards de paramètres et atteint ou dépasse les performances moyennes de modèles plus larges. Par rapport à une augmentation de données hors ligne basée sur Gemini 2.5 Pro, GenEnv obtient de meilleures performances tout en utilisant 3,3 fois moins de données. En passant d'une supervision statique à une simulation adaptative, GenEnv offre une voie économe en données pour faire évoluer les capacités des agents.
Les modèles de langage à diffusion à grande échelle (dLLM) ont démontré un potentiel significatif pour l'inférence à haute vitesse. Cependant, les stratégies de décodage basées sur la confiance actuelles sont limitées par un parallélisme restreint, n'atteignant généralement que 1 à 3 jetons par passage avant (TPF). Dans ce travail, nous identifions que le degré de parallélisme lors de l'inférence des dLLM est très sensible à l'ordre de remplissage des jetons (TFO). Nous présentons ensuite LoPA (Lookahead PArallel Decoding), un algorithme prêt à l'emploi et sans apprentissage, conçu pour identifier un TFO optimal et ainsi accélérer l'inférence. LoPA explore simultanément différents TFO candidats via des branches parallèles, et sélectionne celui présentant le plus grand potentiel de parallélisme futur en fonction de la confiance des branches. Nous appliquons LoPA au modèle D2F de pointe et observons une amélioration substantielle de l'efficacité du décodage. Notamment, LoPA porte le TPF de D2F-Dream à 10,1 sur le GSM8K tout en maintenant des performances supérieures à la ligne de base Dream. De plus, pour faciliter ce degré de parallélisme sans précédent, nous développons un système d'inférence multi-appareils spécialisé doté du parallélisme de branches (BP), qui atteint un débit par échantillon de 1073,9 jetons par seconde dans un déploiement multi-GPU. Le code est disponible à l'adresse https://github.com/zhijie-group/LoPA.
La narration visuelle nécessite la génération de vidéos multi-plans d'une qualité cinématographique avec une cohérence à long terme. Inspirés par la mémoire humaine, nous proposons StoryMem, un paradigme qui reformule la création de vidéos longues comme une synthèse itérative de plans conditionnée par une mémoire visuelle explicite, transformant ainsi les modèles de diffusion vidéo monocadre pré-entraînés en conteurs multi-plans. Ceci est réalisé grâce à une conception novatrice Mémoire-vers-Vidéo (M2V), qui maintient une banque de mémoire compacte et dynamiquement mise à jour contenant des images clés des plans générés précédemment. La mémoire stockée est ensuite injectée dans les modèles de diffusion vidéo monocadre via une concaténation latente et des décalages RoPE négatifs, avec seulement un réglage fin par LoRA. Une stratégie de sélection sémantique des images clés, associée à un filtrage par préférence esthétique, garantit en outre une mémoire informative et stable tout au long de la génération. De plus, le cadre proposé intègre naturellement des transitions fluides entre les plans et des applications de génération d'histoires personnalisées. Pour faciliter l'évaluation, nous présentons ST-Bench, un benchmark diversifié pour la narration vidéo multi-plans. Des expériences approfondies démontrent que StoryMem atteint une cohérence inter-plans supérieure aux méthodes antérieures tout en préservant une haute qualité esthétique et une fidélité au prompt, représentant une avancée significative vers la création de vidéos cohérentes d'une durée de plusieurs minutes.
La capacité d'exploration conditionne à la fois les performances en inférence et l'apprentissage par renforcement (RL) pour les grands modèles (vision-)langage, car l'échantillonnage stochastique produit souvent des chemins de raisonnement redondants avec une diversité de haut niveau limitée. Cet article propose Reasoning Palette, un nouveau cadre de modulation latente qui dote le modèle d'une variable latente stochastique pour une contextualisation stratégique, guidant sa planification interne avant la génération de tokens. Ce contexte latent est inféré à partir de l'embedding moyenné d'une paire question-réponse via un autoencodeur variationnel (VAE), où chaque latent échantillonné encode potentiellement un contexte de raisonnement distinct. Lors de l'inférence, un latent échantillonné est décodé en préfixes de tokens apprenables et préfixé au prompt d'entrée, modulant la trajectoire de raisonnement interne du modèle. Ainsi, le modèle effectue un échantillonnage interne sur les stratégies de raisonnement avant la génération de la sortie, ce qui façonne le style et la structure de toute la séquence de réponse. Une brève phase de préparation par fine-tuning supervisé (SFT) permet au modèle de s'adapter à ce conditionnement latent. Au sein de l'optimisation RL, Reasoning Palette facilite l'exploration structurée en permettant l'injection à la demande de modes de raisonnement diversifiés, améliorant significativement l'efficacité d'exploration et la capacité d'apprentissage soutenu. Les expériences sur plusieurs benchmarks de raisonnement démontrent que notre méthode permet un contrôle interprétable et contrôlable du comportement stratégique du modèle (vision-)langage, obtenant ainsi des gains de performance constants par rapport aux méthodes RL standard.
Parmi les benchmarks existants pour l'utilisation mobile en ligne, AndroidWorld s'est imposé comme la référence dominante grâce à son environnement reproductible et son évaluation déterministe. Cependant, les agents récents atteignant des taux de réussite supérieurs à 90% indiquent sa saturation et motivent la nécessité d'un benchmark plus exigeant. De plus, son environnement manque de catégories d'applications clés, comme le commerce électronique et la communication d'entreprise, et ne reflète pas les scénarios réalistes d'utilisation mobile, caractérisés par des instructions utilisateur vagues et une utilisation hybride des outils. Pour combler cette lacune, nous présentons MobileWorld, un benchmark substantiellement plus difficile conçu pour mieux refléter l'utilisation mobile réelle, comprenant 201 tâches réparties sur 20 applications, tout en maintenant le même niveau d'évaluation reproductible qu'AndroidWorld. La difficulté de MobileWorld est double. Premièrement, il met l'accent sur les tâches à long horizon avec des interactions inter-applications : MobileWorld nécessite près de deux fois plus d'étapes pour accomplir une tâche en moyenne (27,8 contre 14,3) et comprend beaucoup plus de tâches multi-applications (62,2 % contre 9,5 %) par rapport à AndroidWorld. Deuxièmement, MobileWorld va au-delà de la simple manipulation d'interface graphique en introduisant de nouvelles catégories de tâches, incluant l'interaction agent-utilisateur et les tâches enrichies par MCP. Pour garantir une évaluation robuste, nous fournissons un environnement conteneurisé basé sur des snapshots et des vérifications fonctionnelles précises, incluant l'inspection de bases de données backend et des API de rappel de tâches. Nous développons en outre un framework agentique planificateur-exécuteur avec des espaces d'action étendus pour supporter les interactions utilisateur et les appels MCP. Nos résultats révèlent une chute brutale des performances par rapport à AndroidWorld, avec les meilleurs framework agentique et modèle end-to-end atteignant respectivement 51,7 % et 20,9 % de taux de réussite. Notre analyse montre que les modèles actuels éprouvent de grandes difficultés avec l'interaction utilisateur et les appels MCP, offrant ainsi une feuille de route stratégique vers une intelligence mobile nouvelle génération plus robuste.
Avant la clôture des tours de financement en capital-risque, les avocats réalisent un processus de due diligence qui inclut la vérification de la table de capitalisation : contrôler que chaque titre (par exemple, actions, options, bons de souscription) et chaque modalité d'émission (par exemple, calendriers de vesting, déclencheurs d'accélération, restrictions de transfert) s'appuie sur un vaste ensemble de documents juridiques sous-jacents. Bien que les LLM continuent de progresser sur les benchmarks juridiques, les workflows juridiques spécialisés, tels que la vérification de la capitalisation, restent hors de portée même pour les systèmes agentiques performants. Cette tâche nécessite un raisonnement multi-document, une traçabilité stricte des preuves et des résultats déterministes que les approches actuelles ne parviennent pas à fournir de manière fiable. Nous caractérisons la vérification de la capitalisation comme un exemple de benchmark réaliste pour l'IA juridique, analysons et comparons les performances des systèmes agentiques existants, et proposons une architecture de modèle du monde visant l'automatisation de cette vérification – et plus largement comme fondement pour une intelligence juridique appliquée.
Les progrès récents en apprentissage robotique sont portés par des jeux de données à grande échelle et des architectures de politiques visuomotrices puissantes, mais la robustesse des politiques reste limitée par le coût substantiel de collecte de démonstrations diversifiées, particulièrement pour la généralisation spatiale dans les tâches de manipulation. Pour réduire la collecte répétitive de données, nous présentons Real2Edit2Real, un cadre générant de nouvelles démonstrations en reliant l'éditabilité 3D aux données visuelles 2D via une interface de contrôle 3D. Notre approche reconstruit d'abord la géométrie de la scène à partir d'observations RGB multi-vues avec un modèle de reconstruction 3D à échelle métrique. Sur la base de la géométrie reconstruite, nous effectuons une édition 3D fiable en profondeur sur des nuages de points pour générer de nouvelles trajectoires de manipulation tout en corrigeant géométriquement les poses du robot pour retrouver une profondeur physiquement cohérente, servant de condition fiable pour synthétiser de nouvelles démonstrations. Enfin, nous proposons un modèle de génération vidéo multi-conditionnelle guidé par la profondeur comme signal de contrôle principal, accompagné de cartes d'action, de contours et de rayons, pour synthétiser des vidéos de manipulation multi-vues spatialement augmentées. Les expériences sur quatre tâches de manipulation réelles démontrent que les politiques entraînées sur des données générées à partir de seulement 1 à 5 démonstrations sources peuvent égaler ou surpasser celles entraînées sur 50 démonstrations réelles, améliorant l'efficacité des données jusqu'à 10-50 fois. De plus, les résultats expérimentaux sur l'édition de hauteur et de texture démontrent la flexibilité et l'extensibilité du cadre, indiquant son potentiel à servir de framework unifié de génération de données.
Nous abordons la segmentation sémantique 3D de pièces : la décomposition d'objets en parties dotées de noms significatifs. Bien qu'il existe des jeux de données avec des annotations de pièces, leurs définitions sont incohérentes d'un jeu à l'autre, ce qui limite un apprentissage robuste. Les méthodes antérieures produisent des décompositions non étiquetées ou récupèrent des pièces individuelles sans annotations complètes de la forme. Nous proposons ALIGN-Parts, qui formule la dénomination des pièces comme une tâche d'alignement d'ensembles directe. Notre méthode décompose les formes en « partlets » – des représentations implicites de pièces 3D – appariées à des descriptions de pièces via une assignation bipartite. Nous combinons des indices géométriques provenant de champs de pièces 3D, l'apparence à partir de caractéristiques visuelles multi-vues et des connaissances sémantiques issues de descriptions d'affordances générées par des modèles de langage. Une perte d'alignement textuel garantit que les partlets partagent l'espace d'incorporation avec le texte, permettant théoriquement une configuration d'appariement à vocabulaire ouvert, sous réserve de données suffisantes. Notre méthode efficace et novatrice de segmentation et de dénomination de pièces 3D en une seule passe trouve des applications dans plusieurs tâches en aval, notamment comme moteur d'annotation scalable. Comme notre modèle prend en charge l'appariement zero-shot à des descriptions arbitraires et des prédictions à confiance calibrée pour les catégories connues, nous créons, avec vérification humaine, une ontologie unifiée qui aligne PartNet, 3DCoMPaT++ et Find3D, comprenant 1 794 pièces 3D uniques. Nous présentons également des exemples de notre nouveau jeu de données Tex-Parts. Nous introduisons aussi deux nouvelles métriques adaptées à la tâche de segmentation de pièces 3D nommées.
Les modèles vision-langage (VLM) sont généralement entraînés en insérant des jetons visuels issus d'un encodeur de vision préentraîné dans le flux textuel d'un modèle de langage. Cette approche permet une attention mutuelle complète entre les informations textuelles et visuelles au sein du modèle, mais devient extrêmement coûteuse pour les images haute résolution, les conversations longues ou les vidéos en streaming, tant en mémoire qu'en calcul. Les VLM utilisant l'attention croisée constituent une alternative efficace à l'insertion de jetons, mais présentent un écart de performance notable, particulièrement sur les tâches impliquant des détails visuels fins. Nous constatons qu'une clé pour améliorer ces modèles est de permettre également l'interaction locale texte-texte dans les couches d'attention croisée dédiées. En nous appuyant sur cela, nous proposons CASA, Cross-Attention via Self-Attention, un paradigme simple et efficace qui réduit considérablement l'écart avec l'insertion complète de jetons sur les benchmarks courants de compréhension d'images, tout en bénéficiant de la même évolutivité que les modèles à attention croisée lorsqu'ils sont appliqués à des tâches multimodales à contexte long, telles que la description de vidéos en streaming. Pour les échantillons et le code, veuillez consulter notre page projet à l'adresse https://kyutai.org/casa.
Nous étudions le raisonnement syllogistique dans les LLMs sous les angles logique et linguistique. Ce processus nous permet d'explorer les capacités fondamentales de raisonnement des LLMs et l'orientation que prend cette recherche. Pour étayer nos études, nous utilisons quatorze grands modèles de langage et examinons leurs capacités de raisonnement syllogistique en termes d'inférences symboliques ainsi que de compréhension du langage naturel. Bien que ce mécanisme de raisonnement n'émerge pas uniformément chez tous les LLMs, les performances symboliques parfaites de certains modèles nous amènent à nous demander si les LLMs deviennent des mécanismes de raisonnement formel de plus en plus sophistiqués, plutôt que de refléter explicitement les nuances du raisonnement humain.
La modélisation manuelle des paramètres matériaux et de la géométrie 3D est une tâche chronophage mais essentielle dans les industries du jeu vidéo et du cinéma. Si les progrès récents en reconstruction 3D ont permis d'approximer avec précision la géométrie et l'apparence des scènes, ces méthodes échouent souvent dans les scénarios de rééclairage en raison de l'absence de paramètres matériaux précis et variant spatialement. Parallèlement, les modèles de diffusion opérant sur des images 2D ont démontré de fortes performances dans la prédiction de propriétés de rendu physiquement réaliste (PBR) telles que l'albédo, la rugosité et la métallicité. Cependant, le transfert de ces cartes de matériaux 2D vers une géométrie 3D reconstruite reste un défi majeur. Nous proposons un cadre pour fusionner des données matérielles 2D dans une géométrie 3D en combinant de nouvelles approches basées sur l'apprentissage et sur la projection. Nous commençons par reconstruire la géométrie de la scène via la méthode du *Gaussian Splatting*. À partir des images d'entrée, un modèle de diffusion génère des cartes 2D pour les paramètres d'albédo, de rugosité et de métallicité. Tout modèle de diffusion existant capable de convertir des images ou des vidéos en matériaux PBR peut être appliqué. Les prédictions sont ensuite intégrées dans la représentation 3D soit en optimisant une fonction de coût basée sur l'image, soit en projetant directement les paramètres matériaux sur les Gaussiennes à l'aide du lancer de rayons Gaussien. Pour améliorer la précision à fine échelle et la cohérence multi-vues, nous introduisons une étape de raffinement neuronal léger (*Neural Merger*), qui prend en entrée des caractéristiques matériaux calculées par lancer de rayons et produit des ajustements détaillés. Nos résultats démontrent que les méthodes proposées surpassent les techniques existantes à la fois selon des métriques quantitatives et en termes de réalisme visuel perçu. Cela permet des rendus plus précis, rééclairables et photoréalistes à partir de scènes reconstruites, améliorant significativement le réalisme et l'efficacité des flux de travail de création d'assets dans les pipelines de production de contenu.
Les assistants IA produisent du code vulnérable dans 45 % des scénarios liés à la sécurité, introduisant des failles à grande échelle dans les systèmes de production. Pourtant, les ensembles de données existants sur le codage sécurisé sont insuffisants. Ils manquent de fondement incidentiel, n'offrent pas l'échelle requise pour l'entraînement moderne et négligent le contexte opérationnel de sécurité nécessaire aux développeurs pour les déploiements en production. Nous présentons SecureCode v2.0, un ensemble de données de qualité production comprenant 1 215 exemples de codage axés sur la sécurité, ayant passé une validation structurelle et une revue de sécurité experte. Chaque exemple est lié à des incidents de sécurité documentés avec des références CVE, fournit des implémentations vulnérables et sécurisées, démontre des attaques concrètes et inclut des conseils opérationnels de défense en profondeur. L'ensemble de données couvre 11 catégories de vulnérabilités (l'intégralité du OWASP Top 10:2025 ainsi que les menaces de sécurité IA/ML) dans 11 langages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin et YAML pour l'infrastructure-as-code). Notre cadre d'assurance qualité garantit un ancrage incidentiel complet. Chaque exemple inclut des stratégies d'intégration SIEM, des recommandations de durcissement d'infrastructure (configurations Docker, AppArmor, WAF) et des approches de test utilisant des frameworks adaptés aux langages. L'ensemble de données adopte une structure conversationnelle en 4 tours reflétant les interactions réelles entre développeurs et IA, escaladant des implémentations de base vers des considérations de sécurité avancées et des conseils de défense en profondeur. Nos contributions : (1) 1 215 exemples rigoureusement validés répartis en 989 pour l'entraînement, 122 pour la validation et 104 pour les tests, (2) un cadre de validation automatisé assurant la cohérence de l'ensemble de données, (3) une structure conversationnelle en 4 tours capturant les flux de travail de sécurité réalistes, (4) des conseils opérationnels de sécurité complets avec stratégies d'intégration SIEM, (5) une fidélité d'implémentation complète spécifique à chaque langage, et (6) la publication en open source des données, outils de validation et protocoles d'évaluation.
Dans les workflows professionnels de composition vidéo, les artistes doivent créer manuellement des interactions environnementales - telles que des ombres, des réflexions, de la poussière et des éclaboussures - entre les sujets au premier plan et les couches d'arrière-plan. Les modèles génératifs vidéo existants peinent à préserver la vidéo d'entrée tout en ajoutant de tels effets, et les méthodes actuelles d'inpainting vidéo nécessitent soit des masques coûteux image par image, soit produisent des résultats peu plausibles. Nous introduisons le compositing augmenté, une nouvelle tâche qui synthétise des effets environnementaux semi-transparents et réalistes conditionnés par des prompts textuels et des couches vidéo d'entrée, tout en préservant la scène originale. Pour résoudre cette tâche, nous présentons Over++, un cadre de génération d'effets vidéo qui ne fait aucune hypothèse sur la pose de la caméra, la stationnarité de la scène ou la supervision de la profondeur. Nous construisons un jeu de données d'effets appariés spécifiquement conçu pour cette tâche et introduisons une stratégie d'augmentation non appariée qui préserve la capacité d'édition pilotée par le texte. Notre méthode prend également en charge le contrôle optionnel par masque et le guidage par images clés sans nécessiter d'annotations denses. Malgré un entraînement sur des données limitées, Over++ produit des effets environnementaux diversifiés et réalistes et surpasse les méthodes de référence existantes à la fois en génération d'effets et en préservation de la scène.
Les méthodes d'interprétabilité des grands modèles de langage (LLM) dérivent généralement des directions à partir de supervisions textuelles, ce qui peut manquer d'ancrage externe. Nous proposons d'utiliser l'activité cérébrale humaine non pas comme signal d'apprentissage, mais comme système de coordonnées pour lire et piloter les états des LLM. En utilisant le jeu de données SMN4Lang MEG, nous construisons un atlas cérébral au niveau du mot des motifs de valeur de verrouillage de phase (PLV) et extrayons des axes latents via l'ACI. Nous validons les axes avec des lexiques indépendants et des étiquettes basées sur la REC (POS/log-fréquence utilisées comme contrôles de cohérence), puis nous entraînons des adaptateurs légers qui mappent les états cachés des LLM vers ces axes cérébraux sans fine-tuning du LLM. Le pilotage le long des directions dérivées du cerveau produit un axe lexical robuste (lié à la fréquence) dans une couche intermédiaire de TinyLlama, qui résiste à des contrôles appariés en perplexité, et une comparaison par sonde cerveau-vs-texte montre des décalages de log-fréquence plus importants (relativement à la sonde texte) avec une perplexité plus faible pour l'axe cérébral. Un axe fonction/contenu (axe 13) montre un pilotage cohérent dans TinyLlama, Qwen2-0.5B et GPT-2, avec une corroboration au niveau texte appariée en PPL. Les effets dans la couche 4 de TinyLlama sont importants mais inconstants, nous les considérons donc comme secondaires (Annexe). La structure des axes est stable lorsque l'atlas est reconstruit sans les caractéristiques de changement d'embedding GPT ou avec des embeddings word2vec (|r|=0.64-0.95 entre axes appariés), réduisant les préoccupations de circularité. Un ancrage exploratoire par IRMf suggère un alignement potentiel pour le changement d'embedding et la log-fréquence, mais les effets sont sensibles aux hypothèses de modélisation hémodynamique et sont traités uniquement comme preuve au niveau populationnel. Ces résultats soutiennent une nouvelle interface : des axes fondés sur la neurophysiologie fournissent des poignées interprétables et contrôlables pour le comportement des LLM.