papers.description
La préparation des données vise à débruiter les ensembles de données bruts, à découvrir les relations inter-données et à en extraire des informations précieuses, ce qui est essentiel pour un large éventail d'applications centrées sur la donnée. Sous l'impulsion (i) d'une demande croissante de données prêtes à l'emploi (par exemple, pour l'analyse, la visualisation, la prise de décision), (ii) de techniques de LLM de plus en plus puissantes et (iii) de l'émergence d'infrastructures facilitant la construction d'agents flexibles (par exemple, avec Databricks Unity Catalog), les méthodes assistées par les LLM deviennent rapidement un paradigme transformateur et potentiellement dominant pour la préparation des données. En examinant des centaines de publications récentes, cet article présente une revue systématique de ce paysage en évolution, en se concentrant sur l'utilisation des techniques de LLM pour préparer les données à diverses tâches en aval. Premièrement, nous caractérisons le changement de paradigme fondamental, passant de pipelines basés sur des règles et spécifiques à un modèle à des flux de travail de préparation pilotés par prompts, sensibles au contexte et agentifs. Ensuite, nous introduisons une taxonomie centrée sur les tâches qui organise le domaine en trois tâches majeures : le nettoyage des données (par exemple, standardisation, traitement des erreurs, imputation), l'intégration des données (par exemple, appariement d'entités, appariement de schémas) et l'enrichissement des données (par exemple, annotation, profilage des données). Pour chaque tâche, nous examinons les techniques représentatives et mettons en évidence leurs forces respectives (par exemple, une meilleure généralisation, une compréhension sémantique) et leurs limites (par exemple, le coût prohibitif de la mise à l'échelle des LLM, les hallucinations persistantes même dans les agents avancés, l'inadéquation entre les méthodes avancées et une évaluation faible). De plus, nous analysons les jeux de données et les métriques d'évaluation couramment utilisés (la partie empirique). Enfin, nous discutons des défis de recherche ouverts et esquissons une feuille de route prospective qui met l'accent sur les systèmes LLM-données évolutifs, les conceptions principiées pour des workflows agentifs fiables et des protocoles d'évaluation robustes.
Récemment, la frontière des capacités des modèles de langage de grande taille (LLM) s'est déplacée de la génération de code en une seule étape vers l'ingénierie logicielle agentielle – un paradigme où les modèles naviguent, modifient et testent de manière autonome des dépôts complexes. Si les méthodes de post-formation sont devenues l'approche de facto pour les agents de code, l'**apprentissage agentiel intermédiaire** – une formation intermédiaire (MT) sur des données à grande échelle qui reflète les flux de travail agentiels authentiques – reste cruellement sous-exploré en raison de besoins substantiels en ressources, bien qu'il offre une voie plus évolutive pour inculquer des comportements agentiels fondamentaux que de s'appuyer uniquement sur un apprentissage par renforcement coûteux. Un défi central pour concrétiser un apprentissage intermédiaire agentiel efficace est l'écart de distribution entre les données d'entraînement statiques et l'environnement dynamique et riche en retours d'expérience du développement réel. Pour y remédier, nous présentons une étude systématique de l'apprentissage intermédiaire agentiel, établissant à la fois les principes de synthèse des données et la méthodologie d'entraînement pour un développement efficace d'agents à grande échelle. Au cœur de notre approche se trouvent les **données natives pour agents** – une supervision comprenant deux types de trajectoires complémentaires : les **trajectoires contextuellement natives** qui préservent le flux complet d'informations qu'un agent expérimente, offrant une large couverture et diversité ; et les **trajectoires environnementalement natives** collectées à partir de dépôts exécutables où les observations découlent d'invocations réelles d'outils et d'exécutions de tests, fournissant de la profondeur et une authenticité d'interaction. Nous vérifions les capacités agentielles du modèle sur `SWE-Bench Verified`. Nous démontrons notre supériorité par rapport à la précédente recette open d'apprentissage intermédiaire en ingénierie logicielle `Kimi-Dev` dans deux configurations de post-formation avec un modèle de base aligné et un échafaudage agentiel, tout en utilisant moins de la moitié des tokens d'apprentissage intermédiaire (73,1 milliards). Outre un avantage relatif, nos meilleurs modèles de 32B et 72B atteignent respectivement des taux de résolution de **56,1 %** et **58,5 %**, qui sont ...
Les récentes avancées en génération vidéo ont produit des modèles capables de synthétiser un contenu visuel époustouflant à partir de simples invites textuelles. Cependant, ces modèles peinent à générer des récits longs et cohérents à partir de concepts de haut niveau comme des dialogues, révélant un « fossé sémantique » entre une idée créative et son exécution cinématographique. Pour combler ce fossé, nous introduisons un nouveau cadre agentique de bout en bout pour la génération de vidéos cinématographiques à partir de dialogues. Au cœur de notre cadre se trouve ScripterAgent, un modèle entraîné à traduire un dialogue grossier en un scénario cinématographique détaillé et exécutable. Pour permettre cela, nous construisons ScriptBench, une nouvelle base de référence à grande échelle avec un contexte multimodal riche, annotée via un pipeline guidé par des experts. Le scénario généré guide ensuite DirectorAgent, qui orchestre des modèles vidéo de pointe en utilisant une stratégie de génération continue inter-scènes pour garantir une cohérence à long terme. Notre évaluation complète, mettant en œuvre un CriticAgent alimenté par l'IA et une nouvelle métrique d'Alignement Visuel-Scénario (VSA), montre que notre cadre améliore significativement la fidélité au scénario et la fidélité temporelle sur tous les modèles vidéo testés. De plus, notre analyse révèle un compromis crucial dans les modèles SOTA actuels entre le spectacle visuel et le respect strict du scénario, offrant des perspectives précieuses pour l'avenir de la réalisation cinématographique automatisée.
Si les données synthétiques ont démontré leur efficacité pour améliorer le raisonnement scientifique dans le domaine textuel, le raisonnement multimodal reste limité par la difficulté de synthétiser des images scientifiquement rigoureuses. Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) existants produisent souvent des résultats visuellement plausibles mais scientifiquement incorrects, ce qui entraîne une divergence persistante entre la logique visuelle et la logique formelle, limitant ainsi leur utilité pour le raisonnement en aval. Motivés par les récents progrès des modèles T2I de nouvelle génération, nous menons une étude systématique sur la synthèse d'images scientifiques, couvrant les paradigmes de génération, l'évaluation et les applications en aval. Nous analysons à la fois la génération directe basée sur les pixels et la synthèse programmatique, et proposons ImgCoder, un cadre logique qui suit un workflow explicite « comprendre – planifier – coder » pour améliorer la précision structurelle. Pour évaluer rigoureusement l'exactitude scientifique, nous introduisons SciGenBench, qui évalue les images générées sur la base de leur utilité informationnelle et de leur validité logique. Notre évaluation révèle des modes d'échec systématiques dans les modèles basés sur les pixels et met en lumière un compromis fondamental entre expressivité et précision. Enfin, nous montrons que le fine-tuning de Grands Modèles Multimodaux (LMMs) sur des images scientifiques synthétiques rigoureusement vérifiées permet d'obtenir des gains de raisonnement constants, avec des tendances à l'échelle potentielles analogues au domaine textuel, validant ainsi la synthèse scientifique haute fidélité comme une voie viable pour débloquer des capacités massives de raisonnement multimodal.
Un modèle peut-il apprendre à échapper à son propre plateau d'apprentissage ? Les méthodes d'apprentissage par renforcement pour le réglage fin de grands modèles de raisonnement stagnent sur des ensembles de données présentant des taux de réussite initiaux faibles, et donc peu de signaux d'entraînement. Nous étudions une question fondamentale : un LLM pré-entraîné peut-il exploiter des connaissances latentes pour générer un curriculum automatisé pour des problèmes qu'il ne peut pas résoudre ? Pour explorer cela, nous concevons SOAR : un cadre d'auto-amélioration conçu pour faire émerger ces signaux pédagogiques via du méta-RL. Une copie « enseignant » du modèle propose des problèmes synthétiques à une copie « élève », et est récompensée par l'amélioration de cette dernière sur un petit sous-ensemble de problèmes difficiles. Point crucial, SOAR ancre le curriculum dans le progrès mesuré de l'élève plutôt que dans des récompenses proxies intrinsèques. Notre étude sur les sous-ensembles les plus difficiles de benchmarks mathématiques (0/128 de réussite) révèle trois résultats fondamentaux. Premièrement, nous montrons qu'il est possible de réaliser un méta-RL bi-niveau qui débloque l'apprentissage avec des récompenses binaires et rares, en aiguisant une capacité latente des modèles pré-entraînés à générer des étapes intermédiaires utiles. Deuxièmement, les récompenses ancrées surpassent les schémas de récompense intrinsèque utilisés dans les précédents travaux d'auto-jeu pour LLM, évitant de manière fiable les instabilités et les effondrements de la diversité qu'ils présentent typiquement. Troisièmement, l'analyse des questions générées révèle que la qualité structurelle et le caractère bien posé des problèmes sont plus critiques pour la progression de l'apprentissage que l'exactitude de leur solution. Nos résultats suggèrent que la capacité à générer des étapes intermédiaires utiles ne nécessite pas la capacité préexistante à résoudre réellement les problèmes difficiles, ouvrant une voie princière pour échapper aux plateaux de raisonnement sans données supplémentaires curatées.
La complexité quadratique des mécanismes d'attention standard constitue un goulot d'étranglement significatif pour l'extensibilité des grands modèles de langage (LLM) dans les scénarios à contexte long. Bien que les stratégies d'attention hybrides, combinant attention éparse et attention complète au sein d'un même modèle, offrent une solution viable, elles emploient généralement des ratios de calcul statiques (c'est-à-dire des proportions fixes d'attention éparse versus complète) et ne parviennent pas à s'adapter aux sensibilités variables à la parcimonie des tâches en aval lors de l'inférence. Pour résoudre ce problème, nous proposons Elastic Attention, qui permet au modèle d'ajuster dynamiquement sa parcimonie globale en fonction de l'entrée. Ceci est réalisé en intégrant un Routeur d'Attention léger dans le modèle préentraîné existant, qui assigne dynamiquement chaque tête d'attention à différents modes de calcul. Avec seulement 12 heures d'entraînement sur 8 GPU A800, notre méthode permet aux modèles d'atteindre à la fois de bonnes performances et une inférence efficace. Les expériences menées sur trois benchmarks de contexte long avec des LLM largement utilisés démontrent la supériorité de notre méthode.
Le domaine de la génération d'images est actuellement scindé entre les modèles autorégressifs (AR) opérant sur des tokens discrets et les modèles de diffusion utilisant des latents continus. Cette division, ancrée dans la distinction entre VQ-VAEs et VAEs, entrave la modélisation unifiée et l'établissement de benchmarks équitables. La quantification scalaire finie (FSQ) offre une passerelle théorique, mais la FSQ standard souffre d'un défaut critique : sa quantification à intervalles égaux peut provoquer un effondrement des activations. Cette inadéquation impose un compromis entre la fidélité de reconstruction et l'efficacité informationnelle. Dans ce travail, nous résolvons ce dilemme en remplaçant simplement la fonction d'activation de la FSQ originale par un mappage d'alignement distributionnel pour imposer un a priori uniforme. Baptisée iFSQ, cette stratégie simple ne nécessite qu'une ligne de code tout en garantissant mathématiquement à la fois une utilisation optimale des bins et une précision de reconstruction. En utilisant iFSQ comme benchmark contrôlé, nous révélons deux insights clés : (1) L'équilibre optimal entre représentations discrètes et continues se situe autour d'environ 4 bits par dimension. (2) Sous des contraintes de reconstruction identiques, les modèles AR présentent une convergence initiale rapide, tandis que les modèles de diffusion atteignent un plafond de performance supérieur, suggérant que l'ordonnancement séquentiel strict pourrait limiter les bornes supérieures de la qualité de génération. Enfin, nous étendons notre analyse en adaptant l'alignement des représentations (REPA) aux modèles AR, produisant ainsi LlamaGen-REPA. Les codes sont disponibles à l'adresse https://github.com/Tencent-Hunyuan/iFSQ.
Les générateurs vidéo modernes peinent encore à reproduire des dynamiques physiques complexes, manquant souvent de réalisme physique. Les approches existantes tentent de résoudre ce problème en utilisant des vérificateurs externes ou un entraînement supplémentaire sur des données augmentées, ce qui est coûteux en calcul et reste limité pour capturer des mouvements fins. Dans ce travail, nous présentons l'échantillonnage vidéo auto-affiné, une méthode simple qui utilise un générateur vidéo pré-entraîné sur de vastes jeux de données comme son propre affineur. En interprétant le générateur comme un auto-encodeur à débruitage, nous permettons un affinement itératif en boucle interne lors de l'inférence, sans aucun vérificateur externe ni entraînement supplémentaire. Nous introduisons en outre une stratégie d'affinement sensible à l'incertitude qui affine sélectivement les régions en fonction de l'auto-cohérence, évitant ainsi les artefacts causés par un suraffinement. Les expériences sur des générateurs vidéo de pointe démontrent des améliorations significatives en cohérence du mouvement et en alignement physique, obtenant une préférence humaine supérieure à 70 % par rapport à l'échantillonneur par défaut et à l'échantillonneur par guidage.
Alors que l'évaluation des agents s'oriente vers des tâches à long terme, la plupart des benchmarks privilégient encore un raisonnement local au niveau des étapes plutôt que l'optimisation contrainte globale (par exemple, les budgets temporels et financiers) qui exige une réelle capacité de planification. Parallèlement, les benchmarks existants de planification pour LLM sous-représentent la collecte active d'informations et les contraintes locales fines caractéristiques des environnements réels. Pour y remédier, nous présentons DeepPlanning, un benchmark exigeant pour la planification pratique d'agents sur le long terme. Il propose des tâches de planification de voyage sur plusieurs jours et d'achats multi-produits nécessitant une acquisition proactive d'informations, un raisonnement contraint local et une optimisation contrainte globale. Les évaluations sur DeepPlanning montrent que même les LLM agentiques les plus avancés peinent à résoudre ces problèmes, soulignant l'importance de modèles de raisonnement explicite fiables et d'une utilisation parallèle d'outils pour atteindre de meilleurs compromis efficacité-efficience. L'analyse des erreurs indique en outre des pistes prometteuses pour l'amélioration des LLM agentiques sur de longs horizons de planification. Nous ouvrons le code et les données en accès libre pour soutenir les recherches futures.
La perception visuelle spatiale est une exigence fondamentale dans les applications du monde physique comme la conduite autonome et la manipulation robotique, motivée par la nécessité d'interagir avec des environnements 3D. L'acquisition d'une profondeur métrique alignée sur les pixels à l'aide de caméras RGB-D serait la méthode la plus viable, mais elle se heurte généralement à des obstacles posés par les limitations matérielles et les conditions d'imagerie difficiles, en particulier en présence de surfaces spéculaires ou sans texture. Dans ce travail, nous soutenons que les imprécisions des capteurs de profondeur peuvent être considérées comme des signaux "masqués" qui reflètent intrinsèquement les ambiguïtés géométriques sous-jacentes. Sur la base de cette motivation, nous présentons LingBot-Depth, un modèle de complétion de profondeur qui exploite le contexte visuel pour affiner les cartes de profondeur via une modélisation de profondeur masquée et intègre un pipeline de curation automatisée des données pour un entraînement scalable. Il est encourageant de constater que notre modèle surpasse les caméras RGB-D haut de gamme en termes de précision de profondeur et de couverture pixel. Les résultats expérimentaux sur une série de tâches en aval suggèrent en outre que LingBot-Depth offre une représentation latente alignée à travers les modalités RVB et profondeur. Nous mettons à disposition de la communauté de la perception spatiale le code, le point de contrôle et 3 millions de paires RVB-profondeur (incluant 2 millions de données réelles et 1 million de données simulées).
Ce rapport présente VibeVoice-ASR, un cadre général de compréhension de la parole construit sur VibeVoice, conçu pour relever les défis persistants de la fragmentation du contexte et de la complexité des interlocuteurs multiples dans les enregistrements audio de longue durée (par exemple, réunions, podcasts), défis qui subsistent malgré les récents progrès en reconnaissance vocale de courte durée. Contrairement aux approches traditionnelles en pipeline qui reposent sur le découpage audio, VibeVoice-ASR prend en charge le traitement en une seule passe pour des enregistrements audio allant jusqu'à 60 minutes. Il unifie la Reconnaissance Automatique de la Parole, la Diarisation des Locuteurs et l'Horodatage en une seule tâche de génération de bout en bout. De plus, VibeVoice-ASR prend en charge plus de 50 langues, ne nécessite aucun réglage linguistique explicite et gère nativement l'alternance codique au sein des énoncés et entre eux. Par ailleurs, nous introduisons un mécanisme d'injection de contexte par invite qui permet aux utilisateurs de fournir un contexte personnalisé, améliorant significativement la précision sur la terminologie spécifique à un domaine et la désambiguïsation des caractères polyphoniques.
L'émergence d'assistants IA personnels toujours actifs, rendue possible par des dispositifs portables à usage permanent comme les lunettes intelligentes, exige un niveau supérieur de compréhension contextuelle. Cette compréhension doit dépasser les événements isolés et brefs pour englober le flux continu et longitudinal de vidéos égocentriques. Réaliser cette vision nécessite des progrès en compréhension vidéo à long terme, où les systèmes doivent interpréter et mémoriser des informations visuelles et audio s'étalant sur des jours, voire des semaines. Les méthodes existantes, incluant les grands modèles de langage et la génération augmentée par recherche, sont limitées par des fenêtres de contexte restreintes et incapables de réaliser un raisonnement compositionnel et multi-sauts sur des flux vidéo très longs. Dans ce travail, nous relevons ces défis avec EGAgent, un cadre agentiel amélioré centré sur des graphes de scène entités, qui représentent les personnes, lieux, objets et leurs relations dans le temps. Notre système dote un agent de planification d'outils de recherche structurée et de raisonnement sur ces graphes, ainsi que de capacités hybrides de recherche visuelle et audio, permettant un raisonnement détaillé, multimodal et temporellement cohérent. Les expériences sur les ensembles de données EgoLifeQA et Video-MME (Long) montrent que notre méthode atteint des performances de pointe sur EgoLifeQA (57,5 %) et des performances compétitives sur Video-MME (Long) (74,1 %) pour des tâches complexes de compréhension vidéo longitudinale.
Les modèles d'embedding généralistes ont démontré de solides performances en recherche de texte mais restent sous-optimaux pour la recherche de tableaux, où le contenu hautement structuré entraîne une compression sémantique et une inadéquation requête-tableau. Les méthodes récentes d'augmentation de la recherche basées sur les LLM atténuent ce problème en générant des requêtes synthétiques, mais elles reposent souvent sur une sélection heuristique de tableaux partiels et utilisent rarement ces requêtes synthétiques comme supervision pour améliorer le modèle d'embedding. Nous présentons CGPT, un cadre d'entraînement qui améliore la recherche de tableaux via une supervision générée par LLM. CGPT construit des tableaux partiels sémantiquement diversifiés en regroupant les instances de tableaux par K-means et en échantillonnant à travers les clusters pour élargir la couverture sémantique. Un LLM génère ensuite des requêtes synthétiques pour ces tableaux partiels, qui sont utilisées dans un fine-tuning contrastif avec négatifs difficiles pour affiner le modèle d'embedding. Les expériences sur quatre benchmarks publics (MimoTable, OTTQA, FetaQA et E2E-WTQ) montrent que CGPT surpasse constamment les modèles de référence, y compris QGpT, avec une amélioration moyenne de R@1 de 16,54 %. Dans un cadre de corpus multi-domaines unifié, CGPT démontre en outre une forte généralisation inter-domaines et reste efficace même avec des LLM plus petits pour la génération de requêtes synthétiques. Ces résultats indiquent que la construction de tableaux partiels guidée sémantiquement, combinée à un entraînement contrastif à partir d'une supervision générée par LLM, offre un paradigme efficace et évolutif pour la recherche de tableaux à grande échelle. Notre code est disponible à l'adresse https://github.com/yumeow0122/CGPT.
La perception et l'interaction dans le monde réel sont intrinsèquement multimodales, englobant non seulement le langage mais aussi la vision et la parole, ce qui motive le développement de MLLMs « Omni » prenant en charge à la fois des entrées et des sorties multimodales. Bien qu'une série de MLLMs omni ait émergé, la plupart des systèmes existants reposent encore sur des composants experts supplémentaires pour réaliser la génération multimodale, limitant ainsi la simplicité d'un entraînement et d'une inférence unifiés. La modélisation autorégressive (AR), avec un flux unique de tokens, un objectif unique de prédiction du token suivant et un décodeur unique, constitue une base élégante et évolutive dans le domaine textuel. Motivés par cela, nous présentons AR-Omni, un modèle unifié tout-à-tout dans le paradigme autorégressif, sans aucun décodeur expert. AR-Omni prend en charge la génération autorégressive de texte et d'images, ainsi que la génération de parole en flux continu, le tout sous un seul décodeur Transformer. Nous abordons en outre trois problèmes pratiques dans la modélisation AR unifiée : le déséquilibre de modalité via une repondération des pertes adaptée aux tâches, la fidélité visuelle via une fonction de perte d'alignement perceptif légère au niveau des tokens pour les tokens d'image, et les compromis stabilité-créativité via un mécanisme de décodage à états finis. Empiriquement, AR-Omni atteint une forte qualité à travers trois modalités tout en restant en temps réel, obtenant un facteur temps réel de 0,88 pour la génération de parole.
Les données de séries temporelles sont omniprésentes dans les scénarios réels et cruciales pour des applications critiques allant de la gestion de l'énergie au contrôle du trafic. Par conséquent, la capacité à raisonner sur les séries temporelles est une compétence fondamentale pour les modèles généralistes afin de résoudre des problèmes pratiques. Cependant, cette dimension est notablement absente des benchmarks existants pour les modèles généralistes. Pour combler cette lacune, nous présentons TSRBench, un benchmark multimodal complet conçu pour tester rigoureusement l'ensemble du spectre des capacités de raisonnement sur les séries temporelles. TSRBench se caractérise par : i) un ensemble diversifié de 4125 problèmes issus de 14 domaines, catégorisés en 4 dimensions majeures : Perception, Raisonnement, Prédiction et Prise de décision ; ii) 15 tâches réparties dans les 4 dimensions évaluant les capacités de raisonnement essentielles (par exemple, le raisonnement numérique). Par le biais d'expériences approfondies, nous avons évalué plus de 30 LLM, VLM et TSLLM propriétaires et open-source leaders au sein de TSRBench. Nos résultats révèlent que : i) les lois d'échelle s'appliquent à la perception et au raisonnement mais s'effondrent pour la prédiction ; ii) un raisonnement solide ne garantit pas une prévision précise et contextuelle, indiquant un découplage entre la compréhension sémantique et la prédiction numérique ; et iii) malgré la nature complémentaire des représentations textuelles et visuelles des séries temporelles en entrée, les modèles multimodaux actuels ne parviennent pas à les fusionner efficacement pour obtenir des gains de performance réciproques. TSRBench fournit une plateforme d'évaluation standardisée qui non seulement met en lumière les défis existants, mais offre également des insights précieux pour faire progresser les modèles généralistes. Notre code et notre jeu de données sont disponibles à l'adresse https://tsrbench.github.io/.
Les modèles de génération vidéo à grande échelle ont démontré une cohérence physique émergente, les positionnant comme des modèles du monde potentiels. Cependant, un écart subsiste entre les architectures vidéo contemporaines « sans état » et les théories classiques des modèles du monde centrées sur l'état. Ce travail comble cet écart en proposant une nouvelle taxonomie axée sur deux piliers : la Construction de l'État et la Modélisation de la Dynamique. Nous catégorisons la construction de l'état en paradigmes implicites (gestion du contexte) et explicites (compression latente), tandis que la modélisation de la dynamique est analysée à travers l'intégration des connaissances et la reformulation architecturale. De plus, nous préconisons une transition dans l'évaluation, de la fidélité visuelle vers des benchmarks fonctionnels, testant la persistance physique et le raisonnement causal. Nous concluons en identifiant deux frontières critiques : l'amélioration de la persistance via la mémoire pilotée par les données et la fidélité compressée, et l'avancée de la causalité grâce au découplage des facteurs latents et à l'intégration de préalables de raisonnement. En relevant ces défis, le domaine peut évoluer de la génération de vidéos visuellement plausibles vers la construction de simulateurs du monde robustes et polyvalents.
La génération vidéo constitue une pierre angulaire pour la construction de modèles du monde, où l'inférence contextuelle multimodale représente l'épreuve déterminante des capacités. À cette fin, nous présentons SkyReels-V3, un modèle de génération vidéo conditionnelle, construit sur un cadre unifié d'apprentissage multimodal en contexte avec des Transformers à diffusion. Le modèle SkyReels-V3 prend en charge trois paradigmes génératifs fondamentaux au sein d'une architecture unique : la synthèse vidéo à partir d'images de référence, l'extension vidéo-à-vidéo et la génération vidéo guidée par audio. (i) Le modèle image-à-vidéo de référence est conçu pour produire des vidéos haute fidélité avec une forte préservation de l'identité du sujet, une cohérence temporelle et une continuité narrative. Pour améliorer l'adhérence à la référence et la stabilité compositionnelle, nous concevons un pipeline complet de traitement des données qui exploite l'appariement inter-images, l'édition d'image et la réécriture sémantique, atténuant efficacement les artefacts de copier-coller. Pendant l'entraînement, une stratégie hybride image-vidéo combinée à une optimisation conjointe multi-résolution est employée pour améliorer la généralisation et la robustesse dans divers scénarios. (ii) Le modèle d'extension vidéo intègre une modélisation de la cohérence spatio-temporelle avec une compréhension vidéo à grande échelle, permettant à la fois une continuation fluide en plan unique et une transition intelligente multi-plans avec des schémas cinématographiques professionnels. (iii) Le modèle d'avatar parlant prend en charge la génération vidéo conditionnée par l'audio de durée minute en entraînant des motifs d'insertion de première-et-dernière image et en reconstruisant des paradigmes d'inférence à images clés. Sur la base d'une qualité visuelle assurée, la synchronisation audio-vidéo a été optimisée. Des évaluations approfondies démontrent que SkyReels-V3 atteint des performances à l'état de l'art ou quasi état de l'art sur les métriques clés incluant la qualité visuelle, le suivi des instructions et les métriques d'aspects spécifiques, approchant les performances des systèmes propriétaires leaders. Github : https://github.com/SkyworkAI/SkyReels-V3.
La recherche de tables est la tâche consistant à retrouver les tables les plus pertinentes dans de vastes corpus à partir de requêtes en langage naturel. Cependant, les écarts structurels et sémantiques entre le texte non structuré et les tables structurées rendent l'alignement des embeddings particulièrement difficile. Des méthodes récentes comme QGpT tentent d'enrichir la sémantique des tables en générant des requêtes synthétiques, mais elles reposent encore sur un échantillonnage partiel grossier des tables et des stratégies de fusion simples, ce qui limite la diversité sémantique et entrave un alignement efficace requête-table. Nous proposons STAR (Semantic Table Representation), un cadre léger qui améliore la représentation sémantique des tables par clustering sémantique et fusion pondérée. STAR applique d'abord un clustering K-means sensible aux en-têtes pour grouper les lignes sémantiquement similaires et sélectionne des instances centroïdes représentatives pour construire une table partielle diversifiée. Il génère ensuite des requêtes synthétiques spécifiques aux clusters pour couvrir complètement l'espace sémantique de la table. Enfin, STAR utilise des stratégies de fusion pondérée pour intégrer les embeddings des tables et des requêtes, permettant un alignement sémantique fin. Cette conception permet à STAR de capturer des informations complémentaires à partir de sources structurées et textuelles, améliorant l'expressivité des représentations tabulaires. Les expériences sur cinq benchmarks montrent que STAR obtient un Rappel constamment supérieur à QGpT sur tous les jeux de données, démontrant l'efficacité du clustering sémantique et de la fusion pondérée adaptative pour une représentation robuste des tables. Notre code est disponible à l'adresse https://github.com/adsl135789/STAR.
Les agents LLM généralistes sont souvent post-entraînés sur un ensemble restreint d'environnements mais déployés dans des domaines beaucoup plus vastes et non vus. Dans ce travail, nous étudions le défi du post-entraînement agentique lorsque les domaines de test finaux sont inconnus. Plus précisément, nous analysons quelles propriétés des environnements d'apprentissage par renforcement (RL) et quels choix de modélisation influencent le plus les performances hors domaine. Premièrement, nous identifions deux axes environnementaux qui corrèlent fortement avec la généralisation inter-domaines : (i) la richesse informationnelle de l'état, c'est-à-dire la quantité d'information que l'agent doit traiter à partir de l'état, et (ii) la complexité de la planification, estimée via l'accessibilité des objectifs et la longueur des trajectoires sous une politique de base. Il est à noter que le réalisme du domaine et la similarité textuelle ne sont pas les facteurs primaires ; par exemple, le domaine simple de type grille Sokoban conduit à une généralisation encore plus forte dans SciWorld que le domaine plus réaliste ALFWorld. Motivés par ces résultats, nous montrons en outre qu'augmenter uniquement la richesse informationnelle de l'état peut déjà améliorer efficacement la robustesse inter-domaines. Nous proposons une technique de randomisation, peu coûteuse et largement applicable : ajouter de petites quantités de caractéristiques distractives et non pertinentes pour l'objectif à l'état pour le rendre plus riche sans altérer la tâche. Au-delà des propriétés du côté environnement, nous examinons également plusieurs choix de modélisation : (a) un préchauffage par SFT ou un entraînement intermédiaire aide à prévenir l'oubli catastrophique durant le RL mais compromet la généralisation vers les domaines non inclus dans le mélange de données d'entraînement intermédiaire ; et (b) l'activation de la pensée pas-à-pas durant le RL, bien qu'elle n'améliore pas toujours les performances en domaine, joue un rôle crucial dans la préservation de la généralisation.
En tirant parti de la distillation multi-enseignants, les architectures visuelles agrégatives fournissent un modèle étudiant unifié qui conserve et améliore les capacités distinctes de multiples enseignants. Dans ce rapport technique, nous décrivons la version la plus récente de la famille de modèles C-RADIO, C-RADIOv4, qui s'appuie sur AM-RADIO/RADIOv2.5 dans sa conception, offrant des améliorations significatives sur des tâches en aval clés, à complexité computationnelle égale. Nous publions les variantes de modèles -SO400M (412M de paramètres) et -H (631M), toutes deux entraînées avec un ensemble mis à jour d'enseignants : SigLIP2, DINOv3 et SAM3. Outre les améliorations sur les métriques de base et les nouvelles capacités issues de l'imitation de SAM3, la famille de modèles C-RADIOv4 améliore encore la prise en charge de toute résolution, réintègre l'option ViTDet pour une efficacité considérablement accrue à haute résolution, et est accompagnée d'une licence permissive.
Les agents de recherche approfondie, conçus pour répondre à des questions complexes nécessitant un raisonnement sur plusieurs documents, peuvent accélérer considérablement le processus de recherche d’informations. L’annotation manuelle pour cette application s’avère extrêmement coûteuse en raison de trajectoires d’exploration longues et complexes. Nous proposons un pipeline agentique générant automatiquement des paires question-réponse de haute qualité, à difficulté contrôlée, pour un corpus donné et un niveau de difficulté cible. Notre pipeline, SAGE, comprend un générateur de données qui propose des paires question-réponse et un agent de recherche qui tente de résoudre la question générée et fournit un retour d’exécution au générateur. Ces deux composants interagissent sur plusieurs rounds pour affiner itérativement les paires question-réponse jusqu’à ce qu’elles atteignent le niveau de difficulté souhaité. Notre évaluation intrinsèque montre que SAGE génère des questions mobilisant des stratégies de raisonnement variées, tout en améliorant significativement la justesse et la difficulté des données produites. Notre évaluation extrinsèque démontre un gain de performance relatif allant jusqu’à 23 % sur des benchmarks populaires de recherche approfondie, en entraînant les agents avec nos données synthétiques. Des expériences supplémentaires indiquent que les agents entraînés sur nos données peuvent s’adapter, au moment de l’inférence, d’un système de recherche sur corpus fixe à une recherche Google, sans apprentissage supplémentaire.
De nombreux modèles Vision-Langage-Action (VLA) aplatissent les patchs d'image en une séquence de tokens 1D, affaiblissant ainsi les indices spatiaux 2D nécessaires à une manipulation précise. Nous présentons IVRA, une méthode légère et sans entraînement qui améliore la compréhension spatiale en exploitant des indices d'affinité déjà disponibles dans l'encodeur visuel intégré du modèle, sans nécessiter d'encodeur externe ni de réentraînement. IVRA injecte sélectivement ces signaux d'affinité dans une couche de modèle de langage où résident les caractéristiques au niveau de l'instance. Cette intervention au moment de l'inférence réaligne les interactions entre les tokens visuels et préserve mieux la structure géométrique tout en gardant tous les paramètres du modèle fixes. Nous démontrons la généralité d'IVRA en l'appliquant à diverses architectures VLA (LLaRA, OpenVLA et FLOWER) sur des benchmarks de simulation couvrant à la fois la manipulation 2D et 3D (VIMA et LIBERO) et sur diverses tâches de robotique réelle. Sur VIMA 2D, IVRA améliore le taux de réussite moyen de +4,2 % par rapport au modèle de référence LLaRA dans un régime à faible quantité de données. Sur LIBERO 3D, il apporte des gains constants par rapport aux modèles de référence OpenVLA et FLOWER, y compris des améliorations lorsque la précision de référence est proche de la saturation (de 96,3 % à 97,1 %). Tout le code et les modèles seront rendus publics. Les visualisations sont disponibles à l'adresse : jongwoopark7978.github.io/IVRA
Les systèmes d'agents conventionnels peinent souvent dans des environnements ouverts où la distribution des tâches dérive continuellement et où la supervision externe est rare. Leur dépendance à des ensembles d'outils statiques ou à un apprentissage hors ligne ne suit pas ces dynamiques, laissant les limites de capacité du système rigides et inconnues. Pour résoudre ce problème, nous proposons le paradigme de l'auto-évolution in situ. Cette approche traite les interactions séquentielles de tâches comme un flux continu d'expérience, permettant au système de distiller les retours d'exécution à court terme en capacités réutilisables à long terme, sans accès à des étiquettes de vérité terrain. Dans ce cadre, nous identifions l'évolution des outils comme la voie critique pour l'expansion des capacités, laquelle fournit des signaux de retour binaires et vérifiables. Au sein de ce cadre, nous développons Yunjue Agent, un système qui synthétise, optimise et réutilise itérativement des outils pour relever les défis émergents. Pour optimiser l'efficacité évolutive, nous introduisons en outre une stratégie d'Évolution par Lots Parallèles. Des évaluations empiriques sur cinq benchmarks diversifiés, dans un contexte de démarrage à froid, démontrent des gains de performance significatifs par rapport à des modèles de référence propriétaires. De plus, des évaluations complémentaires en démarrage à chaud confirment que les connaissances générales accumulées peuvent être transférées de manière transparente à de nouveaux domaines. Enfin, nous proposons une nouvelle métrique pour surveiller la convergence de l'évolution, servant de fonction analogue à la perte d'entraînement dans l'optimisation conventionnelle. Nous ouvrons le code source, les traces système et les outils évolués pour faciliter les recherches futures sur une intelligence résiliente et auto-évolutive.
L'alignement des grands modèles de langage (LLM) vise à faire correspondre leurs sorties aux préférences humaines, et l'alignement personnalisé adapte davantage les modèles aux utilisateurs individuels. Celui-ci repose sur des modèles de récompense personnalisés qui capturent les préférences spécifiques à chaque utilisateur et fournissent automatiquement un retour individualisé. Cependant, le développement de ces modèles se heurte à deux défis majeurs : la rareté des retours des utilisateurs individuels et la nécessité d'une adaptation efficace à de nouveaux utilisateurs. Nous soutenons que relever ces contraintes nécessite un changement de paradigme, passant de l'ajustement aux données pour apprendre les préférences à l'apprentissage du processus d'adaptation des préférences. Pour concrétiser cela, nous proposons le Méta-modèle de Récompense (MRM), qui reformule la modélisation personnalisée de la récompense comme un problème de méta-apprentissage. Plus précisément, nous représentons le modèle de récompense de chaque utilisateur comme une combinaison pondérée de fonctions de récompense de base, et nous optimisons l'initialisation de ces poids à l'aide d'un cadre de type MAML (Model-Agnostic Meta-Learning) pour favoriser une adaptation rapide avec un retour limité. Pour garantir la robustesse, nous introduisons l'Objectif de Personnalisation Robuste (RPO), qui accorde une importance accrue aux utilisateurs difficiles à modéliser lors de l'optimisation méta. Des expériences approfondies sur des ensembles de données de préférences personnalisées valident que le MRM améliore la personnalisation en few-shot, renforce la robustesse utilisateur et surpasse constamment les méthodes de référence.
Malgré l'adoption croissante des grands modèles de langage (LLM) dans les flux de travail de recherche scientifique, le support automatisé pour la rédaction de réponses aux relecteurs (rebuttal), une étape cruciale de la communication académique et de l'évaluation par les pairs, reste largement inexploré. Les approches existantes reposent généralement sur des LLM standards ou des pipelines simples, qui peinent à comprendre les longs contextes et échouent souvent à produire des réponses ciblées et persuasives. Dans cet article, nous proposons DRPG, un framework agentique pour la génération automatique de réponses aux relecteurs, qui fonctionne en quatre étapes : Décomposer les reviews en points de critique atomiques, Récupérer les preuves pertinentes dans l'article, Planifier les stratégies de réponse, et Générer les réponses en conséquence. Il est à noter que le Planificateur de DRPG atteint une précision de plus de 98 % pour identifier la direction de réponse la plus réalisable. Des expériences sur des données issues de conférences de premier plan démontrent que DRPG surpasse significativement les pipelines de réponse existants et atteint des performances dépassant le niveau humain moyen en utilisant uniquement un modèle de 8B. Notre analyse démontre en outre l'efficacité de la conception du planificateur et sa valeur pour fournir des suggestions multi-perspectives et explicables. Nous avons également montré que DRPG fonctionne bien dans un cadre multi-tours plus complexe. Ces résultats soulignent l'efficacité de DRPG et son potentiel à fournir un contenu de réponse de haute qualité et à soutenir la montée en charge des discussions académiques. Les codes de ce travail sont disponibles à l'adresse https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
L'une des caractéristiques les plus convaincantes des modèles de langage par diffusion discrète globale est leur capacité contextuelle bidirectionnelle globale. Cependant, les études existantes sur la diffusion par blocs tendent à introduire des prérequis autorégressifs qui, bien qu'utiles, peuvent entraîner une perte de cohérence globale au niveau macro. Pour retrouver une compréhension contextuelle globale tout en préservant les avantages du paradigme semi-autorégressif, nous proposons Diffusion dans la Diffusion, un cadre « ébauche-puis-affinage » conçu pour surmonter les problèmes d'irréversibilité et de myopie inhérents aux modèles de diffusion par blocs. Notre approche utilise d'abord la diffusion par blocs pour générer des ébauches rapides avec de petits blocs, puis affine ces ébauches via une diffusion bidirectionnelle globale offrant un champ réceptif plus étendu. Nous utilisons un remasquage par confiance instantané pour identifier les tokens les plus critiques nécessitant une modification, et appliquons un entraînement à échelle mixte pour étendre les capacités globales du modèle de diffusion par blocs. Les résultats empiriques démontrent que notre approche établit une nouvelle référence pour les modèles de diffusion discrète sur le jeu de données OpenWebText. En utilisant seulement 26 % du budget de fine-tuning des modèles de référence, nous réduisons la perplexité générative de 25,7 à 21,9, comblant significativement l'écart de performance avec les modèles autorégressifs.
L'alternance codique est une pratique répandue parmi la majorité multilingue mondiale, mais peu de benchmarks en reflètent fidèlement la complexité dans la communication quotidienne. Nous présentons PingPong, un benchmark pour des dialogues naturels d'alternance codique multipartite couvrant cinq combinaisons linguistiques, certaines étant trilingues. Notre jeu de données comprend des conversations rédigées par des humains entre 2 et 4 participants, présentant des structures authentiques et multithread où les réponses font fréquemment référence à des points bien antérieurs dans le dialogue. Nous démontrons que nos données sont nettement plus naturelles et structurellement diversifiées que les alternatives générées automatiquement, offrant une plus grande variation dans la longueur des messages, la dominance des locuteurs et la distance des réponses. Sur la base de ces dialogues, nous définissons trois tâches en aval : Question-Réponse, Résumé de Dialogue et Classification Thématique. L'évaluation de plusieurs modèles de langage de pointe sur PingPong révèle que les performances restent limitées sur des entrées en alternance codique, soulignant le besoin urgent de systèmes de TAL plus robustes capables de traiter les subtilités du discours multilingue réel.
La transcription précise et la diarisation des locuteurs des interactions orales enfant-adulte sont cruciales pour la recherche en développement et en clinique. Cependant, l'annotation manuelle est chronophage et difficile à mettre à l'échelle. Les systèmes automatisés existants reposent généralement sur des cascades de diarisation des locuteurs et de reconnaissance de la parole, ce qui peut entraîner une propagation des erreurs. Cet article présente un cadre unifié de bout en bout qui étend l'architecture encodeur-décodeur de Whisper pour modéliser conjointement la reconnaissance automatique de la parole (ASR) et la diarisation des rôles des locuteurs (enfant-adulte). L'approche proposée intègre : (i) un schéma d'apprentissage à sortie sérialisée qui émet des étiquettes de locuteur et des horodatages de début/fin, (ii) une tête de diarisation légère au niveau de la trame qui améliore les représentations encodeur discriminantes des locuteurs, (iii) une suppression des silences guidée par la diarisation pour une meilleure précision temporelle, et (iv) une procédure de décodage forcé basée sur un automate à états finis qui garantit des sorties structurellement valides. Des évaluations approfondies sur deux jeux de données démontrent des améliorations constantes et substantielles par rapport à deux systèmes de référence en cascade, atteignant des taux d'erreur sur les mots plus faibles en conversation multi-locuteurs et affichant une précision de diarisation compétitive pour les modèles Whisper-small et Whisper-large. Ces résultats soulignent l'efficacité et l'utilité pratique du cadre de modélisation conjointe proposé pour générer à grande échelle des transcriptions fiables avec attribution des locuteurs pour les interactions enfant-adulte. Le code et les poids des modèles sont publics.
Les modèles à mélange d'experts (MoE) sont généralement pré-entraînés avec des contraintes explicites d'équilibrage de charge pour garantir un routage statistiquement équilibré des experts. Malgré cela, nous observons que même les modèles MoE bien entraînés présentent un routage significativement déséquilibré. Ce comportement est sans doute naturel - et même souhaitable - car un routage déséquilibré permet aux modèles de concentrer les connaissances spécifiques à un domaine dans un sous-ensemble d'experts. Le parallélisme d'experts (EP) est conçu pour mettre à l'échelle les modèles MoE en répartissant les experts sur plusieurs dispositifs, mais repose sur l'hypothèse moins discutée d'un routage équilibré. En cas de déséquilibre extrême, l'EP peut acheminer un nombre disproportionné de tokens vers un petit nombre d'experts, entraînant des défaillances liées au calcul et à la mémoire sur les dispositifs surchargés lors du post-entraînement ou de l'inférence, où l'équilibrage explicite de charge est souvent inapplicable. Nous proposons le parallélisme d'experts à charge minimale (LLEP), un nouvel algorithme d'EP qui reroute dynamiquement les tokens excédentaires et les paramètres d'expert associés des dispositifs surchargés vers ceux sous-utilisés. Cela garantit que tous les dispositifs terminent leur charge de travail avec la latence collective minimale tout en respectant les contraintes mémoire. Sur différentes échelles de modèles, LLEP permet d'atteindre jusqu'à 5x d'accélération et 4x de réduction de l'utilisation de mémoire de pointe par rapport à l'EP standard. Cela permet un post-entraînement et une inférence plus rapides et à plus haut débit, avec environ 1,9x plus rapide pour gpt-oss-120b. Nous étayons notre méthode par une analyse théorique approfondie et des évaluations empiriques complètes, incluant des études d'ablation. Ces résultats éclairent les compromis clés et permettent un cadre principiel pour le réglage d'hyperparamètres spécifiques au matériel afin d'atteindre des performances optimales.
La gestion efficace du cache clé-valeur (KV) est cruciale pour le déploiement pratique des grands modèles de langage (LLM), mais les techniques de compression existantes impliquent souvent un compromis entre dégradation des performances et surcharge computationnelle. Nous proposons une méthode novatrice d'éviction du cache KV par gating pour les LLM à poids figés, atteignant des taux de compression élevés avec un coût computationnel négligeable. Notre approche introduit des modules de gating légers par attention sink pour identifier et conserver les paires KV critiques, et s'intègre de manière transparente aux phases de préremplissage et de décodage. L'algorithme d'entraînement du gate proposé s'appuie sur des passes avant d'un LLM, évitant la rétropropagation coûteuse, tout en obtenant une forte généralisation tâche-agnostique via un objectif de reconstruction indépendant de la tâche. Des expériences approfondies sur les familles Qwen2.5-1M, Qwen3 et Gemma3 montrent que notre méthode maintient des performances quasi sans perte tout en évitant jusqu'à 70% du cache KV. Les résultats sont cohérents sur un large éventail de tâches, incluant la compréhension de contexte long, l'analyse de code et le raisonnement mathématique, démontrant la généricité de notre approche.
Les grands modèles de langage sont de plus en plus optimisés pour le raisonnement approfondi, privilégiant l'exécution correcte de tâches complexes au détriment de la conversation générale. Nous étudions si cette focalisation sur le calcul crée un "effet tunnel" qui ignore la sécurité dans les situations critiques. Nous présentons MortalMATH, un benchmark de 150 scénarios où des utilisateurs demandent de l'aide en algèbre tout en décrivant des urgences vitales de plus en plus graves (par exemple, des symptômes d'AVC, une chute libre). Nous observons une nette divergence comportementale : les modèles généralistes (comme Llama-3.1) refusent avec succès l'aide mathématique pour se concentrer sur le danger. En revanche, les modèles spécialisés dans le raisonnement (comme Qwen-3-32b et GPT-5-nano) ignorent souvent complètement l'urgence, maintenant un taux d'accomplissement des tâches supérieur à 95 % tandis que l'utilisateur décrit une situation mortelle. De plus, le temps de calcul nécessaire au raisonnement introduit des délais dangereux : jusqu'à 15 secondes avant qu'une aide potentielle ne soit proposée. Ces résultats suggèrent qu'entraîner les modèles à poursuivre obstinément des réponses correctes pourrait leur faire désapprendre involontairement les instincts de survie nécessaires à un déploiement sécurisé.
La conception d'interfaces utilisateur (UI) est une étape cruciale lors du lancement de produits, de la création de portfolios ou de la personnalisation de projets. Pourtant, les utilisateurs finaux sans expertise en design ont souvent du mal à formuler leur intention et à faire confiance aux choix de conception. Les outils existants basés sur des exemples favorisent soit une exploration large, ce qui peut entraîner un sentiment de submersion et une dérive conceptuelle, soit l'adaptation d'un seul exemple, risquant ainsi une fixation design. Nous présentons UI Remix, un système interactif qui soutient la conception d'UI mobiles via un workflow de conception piloté par les exemples. Propulsé par un modèle de génération augmentée par récupération multimodale (MMRAG), UI Remix permet la recherche itérative, la sélection et l'adaptation d'exemples aux niveaux global (interface entière) et local (composant). Pour instaurer la confiance, il présente des indicateurs de transparence des sources tels que les notations, le nombre de téléchargements et les informations sur le développeur. Dans une étude empirique menée auprès de 24 utilisateurs finaux, UI Remix a significativement amélioré la capacité des participants à atteindre leurs objectifs de conception, a facilité une itération efficace et a encouragé l'exploration de conceptions alternatives. Les participants ont également indiqué que les indicateurs de transparence des sources renforçaient leur confiance dans l'adaptation des exemples. Nos résultats suggèrent de nouvelles directions pour les systèmes pilotés par l'IA qui permettent aux utilisateurs finaux de concevoir avec un meilleur contrôle, une plus grande confiance et une ouverture accrue à l'exploration.
Les matrices d'attention sont fondamentales pour la recherche sur les transformers, soutenant un large éventail d'applications incluant l'interprétabilité, la visualisation, la manipulation et la distillation. Pourtant, la plupart des analyses existantes se concentrent sur des têtes ou des couches d'attention individuelles, ne tenant pas compte du comportement global du modèle. Bien que des efforts antérieurs aient étendu les formulations de l'attention à travers plusieurs têtes via des moyennes et des multiplications matricielles, ou aient incorporé des composants tels que la normalisation et les FFN, une représentation unifiée et complète qui encapsule tous les blocs du transformer fait encore défaut. Nous comblons cette lacune en introduisant TensorLens, une nouvelle formulation qui capture l'ensemble du transformer comme un unique opérateur linéaire dépendant de l'entrée, exprimé par un tenseur d'interaction-attention d'ordre élevé. Ce tenseur encode conjointement l'attention, les FFN, les activations, les normalisations et les connexions résiduelles, offrant une représentation linéaire théoriquement cohérente et expressive du calcul du modèle. TensorLens est théoriquement fondé et notre validation empirique montre qu'il produit des représentations plus riches que les méthodes précédentes d'agrégation de l'attention. Nos expériences démontrent que le tenseur d'attention peut servir de base puissante pour développer des outils visant l'interprétabilité et la compréhension des modèles. Notre code est fourni en supplément.
Les agents de recherche alimentés par des modèles de langage (LLM) sont de plus en plus utilisés pour des tâches de recherche d'information multi-étapes, mais la communauté de la RI manque encore d'une compréhension empirique de la manière dont les sessions de recherche agentiques se déroulent et dont les preuves récupérées sont utilisées. Cet article présente une analyse à grande échelle des logs de recherche agentique basée sur 14,44 millions de requêtes (3,97 millions de sessions) collectées depuis DeepResearchGym, une API de recherche open source accessible par des clients agentiques externes. Nous segmentons les logs en sessions, attribuons des intentions au niveau de la session et des étiquettes de reformulation des requêtes étape par étape en utilisant une annotation basée sur des LLM, et proposons le Taux d'Adoption de Termes Contexte-Drivé (CTAR) pour quantifier si les nouveaux termes introduits dans les requêtes sont traçables vers les preuves précédemment récupérées. Nos analyses révèlent des schémas comportementaux distinctifs. Premièrement, plus de 90 % des sessions multi-tours contiennent au maximum dix étapes, et 89 % des intervalles entre les étapes sont inférieurs à une minute. Deuxièmement, le comportement varie selon l'intention. Les sessions de recherche factuelle présentent une forte répétition qui augmente avec le temps, tandis que les sessions nécessitant un raisonnement maintiennent une exploration plus large. Troisièmement, les agents réutilisent les preuves entre les étapes. En moyenne, 54 % des nouveaux termes de requête introduits apparaissent dans le contexte des preuves accumulées, avec des contributions des étapes antérieures au-delà de la récupération la plus récente. Ces résultats suggèrent que la recherche agentique pourrait bénéficier d'un arrêt anticipé sensible à la répétition, de budgets de récupération adaptatifs selon l'intention, et d'un suivi explicite du contexte inter-étapes. Nous prévoyons de publier les logs anonymisés pour soutenir les recherches futures.
L'apprentissage par renforcement (RL) a montré des résultats prometteurs dans le contrôle actif des écoulements (AFC), mais les progrès dans ce domaine restent difficiles à évaluer car les études existantes reposent sur des schémas d'observation et d'actionnement, des configurations numériques et des protocoles d'évaluation hétérogènes. Les benchmarks AFC actuels tentent de résoudre ces problèmes, mais ils dépendent fortement de solveurs de dynamique des fluides numérique (CFD) externes, ne sont pas entièrement différentiables et offrent un support limité pour les écoulements 3D et les systèmes multi-agents. Pour surmonter ces limitations, nous présentons FluidGym, la première suite de benchmarks autonome et entièrement différentiable pour le RL en AFC. Entièrement développée dans PyTorch sur la base du solveur accéléré par GPU PICT, FluidGym s'exécute dans une pile Python unique, ne nécessite aucun logiciel CFD externe et fournit des protocoles d'évaluation standardisés. Nous présentons des résultats de référence avec PPO et SAC et publions tous les environnements, jeux de données et modèles entraînés comme ressources publiques. FluidGym permet une comparaison systématique des méthodes de contrôle, établit une base évolutive pour la recherche future sur le contrôle des écoulements par apprentissage et est disponible à l'adresse https://github.com/safe-autonomous-systems/fluidgym.
Alors que les modèles de langage multimodaux (MLLM) acquièrent des capacités de raisonnement plus robustes pour traiter des instructions complexes impliquant plusieurs images, cette avancée pourrait engendrer de nouveaux risques en matière de sécurité. Nous étudions ce problème en présentant MIR-SafetyBench, le premier benchmark axé sur la sécurité du raisonnement multi-images, qui comprend 2 676 instances réparties selon une taxonomie de 9 relations multi-images. Nos évaluations approfondies sur 19 MLLM révèlent une tendance préoccupante : les modèles dotés des capacités de raisonnement multi-images les plus avancées peuvent s'avérer plus vulnérables sur MIR-SafetyBench. Au-delà des taux de réussite des attaques, nous constatons que de nombreuses réponses étiquetées comme sûres sont superficielles, souvent motivées par une incompréhension ou par des réponses évasives et non engagées. Nous observons en outre que les générations non sécurisées présentent en moyenne une entropie d'attention plus faible que les générations sûres. Cette signature interne suggère un risque potentiel que les modèles se concentrent excessivement sur la résolution de la tâche tout en négligeant les contraintes de sécurité. Notre code et nos données sont disponibles à l'adresse https://github.com/thu-coai/MIR-SafetyBench.
La compression des tokens visuels est largement adoptée pour améliorer l'efficacité d'inférence des Grands Modèles Vision-Langage (GVL), permettant leur déploiement dans des scénarios sensibles à la latence et aux ressources limitées. Cependant, les travaux existants se sont principalement concentrés sur l'efficacité et les performances, tandis que les implications sécuritaires de la compression des tokens visuels demeurent largement inexplorées. Dans ce travail, nous révélons d'abord que la compression des tokens visuels dégrade substantiellement la robustesse des GVL : les modèles robustes lors de l'inférence non compressée deviennent hautement vulnérables une fois la compression activée. Ces vulnérabilités sont spécifiques à l'état ; les modes de défaillance n'émergent qu'en configuration compressée et disparaissent complètement lorsque la compression est désactivée, les rendant particulièrement cachés et difficiles à diagnostiquer. En analysant les étapes clés du processus de compression, nous identifions l'instabilité du classement d'importance des tokens comme la cause principale de cette dégradation de robustesse. De petites perturbations imperceptibles peuvent altérer significativement le classement des tokens, amenant le mécanisme de compression à rejeter par erreur des informations critiques pour la tâche et provoquant in fine l'échec du modèle. Motivés par cette observation, nous proposons une Attaque Sensible à la Compression pour étudier et exploiter systématiquement cette vulnérabilité. L'ASC cible directement le mécanisme de sélection des tokens et induit des défaillances exclusivement lors de l'inférence compressée. Nous étendons cette approche à des scénarios boîte noire plus réalistes et introduisons l'ASC par Transfert, où ni le modèle cible ni la configuration de compression ne sont accessibles. Nous évaluons ensuite les défenses potentielles et constatons qu'elles n'offrent qu'une protection limitée. Des expérimentations approfondies sur divers modèles, jeux de données et méthodes de compression montrent que la compression des tokens visuels compromet significativement la robustesse, révélant un compromis efficacité-sécurité précédemment négligé.
La fiabilité des grands modèles de langage (LLM) dans des domaines à haut risque comme la santé, le droit et la découverte scientifique est souvent compromise par des hallucinations. Ces échecs proviennent généralement de deux sources : les hallucinations liées aux données et les hallucinations liées au raisonnement. Cependant, les méthodes de détection existantes ne traitent généralement qu'une seule source et s'appuient sur des heuristiques spécifiques aux tâches, limitant leur généralisation à des scénarios complexes. Pour surmonter ces limitations, nous introduisons la Borne de Risque d'Hallucination, un cadre théorique unifié qui décompose formellement le risque d'hallucination en composantes liées aux données et au raisonnement, respectivement associées à des incohérences lors de l'entraînement et à des instabilités lors de l'inférence. Cela fournit une base principielle pour analyser comment les hallucinations émergent et évoluent. Sur cette base, nous présentons HalluGuard, un score basé sur le NTK qui exploite la géométrie induite et les représentations capturées par le NTK pour identifier conjointement les hallucinations liées aux données et au raisonnement. Nous évaluons HalluGuard sur 10 benchmarks diversifiés, 11 lignes de base compétitives et 9 architectures de LLM populaires, obtenant systématiquement des performances à l'état de l'art pour détecter diverses formes d'hallucinations des LLM.
RouteMoA améliore les performances des LLM grâce à une collaboration en couches, mais sa topologie dense augmente les coûts et la latence. Les méthodes existantes utilisent des juges LLM pour filtrer les réponses, mais nécessitent toujours que tous les modèles effectuent une inférence avant le jugement, sans réduire efficacement les coûts. Elles manquent également de critères de sélection des modèles et peinent avec de grands pools de modèles, où l'inférence complète est coûteuse et peut dépasser les limites du contexte. Pour résoudre ce problème, nous proposons RouteMoA, un framework de mélange d'agents efficace avec routage dynamique. Il utilise un évaluateur léger pour effectuer un premier tri en prédisant la performance granulaire à partir de la requête, réduisant les candidats à un sous-ensemble prometteur sans inférence. Un mélange de juges affine ensuite ces scores via une auto-évaluation et une évaluation croisée légères basées sur les sorties existantes des modèles, fournissant une correction a posteriori sans inférence supplémentaire. Enfin, un mécanisme de classement des modèles les sélectionne en équilibrant performance, coût et latence. RouteMoA surpasse le MoA sur diverses tâches et tailles de pool de modèles, réduisant le coût de 89,8 % et la latence de 63,6 % dans le pool de modèles à grande échelle.
La morphing 3D texturée vise à générer des transitions fluides et plausibles entre deux actifs 3D, en préservant à la fois la cohérence structurelle et l'apparence à grain fin. Cette capacité est cruciale non seulement pour faire progresser la recherche sur la génération 3D, mais aussi pour des applications pratiques dans l'animation, l'édition et la création de contenu numérique. Les approches existantes opèrent soit directement sur la géométrie, les limitant à une interpolation de forme uniquement en négligeant les textures, soit étendent des stratégies d'interpolation 2D à la 3D, ce qui provoque souvent une ambiguïté sémantique, un désalignement structurel et un flou textural. Ces défis soulignent la nécessité de préserver conjointement la cohérence géométrique, l'alignement des textures et la robustesse tout au long du processus de transition. Pour y remédier, nous proposons Interp3D, un nouveau cadre d'interpolation 3D texturée ne nécessitant pas d'entraînement. Il exploite des préalables génératifs et adopte un principe d'alignement progressif pour garantir à la fois la fidélité géométrique et la cohérence texturale. En partant d'une interpolation sémantiquement alignée dans l'espace des conditions, Interp3D impose une cohérence structurelle via une interpolation de structure guidée par SLAT (Structured Latent), et transfère enfin les détails d'apparence par une fusion texturale à grain fin. Pour des évaluations complètes, nous avons constitué un jeu de données dédié, Interp3DData, avec des niveaux de difficulté gradués, et évaluons les résultats de génération sur la fidélité, la fluidité de la transition et la plausibilité. Les métriques quantitatives et les études humaines démontrent les avantages significatifs de notre approche par rapport aux méthodes précédentes. Le code source est disponible à l'adresse https://github.com/xiaolul2/Interp3D.