papers.description
Nous présentons Qwen-Image, un modèle de base pour la génération d'images de la série Qwen, qui réalise des avancées significatives dans le rendu de textes complexes et l'édition précise d'images. Pour relever les défis du rendu de textes complexes, nous concevons un pipeline de données complet incluant la collecte à grande échelle, le filtrage, l'annotation, la synthèse et l'équilibrage des données. De plus, nous adoptons une stratégie d'entraînement progressive qui commence par le rendu de non-texte à texte, évolue des entrées textuelles simples vers des entrées complexes, et s'étend progressivement jusqu'aux descriptions au niveau paragraphe. Cette approche d'apprentissage curriculaire améliore considérablement les capacités natives de rendu de texte du modèle. En conséquence, Qwen-Image excelle non seulement dans les langues alphabétiques comme l'anglais, mais réalise également des progrès remarquables dans des langues logographiques plus complexes comme le chinois. Pour améliorer la cohérence de l'édition d'images, nous introduisons un paradigme d'entraînement multi-tâches amélioré qui intègre non seulement les tâches traditionnelles de texte-à-image (T2I) et texte-image-à-image (TI2I), mais aussi la reconstruction image-à-image (I2I), alignant efficacement les représentations latentes entre Qwen2.5-VL et MMDiT. Par ailleurs, nous alimentons séparément l'image originale dans Qwen2.5-VL et l'encodeur VAE pour obtenir respectivement des représentations sémantiques et reconstructives. Ce mécanisme de double encodage permet au module d'édition de trouver un équilibre entre la préservation de la cohérence sémantique et le maintien de la fidélité visuelle. Qwen-Image atteint des performances de pointe, démontrant ses fortes capacités à la fois en génération et en édition d'images sur plusieurs benchmarks.
La génération augmentée par la récupération (RAG) sur des documents longs implique généralement de diviser le texte en segments plus petits, qui servent d'unités de base pour la récupération. Cependant, en raison des dépendances présentes dans le document original, les informations contextuelles sont souvent essentielles pour interpréter chaque segment avec précision. Pour résoudre ce problème, des travaux antérieurs ont exploré l'encodage de fenêtres contextuelles plus longues afin de produire des embeddings pour des segments plus étendus. Malgré ces efforts, les gains en matière de récupération et de tâches en aval restent limités. Cela s'explique par deux raisons principales : (1) les segments plus longs sollicitent davantage la capacité des modèles d'embedding en raison de la quantité accrue d'informations à encoder, et (2) de nombreuses applications réelles nécessitent encore de retourner des preuves localisées en raison des contraintes liées à la bande passante des modèles ou des humains. Nous proposons une approche alternative à ce défi en représentant des segments courts de manière conditionnée par une fenêtre contextuelle plus large, afin d'améliorer les performances de récupération — c'est-à-dire en situant la signification d'un segment dans son contexte. Nous démontrons en outre que les modèles d'embedding existants ne sont pas bien adaptés pour encoder efficacement un tel contexte situé, et introduisons donc un nouveau paradigme d'entraînement pour développer les modèles d'embedding situés (SitEmb). Pour évaluer notre méthode, nous avons constitué un ensemble de données de récupération d'intrigues de livres spécialement conçu pour évaluer les capacités de récupération située. Sur ce benchmark, notre modèle SitEmb-v1, basé sur BGE-M3, surpasse largement les modèles d'embedding de pointe, y compris plusieurs modèles comptant jusqu'à 7-8 milliards de paramètres, avec seulement 1 milliard de paramètres. Notre modèle SitEmb-v1.5 à 8 milliards de paramètres améliore encore les performances de plus de 10 % et montre des résultats solides dans différentes langues et pour plusieurs applications en aval.
La modélisation de cellules virtuelles représente une frontière émergente à l'intersection de l'intelligence artificielle et de la biologie, visant à prédire quantitativement des grandeurs telles que les réponses à diverses perturbations. Cependant, la construction autonome de modèles computationnels pour des cellules virtuelles est un défi en raison de la complexité des systèmes biologiques, de l'hétérogénéité des modalités de données et du besoin d'expertise spécifique à plusieurs domaines. Nous présentons ici CellForge, un système agentique qui exploite un cadre multi-agents pour transformer directement les ensembles de données biologiques et les objectifs de recherche en modèles computationnels optimisés pour les cellules virtuelles. Plus précisément, avec comme seules entrées des données multi-omiques brutes de cellules uniques et des descriptions de tâches, CellForge produit à la fois une architecture de modèle optimisée et un code exécutable pour l'entraînement des modèles de cellules virtuelles et l'inférence. Le framework intègre trois modules principaux : l'Analyse de Tâches pour la caractérisation des ensembles de données présentés et la récupération de la littérature pertinente, la Conception de Méthodes, où des agents spécialisés développent de manière collaborative des stratégies de modélisation optimisées, et l'Exécution d'Expériences pour la génération automatisée de code. Les agents du module de Conception sont séparés en experts avec des perspectives différentes et un modérateur central, et doivent échanger de manière collaborative des solutions jusqu'à atteindre un consensus raisonnable. Nous démontrons les capacités de CellForge dans la prédiction de perturbations à l'échelle de cellules uniques, en utilisant six ensembles de données divers qui incluent des knockouts géniques, des traitements médicamenteux et des stimulations de cytokines à travers plusieurs modalités. CellForge surpasse systématiquement les méthodes état-de-l'art spécifiques à chaque tâche. Globalement, CellForge montre comment l'interaction itérative entre des agents LLM avec des perspectives différentes fournit de meilleures solutions que l'approche directe d'un défi de modélisation. Notre code est disponible publiquement à l'adresse https://github.com/gersteinlab/CellForge.
Les modèles de raisonnement excellent dans la résolution de problèmes complexes, mais présentent un compromis préoccupant entre leurs capacités de raisonnement et leur aptitude à suivre des instructions. Les approches existantes pour améliorer le suivi des instructions reposent sur des modèles externes plus puissants, ce qui crée des goulots d'étranglement méthodologiques et des limitations pratiques, notamment des coûts accrus et des contraintes d'accessibilité. Nous proposons un cadre d'apprentissage par renforcement auto-supervisé qui exploite les signaux internes des modèles de raisonnement eux-mêmes pour améliorer leur aptitude à suivre des instructions sans supervision externe. Des expériences approfondies démontrent que notre cadre améliore significativement les capacités de suivi des instructions tout en maintenant les performances de raisonnement, offrant ainsi une approche évolutive et rentable pour renforcer le suivi des instructions dans les modèles de raisonnement. Les données et le code sont disponibles publiquement à l'adresse suivante : https://github.com/Rainier-rq/verl-if.
Les grands modèles de langage (LLMs) ont démontré un succès remarquable dans de nombreux domaines, mais leur intégration dans les applications de cybersécurité reste limitée en raison d'un manque de données de cybersécurité polyvalentes, de la complexité représentationnelle, ainsi que des préoccupations liées à la sécurité et à la réglementation. Pour combler cette lacune, nous avons précédemment introduit Foundation-Sec-8B, un LLM axé sur la cybersécurité adapté au fine-tuning pour des tâches en aval. Cependant, ce modèle n'était pas conçu pour des interactions de type chat ou pour suivre des instructions. Dans ce rapport, nous présentons Foundation-Sec-8B-Instruct : un modèle spécifiquement entraîné pour des dialogues polyvalents en cybersécurité. Basé sur Foundation-Sec-8B, il combine des connaissances spécifiques au domaine avec des capacités de suivi d'instructions, de conversation et d'alignement sur les préférences humaines pour produire des réponses pertinentes et de haute qualité. Des évaluations approfondies montrent que Foundation-Sec-8B-Instruct surpasse Llama 3.1-8B-Instruct sur une gamme de tâches de cybersécurité tout en égalant ses performances en matière de suivi d'instructions. Il est également compétitif avec GPT-4o-mini sur les tâches de renseignement sur les cybermenaces et de suivi d'instructions. Nous envisageons que Foundation-Sec-8B-Instruct devienne un assistant indispensable dans les flux de travail quotidiens des professionnels de la cybersécurité. Nous rendons le modèle public à l'adresse suivante : https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.
La majorité des protéines humaines restent non ciblées par des médicaments, avec plus de 96 % des protéines humaines inexploitées par les thérapeutiques approuvées. Bien que le criblage virtuel basé sur la structure promette d’élargir le protéome ciblable, les méthodes existantes manquent de précision au niveau atomique et échouent à prédire l’affinité de liaison, limitant ainsi leur impact translationnel. Nous présentons AuroBind, un cadre de criblage virtuel évolutif qui affine un modèle structural personnalisé au niveau atomique sur des données chimiogénomiques à l’échelle du million. AuroBind intègre une optimisation directe des préférences, une auto-distillation à partir de complexes de haute confiance et une stratégie d’accélération enseignant-élève pour prédire conjointement les structures liées aux ligands et l’affinité de liaison. Les modèles proposés surpassent les modèles de pointe sur des benchmarks structurels et fonctionnels tout en permettant un criblage 100 000 fois plus rapide à travers des bibliothèques de composés ultra-larges. Dans un criblage prospectif sur dix cibles pertinentes pour des maladies, AuroBind a atteint des taux de succès expérimentaux de 7 à 69 %, avec des composés de tête atteignant des puissances allant du sub-nanomolaire au picomolaire. Pour les récepteurs orphelins couplés aux protéines G (RCPG) GPR151 et GPR160, AuroBind a identifié à la fois des agonistes et des antagonistes avec des taux de succès de 16 à 30 %, et des essais fonctionnels ont confirmé la modulation de GPR160 dans des modèles de cancer du foie et de la prostate. AuroBind offre un cadre généralisable pour l’apprentissage structure-fonction et le criblage moléculaire à haut débit, comblant ainsi le fossé entre la prédiction de structure et la découverte thérapeutique.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis des progrès impressionnants dans la compréhension et la génération omni-modales. Cependant, l'entraînement de LLMs omni-modaux reste un défi majeur en raison des architectures de modèles hétérogènes nécessaires pour traiter des modalités diverses, ce qui exige une conception de système sophistiquée pour un entraînement à grande échelle efficace. Les frameworks existants intègrent généralement la définition du modèle avec la logique parallèle, ce qui entraîne une scalabilité limitée et une surcharge d'ingénierie substantielle pour un entraînement omni-modal de bout en bout. % Nous présentons \veomni, un framework d'entraînement modulaire et efficace pour accélérer le développement de LLMs omni-modaux. \veomni introduit des recettes distribuées centrées sur le modèle qui découplent la communication du calcul, permettant un parallélisme 3D efficace sur les LLMs omni-modaux. \veomni propose également une interface de configuration flexible supportant l'intégration transparente de nouvelles modalités avec un minimum de modifications de code. % En utilisant \veomni, un modèle omni-modal de type mixture-of-experts (MoE) avec 30 milliards de paramètres peut être entraîné avec un débit de plus de 2 800 tokens/sec/GPU et s'étendre à des contextes de 160K tokens via un parallélisme 3D sur 128 GPU, démontrant ainsi son efficacité et sa scalabilité supérieures pour l'entraînement de grands LLMs omni-modaux.
Pour fonctionner efficacement dans le monde réel, les robots doivent intégrer un raisonnement multimodal avec une génération d'actions précise. Cependant, les modèles vision-langage-action (VLA) existants sacrifient souvent l'un pour l'autre, limitent leurs capacités à des données de manipulation spécifiques à une tâche, et souffrent d'un oubli catastrophique des capacités pré-entraînées en vision-langage. Pour combler cette lacune, nous introduisons InstructVLA, un modèle VLA de bout en bout qui préserve le raisonnement flexible des grands modèles vision-langage (VLM) tout en offrant des performances de manipulation de pointe. InstructVLA introduit un nouveau paradigme d'entraînement, le Vision-Language-Action Instruction Tuning (VLA-IT), qui utilise un entraînement multimodal avec une adaptation de type mixture-of-experts pour optimiser conjointement le raisonnement textuel et la génération d'actions sur des corpus VLM standards et un ensemble de données VLA-IT de 650 000 échantillons soigneusement sélectionnés. Sur les tâches in-domain de SimplerEnv, InstructVLA réalise une amélioration de 30,5 % par rapport à SpatialVLA. Pour évaluer la généralisation, nous introduisons SimplerEnv-Instruct, un benchmark de 80 tâches nécessitant un contrôle en boucle fermée et une compréhension de haut niveau des instructions, où il surpasse un OpenVLA fine-tuné de 92 % et un expert en action assisté par GPT-4o de 29 %. De plus, InstructVLA dépasse les VLM de référence sur les tâches multimodales et montre une mise à l'échelle au moment de l'inférence en exploitant le raisonnement textuel pour améliorer les performances de manipulation dans des environnements simulés et réels. Ces résultats démontrent le potentiel d'InstructVLA pour combiner une interaction homme-robot intuitive et pilotable avec un apprentissage de politiques efficace.
Les jeux de données à grande échelle sont fondamentaux pour la recherche et le développement en traitement automatique du langage naturel. Cependant, les approches actuelles font face à trois défis majeurs : (1) la dépendance à des sources sous licence ambiguë, limitant l'utilisation, le partage et les œuvres dérivées ; (2) des publications de jeux de données statiques qui empêchent les contributions de la communauté et réduisent leur longévité ; et (3) des processus d'assurance qualité restreints aux équipes de publication plutôt que de tirer parti de l'expertise communautaire. Pour répondre à ces limitations, nous introduisons deux contributions : l'approche Dynaword et Danish Dynaword. L'approche Dynaword est un cadre pour la création de jeux de données ouverts à grande échelle, pouvant être continuellement mis à jour grâce à la collaboration communautaire. Danish Dynaword est une implémentation concrète qui valide cette approche et démontre son potentiel. Danish Dynaword contient plus de quatre fois plus de tokens que les publications comparables, est exclusivement sous licence ouverte, et a reçu de multiples contributions issues de l'industrie et de la recherche. Le référentiel inclut des tests légers pour garantir le formatage, la qualité et la documentation des données, établissant ainsi un cadre durable pour les contributions continues de la communauté et l'évolution des jeux de données.
La compression des tokens visuels est essentielle pour les modèles de vision et langage de grande envergure (LVLMs) afin de traiter efficacement des entrées à haute résolution. Les méthodes existantes, qui adoptent généralement des ratios de compression fixes, ne peuvent pas s'adapter à des scènes de complexité variable, entraînant souvent une élagage imprécis qui supprime des tokens visuels informatifs et dégrade les performances du modèle. Pour résoudre ce problème, nous introduisons un cadre d'élagage dynamique, GlimpsePrune, inspiré par la cognition humaine. Il prend un « aperçu » basé sur les données et élimine les tokens visuels non pertinents en une seule passe avant la génération de la réponse. Cette approche élimine 92,6 % des tokens visuels tout en conservant en moyenne pleinement les performances de référence sur des tâches de question-réponse libre. La réduction des coûts de calcul permet également un réglage plus efficace : une version améliorée, GlimpsePrune+, atteint 110 % des performances de référence tout en maintenant un taux d'élagage similairement élevé. Notre travail ouvre une nouvelle voie pour la construction de LVLMs plus puissants et efficaces.
Les modèles de langage à diffusion (dLLMs) permettent des avancées significatives en matière de raisonnement et de décodage parallèle, mais souffrent d'une complexité computationnelle quadratique prohibitive et d'une surcharge mémoire importante lors de l'inférence. Les techniques actuelles de mise en cache accélèrent le décodage en stockant les états complets des couches, mais imposent une utilisation mémoire substantielle qui limite les applications à contexte long. Notre analyse des motifs d'attention dans les dLLMs révèle une sparsité inter-couches persistante, avec des tokens pivots restant saillants à travers les étapes de décodage et des tokens de faible pertinence demeurant non importants, ce qui motive une éviction sélective du cache. Nous proposons Sparse-dLLM, le premier cadre sans entraînement intégrant une éviction dynamique du cache avec une attention sparse via une mise en cache sparse bidirectionnelle retardée. En exploitant la stabilité de la saillance des tokens au fil des étapes, il conserve les tokens critiques et évacue dynamiquement les entrées de préfixe/suffixe non importantes à l'aide d'une stratégie guidée par l'attention. Des expériences approfondies sur les séries LLaDA et Dream démontrent que Sparse-dLLM atteint un débit jusqu'à 10 fois supérieur à celui des dLLMs classiques, avec des performances comparables et des coûts mémoire de pointe similaires, surpassant les méthodes précédentes en termes d'efficacité et d'efficience.
Nous présentons Voxlect, un nouveau benchmark pour la modélisation des dialectes et des langues régionales à l'échelle mondiale en utilisant des modèles de base pour la parole. Plus précisément, nous rapportons des évaluations complètes de benchmark sur les dialectes et les variétés linguistiques régionales en anglais, arabe, mandarin et cantonais, tibétain, langues indiennes, thaï, espagnol, français, allemand, portugais brésilien et italien. Notre étude a utilisé plus de 2 millions d'énoncés d'entraînement provenant de 30 corpus de parole disponibles publiquement et accompagnés d'informations dialectales. Nous évaluons les performances de plusieurs modèles de base pour la parole largement utilisés dans la classification des dialectes de parole. Nous examinons la robustesse des modèles dialectaux dans des conditions bruyantes et présentons une analyse d'erreur qui met en évidence des résultats de modélisation alignés avec la continuité géographique. En plus de l'évaluation de la classification des dialectes, nous démontrons plusieurs applications en aval rendues possibles par Voxlect. Plus précisément, nous montrons que Voxlect peut être appliqué pour enrichir les ensembles de données existants de reconnaissance vocale avec des informations dialectales, permettant une analyse plus détaillée des performances de la reconnaissance automatique de la parole (ASR) à travers les variations dialectales. Voxlect est également utilisé comme un outil pour évaluer les performances des systèmes de génération de parole. Voxlect est disponible publiquement sous la licence de la famille RAIL à l'adresse suivante : https://github.com/tiantiaf0627/voxlect.
L'attribution des œuvres d'art en général et des peintures en particulier a toujours été un enjeu dans le domaine de l'art. L'émergence de modèles d'intelligence artificielle puissants capables de générer et d'analyser des images crée de nouveaux défis pour l'attribution des peintures. D'une part, les modèles d'IA peuvent créer des images imitant le style d'un peintre, qui peuvent être incorrectement attribuées, par exemple, par d'autres modèles d'IA. D'autre part, les modèles d'IA peuvent ne pas être capables d'identifier correctement l'artiste pour des peintures réelles, conduisant les utilisateurs à attribuer incorrectement les œuvres. Dans cet article, ces deux problèmes sont étudiés expérimentalement à l'aide de modèles d'IA de pointe pour la génération et l'analyse d'images sur un large ensemble de données comprenant près de 40 000 peintures provenant de 128 artistes. Les résultats montrent que les modèles de vision et de langage ont des capacités limitées pour : 1) réaliser l'attribution de toiles et 2) identifier les images générées par IA. Alors que les utilisateurs s'appuient de plus en plus sur les requêtes aux modèles d'IA pour obtenir des informations, ces résultats montrent la nécessité d'améliorer les capacités des modèles de vision et de langage pour effectuer de manière fiable l'attribution d'artistes et la détection d'images générées par IA, afin de prévenir la propagation d'informations incorrectes.
Les modèles de diffusion texte-image ont révolutionné la génération de contenu visuel, mais les mécanismes de sécurité actuels appliquent des normes uniformes qui ne tiennent souvent pas compte des préférences individuelles des utilisateurs. Ces modèles négligent les limites de sécurité variées influencées par des facteurs tels que l'âge, la santé mentale et les convictions personnelles. Pour remédier à cela, nous proposons l'Alignement de Sécurité Personnalisé (Personalized Safety Alignment, PSA), un cadre permettant un contrôle spécifique à l'utilisateur sur les comportements de sécurité dans les modèles génératifs. PSA intègre des profils utilisateurs personnalisés dans le processus de diffusion, ajustant le comportement du modèle pour correspondre aux préférences de sécurité individuelles tout en préservant la qualité de l'image. Nous introduisons un nouveau jeu de données, Sage, qui capture les préférences de sécurité spécifiques aux utilisateurs et incorpore ces profils via un mécanisme d'attention croisée. Les expériences montrent que PSA surpasse les méthodes existantes en matière de suppression de contenu nuisible et aligne mieux le contenu généré avec les contraintes des utilisateurs, obtenant des scores plus élevés en termes de Taux de Victoire (Win Rate) et de Taux de Réussite (Pass Rate). Notre code, données et modèles sont disponibles publiquement à l'adresse https://torpedo2648.github.io/PSAlign/.
Nous présentons RoboMemory, un cadre multi-mémoire inspiré du cerveau pour l'apprentissage continu dans les systèmes physiques incarnés, abordant des défis critiques des environnements réels : l'apprentissage continu, la latence des mémoires multi-modules, la capture des corrélations de tâches et l'atténuation des boucles infinies dans la planification en boucle fermée. Fondé sur les neurosciences cognitives, il intègre quatre modules centraux : le Prétraitement de l'Information (similaire au thalamus), le Système de Mémoire Incarnée Continue (similaire à l'hippocampe), le Module de Planification en Boucle Fermée (similaire au lobe préfrontal) et l'Exécuteur de Bas Niveau (similaire au cervelet) pour permettre une planification à long terme et un apprentissage cumulatif. Le Système de Mémoire Incarnée Continue, central au cadre, atténue les problèmes de vitesse d'inférence dans les cadres de mémoire complexes via des mises à jour/récupérations parallélisées à travers les sous-modules Spatial, Temporel, Épisodique et Sémantique. Il intègre un Graphe de Connaissances (KG) dynamique et une conception architecturale cohérente pour améliorer la consistance et l'évolutivité de la mémoire. Les évaluations sur EmbodiedBench montrent que RoboMemory surpasse la base de référence open-source (Qwen2.5-VL-72B-Ins) de 25 % en taux de réussite moyen et dépasse l'état de l'art (SOTA) propriétaire (Claude3.5-Sonnet) de 5 %, établissant un nouveau SOTA. Les études d'ablation valident les composants clés (critique, mémoire spatiale, mémoire à long terme), tandis que le déploiement en conditions réelles confirme sa capacité d'apprentissage continu avec des taux de réussite significativement améliorés sur des tâches répétées. RoboMemory atténue les défis de haute latence avec évolutivité, servant de référence fondamentale pour l'intégration de systèmes de mémoire multi-modale dans les robots physiques.
Les modèles de langage de grande taille (LLMs) ont obtenu un succès remarquable dans les tâches de génie logiciel lorsqu'ils sont entraînés avec des environnements d'exécution exécutables, en particulier pour la résolution de problèmes sur GitHub. Cependant, de tels environnements d'exécution sont souvent indisponibles dans d'autres domaines, notamment la cybersécurité, où les configurations de défis et les contextes d'exécution sont éphémères ou restreints. Nous présentons Cyber-Zero, le premier cadre sans environnement d'exécution pour synthétiser des trajectoires d'agents de haute qualité afin d'entraîner des LLMs en cybersécurité. Cyber-Zero exploite les writeups de CTF (Capture The Flag) disponibles publiquement et utilise une simulation pilotée par des personas pour reconstruire les comportements d'exécution et générer des séquences d'interaction réalistes et à long terme sans recourir à des environnements réels. En utilisant les trajectoires synthétisées par Cyber-Zero, nous entraînons des agents basés sur des LLMs qui obtiennent des gains de performance absolus allant jusqu'à 13,1 % par rapport aux modèles de référence sur trois benchmarks CTF majeurs : InterCode-CTF, NYU CTF Bench et Cybench. Notre meilleur modèle, Cyber-Zero-32B, établit de nouvelles performances de pointe parmi les modèles à poids ouvert, rivalisant avec les capacités des systèmes propriétaires comme DeepSeek-V3-0324 et Claude-3.5-Sonnet tout en offrant une meilleure rentabilité, et démontrant que la synthèse de trajectoires sans environnement d'exécution peut efficacement démocratiser le développement d'agents de cybersécurité de pointe.
Les avancées récentes dans la reconstruction dense 3D ont conduit à des progrès significatifs, mais la prédiction géométrique unifiée et précise reste un défi majeur. La plupart des méthodes existantes se limitent à prédire une seule quantité géométrique à partir d'images d'entrée. Cependant, des quantités géométriques telles que la profondeur, les normales de surface et les cartes de points sont intrinsèquement corrélées, et leur estimation isolée échoue souvent à garantir la cohérence, limitant ainsi à la fois la précision et l'applicabilité pratique. Cela nous motive à explorer un cadre unifié qui modélise explicitement le couplage structurel entre différentes propriétés géométriques pour permettre une régression conjointe. Dans cet article, nous présentons Dens3R, un modèle de fondation 3D conçu pour la prédiction dense géométrique conjointe et adaptable à une large gamme de tâches en aval. Dens3R adopte un cadre d'entraînement en deux étapes pour construire progressivement une représentation de carte de points à la fois généralisable et intrinsèquement invariante. Plus précisément, nous concevons un encodeur-décodeur partagé léger et introduisons un encodage positionnel rotatif interpolé pour maintenir la puissance expressive tout en améliorant la robustesse aux entrées à haute résolution. En intégrant des caractéristiques de correspondance d'images paires avec une modélisation d'invariance intrinsèque, Dens3R régresse avec précision plusieurs quantités géométriques telles que les normales de surface et la profondeur, permettant une perception géométrique cohérente des entrées monoculaires à multivues. De plus, nous proposons un pipeline de post-traitement qui prend en charge l'inférence multivue géométriquement cohérente. Des expériences approfondies démontrent la performance supérieure de Dens3R dans diverses tâches de prédiction dense 3D et mettent en lumière son potentiel pour des applications plus larges.
Assurer une exploration suffisante constitue un défi central lors de l'entraînement d'agents de méta-apprentissage par renforcement (méta-RL) pour résoudre des environnements nouveaux. Les solutions conventionnelles au dilemme exploration-exploitation injectent des incitations explicites telles que la randomisation, des bonus d'incertitude ou des récompenses intrinsèques pour encourager l'exploration. Dans ce travail, nous émettons l'hypothèse qu'un agent entraîné uniquement à maximiser un objectif purement avide (axé sur l'exploitation) peut néanmoins manifester un comportement exploratoire émergent, à condition que trois critères soient remplis : (1) une structure environnementale récurrente, où l'environnement présente des régularités répétables permettant aux expériences passées d'éclairer les choix futurs ; (2) une mémoire de l'agent, lui permettant de retenir et d'utiliser les données historiques d'interaction ; et (3) une attribution de crédit à long terme, où l'apprentissage propage les retours sur une période suffisante pour que les bénéfices différés de l'exploration influencent les décisions actuelles. À travers des expériences sur des bandits multi-bras stochastiques et des grilles temporellement étendues, nous observons que, lorsque la structure et la mémoire sont présentes, une politique entraînée sur un objectif strictement avide manifeste un comportement exploratoire axé sur la recherche d'informations. Nous démontrons en outre, par des ablations contrôlées, que l'exploration émergente disparaît si la structure environnementale ou la mémoire de l'agent est absente (critères 1 et 2). Étonnamment, la suppression de l'attribution de crédit à long terme (critère 3) n'empêche pas toujours l'exploration émergente—un résultat que nous attribuons à l'effet pseudo-Thompson Sampling. Ces résultats suggèrent que, sous les bonnes conditions préalables, l'exploration et l'exploitation ne doivent pas être traitées comme des objectifs orthogonaux, mais peuvent émerger d'un processus unifié de maximisation des récompenses.
Le scaling au moment du test (Test-Time Scaling, TTS) améliore les performances des grands modèles de langage (LLMs) en allouant des ressources de calcul supplémentaires lors de l'inférence. Cependant, les recherches existantes se concentrent principalement sur le TTS dans des tâches à une seule étape, alors que de nombreux problèmes réels sont des tâches complexes multi-étapes, composées d'une séquence de sous-tâches hétérogènes, chacune nécessitant un LLM avec des capacités spécifiques. Par conséquent, nous étudions un nouveau problème : le scaling optimal des ressources de calcul au moment du test dans des tâches complexes multi-étapes, visant à sélectionner des modèles adaptés et à allouer des budgets par sous-tâche pour maximiser la performance globale. Le TTS dans des tâches multi-étapes introduit deux défis fondamentaux : (i) L'espace de recherche combinatoire des allocations de modèles et de budgets, combiné au coût élevé de l'inférence, rend la recherche par force brute impraticable. (ii) Les allocations optimales de modèles et de budgets entre les sous-tâches sont interdépendantes, augmentant la complexité de la recherche optimale des ressources de calcul. Pour combler cette lacune, nous menons des expériences pilotes approfondies sur quatre tâches réparties sur six jeux de données, dérivant trois insights empiriques caractérisant le comportement des LLMs dans des tâches complexes multi-étapes. Guidés par ces insights, nous proposons AgentTTS, un framework basé sur des agents LLM qui recherche de manière autonome des allocations optimales de ressources de calcul grâce à des interactions itératives et pilotées par feedback avec l'environnement d'exécution. Les résultats expérimentaux démontrent qu'AgentTTS surpasse significativement les approches traditionnelles et d'autres baselines basées sur les LLMs en termes d'efficacité de recherche, tout en montrant une robustesse accrue face à des tailles variables d'ensembles d'entraînement et une interprétabilité améliorée.
Dans les grands modèles de langage, la demande pour modéliser des contextes longs ne cesse d'augmenter, mais la complexité quadratique du mécanisme d'auto-attention standard devient souvent un goulot d'étranglement. Bien que les mécanismes d'attention éparse existants aient amélioré l'efficacité, ils peuvent encore rencontrer des problèmes tels que des motifs statiques ou une perte d'information. Nous introduisons un mécanisme d'attention éparse à masque dynamique et entraînable, appelé Dynamic Mask Attention (DMA), qui exploite efficacement la parcimonie basée sur le contenu et la position. DMA y parvient grâce à deux innovations clés : premièrement, il génère dynamiquement des masques éparses basés sur le contenu à partir des représentations de valeur, permettant au modèle d'identifier et de se concentrer sur les informations critiques de manière adaptative. Deuxièmement, il met en œuvre un calcul d'attention éparse basé sur la position qui saute efficacement les régions de calcul inutiles. Cette conception à double parcimonie permet au modèle de réduire significativement la complexité computationnelle des informations importantes tout en conservant l'intégralité des informations, atteignant un équilibre optimal entre fidélité de l'information et efficacité computationnelle. Nous avons vérifié les performances de DMA à travers des expériences approfondies. Des études comparatives montrent que DMA surpasse l'attention multi-tête, l'attention par fenêtre glissante, l'attention latente multi-tête et l'attention éparse native en termes de perplexité dans les conditions de la loi d'échelle Chinchilla. De plus, dans des tâches complexes de rappel associatif multi-requêtes, DMA démontre également une performance et une efficacité supérieures par rapport à ces méthodes. Enfin, dans l'évaluation d'un modèle de 1,7 milliard de paramètres, DMA surpasse significativement l'attention multi-tête à la fois dans les performances standard sur les benchmarks et dans la tâche difficile de recherche d'une aiguille dans une botte de foin. Ces résultats expérimentaux mettent en évidence sa capacité à équilibrer efficacement l'efficacité du modèle et la capacité de modélisation de contextes longs.
La génération de texte à mouvement (Text-to-Motion, T2M) vise à synthétiser des séquences de mouvements humains réalistes et sémantiquement alignées à partir de descriptions en langage naturel. Cependant, les approches actuelles font face à des défis doubles : les modèles génératifs (par exemple, les modèles de diffusion) souffrent d'une diversité limitée, d'une accumulation d'erreurs et d'une implausibilité physique, tandis que les méthodes de génération augmentée par récupération (Retrieval-Augmented Generation, RAG) présentent une inertie de diffusion, un effondrement partiel des modes et des artefacts asynchrones. Pour surmonter ces limitations, nous proposons ReMoMask, un cadre unifié intégrant trois innovations clés : 1) Un modèle bidirectionnel de texte à mouvement avec momentum découple l'échelle des échantillons négatifs de la taille du lot via des files d'attente de momentum, améliorant considérablement la précision de la récupération intermodale ; 2) Un mécanisme d'attention spatio-temporelle sémantique impose des contraintes biomécaniques lors de la fusion au niveau des parties pour éliminer les artefacts asynchrones ; 3) Le guidage RAG sans classe intègre une génération inconditionnelle mineure pour améliorer la généralisation. Basé sur le RVQ-VAE de MoMask, ReMoMask génère efficacement des mouvements temporellement cohérents en un nombre minimal d'étapes. Des expériences approfondies sur des benchmarks standards démontrent les performances de pointe de ReMoMask, avec une amélioration de 3,88 % et 10,97 % des scores FID sur HumanML3D et KIT-ML, respectivement, par rapport à la méthode SOTA précédente RAG-T2M. Code : https://github.com/AIGeeksGroup/ReMoMask. Site web : https://aigeeksgroup.github.io/ReMoMask.
Les Machines à Vecteurs de Support Quantiques rencontrent des défis de scalabilité dus aux états quantiques de haute dimension et aux limitations matérielles. Nous proposons un pipeline quantique-classique conscient de l'incorporation, combinant une distillation k-means équilibrée en classes avec des incorporations pré-entraînées de Vision Transformer. Notre découverte clé : les incorporations ViT permettent de manière unique un avantage quantique, atteignant des améliorations de précision allant jusqu'à 8,02 % par rapport aux SVM classiques sur Fashion-MNIST et 4,42 % sur MNIST, tandis que les caractéristiques CNN montrent une dégradation des performances. En utilisant une simulation de réseau tensoriel à 16 qubits via cuTensorNet, nous fournissons la première preuve systématique que l'avantage du noyau quantique dépend de manière critique du choix de l'incorporation, révélant une synergie fondamentale entre l'attention des transformateurs et les espaces de caractéristiques quantiques. Cela offre une voie pratique pour l'apprentissage automatique quantique scalable qui exploite les architectures neuronales modernes.
Le paysage linguistique riche du monde arabe se caractérise par un écart significatif entre l’arabe standard moderne (ASM), langue de communication formelle, et les divers dialectes régionaux utilisés dans la vie quotidienne. Cette diglossie représente un défi majeur pour le traitement automatique des langues, en particulier pour la traduction automatique. Cet article présente SHAMI-MT, un système de traduction automatique bidirectionnel spécialement conçu pour combler le fossé de communication entre l’ASM et le dialecte syrien. Nous présentons deux modèles spécialisés, l’un pour la traduction de l’ASM vers le dialecte syrien (Shami) et l’autre pour la traduction du Shami vers l’ASM, tous deux basés sur l’architecture de pointe AraT5v2-base-1024. Les modèles ont été affinés sur le jeu de données complet Nabra et rigoureusement évalués sur des données inédites issues du corpus MADAR. Notre modèle ASM-vers-Shami a obtenu un score de qualité moyen exceptionnel de 4,01 sur 5,0 lorsqu’évalué par le modèle GPT-4.1 d’OPENAI, démontrant sa capacité à produire des traductions non seulement précises mais aussi authentiques sur le plan dialectal. Ce travail fournit un outil crucial et de haute fidélité pour une paire de langues jusqu’alors mal desservie, faisant progresser le domaine de la traduction dialectale de l’arabe et offrant des applications significatives dans la localisation de contenu, la préservation du patrimoine culturel et la communication interculturelle.
Nous examinons si des indicateurs socio-économiques tels que la richesse des ménages laissent des empreintes récupérables dans les images satellitaires (capturant des caractéristiques physiques) et dans les textes issus d'Internet (reflétant des récits historiques/économiques). En utilisant les données des Enquêtes Démographiques et de Santé (DHS) provenant de quartiers africains, nous associons des images Landsat à des descriptions textuelles générées par un modèle de langage (LLM) conditionnées par la localisation/l'année, ainsi qu'à des textes récupérés par un agent de recherche basé sur l'IA à partir de sources web. Nous développons un cadre multimodal pour prédire la richesse des ménages (Indice International de Richesse) à travers cinq pipelines : (i) un modèle de vision sur les images satellitaires, (ii) un LLM utilisant uniquement la localisation/l'année, (iii) un agent IA recherchant/synthétisant des textes web, (iv) un encodeur conjoint image-texte, (v) un ensemble de tous les signaux. Notre cadre apporte trois contributions principales. Premièrement, la fusion des données de vision et des textes issus de l'agent/LLM surpasse les modèles de vision seule dans la prédiction de la richesse (par exemple, un R² de 0,77 contre 0,63 sur des partitions hors échantillon), avec une connaissance interne du LLM s'avérant plus efficace que les textes récupérés par l'agent, améliorant ainsi la robustesse à la généralisation hors pays et hors période. Deuxièmement, nous observons une convergence partielle des représentations : les embeddings fusionnés des modalités vision/langue présentent une corrélation modérée (similarité cosinus médiane de 0,60 après alignement), suggérant un code latent partagé de bien-être matériel tout en conservant des détails complémentaires, en accord avec l'Hypothèse de Représentation Platonicienne. Bien que les textes issus uniquement du LLM surpassent les données récupérées par l'agent, remettant en question notre Hypothèse de Nouveauté Induite par l'Agent, des gains modestes obtenus en combinant les données de l'agent dans certaines partitions soutiennent faiblement l'idée que les informations collectées par l'agent introduisent des structures représentationnelles uniques non entièrement capturées par la connaissance statique du LLM. Troisièmement, nous publions un ensemble de données multimodal à grande échelle comprenant plus de 60 000 clusters DHS liés à des images satellitaires, des descriptions générées par LLM et des textes récupérés par l'agent.
Les grands modèles de langage ont démontré des capacités remarquables dans les tâches complexes de raisonnement mathématique, mais ils génèrent inévitablement des erreurs tout au long des solutions à étapes multiples. Les modèles de récompense au niveau du processus (PRMs) ont montré un grand potentiel en fournissant une supervision et une évaluation à chaque étape intermédiaire, améliorant ainsi efficacement les capacités de raisonnement des modèles. Cependant, l'entraînement de PRMs efficaces nécessite des données de récompense de processus de haute qualité, et les méthodes existantes pour construire de telles données sont souvent laborieuses ou inefficaces. Dans cet article, nous proposons un cadre piloté par l'incertitude pour la construction automatisée de données de récompense de processus, englobant à la fois les processus de génération et d'annotation des données pour les PRMs. De plus, nous identifions les limites du vote majoritaire et des PRMs, et introduisons deux méthodes génériques d'agrégation de sortie prenant en compte l'incertitude : le Vote Hybride de Récompense Majoritaire et le Vote Pondéré de Fréquence de Récompense, qui combinent les forces du vote majoritaire avec celles des PRMs. Des expériences approfondies sur ProcessBench, MATH et GSMPlus montrent l'efficacité et l'efficience du cadre de construction de données PRM proposé, et démontrent que les deux méthodes d'agrégation de sortie améliorent davantage les capacités de raisonnement mathématique à travers divers PRMs. Le code et les données seront disponibles publiquement à l'adresse https://github.com/Jiuzhouh/UnPRM.