Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est imposé comme une approche puissante pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), bien que ses mécanismes ne soient pas encore bien compris. Dans ce travail, nous entreprenons une exploration pionnière du RLVR à travers la perspective novatrice des motifs d'entropie des tokens, en analysant de manière exhaustive comment différents tokens influencent les performances de raisonnement. En examinant les motifs d'entropie des tokens dans le raisonnement en chaîne de pensée (CoT), nous observons que seule une petite fraction des tokens présente une entropie élevée, et que ces tokens agissent comme des bifurcations critiques qui orientent le modèle vers des voies de raisonnement diverses. De plus, l'étude de l'évolution des motifs d'entropie pendant l'entraînement RLVR révèle que le RLVR respecte largement les motifs d'entropie du modèle de base, ajustant principalement l'entropie des tokens à haute entropie. Ces résultats soulignent l'importance des tokens à haute entropie (c'est-à-dire les tokens de bifurcation) pour le RLVR. Nous améliorons finalement le RLVR en limitant les mises à jour du gradient de politique aux tokens de bifurcation et découvrons un résultat qui va même au-delà de la règle des 80/20 : en utilisant seulement 20 % des tokens tout en maintenant des performances comparables aux mises à jour de gradient complet sur le modèle de base Qwen3-8B et en surpassant significativement les mises à jour de gradient complet sur les modèles de base Qwen3-32B (+11,04 sur AIME'25 et +7,71 sur AIME'24) et Qwen3-14B (+4,79 sur AIME'25 et +5,21 sur AIME'24), mettant en évidence une forte tendance à l'échelle. En revanche, l'entraînement exclusivement sur les 80 % de tokens à plus faible entropie entraîne une baisse marquée des performances. Ces résultats indiquent que l'efficacité du RLVR découle principalement de l'optimisation des tokens à haute entropie qui déterminent les directions de raisonnement. Collectivement, nos résultats mettent en lumière le potentiel de comprendre le RLVR à travers une perspective d'entropie des tokens et d'optimiser le RLVR en exploitant les tokens minoritaires à haute entropie pour améliorer davantage le raisonnement des LLM.
Les modèles vision-langage (VLMs) pré-entraînés sur des ensembles de données multimodales à grande échelle encodent des connaissances visuelles et linguistiques riches, ce qui en fait une base solide pour la robotique. Plutôt que d'entraîner des politiques robotiques à partir de zéro, les approches récentes adaptent les VLMs en modèles vision-langage-action (VLA) qui permettent une perception et un contrôle pilotés par le langage naturel. Cependant, les VLA existants sont généralement massifs—souvent avec des milliards de paramètres—entraînant des coûts d'entraînement élevés et une déployabilité limitée dans le monde réel. De plus, ils s'appuient sur des ensembles de données académiques et industriels, négligeant la disponibilité croissante de données collectées par la communauté à partir de plateformes robotiques abordables. Dans ce travail, nous présentons SmolVLA, un VLA petit, efficace et piloté par la communauté, qui réduit considérablement les coûts d'entraînement et d'inférence tout en conservant des performances compétitives. SmolVLA est conçu pour être entraîné sur un seul GPU et déployé sur des GPU grand public ou même des CPU. Pour améliorer davantage la réactivité, nous introduisons une pile d'inférence asynchrone découplant la perception et la prédiction d'action de l'exécution d'action, permettant des taux de contrôle plus élevés avec une génération d'action par morceaux. Malgré sa taille compacte, SmolVLA atteint des performances comparables à des VLA 10 fois plus grands. Nous évaluons SmolVLA sur une gamme de benchmarks robotiques simulés et réels, et publions tout le code, les modèles pré-entraînés et les données d'entraînement.
Nous présentons Reasoning Gym (RG), une bibliothèque d'environnements de raisonnement pour l'apprentissage par renforcement avec des récompenses vérifiables. Elle propose plus de 100 générateurs et vérificateurs de données couvrant de multiples domaines, notamment l'algèbre, l'arithmétique, le calcul, la cognition, la géométrie, la théorie des graphes, la logique et divers jeux courants. Son innovation clé réside dans sa capacité à générer virtuellement une infinité de données d'entraînement avec une complexité ajustable, contrairement à la plupart des ensembles de données de raisonnement précédents, qui sont généralement fixes. Cette approche de génération procédurale permet une évaluation continue à travers différents niveaux de difficulté. Nos résultats expérimentaux démontrent l'efficacité de RG à la fois pour l'évaluation et l'apprentissage par renforcement des modèles de raisonnement.
Les modèles de langage multimodaux de grande taille (MLLMs) ont montré des capacités prometteuses dans les tâches de raisonnement, mais ils peinent encore à résoudre des problèmes complexes nécessitant une auto-réflexion et une auto-correction explicites, notamment par rapport à leurs homologues unimodaux basés sur le texte. Les méthodes de réflexion existantes sont simplistes et peinent à générer des retours d'information significatifs et instructifs, car les capacités de raisonnement et les limites de connaissances des modèles pré-entraînés sont largement figées lors de l'entraînement initial. Pour surmonter ces défis, nous proposons le raisonnement amélioré par auto-réflexion multimodale avec optimisation de politique relative par groupe (SRPO), un cadre d'apprentissage par renforcement (RL) en deux étapes explicitement conçu pour améliorer le raisonnement des MLLMs multimodaux. Dans la première étape, nous construisons un ensemble de données de haute qualité axé sur la réflexion sous la direction d'un MLLM avancé, qui génère des réflexions basées sur les réponses initiales pour aider le modèle de politique à apprendre à la fois le raisonnement et l'auto-réflexion. Dans la deuxième étape, nous introduisons un nouveau mécanisme de récompense au sein du cadre GRPO qui encourage une réflexion concise et cognitivement significative tout en évitant la redondance. Des expériences approfondies sur plusieurs benchmarks de raisonnement multimodal, notamment MathVista, MathVision, MathVerse et MMMU-Pro, utilisant Qwen-2.5-VL-7B et Qwen-2.5-VL-32B, démontrent que SRPO surpasse significativement les modèles de pointe, obtenant des améliorations notables à la fois en précision de raisonnement et en qualité de réflexion.
L'entraînement de grands modèles de langage (LLM) présente des défis en raison de leur échelle massive et de leurs architectures hétérogènes. Bien que les optimiseurs adaptatifs comme AdamW aident à gérer les variations de gradient, ils peinent encore à estimer efficacement et précisément les taux d'apprentissage paramètre par paramètre, ce qui entraîne une instabilité lors de l'entraînement, une convergence lente et une faible compatibilité avec les techniques de réglage fin à paramètres efficaces (PEFT). Ce travail introduit Scaling with Gradient Grouping (SGG), un wrapper d'optimiseur qui améliore l'estimation des taux d'apprentissage adaptatifs grâce à un regroupement dynamique et à une mise à l'échelle spécifique à chaque groupe. SGG regroupe d'abord les statistiques de gradient dans chaque couche en clusters, puis applique une mise à l'échelle spécifique à chaque cluster pour calibrer les taux d'apprentissage pour chaque paramètre, imposant ainsi des contraintes collectives au niveau des groupes tout en maintenant une adaptation précise paramètre par paramètre. Les expériences sur divers benchmarks de (M)LLM montrent que SGG s'intègre parfaitement aux optimiseurs existants et offre des gains constants ainsi qu'une convergence plus rapide par rapport aux méthodes de référence, pour différentes tailles de modèles. Sa stabilité face à des tailles de lots et des taux d'apprentissage variables établit SGG comme un choix robuste pour l'optimisation des LLM.
Les récentes avancées dans les modèles de diffusion texte-vidéo ont permis une synthèse vidéo de haute qualité, mais la génération contrôlée reste un défi, en particulier avec des données et des ressources de calcul limitées. Les méthodes existantes de fine-tuning pour la génération conditionnelle reposent souvent sur des encodeurs externes ou des modifications architecturales, qui nécessitent de grands ensembles de données et sont généralement limitées à des conditions spatialement alignées, réduisant ainsi la flexibilité et l'évolutivité. Dans ce travail, nous introduisons le Temporal In-Context Fine-Tuning (TIC-FT), une approche efficace et polyvalente pour adapter des modèles de diffusion vidéo pré-entraînés à diverses tâches de génération conditionnelle. Notre idée clé est de concaténer les images de condition et les images cibles le long de l'axe temporel et d'insérer des images tampon intermédiaires avec des niveaux de bruit progressivement croissants. Ces images tampon permettent des transitions fluides, alignant le processus de fine-tuning avec la dynamique temporelle du modèle pré-entraîné. TIC-FT ne nécessite aucune modification architecturale et obtient de solides performances avec seulement 10 à 30 échantillons d'entraînement. Nous validons notre méthode sur une gamme de tâches, incluant la génération image-à-vidéo et vidéo-à-vidéo, en utilisant des modèles de base à grande échelle tels que CogVideoX-5B et Wan-14B. Des expériences approfondies montrent que TIC-FT surpasse les approches existantes en termes de fidélité à la condition et de qualité visuelle, tout en restant très efficace à la fois en entraînement et en inférence. Pour des résultats supplémentaires, visitez https://kinam0252.github.io/TIC-FT/
Les grands modèles de langage (LLMs) ont permis aux agents d'effectuer des raisonnements complexes et de prendre des décisions grâce à des interactions langagières libres. Cependant, dans des environnements d'action langagière ouverts (par exemple, des jeux de négociation ou de questionnement), l'espace d'action peut être formulé comme une distribution conjointe sur les tokens, ce qui résulte en un espace d'action exponentiellement grand. L'échantillonnage d'actions dans un tel espace peut entraîner une extrême rareté des récompenses, ce qui engendre une grande variance des récompenses, entravant l'apprentissage par renforcement (RL) efficace. Pour résoudre ce problème, nous proposons ARIA, une méthode qui agrège les récompenses dans l'espace d'intention pour permettre un entraînement efficace et efficient des agents langagiers. ARIA vise à projeter les actions en langage naturel de l'espace de distribution conjointe de haute dimension des tokens dans un espace d'intention de faible dimension, où les actions sémantiquement similaires sont regroupées et se voient attribuer des récompenses partagées. Cette agrégation de récompenses prenant en compte l'intention réduit la variance des récompenses en densifiant les signaux de récompense, favorisant ainsi une meilleure optimisation des politiques. Des expériences approfondies démontrent qu'ARIA non seulement réduit significativement la variance du gradient de politique, mais offre également des gains de performance substantiels, avec une moyenne de 9,95 % sur quatre tâches en aval, surpassant systématiquement les bases de référence RL hors ligne et en ligne.
Les agents incarnés dans le monde réel sont confrontés à des tâches à long terme, caractérisées par des objectifs de haut niveau nécessitant des solutions en plusieurs étapes au-delà d'actions isolées. Pour naviguer avec succès dans ces tâches, il est essentiel de combiner une planification de haut niveau (c'est-à-dire, décomposer les objectifs en sous-tâches) et un contrôle de mouvement de bas niveau (c'est-à-dire, générer des actions robotiques précises). Bien que les modèles vision-langage-action (VLA) existants et les architectures hiérarchiques offrent un potentiel pour les tâches incarnées, les premiers échouent souvent en planification, et les seconds peuvent souffrir de problèmes de coordination, ce qui nuit à la performance. Nous introduisons un nouveau cadre VLA unifié pour les tâches à long terme, nommé LoHoVLA, pour surmonter ces limitations. LoHoVLA s'appuie sur un grand modèle vision-langage (VLM) pré-entraîné comme structure de base pour générer conjointement des tokens de langage et d'action, respectivement pour la génération de sous-tâches et la prédiction d'actions robotiques. Cette représentation partagée favorise une meilleure généralisation entre les tâches. De plus, LoHoVLA intègre un mécanisme de contrôle en boucle fermée hiérarchique pour atténuer les erreurs provenant à la fois de la planification de haut niveau et du contrôle de bas niveau. Pour entraîner LoHoVLA, nous introduisons LoHoSet, un ensemble de données construit sur le simulateur Ravens, contenant 20 tâches à long terme, chacune avec 1 000 démonstrations expertes composées d'observations visuelles, d'objectifs linguistiques, de sous-tâches et d'actions robotiques. Les résultats expérimentaux montrent que LoHoVLA surpasse significativement à la fois les approches hiérarchiques et les modèles VLA standards sur les tâches incarnées à long terme dans le simulateur Ravens. Ces résultats soulignent la promesse des architectures unifiées pour faire progresser l'intelligence incarnée généralisable.
Récemment, les puissantes capacités de génération d'images à partir de texte de ChatGPT-4o ont suscité un intérêt croissant pour les modèles de langage multimodaux natifs. Cependant, ses capacités multimodales restent limitées aux images et au texte. Pourtant, au-delà des images, la capacité à comprendre et à générer du contenu 3D est tout aussi cruciale. Pour combler cette lacune, nous proposons ShapeLLM-Omni, un modèle de langage 3D natif capable de comprendre et de générer des actifs 3D et du texte dans n'importe quelle séquence. Tout d'abord, nous entraînons un autoencodeur variationnel vectorisé quantifié en 3D (VQVAE), qui cartographie des objets 3D dans un espace latent discret pour obtenir une représentation et une reconstruction de formes efficaces et précises. En nous appuyant sur ces tokens discrets conscients de la 3D, nous construisons de manière innovante un ensemble de données d'entraînement continu à grande échelle nommé 3D-Alpaca, englobant la génération, la compréhension et l'édition, offrant ainsi des ressources riches pour les recherches et entraînements futurs. Enfin, en effectuant un entraînement basé sur des instructions du modèle Qwen-2.5-vl-7B-Instruct sur l'ensemble de données 3D-Alpaca. Notre travail propose une tentative efficace d'étendre les modèles multimodaux avec des capacités 3D de base, contribuant ainsi aux recherches futures sur l'IA native en 3D. Page du projet : https://github.com/JAMESYJL/ShapeLLM-Omni
L'application de l'apprentissage par renforcement basé sur des règles (RL) aux modèles de langage multimodaux de grande taille (MLLMs) introduit des défis uniques et des écarts potentiels par rapport aux résultats observés dans les domaines textuels uniquement, en particulier pour les tâches fortement axées sur la perception. Cet article propose une étude approfondie du RL visuel basé sur des règles, en utilisant les puzzles comme cadre expérimental structuré. Les puzzles offrent une vérité terrain inhérente, une difficulté ajustable et nécessitent une prise de décision complexe, ce qui les rend idéaux pour cette étude. Nos recherches révèlent plusieurs conclusions clés : Premièrement, nous constatons que les MLLMs, qui initialement performent proches du hasard sur les puzzles les plus simples, atteignent une précision quasi parfaite et généralisent à des configurations complexes et inédites grâce à un ajustement fin. Deuxièmement, l'entraînement sur des puzzles peut induire une généralisation à d'autres tâches visuelles, avec une efficacité liée à des configurations spécifiques de tâches. Troisièmement, les MLLMs peuvent apprendre et généraliser avec ou sans raisonnement explicite, bien que les modèles open-source privilégient souvent des réponses directes. Par conséquent, même lorsqu'ils sont entraînés pour un raisonnement étape par étape, ils peuvent ignorer le processus de réflexion dans l'obtention de la réponse finale. Quatrièmement, nous observons que les schémas de raisonnement complexes semblent préexistants plutôt qu'émergents, avec leur fréquence augmentant parallèlement à l'entraînement et à la difficulté de la tâche. Enfin, nos résultats démontrent que le RL présente une généralisation plus efficace que l'ajustement fin supervisé (SFT), et qu'une phase initiale de démarrage à froid par SFT peut entraver l'optimisation ultérieure du RL. Bien que ces observations soient basées sur des puzzles et puissent varier selon d'autres tâches visuelles, cette recherche apporte une pièce précieuse au puzzle plus large de la compréhension collective du RL visuel basé sur des règles et de son potentiel dans l'apprentissage multimodal. Le code est disponible à l'adresse : https://github.com/zifuwanggg/Jigsaw-R1.
Les récentes avancées dans les modèles de diffusion vidéo ont démontré un fort potentiel pour la génération de données de prise de décision robotique, avec des conditions de trajectoire permettant un contrôle plus fin. Cependant, les méthodes existantes basées sur la trajectoire se concentrent principalement sur le mouvement d'objets individuels et peinent à capturer les interactions multi-objets, cruciales dans les manipulations robotiques complexes. Cette limitation découle de l'enchevêtrement de multiples caractéristiques dans les régions qui se chevauchent, ce qui entraîne une dégradation de la fidélité visuelle. Pour remédier à cela, nous présentons RoboMaster, un nouveau cadre qui modélise la dynamique inter-objets à travers une formulation collaborative de trajectoire. Contrairement aux méthodes précédentes qui décomposent les objets, notre approche consiste à décomposer le processus d'interaction en trois sous-étapes : pré-interaction, interaction et post-interaction. Chaque étape est modélisée en utilisant la caractéristique de l'objet dominant, spécifiquement le bras robotique dans les phases de pré- et post-interaction, et l'objet manipulé pendant l'interaction, atténuant ainsi l'inconvénient de la fusion des caractéristiques multi-objets présente dans les travaux antérieurs. Pour garantir davantage la cohérence sémantique du sujet tout au long de la vidéo, nous intégrons des représentations latentes sensibles à l'apparence et à la forme des objets. Des expériences approfondies sur le jeu de données complexe Bridge V2, ainsi qu'une évaluation en conditions réelles, démontrent que notre méthode surpasse les approches existantes, établissant ainsi une nouvelle référence en matière de génération vidéo contrôlée par trajectoire pour la manipulation robotique.
L'apprentissage par renforcement (RL) est devenu un paradigme en vogue pour l'entraînement de grands modèles de langage (LLMs), en particulier pour les tâches de raisonnement. Un RL efficace pour les LLMs nécessite une parallélisation massive et soulève un besoin urgent de systèmes d'entraînement efficaces. La plupart des systèmes RL à grande échelle existants pour les LLMs sont synchrones, alternant génération et entraînement dans un cadre par lots, où les rollouts de chaque lot d'entraînement sont générés par le même modèle (ou le plus récent). Cela stabilise l'entraînement RL mais souffre d'une inefficacité systémique sévère. La génération doit attendre que la sortie la plus longue du lot soit terminée avant la mise à jour du modèle, entraînant une sous-utilisation des GPU. Nous présentons AReaL, un système RL entièrement asynchrone qui découple complètement la génération de l'entraînement. Les workers de génération dans AReaL produisent continuellement de nouvelles sorties sans attendre, tandis que les workers d'entraînement mettent à jour le modèle dès qu'un lot de données est collecté. AReaL intègre également une série d'optimisations au niveau système, conduisant à une utilisation substantiellement plus élevée des GPU. Pour stabiliser l'entraînement RL, AReaL équilibre la charge de travail des workers de génération et d'entraînement pour contrôler l'obsolescence des données, et adopte une variante de PPO améliorée pour mieux gérer les échantillons d'entraînement obsolètes. Des expériences approfondies sur des benchmarks de raisonnement mathématique et de code montrent qu'AReaL atteint jusqu'à 2,57 fois l'accélération d'entraînement par rapport aux meilleurs systèmes synchrones avec le même nombre de GPUs, tout en obtenant des performances finales équivalentes voire améliorées. Le code d'AReaL est disponible à l'adresse https://github.com/inclusionAI/AReaL/.
Les modèles multimodaux de grande taille (LMMs) ont démontré des performances solides dans diverses tâches vision-langage. Cependant, ils éprouvent souvent des difficultés à comprendre de manière exhaustive les données d'observation de la Terre (EO), qui sont essentielles pour surveiller l'environnement et les effets des activités humaines sur celui-ci. Dans ce travail, nous présentons EarthMind, un nouveau cadre vision-langage pour la compréhension des données EO multi-granulaires et multi-capteurs. EarthMind se compose de deux éléments clés : (1) le Spatial Attention Prompting (SAP), qui réalloue l'attention au sein du LLM pour améliorer la compréhension au niveau des pixels ; et (2) la Fusion Cross-modale, qui aligne les modalités hétérogènes dans un espace partagé et réajuste de manière adaptative les tokens en fonction de leur densité d'information pour une fusion efficace. Pour faciliter l'évaluation de la fusion multi-capteurs, nous proposons EarthMind-Bench, un benchmark complet comprenant plus de 2 000 paires image-question multi-capteurs annotées manuellement, couvrant un large éventail de tâches de perception et de raisonnement. Des expériences approfondies démontrent l'efficacité d'EarthMind. Il atteint des performances de pointe sur EarthMind-Bench, surpassant GPT-4o malgré une échelle de seulement 4B. De plus, EarthMind surpasse les méthodes existantes sur plusieurs benchmarks EO publics, montrant son potentiel à gérer à la fois les défis multi-granulaires et multi-capteurs dans un cadre unifié.
Les lois d'échelle ont façonné les avancées récentes en apprentissage automatique en permettant une prédiction fiable de la performance des modèles en fonction de leur taille, de la puissance de calcul et du volume de données. Parallèlement, l'augmentation des coûts de calcul pour l'intelligence artificielle a motivé le développement de techniques de compression de modèles, notamment la quantification et la sparsification, qui visent à atténuer les exigences computationnelles élevées associées à l'entraînement et à l'inférence à grande échelle. Cet article étudie l'interaction entre les lois d'échelle et les formats de compression, en explorant si un cadre d'échelle unifié peut prédire avec précision la performance des modèles lorsque l'entraînement s'effectue sur diverses représentations compressées, telles que des formats sparsifiés, quantifiés scalairement, sparsifiés-quantifiés ou même quantifiés vectoriellement. Nos contributions principales incluent la validation d'une formulation générale des lois d'échelle et la démonstration de son applicabilité à la fois individuellement et de manière composée pour différents types de compression. Sur cette base, notre principal résultat est de montrer, à la fois théoriquement et empiriquement, qu'il existe une métrique simple de « capacité » — basée sur la capacité de la représentation à ajuster des données gaussiennes aléatoires — qui peut prédire de manière robuste l'efficacité des paramètres pour plusieurs représentations compressées. Sur le plan pratique, nous étendons notre formulation pour comparer directement le potentiel de précision de différents formats compressés et pour dériver de meilleurs algorithmes d'entraînement pour les formats sparsifiés-quantifiés.
Les grands modèles de langage (LLM) existants rencontrent des difficultés à suivre des instructions complexes, en particulier lorsque plusieurs contraintes sont présentes et organisées en structures parallèles, enchaînées et ramifiées. Une solution intuitive, à savoir le raisonnement en chaîne (Chain-of-Thought, CoT), est censée améliorer universellement les capacités des LLM. Cependant, nous constatons que le CoT standard a un impact négatif sur les performances en raison de son schéma de raisonnement superficiel qui se contente de paraphraser les instructions. Il ne parvient pas à décomposer les contraintes pour identifier leurs relations à travers les hiérarchies de types et de dimensions. Pour résoudre ce problème, nous proposons une méthode systématique pour améliorer les LLM dans la gestion des instructions complexes en incitant au raisonnement pour une mise à l'échelle des calculs au moment du test. Premièrement, nous partons de la décomposition des instructions complexes selon des taxonomies existantes et proposons une méthode reproductible d'acquisition de données. Deuxièmement, nous exploitons l'apprentissage par renforcement (RL) avec des signaux de récompense centrés sur des règles vérifiables pour cultiver un raisonnement spécifiquement adapté au suivi des instructions. Nous abordons la nature superficielle et non essentielle du raisonnement sous des instructions complexes via un contraste par échantillon pour une application supérieure du CoT. Nous exploitons également le clonage comportemental d'experts pour faciliter un changement de distribution stable des LLM à pensée rapide vers des raisonneurs compétents. Des évaluations approfondies sur sept benchmarks complets confirment la validité de la méthode proposée, où un LLM de 1,5 milliard de paramètres obtient des gains de 11,74 % avec des performances comparables à un LLM de 8 milliards. Les codes et les données sont disponibles à l'adresse https://github.com/yuleiqin/RAIF.
La modélisation des récompenses est une étape clé dans la construction de modèles de base sûrs lors de l'application de l'apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les grands modèles de langage (LLMs). Cependant, la modélisation des récompenses basée sur le modèle de Bradley-Terry (BT) suppose une fonction de récompense globale, ne parvenant pas à capturer la diversité et l'hétérogénéité inhérentes des préférences humaines. Par conséquent, cette simplification excessive limite les LLMs dans leur capacité à soutenir la personnalisation et l'alignement pluraliste. Théoriquement, nous montrons que lorsque les préférences humaines suivent une distribution en mélange de sous-groupes divers, un modèle BT unique présente une erreur irréductible. Bien que les solutions existantes, telles que l'apprentissage multi-objectif avec des annotations fines, aident à résoudre ce problème, elles sont coûteuses et limitées par des attributs prédéfinis, ne parvenant pas à capturer pleinement la richesse des valeurs humaines. Dans ce travail, nous introduisons MiCRo, un cadre en deux étapes qui améliore l'apprentissage des préférences personnalisées en exploitant des ensembles de données binaires de préférences à grande échelle sans nécessiter d'annotations fines explicites. Dans la première étape, MiCRo introduit une approche de modélisation en mélange contextuelle pour capturer les préférences humaines diverses. Dans la deuxième étape, MiCRo intègre une stratégie de routage en ligne qui adapte dynamiquement les poids du mélange en fonction du contexte spécifique pour résoudre les ambiguïtés, permettant une adaptation des préférences efficace et évolutive avec un minimum de supervision supplémentaire. Les expériences sur plusieurs ensembles de données de préférences démontrent que MiCRo capture efficacement les préférences humaines diverses et améliore significativement la personnalisation en aval.
L'avancée rapide du contenu généré par l'intelligence artificielle (AIGC) dans les domaines visuels a conduit à la création d'images et de vidéos synthétiques hautement réalistes, grâce à des architectures génératives sophistiquées telles que les modèles basés sur la diffusion. Bien que ces percées ouvrent des opportunités substantielles, elles soulèvent simultanément des préoccupations critiques concernant l'authenticité et l'intégrité du contenu. De nombreuses méthodes actuelles de détection de l'AIGC fonctionnent comme des classificateurs binaires en boîte noire, offrant une interprétabilité limitée, et aucune approche ne permet de détecter à la fois les images et les vidéos dans un cadre unifié. Cette double limitation compromet la transparence des modèles, réduit leur fiabilité et entrave leur déploiement pratique. Pour relever ces défis, nous présentons IVY-FAKE, un nouvel ensemble de données unifié et à grande échelle, spécialement conçu pour la détection explicable et multimodale de l'AIGC. Contrairement aux benchmarks précédents, qui souffrent d'une couverture modale fragmentée et d'annotations éparses, IVY-FAKE contient plus de 150 000 échantillons d'entraînement richement annotés (images et vidéos) et 18 700 exemples d'évaluation, chacun accompagné d'un raisonnement détaillé en langage naturel allant au-delà des simples étiquettes binaires. Sur cette base, nous proposons Ivy Explainable Detector (IVY-XDETECTOR), une architecture unifiée de détection et d'explication de l'AIGC qui effectue conjointement une détection explicable pour les contenus image et vidéo. Notre modèle unifié vision-langage atteint des performances de pointe sur plusieurs benchmarks de détection d'images et de vidéos, mettant en évidence les avancées significatives permises par notre ensemble de données et notre cadre de modélisation. Nos données sont publiquement disponibles à l'adresse suivante : https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
Le prompt Chain-of-Thought (CoT) permet un raisonnement complexe dans les grands modèles de langage (LLMs), y compris pour des applications en recherche d'information (IR). Cependant, il conduit souvent à une surréflexion, où les modèles produisent des traces excessivement longues et sémantiquement redondantes avec peu ou pas d'avantage. Nous identifions deux défis majeurs en IR : les trajectoires redondantes qui revisitent des états similaires et le raisonnement erroné qui s'écarte de l'intention de l'utilisateur. Pour y remédier, nous proposons le State Machine Reasoning (SMR), un cadre de raisonnement basé sur des transitions composées d'actions discrètes (Affiner, Reclasser, Arrêter) qui permettent un arrêt précoce et un contrôle fin. Les expériences sur les benchmarks BEIR et BRIGHT montrent que SMR améliore la performance de recherche (nDCG@10) de 3,4 % tout en réduisant l'utilisation de tokens de 74,4 %. Il se généralise à travers différents LLMs et systèmes de recherche sans nécessiter de réglage spécifique à la tâche, offrant une alternative pratique au raisonnement CoT conventionnel. Le code et les détails sont disponibles à l'adresse https://github.com/ldilab/SMR.
L’entraînement direct des modèles de langage de grande taille (LLMs) pour les systèmes multi-agents (MAS) reste un défi en raison de la complexité de la modélisation des récompenses, des interactions dynamiques entre agents et des exigences élevées en matière de généralisation. Cet article explore si les techniques de post-entraînement, notamment le réglage fin supervisé (SFT) et l’apprentissage par renforcement avec récompenses vérifiables (RLVR), peuvent généraliser efficacement aux scénarios multi-agents. Nous utilisons le raisonnement économique comme banc d’essai, en tirant parti de ses solides fondements mathématiques et en théorie des jeux, de son exigence en matière de raisonnement analytique structuré et de sa pertinence pour des applications réelles telles que la conception de marchés, l’allocation des ressources et l’analyse des politiques. Nous présentons Recon (Raisonner comme un ÉCONomiste), un LLM open-source de 7 milliards de paramètres post-entraîné sur un ensemble de données soigneusement sélectionné de 2 100 problèmes de raisonnement économique de haute qualité. Une évaluation approfondie sur des benchmarks de raisonnement économique et des jeux multi-agents révèle des améliorations significatives en matière de raisonnement structuré et de rationalité économique. Ces résultats soulignent le potentiel du post-entraînement aligné sur un domaine pour améliorer le raisonnement et l’alignement des agents, tout en éclairant les rôles du SFT et du RL dans la modélisation du comportement des modèles. Le code est disponible à l’adresse suivante : https://github.com/MasterZhou1/Recon.
L'édition d'images est une tâche importante en infographie, vision par ordinateur et effets visuels, avec des méthodes récentes basées sur la diffusion atteignant des résultats rapides et de haute qualité. Cependant, les modifications nécessitant des changements structurels significatifs, tels que les déformations non rigides, les modifications d'objets ou la génération de contenu, restent difficiles. Les approches existantes d'édition en quelques étapes produisent des artefacts comme des textures non pertinentes ou peinent à préserver les attributs clés de l'image source (par exemple, la pose). Nous présentons Cora, un nouveau cadre d'édition qui surmonte ces limitations en introduisant une correction de bruit sensible à la correspondance et des cartes d'attention interpolées. Notre méthode aligne les textures et les structures entre les images source et cible grâce à une correspondance sémantique, permettant un transfert de texture précis tout en générant de nouveaux contenus si nécessaire. Cora offre un contrôle sur l'équilibre entre génération et préservation de contenu. Des expériences approfondies montrent que, quantitativement et qualitativement, Cora excelle dans le maintien de la structure, des textures et de l'identité à travers diverses modifications, y compris les changements de pose, l'ajout d'objets et les raffinements de texture. Des études utilisateurs confirment que Cora fournit des résultats supérieurs, surpassant les alternatives.
Alimenté par un grand modèle de langage (LLM), un agent de navigation web opère les navigateurs de manière similaire à un humain et offre une voie hautement transparente pour automatiser un large éventail de tâches quotidiennes. Alors que les agents web deviennent de plus en plus performants et démontrent leur maîtrise des tâches de navigation générale, une question cruciale émerge : Peuvent-ils aller au-delà de la navigation générale pour gérer de manière robuste des tâches fastidieuses et complexes, ou des corvées que les humains évitent souvent de faire eux-mêmes ? Dans cet article, nous présentons WebChoreArena, un nouveau benchmark entièrement reproductible comprenant 532 tâches soigneusement sélectionnées, conçues pour étendre la portée de WebArena au-delà de la navigation générale vers des tâches plus laborieuses et fastidieuses. WebChoreArena intègre systématiquement trois défis clés : (i) les tâches de Mémoire Massive nécessitant la récupération précise de grandes quantités d'informations dans les observations, (ii) les tâches de Calcul exigeant un raisonnement mathématique précis, et (iii) les tâches de Mémoire à Long Terme nécessitant une mémoire à long terme sur plusieurs pages web. Construit sur les quatre environnements de simulation de WebArena, entièrement reproductibles et largement adoptés, WebChoreArena garantit une reproductibilité stricte et permet des comparaisons directes et équitables avec le benchmark établi de WebArena, offrant des insights clés sur les progrès des agents. Nos résultats expérimentaux démontrent qu'à mesure que les LLM évoluent, représentés par GPT-4o, Claude 3.7 Sonnet et Gemini 2.5 Pro, des améliorations significatives des performances sont observées sur WebChoreArena. Ces résultats suggèrent que WebChoreArena est bien adapté pour mesurer les avancées des LLM de pointe avec une plus grande clarté. Néanmoins, les résultats indiquent également que même avec Gemini 2.5 Pro, il reste une marge d'amélioration substantielle par rapport à WebArena, soulignant les défis accrus posés par WebChoreArena.
Les systèmes d'IA actuels possèdent des architectures fixes conçues par l'homme et ne peuvent pas s'améliorer de manière autonome et continue. L'avancée de l'IA pourrait elle-même être automatisée. Si cela est réalisé en toute sécurité, cela accélérerait le développement de l'IA et nous permettrait d'en récolter les bénéfices beaucoup plus tôt. Le méta-apprentissage peut automatiser la découverte de nouveaux algorithmes, mais il est limité par des améliorations de premier ordre et par la conception humaine d'un espace de recherche approprié. La machine de Gödel a proposé une alternative théorique : une IA auto-améliorante qui se modifie de manière répétée de façon prouvée bénéfique. Malheureusement, prouver que la plupart des changements sont globalement bénéfiques est impossible en pratique. Nous introduisons la machine de Gödel Darwin (DGM), un système auto-améliorant qui modifie itérativement son propre code (améliorant ainsi également sa capacité à modifier sa base de code) et valide empiriquement chaque changement à l'aide de benchmarks de codage. Inspirée par l'évolution darwinienne et la recherche sur l'ouverture, la DGM maintient une archive d'agents de codage générés. Elle enrichit cette archive en échantillonnant un agent et en utilisant un modèle de base pour créer une nouvelle version intéressante de l'agent échantillonné. Cette exploration ouverte forme un arbre croissant d'agents diversifiés et de haute qualité, permettant l'exploration parallèle de nombreux chemins différents dans l'espace de recherche. Empiriquement, la DGM améliore automatiquement ses capacités de codage (par exemple, de meilleurs outils d'édition de code, gestion de fenêtres à contexte long, mécanismes de relecture par les pairs), augmentant les performances sur SWE-bench de 20,0 % à 50,0 %, et sur Polyglot de 14,2 % à 30,7 %. De plus, la DGM surpasse significativement les bases de référence sans auto-amélioration ni exploration ouverte. Toutes les expériences ont été réalisées avec des précautions de sécurité (par exemple, sandboxing, supervision humaine). La DGM représente une étape importante vers une IA auto-améliorante, capable de rassembler ses propres pierres angulaires le long de chemins qui se déploient en une innovation sans fin.
Les modèles de langage visuel (VLMs) sont censés effectuer un raisonnement multimodal efficace et prendre des décisions logiquement cohérentes, ce qui est crucial pour des tâches telles que la compréhension de diagrammes et la résolution de problèmes spatiaux. Cependant, le raisonnement des VLMs actuels manque de jeux de données d'entraînement à grande échelle et bien structurés. Pour combler cette lacune, nous proposons VisualSphinx, un premier ensemble de données synthétiques à grande échelle pour l'entraînement au raisonnement logique visuel. Pour relever le défi de la synthèse d'images avec des réponses ancrées, nous proposons un pipeline de synthèse d'images basé sur des règles, qui extrait et développe les règles des énigmes à partir de questions de départ et génère le code de synthèse d'images ancrées pour l'assemblage des échantillons d'énigmes. Les expériences démontrent que les VLMs entraînés en utilisant GRPO sur VisualSphinx bénéficient de la cohérence logique et de la lisibilité de notre ensemble de données et montrent une amélioration des performances sur les tâches de raisonnement logique. Les capacités de raisonnement améliorées développées grâce à VisualSphinx profitent également à d'autres tâches de raisonnement telles que le raisonnement algébrique, le raisonnement arithmétique et le raisonnement géométrique.
Le guidage négatif -- la suppression explicite d'attributs indésirables -- reste un défi fondamental dans les modèles de diffusion, en particulier dans les régimes d'échantillonnage à faible nombre d'étapes. Bien que le guidage sans classifieur (Classifier-Free Guidance, CFG) fonctionne bien dans des configurations standard, il échoue sous une compression agressive des étapes d'échantillonnage en raison de prédictions divergentes entre les branches positives et négatives. Nous présentons le guidage par attention normalisée (Normalized Attention Guidance, NAG), un mécanisme efficace et sans entraînement qui applique une extrapolation dans l'espace d'attention avec une normalisation et un raffinement basés sur la norme L1. NAG rétablit un guidage négatif efficace là où CFG échoue, tout en maintenant la fidélité. Contrairement aux approches existantes, NAG se généralise à travers les architectures (UNet, DiT), les régimes d'échantillonnage (à faible nombre d'étapes, multi-étapes) et les modalités (image, vidéo), fonctionnant comme un module universel avec une surcharge computationnelle minimale. Grâce à une expérimentation approfondie, nous démontrons des améliorations constantes dans l'alignement textuel (score CLIP), la fidélité (FID, PFID) et la qualité perçue par les humains (ImageReward). Nos études d'ablation valident chaque composant de conception, tandis que les études utilisateurs confirment une préférence significative pour les sorties guidées par NAG. En tant qu'approche agnostique au modèle et fonctionnant à l'inférence sans nécessiter de réentraînement, NAG offre un guidage négatif sans effort pour tous les frameworks de diffusion modernes -- le pseudocode est disponible en annexe !
Les modèles de langage basés sur la diffusion offrent une alternative convaincante aux modèles autorégressifs (AR) en permettant une génération parallèle et contrôlée. Parmi cette famille de modèles, les *Masked Diffusion Models* (MDMs) atteignent les performances les plus élevées, mais restent inférieurs aux modèles AR en termes de perplexité et manquent de fonctionnalités clés d'efficacité lors de l'inférence—notamment la mise en cache KV. Dans ce travail, nous introduisons les Eso-LMs, une nouvelle famille de modèles qui fusionne les paradigmes AR et MDM, permettant une interpolation fluide entre leurs perplexités tout en surmontant leurs limitations respectives. Les Eso-LMs établissent un nouvel état de l'art sur les benchmarks standards de modélisation du langage. De manière cruciale, nous sommes les **premiers à introduire la mise en cache KV pour les MDMs** tout en préservant la génération parallèle, améliorant ainsi significativement l'efficacité de l'inférence. Combinée à un plan d'échantillonnage optimisé, notre méthode permet une inférence jusqu'à **65 fois** plus rapide que les MDMs standards et **4 fois** plus rapide que les approches semi-autorégressives précédentes. Nous mettons à disposition le code et les points de contrôle des modèles sur la page du projet : [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
Le projet Open Whisper-style Speech Models (OWSM) a développé une série de modèles de base pour la parole entièrement ouverts, en utilisant des ressources à l'échelle académique, mais leurs données d'entraînement restent insuffisantes. Ce travail améliore OWSM en intégrant YODAS, un ensemble de données massif collecté sur le web sous licence Creative Commons. Cependant, l'intégration de YODAS n'est pas triviale en raison de sa nature hétérogène, qui introduit des défis tels que des étiquettes de langue incorrectes et des désalignements audio-texte. Pour y remédier, nous avons développé un pipeline de nettoyage de données scalable utilisant des outils publics, produisant un ensemble de données de 166 000 heures de parole couvrant 75 langues. Notre nouvelle série de modèles OWSM v4, entraînée sur cet ensemble de données nettoyé ainsi que sur les données OWSM existantes, surpasse significativement les versions précédentes sur des benchmarks multilingues. Nos modèles égalent ou surpassent même des modèles industriels de pointe comme Whisper et MMS dans plusieurs scénarios. Nous rendrons publics les données nettoyées de YODAS, les modèles pré-entraînés et tous les scripts associés via la boîte à outils ESPnet.
Les recherches précédentes ont exploré l'application des Modèles de Langage Multimodaux de Grande Taille (MLLMs) pour la compréhension des scènes 3D en les interprétant comme des vidéos. Ces approches reposent généralement sur des données 3D exhaustives, telles que des nuages de points ou des cartes reconstruites en vue de dessus (Bird's-Eye View, BEV). Dans notre étude, nous faisons progresser ce domaine en améliorant la capacité des MLLMs à comprendre et à raisonner dans des espaces 3D directement à partir de données vidéo, sans nécessiter d'entrées 3D supplémentaires. Nous proposons une méthode novatrice et efficace, le Modèle de Langage de Grande Taille pour la Géométrie 3D à partir de Vidéo (Video-3D Geometry Large Language Model, VG LLM). Notre approche utilise un encodeur de géométrie visuelle 3D qui extrait des informations préalables en 3D à partir de séquences vidéo. Ces informations sont ensuite intégrées avec des tokens visuels et introduites dans le MLLM. Des expériences approfondies ont montré que notre méthode permet d'obtenir des améliorations significatives dans diverses tâches liées à la compréhension des scènes 3D et au raisonnement spatial, le tout appris directement à partir de sources vidéo. De manière impressionnante, notre modèle de 4 milliards de paramètres, qui ne repose pas sur des données 3D explicites, obtient des résultats compétitifs par rapport aux méthodes de pointe existantes, et dépasse même le Gemini-1.5-Pro dans les évaluations du VSI-Bench.
Les récentes avancées en matière d'IA générative et de modèles de langage à grande échelle (LLMs) ont permis la création de contenus synthétiques hautement réalistes, suscitant des inquiétudes quant à leur utilisation malveillante, telle que la désinformation et la manipulation. Par ailleurs, la détection de textes générés par machine (MGT) reste un défi en raison du manque de benchmarks robustes évaluant la généralisation à des scénarios réels. Dans ce travail, nous présentons une pipeline pour tester la résilience des détecteurs de MGT de pointe (par exemple, Mage, Radar, LLM-DetectAIve) face à des attaques adverses linguistiquement informées. Pour mettre ces détecteurs à l'épreuve, nous affinons des modèles de langage en utilisant l'Optimisation Directe des Préférences (DPO) afin de rapprocher le style des MGT de celui des textes rédigés par des humains (HWT). Cela exploite la dépendance des détecteurs aux indices stylistiques, rendant les nouvelles générations plus difficiles à détecter. De plus, nous analysons les changements linguistiques induits par cet alignement et les caractéristiques utilisées par les détecteurs pour identifier les textes MGT. Nos résultats montrent que les détecteurs peuvent être facilement trompés avec relativement peu d'exemples, entraînant une baisse significative des performances de détection. Cela souligne l'importance d'améliorer les méthodes de détection et de les rendre robustes face à des textes inédits dans le domaine.
Les grands modèles de langage (LLM) entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) ont réalisé des avancées majeures sur des tâches à vérification explicite et automatisable, telles que la programmation logicielle et les problèmes mathématiques. Cependant, l'extension du RLVR à l'automatisation de la conception électronique (EDA), en particulier la génération automatique de langages de description matérielle (HDL) comme Verilog à partir de spécifications en langage naturel (NL), pose trois défis majeurs : l'absence d'environnements de vérification automatisés et précis, la rareté de paires NL-code de haute qualité, et le coût de calcul prohibitif du RLVR. Pour répondre à ces enjeux, nous présentons CodeV-R1, un cadre RLVR pour l'entraînement de LLM générant du Verilog. Premièrement, nous développons un générateur de bancs d'essai basé sur des règles qui effectue une vérification robuste de l'équivalence par rapport à des références dorées. Deuxièmement, nous proposons une méthode de synthèse de données en boucle qui associe des extraits de Verilog open-source à des descriptions NL générées par LLM, vérifie la cohérence code-NL-code via le banc d'essai généré, et filtre les exemples non équivalents pour produire un jeu de données de haute qualité. Troisièmement, nous utilisons un pipeline d'entraînement en deux étapes "distillation puis RL" : la distillation pour l'amorçage des capacités de raisonnement, suivie de DAPO adaptatif, notre nouvel algorithme RLVR qui peut réduire le coût d'entraînement en ajustant dynamiquement le taux d'échantillonnage. Le modèle résultant, CodeV-R1-7B, atteint 68,6% et 72,9% de pass@1 sur VerilogEval v2 et RTLLM v1.1, respectivement, surpassant les précédents états de l'art de 12 à 20%, tout en égalant voire dépassant les performances du DeepSeek-R1 de 671B. Nous publierons notre modèle, pipeline d'entraînement et jeu de données pour favoriser la recherche dans les communautés EDA et LLM.
Les benchmarks ouverts sont essentiels pour évaluer et faire progresser les grands modèles de langage, offrant reproductibilité et transparence. Cependant, leur accessibilité en fait des cibles probables de contamination des ensembles de test. Dans ce travail, nous présentons DyePack, un cadre qui exploite les attaques par porte dérobée pour identifier les modèles ayant utilisé les ensembles de test des benchmarks pendant leur entraînement, sans nécessiter l'accès à la fonction de perte, aux logits ou à tout détail interne du modèle. À l'instar des banques qui mélangent des paquets de colorant avec leur argent pour marquer les voleurs, DyePack mélange des échantillons de porte dérobée avec les données de test pour signaler les modèles qui s'y sont entraînés. Nous proposons une conception rigoureuse intégrant plusieurs portes dérobées avec des cibles stochastiques, permettant le calcul exact du taux de faux positifs (FPR) lors du signalement de chaque modèle. Cela empêche de manière prouvée les fausses accusations tout en fournissant des preuves solides pour chaque cas détecté de contamination. Nous évaluons DyePack sur cinq modèles à travers trois ensembles de données, couvrant à la fois des tâches à choix multiples et de génération ouverte. Pour les questions à choix multiples, il détecte avec succès tous les modèles contaminés avec des FPR garantis aussi bas que 0,000073 % sur MMLU-Pro et 0,000017 % sur Big-Bench-Hard en utilisant huit portes dérobées. Pour les tâches de génération ouverte, il généralise bien et identifie tous les modèles contaminés sur Alpaca avec un taux de faux positifs garanti de seulement 0,127 % en utilisant six portes dérobées.
L'efficacité de la tokenisation joue un rôle crucial dans les performances et le coût des grands modèles de langage (LLMs), mais la plupart des modèles s'appuient sur des tokenizers statiques optimisés pour des corpus à usage général. Les vocabulaires fixes de ces tokenizers échouent souvent à s'adapter aux entrées spécifiques à un domaine ou à une langue, ce qui entraîne des séquences de tokens plus longues et des coûts de calcul plus élevés. Nous présentons zip2zip, un cadre qui permet aux LLMs d'ajuster dynamiquement le vocabulaire de tokens au moment de l'inférence, permettant ainsi de générer moins de tokens et d'accélérer l'inférence. zip2zip se compose de trois éléments clés : (1) un tokenizer basé sur la compression Lempel-Ziv-Welch (LZW) qui compresse de manière incrémentielle les tokens en "hypertokens" réutilisables à la volée ; (2) une couche d'embedding qui calcule les embeddings pour les hypertokens nouvellement formés au moment de l'exécution ; et (3) une variante de modélisation de langage causale qui entraîne le modèle à fonctionner sur des séquences compressées et hypertokenisées. Nous montrons qu'un LLM existant peut être "zip2zip-fié" en 10 heures GPU via un fine-tuning efficace en paramètres. Les LLMs zip2zip résultants apprennent efficacement à utiliser les hypertokens au moment de l'inférence, réduisant la longueur des séquences d'entrée et de sortie de 20 à 60 %, avec des améliorations significatives en termes de latence d'inférence.
Les systèmes de dialogue orientés tâches rencontrent souvent des difficultés lorsque les énoncés des utilisateurs semblent sémantiquement complets mais manquent d'informations structurelles nécessaires pour une action appropriée du système. Cela survient car les utilisateurs ne comprennent souvent pas pleinement leurs propres besoins, tandis que les systèmes nécessitent des définitions d'intention précises. Les agents basés sur LLM actuels ne peuvent pas distinguer efficacement entre les expressions linguistiquement complètes et celles déclenchables contextuellement, manquant de cadres pour la formation collaborative des intentions. Nous présentons STORM, un cadre modélisant la dynamique de l'information asymétrique à travers des conversations entre UserLLM (accès interne complet) et AgentLLM (comportement observable uniquement). STORM produit des corpus annotés capturant les trajectoires d'expression et les transitions cognitives latentes, permettant une analyse systématique du développement de la compréhension collaborative. Nos contributions incluent : (1) la formalisation du traitement de l'information asymétrique dans les systèmes de dialogue ; (2) la modélisation de la formation des intentions en suivant l'évolution de la compréhension collaborative ; et (3) des métriques d'évaluation mesurant les améliorations cognitives internes parallèlement à la performance des tâches. Les expériences sur quatre modèles de langage révèlent qu'une incertitude modérée (40-60%) peut surpasser la transparence complète dans certains scénarios, avec des modèles spécifiques suggérant une reconsidération de l'optimalité de la complétude de l'information dans la collaboration humain-IA. Ces résultats contribuent à la compréhension de la dynamique du raisonnement asymétrique et informent la conception de systèmes de dialogue calibrés sur l'incertitude.
La distillation de modèles est devenue essentielle pour créer des modèles de langage plus petits et déployables tout en conservant les capacités des systèmes plus volumineux. Cependant, le déploiement à grande échelle soulève des inquiétudes concernant la résilience face aux manipulations adverses. Cet article étudie la vulnérabilité des modèles distillés à l'injection de contenu biaisé par des adversaires pendant l'entraînement. Nous démontrons que des adversaires peuvent injecter des biais subtils dans les modèles enseignants via un empoisonnement minimal des données, qui se propage ensuite aux modèles étudiants et s'y amplifie de manière significative. Nous proposons deux modes de propagation : la Propagation Non Ciblée, où le biais affecte plusieurs tâches, et la Propagation Ciblée, qui se concentre sur des tâches spécifiques tout en maintenant un comportement normal ailleurs. Avec seulement 25 échantillons empoisonnés (taux d'empoisonnement de 0,25 %), les modèles étudiants génèrent des réponses biaisées 76,9 % du temps dans des scénarios ciblés - un taux supérieur aux 69,4 % observés dans les modèles enseignants. Pour la propagation non ciblée, le biais adverse apparaît 6 à 29 fois plus fréquemment dans les modèles étudiants sur des tâches non vues. Nous validons ces résultats à travers six types de biais (publicités ciblées, liens de phishing, manipulations narratives, pratiques de codage non sécurisées), diverses méthodes de distillation, et différentes modalités couvrant la génération de texte et de code. Notre évaluation révèle les lacunes des défenses actuelles - filtrage par perplexité, systèmes de détection de biais, et cadres d'auto-évaluation basés sur LLM - face à ces attaques. Les résultats exposent des vulnérabilités de sécurité significatives dans les modèles distillés, soulignant la nécessité de protections spécialisées. Nous proposons des principes de conception pratiques pour élaborer des stratégies efficaces d'atténuation des biais adverses.
La compréhension des anomalies vidéo (VAU) est essentielle pour des applications telles que les villes intelligentes, la surveillance de sécurité et les systèmes d'alerte aux catastrophes, mais reste un défi en raison de son besoin de perception spatio-temporelle fine et de raisonnement robuste face à l'ambiguïté. Malgré les avancées dans la détection d'anomalies, les méthodes existantes manquent souvent d'interprétabilité et peinent à capturer les aspects causaux et contextuels des événements anormaux. Cette limitation est encore accentuée par l'absence de benchmarks complets pour évaluer la capacité de raisonnement dans les scénarios d'anomalies. Pour relever ces deux défis, nous introduisons VAU-R1, un cadre efficace en termes de données basé sur des Modèles de Langage Multimodaux de Grande Taille (MLLMs), qui améliore le raisonnement sur les anomalies grâce à un Réglage Fin par Renforcement (RFT). Par ailleurs, nous proposons VAU-Bench, le premier benchmark en chaîne de pensée spécifiquement conçu pour le raisonnement sur les anomalies vidéo, comprenant des questions à choix multiples, des justifications détaillées, des annotations temporelles et des descriptions captivantes. Les résultats empiriques montrent que VAU-R1 améliore significativement la précision des réponses aux questions, la localisation temporelle et la cohérence du raisonnement dans divers contextes. Ensemble, notre méthode et notre benchmark établissent une base solide pour une compréhension des anomalies vidéo interprétable et consciente du raisonnement. Notre code est disponible à l'adresse suivante : https://github.com/GVCLab/VAU-R1.
La détoxification, tâche consistant à reformuler un langage nocif en texte non toxique, est devenue de plus en plus importante face à la prévalence croissante de contenus toxiques en ligne. Cependant, les ensembles de données parallèles de haute qualité pour la détoxification, en particulier pour les discours haineux, restent rares en raison du coût et de la sensibilité de l'annotation humaine. Dans cet article, nous proposons une nouvelle pipeline innovante utilisant GPT-4o-mini en boucle pour la détoxification automatisée. Nous commençons par reproduire la pipeline ParaDetox en remplaçant les annotateurs humains par un modèle de langage (LLM) et montrons que ce dernier obtient des performances comparables à celles de l'annotation humaine. Sur cette base, nous construisons PARADEHATE, un ensemble de données parallèles à grande échelle spécifiquement dédié à la détoxification des discours haineux. Nous publions PARADEHATE comme un benchmark de plus de 8 000 paires de textes haineux/non haineux et évaluons une large gamme de méthodes de référence. Les résultats expérimentaux montrent que des modèles tels que BART, affinés sur PARADEHATE, obtiennent de meilleures performances en termes de précision stylistique, de préservation du contenu et de fluidité, démontrant ainsi l'efficacité de la détoxification générée par des LLM comme alternative évolutive à l'annotation humaine.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) améliore l'actualité et la factualité des réponses. Cependant, les évaluations existantes testent rarement la capacité de ces systèmes à gérer le bruit du monde réel, les conflits entre les contextes internes et externes récupérés, ou les faits en évolution rapide. Nous introduisons l'Évaluation de Robustesse Consciente de la Récupération (Retrieval-Aware Robustness Evaluation, RARE), un cadre unifié et un benchmark à grande échelle qui teste conjointement les perturbations des requêtes et des documents sur des corpus dynamiques et sensibles au temps. L'une des caractéristiques centrales de RARE est un pipeline de synthèse piloté par un graphe de connaissances (RARE-Get) qui extrait automatiquement des relations à un seul saut et à plusieurs sauts à partir du corpus personnalisé et génère des ensembles de questions à plusieurs niveaux sans intervention manuelle. En exploitant ce pipeline, nous construisons un ensemble de données (RARE-Set) couvrant 400 documents experts sensibles au temps dans les domaines de la finance, de l'économie et des politiques, ainsi que 48 322 questions dont la distribution évolue au fur et à mesure que les sources sous-jacentes changent. Pour quantifier la résilience, nous formalisons des métriques de robustesse conditionnées par la récupération (RARE-Met) qui capturent la capacité d'un modèle à rester correct ou à se rétablir lorsque les requêtes, les documents ou les résultats de récupération du monde réel sont systématiquement modifiés. Nos résultats montrent que les systèmes RAG présentent une vulnérabilité surprenante aux perturbations, la robustesse des documents étant systématiquement le point le plus faible, quelle que soit la taille ou l'architecture du générateur. Les systèmes RAG montrent systématiquement une robustesse plus faible sur les requêtes à plusieurs sauts que sur les requêtes à un seul saut, et ce dans tous les domaines.
Les grands modèles de langage (LLMs) sont de plus en plus évalués sur des tâches à choix multiples à réponse unique, mais de nombreux problèmes réels nécessitent d'identifier toutes les réponses correctes parmi un ensemble d'options. Cette capacité reste peu explorée. Nous introduisons SATA-BENCH, le premier benchmark dédié à l'évaluation des LLMs sur des questions de type "Sélectionnez Tout Ce Qui S'Applique" (SATA) couvrant divers domaines, notamment la compréhension de texte, le droit et la biomédecine. Notre évaluation de 27 modèles open-source et propriétaires révèle un écart significatif : même le modèle le plus performant n'atteint que 41,8% de correspondance exacte, exposant l'incapacité des LLMs à identifier de manière fiable toutes les réponses correctes. Nous constatons que cette faiblesse découle de deux défis majeurs : le biais de sélection - les modèles favorisent certains choix indépendamment du contenu, et le biais de comptage - les modèles échouent à prédire le nombre correct de réponses. Pour résoudre ces problèmes, nous proposons Choice Funnel, une stratégie de décodage qui combine la suppression des biais des tokens avec un seuillage adaptatif pour guider les modèles vers des sélections complètes et précises. Choice Funnel atteint jusqu'à 29% de correspondance exacte en plus que les baselines concurrentes tout en réduisant le coût d'inférence de plus de 64%. Nos résultats mettent en lumière des limitations fondamentales des LLMs actuels et introduisent un nouveau cadre pour diagnostiquer et améliorer le raisonnement à réponses multiples. Nous publions SATA-BENCH et Choice Funnel pour promouvoir le développement des LLMs en vue d'une prise de décision robuste dans des applications réalistes à réponses multiples.
L'édition 3D guidée par texte vise à modifier avec précision des régions locales 3D sémantiquement pertinentes, ce qui présente un potentiel significatif pour diverses applications pratiques allant des jeux 3D à la production cinématographique. Les méthodes existantes suivent généralement un paradigme indifférencié par rapport aux vues : elles modifient les vues 2D de manière indiscriminée et les projettent ensuite dans l'espace 3D. Cependant, elles négligent les différentes interdépendances entre les vues, ce qui entraîne une incohérence dans l'édition multi-vues. Dans cette étude, nous soutenons qu'une édition 3D cohérente et idéale peut être réalisée grâce à un paradigme de vues progressives, qui propage la sémantique d'édition de la vue la plus saillante vers les vues moins denses en modifications. Plus précisément, nous proposons Pro3D-Editor, un nouveau framework qui comprend principalement un Échantillonneur de Vue Primaire, un Rendu de Vue Clé et un Raffineur de Vue Complète. L'Échantillonneur de Vue Primaire sélectionne et modifie dynamiquement la vue la plus saillante en termes d'édition comme vue primaire. Le Rendu de Vue Clé propage avec précision la sémantique d'édition de la vue primaire vers les autres vues clés grâce à son adaptation à faible rang basée sur un mélange d'experts de vues (MoVE-LoRA). Le Raffineur de Vue Complète modifie et affine l'objet 3D en se basant sur les vues multi-modifiées. Des expériences approfondies démontrent que notre méthode surpasse les méthodes existantes en termes de précision d'édition et de cohérence spatiale.
L'augmentation des coûts de calcul et les ressources limitées soulignent le besoin crucial d'un entraînement avec budget d'itérations, visant à atteindre un apprentissage optimal dans des budgets d'itérations prédéfinis. Bien que les plans de taux d'apprentissage régissent fondamentalement la performance des différents réseaux et tâches, en particulier dans les scénarios avec budget d'itérations, leur conception reste largement heuristique, manquant de fondements théoriques. De plus, le plan de taux d'apprentissage optimal nécessite une sélection extensive par essais et erreurs, rendant le processus d'entraînement inefficace. Dans ce travail, nous proposons le plan Unified Budget-Aware (UBA), un plan de taux d'apprentissage théoriquement fondé qui surpasse systématiquement les plans couramment utilisés parmi diverses architectures et tâches sous différents budgets d'entraînement contraints. D'abord, nous comblons l'écart en construisant un nouveau cadre d'optimisation prenant en compte le budget d'entraînement, qui tient explicitement compte de la robustesse aux variations de courbure du paysage. De ce cadre, nous dérivons le plan UBA, contrôlé par un seul hyper-paramètre varphi qui offre un compromis entre flexibilité et simplicité, éliminant le besoin d'optimisation numérique par réseau. De plus, nous établissons une connexion théorique entre varphi et le nombre de conditionnement, ajoutant une interprétation et une justification à notre approche. Par ailleurs, nous prouvons la convergence pour différentes valeurs de varphi. Nous fournissons des directives pratiques pour sa sélection via une analyse théorique et des résultats empiriques. Les résultats expérimentaux étendus montrent que UBA surpasse systématiquement les plans couramment utilisés dans diverses tâches de vision et de langage, couvrant des architectures de réseaux (par exemple, ResNet, OLMo) et des échelles, sous différents budgets d'itérations d'entraînement.
Cet article aborde les lacunes critiques dans l'évaluation des modèles de langage arabes en établissant des directives théoriques complètes et en introduisant un nouveau cadre d'évaluation. Nous analysons d'abord les ensembles de données d'évaluation arabes existants, en identifiant des problèmes significatifs en matière de précision linguistique, d'alignement culturel et de rigueur méthodologique. Pour pallier ces limites dans les LLM, nous présentons l'Arabic Depth Mini Dataset (ADMD), une collection soigneusement sélectionnée de 490 questions complexes couvrant dix domaines majeurs (42 sous-domaines, voir Figure 1). En utilisant l'ADMD, nous évaluons cinq modèles de langage leaders : GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B et Qwen-Max. Nos résultats révèlent des variations significatives dans les performances des modèles selon les domaines, avec des défis particuliers dans les domaines nécessitant une compréhension culturelle approfondie et des connaissances spécialisées. Claude 3.5 Sonnet a démontré la plus grande précision globale à 30\%, montrant une force relative dans la théorie mathématique en arabe, la langue arabe et les domaines islamiques. Ce travail fournit à la fois des fondements théoriques et des insights pratiques pour améliorer l'évaluation des modèles de langage arabes, en mettant l'accent sur l'importance de la compétence culturelle aux côtés des capacités techniques.
Cet article aborde les lacunes critiques dans l'évaluation des modèles de langage arabes en établissant des directives théoriques complètes et en introduisant un nouveau cadre d'évaluation. Nous analysons d'abord les ensembles de données d'évaluation arabes existants, en identifiant des problèmes significatifs en matière de précision linguistique, d'alignement culturel et de rigueur méthodologique. Pour pallier ces limites dans les LLM, nous présentons l'Arabic Depth Mini Dataset (ADMD), une collection soigneusement sélectionnée de 490 questions complexes couvrant dix domaines majeurs (42 sous-domaines, voir Figure 1). En utilisant l'ADMD, nous évaluons cinq modèles de langage leaders : GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B et Qwen-Max. Nos résultats révèlent des variations significatives dans les performances des modèles selon les domaines, avec des défis particuliers dans les domaines nécessitant une compréhension culturelle approfondie et des connaissances spécialisées. Claude 3.5 Sonnet a démontré la plus grande précision globale à 30\%, montrant une force relative dans la théorie mathématique en arabe, la langue arabe et les domaines islamiques. Ce travail fournit à la fois des fondements théoriques et des insights pratiques pour améliorer l'évaluation des modèles de langage arabes, en mettant l'accent sur l'importance de la compétence culturelle aux côtés des capacités techniques.
La génération d'images à partir de textes impliquant des arrangements d'objets complexes et novateurs reste un défi majeur pour les modèles actuels de texte-à-image (T2I). Bien que les méthodes antérieures basées sur des layouts améliorent les arrangements d'objets en utilisant des contraintes spatiales avec des layouts 2D, elles peinent souvent à capturer le positionnement en 3D et sacrifient la qualité et la cohérence. Dans ce travail, nous présentons ComposeAnything, un nouveau cadre pour améliorer la génération d'images compositionnelles sans réentraîner les modèles T2I existants. Notre approche exploite d'abord les capacités de raisonnement en chaîne de pensée des LLM pour produire des layouts sémantiques 2.5D à partir de texte, comprenant des boîtes englobantes 2D enrichies d'informations de profondeur et de légendes détaillées. Sur la base de ce layout, nous générons un composite grossier spatialement et en profondeur des objets qui capture la composition souhaitée, servant de prior fort et interprétable qui remplace l'initialisation par bruit stochastique dans les modèles T2I basés sur la diffusion. Ce prior guide le processus de débruîtage à travers le renforcement des priors d'objets et le débruîtage contrôlé spatialement, permettant la génération fluide d'objets compositionnels et d'arrière-plans cohérents, tout en permettant l'affinement des priors inexacts. ComposeAnything surpasse les méthodes de pointe sur les benchmarks T2I-CompBench et NSR-1K pour des prompts avec des arrangements spatiaux 2D/3D, un nombre élevé d'objets et des compositions surréalistes. Les évaluations humaines démontrent en outre que notre modèle génère des images de haute qualité avec des compositions qui reflètent fidèlement le texte.
Dans cet article, nous présentons la Génération de Réponses Conversationnelles Multimodales en Temps Réel (OMCRG), une nouvelle tâche visant à générer en ligne des retours verbaux et non verbaux synchronisés de l'auditeur, conditionnés par l'entrée multimodale du locuteur. L'OMCRG reflète les interactions dyadiques naturelles et pose de nouveaux défis pour atteindre la synchronisation entre les réponses audio et faciales générées de l'auditeur. Pour relever ces défis, nous introduisons de manière innovante le texte comme modalité intermédiaire pour relier les réponses audio et faciales. Nous proposons ainsi OmniResponse, un Modèle de Langage Multimodal (MLLM) qui génère de manière autoregressive des réponses multimodales de haute qualité de l'auditeur. OmniResponse s'appuie sur un LLM pré-entraîné enrichi de deux nouveaux composants : Chrono-Text, qui ancre temporellement les tokens de texte générés, et TempoVoice, un module TTS en ligne contrôlable qui produit un discours synchronisé avec les réactions faciales. Pour soutenir les recherches futures sur l'OMCRG, nous présentons ResponseNet, un nouveau jeu de données comprenant 696 interactions dyadiques de haute qualité avec des vidéos en écran partagé synchronisées, des audios multicanal, des transcriptions et des annotations de comportements faciaux. Les évaluations approfondies menées sur ResponseNet démontrent qu'OmniResponse surpasse significativement les modèles de référence en termes de contenu sémantique du discours, de synchronisation audio-visuelle et de qualité de génération.
Les modèles de langage de grande taille (LLMs) ont obtenu des succès remarquables dans des tâches de raisonnement complexe, mais leur inférence reste inefficace sur le plan computationnel. Nous observons un mode d'échec commun à de nombreux LLMs répandus, le *surraisonnement*, où les modèles génèrent des traces de raisonnement verbeuses et tangentielles même pour des requêtes simples. Des travaux récents ont tenté de remédier à cela en imposant des budgets fixes de tokens, mais cela peut conduire à un *sous-raisonnement*, en particulier sur des problèmes plus difficiles. Par une analyse empirique, nous identifions que cette inefficacité découle souvent de stratégies de résolution de problèmes peu claires. Pour formaliser cela, nous développons un modèle théorique, BBAM (Bayesian Budget Allocation Model), qui modélise le raisonnement comme une séquence de sous-questions avec des incertitudes variables, et introduisons la métrique E^3 pour capturer le compromis entre la justesse et l'efficacité computationnelle. En nous appuyant sur les résultats théoriques de BBAM, nous proposons Plan-and-Budget, un framework agnostique au modèle et applicable au moment du test, qui décompose les requêtes complexes en sous-questions et alloue des budgets de tokens en fonction de la complexité estimée grâce à une planification adaptative. Plan-and-Budget améliore l'efficacité du raisonnement sur une gamme de tâches et de modèles, obtenant des gains de précision allant jusqu'à +70 %, une réduction de tokens de -39 % et une amélioration de +187,5 % sur la métrique E^3. Fait notable, il permet à un modèle plus petit (DS-Qwen-32B) d'égaler l'efficacité d'un modèle plus grand (DS-LLaMA-70B), démontrant ainsi la capacité de Plan-and-Budget à combler les écarts de performance sans réentraînement. Notre code est disponible à l'adresse anonymous.4open.science/r/P-and-B-6513/.
Plusieurs études ont exploré les mécanismes des grands modèles de langage (LLMs) dans les tâches de codage, mais la plupart se sont concentrées sur les langages de programmation (PLs) dans un contexte monolingue. Dans cet article, nous étudions la relation entre plusieurs PLs et l'anglais dans l'espace conceptuel des LLMs. Nous effectuons une tâche de traduction en few-shot sur 21 paires de PLs en utilisant deux modèles basés sur Llama. En décodant les embeddings des couches intermédiaires pendant cette tâche, nous observons que l'espace conceptuel est plus proche de l'anglais (y compris les mots-clés des PLs) et attribue des probabilités élevées aux tokens anglais dans la seconde moitié des couches intermédiaires. Nous analysons les activations neuronales pour 11 PLs et l'anglais, constatant que bien que les neurones spécifiques à une langue soient principalement concentrés dans les couches inférieures, ceux exclusifs à chaque PL ont tendance à apparaître dans les couches supérieures. Pour les PLs fortement alignés avec plusieurs autres PLs, l'identification des neurones spécifiques à une langue n'est pas réalisable. Ces PLs ont également tendance à avoir un ensemble de mots-clés plus large que les autres PLs et sont plus proches de l'espace conceptuel du modèle, indépendamment du PL d'entrée/sortie dans la tâche de traduction. Nos résultats fournissent des insights sur la manière dont les LLMs représentent internement les PLs, révélant des motifs structurels dans l'espace conceptuel du modèle. Le code est disponible à l'adresse https://github.com/cisnlp/code-specific-neurons.
Nous présentons SealQA, un nouveau benchmark d'évaluation pour les modèles de langage augmentés par la recherche (SEarch-Augmented Language models) sur des questions factuelles où la recherche web produit des résultats conflictuels, bruyants ou peu utiles. SealQA se décline en trois versions : (1) Seal-0 (principale) et (2) Seal-Hard, qui évaluent la précision factuelle et les capacités de raisonnement, avec Seal-0 se concentrant sur les questions les plus difficiles où les modèles de chat (par exemple, GPT-4.1) atteignent généralement une précision proche de zéro ; et (3) LongSeal, qui étend SealQA pour tester le raisonnement sur des contextes longs et multi-documents dans des scénarios de "aiguille dans une botte de foin". Notre évaluation révèle des limitations critiques des modèles actuels : même les LLM de pointe obtiennent de faibles performances sur toutes les versions de SealQA. Sur Seal-0, les modèles agentiques de pointe équipés d'outils comme o3 et o4-mini atteignent respectivement seulement 17,1 % et 6,3 % de précision, malgré leurs meilleurs efforts de raisonnement. Nous constatons que les modèles de raisonnement avancés tels que DeepSeek-R1-671B et o3-mini sont très vulnérables aux résultats de recherche bruyants. Notamment, augmenter la puissance de calcul au moment du test ne permet pas d'obtenir des gains fiables pour o3-mini, o4-mini et o3, avec des performances qui plafonnent souvent ou même déclinent précocement. De plus, bien que les modèles récents soient moins affectés par le problème du "perdu-au-milieu", ils échouent toujours à identifier de manière fiable les documents pertinents dans LongSeal face à de nombreux distracteurs. Pour faciliter les travaux futurs, nous publions SealQA sur huggingface.co/datasets/vtllms/sealqa.
Les grands modèles de langage (LLM) ont récemment été appliqués à des tâches de prévision, certaines études affirmant que ces systèmes égalent ou surpassent les performances humaines. Dans cet article, nous soutenons que, en tant que communauté, nous devons être prudents face à de telles conclusions, car l'évaluation des prévisionnistes basés sur les LLM présente des défis uniques. Nous identifions deux grandes catégories de problèmes : (1) la difficulté à faire confiance aux résultats d'évaluation en raison de diverses formes de fuite temporelle, et (2) la difficulté à extrapoler les performances d'évaluation à la prévision dans le monde réel. À travers une analyse systématique et des exemples concrets tirés de travaux antérieurs, nous démontrons comment les lacunes dans l'évaluation peuvent susciter des inquiétudes concernant les affirmations actuelles et futures sur les performances. Nous plaidons pour des méthodologies d'évaluation plus rigoureuses afin d'évaluer avec confiance les capacités de prévision des LLM.
La Distillation par Correspondance de Distribution (DMD) a été appliquée avec succès à des modèles de diffusion texte-image tels que Stable Diffusion (SD) 1.5. Cependant, la DMD classique rencontre des difficultés de convergence sur des modèles texte-image à grande échelle basés sur des flux, comme SD 3.5 et FLUX. Dans cet article, nous analysons d’abord les problèmes rencontrés lors de l’application de la DMD classique à des modèles à grande échelle. Ensuite, pour surmonter le défi de l’évolutivité, nous proposons l’alignement implicite de distribution (IDA) pour régulariser la distance entre le générateur et la distribution simulée. De plus, nous proposons un guidage intra-segment (ISG) pour repositionner la distribution d’importance des pas de temps du modèle enseignant. Avec l’IDA seule, la DMD converge pour SD 3.5 ; en utilisant à la fois l’IDA et l’ISG, la DMD converge pour SD 3.5 et FLUX.1 dev. Accompagnée d’autres améliorations telles que des modèles de discriminateurs mis à l’échelle, notre modèle final, baptisé SenseFlow, atteint des performances supérieures en distillation pour les modèles texte-image basés sur la diffusion comme SDXL, ainsi que pour les modèles de correspondance de flux comme SD 3.5 Large et FLUX. Le code source sera disponible à l’adresse https://github.com/XingtongGe/SenseFlow.
Les codecs audio neuronaux ont réalisé des avancées significatives dans la cartographie efficace des formes d'onde audio brutes en représentations discrètes sous forme de tokens, qui sont fondamentales pour les modèles génératifs audio contemporains. Cependant, la plupart des codecs existants sont principalement optimisés pour la qualité de reconstruction, souvent au détriment de la modélisabilité en aval des tokens encodés. Motivés par la nécessité de surmonter ce goulot d'étranglement, nous introduisons MagiCodec, un nouveau codec audio basé sur un Transformer monocouche et en flux continu. MagiCodec est conçu avec un pipeline d'entraînement en plusieurs étapes qui intègre l'injection de bruit gaussien et la régularisation latente, ciblant explicitement l'amélioration de l'expressivité sémantique dans les codes générés tout en préservant une fidélité de reconstruction élevée. Nous dérivons analytiquement l'effet de l'injection de bruit dans le domaine fréquentiel, démontrant son efficacité pour atténuer les composantes haute fréquence et favoriser une tokenisation robuste. Des évaluations expérimentales approfondies montrent que MagiCodec surpasse les codecs de pointe à la fois en qualité de reconstruction et dans les tâches en aval. Notamment, les tokens produits par MagiCodec présentent des distributions de type Zipf, similaires à celles observées dans les langues naturelles, améliorant ainsi la compatibilité avec les architectures génératives basées sur des modèles de langage. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/Ereboas/MagiCodec.
Les modèles de langage à récupération augmentée (RALMs) représentent un paradigme classique où les modèles améliorent leurs capacités génératives en utilisant des connaissances externes récupérées via un module spécialisé. Les avancées récentes dans les techniques d'agents permettent aux grands modèles de langage (LLMs) d'utiliser de manière autonome des outils pour la récupération, la planification et le raisonnement. Bien que les méthodes existantes basées sur l'entraînement montrent des résultats prometteurs, leurs capacités agentiques sont limitées par les caractéristiques inhérentes aux données spécifiques à la tâche utilisées pendant l'entraînement. Pour améliorer davantage la capacité de recherche universelle des agents, nous proposons un nouveau cadre de pré-entraînement, MaskSearch. Lors de l'étape de pré-entraînement, nous introduisons la tâche de prédiction de masques à récupération augmentée (RAMP), où le modèle apprend à utiliser des outils de recherche pour combler des segments masqués sur un grand nombre de données de pré-entraînement, acquérant ainsi des capacités universelles de récupération et de raisonnement pour les LLMs. Ensuite, le modèle est entraîné sur des tâches en aval pour obtenir une amélioration supplémentaire. Nous appliquons à la fois le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL) pour l'entraînement. Pour le SFT, nous combinons des méthodes basées sur les agents et sur la distillation pour générer des données d'entraînement, en commençant par un système multi-agents composé d'un planificateur, d'un rédacteur, d'un observateur, suivi d'un modèle enseignant auto-évolutif. Pour le RL, nous utilisons DAPO comme cadre d'entraînement et adoptons un système de récompense hybride composé de récompenses de réponse et de récompenses de format. De plus, nous introduisons une approche d'apprentissage curriculaire qui permet au modèle d'apprendre progressivement, des instances plus faciles aux plus difficiles, en fonction du nombre de segments masqués. Nous évaluons l'efficacité de notre cadre dans le scénario de réponse à des questions multi-sauts en domaine ouvert. À travers des expériences approfondies, nous démontrons que MaskSearch améliore significativement les performances des agents de recherche basés sur les LLMs, aussi bien sur les tâches en aval en domaine qu'hors domaine.
Alors que les modèles de langage de grande taille (LLMs) s'intègrent profondément dans la vie humaine et influencent de plus en plus la prise de décision, il est crucial d'évaluer si et dans quelle mesure ils manifestent des préférences, des opinions et des croyances subjectives. Ces tendances peuvent découler de biais inhérents aux modèles, qui pourraient façonner leur comportement, influencer les conseils et recommandations qu'ils offrent aux utilisateurs, et potentiellement renforcer certains points de vue. Cet article présente l'enquête sur les Préférences, Opinions et Croyances (POBs), un benchmark développé pour évaluer les inclinations subjectives des LLMs à travers les domaines sociétaux, culturels, éthiques et personnels. Nous avons appliqué notre benchmark pour évaluer les principaux LLMs open-source et propriétaires, mesurant des propriétés souhaitées telles que la fiabilité, la neutralité et la cohérence. De plus, nous avons étudié l'effet de l'augmentation des ressources de calcul au moment du test, via des mécanismes de raisonnement et d'auto-réflexion, sur ces métriques. Bien qu'efficaces dans d'autres tâches, nos résultats montrent que ces mécanismes n'offrent que des gains limités dans notre domaine. Par ailleurs, nous révélons que les versions plus récentes des modèles deviennent moins cohérentes et plus biaisées en faveur de points de vue spécifiques, mettant en lumière un angle mort et une tendance préoccupante. POBS : https://ibm.github.io/POBS
Nous introduisons les Frankentextes, un nouveau type de récits longs produits par des modèles de langage (LLMs) sous la contrainte extrême que la plupart des tokens (par exemple, 90 %) doivent être copiés textuellement à partir d'écrits humains. Cette tâche constitue un test exigeant de génération contrôlée, nécessitant que les modèles satisfassent une consigne d'écriture, intègrent des fragments de texte disparates, et produisent tout de même un récit cohérent. Pour générer des Frankentextes, nous demandons au modèle de produire une ébauche en sélectionnant et en combinant des passages écrits par des humains, puis de réviser itérativement cette ébauche tout en maintenant un ratio de copie spécifié par l'utilisateur. Nous évaluons les Frankentextes résultants selon trois axes : la qualité de l'écriture, l'adhésion aux instructions, et la détectabilité. Gemini-2.5-Pro se montre étonnamment performant dans cette tâche : 81 % de ses Frankentextes sont cohérents et 100 % pertinents par rapport à la consigne. Fait notable, jusqu'à 59 % de ces productions sont mal classées comme étant écrites par des humains par des détecteurs comme Pangram, révélant ainsi les limites des détecteurs de texte IA. Les annotateurs humains peuvent parfois identifier les Frankentextes grâce à leurs changements de ton abrupts et à leur grammaire incohérente entre les segments, en particulier dans les générations plus longues. Au-delà de la présentation d'une tâche de génération complexe, les Frankentextes ouvrent la discussion sur la construction de détecteurs efficaces pour cette nouvelle zone grise de paternité, fournissent des données d'entraînement pour la détection de paternité mixte, et servent de terrain d'étude pour les processus de co-écriture humain-IA.
Les modèles vision-langage (VLMs) alignés avec les objectifs humains généraux, tels que l'innocuité et l'absence d'hallucinations, sont devenus des assistants précieux pour les humains dans la gestion des tâches visuelles. Cependant, les personnes ayant des parcours diversifiés ont des cognitions différentes, même dans une même situation. Par conséquent, elles peuvent avoir des attentes personnalisées envers les assistants VLM. Cela met en lumière le besoin urgent d'aligner les assistants VLM avec une cognition située personnalisée pour une assistance dans le monde réel. Pour étudier ce problème, nous le simplifions d'abord en caractérisant les individus sur la base du concept sociologique de Rôle-Ensemble. Ensuite, nous proposons d'évaluer les actions des individus pour examiner si l'alignement personnalisé est atteint. De plus, nous construisons un benchmark nommé PCogAlignBench, qui comprend 18 000 instances et 20 individus avec différents Rôle-Ensembles. Enfin, nous présentons un cadre appelé PCogAlign, qui construit un modèle de récompense basé sur la cognition et les actions pour un alignement personnalisé. Les résultats expérimentaux et les évaluations humaines démontrent la fiabilité du PCogAlignBench et l'efficacité de notre PCogAlign proposé. Nous rendrons publics le benchmark et le code sur https://github.com/NLPGM/PCogAlign.
Des études récentes ont montré que le réglage fin supervisé des LLMs sur un petit nombre de jeux de données de haute qualité peut produire de solides capacités de raisonnement. Cependant, le réglage fin complet (Full FT), bien que puissant, est coûteux en calculs et susceptible de surapprentissage et d'oubli catastrophique, en particulier lorsque les données sont limitées. Le réglage fin parcimonieux, qui a précédemment obtenu un succès notable en ne mettant à jour qu'un petit sous-ensemble de paramètres du modèle, offre un compromis prometteur entre efficacité et performance. Pourtant, il a pris du retard à l'ère des LLMs en raison de la difficulté à identifier les paramètres véritablement critiques pour le raisonnement. Dans ce travail, nous affirmons que les poids ayant la plus grande magnitude après une approximation de bas rang sont des poids critiques pour le réglage fin, que nous appelons Poids Principaux. Étonnamment, bien que le réglage fin parcimonieux basé sur la magnitude soit peu performant comme référence pour le réglage fin des LLMs, il devient très efficace après réduction de rang. Ces observations motivent notre méthode : le Réglage Fin Parcimonieux Informé par le Bas Rang (LIFT). LIFT ne met à jour que les 5 % des Poids Principaux les plus importants tout au long de l'entraînement et obtient systématiquement de meilleures performances sur les tâches de raisonnement que le Full FT, tout en maintenant une efficacité mémoire comparable aux méthodes populaires de réglage fin économe en paramètres. En plus de performances solides sur des domaines cibles tels que le raisonnement arithmétique, LIFT conserve également jusqu'à 20 % de connaissances supplémentaires du domaine source, par rapport au Full FT et à LoRA. Notre code est disponible à l'adresse : https://github.com/zihanghliu/LIFT.
Comprendre les conditions socio-économiques urbaines à travers des données visuelles est une tâche complexe mais essentielle pour le développement urbain durable et la planification des politiques. Dans ce travail, nous présentons CityLens, un benchmark complet conçu pour évaluer les capacités des modèles de langage-vision à grande échelle (LLVMs) à prédire des indicateurs socio-économiques à partir d'images satellitaires et de vues de rue. Nous construisons un ensemble de données multi-modales couvrant un total de 17 villes réparties à travers le monde, englobant 6 domaines clés : économie, éducation, criminalité, transport, santé et environnement, reflétant ainsi la nature multifacette de la vie urbaine. Sur la base de cet ensemble de données, nous définissons 11 tâches de prédiction et utilisons trois paradigmes d'évaluation : Prédiction Directe de Métriques, Estimation Normalisée de Métriques et Régression Basée sur les Caractéristiques. Nous évaluons 17 LLVMs de pointe à travers ces tâches. Nos résultats révèlent que, bien que les LLVMs démontrent des capacités perceptuelles et de raisonnement prometteuses, ils présentent encore des limites dans la prédiction des indicateurs socio-économiques urbains. CityLens offre un cadre unifié pour diagnostiquer ces limites et guider les efforts futurs dans l'utilisation des LLVMs pour comprendre et prédire les modèles socio-économiques urbains. Nos codes et ensembles de données sont open-source via https://github.com/tsinghua-fib-lab/CityLens.
Cet article examine une décision de conception cruciale dans la pratique du pré-entraînement massivement multilingue continu — l'inclusion de données parallèles. Plus précisément, nous étudions l'impact des données de traduction bilingue pour l'adaptation massivement multilingue des modèles de la famille Llama3 à 500 langues. À cette fin, nous construisons le corpus de traduction bilingue MaLA, contenant des données provenant de plus de 2 500 paires de langues. Par la suite, nous développons la suite EMMA-500 Llama 3, composée de quatre modèles massivement multilingues — pré-entraînés de manière continue à partir des modèles de base de la famille Llama 3 sur des mélanges de données diversifiés allant jusqu'à 671 milliards de tokens — et explorons l'effet du pré-entraînement continu avec ou sans données de traduction bilingue. Une évaluation approfondie sur 7 tâches et 12 benchmarks démontre que les données bilingues tendent à améliorer le transfert linguistique et les performances, en particulier pour les langues à faibles ressources. Nous rendons publics le corpus MaLA, les artefacts de la suite EMMA-500 Llama 3, le code et les générations de modèles.
Le décodage du langage continu à partir de signaux neuronaux demeure un défi majeur à l'intersection des neurosciences et de l'intelligence artificielle. Nous présentons Neuro2Semantic, un cadre novateur qui reconstruit le contenu sémantique de la parole perçue à partir d'enregistrements EEG intracrâniens (iEEG). Notre approche se compose de deux phases : premièrement, un adaptateur basé sur LSTM aligne les signaux neuronaux avec des embeddings de texte pré-entraînés ; deuxièmement, un module correcteur génère du texte continu et naturel directement à partir de ces embeddings alignés. Cette méthode flexible surmonte les limitations des approches de décodage précédentes et permet une génération de texte sans contraintes. Neuro2Semantic obtient des performances solides avec seulement 30 minutes de données neuronales, surpassant une méthode récente de pointe dans des contextes à faible quantité de données. Ces résultats mettent en lumière le potentiel d'applications pratiques dans les interfaces cerveau-ordinateur et les technologies de décodage neural.
Le rendu binaural vise à synthétiser un audio binaural qui imite l'audition naturelle à partir d'un audio mono et des positions de l'émetteur et de l'auditeur. Bien que de nombreuses méthodes aient été proposées pour résoudre ce problème, elles peinent à atteindre une qualité de rendu et une inférence en flux continu. La synthèse d'un audio binaural de haute qualité, indiscernable des enregistrements réels, nécessite une modélisation précise des indices binauraux, de la réverbération de la pièce et des sons ambiants. De plus, les applications réelles exigent une inférence en flux continu. Pour relever ces défis, nous proposons un cadre de synthèse de parole binaurale en flux continu basé sur le *flow matching*, appelé BinauralFlow. Nous considérons le rendu binaural comme un problème de génération plutôt que de régression et concevons un modèle de *flow matching* conditionnel pour produire un audio de haute qualité. Par ailleurs, nous concevons une architecture U-Net causale qui estime la trame audio actuelle uniquement à partir des informations passées, afin d'adapter les modèles génératifs à l'inférence en flux continu. Enfin, nous introduisons un pipeline d'inférence continue intégrant des opérations STFT/ISTFT en flux continu, une banque de tampons, un solveur de point médian et un calendrier de saut précoce pour améliorer la continuité et la vitesse du rendu. Les évaluations quantitatives et qualitatives démontrent la supériorité de notre méthode par rapport aux approches de l'état de l'art. Une étude perceptive révèle en outre que notre modèle est presque indiscernable des enregistrements réels, avec un taux de confusion de 42 %.
Malgré les avancées dans le raisonnement et la planification des modèles de type R1, les grands modèles de langage (LLMs) peinent encore à accomplir des tâches nécessitant des calculs précis, des manipulations symboliques, de l'optimisation et un raisonnement algorithmique, où le raisonnement textuel manque de la rigueur de l'exécution de code. Un défi majeur consiste à permettre aux LLMs de décider quand utiliser un raisonnement textuel plutôt que la génération de code. Bien qu'OpenAI entraîne ses modèles à invoquer un interpréteur de code si nécessaire, la recherche publique manque de directives pour aligner les LLMs pré-entraînés afin de tirer efficacement parti du code et de généraliser à travers des tâches variées. Nous présentons R1-Code-Interpreter, une extension d'un LLM textuel uniquement, entraîné via un affinage supervisé multi-tours (SFT) et un apprentissage par renforcement (RL) pour générer de manière autonome plusieurs requêtes de code lors d'un raisonnement étape par étape. Nous avons sélectionné 144 tâches de raisonnement et de planification (107 pour l'entraînement, 37 pour les tests), chacune comportant plus de 200 questions variées. Nous avons affiné les modèles Qwen-2.5 (3B/7B/14B) en utilisant diverses stratégies de SFT et RL, en explorant différents formats de réponse, des modèles avec ou sans raisonnement, des démarrages à froid ou à chaud, GRPO vs. PPO, et des sorties de code masquées ou non masquées. Contrairement aux travaux antérieurs en RL sur des domaines étroits, nous constatons que l'entraînement avec l'interpréteur de code est significativement plus difficile en raison de la grande diversité des tâches et du coût élevé de l'exécution du code, soulignant le rôle crucial de l'étape de SFT. Notre modèle final, R1-CI-14B, améliore la précision moyenne sur les 37 tâches de test de 44,0 % à 64,1 %, surpassant GPT-4o (texte uniquement : 58,6 %) et approchant GPT-4o avec interpréteur de code (70,9 %), grâce à l'émergence d'un comportement d'auto-vérification via la génération de code. Les ensembles de données, codes et modèles sont disponibles sur https://github.com/yongchao98/R1-Code-Interpreter et https://huggingface.co/yongchao98.
Les modèles de langage multimodaux de grande taille (MLLMs) obtiennent de bons résultats sur des tâches telles que la réponse à des questions visuelles, mais il reste incertain si leur raisonnement repose davantage sur des connaissances mémorisées du monde ou sur les informations visuelles présentes dans l'image d'entrée. Pour étudier cela, nous introduisons Visual CounterFact, un nouvel ensemble de données de contre-factuels visuellement réalistes qui mettent en conflit direct les connaissances a priori du monde (par exemple, une fraise rouge) avec les informations visuelles (par exemple, une fraise bleue). En utilisant Visual CounterFact, nous montrons que les prédictions du modèle reflètent initialement les connaissances a priori mémorisées, mais évoluent vers les preuves visuelles dans les couches intermédiaires à tardives. Cette dynamique révèle une compétition entre les deux modalités, où l'entrée visuelle finit par surpasser les connaissances a priori lors de l'évaluation. Pour contrôler ce comportement, nous proposons les vecteurs de pilotage Pixels Versus Priors (PvP), un mécanisme permettant de contrôler les sorties du modèle vers les connaissances du monde ou les entrées visuelles via des interventions au niveau des activations. En moyenne, PvP parvient à déplacer 92,5 % des prédictions de couleur et 74,6 % des prédictions de taille des connaissances a priori vers les contre-factuels. Ensemble, ces résultats offrent de nouveaux outils pour interpréter et contrôler le comportement factuel dans les modèles multimodaux.
L'acquisition de données vocales émotionnelles à grande échelle avec une forte cohérence reste un défi pour la synthèse vocale. Cet article présente MIKU-PAL, un pipeline multimodal entièrement automatisé pour extraire des données vocales émotionnelles hautement cohérentes à partir de vidéos non annotées. En exploitant des algorithmes de détection et de suivi facial, nous avons développé un système d'analyse émotionnelle automatique utilisant un modèle de langage multimodal à grande échelle (MLLM). Nos résultats démontrent que MIKU-PAL peut atteindre une précision équivalente à celle d'un humain (68,5 % sur MELD) et une cohérence supérieure (score de kappa de Fleiss de 0,93), tout en étant beaucoup plus économique et rapide que l'annotation humaine. Grâce aux annotations de haute qualité, flexibles et cohérentes de MIKU-PAL, nous pouvons annoter des catégories d'émotions vocales fines allant jusqu'à 26 types, validées par des annotateurs humains avec un taux de rationalité de 83 %. Sur la base de notre système proposé, nous avons également publié un ensemble de données vocales émotionnelles fines, MIKU-EmoBench (131,2 heures), comme nouveau benchmark pour la synthèse vocale émotionnelle et le clonage vocal visuel.
Ce travail explore l'Adaptation de Domaine Sans Source (Source-Free Domain Adaptation, SFDA), où un modèle s'adapte à un domaine cible sans accès aux données sources. Une nouvelle technique d'augmentation, Shuffle PatchMix (SPM), ainsi qu'une stratégie de repondération innovante sont introduites pour améliorer les performances. SPM mélange et réorganise des patches d'images pour générer des augmentations diversifiées et stimulantes, tandis que la stratégie de repondération priorise les pseudo-labels fiables pour atténuer le bruit des labels. Ces techniques sont particulièrement efficaces sur des ensembles de données plus petits comme PACS, où le surajustement et le bruit des pseudo-labels représentent des risques plus importants. Des résultats de pointe sont obtenus sur trois benchmarks majeurs : PACS, VisDA-C et DomainNet-126. Notamment, sur PACS, des améliorations de 7,3 % (de 79,4 % à 86,7 %) et de 7,2 % sont observées dans les configurations à cible unique et à cibles multiples, respectivement, tandis que des gains de 2,8 % et 0,7 % sont atteints sur DomainNet-126 et VisDA-C. Cette combinaison d'augmentation avancée et de repondération robuste des pseudo-labels établit un nouveau standard pour la SFDA. Le code est disponible à l'adresse : https://github.com/PrasannaPulakurthi/SPM.
La compilation efficace des opérations quantiques reste un goulot d'étranglement majeur dans la mise à l'échelle de l'informatique quantique. Les méthodes actuelles les plus avancées obtiennent une faible erreur de compilation en combinant des algorithmes de recherche avec une optimisation des paramètres basée sur le gradient, mais elles entraînent des temps d'exécution longs et nécessitent de multiples appels au matériel quantique ou à des simulations classiques coûteuses, rendant leur mise à l'échelle prohibitive. Récemment, des modèles d'apprentissage automatique ont émergé comme alternative, bien qu'ils soient actuellement limités à des ensembles de portes discrètes. Ici, nous introduisons un modèle de diffusion débruiteur multimodal qui génère simultanément la structure d'un circuit et ses paramètres continus pour compiler une unitaire cible. Il exploite deux processus de diffusion indépendants, l'un pour la sélection discrète des portes et l'autre pour la prédiction des paramètres. Nous évaluons ce modèle sur différentes expériences, en analysant la précision de la méthode pour des nombres variables de qubits, des profondeurs de circuit et des proportions de portes paramétrées. Enfin, en exploitant sa génération rapide de circuits, nous créons de grands ensembles de données de circuits pour des opérations spécifiques et les utilisons pour extraire des heuristiques précieuses qui peuvent nous aider à découvrir de nouvelles perspectives sur la synthèse de circuits quantiques.