papers.description
Nous présentons Qwen3-Omni, un modèle multimodal unique qui, pour la première fois, maintient des performances de pointe à travers le texte, l'image, l'audio et la vidéo sans aucune dégradation par rapport à ses homologues unimodaux. Qwen3-Omni égalise les performances des modèles unimodaux de même taille dans la série Qwen et excelle particulièrement sur les tâches audio. Sur 36 benchmarks audio et audio-visuels, Qwen3-Omni atteint l'état de l'art (SOTA) open-source sur 32 benchmarks et le SOTA global sur 22, surpassant des modèles propriétaires puissants tels que Gemini-2.5-Pro, Seed-ASR et GPT-4o-Transcribe. Qwen3-Omni adopte une architecture Thinker-Talker MoE qui unifie la perception et la génération à travers le texte, les images, l'audio et la vidéo, produisant un texte fluide et une parole naturelle en temps réel. Il prend en charge l'interaction textuelle dans 119 langues, la compréhension de la parole dans 19 langues et la génération de parole dans 10 langues. Pour réduire la latence du premier paquet dans la synthèse en flux continu, Talker prédit de manière autorégressive des codecs vocaux discrets en utilisant un schéma multi-codebook. En exploitant la capacité de représentation de ces codebooks, nous remplaçons la diffusion par blocs, coûteuse en calcul, par un ConvNet causal léger, permettant un streaming dès la première trame de codec. Dans des conditions de démarrage à froid, Qwen3-Omni atteint une latence théorique de bout en bout du premier paquet de 234 ms. Pour renforcer davantage le raisonnement multimodal, nous introduisons un modèle Thinking qui raisonne explicitement sur les entrées de toute modalité. Comme la communauté de recherche manque actuellement d'un modèle généraliste de description audio, nous avons affiné Qwen3-Omni-30B-A3B pour obtenir Qwen3-Omni-30B-A3B-Captioner, qui produit des descriptions détaillées et peu hallucinatoires pour des entrées audio arbitraires. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking et Qwen3-Omni-30B-A3B-Captioner sont publiés publiquement sous la licence Apache 2.0.
Nous définissons l'Agence comme la capacité émergente des systèmes d'IA à fonctionner comme des agents autonomes, découvrant activement des problèmes, formulant des hypothèses et exécutant des solutions grâce à un engagement autodirigé avec des environnements et des outils. Cette capacité fondamentale marque l'aube de l'Âge de l'Agence IA, impulsée par un changement critique dans l'industrie : le besoin urgent de systèmes d'IA qui ne se contentent pas de penser, mais qui travaillent. Alors que l'IA actuelle excelle dans le raisonnement et la génération de réponses, les industries réclament des agents autonomes capables d'exécuter des tâches, d'utiliser des outils et de produire des résultats concrets. À mesure que l'intelligence agentique devient la caractéristique déterminante qui distingue les systèmes cognitifs des travailleurs productifs, cultiver efficacement l'autonomie des machines devient primordial. Les approches actuelles supposent que davantage de données engendre une meilleure agence, suivant les lois traditionnelles de mise à l'échelle issues du modélisation du langage. Nous remettons fondamentalement en cause ce paradigme. LIMI (Less Is More for Intelligent Agency) démontre que l'agence suit des principes de développement radicalement différents. Grâce à un focus stratégique sur le développement collaboratif de logiciels et les workflows de recherche scientifique, nous montrons qu'une intelligence agentique sophistiquée peut émerger à partir de démonstrations minimales mais stratégiquement sélectionnées de comportement autonome. En utilisant seulement 78 échantillons d'entraînement soigneusement conçus, LIMI atteint 73,5 % sur des benchmarks complets d'agence, surpassant de manière spectaculaire les modèles de pointe : Kimi-K2-Instruct (24,1 %), DeepSeek-V3.1 (11,9 %), Qwen3-235B-A22B-Instruct (27,5 %) et GLM-4.5 (45,1 %). Plus frappant encore, LIMI démontre une amélioration de 53,7 % par rapport aux modèles entraînés sur 10 000 échantillons, atteignant une intelligence agentique supérieure avec 128 fois moins d'échantillons. Nos résultats établissent le Principe d'Efficacité de l'Agence : l'autonomie des machines émerge non pas de l'abondance des données, mais de la curation stratégique de démonstrations agentiques de haute qualité.
Les récents progrès dans l'insertion vidéo basée sur les modèles de diffusion sont impressionnants. Cependant, les méthodes existantes s'appuient sur des signaux de contrôle complexes mais peinent à maintenir la cohérence des sujets, limitant ainsi leur applicabilité pratique. Dans cet article, nous nous concentrons sur la tâche d'insertion vidéo sans masque et visons à résoudre trois défis majeurs : la rareté des données, l'équilibre sujet-scène et l'harmonisation de l'insertion. Pour pallier la rareté des données, nous proposons une nouvelle pipeline de données, InsertPipe, qui construit automatiquement des données croisées diversifiées. En nous appuyant sur cette pipeline, nous développons OmniInsert, un cadre unifié novateur pour l'insertion vidéo sans masque à partir de références de sujets uniques ou multiples. Plus précisément, pour maintenir l'équilibre sujet-scène, nous introduisons un mécanisme d'injection de caractéristiques spécifiques aux conditions, simple mais efficace, pour injecter distinctement des conditions multi-sources, et proposons une stratégie d'entraînement progressive qui permet au modèle d'équilibrer l'injection de caractéristiques des sujets et de la vidéo source. Par ailleurs, nous concevons une fonction de perte centrée sur le sujet pour améliorer l'apparence détaillée des sujets. Pour renforcer davantage l'harmonisation de l'insertion, nous proposons une méthodologie d'optimisation des préférences d'insertion pour optimiser le modèle en simulant les préférences humaines, et intégrons un module de reformulation contextuelle pendant la référence pour intégrer de manière fluide le sujet dans les scènes originales. Pour remédier au manque de référence dans ce domaine, nous introduisons InsertBench, un benchmark complet comprenant des scènes variées avec des sujets soigneusement sélectionnés. L'évaluation sur InsertBench montre qu'OmniInsert surpasse les solutions commerciales propriétaires de pointe. Le code sera publié.
Nous présentons Meta Agents Research Environments (ARE), une plateforme de recherche pour la création évolutive d'environnements, l'intégration d'applications synthétiques ou réelles, et l'exécution d'orchestrations agentiques. ARE fournit des abstractions simples pour construire des environnements complexes et diversifiés, chacun avec ses propres règles, outils, contenus et vérificateurs, contribuant à combler le fossé entre le développement de modèles et le déploiement dans le monde réel. Nous proposons également Gaia2, un benchmark construit dans ARE et conçu pour mesurer les capacités générales des agents. Au-delà de la recherche et de l'exécution, Gaia2 exige que les agents gèrent les ambiguïtés et le bruit, s'adaptent à des environnements dynamiques, collaborent avec d'autres agents et opèrent sous des contraintes temporelles. Contrairement aux benchmarks précédents, Gaia2 fonctionne de manière asynchrone, révélant de nouveaux modes d'échec invisibles dans des configurations statiques. Nos expériences montrent qu'aucun système ne domine sur l'ensemble du spectre de l'intelligence : un raisonnement plus puissant se fait souvent au détriment de l'efficacité, et les courbes de mise à l'échelle budgétaire plafonnent, soulignant la nécessité de nouvelles architectures et de stratégies de calcul adaptatives. Plus important encore, les abstractions d'ARE permettent une extension continue de Gaia2 à d'autres environnements, permettant à la communauté de créer rapidement de nouveaux benchmarks adaptés à leurs domaines. Dans la seconde moitié de l'IA, le progrès dépend de plus en plus de la définition de tâches significatives et d'évaluations robustes pour faire avancer les capacités de pointe.
Malgré l'intérêt croissant pour reproduire le succès à grande échelle des modèles de langage de grande taille (LLMs) dans les systèmes de recherche industriels et de recommandation, la plupart des efforts industriels existants se limitent à transposer les architectures Transformer, qui n'apportent que des améliorations incrémentielles par rapport aux modèles de recommandation par apprentissage profond (DLRMs) déjà performants. D'un point de vue fondamental, les avancées des LLMs ne découlent pas uniquement de leurs architectures, mais aussi de deux mécanismes complémentaires : l'ingénierie contextuelle, qui enrichit les requêtes brutes avec des indices contextuels pour mieux exploiter les capacités du modèle, et le raisonnement multi-étapes, qui affine itérativement les sorties du modèle à travers des chemins de raisonnement intermédiaires. Cependant, ces deux mécanismes et leur potentiel à débloquer des améliorations substantielles restent largement inexplorés dans les systèmes de classement industriels. Dans cet article, nous proposons OnePiece, un cadre unifié qui intègre de manière transparente l'ingénierie contextuelle et le raisonnement de style LLM dans les modèles de récupération et de classement des pipelines en cascade industriels. OnePiece est construit sur une architecture Transformer pure et introduit trois innovations clés : (1) l'ingénierie contextuelle structurée, qui enrichit l'historique des interactions avec des signaux de préférence et de scénario, et les unifie en une séquence d'entrée tokenisée structurée pour la récupération et le classement ; (2) le raisonnement latent par blocs, qui dote le modèle d'un raffinement multi-étapes des représentations et ajuste la bande passante du raisonnement via la taille des blocs ; (3) l'entraînement multi-tâches progressif, qui exploite les chaînes de feedback utilisateur pour superviser efficacement les étapes de raisonnement pendant l'entraînement. OnePiece a été déployé dans le scénario principal de recherche personnalisée de Shopee et obtient des gains en ligne constants sur différentes métriques commerciales clés, incluant une augmentation de plus de +2% du GMV/UU et une hausse de +2,90% des revenus publicitaires.
Cet article présente TempSamp-R1, un nouveau cadre de réglage fin par renforcement conçu pour améliorer l'efficacité de l'adaptation des modèles de langage multimodaux de grande taille (MLLMs) aux tâches de localisation temporelle vidéo. Nous révélons que les méthodes existantes d'apprentissage par renforcement, telles que l'Optimisation de Politique Relative par Groupe (GRPO), reposent sur un échantillonnage sur-politique pour les mises à jour de politique. Cependant, dans les tâches comportant de vastes espaces de recherche temporelle, cette stratégie devient à la fois inefficace et limitée en termes de performance, car elle échoue souvent à identifier des solutions temporellement précises. Pour remédier à cette limitation, TempSamp-R1 exploite les annotations de vérité terrain comme supervision hors-politique pour fournir un guidage temporellement précis, compensant ainsi efficacement la rareté et le désalignement des solutions sur-politique. Pour stabiliser davantage l'entraînement et réduire la variance dans les mises à jour basées sur les récompenses, TempSamp-R1 propose une méthode de calcul non linéaire des avantages doux qui redynamise les retours de récompense via une transformation asymétrique. En employant un paradigme d'entraînement hybride de Chaîne de Pensée (CoT), TempSamp-R1 optimise un modèle unique unifié pour supporter à la fois les modes d'inférence CoT et non-CoT, permettant ainsi une gestion efficace des requêtes avec des complexités de raisonnement variables. Les résultats expérimentaux démontrent que TempSamp-R1 surpasse les bases de référence basées sur GRPO, établissant de nouvelles performances de pointe sur les ensembles de données de référence : Charades-STA (R1@0.7 : 52,9 %, +2,7 %), ActivityNet Captions (R1@0.5 : 56,0 %, +5,3 %) et QVHighlights (mAP : 30,0 %, +3,0 %). De plus, TempSamp-R1 montre des capacités robustes de généralisation en peu de coups sous des données limitées. Code : https://github.com/HVision-NKU/TempSamp-R1
Dans cet article, nous proposons VideoFrom3D, un nouveau cadre pour la synthèse de vidéos de scènes 3D de haute qualité à partir d'une géométrie approximative, d'une trajectoire de caméra et d'une image de référence. Notre approche simplifie le flux de travail de conception graphique 3D, permettant une exploration de conception flexible et une production rapide de livrables. Une approche directe pour synthétiser une vidéo à partir d'une géométrie approximative pourrait consister à conditionner un modèle de diffusion vidéo sur la structure géométrique. Cependant, les modèles de diffusion vidéo existants peinent à générer des résultats de haute fidélité pour des scènes complexes en raison de la difficulté à modéliser conjointement la qualité visuelle, le mouvement et la cohérence temporelle. Pour résoudre ce problème, nous proposons un cadre génératif qui exploite les forces complémentaires des modèles de diffusion d'images et de vidéos. Plus précisément, notre cadre se compose d'un module de Génération de Vues d'Ancrage Sparse (SAG) et d'un module d'Interpolation Générative Guidée par la Géométrie (GGI). Le module SAG génère des vues d'ancrage de haute qualité et cohérentes entre les différentes perspectives en utilisant un modèle de diffusion d'images, aidé par un Échantillonnage Guidé par l'Apparence Sparse. En s'appuyant sur ces vues d'ancrage, le module GGI interpole fidèlement les images intermédiaires en utilisant un modèle de diffusion vidéo, amélioré par un contrôle de caméra basé sur le flux et une guidance structurelle. Il est à noter que les deux modules fonctionnent sans aucun ensemble de données appariées de modèles de scènes 3D et d'images naturelles, qui sont extrêmement difficiles à obtenir. Des expériences approfondies montrent que notre méthode produit des vidéos de scènes de haute qualité et cohérentes en termes de style dans divers scénarios difficiles, surpassant les bases de référence simples et étendues.
L'apprentissage par renforcement en ligne (RL) a joué un rôle central dans le post-entraînement des modèles de langage, mais son extension aux modèles de diffusion reste difficile en raison de la complexité des vraisemblances. Les travaux récents discrétisent le processus d'échantillonnage inverse pour permettre un entraînement de type GRPO, mais ils héritent de limitations fondamentales, incluant des restrictions sur les solveurs, une incohérence entre les processus direct et inverse, et une intégration complexe avec le guidage sans classifieur (CFG). Nous introduisons Diffusion Negative-aware FineTuning (DiffusionNFT), un nouveau paradigme de RL en ligne qui optimise directement les modèles de diffusion sur le processus direct via le flow matching. DiffusionNFT oppose les générations positives et négatives pour définir une direction implicite d'amélioration de la politique, intégrant naturellement les signaux de renforcement dans l'objectif d'apprentissage supervisé. Cette formulation permet un entraînement avec des solveurs boîte noire arbitraires, élimine le besoin d'estimation de vraisemblance, et ne nécessite que des images propres plutôt que des trajectoires d'échantillonnage pour l'optimisation de la politique. DiffusionNFT est jusqu'à 25 fois plus efficace que FlowGRPO dans des comparaisons directes, tout en étant exempt de CFG. Par exemple, DiffusionNFT améliore le score GenEval de 0,24 à 0,98 en 1 000 étapes, tandis que FlowGRPO atteint 0,95 avec plus de 5 000 étapes et l'utilisation supplémentaire de CFG. En exploitant plusieurs modèles de récompense, DiffusionNFT améliore significativement les performances de SD3.5-Medium dans tous les benchmarks testés.
Nous présentons SWE-Bench Pro, un benchmark considérablement plus exigeant qui s'appuie sur les meilleures pratiques de SWE-BENCH [25], mais qui est explicitement conçu pour capturer des problèmes réalistes, complexes et de niveau entreprise, au-delà de la portée de SWE-BENCH. SWE-BENCH PRO contient 1 865 problèmes issus d'un ensemble diversifié de 41 dépôts activement maintenus, couvrant des applications métier, des services B2B et des outils pour développeurs. Le benchmark est divisé en un ensemble public avec un accès ouvert aux problèmes provenant de 11 dépôts, un ensemble réservé de 12 dépôts et un ensemble commercial de 18 dépôts propriétaires pour lesquels nous avons des accords de partenariat formels avec des startups en phase initiale. Les problèmes des ensembles réservé et commercial ne sont pas accessibles au public, mais nous publions les résultats sur l'ensemble commercial. Notre benchmark propose des tâches à long terme qui peuvent nécessiter des heures à plusieurs jours pour un ingénieur logiciel professionnel, impliquant souvent des modifications de code substantielles et des correctifs sur plusieurs fichiers. Toutes les tâches sont vérifiées par des humains et enrichies d'un contexte suffisant pour garantir leur résolubilité. Dans notre évaluation des modèles de codage largement utilisés, sous un cadre unifié, nous observons que leurs performances sur SWE-Bench PRO restent inférieures à 25 % (Pass@1), avec GPT-5 atteignant le score le plus élevé à ce jour à 23,3 %. Pour mieux comprendre ces limitations, nous regroupons les modes d'échec observés dans les trajectoires des agents collectées afin de caractériser plus clairement les schémas d'erreurs des modèles actuels. Globalement, SWE-BENCH PRO offre un environnement de test résistant à la contamination qui capture plus fidèlement la complexité et la diversité du développement logiciel réel, faisant progresser la quête d'agents de génie logiciel véritablement autonomes à un niveau professionnel.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis d'étendre les longueurs de contexte, permettant aux assistants de maintenir des historiques longs pour des réponses cohérentes et personnalisées. Cette capacité repose cependant sur le cache clé-valeur (KV), dont la mémoire croît linéairement avec la longueur du dialogue et domine rapidement sous des contraintes de ressources strictes. Une ligne de recherche active pour réduire cette surcharge est la compression du cache KV, qui vise à limiter la taille du cache tout en préservant la précision. Cependant, les méthodes existantes font face à deux limitations majeures : (i) l'éviction des entrées après un préremplissage complet du contexte entraîne une mémoire de pointe non bornée, et (ii) l'éviction dépendante de la requête réduit le cache à une seule requête, conduisant à une précision dégradée dans les conversations multi-tours. Nous présentons EpiCache, un cadre de gestion du cache KV sans apprentissage pour les questions-réponses conversationnelles longues (LongConvQA) sous des budgets de mémoire fixes. EpiCache limite la croissance du cache grâce à un préremplissage par blocs et préserve le contexte pertinent via une compression épisodique du cache KV, qui regroupe l'historique de la conversation en épisodes cohérents et applique une éviction spécifique à chaque épisode. Nous concevons également une stratégie d'allocation de budget adaptative par couches qui mesure la sensibilité de chaque couche à l'éviction et distribue le budget de mémoire en conséquence. Sur trois benchmarks LongConvQA, EpiCache améliore la précision jusqu'à 40 % par rapport aux bases de référence récentes, maintient une précision quasi complète du cache KV sous une compression de 4 à 6 fois, et réduit la latence et la mémoire jusqu'à 2,4 fois et 3,5 fois, permettant ainsi une interaction multi-tours efficace sous des contraintes de ressources strictes.
Les avancées récentes en apprentissage par renforcement (RL) ont amélioré les capacités de raisonnement des grands modèles de langage (LLMs), mais leur impact sur les modèles de langage multimodaux (MLLMs) reste limité. En particulier dans les tâches visuellement intensives comme le raisonnement géométrique, les MLLMs hallucinent fréquemment, conduisant à des raisonnements inexacts. Nous attribuons cela au goulot d'étranglement perceptuel des MLLMs, qui limite les bénéfices de l'entraînement au raisonnement. Pour quantifier ce phénomène, nous concevons un benchmark de questions-réponses géo-perceptuelles (GeoPQA), ciblant les concepts géométriques de base et les relations spatiales. Les expériences sur GeoPQA révèlent des lacunes significatives des MLLMs en perception visuelle, ce qui restreint les signaux de récompense RL pour un entraînement efficace. Pour résoudre ce goulot d'étranglement, nous proposons un cadre d'entraînement RL en deux étapes : d'abord en améliorant la perception visuelle des structures géométriques, puis en développant les capacités de raisonnement. Appliqué à Qwen2.5-VL-3B-Instruct, notre entraînement en deux étapes améliore le raisonnement géométrique de 9,7 % et la résolution de problèmes géométriques de 9,1 %, par rapport à l'approche d'entraînement direct au raisonnement. Notre méthode se généralise également à d'autres domaines visuellement intensifs comme la compréhension de figures, soulignant l'importance de l'ancrage perceptuel pour un raisonnement efficace des MLLMs.
Cet article présente ByteWrist, un nouveau poignet parallèle hautement flexible et anthropomorphique pour la manipulation robotique. ByteWrist surmonte les limitations critiques des poignets série et parallèle existants dans les opérations en espaces restreints grâce à un mécanisme d'entraînement parallèle compact à trois étages intégré avec des liaisons terminales en forme d'arc. La conception permet un mouvement RPY (Roulis-Tangage-Lacet) précis tout en conservant une compacité exceptionnelle, la rendant particulièrement adaptée aux environnements complexes non structurés tels que les services domestiques, l'assistance médicale et l'assemblage de précision. Les innovations clés incluent : (1) des liaisons motorisées à trois étages imbriquées qui minimisent le volume tout en permettant un contrôle multi-DOF indépendant, (2) des liaisons terminales en forme d'arc qui optimisent la transmission de force et étendent la plage de mouvement, et (3) une bille de support centrale fonctionnant comme une articulation sphérique qui améliore la rigidité structurelle sans compromettre la flexibilité. Par ailleurs, nous présentons une modélisation cinématique complète incluant la cinématique directe/inverse et une solution numérique du Jacobien pour un contrôle précis. Empiriquement, nous observons que ByteWrist démontre de fortes performances en matière de maniabilité dans les espaces restreints et dans les tâches de manipulation coopérative à deux bras, surpassant les systèmes basés sur Kinova. Les résultats indiquent des améliorations significatives en termes de compacité, d'efficacité et de rigidité par rapport aux conceptions traditionnelles, établissant ByteWrist comme une solution prometteuse pour la manipulation robotique de nouvelle génération dans des environnements contraints.
Nous menons une évaluation à échelle modérée et relativement exempte de contamination des modèles de raisonnement à grande échelle (LRM) actuels, avec quelques résultats préliminaires. Nous publions également ROME, notre benchmark d'évaluation pour les modèles de langage visuel, conçu pour tester le raisonnement à partir d'indices visuels. Nous fournissons des liens vers le benchmark, les données d'évaluation et d'autres mises à jour sur ce site web : https://flageval-baai.github.io/LRM-Eval/
Les grands modèles de langage (LLM) acquièrent des connaissances substantielles sur le monde pendant la phase de pré-entraînement, qui sont ensuite façonnées par des techniques post-entraînement telles que le réglage fin supervisé (SFT). Cependant, l'impact du SFT sur les connaissances d'un modèle reste peu exploré, limitant notre capacité à contrôler le comportement de changement des connaissances dans les modèles réglés finement. Pour combler cette lacune, nous évaluons les performances en réponse à des questions en mode fermé (CBQA) sur cinq LLM des familles LLaMA-2 et LLaMA-3. Étonnamment, les modèles réglés finement sur 1 920 échantillons performent jusqu'à 14 % moins bien que ceux réglés finement sur seulement 240 échantillons. De plus, varier le niveau de maîtrise des connaissances dans les données de réglage fin entraîne des fluctuations de performance de plus de 12 %. Pour étudier ces effets, nous analysons le comportement du modèle à la fois au niveau des tokens et des paramètres. Notre analyse révèle que jusqu'à 90 % des mises à jour des paramètres pendant le SFT ne contribuent pas à l'amélioration des connaissances. Restaurer ces mises à jour peut améliorer les performances sur la tâche CBQA, en fonction des caractéristiques des données de réglage fin. Ces insights offrent des conseils pratiques pour développer des stratégies de réglage fin qui renforcent plus efficacement les connaissances du modèle.
Les développeurs de grands modèles de langage (LLM) visent à ce que leurs modèles soient honnêtes, utiles et inoffensifs. Cependant, face à des requêtes malveillantes, les modèles sont entraînés à refuser, sacrifiant ainsi leur utilité. Nous montrons que les LLM de pointe peuvent développer une préférence pour la malhonnêteté comme nouvelle stratégie, même lorsque d'autres options sont disponibles. Les modèles concernés répondent aux requêtes nuisibles par des sorties qui semblent dangereuses mais qui sont en réalité subtilement incorrectes ou inoffensives dans la pratique. Ce comportement émerge avec des variations difficiles à prévoir, même au sein de modèles de la même famille. Nous ne trouvons aucune cause apparente à cette propension à tromper, mais nous montrons que les modèles plus performants sont meilleurs pour exécuter cette stratégie. La malhonnêteté stratégique a déjà un impact pratique sur les évaluations de sécurité, car nous montrons que les réponses malhonnêtes trompent tous les moniteurs basés sur les sorties utilisés pour détecter les jailbreaks que nous testons, rendant les scores de référence peu fiables. De plus, la malhonnêteté stratégique peut agir comme un piège contre les utilisateurs malveillants, ce qui obscurcit notablement les attaques de jailbreak précédentes. Alors que les moniteurs de sortie échouent, nous montrons que des sondes linéaires sur les activations internes peuvent être utilisées pour détecter de manière fiable la malhonnêteté stratégique. Nous validons ces sondes sur des ensembles de données avec des résultats vérifiables et en utilisant leurs caractéristiques comme vecteurs de pilotage. Dans l'ensemble, nous considérons la malhonnêteté stratégique comme un exemple concret d'une préoccupation plus large selon laquelle l'alignement des LLM est difficile à contrôler, en particulier lorsque l'utilité et l'innocuité entrent en conflit.
La demande pour un déploiement efficace des grands modèles de langage (LLMs) a suscité un intérêt croissant pour la quantification, qui réduit les coûts d'inférence, et pour le réglage fin efficace en paramètres (PEFT), qui diminue la surcharge d'entraînement. Cela a motivé le développement de méthodes de PEFT conscientes de la quantification afin de produire des modèles quantifiés à la fois précis et efficaces. Dans ce contexte, la réduction de l'erreur de quantification avant le réglage fin est cruciale pour atteindre une haute précision du modèle. Cependant, les méthodes existantes qui reposent sur l'adaptation à faible rang souffrent d'une capacité de représentation limitée. Les adaptateurs récents basés sur des transformations liées à la transformée de Fourier (FT) offrent une puissance de représentation supérieure à celle des adaptateurs à faible rang, mais leur intégration directe dans des modèles quantifiés entraîne souvent une réduction inefficace des erreurs et une augmentation de la surcharge computationnelle. Pour surmonter ces limitations, nous proposons QWHA, une méthode qui intègre des adaptateurs basés sur la FT dans des modèles quantifiés en utilisant la transformée de Walsh-Hadamard (WHT) comme noyau de transformation, accompagnée d'un nouveau schéma d'initialisation des adaptateurs incorporant une sélection adaptative des paramètres et un affinement des valeurs. Nous démontrons que QWHA atténue efficacement les erreurs de quantification tout en facilitant le réglage fin, et que sa conception réduit considérablement le coût computationnel. Les résultats expérimentaux montrent que QWHA surpasse systématiquement les méthodes de référence en termes de précision dans la quantification à faible bit et permet des accélérations significatives de l'entraînement par rapport aux adaptateurs basés sur la FT existants. Le code est disponible à l'adresse suivante : https://github.com/vantaa89/qwha.
Les interfaces graphiques (GUI) constituent le principal moyen d'interaction homme-machine, mais l'automatisation des interactions avec les GUI reste un défi en raison de la complexité des éléments visuels, des environnements dynamiques et de la nécessité d'un raisonnement en plusieurs étapes. Les méthodes existantes basées sur les modèles vision-langage (VLMs) souffrent souvent d'une résolution limitée, d'un décalage de domaine et d'une capacité insuffisante en matière de prise de décision séquentielle. Pour résoudre ces problèmes, nous proposons Mano, un agent GUI robuste construit sur un modèle de fondation multimodal pré-entraîné sur des données étendues du web et des systèmes informatiques. Notre approche intègre un nouvel environnement simulé pour la génération de données haute fidélité, un pipeline d'entraînement en trois étapes (affinage supervisé, apprentissage par renforcement hors ligne et apprentissage par renforcement en ligne) et un module de vérification pour la récupération d'erreurs. Mano démontre des performances de pointe sur plusieurs benchmarks GUI, notamment Mind2Web et OSWorld, obtenant des améliorations significatives en termes de taux de réussite et de précision opérationnelle. Notre travail apporte de nouvelles perspectives sur l'intégration efficace de l'apprentissage par renforcement avec les VLMs pour le déploiement pratique d'agents GUI, mettant en lumière l'importance des données spécifiques au domaine, de l'entraînement itératif et de la conception holistique des récompenses.
Nous présentons le Synthetic Bootstrapped Pretraining (SBP), une procédure de pré-entraînement de modèles de langage (LM) qui apprend d'abord un modèle des relations entre les documents issus du jeu de données de pré-entraînement, puis l'exploite pour synthétiser un vaste nouveau corpus destiné à un entraînement conjoint. Alors que le pré-entraînement standard enseigne aux LM à apprendre des corrélations causales entre les tokens au sein d'un seul document, il n'est pas conçu pour modéliser efficacement les riches corrélations inter-documents, pourtant apprenables, qui pourraient potentiellement conduire à de meilleures performances. Nous validons SBP en concevant un dispositif de pré-entraînement à calcul équivalent et pré-entraînons un modèle de 3 milliards de paramètres sur jusqu'à 1 000 milliards de tokens à partir de zéro. Nous constatons que SBP améliore systématiquement une base de référence forte basée sur la répétition et apporte une fraction significative de l'amélioration de performance accessible par une borne supérieure oracle ayant accès à 20 fois plus de données uniques. Une analyse qualitative révèle que les documents synthétisés vont au-delà de simples paraphrases : SBP abstrait d'abord un concept central à partir du matériel source, puis construit une nouvelle narration autour de celui-ci. Outre des performances empiriques solides, SBP admet une interprétation bayésienne naturelle : le synthétiseur apprend implicitement à abstraire les concepts latents partagés entre les documents apparentés.
Les modèles universels d'incorporation multimodale ont connu un grand succès dans la capture de la pertinence sémantique entre les requêtes et les candidats. Cependant, les méthodes actuelles condensent soit les requêtes et les candidats en un seul vecteur, limitant potentiellement l'expressivité pour les informations fines, soit produisent trop de vecteurs, ce qui rend la recherche multi-vecteur prohibitivement coûteuse. Dans ce travail, nous introduisons MetaEmbed, un nouveau cadre pour la recherche multimodale qui repense la construction et l'interaction des incorporations multimodales à grande échelle. Pendant l'entraînement, un nombre fixe de Meta Tokens apprenables est ajouté à la séquence d'entrée. Au moment du test, leurs représentations contextuelles de la dernière couche servent d'incorporations multi-vecteurs compactes mais expressives. Grâce à l'entraînement proposé de Recherche Multi-Vecteur Matriochka, MetaEmbed apprend à organiser l'information par granularité à travers plusieurs vecteurs. En conséquence, nous permettons une mise à l'échelle au moment du test dans la recherche multimodale, où les utilisateurs peuvent équilibrer la qualité de la recherche contre les exigences d'efficacité en sélectionnant le nombre de tokens utilisés pour l'indexation et les interactions de recherche. Des évaluations approfondies sur le Massive Multimodal Embedding Benchmark (MMEB) et le Visual Document Retrieval Benchmark (ViDoRe) confirment que MetaEmbed atteint des performances de recherche de pointe tout en s'adaptant robustement à des modèles de 32 milliards de paramètres.
L'édition d'objets vidéo sans apprentissage vise à réaliser des manipulations précises au niveau des objets, incluant l'insertion, l'échange et la suppression d'objets. Cependant, elle rencontre des défis majeurs pour maintenir la fidélité et la cohérence temporelle. Les méthodes existantes, souvent conçues pour des architectures U-Net, souffrent de deux limitations principales : une inversion imprécise due à l'utilisation de solveurs de premier ordre, et des conflits contextuels causés par un remplacement grossier et "dur" des caractéristiques. Ces problèmes sont encore plus complexes dans les Transformers de Diffusion (DiTs), où l'inadéquation des heuristiques de sélection de couches antérieures rend difficile un guidage efficace. Pour surmonter ces limitations, nous introduisons ContextFlow, un nouveau cadre sans apprentissage pour l'édition d'objets vidéo basée sur les DiTs. En détail, nous utilisons d'abord un solveur Rectified Flow d'ordre élevé pour établir une base solide d'édition. Le cœur de notre cadre est l'Enrichissement Contextuel Adaptatif (pour spécifier quoi éditer), un mécanisme qui résout les conflits contextuels. Au lieu de remplacer les caractéristiques, il enrichit le contexte d'auto-attention en concaténant les paires Clé-Valeur des chemins de reconstruction et d'édition parallèles, permettant au modèle de fusionner dynamiquement les informations. De plus, pour déterminer où appliquer cet enrichissement (pour spécifier où éditer), nous proposons une analyse systématique et basée sur les données pour identifier les couches cruciales spécifiques à la tâche. Basée sur une nouvelle Métrique de Réactivité au Guidage, notre méthode identifie les blocs DiT les plus influents pour différentes tâches (par exemple, insertion, échange), permettant un guidage ciblé et hautement efficace. Des expériences approfondies montrent que ContextFlow surpasse significativement les méthodes existantes sans apprentissage et dépasse même plusieurs approches de pointe basées sur l'apprentissage, produisant des résultats cohérents temporellement et de haute fidélité.
L'adoption généralisée des modèles de langage de grande taille (LLMs) a été entravée par leur tendance à halluciner, générant des informations plausibles mais factuellement incorrectes. Bien que les systèmes de génération augmentée par récupération (RAG) tentent de résoudre ce problème en ancrant les réponses dans des connaissances externes, l'hallucination reste un défi persistant, en particulier pour les langues morphologiquement complexes et à faibles ressources comme le turc. Cet article présente Turk-LettuceDetect, la première suite de modèles de détection d'hallucinations spécifiquement conçue pour les applications RAG en turc. En s'appuyant sur le cadre LettuceDetect, nous formulons la détection d'hallucinations comme une tâche de classification au niveau des tokens et affinons trois architectures d'encodeurs distinctes : un ModernBERT spécifique au turc, TurkEmbed4STS, et un EuroBERT multilingue. Ces modèles ont été entraînés sur une version traduite automatiquement du jeu de données de référence RAGTruth contenant 17 790 instances couvrant des tâches de réponse à des questions, de génération de texte à partir de données et de résumé. Nos résultats expérimentaux montrent que le modèle basé sur ModernBERT atteint un score F1 de 0,7266 sur l'ensemble complet de test, avec une performance particulièrement forte sur les tâches structurées. Les modèles maintiennent une efficacité computationnelle tout en supportant des contextes longs jusqu'à 8 192 tokens, les rendant adaptés à un déploiement en temps réel. Une analyse comparative révèle que si les LLMs de pointe démontrent un rappel élevé, ils souffrent d'une faible précision due à la sur-génération de contenu halluciné, soulignant la nécessité de mécanismes de détection spécialisés. En publiant nos modèles et le jeu de données traduit, ce travail comble une lacune critique dans le traitement du langage naturel multilingue et établit une base pour développer des applications d'IA plus fiables et dignes de confiance pour le turc et d'autres langues.
L'attention croisée est un mécanisme central dans les architectures encodeur-décodeur, largement répandu dans de nombreux domaines, y compris le traitement de la parole vers le texte (S2T). Ses scores ont été réutilisés pour diverses applications en aval, telles que l'estimation des timestamps et l'alignement audio-texte, sous l'hypothèse qu'ils reflètent les dépendances entre la représentation de la parole en entrée et le texte généré. Bien que la nature explicative des mécanismes d'attention ait été largement débattue dans la littérature plus générale sur le traitement du langage naturel (NLP), cette hypothèse reste largement inexplorée dans le domaine de la parole. Pour combler cette lacune, nous évaluons le pouvoir explicatif de l'attention croisée dans les modèles S2T en comparant ses scores aux cartes de saillance d'entrée dérivées de l'attribution de caractéristiques. Notre analyse couvre des modèles monolingues et multilingues, à tâche unique et multitâches, à plusieurs échelles, et montre que les scores d'attention s'alignent modérément à fortement avec les explications basées sur la saillance, en particulier lorsqu'ils sont agrégés à travers les têtes et les couches. Cependant, elle montre également que l'attention croisée ne capture qu'environ 50 % de la pertinence de l'entrée et, dans le meilleur des cas, ne reflète que partiellement la manière dont le décodeur prête attention aux représentations de l'encodeur—ne représentant que 52 à 75 % de la saillance. Ces résultats révèlent des limitations fondamentales dans l'interprétation de l'attention croisée comme un proxy explicatif, suggérant qu'elle offre une vue informative mais incomplète des facteurs qui influencent les prédictions dans les modèles S2T.
La mise à l'échelle des modèles de recommandation en modèles de recommandation de grande taille est devenue l'un des sujets les plus largement discutés. Les efforts récents se concentrent sur des composants au-delà de la dimension d'embedding, car il est supposé que la mise à l'échelle des embeddings pourrait entraîner une dégradation des performances. Bien que certaines observations initiales aient été faites concernant les embeddings, la cause profonde de leur non-scalabilité reste incertaine. De plus, la question de savoir si la dégradation des performances se produit à travers différents types de modèles et de jeux de données reste un domaine inexploré. Concernant l'effet des dimensions d'embedding sur les performances, nous menons des expériences à grande échelle sur 10 jeux de données avec des niveaux de sparsité et des échelles variés, en utilisant 4 architectures classiques représentatives. Nous observons de manière surprenante deux phénomènes nouveaux : le double pic et le logarithmique. Pour le premier, à mesure que la dimension d'embedding augmente, les performances s'améliorent d'abord, puis déclinent, remontent à nouveau, et finissent par chuter. Pour le second, il présente une courbe logarithmique parfaite. Nos contributions sont triples. Premièrement, nous découvrons deux phénomènes nouveaux lors de la mise à l'échelle des modèles de filtrage collaboratif. Deuxièmement, nous comprenons les causes sous-jacentes du phénomène de double pic. Enfin, nous analysons théoriquement la robustesse au bruit des modèles de filtrage collaboratif, avec des résultats correspondant aux observations empiriques.
Les récents progrès des modèles multi-modaux de grande taille (LMMs) ont démontré leur succès remarquable en tant qu'assistants multi-modaux à usage général, avec un accent particulier sur la compréhension holistique des relations entre images/vidéos et langage. À l'inverse, moins d'attention a été accordée au développement des capacités de compréhension fine au niveau des pixels, où les modèles sont censés réaliser un alignement au niveau pixel entre les signaux visuels et la sémantique du langage. Certaines études antérieures ont appliqué les LMMs à des tâches connexes telles que la description au niveau des régions et la segmentation d'expressions référentielles. Cependant, ces modèles se limitent à effectuer soit des tâches de référence, soit de segmentation de manière indépendante, et ne parviennent pas à intégrer ces capacités de perception fine dans le raisonnement visuel. Pour combler cette lacune, nous proposons UniPixel, un modèle multi-modal de grande taille capable de comprendre de manière flexible les entrées visuelles et de générer des réponses ancrées dans des masques. Notre modèle se distingue par l'intégration fluide de la perception au niveau des pixels avec des capacités générales de compréhension visuelle. Plus précisément, UniPixel traite les entrées visuelles et génère des masques pertinents à la demande, puis effectue un raisonnement conditionné sur ces indicateurs intermédiaires lors de l'inférence, permettant ainsi un raisonnement fin au niveau des pixels. L'efficacité de notre approche a été vérifiée sur 10 benchmarks couvrant un ensemble diversifié de tâches, incluant la référence/segmentation au niveau des pixels et la compréhension centrée sur les objets dans les images/vidéos. Une nouvelle tâche PixelQA, qui nécessite conjointement la référence, la segmentation et la réponse à des questions, a également été conçue pour vérifier la flexibilité de notre méthode.
Nous présentons Reasoning Core, un nouvel environnement évolutif pour l'apprentissage par renforcement avec récompenses vérifiables (RLVR), conçu pour faire progresser le raisonnement symbolique fondamental dans les grands modèles de langage (LLM). Contrairement aux benchmarks existants qui se concentrent sur des jeux ou des puzzles isolés, Reasoning Core génère de manière procédurale des problèmes couvrant des domaines formels fondamentaux, notamment la planification PDDL, la logique du premier ordre, l'analyse syntaxique de grammaires hors-contexte, le raisonnement causal et la résolution d'équations de systèmes. L'environnement repose sur des principes de conception clés : des distributions de problèmes à haute généralité, une vérification via des outils externes et un contrôle continu de la difficulté, ce qui fournit ensemble une source virtuellement infinie de nouvelles instances d'entraînement. Les évaluations initiales en zero-shot avec des LLM de pointe confirment la difficulté des tâches de Reasoning Core, le positionnant comme une ressource prometteuse pour améliorer les capacités de raisonnement des futurs modèles.
Les véhicules autonomes de pointe actuels pourraient être confrontés à des situations critiques pour la sécurité lorsque leurs capteurs locaux sont obstrués par de grands objets à proximité sur la route. La conduite autonome coopérative entre véhicules (V2V) a été proposée comme moyen de résoudre ce problème, et un cadre récemment introduit pour la conduite autonome coopérative a en outre adopté une approche qui intègre un modèle de langage multimodal de grande envergure (MLLM) pour unifier les processus de perception et de planification coopératifs. Cependant, malgré le bénéfice potentiel de l'application du raisonnement par graphe de pensées au MLLM, cette idée n'a pas été envisagée par les recherches précédentes sur la conduite autonome coopérative. Dans cet article, nous proposons un nouveau cadre de graphe de pensées spécialement conçu pour la conduite autonome coopérative basée sur le MLLM. Notre graphe de pensées inclut nos idées novatrices de perception consciente des occlusions et de prédiction consciente de la planification. Nous constituons le jeu de données V2V-GoT-QA et développons le modèle V2V-GoT pour l'entraînement et le test du graphe de pensées de conduite coopérative. Nos résultats expérimentaux montrent que notre méthode surpasse les autres approches de référence dans les tâches de perception, prédiction et planification coopératives.
La sécurité et l'alignement des modèles de langage à grande échelle (LLMs) sont essentiels pour leur déploiement responsable. Les méthodes d'évaluation actuelles se concentrent principalement sur l'identification et la prévention des sorties manifestement nuisibles. Cependant, elles échouent souvent à traiter un mode de défaillance plus insidieux : les modèles qui produisent des sorties d'apparence bénigne tout en opérant sur un raisonnement interne malveillant ou trompeur. Cette vulnérabilité, souvent déclenchée par des injections sophistiquées de prompts système, permet aux modèles de contourner les filtres de sécurité conventionnels, représentant un risque significatif et sous-exploré. Pour combler cette lacune, nous introduisons le Deceptive Reasoning Exposure Suite (D-REX), un nouvel ensemble de données conçu pour évaluer la divergence entre le processus de raisonnement interne d'un modèle et sa sortie finale. D-REX a été construit à travers un exercice compétitif de red-teaming où les participants ont élaboré des prompts système adversariaux pour induire de tels comportements trompeurs. Chaque échantillon de D-REX contient le prompt système adversarial, une requête de test de l'utilisateur final, la réponse apparemment inoffensive du modèle et, surtout, la chaîne de pensée interne du modèle, qui révèle l'intention malveillante sous-jacente. Notre benchmark facilite une nouvelle tâche d'évaluation essentielle : la détection de l'alignement trompeur. Nous démontrons que D-REX représente un défi significatif pour les modèles et mécanismes de sécurité existants, soulignant le besoin urgent de nouvelles techniques qui examinent les processus internes des LLMs, et pas seulement leurs sorties finales.
Même sans entendre directement les sons, les humains peuvent raisonner sans effort sur les propriétés auditives, telles que la hauteur, l'intensité ou les associations de sources sonores, en s'appuyant sur le bon sens auditif. En revanche, les modèles de langage manquent souvent de cette capacité, ce qui limite leur efficacité dans les interactions multimodales. Pour combler cette lacune, nous présentons AuditoryBench++, un benchmark complet pour évaluer les connaissances et le raisonnement auditifs dans des contextes textuels uniquement. Ce benchmark englobe des tâches allant des comparaisons auditives de base au raisonnement contextuel, permettant une analyse fine de la manière dont les modèles traitent et intègrent les concepts auditifs. De plus, nous introduisons AIR-CoT, une nouvelle méthode de raisonnement par imagination auditive qui génère et intègre des informations auditives lors de l'inférence grâce à la détection de segments avec des tokens spéciaux et l'injection de connaissances. Des expériences approfondies avec des modèles de langage récents (LLMs) et des modèles de langage multimodaux (Multimodal LLMs) montrent qu'AIR-CoT surpasse généralement à la fois les modèles prêts à l'emploi et ceux enrichis de connaissances auditives. La page du projet est disponible à l'adresse https://auditorybenchpp.github.io.
Dans cet article, nous abordons les défis liés à la fusion des adaptations de faible rang des grands réseaux de neurones. Avec l'essor des techniques d'adaptation paramétriquement efficaces, telles que l'Adaptation de Faible Rang (LoRA), le fine-tuning des modèles est devenu plus accessible. Bien que le fine-tuning des modèles avec LoRA soit très efficace, les méthodes de fusion existantes sacrifient souvent cette efficacité en fusionnant des matrices de poids de taille complète. Nous proposons le cadre de fusion Core Space, qui permet la fusion des modèles adaptés par LoRA dans une base d'alignement commune, préservant ainsi l'efficacité de l'adaptation de faible rang tout en améliorant considérablement la précision sur diverses tâches. Nous fournissons également une preuve formelle que la projection dans l'espace Core garantit l'absence de perte d'information et une analyse de complexité montrant les gains d'efficacité. Les résultats empiriques approfondis démontrent que Core Space améliore significativement les techniques de fusion existantes et atteint des résultats de pointe sur les tâches de vision et de langage tout en utilisant une fraction des ressources computationnelles. Le code est disponible à l'adresse suivante : https://github.com/apanariello4/core-space-merging.
L'apprentissage par renforcement est apparu comme la technique fondamentale pour améliorer le raisonnement dans les LLM (modèles de langage de grande taille). Cependant, les algorithmes existants appliquent une optimisation uniforme à tous les tokens, ignorant leurs rôles différents dans le processus de raisonnement. Pour remédier à cette limitation, nous introduisons l'Optimisation de Politique Adaptative Hétérogène (HAPO), un algorithme complet tenant compte des tokens qui adapte dynamiquement l'optimisation en fonction de l'entropie des tokens. Pour l'échantillonnage des rollouts, nous proposons l'Échantillonnage Adaptatif de Température, qui ajuste la température d'échantillonnage en temps réel, favorisant l'exploration pour les tokens à haute entropie tout en préservant la cohérence pour ceux à faible entropie. Pour le calcul de l'avantage, nous introduisons la Moyenne de Groupe au Niveau des Tokens, qui normalise les avantages au niveau des tokens, prenant en compte conjointement la longueur des séquences comme dans la perte moyenne par token tout en préservant un traitement non biaisé. Nous développons ensuite la Redistribution Différentielle des Avantages, qui exploite l'entropie et les ratios d'importance pour moduler les mises à jour des récompenses, ajustant les tokens avec des signaux clairs. Pour la perte de clipping, nous concevons le Clipping Adaptatif Asymétrique, permettant une réduction agressive des probabilités pour les tokens bruyants à faible entropie tout en permettant l'exploration pour les tokens à haute entropie. Grâce à une investigation systématique entre l'entropie et la dynamique d'entraînement, nous avons intégré un traitement au niveau des tokens à chaque étape pour obtenir un contrôle fin. Des expériences approfondies démontrent que HAPO surpasse systématiquement DAPO à travers plusieurs échelles de modèles. Notre code est disponible à l'adresse suivante : https://github.com/starriver030515/HAPO.
Les conflits de licences cachés dans l'écosystème open-source de l'IA posent des risques juridiques et éthiques sérieux, exposant les organisations à des litiges potentiels et les utilisateurs à des risques non divulgués. Cependant, le domaine manque d'une compréhension fondée sur les données de la fréquence à laquelle ces conflits se produisent, de leur origine et des communautés les plus touchées. Nous présentons le premier audit complet des licences pour les ensembles de données et les modèles sur Hugging Face, ainsi que leur intégration en aval dans les applications logicielles open-source, couvrant 364 000 ensembles de données, 1,6 million de modèles et 140 000 projets GitHub. Notre analyse empirique révèle une non-conformité systémique dans laquelle 35,5 % des transitions de modèle à application suppriment les clauses de licence restrictives en les réattribuant sous des termes permissifs. En outre, nous prototypons un moteur de règles extensible qui encode près de 200 clauses SPDX et spécifiques aux modèles pour détecter les conflits de licences, capable de résoudre 86,4 % des conflits de licences dans les applications logicielles. Pour soutenir les recherches futures, nous publions notre ensemble de données et le moteur prototype. Notre étude met en lumière la conformité des licences comme un défi de gouvernance critique dans l'IA open-source et fournit à la fois les données et les outils nécessaires pour permettre une conformité automatisée et consciente de l'IA à grande échelle.
Nous introduisons le concept de périopération, un paradigme pour la collecte de données robotiques qui instrumente et enregistre les manipulations humaines tout en maximisant la transférabilité des données vers des robots réels. Nous mettons en œuvre ce paradigme dans DEXOP, un exosquelette de main passif conçu pour maximiser la capacité humaine à collecter des données sensorielles riches (vision + tactile) pour diverses tâches de manipulation dextre dans des environnements naturels. DEXOP relie mécaniquement les doigts humains aux doigts robotiques, offrant aux utilisateurs un retour haptique direct (via la proprioception) et reflétant la posture de la main humaine sur la main robotique passive afin de maximiser le transfert des compétences démontrées vers le robot. Le retour de force et la synchronisation des postures rendent les démonstrations de tâches plus naturelles pour les humains par rapport à la téléopération, augmentant à la fois la vitesse et la précision. Nous évaluons DEXOP sur une gamme de tâches dextres et riches en contacts, démontrant sa capacité à collecter des données de démonstration de haute qualité à grande échelle. Les politiques apprises à partir des données de DEXOP améliorent significativement les performances des tâches par unité de temps de collecte de données par rapport à la téléopération, faisant de DEXOP un outil puissant pour faire progresser la dextérité robotique. Notre page de projet est disponible à l'adresse https://dex-op.github.io.
Les modèles de langage de grande taille basés sur la diffusion (DLLMs) ont récemment suscité un intérêt croissant en tant qu'alternative aux décodeurs autorégressifs. Dans ce travail, nous présentons une étude empirique sur l'utilisation du modèle de langage de grande taille basé sur la diffusion LLaDA pour la reconnaissance automatique de la parole (ASR). Nous examinons d'abord son utilisation en tant que module de traitement externe basé sur la délibération pour les transcriptions Whisper-LLaMA. En exploitant l'attention bidirectionnelle et les capacités de débruitage de LLaDA, nous explorons des stratégies de masquage aléatoire, de masquage à faible confiance et semi-autorégressives, montrant que Whisper-LLaDA réduit considérablement le taux d'erreur de mots (WER) par rapport à la ligne de base. Sur LibriSpeech, le meilleur système en cascade atteint un WER de 2,25 %/4,94 % sur test-clean/test-other, représentant une amélioration relative de 12,3 % par rapport à la ligne de base Whisper-LLaMA sur la partition test-other. En revanche, une version LLaDA en texte brut sans caractéristiques acoustiques ne parvient pas à améliorer la précision, soulignant l'importance des embeddings conditionnés par l'audio. Nous évaluons également Whisper-LLaDA en tant que décodeur autonome pour l'ASR avec un décodage basé sur la diffusion et semi-autorégressif. La plupart des configurations expérimentales permettent une inférence plus rapide que la ligne de base Whisper-LLaMA, bien que la précision de reconnaissance soit légèrement inférieure. Ces résultats offrent une perspective empirique sur l'utilisation des DLLMs pour l'ASR et indiquent des directions prometteuses pour des améliorations futures.
L'efficacité de l'optimisation bayésienne (BO) dépend fortement du choix du noyau de processus gaussien (GP), qui joue un rôle central dans l'équilibre entre exploration et exploitation sous contrainte de budget d'évaluation limité. Les méthodes traditionnelles de BO s'appuient souvent sur des stratégies de sélection de noyau fixes ou heuristiques, ce qui peut entraîner une convergence lente ou des solutions sous-optimales lorsque le noyau choisi est mal adapté à la fonction objectif sous-jacente. Pour pallier cette limitation, nous proposons une nouvelle approche appelée Évolution Contextuelle de Noyau (CAKE) afin d'améliorer la BO grâce aux modèles de langage à grande échelle (LLMs). Concrètement, CAKE utilise les LLMs comme opérateurs de croisement et de mutation pour générer et affiner de manière adaptative les noyaux GP en fonction des données observées tout au long du processus d'optimisation. Pour maximiser la puissance de CAKE, nous proposons également un classement de noyaux d'acquisition basé sur le critère d'information bayésien (BAKER) afin de sélectionner le noyau le plus efficace en équilibrant l'adéquation du modèle mesurée par le critère d'information bayésien (BIC) avec l'amélioration attendue à chaque itération de la BO. Des expériences approfondies démontrent que notre méthode de BO basée sur CAKE surpasse systématiquement les approches de référence sur une variété de tâches réelles, incluant l'optimisation d'hyperparamètres, le réglage de contrôleurs et la conception de puces photoniques. Notre code est disponible publiquement à l'adresse suivante : https://github.com/cake4bo/cake.
Les grands modèles de langage (LLMs) sont largement utilisés dans diverses tâches et applications. Cependant, malgré leurs vastes capacités, il a été démontré qu'ils manquent d'alignement culturel (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) et produisent des générations biaisées (naous-etal-2024-beer) en raison d'un manque de connaissances et de compétences culturelles. L'évaluation des LLMs pour la sensibilisation et l'alignement culturels est particulièrement difficile en raison de l'absence de métriques d'évaluation appropriées et de la disponibilité limitée de jeux de données culturellement ancrés représentant la complexité des cultures aux niveaux régional et sous-régional. Les jeux de données existants pour les éléments spécifiques à la culture (CSIs) se concentrent principalement sur des concepts au niveau régional et peuvent contenir des faux positifs. Pour résoudre ce problème, nous introduisons un nouveau jeu de données CSI pour la culture indienne, appartenant à 17 facettes culturelles. Le jeu de données comprend sim8k concepts culturels provenant de 36 sous-régions. Pour mesurer la compétence culturelle des LLMs sur une tâche d'adaptation de texte culturel, nous évaluons les adaptations en utilisant les CSIs créés, LLM comme juge, et des évaluations humaines provenant de diverses régions socio-démographiques. De plus, nous effectuons une analyse quantitative démontrant une couverture sélective des sous-régions et des adaptations superficielles pour tous les LLMs considérés. Notre jeu de données est disponible ici : https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, la page web du projet \href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, et notre base de code avec les sorties des modèles peut être trouvée ici : https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
Nous présentons BeepBank-500, un ensemble de données compact et entièrement synthétique d'earcons/alertes (300 à 500 clips) conçu pour des expérimentations rapides et libres de droits en interaction homme-machine et en apprentissage automatique audio. Chaque clip est généré à partir d'une recette paramétrique contrôlant la famille d'ondes (sinusoïdale, carrée, triangulaire, FM), la fréquence fondamentale, la durée, l'enveloppe d'amplitude, la modulation d'amplitude (AM) et une réverbération légère de style Schroeder. Nous utilisons trois paramètres de réverbération : sec, et deux salles synthétiques désignées par 'rir small' ('petite') et 'rir medium' ('moyenne') tout au long de l'article et dans les métadonnées. Nous publions des fichiers audio mono en WAV 48 kHz (16 bits), une table de métadonnées riche (caractéristiques du signal/spectrales) et de petites bases de référence reproductibles pour (i) la classification des familles d'ondes et (ii) la régression de f0 sur des tons uniques. Le corpus vise des tâches telles que la classification d'earcons, l'analyse de timbre et la détection d'attaque, avec des licences et des limitations clairement énoncées. Les fichiers audio sont dédiés au domaine public via CC0-1.0 ; le code est sous licence MIT. DOI des données : https://doi.org/10.5281/zenodo.17172015. Code : https://github.com/mandip42/earcons-mini-500.
L'analyse des artefacts du patrimoine culturel reste un défi pour les MLLM (modèles de langage multilingues) : les modèles généraux manquent d'expertise dans le domaine, et l'apprentissage par fine-tuning supervisé (SFT) a tendance à sur-adapter des motifs superficiels, produisant un raisonnement fragile pour l'authentification et l'attribution historique. Cela soulève la question de savoir comment doter les MLLM d'un raisonnement robuste et expert pour la poterie grecque antique. Nous présentons VaseVL, un système SFT-puis-RL qui transforme l'évaluation en supervision : nous construisons une taxonomie des types de questions, sondons le modèle SFT pour localiser les lacunes de performance spécifiques à chaque type, et optimisons avec des récompenses conditionnées par le type et orientées vers la compositionnalité, ciblant ces lacunes. Nous publions également VaseVQA, un benchmark complet de 31 773 images conçu pour explorer une compréhension approfondie. Les expériences montrent des résultats de pointe en classification de style et en attribution historique, avec des gains significatifs en robustesse compositionnelle par rapport aux modèles SFT seuls, validant ainsi l'ingénierie de récompenses guidée par le diagnostic et conditionnée par la taxonomie, et fournissant une ressource réutilisable pour les recherches futures. Le code et le jeu de données seront disponibles à l'adresse suivante : https://github.com/AIGeeksGroup/VaseVQA.
Les grands modèles vision-langage (L-VLMs) ont démontré des performances remarquables dans diverses tâches combinant vision et langage, notamment le question-réponse visuel (VQA). Cependant, leur coût computationnel élevé les rend peu pratiques pour les environnements aux ressources limitées et les applications nécessitant une inférence intensive. En revanche, les petits modèles vision-langage (S-VLMs) offrent une meilleure efficacité, mais souffrent d'un écart de performance significatif par rapport à leurs homologues plus grands. Dans ce travail, nous introduisons le Model Parity Aligner (MPA), un cadre novateur conçu pour améliorer systématiquement les S-VLMs en exploitant des images non annotées et un transfert de connaissances efficace depuis les L-VLMs. Plutôt que de recourir aux méthodes traditionnelles de distillation de connaissances qui reposent sur des données d'entraînement annotées, le MPA utilise une approche stratégique basée sur la parité, identifiant précisément les disparités de connaissances entre les S-VLMs et les L-VLMs, et optimisant l'entraînement en ciblant uniquement ces écarts. Nous menons des expériences approfondies sur quatre benchmarks VQA variés, à savoir TextVQA, ST-VQA, ChartQA et OKVQA, chacun nécessitant des capacités de raisonnement spécialisées telles que la reconnaissance de texte, l'interprétation de graphiques, ainsi que la compréhension du bon sens et des faits. Nos résultats montrent que le MPA améliore de manière constante les performances des S-VLMs sur tous les benchmarks, réduisant l'écart de performance tout en maintenant l'efficacité computationnelle. Nous rendons notre code public.
L'estimation de profondeur stéréo sous-marine fournit une géométrie 3D précise pour les tâches robotiques telles que la navigation, l'inspection et la cartographie, offrant une profondeur métrique à partir de caméras passives à faible coût tout en évitant l'ambiguïté d'échelle des méthodes monoculaires. Cependant, les approches existantes rencontrent deux défis majeurs : (i) adapter de manière paramétriquement efficace les grands encodeurs de fondation visuelle au domaine sous-marin sans nécessiter de données étiquetées extensives, et (ii) fusionner étroitement des préalables monoculaires globalement cohérents mais ambigus en échelle avec des correspondances stéréo localement métriques mais photométriquement fragiles. Pour relever ces défis, nous proposons StereoAdapter, un cadre auto-supervisé à efficacité paramétrique qui intègre un encodeur de fondation monoculaire adapté par LoRA avec un module de raffinement stéréo récurrent. Nous introduisons également une adaptation LoRA dynamique pour une sélection de rang efficace et un pré-entraînement sur le jeu de données synthétique UW-StereoDepth-40K afin d'améliorer la robustesse dans diverses conditions sous-marines. Des évaluations complètes sur des benchmarks simulés et réels montrent des améliorations de 6,11 % sur TartanAir et de 5,12 % sur SQUID par rapport aux méthodes de pointe, tandis que le déploiement réel avec le robot BlueROV2 démontre la robustesse constante de notre approche. Code : https://github.com/AIGeeksGroup/StereoAdapter. Site web : https://aigeeksgroup.github.io/StereoAdapter.
Les codecs audio neuronaux constituent un composant fondamental des pipelines génératifs audio modernes. Bien que les codecs récents atteignent une reconstruction de haute qualité à faible débit binaire et fournissent des représentations puissantes pour les tâches en aval, la plupart ne sont pas adaptés au streaming, limitant ainsi leur utilisation dans les applications en temps réel. Nous présentons FocalCodec-Stream, un codec hybride basé sur la modulation focale qui compresse la parole en un seul codebook binaire à un débit de 0,55 à 0,80 kbps avec une latence théorique de 80 ms. Notre approche combine une distillation causale multi-étapes de WavLM avec des améliorations architecturales ciblées, incluant un module de raffinement léger qui améliore la qualité sous contrainte de latence. Les expériences montrent que FocalCodec-Stream surpasse les codecs adaptés au streaming existants à des débits comparables, tout en préservant à la fois les informations sémantiques et acoustiques. Le résultat est un compromis favorable entre la qualité de reconstruction, la performance sur les tâches en aval, la latence et l'efficacité. Le code et les points de contrôle seront publiés sur https://github.com/lucadellalib/focalcodec.
La révision automatisée de code (CR) est une application clé pour les modèles de langage de grande envergure (LLMs), mais les progrès sont entravés par un "fossé de réalité" : les benchmarks existants évaluent les modèles sur des sous-tâches isolées en utilisant des données simplifiées et pauvres en contexte. Cela ne reflète pas la nature holistique et riche en contexte de la CR dans le monde réel. Pour combler ce fossé, nous introduisons CodeFuse-CR-Bench, le premier benchmark axé sur l'exhaustivité pour l'évaluation de la CR au niveau du dépôt. CodeFuse-CR-Bench comprend 601 instances de haute qualité provenant de 70 projets Python couvrant neuf domaines de problèmes de Pull-Request (PR), où chaque instance fournit un contexte riche et multidimensionnel incluant l'issue associée, les détails de la PR et l'état du dépôt, permettant une évaluation de bout en bout. Au-delà des métriques superficielles, nous proposons également un nouveau cadre d'évaluation qui combine des vérifications basées sur des règles pour la localisation et la syntaxe avec des jugements basés sur des modèles pour la qualité de la révision. Nous présentons la première évaluation à grande échelle des LLMs de pointe sur cette tâche de CR complète. Nos résultats établissent des bases cruciales et révèlent que (1) aucun LLM ne domine tous les aspects de la CR ; (2) Gemini 2.5 Pro atteint la performance globale la plus élevée ; et (3) différents LLMs montrent une robustesse variable face au contexte redondant. Ces résultats soulignent la nécessité d'une évaluation holistique et multidimensionnelle et fournissent des insights actionnables pour faire progresser des assistants de CR véritablement intelligents et pratiques.
Les modèles de récompense de processus (PRM) offrent des évaluations granulaires au niveau des étapes, facilitant des processus de raisonnement plus approfondis dans les grands modèles de langage (LLM), et s'avèrent efficaces pour des tâches complexes comme le raisonnement mathématique. Cependant, le développement des PRM est difficile en raison du coût élevé et de la scalabilité limitée des données annotées par des humains. Les données synthétiques issues de l'estimation de Monte Carlo (MC) constituent une alternative prometteuse, mais souffrent d'un ratio de bruit élevé, ce qui peut entraîner un surapprentissage et entraver l'entraînement à grande échelle. Dans ce travail, nous menons une étude préliminaire sur la distribution du bruit dans les données synthétiques issues de l'estimation MC, identifiant que les modèles d'annotation ont tendance à sous-estimer et surestimer la correction des étapes en raison des limites de leurs capacités d'annotation. Sur la base de ces observations, nous proposons l'annotation Monte Carlo auto-dénoyautée (SCAN), un cadre efficace de synthèse de données et d'apprentissage tolérant au bruit. Nos principales conclusions indiquent que : (1) Même des modèles légers (par exemple, 1,5 milliard de paramètres) peuvent produire des annotations de haute qualité grâce à une stratégie auto-dénoyautée, permettant aux PRM d'atteindre des performances supérieures avec seulement 6 % du coût d'inférence requis par l'estimation MC classique. (2) Avec notre stratégie d'apprentissage robuste, les PRM peuvent apprendre efficacement à partir de cette supervision faible, obtenant une amélioration de 39,2 points F1 (de 19,9 à 59,1) dans ProcessBench. Malgré l'utilisation d'un seul jeu de données synthétiques compact, nos modèles surpassent des bases de référence solides, y compris celles entraînées sur des jeux de données annotés par des humains à grande échelle comme PRM800K. De plus, les performances continuent de s'améliorer à mesure que nous augmentons les données synthétiques, mettant en évidence le potentiel de SCAN pour un entraînement des PRM scalable, rentable et robuste.