HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

17 papers found

GLM-5V-Turbo : Vers un modèle de fondation natif pour les agents multimodaux
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Nous présentons GLM-5V-Turbo, une avancée vers des modèles de fondation natifs pour les agents multimodaux. Alors que les modèles de fondation sont de plus en plus déployés dans des environnements réels, les capacités agentielles dépendent non seulement du raisonnement linguistique, mais aussi de la capacité à percevoir, interpréter et agir sur des contextes hétérogènes tels que les images, les vidéos, les pages web, les documents et les interfaces graphiques. GLM-5V-Turbo est conçu autour de cet objectif : la perception multimodale est intégrée comme une composante centrale du raisonnement, de la planification, de l'utilisation d'outils et de l'exécution, plutôt que comme une interface auxiliaire pour un modèle linguistique. Ce rapport résume les principales améliorations apportées à GLM-5V-Turbo concernant la conception du modèle, l'entraînement multimodal, l'apprentissage par renforcement, l'expansion de la chaîne d'outils et l'intégration avec des frameworks d'agents. Ces développements conduisent à de solides performances dans le codage multimodal, l'utilisation d'outils visuels et les tâches agentielles basées sur des frameworks, tout en préservant une capacité compétitive en codage texte seul. Plus important encore, notre processus de développement offre des insights pratiques pour la construction d'agents multimodaux, en soulignant le rôle central de la perception multimodale, de l'optimisation hiérarchique et de la vérification fiable de bout en bout.

Les grands modèles de langage explorent par distillation latente
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

La génération de réponses diverses est cruciale pour la mise à l'échelle au moment des tests des grands modèles de langage (LLM), mais l'échantillonnage stochastique standard produit principalement des variations lexicales superficielles, limitant l'exploration sémantique. Dans cet article, nous proposons l'Échantillonnage Exploratoire (ESamp), une approche de décodage qui encourage explicitement la diversité sémantique lors de la génération. ESamp est motivé par l'observation bien connue que les réseaux de neuronaux ont tendance à faire des prédictions avec une erreur plus faible sur des entrées similaires à celles rencontrées auparavant, et engendrent une erreur de prédiction plus élevée sur des entrées nouvelles. S'appuyant sur cette propriété, nous entraînons un Distillateur léger au moment du test pour prédire les représentations internes des couches profondes du LLM à partir de ses représentations des couches superficielles, afin de modéliser les transitions de représentations en fonction de la profondeur du LLM. Pendant le décodage, le Distillateur s'adapte continuellement aux mappings induits par le contexte de génération actuel. ESamp utilise l'erreur de prédiction comme un signal de nouveauté pour repondérer les extensions de tokens candidates conditionnées par le préfixe actuel, biaisant ainsi le décodage vers des motifs sémantiques moins explorés. ESamp est implémenté avec un pipeline asynchrone entraînement–inférence, avec une surcharge maximale inférieure à 5% (1,2% dans la version optimisée). Les résultats empiriques montrent qu'ESamp améliore significativement l'efficacité Pass@k des modèles de raisonnement, affichant des performances supérieures ou comparables à celles de bases de référence stochastiques et heuristiques solides. Notamment, ESamp réalise une généralisation robuste sur des benchmarks de génération en mathématiques, sciences et code, et brise le compromis entre diversité et cohérence dans l'écriture créative. Notre code est disponible à l'adresse : https://github.com/LinesHogan/tLLM.

RADIO-ViPE : Fusion multimodale étroitement couplée en ligne pour la SLAM sémantique à vocabulaire ouvert dans des environnements dynamiques
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Nous présentons RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), un système de SLAM sémantique en ligne qui permet un ancrage géométriquement conscient en vocabulaire ouvert, associant des requêtes en langage naturel arbitraires à des régions 3D localisées et à des objets dans des environnements dynamiques. Contrairement aux approches existantes qui nécessitent une entrée RGB-D étalonnée et posée, RADIO-ViPE fonctionne directement sur des flux vidéo RGB monoculaires bruts, sans nécessiter d'intrinsèques de caméra, de capteurs de profondeur ou d'initialisation de pose préalables. Le système couple étroitement des plongements multimodaux — couvrant la vision et le langage — dérivés de modèles de fondation agrégatifs (par exemple, RADIO) avec des informations géométriques de la scène. Ce couplage intervient dans l'initialisation, l'optimisation et les connexions du graphe de facteurs pour améliorer la cohérence de la carte issue de multiples modalités. L'optimisation est encapsulée dans des noyaux robustes adaptatifs, conçus pour gérer à la fois les objets se déplaçant activement et les éléments de scène déplacés par l'agent (par exemple, des meubles réarrangés pendant une session égocentrée). Les expériences démontrent que RADIO-ViPE atteint des résultats de pointe sur le benchmark dynamique TUM-RGBD tout en maintenant des performances compétitives par rapport aux méthodes hors ligne à vocabulaire ouvert qui reposent sur des données étalonnées et des hypothèses de scène statique. RADIO-ViPE comble une lacune critique pour le déploiement en conditions réelles, en permettant un ancrage sémantique robuste en vocabulaire ouvert pour la robotique autonome et les flux vidéo non contraints en milieu naturel. Page du projet : https://be2rlab.github.io/radio_vipe

ClawGym : Un Cadre Évolutif pour la Construction d'Agents Claw Efficaces
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Les environnements de type Claw prennent en charge des workflows multi-étapes sur des fichiers locaux, des outils et des états d'espace de travail persistants. Cependant, le développement évolutif autour de ces environnements reste limité par l'absence d'un cadre systématique, particulièrement pour la synthèse de données d'entraînement vérifiables et leur intégration avec l'entraînement des agents et l'évaluation diagnostique. Pour relever ce défi, nous présentons ClawGym, un cadre évolutif qui prend en charge l'ensemble du cycle de développement des agents personnels de type Claw. Concrètement, nous construisons ClawGym-SynData, un ensemble de données diversifié de 13 500 tâches filtrées, synthétisées à partir d'intentions basées sur des personas et d'opérations ancrées dans des compétences, associées à des espaces de travail fictifs réalistes et à des mécanismes de vérification hybrides. Nous entraînons ensuite une famille de modèles performants de type Claw, nommés ClawGym-Agents, par fine-tuning supervisé sur des trajectoires de déploiement en boîte noire, et explorons davantage l'apprentissage par renforcement via un pipeline léger qui parallélise les déploiements dans des sandbox par tâche. Pour soutenir une évaluation fiable, nous construisons également ClawGym-Bench, un benchmark de 200 instances calibrées par filtrage automatique et revue humaine-LLM. Les ressources pertinentes seront bientôt publiées sur https://github.com/ClawGym.

Tourner la TIDE : Distillation inter-architecture pour les modèles de langage de grande taille à diffusion
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Les modèles de langage à diffusion (dLLM) offrent un décodage parallèle et un contexte bidirectionnel, mais les dLLM de pointe nécessitent des milliards de paramètres pour des performances compétitives. Si les méthodes de distillation existantes pour les dLLM réduisent les étapes d'inférence au sein d'une même architecture, aucune ne traite du transfert de connaissances inter-architectures, où l'enseignant et l'élève diffèrent par leur architecture, leur mécanisme d'attention et leur tokeniseur. Nous présentons TIDE, le premier cadre de distillation inter-architectures pour dLLM, comprenant trois composants modulaires : (1) TIDAL, qui module conjointement l'intensité de la distillation selon la progression de l'entraînement et l'étape de diffusion pour tenir compte de la fiabilité dépendante du bruit de l'enseignant ; (2) CompDemo, qui enrichit le contexte de l'enseignant via un fractionnement par masques complémentaires pour améliorer les prédictions sous fort masquage ; et (3) Reverse CALM, un objectif inter-tokeniseurs qui inverse l'appariement de vraisemblance au niveau des segments, produisant des gradients bornés et un filtrage du bruit double extrémité. La distillation d'enseignants denses 8B et MoE 16B vers un étudiant 0.6B via deux pipelines hétérogènes surpasse la baseline de 1,53 point en moyenne sur huit benchmarks, avec des gains notables en génération de code, où les scores HumanEval atteignent 48,78 contre 32,3 pour la baseline AR.

Modèles de diffusion : un cadre unifié d'extensions pour le contrôle de la diffusion
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

Les méthodes de diffusion contrôlable ont considérablement élargi l'utilité pratique des modèles de diffusion, mais elles sont généralement développées comme des systèmes isolés, spécifiques à une architecture de base, avec des pipelines d'entraînement, des formats de paramètres et des hooks d'exécution incompatibles. Cette fragmentation rend difficile la réutilisation de l'infrastructure entre les tâches, le transfert de capacités entre les architectures ou la composition de multiples contrôles dans un seul pipeline de génération. Nous présentons Diffusion Templates, un framework de plugins unifié et ouvert qui découple l'inférence du modèle de base de l'injection de capacités contrôlables. Le framework est organisé autour de trois composants : les modèles Template qui transforment des entrées arbitraires spécifiques à une tâche en une représentation intermédiaire des capacités, un cache Template qui fonctionne comme une interface standardisée pour l'injection de capacités, et un pipeline Template qui charge, fusionne et injecte un ou plusieurs caches Template dans le runtime de diffusion de base. Parce que l'interface est définie au niveau du système plutôt que liée à une architecture de contrôle spécifique, des porteurs de capacités hétérogènes tels que KV-Cache et LoRA peuvent être pris en charge sous la même abstraction. Sur la base de cette conception, nous construisons un zoo de modèles diversifié couvrant le contrôle structurel, l'ajustement de la luminosité, l'ajustement des couleurs, l'édition d'image, la super-résolution, l'amélioration de la netteté, l'alignement esthétique, la référence de contenu, l'inpainting local et le contrôle de l'âge. Ces études de cas montrent que Diffusion Templates peut unifier un large éventail de tâches de génération contrôlable tout en préservant la modularité, la composabilité et l'extensibilité pratique à travers les architectures de diffusion en évolution rapide. Toutes les ressources seront publiées en open source, y compris le code, les modèles et les jeux de données.

FAMA : Cadre méta-agentique conscient des défaillances pour les LLM open-source dans les environnements interactifs d'utilisation d'outils
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

Les grands modèles de langage sont de plus en plus déployés comme noyau décisionnel d'agents autonomes capables d'opérer des changements dans des environnements externes. Pourtant, dans les benchmarks conversationnels, qui simulent des scénarios de résolution de problèmes centrés sur le client, ces agents échouent fréquemment en raison des effets en cascade d'une prise de décision incorrecte. Ces défis sont particulièrement prononcés pour les LLM open-source de plus petite taille, dotés de fenêtres de contexte limitées et de budgets d'inférence contraints, ce qui contribue à une accumulation accrue d'erreurs dans des contextes agentiques. Pour relever ces défis, nous présentons le cadre Failure-Aware Meta-Agentic (FAMA). FAMA opère en deux étapes : premièrement, il analyse les trajectoires d'échec d'agents de référence pour identifier les erreurs les plus fréquentes ; deuxièmement, il emploie un mécanisme d'orchestration qui active un sous-ensemble minimal d'agents spécialisés, conçus pour remédier à ces échecs en injectant un contexte ciblé à l'agent utilisant des outils avant l'étape de prise de décision. Les expériences menées sur divers LLM open-source démontrent des gains de performance allant jusqu'à 27 % par rapport aux références standard. Ces résultats soulignent que la curation ciblée du contexte via des agents spécialisés pour adresser les échecs courants est un principe de conception précieux pour construire des agents LLM fiables, multi-tours et utilisant des outils, qui simulent des scénarios conversationnels réalistes.

Modélisation unifiée de l'action dans un monde 4D à partir de pré-entraînements vidéo avec débruitage asynchrone
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Nous proposons X-WAM, un Modèle de Monde 4D Unifié qui intègre l'exécution d'actions robotiques en temps réel et la synthèse de mondes 4D de haute fidélité (vidéo + reconstruction 3D) dans un cadre unique, surmontant les limitations critiques des modèles de monde unifiés antérieurs (par exemple, UWM) qui se limitent à modéliser l'espace pixel 2D et échouent à équilibrer l'efficacité des actions et la qualité de la modélisation du monde. Pour exploiter les fortes connaissances préalables visuelles des modèles de diffusion vidéo pré-entraînés, X-WAM imagine le monde futur en prédisant des vidéos RGB-D multi-vues, et obtient efficacement l'information spatiale via une adaptation structurelle légère : la réplication des derniers blocs du Transformer à Diffusion pré-entraîné dans une branche dédiée à la prédiction de profondeur pour la reconstruction de l'information spatiale future. De plus, nous proposons l'Échantillonnage de Bruit Asynchrone (ANS) pour optimiser conjointement la qualité de génération et l'efficacité du décodage des actions. ANS applique un plan de bruitage-débruitage asynchrone spécialisé lors de l'inférence, qui décode rapidement les actions avec moins d'étapes pour permettre une exécution en temps réel efficace, tout en consacrant la séquence complète d'étapes à générer une vidéo de haute fidélité. Plutôt que de découpler entièrement les pas de temps pendant l'entraînement, ANS échantillonne à partir de leur distribution conjointe pour s'aligner sur la distribution d'inférence. Pré-entraîné sur plus de 5 800 heures de données robotiques, X-WAM atteint des taux de réussite moyens de 79,2 % et 90,7 % sur les benchmarks RoboCasa et RoboTwin 2.0, tout en produisant une reconstruction et une génération 4D de haute fidélité surpassant les méthodes existantes à la fois sur les métriques visuelles et géométriques.

Accélération des déploiements post-entraînement en RL par décodage spéculatif intégré au système
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

L'optimisation par apprentissage par renforcement (RL) des modèles de langage de pointe est de plus en plus limitée par la génération autoregressive des épisodes (rollouts), faisant de l'accélération de ces épisodes un défi système central. De nombreuses méthodes d'efficacité existantes améliorent le débit en modifiant le régime des épisodes ou de l'optimisation, par exemple via une exécution hors politique, la réutilisation d'expériences (replay) ou une génération en précision réduite. Nous étudions le décodage spéculatif comme une primitive d'accélération sans perte pour les épisodes de RL, qui préserve la distribution de sortie du modèle cible. Nous implémentons le décodage spéculatif dans NeMo-RL avec un backend vLLM, prenant en charge à la fois les pipelines synchrones et asynchrones et permettant la spéculation pendant les épisodes de RL. Cet avantage est réalisable avec divers mécanismes de spéculation, tels que des têtes de prédiction de tokens masqués (MTP) pré-entraînées, de petits modèles externes d'ébauche (draft models), ou même des techniques comme Eagle3, traditionnellement appliquées après la phase de RL. Cela ouvre une voie de déploiement pour le décodage spéculatif de pointe au sein de l'entraînement par RL. Sur une tâche de post-entraînement pour le raisonnement à l'échelle de 8 milliards de paramètres en RL synchrone, le décodage spéculatif améliore le débit des épisodes d'un facteur de 1,8x. En utilisant un simulateur de performance haute fidélité, nous prévoyons que la combinaison du décodage spéculatif avec du RL asynchrone permet d'atteindre jusqu'à 2,5x d'accélération de l'entraînement de bout en bout à l'échelle de 235 milliards de paramètres.

Contrôles de la Couche Opérationnelle pour les Agents de Modèles de Langage Onchain Sous Capital Réel
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Nous étudions la fiabilité des agents autonomes basés sur des modèles de langage qui traduisent les mandats utilisateur en actions d'outils validées dans un contexte de capital réel. L'étude se déroule dans le cadre de DX Terminal Pro, un déploiement de 21 jours durant lequel 3 505 agents financés par les utilisateurs ont négocié de l'ETH réel sur un marché blockchain délimité. Les utilisateurs configuraient des vaults via des contrôles structurés et des stratégies en langage naturel, mais seuls les agents pouvaient choisir les opérations normales d'achat/vente. Le système a généré 7,5 millions d'invocations d'agents, environ 300 000 actions sur la blockchain, un volume d'environ 20 millions de dollars, plus de 5 000 ETH déployés, environ 70 milliards de tokens d'inférence et un taux de succès de règlement de 99,9 % pour les transactions soumises validées par la politique. Les agents de longue durée ont accumulé des milliers de décisions séquentielles, dont plus de 6 000 cycles prompt-état-action pour les agents continuellement actifs, produisant une trace à grande échelle allant du mandat utilisateur au prompt généré, au raisonnement, à la validation, à l'état du portefeuille et au règlement. La fiabilité ne provenait pas uniquement du modèle de base ; elle émergeait de la couche opérationnelle entourant le modèle : compilation des prompts, contrôles typés, validation des politiques, gardes d'exécution, conception de la mémoire et observabilité au niveau de la trace. Les tests pré-lancement ont révélé des défaillances que les benchmarks purement textuels mesurent rarement, incluant des règles de trading fabriquées, la paralysie due aux frais, l'ancrage numérique, le trading de cadence et une mauvaise interprétation de la tokenomique. Des modifications ciblées de l'infrastructure ont réduit les règles de vente fabriquées de 57 % à 3 %, réduit les observations liées aux frais de 32,5 % à moins de 10 %, et augmenté le déploiement de capital de 42,9 % à 78,0 % dans une population test affectée. Nous montrons que les agents gérant du capital doivent être évalués sur l'ensemble du parcours, du mandat utilisateur au prompt, à l'action validée et au règlement.

Une étude sur la simulation d'utilisateurs conversationnels basée sur les modèles de langage de grande taille
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

La simulation d'utilisateurs a longtemps joué un rôle essentiel en informatique en raison de son potentiel à soutenir un large éventail d'applications. Le langage, en tant que principal vecteur de communication humaine, constitue le fondement des interactions sociales et des comportements. Par conséquent, la simulation de comportements conversationnels est devenue un domaine d'étude majeur. Les récentes avancées des grands modèles de langage (LLM) ont considérablement catalysé les progrès dans ce domaine en permettant la génération synthétique de conversations utilisateurs à haute fidélité. Dans cet article, nous passons en revue les avancées récentes dans la simulation d'utilisateurs conversationnels basée sur les LLM. Nous proposons une nouvelle taxonomie couvrant la granularité des utilisateurs et les objectifs de simulation. De plus, nous analysons systématiquement les techniques fondamentales et les méthodologies d'évaluation. Notre objectif est de tenir la communauté scientifique informée des dernières avancées en matière de simulation d'utilisateurs conversationnels et de faciliter les recherches futures en identifiant les défis ouverts et en organisant les travaux existants dans un cadre unifié.

PSP : Un benchmark d'accent interprétable par dimension pour la synthèse vocale en langues indiennes
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

Les mesures d'évaluation standard de la synthèse vocale (TTS) évaluent l'intelligibilité (WER, CER) et le naturel global (MOS, UTMOS) mais ne quantifient pas l'accent. Un synthétiseur peut obtenir de bons scores sur ces quatre critères tout en produisant un son non natif sur des traits phonémiques de la langue cible. Pour les langues indiennes, ces traits incluent l'articulation rétroflexe, l'aspiration, la longueur vocalique et l'approximante rétroflexe du tamoul (lettre zha). Nous présentons le PSP (Profil de Substitution de Phonèmes), un benchmark d'accent interprétable par dimension phonologique pour le TTS des langues indiennes. Le PSP décompose l'accent en six dimensions complémentaires : le taux d'effondrement rétroflexe (RR), la fidélité de l'aspiration (AF), la fidélité de la longueur vocalique (LF), la fidélité du zha tamoul (ZF), la distance de Fréchet audio (FAD) et la divergence de signature prosodique (PSD). Les quatre premières sont mesurées via un alignement forcé et des sondes acoustiques de centroïdes de locuteurs natifs sur les embeddings de la couche 9 de Wav2Vec2-XLS-R ; les deux dernières sont des distances distributionnelles au niveau du corpus. Dans cette version 1, nous évaluons quatre systèmes commerciaux et open-source (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) sur des jeux de données pilotes en hindi, télougou et tamoul, avec un cinquième système (Praxy Voice) inclus pour les trois langues, ainsi qu'une étude de cas R5->R6 sur le télougou. Trois résultats : (i) l'effondrement rétroflexe croît de manière monotone avec la difficulté phonologique hindi < télougou < tamoul (~1%, ~40%, ~68%) ; (ii) l'ordre du PSP diverge de l'ordre WER – les leaders commerciaux en WER ne mènent pas uniformément sur la fidélité rétroflexe ou prosodique ; (iii) aucun système unique n'est Pareto-optimal sur les six dimensions. Nous publions les centroïdes de référence natifs (500 clips par langue), les embeddings de 1000 clips pour la FAD, les matrices de caractéristiques prosodiques de 500 clips pour la PSD, des jeux de données de référence de 300 énoncés par langue, le code de calcul sous licence MIT et les centroïdes sous licence CC-BY. La corrélation formelle avec le MOS est reportée à la version 2 ; la version 1 présente cinq signaux de cohérence interne ainsi qu'un test de validation sur audio natif.

Praxy Voice : Récupération par Invocation Vocale + BUPS pour la Synthèse Vocale Commerciale en Langues Indiennes à partir d'une Base Non-Indienne Figée, sans Coût de Données d'Entraînement Commerciales.
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

Les systèmes de synthèse vocale (TTS) commerciaux produisent des audios en langues indiennes d'une qualité quasi-native. Cependant, les meilleures bases open-source (Chatterbox, Indic Parler-TTS, IndicF5) sont distancées sur les dimensions phonologiques mesurées, et la base multilingue la plus utilisée (Chatterbox, 23 langues) ne tokenise même pas le télougou ou le tamoul. Nous posons la question : quelle est l'intervention minimale permettant d'amener une telle base non-native pour les langues indiennes à un niveau de sortie commercial pour le télougou, le tamoul et l'hindi, sans entraîner un nouveau décodeur acoustique et sans utiliser aucune donnée d'entraînement de TTS commercial ? Nous combinons trois éléments : (1) BUPS, un espace phonémique unifié pour les écritures brahmiques qui romanise de manière déterministe sept écritures indiennes vers l'ISO-15919 afin que le tokeniseur Latin de Chatterbox puisse les traiter ; (2) un adaptateur LoRA appliqué uniquement au prédicteur de tokens textuels (le module t3 de Chatterbox), entraîné sur environ 1 220 heures d'audio indien sous licence avec un identifiant de langue proxy-hindi ; (3) une recette de récupération par prompt vocal – un clip de référence de 8 à 11 secondes dans la même langue plus trois paramètres de surcharge d'échantillonnage (exagération 0.7, température 0.6, min_p 0.1 ; « Config B ») – qui permet de retrouver une sortie acoustique de niveau commercial sans aucun entraînement du décodeur acoustique. Pour l'hindi, le LoRA régresse en précision et nous utilisons plutôt Chatterbox vanilla + Config B, ce qui donne un déploiement à deux branches. Évalué sur des ensembles pilotes de 10 énoncés avec le benchmark PSP compagnon, Praxy Voice égal ou dépasse légèrement les bases de référence commerciales : 26,7 % d'effondrement rétroflexe en télougou (contre 33,3 % pour Sarvam Bulbul), 71 % d'effondrement du « zha » tamoul (contre 86 % pour le trio commercial), 0.025 LLM-WER sur l'hindi (à égalité avec Cartesia Sonic-3). Pour le code-mixing intraphrastique, nous ajoutons une troisième branche (IndicF5 + translittération en écriture native) qui réduit le LLM-WER du code-mixing de 0,80-0,85 à 0,14-0,27 pour les combinaisons Hi/Te/Ta. Nous publions les poids LoRA R6 (Apache-2.0), le code d'inférence et le routeur (MIT), et une démo Gradio.

FASH-iCNN : Rendre l'identité éditoriale de la mode inspectable par sondage multimodal de CNN
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

Les systèmes d'IA de la mode encodent systématiquement la logique esthétique de maisons spécifiques, de rédacteurs en chef et de moments historiques sans la divulguer. Nous présentons FASH-iCNN, un système multimodal entraîné sur 87 547 images de défilés Vogue couvrant 15 maisons de couture entre 1991 et 2024, qui rend cette logique culturelle inspectable. À partir d'une photographie d'un vêtement, le système identifie la maison qui l'a produit, l'époque à laquelle il appartient et la tradition chromatique qu'il reflète. Un modèle utilisant uniquement les vêtements identifie la maison de mode avec une précision top-1 de 78,2 % sur 14 maisons, la décennie avec 88,6 % top-1, et l'année spécifique avec 58,3 % top-1 sur 34 années, avec une erreur moyenne de seulement 2,2 ans. L'analyse des canaux visuels porteurs de ce signal révèle une dissociation nette : supprimer la couleur ne réduit la précision d'identification de la maison que de 10,6 points de pourcentage, tandis que supprimer la texture en coûte 37,6 pp, établissant la texture et la luminance comme les principaux vecteurs de l'identité éditoriale. FASH-iCNN traite la culture éditoriale comme un signal plutôt que comme un bruit de fond, identifiant quelles maisons, époques et traditions chromatiques ont influencé chaque résultat, permettant aux utilisateurs de voir non seulement ce que le système prédit, mais aussi quelles maisons, rédacteurs en chef et moments historiques sont encodés dans cette prédiction.

Exploration de la planification visuelle dans les modèles d'édition d'image
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

La planification visuelle représente un aspect crucial de l'intelligence humaine, particulièrement dans les tâches nécessitant un raisonnement spatial et une navigation complexes. Pourtant, en apprentissage automatique, ce problème intrinsèquement visuel est souvent abordé sous un angle verbal. Bien que des recherches récentes démontrent le potentiel des approches entièrement visuelles, celles-ci souffrent d'une importante inefficacité computationnelle due au paradigme de planification pas-à-par-génération. Dans ce travail, nous présentons EAR, un paradigme d'édition-comme-raisonnement qui reformule la planification visuelle comme une transformation d'image en une seule étape. Pour isoler le raisonnement intrinsèque de la reconnaissance visuelle, nous utilisons des puzzles abstraits comme tâches d'évaluation et introduisons AMAZE, un ensemble de données généré de manière procédurale qui présente les problèmes classiques du Labyrinthe et de la Reine, couvrant des formes distinctes et complémentaires de planification visuelle. La nature abstraite d'AMAZE facilite également l'évaluation automatique des modèles autorégressifs et basés sur la diffusion en termes de fidélité pixel et de validité logique. Nous évaluons les principaux modèles d'édition propriétaires et open-source. Les résultats montrent qu'ils éprouvent tous des difficultés en configuration zéro-shot, mais qu'un fine-tuning sur des échelles basiques permet une généralisation remarquable vers des échelles plus grandes dans le domaine et hors du domaine, ainsi que vers différentes géométries. Cependant, notre meilleur modèle exécuté sur du matériel haut de gamme n'atteint pas l'efficacité zéro-shot des solveurs humains, soulignant un écart persistant dans le raisonnement visuel neuronal.

Amélioration de la confidentialité et de l'efficacité de la communication dans l'apprentissage fédéré non-IID par quantification adaptative et confidentialité différentielle
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

L'apprentissage fédéré (FL) est une méthode d'apprentissage automatique distribuée dans laquelle plusieurs appareils entraînent collaborativement un modèle sous la gestion d'un serveur central sans partager les données sous-jacentes. L'un des principaux défis du FL est la goulotte d'étranglement de communication causée par les variations de vitesse de connexion et de bande passante entre les appareils. Par conséquent, il est essentiel de réduire la taille des données transmises pendant l'entraînement. De plus, il existe un risque potentiel d'exposer des informations sensibles via l'analyse du modèle ou des gradients pendant l'entraînement. Pour répondre à la fois aux impératifs de confidentialité et d'efficacité de la communication, nous combinons des méthodes de confidentialité différentielle (DP) et de quantification adaptive. Nous utilisons la DP basée sur Laplace pour préserver la confidentialité, approche relativement peu explorée en FL et qui offre des garanties de confidentialité plus strictes que la DP basée sur Gaussienne. Nous proposons un planificateur simple et efficace de longueur de bits globale utilisant un recuit cosinus basé sur les rounds, ainsi qu'un planificateur côté client qui s'adapte dynamiquement en fonction de la contribution du client estimée via une analyse de l'entropie du jeu de données. Nous évaluons notre approche par des expériences approfondies sur les jeux de données CIFAR10, MNIST et d'imagerie médicale, en utilisant des distributions de données non-IID pour différents nombres de clients, planificateurs de longueur de bits et budgets de confidentialité. Les résultats montrent que nos méthodes de quantification adaptive réduisent le volume total de données communiquées jusqu'à 52,64% pour MNIST, 45,06% pour CIFAR10 et de 31% à 37% pour les jeux de données d'imagerie médicale par rapport à un entraînement en flottant 32 bits, tout en maintenant une précision du modèle compétitive et en garantissant une confidentialité robuste grâce à la confidentialité différentielle.

Sélection d'Échantillons par Autoencodeurs Multi-Tâches dans l'Apprentissage Fédéré avec des Données Non-IID
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

L'apprentissage fédéré est un paradigme d'apprentissage automatique dans lequel plusieurs appareils entraînent collaborativement un modèle sous la supervision d'un serveur central tout en préservant la confidentialité des données. Cependant, ses performances sont souvent entravées par des échantillons redondants, malveillants ou anormaux, entraînant une dégradation et une inefficacité du modèle. Pour surmonter ces problèmes, nous proposons de nouvelles méthodes de sélection d'échantillons pour la classification d'images, utilisant un autoencodeur multitâche pour estimer les contributions des échantillons via l'analyse des pertes et des caractéristiques. Notre approche intègre une détection non supervisée des valeurs aberrantes, utilisant des méthodes de machine à vecteurs de support à une classe (OCSVM), de forêt d'isolation (IF) et de seuillage adaptatif des pertes (AT) gérées par un serveur central pour filtrer les échantillons bruités sur les clients. Nous proposons également une fonction de perte multi-classes basée sur la description profonde des données par les vecteurs de support (SVDD), contrôlée par un serveur central, pour améliorer la sélection d'échantillons basée sur les caractéristiques. Nous validons nos méthodes sur les jeux de données CIFAR10 et MNIST avec différents nombres de clients, des distributions non-IID et des niveaux de bruit allant jusqu'à 40%. Les résultats montrent des améliorations significatives de la précision avec la sélection d'échantillons basée sur les pertes, atteignant des gains allant jusqu'à 7,02% sur CIFAR10 avec OCSVM et 1,83% sur MNIST avec AT. De plus, notre fonction de perte SVDD fédérée améliore davantage la sélection d'échantillons basée sur les caractéristiques, produisant des gains de précision allant jusqu'à 0,99% sur CIFAR10 avec OCSVM. Ces résultats démontrent l'efficacité de nos méthodes pour améliorer la précision des modèles dans diverses conditions de nombre de clients et de bruit.

Praxy Voice : Récupération par Invocation Vocale + BUPS pour la Synthèse Vocale Commerciale en Langues Indiennes à partir d'une Base Non-Indienne Figée, sans Coût de Données d'Entraînement Commerciales.
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta