HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

20 papers found

OmniWorld : Un ensemble de données multi-domaines et multi-modales pour la modélisation 4D du monde
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

Sep 15

ByYang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He

Le domaine de la modélisation 4D du monde, visant à capturer conjointement la géométrie spatiale et la dynamique temporelle, a connu des progrès remarquables ces dernières années, grâce aux avancées des modèles génératifs à grande échelle et de l'apprentissage multimodal. Cependant, le développement de modèles 4D du monde véritablement généraux reste fondamentalement limité par la disponibilité de données de haute qualité. Les ensembles de données et benchmarks existants manquent souvent de la complexité dynamique, de la diversité multi-domaines et des annotations spatio-temporelles nécessaires pour soutenir des tâches clés telles que la reconstruction géométrique 4D, la prédiction future et la génération de vidéos avec contrôle de caméra. Pour combler cette lacune, nous présentons OmniWorld, un ensemble de données à grande échelle, multi-domaines et multimodal, spécialement conçu pour la modélisation 4D du monde. OmniWorld se compose d'un nouvel ensemble de données collecté, OmniWorld-Game, et de plusieurs ensembles de données publics soigneusement sélectionnés couvrant divers domaines. Par rapport aux ensembles de données synthétiques existants, OmniWorld-Game offre une couverture modale plus riche, une plus grande échelle et des interactions dynamiques plus réalistes. Sur la base de cet ensemble de données, nous établissons un benchmark exigeant qui met en lumière les limites des approches actuelles de pointe (SOTA) dans la modélisation d'environnements 4D complexes. De plus, le fine-tuning des méthodes SOTA existantes sur OmniWorld entraîne des gains de performance significatifs dans les tâches de reconstruction 4D et de génération de vidéos, validant ainsi fortement OmniWorld comme une ressource puissante pour l'entraînement et l'évaluation. Nous envisageons OmniWorld comme un catalyseur pour accélérer le développement de modèles 4D du monde à usage général, faisant ainsi progresser la compréhension holistique des machines du monde physique.

UI-S1 : Progrès de l'automatisation des interfaces graphiques via l'apprentissage par renforcement semi-online
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

Sep 15

ByZhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang

Les agents d'interface graphique (GUI) ont démontré des progrès remarquables dans l'automatisation des interactions complexes avec les interfaces utilisateurs grâce à l'apprentissage par renforcement. Cependant, les approches actuelles sont confrontées à un dilemme fondamental : l'apprentissage par renforcement hors ligne permet un entraînement stable sur des trajectoires pré-collectées, mais peine à exécuter des tâches en plusieurs étapes en raison de l'absence de signaux de récompense au niveau des trajectoires ; l'apprentissage par renforcement en ligne capture ces signaux par interaction avec l'environnement, mais souffre de récompenses rares et de coûts de déploiement prohibitifs. Pour y remédier, nous présentons l'apprentissage par renforcement semi-en ligne, un nouveau paradigme qui simule l'apprentissage en ligne sur des trajectoires hors ligne. Durant chaque processus de déploiement, nous préservons la sortie originale du modèle dans le dialogue multi-tours, où un module de correction adaptatif comble l'écart entre les trajectoires de déploiement et celles des experts. Pour capturer les signaux d'entraînement à long terme, l'apprentissage semi-en ligne intègre des retours futurs actualisés dans le calcul de la récompense et optimise la politique avec des avantages pondérés au niveau des étapes et des épisodes. Nous introduisons également la Performance Semi-En Ligne (SOP), une métrique qui s'aligne mieux sur la performance en ligne réelle, servant de proxy pratique et efficace pour l'évaluation en conditions réelles. Les expériences montrent que notre apprentissage semi-en ligne atteint des performances de pointe parmi les modèles de 7 milliards de paramètres sur quatre benchmarks dynamiques, avec des gains significatifs par rapport au modèle de base (par exemple, +12,0 % sur AndroidWorld, +23,8 % sur AITW), démontrant des progrès significatifs dans la réduction de l'écart entre l'efficacité de l'entraînement hors ligne et le raisonnement multi-tours en ligne. Le code est disponible à l'adresse suivante : https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

InternScenes : Un vaste ensemble de données de scènes intérieures simulables avec des agencements réalistes
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

Sep 13

ByWeipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang

Le progrès de l'IA incarnée repose fortement sur des ensembles de données de scènes 3D simulables à grande échelle, caractérisés par une diversité de scènes et des agencements réalistes. Cependant, les ensembles de données existants souffrent généralement de limitations en termes d'échelle ou de diversité des données, d'agencements aseptisés manquant de petits objets, et de collisions sévères entre objets. Pour remédier à ces lacunes, nous présentons InternScenes, un nouvel ensemble de données de scènes intérieures simulables à grande échelle, comprenant environ 40 000 scènes diversifiées en intégrant trois sources de scènes distinctes : des scans du monde réel, des scènes générées de manière procédurale et des scènes créées par des designers, incluant 1,96 million d'objets 3D et couvrant 15 types de scènes courants et 288 classes d'objets. Nous préservons particulièrement un grand nombre de petits objets dans les scènes, résultant en des agencements réalistes et complexes avec une moyenne de 41,5 objets par région. Notre pipeline de traitement de données complet assure la simulabilité en créant des répliques réel-vers-sim pour les scans du monde réel, améliore l'interactivité en incorporant des objets interactifs dans ces scènes, et résout les collisions d'objets par des simulations physiques. Nous démontrons la valeur d'InternScènes avec deux applications de référence : la génération d'agencements de scènes et la navigation vers un point cible. Les deux montrent les nouveaux défis posés par les agencements complexes et réalistes. Plus important encore, InternScènes ouvre la voie à la montée en échelle de l'entraînement des modèles pour ces deux tâches, rendant possible la génération et la navigation dans de telles scènes complexes. Nous nous engageons à ouvrir les données, les modèles et les benchmarks pour bénéficier à toute la communauté.

Perdus dans les embeddings : Perte d'information dans les modèles vision-langage
Lost in Embeddings: Information Loss in Vision-Language Models

Sep 15

ByWenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard

Les modèles vision-langage (VLMs) traitent souvent les entrées visuelles à travers un encodeur visuel pré-entraîné, suivi d'une projection dans l'espace d'encodage du modèle de langage via un composant de connexion. Bien que cruciale pour la fusion des modalités, la perte d'information potentielle induite par cette étape de projection et son impact direct sur les capacités du modèle restent peu étudiés. Nous introduisons deux approches complémentaires pour examiner et quantifier cette perte en analysant l'espace de représentation latente. Premièrement, nous évaluons la préservation de l'information sémantique en analysant les changements dans les relations des k-plus proches voisins entre les représentations d'images, avant et après la projection. Deuxièmement, nous mesurons directement la perte d'information en reconstruisant les encodages visuels à partir de la représentation projetée, localisant la perte au niveau des patches d'image. Les expériences révèlent que les connecteurs déforment considérablement la géométrie locale des représentations visuelles, avec une divergence des k-plus proches voisins de 40 à 60 % après projection, corrélée à une dégradation des performances en recherche. La reconstruction des encodages au niveau des patches fournit des insights interprétables sur le comportement du modèle pour les tâches de question-réponse visuellement ancrées, montrant que les zones de forte perte d'information prédisent de manière fiable les cas où les modèles rencontrent des difficultés.

LazyDrag : Permettre une édition stable par glissement sur les transformeurs de diffusion multi-modaux via une correspondance explicite
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

Sep 15

ByZixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum

La dépendance à l'appariement implicite de points via l'attention est devenue un goulot d'étranglement central dans l'édition basée sur le glissement, entraînant un compromis fondamental entre une force d'inversion affaiblie et une optimisation coûteuse au moment du test (TTO). Ce compromis limite sévèrement les capacités génératives des modèles de diffusion, supprimant la haute fidélité dans l'inpainting et la création guidée par texte. Dans cet article, nous présentons LazyDrag, la première méthode d'édition d'images basée sur le glissement pour les Transformers de Diffusion Multi-Modale, qui élimine directement la dépendance à l'appariement implicite de points. Concrètement, notre méthode génère une carte de correspondance explicite à partir des entrées de glissement de l'utilisateur comme référence fiable pour renforcer le contrôle de l'attention. Cette référence fiable ouvre la possibilité d'un processus d'inversion stable à pleine puissance, une première dans la tâche d'édition basée sur le glissement. Elle rend inutile la nécessité de TTO et débloque la capacité générative des modèles. Par conséquent, LazyDrag unifie naturellement le contrôle géométrique précis avec le guidage par texte, permettant des modifications complexes auparavant inaccessibles : ouvrir la gueule d'un chien et inpainter son intérieur, générer de nouveaux objets comme une « balle de tennis », ou pour des glissements ambigus, effectuer des changements conscients du contexte comme déplacer une main dans une poche. De plus, LazyDrag prend en charge des workflows multi-tours avec des opérations simultanées de déplacement et de mise à l'échelle. Évalué sur DragBench, notre méthode surpasse les bases de référence en précision de glissement et en qualité perceptuelle, comme validé par VIEScore et l'évaluation humaine. LazyDrag établit non seulement de nouvelles performances de pointe, mais ouvre également une nouvelle voie aux paradigmes d'édition.

SearchInstruct : Amélioration de l'adaptation de domaine via la création d'un ensemble d'instructions basé sur la recherche
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

Sep 12

ByIman Barati, Mostafa Amiri, Heshaam Faili

Le Fine-Tuning Supervisé (SFT) est essentiel pour entraîner les grands modèles de langage (LLMs), améliorant de manière significative des capacités critiques telles que le suivi d'instructions et l'apprentissage en contexte. Cependant, la création de jeux de données d'entraînement adaptés à des domaines spécifiques reste un défi en raison des contraintes propres à chaque domaine et de la rareté des données. Dans cet article, nous proposons SearchInstruct, une méthode innovante conçue explicitement pour construire des jeux de données d'instructions de haute qualité pour le SFT. Notre approche commence avec un ensemble limité de questions spécifiques à un domaine, générées par des humains, qui sont ensuite systématiquement enrichies à l'aide d'un grand modèle de langage. Par la suite, des ressources pertinentes au domaine sont récupérées dynamiquement pour générer des réponses précises et contextuellement adaptées à chaque question augmentée. L'évaluation expérimentale démontre que SearchInstruct améliore à la fois la diversité et la qualité des jeux de données pour le SFT, conduisant à des améliorations mesurables des performances des LLMs dans des domaines spécialisés. De plus, nous montrons qu'au-delà de la génération de jeux de données, la méthode proposée peut également faciliter efficacement des tâches telles que l'édition de modèles, permettant des mises à jour efficaces des modèles existants. Pour favoriser la reproductibilité et l'adoption par la communauté, nous fournissons tous les détails d'implémentation, l'ensemble complet des paires instruction-réponse générées, ainsi que le code source dans un dépôt Git accessible publiquement : [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).

La localité dans les modèles de diffusion d'images émerge des statistiques des données
Locality in Image Diffusion Models Emerges from Data Statistics

Sep 11

ByArtem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann

Parmi les modèles génératifs, les modèles de diffusion se distinguent par leur caractère particulièrement intriguant, notamment en raison de l'existence d'un minimiseur optimal en forme fermée pour leur objectif d'entraînement, souvent appelé le débruiteur optimal. Cependant, l'utilisation de ce débruiteur optimal dans le processus de diffusion se limite à reproduire les images de l'ensemble d'entraînement, échouant ainsi à capturer le comportement des modèles de diffusion profonds. Des travaux récents ont cherché à caractériser cet écart entre le débruiteur optimal et les modèles de diffusion profonds, proposant des modèles analytiques sans entraînement capables de générer des images ressemblant à celles produites par un UNet entraîné. La méthode la plus performante postule que l'équivariance par translation et les biais inductifs de localité des réseaux de neurones convolutifs sont à l'origine de cet écart de performance, intégrant ainsi ces hypothèses dans son modèle analytique. Dans ce travail, nous apportons des preuves que la localité dans les modèles de diffusion profonds émerge comme une propriété statistique de l'ensemble de données d'images, et non pas en raison du biais inductif des réseaux de neurones convolutifs. Plus précisément, nous démontrons qu'un débruiteur linéaire paramétrique optimal présente des propriétés de localité similaires à celles des débruiteurs neuronaux profonds. Nous montrons en outre, à la fois théoriquement et expérimentalement, que cette localité découle directement des corrélations de pixels présentes dans les ensembles de données d'images naturelles. Enfin, nous utilisons ces insights pour concevoir un débruiteur analytique qui correspond mieux aux scores prédits par un modèle de diffusion profond que l'alternative précédemment conçue par des experts.

Apprentissage de l'Optimisation de l'Alignement Multi-Objectif par Pondération Dynamique des Récompenses
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

Sep 14

ByYining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang

Les travaux antérieurs en apprentissage par renforcement multi-objectif utilisent généralement une scalarisation linéaire des récompenses avec des poids fixes, ce qui s'avère incapable de capturer des fronts de Pareto non convexes et produit donc des résultats sous-optimaux. Cette limitation devient particulièrement critique dans l'alignement des préférences en ligne pour les grands modèles de langage. Ici, les trajectoires stochastiques générées par des politiques paramétrées créent des mappages hautement non linéaires et non convexes entre les paramètres et les objectifs, qu'aucun schéma de pondération statique ne peut optimiser. Nous abordons cette limitation en introduisant une pondération dynamique des récompenses, qui ajuste de manière adaptative les poids des récompenses pendant le processus d'apprentissage par renforcement en ligne. Contrairement aux approches existantes qui reposent sur une interpolation à poids fixes, notre pondération dynamique équilibre et priorise continuellement les objectifs pendant l'entraînement, facilitant une exploration efficace des fronts de Pareto dans l'espace des objectifs. Nous introduisons deux approches de sophistication et de généralisabilité croissantes : (1) une adaptation des poids guidée par l'hypervolume et (2) une optimisation des poids basée sur le gradient, offrant une boîte à outils polyvalente pour l'alignement multi-objectif en ligne. Nos expériences approfondies démontrent leur compatibilité avec les algorithmes d'apprentissage par renforcement en ligne couramment utilisés (y compris GRPO, REINFORCE et RLOO), leur efficacité sur plusieurs ensembles de données de raisonnement mathématique, et leur applicabilité à différentes familles de modèles, atteignant systématiquement des solutions Pareto dominantes avec moins d'étapes d'entraînement que les bases de référence de scalarisation linéaire à poids fixes.

Mesure de l'humilité épistémique dans les modèles de langage multimodaux de grande envergure
Measuring Epistemic Humility in Multimodal Large Language Models

Sep 11

ByBingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou

Les hallucinations dans les modèles de langage multimodaux de grande taille (MLLMs) -- où le modèle génère un contenu incohérent avec l'image d'entrée -- posent des risques significatifs dans les applications réelles, allant de la désinformation dans les systèmes de réponse visuelle à des erreurs dangereuses dans la prise de décision. Les benchmarks existants testent principalement la précision de reconnaissance, c'est-à-dire si les modèles peuvent sélectionner la bonne réponse parmi des distracteurs. Cela néglige une capacité tout aussi critique pour une IA digne de confiance : reconnaître lorsqu'aucune des options proposées n'est correcte, un comportement reflétant l'humilité épistémique. Nous présentons HumbleBench, un nouveau benchmark d'hallucination conçu pour évaluer la capacité des MLLMs à rejeter des réponses plausibles mais incorrectes à travers trois types d'hallucinations : objet, relation et attribut. Construit à partir d'un ensemble de données de graphes scéniques panoptiques, nous exploitons des annotations fines de graphes scéniques pour extraire des entités et des relations de référence, et incitons GPT-4-Turbo à générer des questions à choix multiples, suivies d'un processus rigoureux de filtrage manuel. Chaque question inclut une option "Aucune des réponses ci-dessus", exigeant des modèles non seulement de reconnaître les informations visuelles correctes, mais aussi d'identifier lorsqu'aucune réponse fournie n'est valide. Nous évaluons une variété de MLLMs de pointe -- incluant à la fois des modèles généralistes et spécialisés dans le raisonnement -- sur HumbleBench et partageons des découvertes et des insights précieux avec la communauté. En incorporant le rejet explicite de fausses options, HumbleBench comble une lacune clé dans les suites d'évaluation actuelles, fournissant une mesure plus réaliste de la fiabilité des MLLMs dans des contextes critiques pour la sécurité. Notre code et notre ensemble de données sont publiés publiquement et peuvent être consultés à l'adresse https://github.com/maifoundations/HumbleBench.

Regardez à nouveau, pensez lentement : Améliorer la réflexion visuelle dans les modèles vision-langage
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

Sep 15

ByPu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang

Les récents progrès dans le raisonnement « à pensée lente » basé uniquement sur le texte ont motivé des efforts pour transférer cette capacité aux modèles vision-langage (VLMs), afin d’entraîner des modèles de raisonnement visuel (VRMs). Cependant, un tel transfert se heurte à des défis critiques : une « pensée lente » efficace dans les VRMs nécessite une réflexion visuelle, c’est-à-dire la capacité de vérifier le processus de raisonnement en s’appuyant sur des informations visuelles. À travers une analyse quantitative, nous observons que les VRMs actuels présentent une réflexion visuelle limitée, car leur attention aux informations visuelles diminue rapidement avec des réponses générées plus longues. Pour relever ce défi, nous proposons un nouveau modèle, Reflection-V, qui améliore la réflexion visuelle grâce à la construction de données de raisonnement pour l’apprentissage à froid et à la conception de récompenses pour l’apprentissage par renforcement (RL). Premièrement, nous construisons des données de raisonnement centrées sur la vision en exploitant un agent qui interagit entre les VLMs et les modèles de raisonnement LLMs, permettant un apprentissage à froid des schémas de réflexion visuelle. Deuxièmement, un modèle de récompense basé sur l’attention visuelle est utilisé pendant le RL pour encourager le raisonnement basé sur les informations visuelles. Ainsi, Reflection-V démontre des améliorations significatives sur plusieurs benchmarks de raisonnement visuel. De plus, Reflection-V maintient une dépendance plus forte et plus cohérente aux informations visuelles lors du raisonnement visuel, indiquant une amélioration effective des capacités de réflexion visuelle.

Nav-R1 : Raisonnement et Navigation dans des Scènes Embodied
Nav-R1: Reasoning and Navigation in Embodied Scenes

Sep 13

ByQingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang

La navigation incarnée nécessite que les agents intègrent perception, raisonnement et action pour une interaction robuste dans des environnements 3D complexes. Les approches existantes souffrent souvent de traces de raisonnement incohérentes et instables qui entravent la généralisation à travers divers environnements, ainsi que de difficultés à équilibrer un raisonnement sémantique à long terme avec un contrôle à faible latence pour une navigation en temps réel. Pour relever ces défis, nous proposons Nav-R1, un modèle de base incarné qui unifie le raisonnement dans les environnements incarnés. Nous construisons d'abord Nav-CoT-110K, un jeu de données à grande échelle de Chaînes de Pensée (CoT) étape par étape pour les tâches incarnées, permettant une initialisation à froid avec un raisonnement structuré. Sur cette base, nous concevons un cadre d'apprentissage par renforcement basé sur GRPO avec trois récompenses complémentaires : format, compréhension et navigation, pour améliorer l'adhésion structurelle, l'ancrage sémantique et la fidélité du chemin. De plus, nous introduisons un paradigme de raisonnement Rapide-dans-Lent, découplant le raisonnement sémantique délibéré du contrôle réactif à faible latence pour une navigation efficace mais cohérente. Des évaluations approfondies sur des benchmarks d'IA incarnée démontrent que Nav-R1 surpasse systématiquement les bases de référence solides, avec une amélioration moyenne de plus de 8 % dans les performances de raisonnement et de navigation. Un déploiement dans le monde réel sur un robot mobile valide en outre sa robustesse sous des ressources embarquées limitées. Code : https://github.com/AIGeeksGroup/Nav-R1. Site web : https://aigeeksgroup.github.io/Nav-R1.

CognitiveSky : Analyse d'opinion et de récit évolutive pour les médias sociaux décentralisés
CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

Sep 14

ByGaurab Chhetri, Anandi Dutta, Subasish Das

L'émergence de plateformes de médias sociaux décentralisés présente de nouvelles opportunités et défis pour l'analyse en temps réel du discours public. Cette étude présente CognitiveSky, un cadre open-source et évolutif conçu pour l'analyse des sentiments, des émotions et des récits sur Bluesky, une alternative fédérée à Twitter ou X.com. En ingérant des données via l'Interface de Programmation d'Applications (API) de Bluesky, CognitiveSky applique des modèles basés sur des transformateurs pour annoter du contenu généré par les utilisateurs à grande échelle et produit des résultats structurés et analysables. Ces résumés alimentent un tableau de bord dynamique qui visualise les évolutions des émotions, de l'activité et des sujets de conversation. Entièrement construit sur une infrastructure de niveau gratuit, CognitiveSky combine à la fois un faible coût opérationnel et une accessibilité élevée. Bien que démontré ici pour la surveillance du discours sur la santé mentale, sa conception modulaire permet des applications dans divers domaines tels que la détection de désinformation, la réponse aux crises et l'analyse des sentiments civiques. En reliant les grands modèles de langage aux réseaux décentralisés, CognitiveSky offre un outil transparent et extensible pour les sciences sociales computationnelles à l'ère des écosystèmes numériques en mutation.

PersonaX : Ensembles de données multimodales avec des traits comportementaux inférés par des modèles de langage de grande taille
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

Sep 14

ByLoka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang

Comprendre les traits comportementaux humains est essentiel pour les applications en interaction homme-machine, en sciences sociales computationnelles et dans les systèmes d'IA personnalisés. Une telle compréhension nécessite souvent l'intégration de multiples modalités pour capturer des schémas et des relations nuancés. Cependant, les ressources existantes fournissent rarement des ensembles de données combinant des descripteurs comportementaux avec des modalités complémentaires telles que les attributs faciaux et les informations biographiques. Pour combler cette lacune, nous présentons PersonaX, une collection soigneusement élaborée de jeux de données multimodaux conçus pour permettre une analyse complète des traits publics à travers différentes modalités. PersonaX se compose de (1) CelebPersona, mettant en vedette 9444 personnalités publiques issues de divers métiers, et (2) AthlePersona, couvrant 4181 athlètes professionnels à travers 7 grandes ligues sportives. Chaque ensemble de données inclut des évaluations de traits comportementaux inférées par trois modèles de langage à grande échelle performants, ainsi que des images faciales et des caractéristiques biographiques structurées. Nous analysons PersonaX à deux niveaux complémentaires. Premièrement, nous abstractions des scores de traits de haut niveau à partir de descriptions textuelles et appliquons cinq tests d'indépendance statistique pour examiner leurs relations avec d'autres modalités. Deuxièmement, nous introduisons un nouveau cadre d'apprentissage de représentation causale (CRL) adapté aux données multimodales et multi-mesures, offrant des garanties théoriques d'identifiabilité. Des expériences sur des données synthétiques et réelles démontrent l'efficacité de notre approche. En unifiant l'analyse structurée et non structurée, PersonaX établit une base pour étudier les traits comportementaux inférés par les LLM en conjonction avec les attributs visuels et biographiques, faisant progresser l'analyse multimodale des traits et le raisonnement causal.

FuseCodec : Fusion sémantique-contextuelle et supervision pour les codecs neuronaux
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

Sep 14

ByMd Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

La tokenisation de la parole permet une représentation discrète et facilite la modélisation du langage parlé. Cependant, les codecs neuronaux existants capturent des caractéristiques acoustiques de bas niveau, négligeant les indices sémantiques et contextuels inhérents à la parole humaine. Bien que des efforts récents aient introduit des représentations sémantiques issues de modèles de parole auto-supervisés ou incorporé des représentations contextuelles provenant de modèles de langage pré-entraînés, des défis subsistent dans l'alignement et l'unification des représentations sémantiques et contextuelles. Nous présentons FuseCodec, qui unifie les représentations acoustiques, sémantiques et contextuelles grâce à un alignement intermodal robuste et une supervision globalement informée. Nous proposons trois techniques complémentaires : (i) la Fusion des Représentations Latentes, intégrant directement les caractéristiques sémantiques et contextuelles dans l'espace latent de l'encodeur pour un apprentissage robuste et unifié des représentations ; (ii) la Supervision Globale Sémantique-Contextuelle, supervisant les tokens discrets avec des représentations globalement agrégées et diffusées pour améliorer la cohérence temporelle et l'alignement intermodal ; et (iii) la Supervision Contextuelle Temporellement Alignée, renforçant l'alignement en faisant correspondre dynamiquement les tokens contextuels et de parole dans une fenêtre locale pour une supervision fine au niveau des tokens. Nous introduisons également FuseCodec-TTS, démontrant l'applicabilité de notre méthodologie à la synthèse de parole zero-shot. Empiriquement, FuseCodec atteint des performances de pointe sur LibriSpeech, surpassant EnCodec, SpeechTokenizer et DAC en termes de précision de transcription, qualité perceptuelle, intelligibilité et similarité du locuteur. Les résultats mettent en évidence l'efficacité d'une tokenisation guidée contextuellement et sémantiquement pour la tokenisation de la parole et les tâches en aval. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/mubtasimahasan/FuseCodec.

Dr.V : Un cadre hiérarchique Perception-Temporal-Cognition pour diagnostiquer les hallucinations vidéo par un ancrage spatio-temporel finement granulaire
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

Sep 15

ByMeng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu

Les récents progrès dans les modèles vidéo de grande envergure (LVMs) ont considérablement amélioré la compréhension vidéo. Cependant, ces modèles continuent de souffrir d’hallucinations, produisant des contenus en contradiction avec les vidéos d’entrée. Pour résoudre ce problème, nous proposons Dr.V, un cadre hiérarchique couvrant les niveaux perceptif, temporel et cognitif pour diagnostiquer les hallucinations vidéo grâce à un ancrage spatio-temporel fin. Dr.V se compose de deux éléments clés : un ensemble de données de référence, Dr.V-Bench, et un agent vidéo satellite, Dr.V-Agent. Dr.V-Bench comprend 10 000 instances extraites de 4 974 vidéos couvrant diverses tâches, chacune enrichie d’annotations spatio-temporelles détaillées. Dr.V-Agent détecte les hallucinations dans les LVMs en appliquant systématiquement un ancrage spatio-temporel fin aux niveaux perceptif et temporel, suivi d’un raisonnement au niveau cognitif. Ce pipeline étape par étape reflète une compréhension vidéo similaire à celle des humains et identifie efficacement les hallucinations. Des expériences approfondies démontrent que Dr.V-Agent est efficace pour diagnostiquer les hallucinations tout en améliorant l’interprétabilité et la fiabilité, offrant ainsi un plan pratique pour une compréhension vidéo robuste dans des scénarios réels. Toutes nos données et notre code sont disponibles à l’adresse https://github.com/Eurekaleo/Dr.V.

EthicsMH : Un benchmark pilote pour le raisonnement éthique dans l'IA en santé mentale
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

Sep 15

BySai Kartheek Reddy Kasu

Le déploiement de grands modèles de langage (LLMs) dans le domaine de la santé mentale et d'autres secteurs sensibles soulève des questions urgentes concernant le raisonnement éthique, l'équité et l'alignement responsable. Cependant, les benchmarks existants pour la prise de décision morale et clinique ne capturent pas adéquatement les dilemmes éthiques uniques rencontrés dans la pratique de la santé mentale, où la confidentialité, l'autonomie, la bienfaisance et les biais se croisent fréquemment. Pour combler cette lacune, nous introduisons Ethical Reasoning in Mental Health (EthicsMH), un ensemble de données pilote de 125 scénarios conçus pour évaluer comment les systèmes d'IA naviguent dans des situations éthiquement chargées dans des contextes thérapeutiques et psychiatriques. Chaque scénario est enrichi de champs structurés, incluant plusieurs options de décision, un raisonnement aligné sur l'expertise, le comportement attendu du modèle, l'impact réel et les points de vue de multiples parties prenantes. Cette structure permet d'évaluer non seulement la précision des décisions, mais aussi la qualité des explications et l'alignement avec les normes professionnelles. Bien que modeste en taille et développé avec une génération assistée par modèle, EthicsMH établit un cadre de tâches qui relie l'éthique de l'IA et la prise de décision en santé mentale. En publiant cet ensemble de données, nous visons à fournir une ressource de base qui peut être enrichie grâce aux contributions de la communauté et des experts, favorisant ainsi le développement de systèmes d'IA capables de gérer de manière responsable certaines des décisions les plus délicates de la société.

ClaimIQ à CheckThat! 2025 : Comparaison des modèles de langage incités et affinés pour la vérification des affirmations numériques
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

Sep 15

ByAnirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury

Cet article présente notre système pour la tâche 3 du laboratoire CLEF 2025 CheckThat!, qui se concentre sur la vérification des affirmations numériques et temporelles en utilisant des preuves récupérées. Nous explorons deux approches complémentaires : le prompting zero-shot avec des modèles de langage de grande taille (LLMs) ajustés par instruction, et le fine-tuning supervisé utilisant la méthode paramétriquement efficace LoRA. Pour améliorer la qualité des preuves, nous étudions plusieurs stratégies de sélection, incluant l'entrée de documents complets et le filtrage des k meilleures phrases en utilisant BM25 et MiniLM. Notre meilleur modèle, LLaMA fine-tuné avec LoRA, obtient des performances solides sur l'ensemble de validation en anglais. Cependant, une baisse notable sur l'ensemble de test met en lumière un défi de généralisation. Ces résultats soulignent l'importance de la granularité des preuves et de l'adaptation des modèles pour une vérification robuste des faits numériques.

GAPrune : Élagage par Alignement du Gradient pour les Représentations Contextuelles
GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

Sep 13

ByYixuan Tang, Yi Yang

Les modèles d'embedding spécifiques à un domaine ont montré des résultats prometteurs pour des applications nécessitant une compréhension sémantique spécialisée, telles que les agents de codage et les systèmes de recherche financière, obtenant souvent des gains de performance supérieurs à ceux des modèles généraux. Cependant, les modèles d'embedding de pointe reposent généralement sur des LLM (modèles de langage de grande taille), qui contiennent des milliards de paramètres, rendant leur déploiement difficile dans des environnements aux ressources limitées. La compression de modèles par élagage offre une solution prometteuse, mais les méthodes d'élagage existantes traitent tous les paramètres de manière uniforme, sans distinguer entre les représentations sémantiques générales et les motifs spécifiques au domaine, ce qui conduit à des décisions d'élagage sous-optimales. Ainsi, nous proposons GAPrune, un cadre d'élagage qui relève ce défi en tenant compte à la fois de l'importance du domaine et de la préservation des fondations linguistiques générales. Notre méthode utilise l'information de Fisher pour mesurer l'importance et l'alignement des gradients dans le domaine général pour évaluer le comportement des paramètres, puis combine ces signaux à l'aide de notre score d'importance d'alignement de domaine (DAI). Les scores DAI plus faibles indiquent que le paramètre est soit moins important pour la tâche du domaine, soit qu'il crée des conflits entre les objectifs du domaine et les objectifs généraux. Les expériences sur deux benchmarks de domaine, FinMTEB et ChemTEB, montrent que GAPrune maintient une performance à moins de 2,5 % des modèles denses lors d'un élagage en une étape à 50 % de sparsité, tout en surpassant toutes les méthodes de référence. Avec un réentraînement en 100 étapes, GAPrune obtient une amélioration de +4,51 % sur FinMTEB et de +1,73 % sur ChemTEB, démontrant que notre stratégie d'élagage non seulement préserve mais améliore les capacités spécifiques au domaine. Nos résultats montrent que des stratégies d'élagage fondées sur des principes peuvent atteindre à la fois la compression de modèles et une spécialisation de domaine accrue, offrant à la communauté de recherche une nouvelle approche pour le développement.

ToolRM : Modèles de Récompense par Résultat pour les Grands Modèles de Langage Appelant des Outils
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

Sep 15

ByMayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi

Alors que les grands modèles de langage (LLM) interagissent de plus en plus avec des outils externes, la modélisation des récompenses pour l'utilisation d'outils est devenue un domaine critique mais encore peu exploré. Les modèles de récompense existants, principalement entraînés sur des sorties en langage naturel, peinent à évaluer le raisonnement et l'exécution basés sur des outils. Pour quantifier cet écart, nous introduisons FC-RewardBench, le premier benchmark conçu pour évaluer systématiquement la performance des modèles de récompense dans des scénarios d'appel d'outils. Notre analyse montre que les modèles de récompense actuels manquent souvent les signaux clés d'une utilisation efficace des outils, soulignant la nécessité d'une modélisation spécifique au domaine. Pour remédier à cela, nous proposons un cadre d'entraînement pour des modèles de récompense basés sur les résultats, utilisant des données synthétisées à partir de LLM open-weight sous licence permissive. Nous entraînons des modèles allant de 1,7B à 14B paramètres et les évaluons sur sept benchmarks hors domaine. Ces modèles surpassent systématiquement les bases de référence généralistes, atteignant jusqu'à 25 % d'amélioration moyenne dans la performance des tâches en aval et permettant un fine-tuning efficace des données grâce au filtrage guidé par les récompenses.

LongEmotion : Mesurer l'intelligence émotionnelle des modèles de langage à grande échelle dans les interactions à contexte étendu
LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction

Sep 9

ByWeichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong

Les grands modèles de langage (LLMs) réalisent des progrès significatifs en matière d'intelligence émotionnelle (IE) et de compréhension de contextes longs. Cependant, les benchmarks existants ont tendance à négliger certains aspects de l'IE dans des scénarios à contexte long, en particulier dans des cadres pratiques et réalistes où les interactions sont prolongées, diversifiées et souvent bruyantes. Pour progresser vers de tels cadres réalistes, nous présentons LongEmotion, un benchmark spécifiquement conçu pour les tâches d'IE en contexte long. Il couvre un ensemble diversifié de tâches, incluant la classification des émotions, la détection des émotions, les questions-réponses sur les émotions, les conversations émotionnelles, les résumés émotionnels et l'expression des émotions. En moyenne, la longueur des entrées pour ces tâches atteint 8 777 tokens, avec une génération de texte long requise pour l'expression des émotions. Pour améliorer les performances dans des contraintes réalistes, nous intégrons la génération augmentée par récupération (RAG) et la modélisation émotionnelle collaborative (CoEM), et les comparons aux méthodes standard basées sur des prompts. Contrairement aux approches conventionnelles, notre méthode RAG exploite à la fois le contexte de la conversation et le grand modèle de langage lui-même comme sources de récupération, évitant ainsi de dépendre de bases de connaissances externes. La méthode CoEM améliore encore les performances en décomposant la tâche en cinq étapes, intégrant à la fois l'augmentation par récupération et l'injection limitée de connaissances. Les résultats expérimentaux montrent que RAG et CoEM améliorent systématiquement les performances liées à l'IE dans la plupart des tâches à contexte long, faisant progresser les LLMs vers des applications d'IE plus pratiques et réalistes. De plus, nous avons mené une étude comparative sur la série GPT pour démontrer les différences entre divers modèles en termes d'IE. Le code est disponible sur GitHub à l'adresse https://github.com/LongEmotion/LongEmotion, et la page du projet peut être consultée à l'adresse https://longemotion.github.io/.