HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

Sekai : Un ensemble de données vidéo pour l'exploration du monde
Sekai: A Video Dataset towards World Exploration

Jun 18

ByZhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang

Les techniques de génération vidéo ont réalisé des progrès remarquables, promettant de devenir le fondement de l'exploration interactive du monde. Cependant, les ensembles de données existants pour la génération vidéo ne sont pas bien adaptés à l'entraînement à l'exploration du monde, car ils présentent certaines limitations : des lieux restreints, une durée courte, des scènes statiques et un manque d'annotations concernant l'exploration et le monde. Dans cet article, nous présentons Sekai (signifiant « monde » en japonais), un ensemble de données vidéo de haute qualité en vue à la première personne à l'échelle mondiale, avec des annotations riches pour l'exploration du monde. Il comprend plus de 5 000 heures de vidéos de marche ou de vue par drone (FPV et UVA) provenant de plus de 100 pays et régions à travers 750 villes. Nous avons développé une boîte à outils efficace et performante pour collecter, prétraiter et annoter les vidéos avec des informations sur la localisation, la scène, la météo, la densité de foule, les légendes et les trajectoires de la caméra. Les expériences démontrent la qualité de l'ensemble de données. De plus, nous utilisons un sous-ensemble pour entraîner un modèle interactif d'exploration vidéo du monde, nommé YUME (signifiant « rêve » en japonais). Nous croyons que Sekai bénéficiera au domaine de la génération vidéo et de l'exploration du monde, et inspirera des applications précieuses.

GenRecal : Génération après recalibrage des grands aux petits modèles vision-langage
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Jun 18

ByByung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

Les récents progrès dans les modèles vision-langage (VLMs) ont exploité les grands modèles de langage (LLMs) pour atteindre des performances comparables à celles de systèmes propriétaires comme GPT-4V. Cependant, le déploiement de ces modèles dans des scénarios réels, en particulier sur des appareils aux ressources limitées, reste difficile en raison de leurs importantes exigences computationnelles. Cela a suscité un intérêt pour la distillation des connaissances des grands VLMs vers des versions plus petites et plus efficaces. Un défi majeur réside dans la diversité des architectures des VLMs, qui sont construites sur différents LLMs et utilisent divers types de tokens, différant par la taille du vocabulaire, les découpages de tokens et l'ordre des indices de tokens. Pour relever ce défi lié à la limitation à un type spécifique de VLM, nous présentons Generation after Recalibration (GenRecal), un nouveau cadre de distillation polyvalent pour les VLMs. GenRecal intègre un Recalibrateur qui aligne et adapte les représentations de caractéristiques entre des VLMs hétérogènes, permettant un transfert efficace des connaissances entre différents types de VLMs. Grâce à des expériences approfondies sur plusieurs benchmarks exigeants, nous démontrons que GenRecal améliore significativement les performances de base, surpassant finalement les VLMs à grande échelle, qu'ils soient open-source ou propriétaires.

Rien n'est perdu : Récupération des LLM sans points de contrôle
All is Not Lost: LLM Recovery without Checkpoints

Jun 18

ByNikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

L'entraînement de modèles de langage (LLMs) sur des nœuds de calcul décentralisés et peu puissants, par exemple, plusieurs instances locales, réduit les coûts d'entraînement et favorise la démocratisation des modèles. Le défi inévitable ici est la défaillance des nœuds due à des pannes ou aux politiques de planification de l'opérateur, entraînant la perte d'une étape - une partie du modèle. Les approches conventionnelles pour récupérer après des pannes consistent soit à utiliser des points de contrôle, où une copie complète du modèle est périodiquement envoyée à un stockage supplémentaire, soit à effectuer des calculs redondants. Ces approches entraînent des surcharges significatives en termes de communication et/ou de calcul, même en l'absence de pannes, et s'adaptent mal aux configurations avec des modèles de grande taille. Dans cet article, nous proposons CheckFree, une méthode de récupération efficace où une étape défaillante est remplacée par une moyenne pondérée des étapes voisines les plus proches. Contrairement à l'état de l'art, CheckFree ne nécessite aucun calcul ou stockage supplémentaire. Cependant, en raison de la nature de la moyenne des étapes voisines, elle ne peut récupérer que les pannes des étapes intermédiaires. Nous étendons ensuite notre méthode à CheckFree+ avec une exécution de pipeline désordonnée pour tolérer les crashes des premières et dernières étapes. Grâce au pipelining désordonné, le comportement de ces étapes est imité par leurs voisines, ce qui permet à CheckFree+ de les récupérer en copiant simplement les poids du voisin immédiat. Pour pouvoir récupérer les couches de (dé)embedding, CheckFree+ copie ces couches vers les étapes voisines, ce qui nécessite une surcharge de stockage relativement faible. Nous évaluons largement notre méthode sur des modèles LLaMa de tailles variant de 124M à 1,5B avec des fréquences de pannes variables. Dans le cas de taux de pannes faibles à moyens (5-10%), CheckFree et CheckFree+ surpassent à la fois les points de contrôle et les calculs redondants en termes de convergence en temps réel de plus de 12%. Nos deux propositions peuvent être exécutées via notre code disponible à l'adresse suivante : https://github.com/gensyn-ai/CheckFree.

ProtoReasoning : Les prototypes comme fondement du raisonnement généralisable dans les LLM
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs

Jun 18

ByFeng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan

Les récents progrès des modèles de raisonnement à grande échelle (LRMs) entraînés avec des chaînes de raisonnement longues (Long CoT) ont démontré des capacités remarquables de généralisation interdomaines. Cependant, les mécanismes sous-jacents qui soutiennent un tel transfert restent mal compris. Nous émettons l'hypothèse que la généralisation interdomaines découle de prototypes de raisonnement abstraits partagés — des schémas de raisonnement fondamentaux qui capturent l'essence des problèmes à travers les domaines. Ces prototypes minimisent les nuances de la représentation, révélant que des tâches apparemment diverses reposent sur des structures de raisonnement communes. Sur la base de cette hypothèse, nous proposons ProtoReasoning, un cadre qui améliore la capacité de raisonnement des LLMs en exploitant des représentations prototypiques évolutives et vérifiables (Prolog pour le raisonnement logique, PDDL pour la planification). ProtoReasoning comprend : (1) un pipeline automatisé de construction de prototypes qui transforme les problèmes en représentations prototypiques correspondantes ; (2) un système de vérification complet fournissant un retour fiable via des interpréteurs Prolog/PDDL ; (3) la capacité à synthétiser des problèmes de manière arbitraire dans l'espace des prototypes tout en garantissant leur exactitude. Des expériences approfondies montrent que ProtoReasoning améliore de 4,7 % les modèles de base en raisonnement logique (Enigmata-Eval), de 6,3 % en tâches de planification, de 4,0 % en raisonnement général (MMLU) et de 1,0 % en mathématiques (AIME24). De manière significative, nos études d'ablation confirment que l'apprentissage dans l'espace des prototypes démontre également une meilleure généralisation à des problèmes structurellement similaires par rapport à un entraînement uniquement sur des représentations en langage naturel, validant ainsi notre hypothèse selon laquelle les prototypes de raisonnement constituent la base d'un raisonnement généralisable dans les grands modèles de langage.

Agents Web Incarnés : Relier les Mondes Physiques et Numériques pour une Intelligence Agentielle Intégrée
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

Jun 18

ByYining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang

Les agents IA actuels fonctionnent principalement en silos : soit ils récupèrent et raisonnent sur de vastes quantités d'informations et de connaissances numériques obtenues en ligne ; soit ils interagissent avec le monde physique à travers la perception incarnée, la planification et l'action - mais rarement les deux. Cette séparation limite leur capacité à résoudre des tâches nécessitant une intelligence intégrée à la fois physique et numérique, comme cuisiner à partir de recettes en ligne, naviguer avec des données cartographiques dynamiques, ou interpréter des points de repère réels en utilisant des connaissances web. Nous introduisons les Embodied Web Agents, un nouveau paradigme pour les agents IA qui relient de manière fluide l'incarnation et le raisonnement à l'échelle du web. Pour concrétiser ce concept, nous développons d'abord les environnements de tâches des Embodied Web Agents, une plateforme de simulation unifiée qui intègre étroitement des environnements 3D réalistes en intérieur et en extérieur avec des interfaces web fonctionnelles. Sur la base de cette plateforme, nous construisons et publions le Benchmark des Embodied Web Agents, qui englobe une suite diversifiée de tâches incluant la cuisine, la navigation, les achats, le tourisme et la géolocalisation - toutes nécessitant un raisonnement coordonné entre les domaines physique et numérique pour une évaluation systématique de l'intelligence transdomaine. Les résultats expérimentaux révèlent des écarts de performance significatifs entre les systèmes IA de pointe et les capacités humaines, établissant à la fois des défis et des opportunités à l'intersection de la cognition incarnée et de l'accès aux connaissances à l'échelle du web. Tous les ensembles de données, codes et sites web sont disponibles publiquement sur notre page de projet https://embodied-web-agent.github.io/.

SwarmAgentic : Vers une génération entièrement automatisée de systèmes agentiques via l'intelligence en essaim
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence

Jun 18

ByYao Zhang, Chenyang Lin, Shijie Tang, Haokun Chen, Shijie Zhou, Yunpu Ma, Volker Tresp

Les progrès rapides des modèles de langage de grande envergure ont fait avancer les systèmes agentiques dans la prise de décision, la coordination et l'exécution de tâches. Cependant, les cadres existants de génération de systèmes agentiques manquent d'autonomie complète, ne permettant pas la génération d'agents à partir de zéro, l'auto-optimisation des fonctionnalités des agents et la collaboration, ce qui limite l'adaptabilité et l'évolutivité. Nous proposons SwarmAgentic, un cadre pour la génération entièrement automatisée de systèmes agentiques qui construit des systèmes agentiques à partir de zéro et optimise conjointement les fonctionnalités des agents et la collaboration en tant que composants interdépendants grâce à une exploration pilotée par le langage. Pour permettre une recherche efficace sur les structures au niveau du système, SwarmAgentic maintient une population de systèmes candidats et les fait évoluer via des mises à jour guidées par des retours, s'inspirant de l'optimisation par essaims particulaires (PSO). Nous évaluons notre méthode sur six tâches réelles, ouvertes et exploratoires impliquant une planification de haut niveau, une coordination au niveau du système et un raisonnement créatif. Avec seulement une description de tâche et une fonction objective, SwarmAgentic surpasse toutes les méthodes de référence, obtenant une amélioration relative de +261,8 % par rapport à ADAS sur le benchmark TravelPlanner, mettant en évidence l'efficacité de l'automatisation complète dans des tâches structurellement non contraintes. Ce cadre marque une étape significative vers la conception évolutive et autonome de systèmes agentiques, reliant l'intelligence en essaim à la génération entièrement automatisée de systèmes multi-agents. Notre code est disponible publiquement à l'adresse https://yaoz720.github.io/SwarmAgentic/.

Système BUT pour le Défi MLC-SLM
BUT System for the MLC-SLM Challenge

Jun 16

ByAlexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget

Nous présentons un système de reconnaissance automatique de la parole (ASR) à deux locuteurs qui combine DiCoW -- une variante de Whisper conditionnée par la diarisation -- avec DiariZen, un pipeline de diarisation construit sur Pyannote. Nous évaluons d'abord les deux systèmes dans des scénarios multilingues hors domaine (OOD) sans aucun ajustement fin. Dans ce contexte, DiariZen surpasse systématiquement le modèle de diarisation Pyannote de référence, démontrant une forte capacité de généralisation. Bien que DiCoW ait été ajusté uniquement sur des données anglaises pour l'ASR ciblée par locuteur, il conserve une performance multilingue solide, indiquant que les modifications de l'encodeur préservent les capacités multilingues de Whisper. Nous ajustons ensuite finement DiCoW et DiariZen sur les données du défi MLC-SLM. DiariZen ajusté continue de surpasser la référence Pyannote ajustée, tandis que DiCoW bénéficie d'améliorations supplémentaires grâce à l'adaptation au domaine. Notre système final atteint un tcpWER/CER micro-moyen de 16,75 % et se classe deuxième dans la Tâche 2 du défi MLC-SLM. Enfin, nous identifions plusieurs incohérences d'étiquetage dans les données d'entraînement -- telles que des segments de parole manquants et des annotations de silence incorrectes -- qui peuvent entraver l'ajustement fin de la diarisation. Nous proposons des stratégies simples d'atténuation pour résoudre ces problèmes et améliorer la robustesse du système.

Récompenses sémantiquement conscientes pour l'entraînement ouvert R1 dans la génération libre
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Jun 18

ByZongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

L'évaluation de la génération ouverte et de longue durée est un défi, car il est difficile de définir ce qui distingue clairement les bonnes des mauvaises sorties. Les méthodes existantes négligent souvent des aspects clés tels que la cohérence, le style ou la pertinence, ou sont biaisées par les données de pré-entraînement, faisant de l'évaluation de la génération ouverte et de longue durée un problème peu exploré. Pour combler cette lacune, nous proposons PrefBERT, un modèle de notation pour évaluer la génération ouverte et de longue durée dans GRPO et guider son entraînement avec des récompenses distinctes pour les bonnes et les mauvaises sorties. Entraîné sur deux ensembles de données d'évaluation de réponses avec des styles variés de longue durée et une qualité notée sur l'échelle de Likert, PrefBERT soutient efficacement GRPO en offrant un retour de récompense sémantique supérieur à celui des métriques traditionnelles ROUGE-L et BERTScore. Grâce à des évaluations approfondies, incluant LLM-comme-juge, des notations humaines et une analyse qualitative, nous montrons que PrefBERT, entraîné sur des réponses de longueur multi-phrases et paragraphes, reste fiable sur des passages longs variés et s'aligne bien avec les récompenses vérifiables dont GRPO a besoin. Les évaluations humaines confirment que l'utilisation de PrefBERT comme signal de récompense pour entraîner les modèles de politique produit des réponses mieux alignées avec les préférences humaines que celles entraînées avec des métriques traditionnelles. Notre code est disponible à l'adresse https://github.com/zli12321/long_form_rl.

SciVer : Évaluation des modèles de base pour la vérification multimodale des affirmations scientifiques
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Jun 18

ByChengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao

Nous présentons SciVer, le premier benchmark spécifiquement conçu pour évaluer la capacité des modèles de fondation à vérifier des affirmations dans un contexte scientifique multimodal. SciVer comprend 3 000 exemples annotés par des experts, issus de 1 113 articles scientifiques, couvrant quatre sous-ensembles, chacun représentant un type de raisonnement courant dans la vérification d’affirmations scientifiques multimodales. Pour permettre une évaluation fine, chaque exemple inclut des preuves justificatives annotées par des experts. Nous évaluons les performances de 21 modèles de fondation multimodaux de pointe, notamment o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision et Qwen2.5-VL. Notre expérience révèle un écart de performance significatif entre ces modèles et les experts humains sur SciVer. À travers une analyse approfondie de la génération augmentée par récupération (RAG) et des évaluations d’erreurs menées par des humains, nous identifions des limitations critiques dans les modèles open-source actuels, offrant des insights clés pour améliorer la compréhension et le raisonnement des modèles dans les tâches liées à la littérature scientifique multimodale.

Optimisation Proximale de la Politique Tronquée
Truncated Proximal Policy Optimization

Jun 18

ByTiantian Fan, Lingjun Liu, Yu Yue, Jiaze Chen, Chengyi Wang, Qiying Yu, Chi Zhang, Zhiqi Lin, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Bole Ma, Mofan Zhang, Gaohong Liu, Ru Zhang, Haotian Zhou, Cong Xie, Ruidong Zhu, Zhi Zhang, Xin Liu, Mingxuan Wang, Lin Yan, Yonghui Wu

Récemment, les modèles de langage à grande échelle (LLMs) ajustés en temps de test ont démontré des capacités de raisonnement exceptionnelles pour des tâches scientifiques et professionnelles en générant de longues chaînes de pensée (CoT). En tant que composant crucial pour le développement de ces modèles de raisonnement, l'apprentissage par renforcement (RL), illustré par l'Optimisation de Politique Proximale (PPO) et ses variantes, permet aux modèles d'apprendre par essais et erreurs. Cependant, PPO peut être chronophage en raison de sa nature intrinsèquement on-policy, ce qui est encore exacerbé par l'augmentation de la longueur des réponses. Dans ce travail, nous proposons l'Optimisation de Politique Proximale Tronquée (T-PPO), une extension novatrice de PPO qui améliore l'efficacité de l'entraînement en rationalisant la mise à jour de la politique et la génération de réponses de longueur limitée. T-PPO atténue le problème de la faible utilisation du matériel, un inconvénient inhérent aux procédures de génération longue entièrement synchronisées, où les ressources restent souvent inactives pendant les périodes d'attente des déploiements complets. Nos contributions sont doubles. Premièrement, nous proposons l'Estimation d'Avantage Généralisée Étendue (EGAE) pour l'estimation de l'avantage dérivée de réponses incomplètes tout en préservant l'intégrité de l'apprentissage de la politique. Deuxièmement, nous concevons un mécanisme optimisé sur le plan computationnel qui permet l'optimisation indépendante des modèles de politique et de valeur. En filtrant de manière sélective les tokens d'invite et tronqués, ce mécanisme réduit les calculs redondants et accélère le processus d'entraînement sans sacrifier les performances de convergence. Nous démontrons l'efficacité et l'efficience de T-PPO sur AIME 2024 avec un modèle de base de 32B. Les résultats expérimentaux montrent que T-PPO améliore l'efficacité de l'entraînement des LLMs de raisonnement jusqu'à 2,5 fois et surpasse ses concurrents existants.

ImmerseGen : Génération immersive guidée par des agents avec des proxys à textures alpha
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17

ByJinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

La création automatique de scènes 3D pour une présence immersive en réalité virtuelle (VR) constitue un axe de recherche majeur depuis plusieurs décennies. Cependant, les méthodes existantes reposent souvent soit sur une modélisation de maillages à haute densité de polygones suivie d'une simplification a posteriori, soit sur l'utilisation massive de Gaussiennes 3D, ce qui entraîne un pipeline complexe ou un réalisme visuel limité. Dans cet article, nous démontrons qu'une modélisation aussi exhaustive n'est pas nécessaire pour parvenir à une expérience immersive convaincante. Nous présentons ImmerseGen, un nouveau cadre guidé par des agents pour la modélisation compacte et photoréaliste de mondes virtuels. ImmerseGen représente les scènes comme des compositions hiérarchiques de proxies géométriques légers, tels que des terrains simplifiés et des maillages de type billboard, et génère un aspect photoréaliste en synthétisant des textures RGBA sur ces proxies. Plus précisément, nous proposons un texturage conditionné par le terrain pour la synthèse d'un monde de base centré sur l'utilisateur, ainsi qu'un texturage d'actifs RGBA pour les éléments de premier plan et d'arrière-plan. Cette reformulation offre plusieurs avantages : (i) elle simplifie la modélisation en permettant aux agents de guider les modèles génératifs pour produire des textures cohérentes qui s'intègrent harmonieusement à la scène ; (ii) elle évite la création et la réduction complexes de géométries en synthétisant directement des textures photoréalistes sur les proxies, préservant ainsi la qualité visuelle sans dégradation ; (iii) elle permet des représentations compactes adaptées au rendu en temps réel sur des casques VR mobiles. Pour automatiser la création de scènes à partir de prompts textuels, nous introduisons des agents de modélisation basés sur des modèles de langage visuel (VLM), renforcés par une analyse sémantique basée sur une grille pour améliorer le raisonnement spatial et le placement précis des actifs. ImmerseGen enrichit en outre les scènes avec des effets dynamiques et des ambiances sonores pour soutenir une immersion multisensorielle. Les expériences sur la génération de scènes et les démonstrations en VR en direct montrent qu'ImmerseGen atteint un photoréalisme, une cohérence spatiale et une efficacité de rendu supérieurs par rapport aux méthodes précédentes. Page web du projet : https://immersegen.github.io.

CoMemo : Les LVLM nécessitent un contexte d'image avec une mémoire visuelle
CoMemo: LVLMs Need Image Context with Image Memory

Jun 6

ByShi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai

Les récentes avancées dans les modèles de vision et de langage de grande envergure (Large Vision-Language Models, LVLMs) basés sur des modèles de langage de grande envergure (Large Language Models, LLMs) ont établi l'alignement des caractéristiques visuelles avec les représentations des LLMs comme paradigme dominant. Cependant, les conceptions architecturales héritées des LLMs introduisent des caractéristiques sous-optimales pour le traitement multimodal. Premièrement, les LVLMs présentent une distribution bimodale dans l'allocation de l'attention, conduisant à une négligence progressive du contenu visuel intermédiaire à mesure que le contexte s'étend. Deuxièmement, les schémas conventionnels d'encodage positionnel ne parviennent pas à préserver les relations structurelles 2D essentielles lors du traitement d'images dynamiques à haute résolution. Pour répondre à ces limitations, nous proposons CoMemo - une architecture à double voie qui combine une voie d'image contextuelle avec une voie de mémoire d'image pour le traitement visuel, atténuant efficacement la négligence de l'information visuelle. De plus, nous introduisons RoPE-DHR, un nouveau mécanisme d'encodage positionnel qui utilise une agrégation positionnelle basée sur des miniatures pour maintenir la conscience spatiale 2D tout en atténuant la dégradation à distance dans les séquences étendues. Les évaluations sur sept benchmarks, incluant la compréhension de contexte long, le raisonnement sur plusieurs images et la réponse à des questions visuelles, démontrent la performance supérieure de CoMemo par rapport aux architectures LVLM conventionnelles. La page du projet est disponible à l'adresse https://lalbj.github.io/projects/CoMemo/.

PictSure : L'importance du pré-entraînement des embeddings pour les classificateurs d'images par apprentissage en contexte
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Jun 16

ByLukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop

La construction de modèles de classification d'images reste laborieuse dans les domaines où les données sont rares, où la collecte de grands ensembles de données étiquetées est impraticable. L'apprentissage en contexte (ICL) est apparu comme un paradigme prometteur pour la classification d'images en few-shot (FSIC), permettant aux modèles de généraliser à travers différents domaines sans adaptation basée sur le gradient. Cependant, les travaux antérieurs ont largement négligé un composant critique des pipelines de FSIC basés sur l'ICL : le rôle des embeddings d'images. Dans ce travail, nous présentons PictSure, un cadre ICL qui place le modèle d'embedding — son architecture, son prétraitement et sa dynamique d'apprentissage — au centre de l'analyse. Nous examinons systématiquement les effets de différents types d'encodeurs visuels, d'objectifs de prétraitement et de stratégies de fine-tuning sur la performance en aval de la FSIC. Nos expériences montrent que le succès de l'entraînement et la performance hors domaine dépendent fortement de la manière dont les modèles d'embedding sont prétraités. Par conséquent, PictSure parvient à surpasser les modèles de FSIC basés sur l'ICL existants sur des benchmarks hors domaine qui diffèrent significativement de la distribution d'entraînement, tout en maintenant des résultats comparables sur les tâches en domaine. Le code est disponible à l'adresse suivante : https://github.com/PictSure/pictsure-library.

FedNano : Vers un réglage léger fédéré pour les modèles de langage multimodaux pré-entraînés de grande taille
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Jun 12

ByYao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp

Les modèles de langage multimodaux de grande échelle (MLLMs) excellent dans des tâches telles que le raisonnement multimodal et la recherche intermodale, mais rencontrent des défis de déploiement dans des scénarios réels en raison de la distribution des données multimodales et des exigences strictes en matière de confidentialité. L'apprentissage fédéré (FL) offre une solution en permettant une formation collaborative des modèles sans centralisation des données. Cependant, la mise en œuvre du FL pour les MLLMs présente des défis importants, notamment des exigences computationnelles élevées, une capacité client limitée, des coûts de communication substantiels et des données client hétérogènes. Les méthodes FL existantes supposent un déploiement côté client des modèles complets, une hypothèse qui ne tient pas pour les MLLMs de grande échelle en raison de leur taille massive et de leurs exigences de communication. Pour surmonter ces limitations, nous proposons FedNano, le premier cadre FL qui centralise le modèle de langage sur le serveur tout en introduisant NanoEdge, un module léger pour l'adaptation spécifique au client. NanoEdge utilise des encodeurs spécifiques à la modalité, des connecteurs et des NanoAdapteurs entraînables avec une adaptation de faible rang. Cette conception élimine la nécessité de déployer le modèle de langage sur les clients, réduisant le stockage côté client de 95 % et limitant la surcharge de communication à seulement 0,01 % des paramètres du modèle. En transmettant uniquement des mises à jour compactes des NanoAdapteurs, FedNano gère les données client hétérogènes et les contraintes de ressources tout en préservant la confidentialité. Les expériences démontrent que FedNano surpasse les bases de référence FL précédentes, comblant l'écart entre l'échelle des MLLMs et la faisabilité du FL, et permettant des systèmes d'IA multimodaux décentralisés et évolutifs.

MoTE : Mélange d'Experts Ternaires pour des Modèles Multimodaux de Grande Taille à Faible Consommation Mémoire
MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Jun 17

ByHongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen

Les grands modèles multimodaux de type Mixture-of-Experts (MoEs) permettent d'augmenter efficacement la taille du modèle pour améliorer les performances tout en maintenant un nombre fixe de paramètres actifs. Cependant, les travaux précédents utilisaient principalement des experts en précision complète lors du recyclage parcimonieux. Bien qu'ils démontrent des performances supérieures sur les tâches finales, le grand nombre d'experts entraîne une empreinte mémoire plus élevée, ce qui pose des défis importants pour le déploiement sur les appareils embarqués. Dans ce travail, nous proposons MoTE, une approche évolutive et économe en mémoire pour entraîner des modèles de Mixture-of-Ternary-Experts à partir d'un point de contrôle dense. Au lieu d'entraîner moins d'experts en haute précision, nous proposons d'entraîner davantage d'experts en basse précision lors du recyclage. Plus précisément, nous utilisons le FFN pré-entraîné comme expert partagé et entraînons des experts routés ternaires avec des paramètres dans {-1, 0, 1}. Des expériences approfondies montrent que notre approche présente une tendance prometteuse à l'échelle avec la taille du modèle. MoTE atteint des performances comparables à la base de référence en précision complète MoE-LLaVA tout en offrant une empreinte mémoire plus faible. De plus, notre approche est compatible avec les méthodes de quantification post-entraînement, et l'avantage s'amplifie davantage lorsque la contrainte mémoire diminue. Avec une empreinte mémoire d'expert fixée à 3,4 Go et combinée à la quantification post-entraînement, MoTE surpasse MoE-LLaVA avec un gain de 4,3 % en précision moyenne sur les tâches finales, démontrant ainsi son efficacité et son potentiel pour les appareils à mémoire limitée.

GMT : Suivi Général du Mouvement pour le Controle Intégral du Corps des Humanoïdes
GMT: General Motion Tracking for Humanoid Whole-Body Control

Jun 17

ByZixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang

La capacité à suivre les mouvements généraux du corps entier dans le monde réel est une approche utile pour développer des robots humanoïdes polyvalents. Cependant, atteindre cet objectif peut s’avérer difficile en raison de la diversité temporelle et cinématique des mouvements, des limites des politiques de contrôle et de la complexité de la coordination entre les parties supérieure et inférieure du corps. Pour résoudre ces problèmes, nous proposons GMT, un cadre général et évolutif de suivi des mouvements, qui entraîne une politique unifiée permettant aux robots humanoïdes de suivre une variété de mouvements dans le monde réel. GMT repose sur deux composants clés : une stratégie d’échantillonnage adaptatif et une architecture de mélange d’experts pour les mouvements (MoE). L’échantillonnage adaptatif équilibre automatiquement les mouvements faciles et difficiles pendant l’entraînement. Le MoE assure une meilleure spécialisation des différentes régions de la variété des mouvements. Nous démontrons, à travers des expériences approfondies en simulation et dans le monde réel, l’efficacité de GMT, qui atteint des performances de pointe sur un large spectre de mouvements en utilisant une politique générale unifiée. Des vidéos et des informations supplémentaires sont disponibles à l’adresse https://gmt-humanoid.github.io.

Mise en cache évolutive pour accélérer votre modèle de diffusion prêt à l'emploi
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Jun 18

ByAnirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam

Les modèles de génération d'images basés sur la diffusion excellent dans la production de contenu synthétique de haute qualité, mais souffrent d'une inférence lente et coûteuse en termes de calcul. Les travaux antérieurs ont tenté de remédier à cela en mettant en cache et en réutilisant des caractéristiques au sein de transformeurs de diffusion à travers les étapes d'inférence. Ces méthodes, cependant, reposent souvent sur des heuristiques rigides qui entraînent une accélération limitée ou une mauvaise généralisation à travers les architectures. Nous proposons Evolutionary Caching to Accelerate Diffusion models (ECAD), un algorithme génétique qui apprend des plans de cache efficaces, spécifiques à chaque modèle, formant une frontière de Pareto, en utilisant seulement un petit ensemble de prompts de calibration. ECAD ne nécessite aucune modification des paramètres du réseau ou des images de référence. Il offre des accélérations significatives de l'inférence, permet un contrôle fin du compromis qualité-latence, et s'adapte de manière transparente à différents modèles de diffusion. Notamment, les plans appris par ECAD peuvent se généraliser efficacement à des résolutions et des variantes de modèles non vues lors de la calibration. Nous évaluons ECAD sur PixArt-alpha, PixArt-Sigma et FLUX-1.dev en utilisant plusieurs métriques (FID, CLIP, Image Reward) à travers divers benchmarks (COCO, MJHQ-30k, PartiPrompts), démontrant des améliorations constantes par rapport aux approches précédentes. Sur PixArt-alpha, ECAD identifie un plan qui surpasse la méthode précédente de pointe de 4,47 COCO FID tout en augmentant l'accélération de l'inférence de 2,35x à 2,58x. Nos résultats établissent ECAD comme une approche scalable et généralisable pour accélérer l'inférence de diffusion. Notre site web de projet est disponible à l'adresse https://aniaggarwal.github.io/ecad et notre code est disponible à l'adresse https://github.com/aniaggarwal/ecad.

OS-Harm : Un benchmark pour évaluer la sécurité des agents d'utilisation informatique
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

Jun 17

ByThomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko

Les agents d'utilisation informatique sont des agents basés sur des modèles de langage (LLM) capables d'interagir directement avec une interface utilisateur graphique, en traitant des captures d'écran ou des arbres d'accessibilité. Bien que ces systèmes gagnent en popularité, leur sécurité a été largement négligée, malgré le fait qu'évaluer et comprendre leur potentiel de comportements nuisibles soit essentiel pour une adoption généralisée. Pour combler cette lacune, nous présentons OS-Harm, un nouveau benchmark pour mesurer la sécurité des agents d'utilisation informatique. OS-Harm est construit sur l'environnement OSWorld et vise à tester les modèles dans trois catégories de risques : l'utilisation abusive délibérée par l'utilisateur, les attaques par injection de prompts et les comportements inappropriés des modèles. Pour couvrir ces cas, nous créons 150 tâches qui englobent plusieurs types de violations de sécurité (harcèlement, violation de droits d'auteur, désinformation, exfiltration de données, etc.) et nécessitent que l'agent interagisse avec diverses applications du système d'exploitation (client de messagerie, éditeur de code, navigateur, etc.). De plus, nous proposons un juge automatisé pour évaluer à la fois la précision et la sécurité des agents, atteignant un accord élevé avec les annotations humaines (scores F1 de 0,76 et 0,79). Nous évaluons les agents d'utilisation informatique basés sur une gamme de modèles de pointe - tels que o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - et fournissons des insights sur leur sécurité. En particulier, tous les modèles ont tendance à se conformer directement à de nombreuses requêtes d'utilisation abusive délibérée, sont relativement vulnérables aux injections de prompts statiques et effectuent occasionnellement des actions non sécurisées. Le benchmark OS-Harm est disponible à l'adresse https://github.com/tml-epfl/os-harm.

AssertBench : Un Benchmark pour l'Évaluation de l'Auto-Assertion dans les Grands Modèles de Langage
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

Jun 8

ByJaeho Lee, Atharv Chowdhary

Les benchmarks récents ont exploré la cohérence factuelle et la robustesse rhétorique des modèles de langage de grande taille (LLMs). Cependant, une lacune de connaissances persiste concernant la manière dont le cadrage directionnel d'énoncés factuellement vrais influence l'accord du modèle, un scénario courant pour les utilisateurs de LLMs. AssertBench aborde cette question en échantillonnant des faits étayés par des preuves provenant de FEVEROUS, un ensemble de données de vérification des faits. Pour chaque fait (soutenu par des preuves), nous construisons deux invites de cadrage : une où l'utilisateur affirme que l'énoncé est factuellement correct, et une autre où l'utilisateur prétend qu'il est incorrect. Nous enregistrons ensuite l'accord et le raisonnement du modèle. Le résultat souhaité est que le modèle affirme sa position, maintenant une évaluation cohérente de la vérité à travers les deux cadrages, plutôt que de changer son évaluation pour s'aligner sur l'utilisateur. AssertBench isole la variabilité induite par le cadrage de la connaissance factuelle sous-jacente du modèle en stratifiant les résultats en fonction de la précision du modèle sur les mêmes affirmations lorsqu'elles sont présentées de manière neutre. Ce faisant, ce benchmark vise à mesurer la capacité d'un LLM à « tenir bon » face à des assertions contradictoires de l'utilisateur concernant le même fait. Le code source complet est disponible à l'adresse https://github.com/achowd32/assert-bench.

ImmerseGen : Génération immersive guidée par des agents avec des proxys à textures alpha
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17

ByJinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma