HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

21 papers found

Mise à l'échelle des agents par pré-entraînement continu
Scaling Agents via Continual Pre-training

Sep 16

ByLiangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

112

Les grands modèles de langage (LLMs) ont évolué en systèmes agentiques capables d'utiliser des outils de manière autonome et de raisonner en plusieurs étapes pour résoudre des problèmes complexes. Cependant, les approches post-entraînement basées sur des modèles de fondation à usage général sous-performent systématiquement dans les tâches agentiques, en particulier dans les implémentations open-source. Nous identifions la cause racine : l'absence de modèles de fondation agentiques robustes oblige les modèles, lors du post-entraînement, à apprendre simultanément des comportements agentiques divers tout en les alignant sur des démonstrations expertes, créant ainsi des tensions d'optimisation fondamentales. À cette fin, nous sommes les premiers à proposer d'intégrer un pré-entraînement continu agentique (Agentic CPT) dans le pipeline d'entraînement des agents de recherche approfondie pour construire des modèles de fondation agentiques puissants. Sur la base de cette approche, nous développons un modèle d'agent de recherche approfondie nommé AgentFounder. Nous évaluons notre AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant une forte capacité d'utilisation d'outils, notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % Pass@1 sur HLE.

WebWeaver : Structuration des preuves à l'échelle du web avec des plans dynamiques pour la recherche approfondie et ouverte
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

Sep 16

ByZijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou

104

Cet article aborde le défi complexe de la recherche approfondie ouverte (OEDR), où des agents d'IA doivent synthétiser des informations massives à l'échelle du web en rapports approfondis. Les approches actuelles souffrent de limitations doubles : des pipelines de recherche statiques qui dissocient la planification de l'acquisition de preuves, et des paradigmes de génération en une seule étape qui sont facilement sujets à des échecs de contexte long, tels que la "perte au milieu" et les hallucinations. Pour relever ces défis, nous introduisons WebWeaver, un nouveau cadre à double agent qui imite le processus de recherche humain. Le planificateur opère dans un cycle dynamique, entrelaçant de manière itérative l'acquisition de preuves avec l'optimisation du plan pour produire un plan complet et ancré dans les sources, lié à une banque de mémoire de preuves. Le rédacteur exécute ensuite un processus hiérarchique de récupération et de rédaction, composant le rapport section par section. En effectuant une récupération ciblée des seules preuves nécessaires de la banque de mémoire pour chaque partie, il atténue efficacement les problèmes de contexte long. Notre cadre établit un nouvel état de l'art sur les principaux benchmarks OEDR, notamment DeepResearch Bench, DeepConsult et DeepResearchGym. Ces résultats valident notre méthodologie itérative centrée sur l'humain, démontrant qu'une planification adaptative et une synthèse ciblée sont cruciales pour produire des rapports de haute qualité, fiables et bien structurés.

WebSailor-V2 : Combler le fossé avec les agents propriétaires grâce aux données synthétiques et à l'apprentissage par renforcement scalable
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

Sep 16

ByKuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Dépasser les limitations cognitives humaines représente une frontière cruciale dans l'entraînement des LLM. Les systèmes agentiques propriétaires comme DeepResearch ont démontré des capacités surhumaines sur des benchmarks complexes de recherche d'information tels que BrowseComp, un exploit jusque-là inatteignable. Nous postulons que leur succès repose sur un schéma de raisonnement sophistiqué absent des modèles open-source : la capacité à réduire systématiquement l'incertitude extrême lors de la navigation dans des paysages informationnels vastes. Sur la base de cette intuition, nous introduisons WebSailor, une méthodologie complète de post-entraînement conçue pour instiller cette capacité cruciale. Notre approche implique la génération de tâches nouvelles à forte incertitude via un échantillonnage structuré et une occultation d'information, un démarrage à froid par RFT, et un algorithme efficace d'entraînement RL agentique, l'Optimisation de Politique d'Échantillonnage Dupliqué (DUPO). Avec ce pipeline intégré, WebSailor surpasse significativement tous les agents open-source dans les tâches complexes de recherche d'information, égalant la performance des agents propriétaires et réduisant l'écart de capacités.

ReSum : Libérer l'intelligence de recherche à long terme grâce à la synthèse contextuelle
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

Sep 16

ByXixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou

Les agents web basés sur des modèles de langage de grande taille (LLM) démontrent des performances solides sur les tâches nécessitant une connaissance approfondie, mais sont limités par les contraintes de la fenêtre contextuelle dans des paradigmes comme ReAct. Les requêtes complexes impliquant plusieurs entités, des relations imbriquées et un haut degré d'incertitude exigent des cycles de recherche étendus qui épuisent rapidement le budget contextuel avant d'atteindre des solutions complètes. Pour surmonter ce défi, nous introduisons ReSum, un nouveau paradigme qui permet une exploration indéfinie grâce à une synthèse contextuelle périodique. ReSum transforme les historiques d'interaction croissants en états de raisonnement compacts, maintenant une conscience des découvertes antérieures tout en contournant les limites contextuelles. Pour l'adaptation du paradigme, nous proposons ReSum-GRPO, intégrant GRPO avec un entraînement segmenté des trajectoires et une diffusion des avantages pour familiariser les agents avec un raisonnement conditionné par les synthèses. Des expériences approfondies sur des agents web de différentes échelles à travers trois benchmarks montrent que ReSum offre une amélioration absolue moyenne de 4,5 % par rapport à ReAct, avec des gains supplémentaires allant jusqu'à 8,2 % après l'entraînement ReSum-GRPO. Notamment, avec seulement 1 000 échantillons d'entraînement, notre WebResummer-30B (une version entraînée avec ReSum-GRPO de WebSailor-30B) atteint 33,3 % de Pass@1 sur BrowseComp-zh et 18,3 % sur BrowseComp-en, surpassant les agents web open-source existants.

Vers une intelligence agentique générale par la mise à l'échelle de l'environnement
Towards General Agentic Intelligence via Environment Scaling

Sep 16

ByRunnan Fang, Shihao Cai, Baixuan Li, Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang, Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Une intelligence agentique avancée est une condition préalable au déploiement des modèles de langage de grande envergure dans des applications pratiques et réelles. Les API variées du monde réel exigent une intelligence robuste et précise dans l'appel de fonctions, ce qui nécessite que les agents développent ces capacités par l'interaction dans des environnements diversifiés. L'étendue des compétences en appel de fonctions est étroitement liée à la diversité des environnements dans lesquels les agents sont entraînés. Dans ce travail, nous augmentons la taille des environnements comme une étape vers l'avancement de l'intelligence agentique générale. Cela soulève deux défis majeurs : (i) comment augmenter les environnements de manière méthodique, et (ii) comment entraîner efficacement les capacités agentiques à partir des expériences dérivées des interactions avec ces environnements. Pour y répondre, nous concevons un cadre évolutif qui construit automatiquement des environnements hétérogènes entièrement simulés, élargissant systématiquement l'espace des scénarios d'appel de fonctions. Nous adaptons en outre une stratégie de fine-tuning en deux phases pour les agents : d'abord en leur dotant de capacités agentiques fondamentales, puis en les spécialisant pour des contextes spécifiques à un domaine. Des expériences approfondies sur les benchmarks agentiques, tau-bench, tau2-Bench et ACEBench, démontrent que notre modèle entraîné, AgentScaler, améliore significativement la capacité d'appel de fonctions des modèles.

WebResearcher : Libérer les capacités de raisonnement illimitées dans les agents à horizon long
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

Sep 16

ByZile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Les récents progrès dans les systèmes de recherche approfondie ont démontré le potentiel des agents d'IA à découvrir et synthétiser de manière autonome des connaissances à partir de sources externes. Dans cet article, nous présentons WebResearcher, un nouveau cadre pour construire de tels agents à travers deux composants clés : (1) WebResearcher, un paradigme de recherche approfondie itérative qui reformule la recherche approfondie comme un processus de décision markovien, où les agents consolident périodiquement leurs découvertes dans des rapports évolutifs tout en maintenant des espaces de travail focalisés, surmontant ainsi l'étouffement contextuel et la contamination par le bruit qui affectent les approches mono-contextuelles existantes ; et (2) WebFrontier, un moteur de synthèse de données scalable qui génère des données d'entraînement de haute qualité grâce à une escalade de complexité assistée par des outils, permettant la création systématique de tâches de recherche qui comblent le fossé entre le rappel passif de connaissances et la construction active de connaissances. Notamment, nous constatons que les données d'entraînement issues de notre paradigme améliorent significativement les capacités d'utilisation d'outils, même pour les méthodes mono-contextuelles traditionnelles. De plus, notre paradigme s'adapte naturellement grâce à la pensée parallèle, permettant une exploration multi-agent concurrente pour des conclusions plus exhaustives. Des expériences approfondies sur 6 benchmarks complexes démontrent que WebResearcher atteint des performances de pointe, surpassant même les systèmes propriétaires les plus avancés.

Hunyuan3D Studio : Pipeline IA de bout en bout pour la génération d'assets 3D prêts pour le jeu
Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

Sep 16

ByBiwen Lei, Yang Li, Xinhai Liu, Shuhui Yang, Lixin Xu, Jingwei Huang, Ruining Tang, Haohan Weng, Jian Liu, Jing Xu, Zhen Zhou, Yiling Zhu, Jiankai Xing, Jiachen Xu, Changfeng Ma, Xinhao Yan, Yunhan Yang, Chunshi Wang, Duoteng Xu, Xueqi Ma, Yuguang Chen, Jing Li, Mingxin Yang, Sheng Zhang, Yifei Feng, Xin Huang, Di Luo, Zebin He, Puhua Jiang, Changrong Hu, Zihan Qin, Shiwei Miao, Haolin Liu, Yunfei Zhao, Zeqiang Lai, Qingxiang Lin, Zibo Zhao, Kunhong Li, Xianghui Yang, Huiwen Shi, Xin Yang, Yuxuan Wang, Zebin Yao, Yihang Lian, Sicong Liu, Xintong Han, Wangchen Qin, Caisheng Ouyang, Jianyin Liu, Tianwen Yuan, Shuai Jiang, Hong Duan, Yanqi Niu, Wencong Lin, Yifu Sun, Shirui Huang, Lin Niu, Gu Gong, Guojian Xiao, Bojian Zheng, Xiang Yuan, Qi Chen, Jie Xiao, Dongyang Zheng, Xiaofeng Yang, Kai Liu, Jianchen Zhu, Lifu Wang, Qinglin Lu, Jie Liu, Liang Dong, Fan Jiang, Ruibin Chen, Lei Wang, Chao Zhang, Jiaxin Lin, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Yinhe Wu, Jiayao Du, Jupeng Chen, Xinyue Mao, Dongyuan Guo, Yixuan Tang, Yulin Tsai, Yonghao Tan, Jiaao Yu, Junlin Yu, Keren Zhang, Yifan Li, Peng Chen, Tian Liu, Di Wang, Yuhong Liu, Linus, Jie Jiang, Zhuo Chen, Chunchao Guo

La création d'actifs 3D de haute qualité, un pilier fondamental du développement de jeux modernes, a longtemps été marquée par des flux de travail laborieux et spécialisés. Cet article présente Hunyuan3D Studio, une plateforme de création de contenu alimentée par l'IA et conçue pour révolutionner le pipeline de production de jeux en automatisant et en rationalisant la génération d'actifs 3D prêts à l'emploi. Au cœur de Hunyuan3D Studio se trouve l'intégration d'une suite de modules neuronaux avancés (tels que la génération 3D au niveau des parties, la génération de polygones, l'UV sémantique, etc.) dans un système cohérent et convivial. Ce cadre unifié permet la transformation rapide d'une simple image conceptuelle ou d'une description textuelle en un modèle 3D entièrement réalisé, de qualité production, doté d'une géométrie optimisée et de textures PBR haute fidélité. Nous démontrons que les actifs générés par Hunyuan3D Studio sont non seulement visuellement captivants, mais respectent également les exigences techniques rigoureuses des moteurs de jeux contemporains, réduisant ainsi considérablement le temps d'itération et abaissant le seuil d'entrée pour la création de contenu 3D. En offrant un pont transparent entre l'intention créative et l'actif technique, Hunyuan3D Studio représente un bond en avant significatif pour les flux de travail assistés par l'IA dans le développement de jeux et les médias interactifs.

Optimisation de Politique à Flux Unique
Single-stream Policy Optimization

Sep 16

ByZhongwen Xu, Zihan Ding

Nous revisitons l'optimisation par gradient de politique pour les modèles de langage de grande taille (LLMs) sous l'angle d'un flux unique. Les méthodes groupées prédominantes comme GRPO réduisent la variance grâce à des bases de référence calculées à la volée, mais souffrent de défauts critiques : des groupes dégénérés fréquents effacent les signaux d'apprentissage, et les barrières de synchronisation entravent l'évolutivité. Nous introduisons l'Optimisation de Politique à Flux Unique (SPO), qui élimine ces problèmes par conception. SPO remplace les bases de référence par groupe par un suivi de valeur persistant et adaptatif à la divergence KL, et normalise les avantages globalement sur l'ensemble du lot, fournissant un signal d'apprentissage stable et à faible variance pour chaque échantillon. Étant sans groupe, SPO permet un débit plus élevé et s'adapte efficacement dans des contextes à long horizon ou intégrant des outils où les temps de génération varient. De plus, le suivi de valeur persistant permet naturellement un curriculum adaptatif via un échantillonnage prioritaire. Les expériences utilisant Qwen3-8B montrent que SPO converge plus régulièrement et atteint une précision supérieure à GRPO, tout en éliminant les calculs gaspillés sur les groupes dégénérés. Les études d'ablation confirment que les gains de SPO découlent de son approche rigoureuse de l'estimation de la base de référence et de la normalisation des avantages, offrant une voie plus robuste et efficace pour le raisonnement des LLMs. Sur cinq benchmarks mathématiques difficiles avec Qwen3 8B, SPO améliore la moyenne maj@32 de +3,4 points de pourcentage (pp) par rapport à GRPO, grâce à des gains absolus substantiels sur des ensembles de données complexes, notamment +7,3 pp sur BRUMO 25, +4,4 pp sur AIME 25, +3,3 pp sur HMMT 25, et réalise des gains relatifs constants en pass@k sur les valeurs de k évaluées. Le succès de SPO remet en question la tendance actuelle d'ajouter une complexité incidente aux algorithmes d'apprentissage par renforcement, mettant en lumière une voie où les principes fondamentaux, et non les contournements architecturaux, propulsent la prochaine vague de progrès dans le raisonnement des LLMs.

Modèle de vision et langage avec incitation régionale 3D consciente
3D Aware Region Prompted Vision Language Model

Sep 16

ByAn-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu

Nous présentons Spatial Region 3D (SR-3D), un modèle vision-langage conscient de l'espace 3D qui relie des images 2D monoculaires et des données 3D multivues à travers un espace de tokens visuels partagé. SR-3D prend en charge l'annotation flexible de régions, permettant aux utilisateurs d'annoter des zones avec des boîtes englobantes, des masques de segmentation sur n'importe quelle image, ou directement en 3D, sans nécessiter un étiquetage exhaustif sur plusieurs images. Nous y parvenons en enrichissant les caractéristiques visuelles 2D avec des embeddings de position 3D, ce qui permet au modèle 3D de s'appuyer sur de solides a priori 2D pour un raisonnement spatial plus précis entre les images, même lorsque les objets d'intérêt ne coïncident pas dans la même vue. Des expériences approfondies sur des benchmarks généraux de vision-langage 2D et spécialisés en raisonnement spatial 3D démontrent que SR-3D atteint des performances de pointe, soulignant son efficacité pour unifier les espaces de représentation 2D et 3D dans la compréhension de scènes. De plus, nous observons une applicabilité aux vidéos en conditions réelles sans entrées sensorielles 3D ni annotations 3D de référence, où SR-3D infère avec précision les relations spatiales et les mesures métriques.

EconProver : Vers une mise à l'échelle plus économique au moment des tests pour la démonstration automatique de théorèmes
EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

Sep 16

ByMukai Li, Linfeng Song, Zhenwen Liang, Jiahao Xu, Shansan Gong, Qi Liu, Haitao Mi, Dong Yu

Les modèles de langage de grande taille (LLMs) ont récemment fait progresser le domaine de la démonstration automatique de théorèmes (ATP), obtenant des gains de performance substantiels grâce à des stratégies de mise à l'échelle largement adoptées lors des tests, notamment le raisonnement réflexif en chaîne de pensée (Chain-of-Thought, CoT) et l'augmentation des passes d'échantillonnage. Cependant, ces deux approches introduisent une surcharge computationnelle significative pour l'inférence. De plus, les analyses de coût existantes régulent généralement uniquement le nombre de passes d'échantillonnage, tout en négligeant les disparités substantielles dans les coûts d'échantillonnage introduites par différentes stratégies de mise à l'échelle. Dans cet article, nous comparons systématiquement l'efficacité des différentes stratégies de mise à l'échelle pour les modèles ATP et démontrons l'inefficacité des approches open-source actuelles de pointe (SOTA). Nous explorons ensuite des approches pour réduire significativement l'utilisation de tokens et le nombre de passes d'échantillonnage tout en maintenant la performance originale. Plus précisément, nous proposons deux méthodes complémentaires qui peuvent être intégrées dans un pipeline EconRL unifié pour des bénéfices amplifiés : (1) un mécanisme de commutation dynamique de la chaîne de pensée (CoT) conçu pour atténuer la consommation inutile de tokens, et (2) un apprentissage par renforcement (RL) parallèle et diversifié avec des préfixes entraînables pour améliorer les taux de réussite sous un nombre contraint de passes d'échantillonnage. Les expériences sur miniF2F et ProofNet démontrent que notre EconProver atteint des performances comparables aux méthodes de référence avec seulement 12 % du coût computationnel. Ce travail fournit des insights exploitables pour déployer des modèles ATP légers sans sacrifier la performance.

RAPTOR : Une politique fondamentale pour le contrôle des quadrirotors
RAPTOR: A Foundation Policy for Quadrotor Control

Sep 15

ByJonas Eschmann, Dario Albani, Giuseppe Loianno

Les humains sont remarquablement efficaces en termes de données lorsqu'ils s'adaptent à de nouvelles conditions inédites, comme conduire une nouvelle voiture. En revanche, les systèmes de contrôle robotiques modernes, tels que les politiques de réseaux de neurones entraînées par apprentissage par renforcement (Reinforcement Learning, RL), sont hautement spécialisés pour des environnements uniques. En raison de ce surajustement, ils sont connus pour échouer même face à de petites différences, comme l'écart entre la simulation et la réalité (Simulation-to-Reality, Sim2Real), et nécessitent une identification du système et un réentraînement pour des modifications même minimes du système. Dans ce travail, nous présentons RAPTOR, une méthode pour entraîner une politique de base hautement adaptable pour le contrôle de quadrirotors. Notre méthode permet d'entraîner une politique unique de réseau de neurones de bout en bout pour contrôler une grande variété de quadrirotors. Nous testons 10 quadrirotors réels différents, allant de 32 g à 2,4 kg, qui diffèrent également par le type de moteur (à balais vs. sans balais), le type de cadre (souple vs. rigide), le type d'hélice (2/3/4 pales) et le contrôleur de vol (PX4/Betaflight/Crazyflie/M5StampFly). Nous constatons qu'une politique minuscule à trois couches avec seulement 2084 paramètres est suffisante pour une adaptation à zéro coup (zero-shot) à une grande variété de plateformes. L'adaptation par apprentissage en contexte (In-Context Learning) est rendue possible grâce à une récurrence dans la couche cachée. La politique est entraînée via un nouvel algorithme d'apprentissage par méta-imitation (Meta-Imitation Learning), où nous échantillonnons 1000 quadrirotors et entraînons une politique enseignante pour chacun d'eux en utilisant l'apprentissage par renforcement. Par la suite, les 1000 enseignants sont distillés en une seule politique étudiante adaptable. Nous constatons qu'en quelques millisecondes, la politique de base résultante s'adapte à zéro coup à des quadrirotors inédits. Nous testons largement les capacités de la politique de base dans de nombreuses conditions (suivi de trajectoire, intérieur/extérieur, perturbations dues au vent, poussées, hélices différentes).

Raisonnement multimodal pour la science : Rapport technique et solution primée du défi SeePhys de l'ICML 2025
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

Sep 7

ByHao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong

Le raisonnement multimodal demeure un défi fondamental en intelligence artificielle. Malgré des avancées significatives dans le raisonnement basé sur le texte, même les modèles de pointe tels que GPT-3 peinent à maintenir des performances solides dans des scénarios multimodaux. Pour combler cette lacune, nous introduisons un cadre de raisonnement assisté par des légendes qui relie efficacement les modalités visuelles et textuelles. Notre approche a obtenu la première place lors de l'atelier ICML 2025 AI for Math Workshop & Challenge 2 : SeePhys, soulignant son efficacité et sa robustesse. De plus, nous validons sa généralisation sur le benchmark MathVerse pour le raisonnement géométrique, démontrant ainsi la polyvalence de notre méthode. Notre code est disponible publiquement à l'adresse https://github.com/OpenDCAI/SciReasoner.

Stable Part Diffusion 4D : Génération de vidéos multi-vues RGB et de parties cinématiques
Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

Sep 12

ByHao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani

Nous présentons Stable Part Diffusion 4D (SP4D), un cadre pour générer des vidéos couplées en RGB et des vidéos de parties cinématiques à partir d'entrées monoculaires. Contrairement aux méthodes conventionnelles de segmentation de parties qui s'appuient sur des indices sémantiques basés sur l'apparence, SP4D apprend à produire des parties cinématiques - des composants structurels alignés avec l'articulation des objets et cohérents à travers les vues et le temps. SP4D adopte un modèle de diffusion à double branche qui synthétise conjointement des images RGB et les cartes de segmentation de parties correspondantes. Pour simplifier l'architecture et permettre de manière flexible différents nombres de parties, nous introduisons un schéma d'encodage spatial des couleurs qui mappe les masques de parties à des images continues de type RGB. Cet encodage permet à la branche de segmentation de partager le VAE latent de la branche RGB, tout en permettant de récupérer la segmentation de parties via un post-traitement simple. Un module de Fusion Bidirectionnelle par Diffusion (BiDiFuse) améliore la cohérence inter-branches, soutenu par une perte de contraste de cohérence des parties pour promouvoir l'alignement spatial et temporel des prédictions de parties. Nous démontrons que les cartes de parties 2D générées peuvent être élevées en 3D pour dériver des structures squelettiques et des poids de peau harmoniques avec peu d'ajustements manuels. Pour entraîner et évaluer SP4D, nous construisons KinematicParts20K, un ensemble de données soigneusement sélectionné de plus de 20 000 objets articulés choisis et traités à partir d'Objaverse XL (Deitke et al., 2023), chacun étant associé à des séquences vidéo RGB et de parties multi-vues. Les expériences montrent que SP4D généralise fortement à divers scénarios, y compris des vidéos du monde réel, des objets générés nouveaux et des poses articulées rares, produisant des sorties conscientes de la cinématique adaptées aux tâches d'animation et de mouvement en aval.

Phi : Détournement des préférences dans les modèles de langage multi-modaux de grande taille au moment de l'inférence
Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

Sep 15

ByYifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen

Récemment, les modèles de langage multimodaux de grande envergure (MLLMs) ont suscité une attention considérable dans divers domaines. Cependant, leur adoption généralisée a également soulevé de sérieuses préoccupations en matière de sécurité. Dans cet article, nous mettons en lumière un nouveau risque de sécurité lié aux MLLMs : la préférence de sortie des MLLMs peut être arbitrairement manipulée par des images soigneusement optimisées. De telles attaques génèrent souvent des réponses contextuellement pertinentes mais biaisées, qui ne sont ni explicitement nuisibles ni contraires à l'éthique, ce qui les rend difficiles à détecter. Plus précisément, nous introduisons une nouvelle méthode, appelée Preference Hijacking (Phi), pour manipuler les préférences de réponse des MLLMs à l'aide d'une image détournée. Notre méthode fonctionne au moment de l'inférence et ne nécessite aucune modification du modèle. De plus, nous présentons une perturbation universelle de détournement — un composant transférable qui peut être intégré dans différentes images pour détourner les réponses des MLLMs vers les préférences spécifiées par l'attaquant. Les résultats expérimentaux sur diverses tâches démontrent l'efficacité de notre approche. Le code de Phi est accessible à l'adresse suivante : https://github.com/Yifan-Lan/Phi.

zELO : Méthode d'entraînement inspirée de l'ELO pour les modèles de reranking et d'embedding
zELO: ELO-inspired Training Method for Rerankers and Embedding Models

Sep 16

ByNicholas Pipitone, Ghita Houir Alami, Advaith Avadhanam, Anton Kaminskyi, Ashley Khoo

Nous présentons une nouvelle méthodologie d'entraînement nommée zELO, qui optimise les performances de recherche via l'analyse que les tâches de classement sont statiquement équivalentes à un modèle de Thurstone. Basée sur la méthode zELO, nous utilisons des données non supervisées pour entraîner une série de modèles de reranking open-weight de pointe : zerank-1 et zerank-1-small. Ces modèles atteignent les scores de recherche les plus élevés dans de multiples domaines, notamment la finance, le droit, le code et les STEM, surpassant les rerankers propriétaires fermés à la fois sur NDCG@10 et Recall. Ces modèles démontrent également une grande polyvalence, maintenant leurs performances en 0-shot sur des ensembles de données hors domaine et des données clients privées. Les données d'entraînement comprenaient 112 000 requêtes et 100 documents par requête, et ont été entraînées de bout en bout à partir de requêtes et de documents non annotés en moins de 10 000 heures-H100.

Échantillonnage exact de cosets pour les algorithmes quantiques sur réseaux
Exact Coset Sampling for Quantum Lattice Algorithms

Sep 15

ByYifan Zhang

Nous proposons un remplacement simple, entièrement correct et nécessitant peu d'hypothèses pour l'étape controversée d'"extension de domaine" dans l'étape 9 d'un algorithme récent de réseau QFT fenêtré avec des fenêtres gaussiennes complexes~chen2024quantum. L'étape 9 publiée souffre d'une inadéquation entre la périodicité et le support. Nous présentons une construction de différence par décalage de paires qui annule de manière cohérente tous les décalages inconnus, produit un état exact de coset CRT uniforme sur Z_{P}, puis utilise la QFT pour imposer la relation linéaire modulaire prévue. L'unité est réversible, utilise un nombre polynomial de portes (poly(log M_2)), et préserve les asymptotiques de l'algorithme. Page du projet : https://github.com/yifanzhang-pro/quantum-lattice.

Optimisation de la Restauration Cérébrale pour la Quantification et la Sparsification Conjointes des LLMs
Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

Sep 14

ByHang Guo, Yawei Li, Luca Benini

Les récents progrès dans la compression des modèles de langage de grande taille (LLM), tels que la quantification et l'élagage, ont obtenu des succès notables. Cependant, à mesure que ces techniques approchent progressivement leurs limites respectives, le recours à une méthode unique pour une compression supplémentaire est devenu de plus en plus difficile. Dans ce travail, nous explorons une solution alternative en combinant quantification et parcimonie. Cette approche conjointe, bien que prometteuse, introduit de nouvelles difficultés en raison des exigences intrinsèquement conflictuelles sur les distributions de poids : la quantification favorise des plages compactes, tandis que l'élagage bénéficie d'une variance élevée. Pour résoudre ce problème, nous proposons la Restauration Optimale du Cerveau (OBR), un cadre général et sans entraînement qui aligne l'élagage et la quantification par compensation d'erreur entre les deux. OBR minimise la dégradation des performances sur les tâches en aval en s'appuyant sur un objectif de Hessien du second ordre, qui est ensuite reformulé en un problème traitable par approximation de substitution et atteint finalement une solution en forme fermée via la compensation d'erreur par groupe. Les expériences montrent qu'OBR permet une quantification agressive W4A4KV4 avec 50 % de parcimonie sur les LLM existants, et offre jusqu'à 4,72x d'accélération et 6,4x de réduction de mémoire par rapport à la base de référence FP16-dense.

ROOM : Un simulateur de robot continuum basé sur la physique pour la génération de jeux de données médicaux photoréalistes
ROOM: A Physics-Based Continuum Robot Simulator for Photorealistic Medical Datasets Generation

Sep 16

BySalvatore Esposito, Matías Mattamala, Daniel Rebain, Francis Xiatian Zhang, Kevin Dhaliwal, Mohsen Khadem, Subramanian Ramamoorthy

Les robots continus révolutionnent les procédures de bronchoscopie en permettant l'accès à des voies respiratoires pulmonaires complexes et en facilitant des interventions ciblées. Cependant, leur développement est limité par l'absence d'environnements réalistes pour l'entraînement et les tests : les données réelles sont difficiles à collecter en raison de contraintes éthiques et de préoccupations liées à la sécurité des patients, et le développement d'algorithmes d'autonomie nécessite des retours d'information réalistes en imagerie et en physique. Nous présentons ROOM (Realistic Optical Observation in Medicine), un cadre de simulation complet conçu pour générer des données d'entraînement photoréalistes pour la bronchoscopie. En exploitant les scanners CT de patients, notre pipeline produit des données multi-modales, incluant des images RGB avec un bruit réaliste et des reflets lumineux, des cartes de profondeur métriques, des normales de surface, des flux optiques et des nuages de points à des échelles pertinentes sur le plan médical. Nous validons les données générées par ROOM dans deux tâches canoniques pour la robotique médicale — l'estimation de pose multi-vues et l'estimation de profondeur monoculaire — mettant en évidence les défis variés que les méthodes de pointe doivent surmonter pour s'adapter à ces contextes médicaux. De plus, nous montrons que les données produites par ROOM peuvent être utilisées pour affiner des modèles existants d'estimation de profondeur afin de surmonter ces défis, tout en permettant d'autres applications en aval telles que la navigation. Nous anticipons que ROOM permettra une génération de données à grande échelle pour des anatomies de patients et des scénarios procéduraux variés, difficiles à capturer en milieu clinique. Code et données : https://github.com/iamsalvatore/room.

Cadre d'Apprentissage Multi-Instance avec Extraction Masquée d'Instances Difficiles pour l'Analyse d'Images Histopathologiques Gigapixels
Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis

Sep 15

ByWenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu

La numérisation d'images pathologiques en images gigapixel de lames entières (Whole Slide Images, WSIs) a ouvert de nouvelles perspectives pour la pathologie computationnelle (Computational Pathology, CPath). Étant donné que les tissus positifs ne représentent qu'une petite fraction des WSIs gigapixel, les méthodes existantes d'apprentissage par instances multiples (Multiple Instance Learning, MIL) se concentrent généralement sur l'identification d'instances saillantes via des mécanismes d'attention. Cependant, cela entraîne un biais en faveur des instances faciles à classer, tout en négligeant celles qui sont plus difficiles. Des études récentes ont montré que les exemples difficiles sont cruciaux pour modéliser avec précision les frontières discriminantes. En appliquant cette idée au niveau des instances, nous développons un nouveau cadre MIL avec extraction masquée d'instances difficiles (Masked Hard Instance Mining, MHIM-MIL), qui utilise une structure Siamese avec une contrainte de cohérence pour explorer les instances difficiles. En utilisant une probabilité d'instance consciente de la classe, MHIM-MIL emploie un enseignant à momentum pour masquer les instances saillantes et extraire implicitement les instances difficiles afin d'entraîner le modèle étudiant. Pour obtenir des instances difficiles diversifiées et non redondantes, nous adoptons un masquage aléatoire à grande échelle tout en utilisant un réseau de recyclage global pour atténuer le risque de perdre des caractéristiques clés. De plus, l'étudiant met à jour l'enseignant en utilisant une moyenne mobile exponentielle, ce qui identifie de nouvelles instances difficiles pour les itérations d'entraînement suivantes et stabilise l'optimisation. Les résultats expérimentaux sur des tâches de diagnostic de cancer, de sous-typage, d'analyse de survie et 12 benchmarks démontrent que MHIM-MIL surpasse les méthodes les plus récentes en termes de performance et d'efficacité. Le code est disponible à l'adresse : https://github.com/DearCaat/MHIM-MIL.

Struct-Bench : Un Benchmark pour la Génération de Texte Structuré à Différence Privée
Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

Sep 12

ByShuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti

La génération de données synthétiques à confidentialité différentielle (DP) est une technique prometteuse pour exploiter des ensembles de données privés qui ne pourraient autrement pas être exposés pour l'entraînement de modèles ou d'autres analyses. Alors qu'une grande partie de la littérature de recherche s'est concentrée sur la génération de données non structurées privées, telles que des textes et des images, dans les contextes d'entreprise, les données structurées (par exemple, tabulaires) sont plus courantes, incluant souvent des champs ou composants en langage naturel. Les techniques d'évaluation existantes pour les données synthétiques (par exemple, FID) peinent à capturer les propriétés structurelles et les corrélations de tels ensembles de données. Dans ce travail, nous proposons Struct-Bench, un cadre et un benchmark pour évaluer les ensembles de données synthétiques dérivés de données structurées contenant des données en langage naturel. Le cadre Struct-Bench nécessite que les utilisateurs fournissent une représentation de la structure de leur ensemble de données sous forme de grammaire hors contexte (CFG). Notre benchmark comprend 5 ensembles de données réels et 2 générés synthétiquement, chacun annoté avec des CFG. Nous montrons que ces ensembles de données présentent un défi considérable, même pour les méthodes de génération de données synthétiques DP les plus avancées. Struct-Bench inclut également des implémentations de référence pour différentes métriques et un classement, offrant ainsi aux chercheurs une plateforme d'évaluation standardisée pour comparer et étudier les méthodes de génération de données synthétiques préservant la confidentialité. De plus, nous présentons une étude de cas montrant comment utiliser Struct-Bench pour améliorer la qualité des données synthétiques de Private Evolution (PE) sur des données structurées. Le benchmark et le classement sont disponibles publiquement à l'adresse https://struct-bench.github.io.

Correspondance sonore d'un amplificateur de nivellement analogique utilisant la méthode de Newton-Raphson
Sound Matching an Analogue Levelling Amplifier Using the Newton-Raphson Method

Sep 12

ByChin-Yun Yu, György Fazekas

La différenciation automatique à travers les algorithmes de traitement numérique du signal pour la modélisation analogique virtuelle a récemment gagné en popularité. Ces algorithmes sont généralement plus efficaces sur le plan computationnel que les réseaux de neurones de type boîte noire qui reposent sur des multiplications matricielles denses. Grâce à leur nature différentiable, ils peuvent être intégrés avec des réseaux de neurones et entraînés conjointement à l'aide d'algorithmes de descente de gradient, ce qui donne lieu à des systèmes plus efficaces. Par ailleurs, les algorithmes de traitement du signal possèdent un nombre de paramètres bien inférieur à celui des réseaux de neurones, permettant ainsi l'application de la méthode de Newton-Raphson. Cette méthode offre une convergence plus rapide et plus robuste que la descente de gradient, au prix d'un stockage quadratique. Cet article présente une méthode pour émuler des amplificateurs de nivellement analogiques en utilisant un compresseur numérique à propagation directe dont les paramètres sont optimisés via la méthode de Newton-Raphson. Nous démontrons qu'un compresseur numérique peut approximer avec succès le comportement de notre unité cible, le Teletronix LA-2A. Différentes stratégies pour calculer la matrice hessienne sont comparées. Nous exploitons des algorithmes parallèles pour les filtres récursifs afin d'obtenir un entraînement efficace sur les GPU modernes. Le modèle résultant est transformé en plugin VST et est rendu open-source à l'adresse https://github.com/aim-qmul/4a2a.

Hunyuan3D Studio : Pipeline IA de bout en bout pour la génération d'assets 3D prêts pour le jeu
Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

Sep 16