HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

rStar2-Agent : Rapport Technique sur le Raisonnement Agentique
rStar2-Agent: Agentic Reasoning Technical Report

Aug 28

ByNing Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang

113

Nous présentons rStar2-Agent, un modèle de raisonnement mathématique de 14 milliards de paramètres entraîné avec un apprentissage par renforcement agentique pour atteindre des performances de pointe. Au-delà des approches actuelles de chaînes de pensée (CoT) longues, le modèle démontre des comportements cognitifs avancés, tels que réfléchir attentivement avant d'utiliser des outils de codage Python et analyser les retours d'exécution de code pour explorer, vérifier et affiner de manière autonome les étapes intermédiaires dans la résolution de problèmes complexes. Cette capacité est rendue possible grâce à trois innovations clés qui rendent l'apprentissage par renforcement agentique efficace à grande échelle : (i) une infrastructure d'apprentissage par renforcement efficace avec un environnement de code Python fiable, supportant une exécution à haut débit et atténuant les coûts élevés de déploiement, permettant ainsi l'entraînement avec des ressources GPU limitées (64 GPU MI300X) ; (ii) GRPO-RoC, un algorithme d'apprentissage par renforcement agentique avec une stratégie de déploiement Resample-on-Correct qui gère les bruits inhérents de l'environnement liés aux outils de codage, permettant au modèle de raisonner plus efficacement dans un environnement de code ; (iii) Une recette d'entraînement agentique efficace qui commence par un apprentissage supervisé (SFT) non raisonné et progresse à travers plusieurs étapes d'apprentissage par renforcement, développant des capacités cognitives avancées avec un coût de calcul minimal. Ainsi, rStar2-Agent améliore un modèle pré-entraîné de 14 milliards de paramètres pour atteindre l'état de l'art en seulement 510 étapes d'apprentissage par renforcement en une semaine, obtenant des scores moyens pass@1 de 80,6 % sur AIME24 et 69,8 % sur AIME25, surpassant DeepSeek-R1 (671 milliards de paramètres) avec des réponses significativement plus courtes. Au-delà des mathématiques, rStar2-Agent-14B démontre également une forte généralisation dans des tâches d'alignement, de raisonnement scientifique et d'utilisation d'outils agentiques. Le code et les recettes d'entraînement sont disponibles à l'adresse https://github.com/microsoft/rStar.

Pref-GRPO : GRPO basé sur la récompense par préférence par paire pour un apprentissage par renforcement stable en génération d'images à partir de texte
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

Aug 28

ByYibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Les avancées récentes mettent en lumière l'importance des méthodes d'apprentissage par renforcement basées sur GRPO et des benchmarks pour améliorer la génération texte-image (T2I). Cependant, les méthodes actuelles utilisant des modèles de récompense (RM) ponctuels pour évaluer les images générées sont vulnérables au détournement de récompense. Nous révélons que cela se produit lorsque des différences minimales de score entre les images sont amplifiées après normalisation, créant des avantages illusoires qui poussent le modèle à sur-optimiser pour des gains triviaux, déstabilisant finalement le processus de génération d'images. Pour résoudre ce problème, nous proposons Pref-GRPO, une méthode GRPO basée sur des récompenses de préférence par paires, qui déplace l'objectif d'optimisation de la maximisation des scores vers l'ajustement des préférences, assurant un entraînement plus stable. Dans Pref-GRPO, les images sont comparées par paires au sein de chaque groupe à l'aide d'un RM de préférence, et le taux de victoire est utilisé comme signal de récompense. Des expériences approfondies démontrent que Pref-GRPO différencie les subtiles différences de qualité d'image, offrant des avantages plus stables et atténuant le détournement de récompense. De plus, les benchmarks T2I existants sont limités par des critères d'évaluation grossiers, entravant une évaluation complète des modèles. Pour résoudre ce problème, nous introduisons UniGenBench, un benchmark T2I unifié comprenant 600 prompts répartis en 5 thèmes principaux et 20 sous-thèmes. Il évalue la cohérence sémantique à travers 10 critères principaux et 27 sous-critères, en s'appuyant sur MLLM pour la construction et l'évaluation du benchmark. Nos benchmarks révèlent les forces et les faiblesses des modèles T2I open-source et propriétaires, et valident l'efficacité de Pref-GRPO.

MCP-Bench : Outil de référencement pour les agents LLM utilisant des outils avec des tâches complexes du monde réel via des serveurs MCP
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

Aug 28

ByZhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow

Nous présentons MCP-Bench, un benchmark pour évaluer les grands modèles de langage (LLMs) sur des tâches réalistes et multi-étapes qui nécessitent l'utilisation d'outils, la coordination inter-outils, le contrôle précis des paramètres, ainsi que la planification et le raisonnement pour résoudre des problèmes. Basé sur le protocole Model Context Protocol (MCP), MCP-Bench connecte les LLMs à 28 serveurs MCP actifs et représentatifs, couvrant 250 outils dans des domaines tels que la finance, les voyages, le calcul scientifique et la recherche académique. Contrairement aux benchmarks précédents basés sur des API, chaque serveur MCP fournit un ensemble d'outils complémentaires conçus pour fonctionner ensemble, permettant la construction de tâches authentiques et multi-étapes avec un riche couplage entrée-sortie. Les tâches de MCP-Bench testent la capacité des agents à récupérer les outils pertinents à partir d'instructions floues sans noms d'outils explicites, à planifier des trajectoires d'exécution multi-sauts pour des objectifs complexes, à ancrer les réponses dans les sorties intermédiaires des outils, et à orchestrer des workflows inter-domaines - des capacités insuffisamment évaluées par les benchmarks existants qui reposent sur des spécifications d'outils explicites, des workflows peu profonds en quelques étapes, et des opérations isolées dans des domaines spécifiques. Nous proposons un cadre d'évaluation multidimensionnel couvrant la compréhension et l'utilisation des schémas au niveau des outils, la planification au niveau des trajectoires, et l'achèvement des tâches. Les expériences sur 20 LLMs avancés révèlent des défis persistants dans MCP-Bench. Code et données : https://github.com/Accenture/mcp-bench.

USO : Génération unifiée de style et de sujet via un apprentissage désentrelacé et par récompense
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

Aug 26

ByShaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

La littérature existante traite généralement la génération axée sur le style et celle axée sur le sujet comme deux tâches disjointes : la première privilégie la similarité stylistique, tandis que la seconde insiste sur la cohérence du sujet, ce qui entraîne un antagonisme apparent. Nous soutenons que ces deux objectifs peuvent être unifiés dans un cadre unique, car ils concernent en fin de compte la dissociation et la recomposition du contenu et du style, un thème récurrent dans la recherche axée sur le style. À cette fin, nous présentons USO, un modèle de personnalisation unifié optimisé pour le style et le sujet. Premièrement, nous construisons un jeu de données à grande échelle composé de triplets d'images de contenu, d'images de style et de leurs images de contenu stylisées correspondantes. Deuxièmement, nous introduisons un schéma d'apprentissage dissocié qui aligne simultanément les caractéristiques de style et dissocie le contenu du style grâce à deux objectifs complémentaires : l'entraînement à l'alignement du style et l'entraînement à la dissociation contenu-style. Troisièmement, nous intégrons un paradigme d'apprentissage par récompense de style, noté SRL, pour améliorer davantage les performances du modèle. Enfin, nous publions USO-Bench, le premier benchmark qui évalue conjointement la similarité de style et la fidélité du sujet selon plusieurs métriques. Des expériences approfondies démontrent que USO atteint des performances de pointe parmi les modèles open-source, à la fois en termes de cohérence du sujet et de similarité de style. Code et modèle : https://github.com/bytedance/USO

AWorld : Orchestrer la recette d'entraînement pour l'IA agentique
AWorld: Orchestrating the Training Recipe for Agentic AI

Aug 28

ByChengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin

Le paradigme d'apprentissage par la pratique est crucial pour développer des systèmes d'IA agentiques performants, mais il est fortement entravé par une génération inefficace d'expériences, un goulot d'étranglement particulièrement prononcé dans des benchmarks complexes comme GAIA. Pour y remédier, nous présentons AWorld, un système open-source conçu pour des interactions à grande échelle entre agents et environnement. En répartissant les tâches sur un cluster, AWorld accélère la collecte d'expériences par un facteur de 14,6 par rapport à une exécution séquentielle standard sur un seul nœud. Cette accélération critique rend l'apprentissage par renforcement extensif pratique et scalable. En exploitant cette capacité, nous avons entraîné un agent basé sur Qwen3-32B qui surpasse significativement son modèle de base, augmentant sa précision globale sur GAIA de 21,59 % à 32,23 %. Sur les niveaux les plus difficiles du benchmark, notre agent atteint un score de 16,33 %, dépassant les performances des modèles propriétaires leaders. Notre système open-source et l'agent qui en résulte fournissent un plan pratique pour un pipeline complet de formation d'IA agentique, allant de l'interaction efficace à l'amélioration démontrable du modèle.

Mélange de Contextes pour la Génération de Vidéos Longues
Mixture of Contexts for Long Video Generation

Aug 28

ByShengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

La génération de vidéos longues est fondamentalement un problème de mémoire à contexte étendu : les modèles doivent retenir et récupérer des événements saillants sur une longue durée sans s'effondrer ou dériver. Cependant, l'extension des transformeurs à diffusion pour générer des vidéos à contexte long est intrinsèquement limitée par le coût quadratique de l'auto-attention, ce qui rend la mémoire et le calcul inabordables et difficiles à optimiser pour les longues séquences. Nous reformulons la génération de vidéos à contexte long comme une tâche de récupération d'information interne et proposons un module simple et apprenable de routage d'attention parcimonieuse, Mixture of Contexts (MoC), comme moteur efficace de récupération de mémoire à long terme. Dans MoC, chaque requête sélectionne dynamiquement quelques segments informatifs ainsi que des ancres obligatoires (légende, fenêtres locales) à traiter, avec un routage causal qui empêche les boucles de fermeture. À mesure que nous augmentons les données et parcimonisons progressivement le routage, le modèle alloue les ressources de calcul à l'historique saillant, préservant les identités, les actions et les scènes sur plusieurs minutes de contenu. L'efficacité découle comme un sous-produit de la récupération (mise à l'échelle quasi-linéaire), ce qui permet un entraînement et une synthèse pratiques, ainsi que l'émergence de la mémoire et de la cohérence à l'échelle de plusieurs minutes.

Suivi de points 3D multi-vues
Multi-View 3D Point Tracking

Aug 28

ByFrano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang

Nous présentons le premier tracker de points 3D multi-vues basé sur les données, conçu pour suivre des points arbitraires dans des scènes dynamiques en utilisant plusieurs vues caméra. Contrairement aux trackers monoculaires existants, qui peinent avec les ambiguïtés de profondeur et les occlusions, ou aux méthodes multi-caméras précédentes qui nécessitent plus de 20 caméras et une optimisation fastidieuse par séquence, notre modèle feed-forward prédit directement les correspondances 3D en utilisant un nombre pratique de caméras (par exemple, quatre), permettant un suivi en ligne robuste et précis. Avec des poses de caméra connues et une profondeur multi-vues basée sur des capteurs ou estimée, notre tracker fusionne les caractéristiques multi-vues en un nuage de points unifié et applique une corrélation des k-plus proches voisins ainsi qu'une mise à jour basée sur un transformateur pour estimer de manière fiable les correspondances 3D à longue portée, même sous occlusion. Nous entraînons sur 5K séquences multi-vues synthétiques Kubric et évaluons sur deux benchmarks du monde réel : Panoptic Studio et DexYCB, obtenant des erreurs médianes de trajectoire de 3,1 cm et 2,0 cm, respectivement. Notre méthode se généralise bien à diverses configurations de caméras de 1 à 8 vues avec des points de vue variés et des longueurs de vidéo de 24 à 150 images. En publiant notre tracker ainsi que les ensembles de données d'entraînement et d'évaluation, nous visons à établir un nouveau standard pour la recherche en suivi 3D multi-vues et à fournir un outil pratique pour les applications du monde réel. Page du projet disponible à l'adresse https://ethz-vlg.github.io/mvtracker.

TCIA : Une Méthode d'Augmentation d'Instructions Centrée sur la Tâche pour le Fine-Tuning d'Instructions
TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

Aug 28

BySimin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song

Des données d'instruction diversifiées sont essentielles pour un réglage efficace des grands modèles de langage, car elles permettent au modèle de généraliser à différents types d'entrées. La construction d'un tel ensemble de données d'instruction diversifié constitue une étape cruciale dans ce processus. Les approches existantes exploitent souvent de grands modèles de langage pour explorer et générer automatiquement des instructions variées, garantissant ainsi à la fois la diversité et la qualité des données. Cependant, elles ont tendance à négliger un facteur important dans les applications réelles : la pertinence par rapport à la tâche. En pratique, seules quelques applications réelles nécessitent un modèle véritablement polyvalent ; la plupart bénéficient de connaissances spécifiques à la tâche, adaptées à leur cas d'utilisation particulier. Par conséquent, il est essentiel de développer des méthodes d'augmentation d'instructions qui non seulement maintiennent la diversité, mais sont également optimisées pour des scénarios réels spécifiques. Nous introduisons donc l'**Augmentation d'Instructions Centrée sur la Tâche (Task Centric Instruction Augmentation, TCIA)**, un cadre qui étend systématiquement les instructions tout en préservant à la fois la diversité et l'alignement sur la tâche. En représentant les instructions dans un espace discret de requêtes-contraintes, TCIA crée un ensemble riche d'instructions pertinentes pour la tâche et permet aux modèles de généraliser à ces instructions spécifiques sans sacrifier les performances globales. Les expériences montrent que TCIA améliore les performances des modèles de langage open source de 8,7 % en moyenne sur quatre applications réelles spécifiques à une tâche, surpassant dans certains cas les modèles propriétaires leaders. Ces améliorations ne compromettent pas la capacité générale à suivre des instructions, faisant de TCIA une solution évolutive et efficace pour adapter les grands modèles de langage à des applications réelles centrées sur des tâches spécifiques.

Inverser le sort : Amplification légère de l'alignement via l'injection de sécurité de rang un
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

Aug 28

ByHarethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

L'alignement de sécurité dans les modèles de langage de grande taille (LLMs) implique souvent la médiation des représentations internes pour refuser les requêtes nuisibles. Des recherches récentes ont montré que ces mécanismes de sécurité peuvent être contournés en supprimant ou en altérant des directions représentationnelles spécifiques au sein du modèle. Dans cet article, nous proposons l'approche inverse : l'Injection de Sécurité de Rang Un (ROSI), une méthode en boîte blanche qui amplifie l'alignement de sécurité d'un modèle en orientant de manière permanente ses activations vers le sous-espace médiateur de refus. ROSI fonctionne comme une simple modification de poids de rang un, appliquée à toutes les matrices d'écriture du flux résiduel, sans nécessiter de fine-tuning. La direction de sécurité requise peut être calculée à partir d'un petit ensemble de paires d'instructions nuisibles et inoffensives. Nous montrons que ROSI augmente systématiquement les taux de refus de sécurité - évalués par Llama Guard 3 - tout en préservant l'utilité du modèle sur des benchmarks standards tels que MMLU, HellaSwag et Arc. De plus, nous montrons que ROSI peut également réaligner des modèles 'non censurés' en amplifiant leurs propres directions de sécurité latentes, démontrant ainsi son utilité comme procédure de sécurité de dernier recours. Nos résultats suggèrent que l'orientation ciblée et interprétable des poids est un mécanisme peu coûteux et puissant pour améliorer la sécurité des LLMs, complétant ainsi les paradigmes de fine-tuning plus gourmands en ressources.

OneReward : Génération d'images unifiée guidée par masque via l'apprentissage des préférences humaines multi-tâches
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

Aug 28

ByYuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu

Dans cet article, nous présentons OneReward, un cadre unifié d'apprentissage par renforcement qui améliore les capacités génératives du modèle sur plusieurs tâches sous différents critères d'évaluation en utilisant un seul modèle de récompense. En employant un unique modèle vision-langage (VLM) comme modèle de récompense générative, capable de distinguer le gagnant et le perdant pour une tâche et un critère d'évaluation donnés, il peut être efficacement appliqué à des modèles de génération multi-tâches, en particulier dans des contextes impliquant des données variées et des objectifs de tâches diversifiés. Nous utilisons OneReward pour la génération d'images guidée par masque, qui peut être subdivisée en plusieurs sous-tâches telles que le remplissage d'image, l'extension d'image, la suppression d'objet et le rendu de texte, impliquant un masque binaire comme zone d'édition. Bien que ces tâches spécifiques partagent le même paradigme de conditionnement, elles diffèrent significativement dans les distributions de données sous-jacentes et les métriques d'évaluation. Les méthodes existantes reposent souvent sur un ajustement fin supervisé (SFT) spécifique à la tâche, ce qui limite la généralisation et l'efficacité de l'entraînement. En nous appuyant sur OneReward, nous développons Seedream 3.0 Fill, un modèle de génération guidée par masque entraîné via un apprentissage par renforcement multi-tâches directement sur un modèle de base pré-entraîné, éliminant ainsi le besoin d'un SFT spécifique à la tâche. Les résultats expérimentaux montrent que notre modèle d'édition unifié surpasse de manière constante les concurrents commerciaux et open-source, tels qu'Ideogram, Adobe Photoshop et FLUX Fill [Pro], sur plusieurs dimensions d'évaluation. Le code et le modèle sont disponibles à l'adresse : https://one-reward.github.io

Avantages démontrables de l'apprentissage intégré aux outils pour les grands modèles de langage
Provable Benefits of In-Tool Learning for Large Language Models

Aug 28

BySam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

Les modèles de langage augmentés par des outils, équipés de capacités de recherche, de mémoire ou d'API externes, sont en train de transformer l'IA, bien que leurs avantages théoriques restent sous-explorés. Dans cet article, nous abordons cette question en démontrant les bénéfices de l'apprentissage par outils (recherche externe) par rapport à l'apprentissage par poids (mémorisation) pour le rappel de faits. Nous montrons que le nombre de faits qu'un modèle peut mémoriser uniquement dans ses poids est fondamentalement limité par son nombre de paramètres. En revanche, nous prouvons que l'utilisation d'outils permet un rappel de faits illimité grâce à une construction de circuit simple et efficace. Ces résultats sont validés dans des expériences contrôlées, où les modèles utilisant des outils surpassent systématiquement ceux qui reposent sur la mémorisation. Nous montrons en outre que pour les grands modèles de langage pré-entraînés, enseigner l'utilisation d'outils et des règles générales est plus efficace que le fine-tuning de faits en mémoire. Notre travail fournit à la fois une base théorique et empirique, établissant pourquoi les workflows augmentés par des outils ne sont pas seulement pratiques, mais aussi prouvés comme étant plus évolutifs.

CogVLA : Modèle Vision-Langue-Action Aligné sur la Cognition via Routage et Sparsification Pilotés par Instructions
CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

Aug 28

ByWei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

Les modèles récents Vision-Langage-Action (VLA) construits sur des modèles Vision-Langage (VLM) pré-entraînés nécessitent un post-entraînement intensif, entraînant un surcoût computationnel important qui limite leur évolutivité et leur déploiement. Nous proposons CogVLA, un cadre Vision-Langage-Action aligné sur la cognition qui exploite le routage piloté par instructions et la sparsification pour améliorer à la fois l'efficacité et les performances. CogVLA s'inspire de la coordination multimodale humaine et introduit une architecture progressive en 3 étapes. 1) Le routage d'agrégation basé sur Encoder-FiLM (EFA-Routing) injecte des informations d'instructions dans l'encodeur visuel pour agréger et compresser de manière sélective les tokens visuels en double flux, formant ainsi une représentation latente sensible aux instructions. 2) S'appuyant sur cet encodage visuel compact, le routage d'élagage basé sur LLM-FiLM (LFP-Routing) introduit l'intention d'action dans le modèle de langage en élaguant les tokens visuels non pertinents pour les instructions, atteignant ainsi une sparsité au niveau des tokens. 3) Pour garantir que les entrées de perception compressées puissent toujours soutenir une génération d'actions précise et cohérente, nous introduisons l'attention couplée V-L-A (CAtten), qui combine l'attention causale vision-langage avec un décodage parallèle bidirectionnel des actions. Des expériences approfondies sur le benchmark LIBERO et des tâches robotiques réelles démontrent que CogVLA atteint des performances de pointe avec des taux de réussite de 97,4 % et 70,0 %, respectivement, tout en réduisant les coûts d'entraînement par un facteur de 2,5 et en diminuant la latence d'inférence par un facteur de 2,8 par rapport à OpenVLA. CogVLA est open-source et disponible publiquement à l'adresse https://github.com/JiuTian-VL/CogVLA.

Dynamiques de persuasion dans les LLM : Étude de la robustesse et de l'adaptabilité des connaissances et de la sécurité avec DuET-PD
Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

Aug 24

ByBryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee

Les grands modèles de langage (LLMs) peuvent éprouver des difficultés à équilibrer leur crédulité face à la désinformation et leur résistance aux corrections valides dans les dialogues persuasifs, un défi crucial pour un déploiement fiable. Nous présentons DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), un cadre d'évaluation des dynamiques de changement de position sur plusieurs tours selon deux dimensions : le type de persuasion (corrective/trompeuse) et le domaine (connaissance via MMLU-Pro, et sécurité via SALAD-Bench). Nous constatons que même un modèle de pointe comme GPT-4o n'atteint que 27,32 % de précision dans MMLU-Pro sous l'effet de persuasions trompeuses soutenues. De plus, les résultats révèlent une tendance inquiétante à l'augmentation de la flagornerie dans les modèles open-source plus récents. Pour y remédier, nous introduisons Holistic DPO, une approche d'entraînement qui équilibre les exemples de persuasion positifs et négatifs. Contrairement à l'incitation ou à l'entraînement axé uniquement sur la résistance, Holistic DPO améliore à la fois la robustesse face à la désinformation et la réceptivité aux corrections, augmentant la précision de Llama-3.1-8B-Instruct sous persuasion trompeuse dans des contextes de sécurité de 4,21 % à 76,54 %. Ces contributions offrent une voie pour développer des LLMs plus fiables et adaptables pour les dialogues multi-tours. Le code est disponible à l'adresse https://github.com/Social-AI-Studio/DuET-PD.

FakeParts : Une nouvelle famille de deepfakes générés par IA
FakeParts: a New Family of AI-Generated DeepFakes

Aug 28

ByGaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton

Nous présentons FakeParts, une nouvelle classe de deepfakes caractérisée par des manipulations subtiles et localisées de régions spatiales ou de segments temporels spécifiques dans des vidéos par ailleurs authentiques. Contrairement aux contenus entièrement synthétiques, ces manipulations partielles, allant d'expressions faciales altérées à des substitutions d'objets et des modifications de l'arrière-plan, s'intègrent de manière fluide avec les éléments réels, les rendant particulièrement trompeuses et difficiles à détecter. Pour combler cette lacune critique en matière de détection, nous proposons FakePartsBench, le premier ensemble de données de référence à grande échelle spécialement conçu pour capturer toute la gamme des deepfakes partiels. Composé de plus de 25 000 vidéos avec des annotations de manipulation au niveau des pixels et des images, notre ensemble de données permet une évaluation complète des méthodes de détection. Nos études utilisateurs montrent que FakeParts réduit la précision de détection humaine de plus de 30 % par rapport aux deepfakes traditionnels, avec une dégradation similaire observée dans les modèles de détection de pointe. Ce travail met en lumière une vulnérabilité urgente dans les approches actuelles de détection des deepfakes et fournit les ressources nécessaires pour développer des méthodes plus robustes contre les manipulations vidéo partielles.

ROSE : Suppression d'Objets avec Effets Secondaires dans les Vidéos
ROSE: Remove Objects with Side Effects in Videos

Aug 26

ByChenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

La suppression d'objets dans les vidéos a atteint des performances avancées grâce aux récents succès des modèles génératifs vidéo. Cependant, lorsqu'il s'agit de traiter les effets secondaires des objets, tels que leurs ombres et réflexions, les travaux existants peinent à éliminer ces effets en raison de la rareté des données vidéo appariées utilisées comme supervision. Cet article présente ROSE, acronyme de Remove Objects with Side Effects, un cadre qui étudie systématiquement les effets des objets sur l'environnement, lesquels peuvent être catégorisés en cinq cas courants : ombres, réflexions, lumière, translucidité et miroir. Face aux défis liés à la curation de vidéos appariées présentant ces effets, nous exploitons un moteur de rendu 3D pour la génération de données synthétiques. Nous construisons soigneusement un pipeline entièrement automatique pour la préparation des données, simulant un ensemble de données appariées à grande échelle avec des scènes, objets, angles de prise de vue et trajectoires de caméra variés. ROSE est implémenté comme un modèle de réparation vidéo basé sur un transformateur de diffusion. Pour localiser toutes les zones corrélées aux objets, la vidéo entière est introduite dans le modèle pour une suppression basée sur la référence. De plus, une supervision supplémentaire est introduite pour prédire explicitement les zones affectées par les effets secondaires, qui peuvent être révélées par le masque différentiel entre les vidéos appariées. Pour étudier pleinement les performances du modèle sur l'élimination de divers effets secondaires, nous présentons un nouveau benchmark, baptisé ROSE-Bench, intégrant à la fois des scènes courantes et les cinq effets secondaires spécifiques pour une évaluation complète. Les résultats expérimentaux démontrent que ROSE atteint des performances supérieures par rapport aux modèles existants de suppression d'objets vidéo et généralise bien aux scénarios vidéo du monde réel. La page du projet est disponible à l'adresse suivante : https://rose2025-inpaint.github.io/.

Dress&Dance : Habillez-vous et Dansez à Votre Guise - Aperçu Technique
Dress&Dance: Dress up and Dance as You Like It - Technical Preview

Aug 28

ByJun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

Nous présentons Dress&Dance, un framework de diffusion vidéo qui génère des vidéos d'essayage virtuel de haute qualité d'une durée de 5 secondes à 24 images par seconde et une résolution de 1152x720 pixels, montrant un utilisateur portant des vêtements souhaités tout en se déplaçant selon une vidéo de référence donnée. Notre approche nécessite une seule image de l'utilisateur et prend en charge une gamme de hauts, de bas et de vêtements une pièce, ainsi que l'essayage simultané de hauts et de bas en une seule passe. Un élément clé de notre framework est CondNet, un réseau de conditionnement novateur qui exploite l'attention pour unifier des entrées multimodales (texte, images et vidéos), améliorant ainsi l'enregistrement des vêtements et la fidélité du mouvement. CondNet est entraîné sur des données hétérogènes, combinant un ensemble limité de vidéos et un ensemble d'images plus large et plus facilement disponible, de manière progressive et en plusieurs étapes. Dress&Dance surpasse les solutions open source et commerciales existantes et offre une expérience d'essayage de haute qualité et flexible.

Codage Multimodal Collaboratif pour la Génération 3D de Haute Qualité
Collaborative Multi-Modal Coding for High-Quality 3D Generation

Aug 21

ByZiang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

Le contenu 3D possède intrinsèquement des caractéristiques multimodales et peut être projeté dans différentes modalités (par exemple, images RVB, RVBD et nuages de points). Chaque modalité présente des avantages distincts dans la modélisation d'actifs 3D : les images RVB contiennent des textures 3D vives, tandis que les nuages de points définissent des géométries 3D fines. Cependant, la plupart des architectures génératives natives 3D existantes opèrent principalement dans des paradigmes unimodaux, négligeant ainsi les avantages complémentaires des données multimodales, ou se limitent aux structures 3D, restreignant ainsi l'étendue des ensembles de données d'entraînement disponibles. Pour exploiter de manière holistique les multimodalities dans la modélisation 3D, nous présentons TriMM, le premier modèle génératif natif 3D à propagation directe qui apprend à partir de multimodalities de base (par exemple, RVB, RVBD et nuage de points). Plus précisément, 1) TriMM introduit d'abord un codage multimodal collaboratif, qui intègre des caractéristiques spécifiques à chaque modalité tout en préservant leurs forces représentatives uniques. 2) En outre, des supervisions auxiliaires 2D et 3D sont introduites pour renforcer la robustesse et les performances du codage multimodal. 3) Sur la base du code multimodal intégré, TriMM utilise un modèle de diffusion latente triplan pour générer des actifs 3D de qualité supérieure, améliorant à la fois la texture et le détail géométrique. Des expériences approfondies sur plusieurs ensembles de données bien connus démontrent que TriMM, en exploitant efficacement la multimodalité, atteint des performances compétitives avec des modèles entraînés sur des ensembles de données à grande échelle, malgré l'utilisation d'une petite quantité de données d'entraînement. De plus, nous menons des expériences supplémentaires sur des ensembles de données RVB-D récents, vérifiant la faisabilité d'intégrer d'autres ensembles de données multimodales dans la génération 3D.

OnGoal : Suivi et visualisation des objectifs conversationnels dans les dialogues multi-tours avec les grands modèles de langage
OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models

Aug 28

ByAdam Coscia, Shunan Guo, Eunyee Koh, Alex Endert

Alors que les dialogues multi-tours avec les grands modèles de langage (LLM) deviennent plus longs et plus complexes, comment les utilisateurs peuvent-ils mieux évaluer et suivre l'avancement de leurs objectifs conversationnels ? Nous présentons OnGoal, une interface de chat basée sur un LLM qui aide les utilisateurs à mieux gérer la progression de leurs objectifs. OnGoal fournit un retour en temps réel sur l'alignement des objectifs grâce à une évaluation assistée par le LLM, des explications des résultats d'évaluation accompagnées d'exemples, et des aperçus de la progression des objectifs au fil du temps, permettant aux utilisateurs de naviguer plus efficacement dans des dialogues complexes. À travers une étude menée avec 20 participants sur une tâche d'écriture, nous avons évalué OnGoal par rapport à une interface de chat de base sans suivi d'objectifs. En utilisant OnGoal, les participants ont passé moins de temps et d'efforts pour atteindre leurs objectifs tout en explorant de nouvelles stratégies de prompt pour surmonter les malentendus, suggérant que le suivi et la visualisation des objectifs peuvent améliorer l'engagement et la résilience dans les dialogues avec les LLM. Nos résultats ont inspiré des implications de conception pour les futures interfaces de chat basées sur les LLM, visant à améliorer la communication des objectifs, réduire la charge cognitive, renforcer l'interactivité, et permettre un retour d'information pour améliorer la performance des LLM.

Social-MAE : Un autoencodeur multimodal basé sur des transformateurs pour le visage et la voix
Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

Aug 24

ByHugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani

Les comportements sociaux humains sont intrinsèquement multimodaux, ce qui nécessite le développement de modèles audiovisuels puissants pour leur perception. Dans cet article, nous présentons Social-MAE, notre autoencodeur masqué audiovisuel pré-entraîné basé sur une version étendue du Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), qui est pré-entraîné sur des données audiovisuelles sociales. Plus précisément, nous modifions CAV-MAE pour qu'il reçoive un plus grand nombre d'images en entrée et nous le pré-entraînons sur un vaste ensemble de données d'interactions sociales humaines (VoxCeleb2) de manière auto-supervisée. Nous démontrons l'efficacité de ce modèle en l'affinant et en l'évaluant sur différentes tâches sociales et affectives en aval, à savoir la reconnaissance des émotions, la détection des rires et l'estimation de la personnalité apparente. Le modèle obtient des résultats de pointe en reconnaissance multimodale des émotions et en reconnaissance des rires, ainsi que des résultats compétitifs pour l'estimation de la personnalité apparente, démontrant ainsi l'efficacité d'un pré-entraînement auto-supervisé dans le domaine. Le code et les poids du modèle sont disponibles ici : https://github.com/HuBohy/SocialMAE.

rStar2-Agent : Rapport Technique sur le Raisonnement Agentique
rStar2-Agent: Agentic Reasoning Technical Report

Aug 28

ByNing Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang

113