papers.description
Nous présentons rStar2-Agent, un modèle de raisonnement mathématique de 14 milliards de paramètres entraîné avec un apprentissage par renforcement agentique pour atteindre des performances de pointe. Au-delà des approches actuelles de chaînes de pensée (CoT) longues, le modèle démontre des comportements cognitifs avancés, tels que réfléchir attentivement avant d'utiliser des outils de codage Python et analyser les retours d'exécution de code pour explorer, vérifier et affiner de manière autonome les étapes intermédiaires dans la résolution de problèmes complexes. Cette capacité est rendue possible grâce à trois innovations clés qui rendent l'apprentissage par renforcement agentique efficace à grande échelle : (i) une infrastructure d'apprentissage par renforcement efficace avec un environnement de code Python fiable, supportant une exécution à haut débit et atténuant les coûts élevés de déploiement, permettant ainsi l'entraînement avec des ressources GPU limitées (64 GPU MI300X) ; (ii) GRPO-RoC, un algorithme d'apprentissage par renforcement agentique avec une stratégie de déploiement Resample-on-Correct qui gère les bruits inhérents de l'environnement liés aux outils de codage, permettant au modèle de raisonner plus efficacement dans un environnement de code ; (iii) Une recette d'entraînement agentique efficace qui commence par un apprentissage supervisé (SFT) non raisonné et progresse à travers plusieurs étapes d'apprentissage par renforcement, développant des capacités cognitives avancées avec un coût de calcul minimal. Ainsi, rStar2-Agent améliore un modèle pré-entraîné de 14 milliards de paramètres pour atteindre l'état de l'art en seulement 510 étapes d'apprentissage par renforcement en une semaine, obtenant des scores moyens pass@1 de 80,6 % sur AIME24 et 69,8 % sur AIME25, surpassant DeepSeek-R1 (671 milliards de paramètres) avec des réponses significativement plus courtes. Au-delà des mathématiques, rStar2-Agent-14B démontre également une forte généralisation dans des tâches d'alignement, de raisonnement scientifique et d'utilisation d'outils agentiques. Le code et les recettes d'entraînement sont disponibles à l'adresse https://github.com/microsoft/rStar.
Les avancées récentes mettent en lumière l'importance des méthodes d'apprentissage par renforcement basées sur GRPO et des benchmarks pour améliorer la génération texte-image (T2I). Cependant, les méthodes actuelles utilisant des modèles de récompense (RM) ponctuels pour évaluer les images générées sont vulnérables au détournement de récompense. Nous révélons que cela se produit lorsque des différences minimales de score entre les images sont amplifiées après normalisation, créant des avantages illusoires qui poussent le modèle à sur-optimiser pour des gains triviaux, déstabilisant finalement le processus de génération d'images. Pour résoudre ce problème, nous proposons Pref-GRPO, une méthode GRPO basée sur des récompenses de préférence par paires, qui déplace l'objectif d'optimisation de la maximisation des scores vers l'ajustement des préférences, assurant un entraînement plus stable. Dans Pref-GRPO, les images sont comparées par paires au sein de chaque groupe à l'aide d'un RM de préférence, et le taux de victoire est utilisé comme signal de récompense. Des expériences approfondies démontrent que Pref-GRPO différencie les subtiles différences de qualité d'image, offrant des avantages plus stables et atténuant le détournement de récompense. De plus, les benchmarks T2I existants sont limités par des critères d'évaluation grossiers, entravant une évaluation complète des modèles. Pour résoudre ce problème, nous introduisons UniGenBench, un benchmark T2I unifié comprenant 600 prompts répartis en 5 thèmes principaux et 20 sous-thèmes. Il évalue la cohérence sémantique à travers 10 critères principaux et 27 sous-critères, en s'appuyant sur MLLM pour la construction et l'évaluation du benchmark. Nos benchmarks révèlent les forces et les faiblesses des modèles T2I open-source et propriétaires, et valident l'efficacité de Pref-GRPO.
Nous présentons MCP-Bench, un benchmark pour évaluer les grands modèles de langage (LLMs) sur des tâches réalistes et multi-étapes qui nécessitent l'utilisation d'outils, la coordination inter-outils, le contrôle précis des paramètres, ainsi que la planification et le raisonnement pour résoudre des problèmes. Basé sur le protocole Model Context Protocol (MCP), MCP-Bench connecte les LLMs à 28 serveurs MCP actifs et représentatifs, couvrant 250 outils dans des domaines tels que la finance, les voyages, le calcul scientifique et la recherche académique. Contrairement aux benchmarks précédents basés sur des API, chaque serveur MCP fournit un ensemble d'outils complémentaires conçus pour fonctionner ensemble, permettant la construction de tâches authentiques et multi-étapes avec un riche couplage entrée-sortie. Les tâches de MCP-Bench testent la capacité des agents à récupérer les outils pertinents à partir d'instructions floues sans noms d'outils explicites, à planifier des trajectoires d'exécution multi-sauts pour des objectifs complexes, à ancrer les réponses dans les sorties intermédiaires des outils, et à orchestrer des workflows inter-domaines - des capacités insuffisamment évaluées par les benchmarks existants qui reposent sur des spécifications d'outils explicites, des workflows peu profonds en quelques étapes, et des opérations isolées dans des domaines spécifiques. Nous proposons un cadre d'évaluation multidimensionnel couvrant la compréhension et l'utilisation des schémas au niveau des outils, la planification au niveau des trajectoires, et l'achèvement des tâches. Les expériences sur 20 LLMs avancés révèlent des défis persistants dans MCP-Bench. Code et données : https://github.com/Accenture/mcp-bench.
La littérature existante traite généralement la génération axée sur le style et celle axée sur le sujet comme deux tâches disjointes : la première privilégie la similarité stylistique, tandis que la seconde insiste sur la cohérence du sujet, ce qui entraîne un antagonisme apparent. Nous soutenons que ces deux objectifs peuvent être unifiés dans un cadre unique, car ils concernent en fin de compte la dissociation et la recomposition du contenu et du style, un thème récurrent dans la recherche axée sur le style. À cette fin, nous présentons USO, un modèle de personnalisation unifié optimisé pour le style et le sujet. Premièrement, nous construisons un jeu de données à grande échelle composé de triplets d'images de contenu, d'images de style et de leurs images de contenu stylisées correspondantes. Deuxièmement, nous introduisons un schéma d'apprentissage dissocié qui aligne simultanément les caractéristiques de style et dissocie le contenu du style grâce à deux objectifs complémentaires : l'entraînement à l'alignement du style et l'entraînement à la dissociation contenu-style. Troisièmement, nous intégrons un paradigme d'apprentissage par récompense de style, noté SRL, pour améliorer davantage les performances du modèle. Enfin, nous publions USO-Bench, le premier benchmark qui évalue conjointement la similarité de style et la fidélité du sujet selon plusieurs métriques. Des expériences approfondies démontrent que USO atteint des performances de pointe parmi les modèles open-source, à la fois en termes de cohérence du sujet et de similarité de style. Code et modèle : https://github.com/bytedance/USO
Le paradigme d'apprentissage par la pratique est crucial pour développer des systèmes d'IA agentiques performants, mais il est fortement entravé par une génération inefficace d'expériences, un goulot d'étranglement particulièrement prononcé dans des benchmarks complexes comme GAIA. Pour y remédier, nous présentons AWorld, un système open-source conçu pour des interactions à grande échelle entre agents et environnement. En répartissant les tâches sur un cluster, AWorld accélère la collecte d'expériences par un facteur de 14,6 par rapport à une exécution séquentielle standard sur un seul nœud. Cette accélération critique rend l'apprentissage par renforcement extensif pratique et scalable. En exploitant cette capacité, nous avons entraîné un agent basé sur Qwen3-32B qui surpasse significativement son modèle de base, augmentant sa précision globale sur GAIA de 21,59 % à 32,23 %. Sur les niveaux les plus difficiles du benchmark, notre agent atteint un score de 16,33 %, dépassant les performances des modèles propriétaires leaders. Notre système open-source et l'agent qui en résulte fournissent un plan pratique pour un pipeline complet de formation d'IA agentique, allant de l'interaction efficace à l'amélioration démontrable du modèle.
La génération de vidéos longues est fondamentalement un problème de mémoire à contexte étendu : les modèles doivent retenir et récupérer des événements saillants sur une longue durée sans s'effondrer ou dériver. Cependant, l'extension des transformeurs à diffusion pour générer des vidéos à contexte long est intrinsèquement limitée par le coût quadratique de l'auto-attention, ce qui rend la mémoire et le calcul inabordables et difficiles à optimiser pour les longues séquences. Nous reformulons la génération de vidéos à contexte long comme une tâche de récupération d'information interne et proposons un module simple et apprenable de routage d'attention parcimonieuse, Mixture of Contexts (MoC), comme moteur efficace de récupération de mémoire à long terme. Dans MoC, chaque requête sélectionne dynamiquement quelques segments informatifs ainsi que des ancres obligatoires (légende, fenêtres locales) à traiter, avec un routage causal qui empêche les boucles de fermeture. À mesure que nous augmentons les données et parcimonisons progressivement le routage, le modèle alloue les ressources de calcul à l'historique saillant, préservant les identités, les actions et les scènes sur plusieurs minutes de contenu. L'efficacité découle comme un sous-produit de la récupération (mise à l'échelle quasi-linéaire), ce qui permet un entraînement et une synthèse pratiques, ainsi que l'émergence de la mémoire et de la cohérence à l'échelle de plusieurs minutes.
Des données d'instruction diversifiées sont essentielles pour un réglage efficace des grands modèles de langage, car elles permettent au modèle de généraliser à différents types d'entrées. La construction d'un tel ensemble de données d'instruction diversifié constitue une étape cruciale dans ce processus. Les approches existantes exploitent souvent de grands modèles de langage pour explorer et générer automatiquement des instructions variées, garantissant ainsi à la fois la diversité et la qualité des données. Cependant, elles ont tendance à négliger un facteur important dans les applications réelles : la pertinence par rapport à la tâche. En pratique, seules quelques applications réelles nécessitent un modèle véritablement polyvalent ; la plupart bénéficient de connaissances spécifiques à la tâche, adaptées à leur cas d'utilisation particulier. Par conséquent, il est essentiel de développer des méthodes d'augmentation d'instructions qui non seulement maintiennent la diversité, mais sont également optimisées pour des scénarios réels spécifiques. Nous introduisons donc l'**Augmentation d'Instructions Centrée sur la Tâche (Task Centric Instruction Augmentation, TCIA)**, un cadre qui étend systématiquement les instructions tout en préservant à la fois la diversité et l'alignement sur la tâche. En représentant les instructions dans un espace discret de requêtes-contraintes, TCIA crée un ensemble riche d'instructions pertinentes pour la tâche et permet aux modèles de généraliser à ces instructions spécifiques sans sacrifier les performances globales. Les expériences montrent que TCIA améliore les performances des modèles de langage open source de 8,7 % en moyenne sur quatre applications réelles spécifiques à une tâche, surpassant dans certains cas les modèles propriétaires leaders. Ces améliorations ne compromettent pas la capacité générale à suivre des instructions, faisant de TCIA une solution évolutive et efficace pour adapter les grands modèles de langage à des applications réelles centrées sur des tâches spécifiques.
Nous présentons le premier tracker de points 3D multi-vues basé sur les données, conçu pour suivre des points arbitraires dans des scènes dynamiques en utilisant plusieurs vues caméra. Contrairement aux trackers monoculaires existants, qui peinent avec les ambiguïtés de profondeur et les occlusions, ou aux méthodes multi-caméras précédentes qui nécessitent plus de 20 caméras et une optimisation fastidieuse par séquence, notre modèle feed-forward prédit directement les correspondances 3D en utilisant un nombre pratique de caméras (par exemple, quatre), permettant un suivi en ligne robuste et précis. Avec des poses de caméra connues et une profondeur multi-vues basée sur des capteurs ou estimée, notre tracker fusionne les caractéristiques multi-vues en un nuage de points unifié et applique une corrélation des k-plus proches voisins ainsi qu'une mise à jour basée sur un transformateur pour estimer de manière fiable les correspondances 3D à longue portée, même sous occlusion. Nous entraînons sur 5K séquences multi-vues synthétiques Kubric et évaluons sur deux benchmarks du monde réel : Panoptic Studio et DexYCB, obtenant des erreurs médianes de trajectoire de 3,1 cm et 2,0 cm, respectivement. Notre méthode se généralise bien à diverses configurations de caméras de 1 à 8 vues avec des points de vue variés et des longueurs de vidéo de 24 à 150 images. En publiant notre tracker ainsi que les ensembles de données d'entraînement et d'évaluation, nous visons à établir un nouveau standard pour la recherche en suivi 3D multi-vues et à fournir un outil pratique pour les applications du monde réel. Page du projet disponible à l'adresse https://ethz-vlg.github.io/mvtracker.
L'alignement de sécurité dans les modèles de langage de grande taille (LLMs) implique souvent la médiation des représentations internes pour refuser les requêtes nuisibles. Des recherches récentes ont montré que ces mécanismes de sécurité peuvent être contournés en supprimant ou en altérant des directions représentationnelles spécifiques au sein du modèle. Dans cet article, nous proposons l'approche inverse : l'Injection de Sécurité de Rang Un (ROSI), une méthode en boîte blanche qui amplifie l'alignement de sécurité d'un modèle en orientant de manière permanente ses activations vers le sous-espace médiateur de refus. ROSI fonctionne comme une simple modification de poids de rang un, appliquée à toutes les matrices d'écriture du flux résiduel, sans nécessiter de fine-tuning. La direction de sécurité requise peut être calculée à partir d'un petit ensemble de paires d'instructions nuisibles et inoffensives. Nous montrons que ROSI augmente systématiquement les taux de refus de sécurité - évalués par Llama Guard 3 - tout en préservant l'utilité du modèle sur des benchmarks standards tels que MMLU, HellaSwag et Arc. De plus, nous montrons que ROSI peut également réaligner des modèles 'non censurés' en amplifiant leurs propres directions de sécurité latentes, démontrant ainsi son utilité comme procédure de sécurité de dernier recours. Nos résultats suggèrent que l'orientation ciblée et interprétable des poids est un mécanisme peu coûteux et puissant pour améliorer la sécurité des LLMs, complétant ainsi les paradigmes de fine-tuning plus gourmands en ressources.
Dans cet article, nous présentons OneReward, un cadre unifié d'apprentissage par renforcement qui améliore les capacités génératives du modèle sur plusieurs tâches sous différents critères d'évaluation en utilisant un seul modèle de récompense. En employant un unique modèle vision-langage (VLM) comme modèle de récompense générative, capable de distinguer le gagnant et le perdant pour une tâche et un critère d'évaluation donnés, il peut être efficacement appliqué à des modèles de génération multi-tâches, en particulier dans des contextes impliquant des données variées et des objectifs de tâches diversifiés. Nous utilisons OneReward pour la génération d'images guidée par masque, qui peut être subdivisée en plusieurs sous-tâches telles que le remplissage d'image, l'extension d'image, la suppression d'objet et le rendu de texte, impliquant un masque binaire comme zone d'édition. Bien que ces tâches spécifiques partagent le même paradigme de conditionnement, elles diffèrent significativement dans les distributions de données sous-jacentes et les métriques d'évaluation. Les méthodes existantes reposent souvent sur un ajustement fin supervisé (SFT) spécifique à la tâche, ce qui limite la généralisation et l'efficacité de l'entraînement. En nous appuyant sur OneReward, nous développons Seedream 3.0 Fill, un modèle de génération guidée par masque entraîné via un apprentissage par renforcement multi-tâches directement sur un modèle de base pré-entraîné, éliminant ainsi le besoin d'un SFT spécifique à la tâche. Les résultats expérimentaux montrent que notre modèle d'édition unifié surpasse de manière constante les concurrents commerciaux et open-source, tels qu'Ideogram, Adobe Photoshop et FLUX Fill [Pro], sur plusieurs dimensions d'évaluation. Le code et le modèle sont disponibles à l'adresse : https://one-reward.github.io
Les modèles de langage augmentés par des outils, équipés de capacités de recherche, de mémoire ou d'API externes, sont en train de transformer l'IA, bien que leurs avantages théoriques restent sous-explorés. Dans cet article, nous abordons cette question en démontrant les bénéfices de l'apprentissage par outils (recherche externe) par rapport à l'apprentissage par poids (mémorisation) pour le rappel de faits. Nous montrons que le nombre de faits qu'un modèle peut mémoriser uniquement dans ses poids est fondamentalement limité par son nombre de paramètres. En revanche, nous prouvons que l'utilisation d'outils permet un rappel de faits illimité grâce à une construction de circuit simple et efficace. Ces résultats sont validés dans des expériences contrôlées, où les modèles utilisant des outils surpassent systématiquement ceux qui reposent sur la mémorisation. Nous montrons en outre que pour les grands modèles de langage pré-entraînés, enseigner l'utilisation d'outils et des règles générales est plus efficace que le fine-tuning de faits en mémoire. Notre travail fournit à la fois une base théorique et empirique, établissant pourquoi les workflows augmentés par des outils ne sont pas seulement pratiques, mais aussi prouvés comme étant plus évolutifs.
Les modèles récents Vision-Langage-Action (VLA) construits sur des modèles Vision-Langage (VLM) pré-entraînés nécessitent un post-entraînement intensif, entraînant un surcoût computationnel important qui limite leur évolutivité et leur déploiement. Nous proposons CogVLA, un cadre Vision-Langage-Action aligné sur la cognition qui exploite le routage piloté par instructions et la sparsification pour améliorer à la fois l'efficacité et les performances. CogVLA s'inspire de la coordination multimodale humaine et introduit une architecture progressive en 3 étapes. 1) Le routage d'agrégation basé sur Encoder-FiLM (EFA-Routing) injecte des informations d'instructions dans l'encodeur visuel pour agréger et compresser de manière sélective les tokens visuels en double flux, formant ainsi une représentation latente sensible aux instructions. 2) S'appuyant sur cet encodage visuel compact, le routage d'élagage basé sur LLM-FiLM (LFP-Routing) introduit l'intention d'action dans le modèle de langage en élaguant les tokens visuels non pertinents pour les instructions, atteignant ainsi une sparsité au niveau des tokens. 3) Pour garantir que les entrées de perception compressées puissent toujours soutenir une génération d'actions précise et cohérente, nous introduisons l'attention couplée V-L-A (CAtten), qui combine l'attention causale vision-langage avec un décodage parallèle bidirectionnel des actions. Des expériences approfondies sur le benchmark LIBERO et des tâches robotiques réelles démontrent que CogVLA atteint des performances de pointe avec des taux de réussite de 97,4 % et 70,0 %, respectivement, tout en réduisant les coûts d'entraînement par un facteur de 2,5 et en diminuant la latence d'inférence par un facteur de 2,8 par rapport à OpenVLA. CogVLA est open-source et disponible publiquement à l'adresse https://github.com/JiuTian-VL/CogVLA.
Les grands modèles de langage (LLMs) peuvent éprouver des difficultés à équilibrer leur crédulité face à la désinformation et leur résistance aux corrections valides dans les dialogues persuasifs, un défi crucial pour un déploiement fiable. Nous présentons DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), un cadre d'évaluation des dynamiques de changement de position sur plusieurs tours selon deux dimensions : le type de persuasion (corrective/trompeuse) et le domaine (connaissance via MMLU-Pro, et sécurité via SALAD-Bench). Nous constatons que même un modèle de pointe comme GPT-4o n'atteint que 27,32 % de précision dans MMLU-Pro sous l'effet de persuasions trompeuses soutenues. De plus, les résultats révèlent une tendance inquiétante à l'augmentation de la flagornerie dans les modèles open-source plus récents. Pour y remédier, nous introduisons Holistic DPO, une approche d'entraînement qui équilibre les exemples de persuasion positifs et négatifs. Contrairement à l'incitation ou à l'entraînement axé uniquement sur la résistance, Holistic DPO améliore à la fois la robustesse face à la désinformation et la réceptivité aux corrections, augmentant la précision de Llama-3.1-8B-Instruct sous persuasion trompeuse dans des contextes de sécurité de 4,21 % à 76,54 %. Ces contributions offrent une voie pour développer des LLMs plus fiables et adaptables pour les dialogues multi-tours. Le code est disponible à l'adresse https://github.com/Social-AI-Studio/DuET-PD.
Nous présentons FakeParts, une nouvelle classe de deepfakes caractérisée par des manipulations subtiles et localisées de régions spatiales ou de segments temporels spécifiques dans des vidéos par ailleurs authentiques. Contrairement aux contenus entièrement synthétiques, ces manipulations partielles, allant d'expressions faciales altérées à des substitutions d'objets et des modifications de l'arrière-plan, s'intègrent de manière fluide avec les éléments réels, les rendant particulièrement trompeuses et difficiles à détecter. Pour combler cette lacune critique en matière de détection, nous proposons FakePartsBench, le premier ensemble de données de référence à grande échelle spécialement conçu pour capturer toute la gamme des deepfakes partiels. Composé de plus de 25 000 vidéos avec des annotations de manipulation au niveau des pixels et des images, notre ensemble de données permet une évaluation complète des méthodes de détection. Nos études utilisateurs montrent que FakeParts réduit la précision de détection humaine de plus de 30 % par rapport aux deepfakes traditionnels, avec une dégradation similaire observée dans les modèles de détection de pointe. Ce travail met en lumière une vulnérabilité urgente dans les approches actuelles de détection des deepfakes et fournit les ressources nécessaires pour développer des méthodes plus robustes contre les manipulations vidéo partielles.
La suppression d'objets dans les vidéos a atteint des performances avancées grâce aux récents succès des modèles génératifs vidéo. Cependant, lorsqu'il s'agit de traiter les effets secondaires des objets, tels que leurs ombres et réflexions, les travaux existants peinent à éliminer ces effets en raison de la rareté des données vidéo appariées utilisées comme supervision. Cet article présente ROSE, acronyme de Remove Objects with Side Effects, un cadre qui étudie systématiquement les effets des objets sur l'environnement, lesquels peuvent être catégorisés en cinq cas courants : ombres, réflexions, lumière, translucidité et miroir. Face aux défis liés à la curation de vidéos appariées présentant ces effets, nous exploitons un moteur de rendu 3D pour la génération de données synthétiques. Nous construisons soigneusement un pipeline entièrement automatique pour la préparation des données, simulant un ensemble de données appariées à grande échelle avec des scènes, objets, angles de prise de vue et trajectoires de caméra variés. ROSE est implémenté comme un modèle de réparation vidéo basé sur un transformateur de diffusion. Pour localiser toutes les zones corrélées aux objets, la vidéo entière est introduite dans le modèle pour une suppression basée sur la référence. De plus, une supervision supplémentaire est introduite pour prédire explicitement les zones affectées par les effets secondaires, qui peuvent être révélées par le masque différentiel entre les vidéos appariées. Pour étudier pleinement les performances du modèle sur l'élimination de divers effets secondaires, nous présentons un nouveau benchmark, baptisé ROSE-Bench, intégrant à la fois des scènes courantes et les cinq effets secondaires spécifiques pour une évaluation complète. Les résultats expérimentaux démontrent que ROSE atteint des performances supérieures par rapport aux modèles existants de suppression d'objets vidéo et généralise bien aux scénarios vidéo du monde réel. La page du projet est disponible à l'adresse suivante : https://rose2025-inpaint.github.io/.
Nous présentons Dress&Dance, un framework de diffusion vidéo qui génère des vidéos d'essayage virtuel de haute qualité d'une durée de 5 secondes à 24 images par seconde et une résolution de 1152x720 pixels, montrant un utilisateur portant des vêtements souhaités tout en se déplaçant selon une vidéo de référence donnée. Notre approche nécessite une seule image de l'utilisateur et prend en charge une gamme de hauts, de bas et de vêtements une pièce, ainsi que l'essayage simultané de hauts et de bas en une seule passe. Un élément clé de notre framework est CondNet, un réseau de conditionnement novateur qui exploite l'attention pour unifier des entrées multimodales (texte, images et vidéos), améliorant ainsi l'enregistrement des vêtements et la fidélité du mouvement. CondNet est entraîné sur des données hétérogènes, combinant un ensemble limité de vidéos et un ensemble d'images plus large et plus facilement disponible, de manière progressive et en plusieurs étapes. Dress&Dance surpasse les solutions open source et commerciales existantes et offre une expérience d'essayage de haute qualité et flexible.
Le contenu 3D possède intrinsèquement des caractéristiques multimodales et peut être projeté dans différentes modalités (par exemple, images RVB, RVBD et nuages de points). Chaque modalité présente des avantages distincts dans la modélisation d'actifs 3D : les images RVB contiennent des textures 3D vives, tandis que les nuages de points définissent des géométries 3D fines. Cependant, la plupart des architectures génératives natives 3D existantes opèrent principalement dans des paradigmes unimodaux, négligeant ainsi les avantages complémentaires des données multimodales, ou se limitent aux structures 3D, restreignant ainsi l'étendue des ensembles de données d'entraînement disponibles. Pour exploiter de manière holistique les multimodalities dans la modélisation 3D, nous présentons TriMM, le premier modèle génératif natif 3D à propagation directe qui apprend à partir de multimodalities de base (par exemple, RVB, RVBD et nuage de points). Plus précisément, 1) TriMM introduit d'abord un codage multimodal collaboratif, qui intègre des caractéristiques spécifiques à chaque modalité tout en préservant leurs forces représentatives uniques. 2) En outre, des supervisions auxiliaires 2D et 3D sont introduites pour renforcer la robustesse et les performances du codage multimodal. 3) Sur la base du code multimodal intégré, TriMM utilise un modèle de diffusion latente triplan pour générer des actifs 3D de qualité supérieure, améliorant à la fois la texture et le détail géométrique. Des expériences approfondies sur plusieurs ensembles de données bien connus démontrent que TriMM, en exploitant efficacement la multimodalité, atteint des performances compétitives avec des modèles entraînés sur des ensembles de données à grande échelle, malgré l'utilisation d'une petite quantité de données d'entraînement. De plus, nous menons des expériences supplémentaires sur des ensembles de données RVB-D récents, vérifiant la faisabilité d'intégrer d'autres ensembles de données multimodales dans la génération 3D.
Alors que les dialogues multi-tours avec les grands modèles de langage (LLM) deviennent plus longs et plus complexes, comment les utilisateurs peuvent-ils mieux évaluer et suivre l'avancement de leurs objectifs conversationnels ? Nous présentons OnGoal, une interface de chat basée sur un LLM qui aide les utilisateurs à mieux gérer la progression de leurs objectifs. OnGoal fournit un retour en temps réel sur l'alignement des objectifs grâce à une évaluation assistée par le LLM, des explications des résultats d'évaluation accompagnées d'exemples, et des aperçus de la progression des objectifs au fil du temps, permettant aux utilisateurs de naviguer plus efficacement dans des dialogues complexes. À travers une étude menée avec 20 participants sur une tâche d'écriture, nous avons évalué OnGoal par rapport à une interface de chat de base sans suivi d'objectifs. En utilisant OnGoal, les participants ont passé moins de temps et d'efforts pour atteindre leurs objectifs tout en explorant de nouvelles stratégies de prompt pour surmonter les malentendus, suggérant que le suivi et la visualisation des objectifs peuvent améliorer l'engagement et la résilience dans les dialogues avec les LLM. Nos résultats ont inspiré des implications de conception pour les futures interfaces de chat basées sur les LLM, visant à améliorer la communication des objectifs, réduire la charge cognitive, renforcer l'interactivité, et permettre un retour d'information pour améliorer la performance des LLM.
Les comportements sociaux humains sont intrinsèquement multimodaux, ce qui nécessite le développement de modèles audiovisuels puissants pour leur perception. Dans cet article, nous présentons Social-MAE, notre autoencodeur masqué audiovisuel pré-entraîné basé sur une version étendue du Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), qui est pré-entraîné sur des données audiovisuelles sociales. Plus précisément, nous modifions CAV-MAE pour qu'il reçoive un plus grand nombre d'images en entrée et nous le pré-entraînons sur un vaste ensemble de données d'interactions sociales humaines (VoxCeleb2) de manière auto-supervisée. Nous démontrons l'efficacité de ce modèle en l'affinant et en l'évaluant sur différentes tâches sociales et affectives en aval, à savoir la reconnaissance des émotions, la détection des rires et l'estimation de la personnalité apparente. Le modèle obtient des résultats de pointe en reconnaissance multimodale des émotions et en reconnaissance des rires, ainsi que des résultats compétitifs pour l'estimation de la personnalité apparente, démontrant ainsi l'efficacité d'un pré-entraînement auto-supervisé dans le domaine. Le code et les poids du modèle sont disponibles ici : https://github.com/HuBohy/SocialMAE.