papers.description
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment émergé comme un paradigme clé pour l'entraînement post-formation des modèles de langage de grande taille (LLMs), en particulier pour les tâches de raisonnement complexe. Cependant, il a été démontré que l'entraînement RLVR standard améliore la performance Pass@1 au détriment de l'entropie de la politique, conduisant à une réduction de la diversité de génération et limitant la performance Pass@k, qui représente généralement la limite supérieure de la capacité de raisonnement des LLMs. Dans cet article, nous analysons systématiquement la diversité de génération de la politique du point de vue des problèmes d'entraînement et constatons que l'augmentation et la mise à jour des problèmes d'entraînement aident à atténuer l'effondrement de l'entropie pendant l'entraînement. Sur la base de ces observations, nous proposons une stratégie d'auto-jeu en ligne avec synthèse variationnelle de problèmes (SvS) pour l'entraînement RLVR, qui utilise les solutions correctes de la politique pour synthétiser des problèmes variationnels tout en garantissant que leurs réponses de référence restent identiques aux originaux. Cette stratégie d'auto-amélioration maintient efficacement l'entropie de la politique pendant l'entraînement et améliore considérablement Pass@k par rapport au RLVR standard, soutenant des améliorations prolongées et obtenant des gains absolus de 18,3 % et 22,8 % dans la performance Pass@32 sur les benchmarks de niveau compétition AIME24 et AIME25. Les expériences sur 12 benchmarks de raisonnement couvrant des tailles de modèles variant de 3B à 32B démontrent de manière cohérente la généralisabilité et la robustesse de SvS.
Dans cet article, nous introduisons un nouveau paradigme d'apprentissage pour les agents adaptatifs de modèles de langage de grande taille (LLM) qui élimine la nécessité de procéder à un ajustement fin des LLM sous-jacents. Les approches existantes sont souvent soit rigides, reposant sur des workflows de réflexion statiques et conçus manuellement, soit intensives en calcul, nécessitant des mises à jour par gradient des paramètres du modèle LLM. En revanche, notre méthode permet une adaptation continue à faible coût via un apprentissage par renforcement en ligne basé sur la mémoire. Nous formalisons cela sous la forme d'un processus de décision markovien augmenté par la mémoire (M-MDP), équipé d'une politique de sélection de cas neuronale pour guider les décisions d'action. Les expériences passées sont stockées dans une mémoire épisodique, soit différentiable, soit non paramétrique. La politique est continuellement mise à jour en fonction des retours d'expérience environnementaux grâce à un mécanisme de réécriture de la mémoire, tandis que l'amélioration de la politique est obtenue par une lecture efficace de la mémoire (récupération). Nous instancions notre modèle d'agent dans le cadre de la recherche approfondie, notamment AgentFly, qui atteint la première place sur la validation GAIA (87,88 % Pass@3) et 79,40 % sur l'ensemble de test. Il atteint 66,6 % de F1 et 80,4 % de PM sur le jeu de données DeepResearcher, surpassant la méthode basée sur l'entraînement de pointe, tandis que la mémoire basée sur les cas ajoute de 4,7 % à 9,6 % de points absolus sur les tâches hors distribution. Notre approche offre une voie évolutive et efficace pour développer des agents LLM généralistes capables d'un apprentissage continu en temps réel sans mises à jour par gradient, faisant progresser l'apprentissage automatique vers l'acquisition de compétences ouvertes et les scénarios de recherche approfondie. Le code est disponible à l'adresse https://github.com/Agent-on-the-Fly/AgentFly.
La manipulation mobile guidée par le langage sur des horizons temporels longs constitue depuis longtemps un défi majeur dans le raisonnement sémantique incarné, la manipulation généralisable et la locomotion adaptative. Trois limitations fondamentales entravent les progrès dans ce domaine : Premièrement, bien que les grands modèles de langage aient amélioré le raisonnement spatial et la planification des tâches grâce à des connaissances sémantiques préalables, les implémentations existantes restent confinées à des scénarios de table, ne parvenant pas à répondre aux contraintes de perception et aux limites d'action des plateformes mobiles. Deuxièmement, les stratégies de manipulation actuelles montrent une généralisation insuffisante face aux configurations d'objets variées rencontrées dans des environnements ouverts. Troisièmement, bien que cruciale pour un déploiement pratique, la double exigence de maintenir une grande maniabilité de la plateforme tout en assurant un contrôle précis de l'effecteur terminal dans des environnements non structurés reste peu étudiée. Dans ce travail, nous présentons ODYSSEY, un cadre unifié de manipulation mobile pour des robots quadrupèdes agiles équipés de manipulateurs, qui intègre de manière fluide la planification de tâches de haut niveau avec le contrôle global de bas niveau. Pour relever le défi de la perception égocentrique dans les tâches conditionnées par le langage, nous introduisons un planificateur hiérarchique alimenté par un modèle vision-langage, permettant la décomposition d'instructions sur des horizons longs et l'exécution précise des actions. Au niveau du contrôle, notre nouvelle politique de contrôle global permet une coordination robuste sur des terrains difficiles. Nous présentons également le premier benchmark pour la manipulation mobile sur des horizons longs, évaluant divers scénarios en intérieur et en extérieur. Grâce à un transfert réussi du simulateur au monde réel, nous démontrons la généralisation et la robustesse du système dans des déploiements réels, soulignant la praticité des manipulateurs à pattes dans des environnements non structurés. Notre travail fait progresser la faisabilité d'assistants robotiques généralisés capables d'effectuer des tâches complexes et dynamiques. Notre page de projet : https://kaijwang.github.io/odyssey.github.io/
Alors que la synthèse vidéo exocentrique a réalisé des progrès significatifs, la génération de vidéos égocentriques reste largement inexplorée, nécessitant la modélisation de contenus en vue à la première personne ainsi que des motifs de mouvement de la caméra induits par les mouvements corporels du porteur. Pour combler cette lacune, nous introduisons une nouvelle tâche de génération conjointe de vidéos égocentriques et de mouvements humains, caractérisée par deux défis majeurs : 1) **Alignement des points de vue** : la trajectoire de la caméra dans la vidéo générée doit s'aligner précisément avec la trajectoire de la tête dérivée du mouvement humain ; 2) **Interaction causale** : le mouvement humain synthétisé doit s'aligner causalement avec la dynamique visuelle observée entre les images vidéo adjacentes. Pour relever ces défis, nous proposons **EgoTwin**, un cadre de génération conjointe vidéo-mouvement basé sur l'architecture de transformateur de diffusion. Plus précisément, EgoTwin introduit une représentation du mouvement centrée sur la tête, qui ancre le mouvement humain à l'articulation de la tête, et intègre un mécanisme d'interaction inspiré de la cybernétique qui capture explicitement l'interaction causale entre la vidéo et le mouvement au sein des opérations d'attention. Pour une évaluation complète, nous avons constitué un ensemble de données à grande échelle de triplets texte-vidéo-mouvement synchronisés provenant du monde réel et conçu de nouvelles métriques pour évaluer la cohérence vidéo-mouvement. Des expériences approfondies démontrent l'efficacité du cadre EgoTwin.
Alors que les grands modèles de langage (LLMs) sont de plus en plus déployés dans des applications réelles, la nécessité de supprimer sélectivement les connaissances indésirables tout en préservant l'utilité du modèle est devenue primordiale. Des travaux récents ont exploré l'utilisation d'autoencodeurs épars (SAEs) pour effectuer des interventions précises sur des caractéristiques monosémantiques. Cependant, la plupart des méthodes basées sur les SAEs opèrent au moment de l'inférence, ce qui ne crée pas de changements persistants dans les paramètres du modèle. De telles interventions peuvent être contournées ou inversées par des acteurs malveillants ayant accès aux paramètres. Nous présentons CRISP, une méthode économe en paramètres pour l'oubli persistant de concepts utilisant les SAEs. CRISP identifie automatiquement les caractéristiques saillantes des SAEs à travers plusieurs couches et supprime leurs activations. Nous expérimentons avec deux LLMs et montrons que notre méthode surpasse les approches antérieures sur des tâches critiques d'oubli du benchmark WMDP, supprimant avec succès les connaissances nuisibles tout en préservant les capacités générales et spécifiques au domaine. Une analyse au niveau des caractéristiques révèle que CRISP réalise une séparation sémantiquement cohérente entre les concepts cibles et bénins, permettant une suppression précise des caractéristiques cibles.
Faciliter l'interaction d'une entité avec des objets nécessite d'identifier avec précision les parties qui permettent des actions spécifiques. L'ancrage d'affordance faiblement supervisé (WSAG) vise à imiter l'apprentissage humain à partir de démonstrations à la troisième personne, où les humains saisissent intuitivement les parties fonctionnelles sans avoir besoin d'annotations au niveau des pixels. Pour y parvenir, l'ancrage est généralement appris en utilisant un classifieur partagé à travers des images provenant de perspectives différentes, ainsi que des stratégies de distillation intégrant un processus de découverte de parties. Cependant, puisque les parties pertinentes pour l'affordance ne sont pas toujours facilement distinguables, les modèles s'appuient principalement sur la classification, se concentrant souvent sur des motifs spécifiques à la classe qui ne sont pas liés à l'affordance. Pour surmonter cette limitation, nous allons au-delà de l'apprentissage isolé au niveau des parties en introduisant des objectifs de contraste prototypique et pixel sélectifs qui apprennent de manière adaptative les indices pertinents pour l'affordance à la fois au niveau des parties et des objets, en fonction de la granularité des informations disponibles. Initialement, nous identifions les objets associés à l'action dans des images égocentriques (centrées sur l'objet) et exocentriques (exemples à la troisième personne) en exploitant CLIP. Ensuite, en recoupant les objets découverts dans des vues complémentaires, nous extrayons les indices précis d'affordance au niveau des parties dans chaque perspective. En apprenant de manière cohérente à distinguer les régions pertinentes pour l'affordance du contexte de fond non pertinent, notre approche déplace efficacement l'activation des zones non pertinentes vers des indices d'affordance significatifs. Les résultats expérimentaux démontrent l'efficacité de notre méthode. Les codes sont disponibles sur github.com/hynnsk/SelectiveCL.
La programmation compétitive est devenue un critère essentiel pour évaluer les capacités de raisonnement et de codage des modèles de langage de grande taille (LLM). Malgré des progrès impressionnants sur les benchmarks existants, nous soutenons que les évaluations actuelles surestiment la maîtrise des modèles, masquant un écart important entre les LLM et les programmeurs humains d'élite. Cet écart découle de deux limitations majeures : une difficulté et une portée insuffisantes des problèmes de benchmark, ainsi qu'un biais d'évaluation dû à des cas de test de faible qualité. Pour remédier à ces lacunes, nous présentons AetherCode, un nouveau benchmark qui puise ses problèmes dans des compétitions de programmation prestigieuses telles que l'IOI et l'ICPC, offrant une couverture plus large et une difficulté accrue. AetherCode intègre en outre des suites de tests exhaustives et validées par des experts, construites grâce à une combinaison de génération automatisée et de curation humaine, garantissant une évaluation rigoureuse et fiable. En associant une conception de problèmes exigeante à une évaluation robuste, AetherCode fournit une mesure plus fidèle des capacités des LLM et établit une nouvelle norme pour les recherches futures sur le raisonnement en code.
Portés par les avancées rapides des modèles de langage à grande échelle (LLMs), les agents sont désormais capables de combiner des connaissances intrinsèques avec l’utilisation dynamique d’outils, améliorant ainsi considérablement leur capacité à traiter des tâches du monde réel. Dans cette lignée, AgentScope introduit des améliorations majeures dans une nouvelle version (1.0), visant à soutenir de manière exhaustive des interactions flexibles et efficaces entre agents et environnement basées sur des outils, pour la construction d’applications agentiques. Plus précisément, nous avons abstrait les composants fondamentaux essentiels aux applications agentiques et fourni des interfaces unifiées ainsi que des modules extensibles, permettant aux développeurs d’exploiter facilement les dernières avancées, telles que les nouveaux modèles et MCPs. De plus, nous ancrons les comportements des agents dans le paradigme ReAct et proposons une infrastructure avancée au niveau des agents basée sur une conception asynchrone systématique, enrichissant ainsi les modèles d’interaction humain-agent et agent-agent tout en améliorant l’efficacité d’exécution. Sur cette base, nous intégrons plusieurs agents prédéfinis adaptés à des scénarios pratiques spécifiques. AgentScope inclut également un support d’ingénierie robuste pour une expérience conviviale pour les développeurs. Nous proposons un module d’évaluation scalable avec une interface de studio visuel, rendant le développement d’applications agentiques à trajectoire longue plus gérable et plus facile à tracer. En outre, AgentScope offre un bac à sable d’exécution pour garantir une exécution sécurisée des agents et facilite un déploiement rapide dans des environnements de production. Avec ces améliorations, AgentScope fournit une base pratique pour construire des applications agentiques scalables, adaptatives et efficaces.
Le diagnostic précis avec les grands modèles de langage médicaux est entravé par des lacunes de connaissances et des hallucinations. Les méthodes de récupération et d'augmentation par outils aident, mais leur impact est limité par une utilisation faible des connaissances externes et une traçabilité médiocre du raisonnement basé sur les retours. Pour relever ces défis, nous introduisons Deep-DxSearch, un système RAG agentique entraîné de bout en bout par apprentissage par renforcement (RL) qui permet un raisonnement augmenté par récupération traçable pour le diagnostic médical. Dans Deep-DxSearch, nous construisons d'abord un corpus de récupération médicale à grande échelle comprenant des dossiers patients et des sources de connaissances médicales fiables pour soutenir un raisonnement conscient de la récupération dans divers scénarios diagnostiques. Plus crucialement, nous positionnons le LLM comme l'agent central et le corpus de récupération comme son environnement, en utilisant des récompenses adaptées sur le format, la récupération, la structure du raisonnement et la précision diagnostique, faisant ainsi évoluer la politique RAG agentique à partir de données à grande échelle via le RL. Les expériences démontrent que notre cadre d'entraînement RL agentique de bout en bout surpasse systématiquement les approches RAG basées sur l'ingénierie des prompts et sans entraînement dans plusieurs centres de données. Après entraînement, Deep-DxSearch obtient des gains substantiels en précision diagnostique, surpassant des références diagnostiques solides telles que GPT-4o, DeepSeek-R1 et d'autres cadres spécifiques à la médecine pour le diagnostic de maladies courantes et rares dans des contextes de distribution interne et externe. De plus, des études d'ablation sur la conception des récompenses et les composants du corpus de récupération confirment leurs rôles critiques, soulignant l'unicité et l'efficacité de notre approche par rapport aux implémentations traditionnelles. Enfin, des études de cas et des analyses d'interprétabilité mettent en lumière les améliorations apportées à la politique diagnostique de Deep-DxSearch, offrant un aperçu plus approfondi de ses gains de performance et aidant les cliniciens à fournir des diagnostics préliminaires plus fiables et précis. Voir https://github.com/MAGIC-AI4Med/Deep-DxSearch.
Les méthodes récentes d'édition vidéo obtiennent des résultats attrayants en transfert de style ou en modification d'apparence. Cependant, éditer le contenu structurel de scènes 3D dans des vidéos reste un défi, en particulier lorsqu'il s'agit de changements de point de vue significatifs, tels que des rotations ou des zooms importants de la caméra. Les principaux défis incluent la génération de contenus de nouvelles vues qui restent cohérents avec la vidéo originale, la préservation des régions non éditées, et la traduction d'entrées 2D éparses en sorties vidéo 3D réalistes. Pour résoudre ces problèmes, nous proposons Sketch3DVE, une méthode d'édition vidéo 3D basée sur des croquis permettant une manipulation locale détaillée de vidéos avec des changements de point de vue significatifs. Pour relever le défi posé par les entrées éparses, nous utilisons des méthodes d'édition d'images pour générer des résultats édités pour la première image, qui sont ensuite propagés aux images restantes de la vidéo. Nous utilisons le croquis comme outil d'interaction pour un contrôle géométrique précis, tout en prenant également en charge d'autres méthodes d'édition d'images basées sur des masques. Pour gérer les changements de point de vue, nous effectuons une analyse et une manipulation détaillées des informations 3D dans la vidéo. Plus précisément, nous utilisons une méthode stéréo dense pour estimer un nuage de points et les paramètres de la caméra de la vidéo d'entrée. Nous proposons ensuite une approche d'édition de nuage de points qui utilise des cartes de profondeur pour représenter la géométrie 3D des nouveaux composants édités, les alignant efficacement avec la scène 3D originale. Pour fusionner de manière transparente le nouveau contenu édité avec la vidéo originale tout en préservant les caractéristiques des régions non éditées, nous introduisons une stratégie de propagation de masque 3D et utilisons un modèle de diffusion vidéo pour produire des vidéos éditées réalistes. Des expériences approfondies démontrent la supériorité de Sketch3DVE en matière d'édition vidéo. Page d'accueil et code : http://geometrylearning.com/Sketch3DVE/
Récemment, les modèles Vision-Langage-Action (VLA) ont démontré des performances solides sur une gamme de tâches robotiques. Ces modèles s'appuient sur des entrées multimodales, où les instructions linguistiques jouent un rôle crucial — non seulement pour prédire les actions, mais aussi pour interpréter de manière robuste l'intention de l'utilisateur, même lorsque les demandes sont impossibles à satisfaire. Dans ce travail, nous étudions comment les VLA peuvent reconnaître, interpréter et répondre à des instructions fondées sur des prémisses fausses : des commandes en langage naturel qui font référence à des objets ou des conditions absents de l'environnement. Nous proposons Instruct-Verify-and-Act (IVA), un cadre unifié qui (i) détecte quand une instruction ne peut pas être exécutée en raison d'une prémisse fausse, (ii) engage une clarification ou une correction basée sur le langage, et (iii) ancre des alternatives plausibles dans la perception et l'action. À cette fin, nous construisons un dispositif d'ajustement d'instructions à grande échelle avec des invites linguistiques structurées et entraînons un modèle VLA capable de gérer à la fois des demandes précises et erronées. Notre approche exploite un ensemble de données semi-synthétiques contextuellement augmenté contenant des paires d'instructions positives et fondées sur des prémisses fausses, permettant une détection robuste et une correction en langage naturel. Nos expériences montrent qu'IVA améliore la précision de détection des prémisses fausses de 97,56 % par rapport aux modèles de référence, tout en augmentant les réponses réussies dans les scénarios de prémisses fausses de 50,78 %.
L'Attention Latente Multi-Têtes (Multi-Head Latent Attention, MLA), introduite dans DeepSeek-V2, compresse les états clé-valeur en un vecteur latent de faible rang, ne conservant en mémoire que ce vecteur pour réduire l'utilisation de la mémoire. Cependant, dans le parallélisme tensoriel (Tensor Parallelism, TP), les têtes d'attention sont calculées sur plusieurs dispositifs, et chaque dispositif doit charger l'intégralité du cache, ce qui réduit l'avantage de MLA par rapport à l'Attention par Requêtes Groupées (Grouped Query Attention, GQA). Nous proposons l'Attention Latente Parallèle Tensorielle (Tensor-Parallel Latent Attention, TPLA) : un schéma qui partitionne à la fois la représentation latente et la dimension d'entrée de chaque tête sur plusieurs dispositifs, effectue l'attention indépendamment par fragment, puis combine les résultats avec une opération de réduction globale (all-reduce). TPLA préserve les avantages d'un cache KV compressé tout en exploitant l'efficacité du TP. Contrairement à l'Attention Latente Groupée (Grouped Latent Attention, GLA), chaque tête dans TPLA exploite toujours la représentation latente complète, conservant ainsi une capacité de représentation plus forte. TPLA est compatible sans modification avec les modèles pré-entraînés utilisant MLA : il prend en charge le pré-remplissage de style MLA et permet un décodage parallèle tensoriel efficace sans nécessiter de réentraînement. L'application de transformations orthogonales simples — par exemple, la transformée de Hadamard ou l'ACP (Analyse en Composantes Principales) — avant le découpage TP atténue davantage les interférences entre fragments, entraînant une dégradation minimale de la précision. En réduisant le cache KV par dispositif pour DeepSeek-V3 et Kimi-K2, nous obtenons des accélérations respectives de 1,79x et 1,93x pour une longueur de contexte de 32 000 tokens, tout en maintenant les performances sur les benchmarks de bon sens et LongBench. TPLA peut être implémenté avec FlashAttention-3, permettant une accélération pratique de bout en bout.
Le **3D Gaussian Splatting (3DGS)** a démontré une efficacité remarquable dans la synthèse de nouvelles vues (NVS). Cependant, il présente un inconvénient majeur : l’obtention d’un rendu haute fidélité nécessite généralement un grand nombre de Gaussiennes 3D, entraînant une consommation de mémoire et des besoins de stockage substantiels. Pour relever ce défi, nous proposons le premier cadre de **distillation de connaissances** pour le 3DGS, intégrant divers modèles enseignants, notamment le 3DGS standard, des variantes augmentées par bruit et des versions régularisées par dropout. Les sorties de ces enseignants sont agrégées pour guider l’optimisation d’un modèle étudiant léger. Pour distiller la structure géométrique cachée, nous proposons une **fonction de perte de similarité structurelle** afin d’améliorer la cohérence des distributions géométriques spatiales entre le modèle étudiant et le modèle enseignant. Grâce à des évaluations quantitatives et qualitatives approfondies sur divers jeux de données, le **Distilled-3DGS**, un cadre simple mais efficace sans fioritures, atteint des résultats de rendu prometteurs en termes de qualité de rendu et d’efficacité de stockage par rapport aux méthodes de pointe. Page du projet : https://distilled3dgs.github.io . Code : https://github.com/lt-xiang/Distilled-3DGS .
Les contours ou courbes planes fermées sont fréquents dans de nombreux domaines. Par exemple, ils apparaissent comme des limites d'objets en vision par ordinateur, des isolignes en météorologie, et les orbites de machines rotatives. Dans de nombreux cas, lors de l'apprentissage à partir de données de contours, les rotations planes de l'entrée entraîneront des sorties correspondamment tournées. Il est donc souhaitable que les modèles d'apprentissage profond soient équivariants par rotation. De plus, les contours sont généralement représentés comme une séquence ordonnée de points de bord, où le choix du point de départ est arbitraire. Il est donc également souhaitable que les méthodes d'apprentissage profond soient équivariantes sous les décalages cycliques. Nous présentons RotaTouille, un cadre d'apprentissage profond pour l'apprentissage à partir de données de contours qui atteint à la fois l'équivariance par rotation et par décalage cyclique grâce à la convolution circulaire à valeurs complexes. Nous introduisons et caractérisons en outre des non-linéarités équivariantes, des couches de grossissement et des couches de pooling global pour obtenir des représentations invariantes pour les tâches en aval. Enfin, nous démontrons l'efficacité de RotaTouille à travers des expériences en classification de formes, reconstruction et régression de contours.
Les modèles de langage de grande taille (LLMs) ont démontré des performances solides dans les tâches de raisonnement centrées sur l'humain. Bien que les évaluations précédentes aient exploré si les LLMs peuvent inférer des intentions ou détecter la tromperie, elles négligent souvent les styles de raisonnement individualisés qui influencent la manière dont les personnes interprètent et agissent dans des contextes sociaux. Les jeux de déduction sociale (SDGs) offrent un terrain d'essai naturel pour évaluer ces styles de raisonnement individualisés, où différents joueurs peuvent adopter des stratégies de raisonnement diverses mais contextuellement valides dans des conditions identiques. Pour aborder cette question, nous introduisons InMind, un cadre d'évaluation fondé sur la cognition conçu pour déterminer si les LLMs peuvent capturer et appliquer des styles de raisonnement personnalisés dans les SDGs. InMind enrichit les données structurées de jeu avec des traces de stratégie au niveau des tours et des réflexions post-jeu, collectées à la fois en mode Observateur et Participant. Il prend en charge quatre tâches motivées par la cognition qui évaluent conjointement l'alignement statique et l'adaptation dynamique. En tant qu'étude de cas, nous appliquons InMind au jeu Avalon, évaluant 11 LLMs de pointe. Les LLMs à usage général, même GPT-4o, s'appuient fréquemment sur des indices lexicaux, peinant à ancrer les réflexions dans la temporalité du jeu ou à s'adapter aux stratégies évolutives. En revanche, les LLMs améliorés pour le raisonnement, comme DeepSeek-R1, montrent des signes précoces de raisonnement sensible au style. Ces résultats révèlent des limitations clés dans la capacité des LLMs actuels à effectuer un raisonnement individualisé et adaptatif, et positionnent InMind comme une étape vers une interaction humain-IA alignée sur la cognition.
Dans l'estimation de la pose et de la forme humaine en 3D, SMPLify reste une référence robuste qui résout la cinématique inverse (IK) par optimisation itérative. Cependant, son coût computationnel élevé limite son utilité pratique. Les avancées récentes dans divers domaines ont montré que remplacer l'optimisation itérative par des réseaux de neurones pilotés par les données permet d'obtenir des gains significatifs en temps d'exécution sans sacrifier la précision. Motivés par cette tendance, nous proposons Learnable SMPLify, un cadre neuronal qui remplace le processus d'ajustement itératif de SMPLify par un modèle de régression en une seule passe. La conception de notre cadre cible deux défis majeurs dans l'IK neuronale : la construction des données et la généralisation. Pour permettre un entraînement efficace, nous proposons une stratégie d'échantillonnage temporel qui construit des paires d'initialisation-cible à partir de séquences d'images. Pour améliorer la généralisation à travers des mouvements divers et des poses inédites, nous proposons un schéma de normalisation centré sur l'humain et un apprentissage résiduel pour réduire l'espace des solutions. Learnable SMPLify prend en charge à la fois l'inférence séquentielle et le post-traitement en tant que module complémentaire pour affiner les estimateurs basés sur l'image existants. Des expériences approfondies démontrent que notre méthode s'impose comme une référence pratique et simple : elle atteint un temps d'exécution près de 200 fois plus rapide que SMPLify, généralise bien aux ensembles 3DPW et RICH inédits, et fonctionne de manière agnostique au modèle lorsqu'elle est utilisée comme outil complémentaire sur LucidAction. Le code est disponible à l'adresse https://github.com/Charrrrrlie/Learnable-SMPLify.
La capacité de raisonnement joue un rôle extrêmement critique dans les applications étendues des modèles de langage de grande taille (LLMs). Pour améliorer les performances de raisonnement des LLMs, diverses approches de fine-tuning basées sur l'apprentissage par renforcement (RL) ont été proposées afin de remédier à la capacité de généralisation limitée des LLMs entraînés uniquement par Fine-Tuning Supervisé (SFT). Malgré leur efficacité, deux limitations majeures entravent l'avancement des LLMs. Premièrement, les approches RL classiques ignorent les chaînes de pensée annotées (CoT) et intègrent un échantillonnage instable des chemins de raisonnement, ce qui entraîne généralement un effondrement du modèle, un processus d'entraînement instable et des performances sous-optimales. Deuxièmement, les approches SFT existantes mettent généralement trop l'accent sur les CoT annotées, ce qui peut conduire à une dégradation des performances en raison d'une exploitation insuffisante des CoT potentielles. Dans cet article, nous proposons une approche de Fine-Tuning Renforcé basée sur l'apprentissage contrastif avec des CoT annotées, appelée , pour améliorer les performances de raisonnement des LLMs tout en répondant aux limitations mentionnées ci-dessus. Plus précisément, nous proposons d'apprendre une représentation pour chaque CoT. Sur la base de cette représentation, nous concevons de nouveaux signaux contrastifs pour guider le processus de fine-tuning. Notre approche exploite pleinement les CoT annotées disponibles et stabilise la procédure de fine-tuning en incorporant un signal d'apprentissage non supervisé supplémentaire. Nous menons des expériences complètes et des analyses approfondies avec trois approches de référence, deux modèles de base et deux ensembles de données pour démontrer les avantages significatifs de en termes de robustesse, de performances (jusqu'à 10,15\%) et d'efficacité (jusqu'à 30,62\%). Le code est disponible à l'adresse https://github.com/WNQzhu/CARFT.
L'évaluation des attaques de type "jailbreak" est complexe lorsque les invites ne sont pas explicitement nuisibles ou ne parviennent pas à générer des sorties préjudiciables. Malheureusement, de nombreux ensembles de données existants pour les tests d'intrusion (red-teaming) contiennent de telles invites inadaptées. Pour évaluer ces attaques avec précision, ces ensembles de données doivent être examinés et nettoyés pour détecter les contenus malveillants. Cependant, les méthodes actuelles de détection de contenu malveillant reposent soit sur une annotation manuelle, qui est laborieuse, soit sur des modèles de langage à grande échelle (LLMs), dont la précision est inconstante pour les types de contenus nuisibles. Pour concilier précision et efficacité, nous proposons un cadre d'évaluation hybride nommé MDH (Détection de contenu malveillant basée sur les LLMs avec assistance humaine), qui combine l'annotation par LLM avec une supervision humaine minimale, et l'appliquons au nettoyage des ensembles de données et à la détection des réponses jailbroken. Par ailleurs, nous constatons que des messages bien conçus par les développeurs peuvent considérablement augmenter le succès des jailbreaks, ce qui nous amène à proposer deux nouvelles stratégies : D-Attack, qui exploite la simulation de contexte, et DH-CoT, qui intègre des chaînes de pensée détournées. Les codes, ensembles de données, jugements et résultats de détection seront publiés dans le dépôt GitHub : https://github.com/AlienZhang1996/DH-CoT.