papers.description
Ces dernières années, une pléthore de modèles de base open source ont émergé, réalisant des progrès remarquables dans certains domaines largement suivis, avec des performances très proches de celles des modèles propriétaires. Cependant, dans des domaines scientifiques professionnels à haute valeur mais plus exigeants, soit ces domaines continuent de s'appuyer sur des modèles experts, soit les progrès des modèles de base généraux accusent un retard significatif par rapport à ceux des domaines populaires, loin d'être suffisants pour transformer la recherche scientifique et laissant un écart substantiel entre les modèles open source et les modèles propriétaires dans ces domaines scientifiques. Pour combler cet écart et explorer une étape supplémentaire vers l'Intelligence Artificielle Générale (IAG), nous présentons Intern-S1, un généraliste spécialisé doté de capacités de compréhension et de raisonnement générales ainsi que d'une expertise pour analyser des données multimodales scientifiques. Intern-S1 est un modèle multimodal de type Mixture-of-Experts (MoE) avec 28 milliards de paramètres activés et 241 milliards de paramètres au total, pré-entraîné en continu sur 5 000 milliards de tokens, dont plus de 2 500 milliards de tokens provenant de domaines scientifiques. Lors de l'étape de post-entraînement, Intern-S1 subit un apprentissage par renforcement (RL) hors ligne puis en ligne dans InternBootCamp, où nous proposons une Mixture-of-Rewards (MoR) pour synchroniser l'entraînement RL sur plus de 1000 tâches simultanément. Grâce à des innovations intégrées dans les algorithmes, les données et les systèmes d'entraînement, Intern-S1 a atteint des performances de premier plan lors de l'entraînement RL en ligne. Sur des benchmarks d'évaluation complets, Intern-S1 démontre des performances compétitives sur les tâches de raisonnement général parmi les modèles open source et surpasse significativement les modèles open source dans les domaines scientifiques, dépassant même les modèles propriétaires de pointe dans des tâches professionnelles telles que la planification de synthèse moléculaire, la prédiction des conditions de réaction, et la prédiction des stabilités thermodynamiques des cristaux. Nos modèles sont disponibles à l'adresse https://huggingface.co/internlm/Intern-S1.
Les modèles de langage de grande taille (LLMs) ont démontré un potentiel considérable dans les tâches de raisonnement grâce à des méthodes de mise à l'échelle au moment du test, comme l'auto-cohérence avec vote majoritaire. Cependant, cette approche entraîne souvent des rendements décroissants en termes de précision et une surcharge computationnelle élevée. Pour relever ces défis, nous introduisons Deep Think with Confidence (DeepConf), une méthode simple mais puissante qui améliore à la fois l'efficacité du raisonnement et les performances au moment du test. DeepConf exploite les signaux de confiance internes au modèle pour filtrer dynamiquement les traces de raisonnement de faible qualité pendant ou après leur génération. Elle ne nécessite aucun entraînement supplémentaire du modèle ni réglage d'hyperparamètres et peut être intégrée de manière transparente dans les frameworks de service existants. Nous évaluons DeepConf sur une variété de tâches de raisonnement et les derniers modèles open-source, notamment Qwen 3 et la série GPT-OSS. De manière notable, sur des benchmarks exigeants comme AIME 2025, DeepConf@512 atteint jusqu'à 99,9 % de précision et réduit les tokens générés jusqu'à 84,7 % par rapport à une réflexion parallèle complète.
Cet article présente GUI-Owl, un modèle d'agent GUI fondamental qui atteint des performances de pointe parmi les modèles open-source de bout en bout sur dix benchmarks GUI couvrant les environnements de bureau et mobiles, incluant l'ancrage, la réponse à des questions, la planification, la prise de décision et les connaissances procédurales. GUI-Owl-7B obtient un score de 66,4 sur AndroidWorld et de 29,4 sur OSWorld. Sur cette base, nous proposons Mobile-Agent-v3, un cadre d'agent GUI polyvalent qui améliore encore les performances à 73,3 sur AndroidWorld et 37,7 sur OSWorld, établissant ainsi un nouveau record pour les cadres d'agents GUI open-source. GUI-Owl intègre trois innovations clés : (1) Infrastructure d'environnement à grande échelle : un environnement virtuel basé sur le cloud couvrant Android, Ubuntu, macOS et Windows, permettant notre cadre de production de trajectoires GUI auto-évolutif. Celui-ci génère des données d'interaction de haute qualité via la génération automatisée de requêtes et la validation de leur exactitude, en exploitant GUI-Owl pour affiner les trajectoires de manière itérative, formant ainsi une boucle d'auto-amélioration. Il prend en charge divers pipelines de données et réduit l'annotation manuelle. (2) Capacités fondamentales diversifiées de l'agent : en intégrant l'ancrage d'interface utilisateur, la planification, la sémantique des actions et les modèles de raisonnement, GUI-Owl prend en charge la prise de décision de bout en bout et peut servir de composant modulaire dans les systèmes multi-agents. (3) Apprentissage par renforcement scalable : nous développons un cadre d'apprentissage par renforcement scalable avec un entraînement entièrement asynchrone pour l'alignement avec le monde réel. Nous introduisons également l'Optimisation de Politique Relative basée sur les Trajectoires (TRPO) pour l'apprentissage par renforcement en ligne, atteignant un score de 34,9 sur OSWorld. GUI-Owl et Mobile-Agent-v3 sont open-source sur https://github.com/X-PLUG/MobileAgent.
L'appel d'outils est devenu une capacité essentielle pour les agents d'IA afin d'interagir avec le monde réel et de résoudre des tâches complexes. Bien que le Protocole de Contexte de Modèle (MCP) offre un cadre standardisé puissant pour l'intégration d'outils, il existe un écart significatif dans l'évaluation de la capacité des agents d'IA à résoudre efficacement des tâches à étapes multiples en utilisant divers outils MCP dans des scénarios réalistes et dynamiques. Dans ce travail, nous présentons LiveMCP-101, un benchmark de 101 requêtes soigneusement sélectionnées issues du monde réel, affinées par réécriture itérative via LLM et examen manuel, qui nécessitent l'utilisation coordonnée de plusieurs outils MCP, notamment la recherche web, les opérations sur fichiers, le raisonnement mathématique et l'analyse de données. De plus, nous introduisons une nouvelle approche d'évaluation qui exploite des plans d'exécution de référence plutôt que les sorties brutes d'API, reflétant mieux la nature évolutive des environnements réels. Les expériences montrent que même les LLM de pointe atteignent un taux de réussite inférieur à 60 %, mettant en évidence des défis majeurs dans l'orchestration d'outils. Des ablations détaillées et une analyse des erreurs révèlent en outre des modes d'échec distincts et des inefficacités dans l'utilisation des tokens, indiquant des directions concrètes pour faire progresser les modèles actuels. LiveMCP-101 établit une norme rigoureuse pour évaluer les capacités des agents dans le monde réel, avançant vers des systèmes d'IA autonomes qui exécutent de manière fiable des tâches complexes grâce à l'utilisation d'outils.
Nous présentons Waver, un modèle de base haute performance pour la génération unifiée d'images et de vidéos. Waver peut directement générer des vidéos d'une durée allant de 5 à 10 secondes à une résolution native de 720p, qui sont ensuite upscalées à 1080p. Le modèle prend simultanément en charge la génération de texte à vidéo (T2V), d'image à vidéo (I2V) et de texte à image (T2I) dans un cadre unique et intégré. Nous introduisons une architecture DiT à flux hybride pour améliorer l'alignement des modalités et accélérer la convergence de l'entraînement. Pour garantir la qualité des données d'entraînement, nous mettons en place un pipeline complet de curation des données et annotons manuellement et entraînons un modèle de qualité vidéo basé sur MLLM pour filtrer les échantillons de la plus haute qualité. De plus, nous fournissons des recettes détaillées pour l'entraînement et l'inférence afin de faciliter la génération de vidéos de haute qualité. Sur la base de ces contributions, Waver excelle dans la capture de mouvements complexes, atteignant une amplitude de mouvement supérieure et une cohérence temporelle dans la synthèse vidéo. Notamment, il se classe parmi les 3 premiers sur les classements T2V et I2V d'Artificial Analysis (données au 30/07/2025 10:00 GMT+8), surpassant systématiquement les modèles open-source existants et égalant ou dépassant les solutions commerciales de pointe. Nous espérons que ce rapport technique aidera la communauté à entraîner plus efficacement des modèles de génération vidéo de haute qualité et à accélérer les progrès dans les technologies de génération vidéo. Page officielle : https://github.com/FoundationVision/Waver.
La génération de contenu 3D a récemment suscité un intérêt de recherche significatif en raison de ses applications dans la réalité virtuelle/augmentée (VR/AR) et l'IA incarnée. Dans ce travail, nous abordons la tâche complexe de synthétiser plusieurs actifs 3D au sein d'une seule image de scène. Concrètement, nos contributions sont quadruples : (i) nous présentons SceneGen, un nouveau cadre de travail qui prend en entrée une image de scène et les masques d'objets correspondants, produisant simultanément plusieurs actifs 3D avec géométrie et texture. Notamment, SceneGen fonctionne sans nécessiter d'optimisation ou de récupération d'actifs ; (ii) nous introduisons un nouveau module d'agrégation de caractéristiques qui intègre des informations locales et globales de la scène à partir d'encodeurs visuels et géométriques au sein du module d'extraction de caractéristiques. Couplé avec une tête de position, cela permet la génération d'actifs 3D et de leurs positions spatiales relatives en une seule passe avant ; (iii) nous démontrons l'extensibilité directe de SceneGen aux scénarios d'entrée multi-images. Bien qu'entraîné uniquement sur des entrées à image unique, notre conception architecturale permet une amélioration des performances de génération avec des entrées multi-images ; et (iv) des évaluations quantitatives et qualitatives approfondies confirment l'efficacité et les capacités de génération robustes de notre approche. Nous croyons que ce paradigme offre une solution novatrice pour la génération de contenu 3D de haute qualité, potentiellement faisant progresser ses applications pratiques dans les tâches en aval. Le code et le modèle seront disponibles publiquement à l'adresse : https://mengmouxu.github.io/SceneGen.
Ces dernières années, avec le développement rapide de la profondeur et de l'étendue des capacités des grands modèles de langage, divers benchmarks d'évaluation correspondants ont émergé en nombre croissant. En tant qu'outil d'évaluation quantitative des performances des modèles, les benchmarks constituent non seulement un moyen central pour mesurer les capacités des modèles, mais aussi un élément clé pour orienter le développement des modèles et promouvoir l'innovation technologique. Nous passons en revue de manière systématique, pour la première fois, l'état actuel et l'évolution des benchmarks pour les grands modèles de langage, en classant 283 benchmarks représentatifs en trois catégories : capacités générales, domaines spécifiques et cibles spécifiques. Les benchmarks de capacités générales couvrent des aspects tels que la linguistique fondamentale, les connaissances et le raisonnement ; les benchmarks domaines spécifiques se concentrent sur des champs comme les sciences naturelles, les sciences humaines et sociales, et les technologies de l'ingénierie ; les benchmarks cibles spécifiques s'intéressent aux risques, à la fiabilité, aux agents, etc. Nous soulignons que les benchmarks actuels présentent des problèmes tels que des scores gonflés dus à la contamination des données, des évaluations injustes causées par des biais culturels et linguistiques, et un manque d'évaluation sur la crédibilité des processus et les environnements dynamiques, et nous proposons un paradigme de conception référentiel pour l'innovation future des benchmarks.
Les récents progrès des modèles de langage à grande échelle (LLMs) ont permis aux agents IA de générer de manière autonome des propositions scientifiques, de mener des expériences, de rédiger des articles et d'effectuer des évaluations par les pairs. Cependant, cette avalanche de contenu de recherche généré par l'IA se heurte à un écosystème de publication fragmenté et largement fermé. Les revues et conférences traditionnelles s'appuient sur l'évaluation par les pairs humaine, ce qui les rend difficiles à mettre à l'échelle et souvent réticentes à accepter du contenu de recherche généré par l'IA ; les serveurs de prépublications existants (par exemple arXiv) manquent de mécanismes rigoureux de contrôle de la qualité. Par conséquent, une quantité importante de recherche de haute qualité générée par l'IA manque de canaux appropriés pour sa diffusion, entravant son potentiel à faire progresser la science. Pour relever ces défis, nous présentons aiXiv, une plateforme open-access de nouvelle génération pour les scientifiques humains et IA. Son architecture multi-agents permet aux propositions de recherche et aux articles d'être soumis, évalués et affinés de manière itérative par des scientifiques humains et IA. Elle fournit également des interfaces API et MCP qui permettent une intégration transparente de scientifiques humains et IA hétérogènes, créant ainsi un écosystème évolutif et extensible pour la découverte scientifique autonome. À travers des expériences approfondies, nous démontrons qu'aiXiv est une plateforme fiable et robuste qui améliore significativement la qualité des propositions de recherche et des articles générés par l'IA après des révisions et évaluations itératives sur aiXiv. Notre travail jette les bases d'un écosystème open-access de nouvelle génération pour les scientifiques IA, accélérant la publication et la diffusion de contenu de recherche de haute qualité généré par l'IA. Le code est disponible à l'adresse https://github.com/aixiv-org. Le site web est disponible à l'adresse https://forms.gle/DxQgCtXFsJ4paMtn8.
Les modèles corporels paramétriques offrent une représentation 3D expressive des humains pour une large gamme de poses, formes et expressions faciales, généralement obtenue en apprenant une base sur des maillages 3D enregistrés. Cependant, les approches existantes de modélisation de maillages humains peinent à capturer les variations détaillées pour des poses et formes corporelles diverses, principalement en raison de la diversité limitée des données d'entraînement et des hypothèses de modélisation restrictives. De plus, le paradigme courant consiste d'abord à optimiser la surface externe du corps en utilisant une base linéaire, puis à régresser les articulations internes du squelette à partir des sommets de surface. Cette approche introduit des dépendances problématiques entre le squelette interne et les tissus mous externes, limitant le contrôle direct sur la taille du corps et les longueurs des os. Pour résoudre ces problèmes, nous présentons ATLAS, un modèle corporel haute fidélité appris à partir de 600 000 scans haute résolution capturés à l'aide de 240 caméras synchronisées. Contrairement aux méthodes précédentes, nous découplons explicitement les bases de forme et de squelette en ancrant notre représentation de maillage dans le squelette humain. Ce découplage permet une expressivité de forme accrue, une personnalisation fine des attributs corporels et un ajustement des points clés indépendant des caractéristiques des tissus mous externes. ATLAS surpasse les méthodes existantes en ajustant plus précisément des sujets non vus dans diverses poses, et les évaluations quantitatives montrent que nos correctifs de pose non linéaires capturent plus efficacement les poses complexes par rapport aux modèles linéaires.
Les récents progrès des modèles de diffusion ont permis d’atteindre une fidélité visuelle remarquable dans l’édition d’images guidée par des instructions. Cependant, leur processus global de débruitage intrique intrinsèquement la région modifiée avec l’ensemble du contexte de l’image, entraînant des modifications parasites non intentionnelles et une adhérence compromise aux instructions d’édition. En revanche, les modèles autorégressifs offrent un paradigme distinct en formulant la synthèse d’images comme un processus séquentiel sur des tokens visuels discrets. Leur mécanisme causal et compositionnel contourne naturellement les défis d’adhérence des méthodes basées sur la diffusion. Dans cet article, nous présentons VAREdit, un cadre autorégressif visuel (VAR) qui reformule l’édition d’images comme un problème de prédiction à l’échelle suivante. Conditionné sur les caractéristiques de l’image source et les instructions textuelles, VAREdit génère des caractéristiques cibles multi-échelles pour réaliser des modifications précises. Un défi central dans ce paradigme est de savoir comment conditionner efficacement les tokens de l’image source. Nous observons que les caractéristiques source à l’échelle la plus fine ne peuvent pas guider efficacement la prédiction des caractéristiques cibles plus grossières. Pour combler cette lacune, nous introduisons un module de référence aligné à l’échelle (SAR), qui injecte des informations de conditionnement alignées à l’échelle dans la première couche d’auto-attention. VAREdit démontre des avancées significatives à la fois en termes d’adhérence à l’édition et d’efficacité. Sur des benchmarks standard, il surpasse les principales méthodes basées sur la diffusion avec un score GPT-Balance supérieur de 30 % ou plus. De plus, il réalise une édition 512×512 en 1,2 seconde, ce qui le rend 2,2 fois plus rapide qu’UltraEdit de taille similaire. Les modèles sont disponibles à l’adresse https://github.com/HiDream-ai/VAREdit.
Les cartes numériques interactives ont révolutionné la manière dont les gens voyagent et découvrent le monde ; cependant, elles reposent sur des données structurées préexistantes dans les bases de données SIG (par exemple, les réseaux routiers, les indices de points d'intérêt), ce qui limite leur capacité à répondre à des questions géo-visuelles liées à l'apparence du monde. Nous présentons notre vision des Agents Géo-Visuels – des agents d'IA multimodaux capables de comprendre et de répondre à des requêtes visuelles-spatiales nuancées sur le monde en analysant de vastes répertoires d'images géospatiales, incluant les paysages urbains (par exemple, Google Street View), les photos de lieux (par exemple, TripAdvisor, Yelp) et les images aériennes (par exemple, les photos satellites), combinées aux sources de données SIG traditionnelles. Nous définissons notre vision, décrivons les approches de détection et d'interaction, fournissons trois exemples illustratifs, et énumérons les défis clés et les opportunités pour les travaux futurs.
La reconstruction de corps humains en 3D à partir de vues éparses constitue un sujet captivant, essentiel pour élargir les applications connexes. Dans cet article, nous proposons une tâche particulièrement exigeante mais prometteuse : reconstruire le corps humain à partir de seulement deux images, à savoir les vues de face et de dos, ce qui peut considérablement réduire les obstacles pour les utilisateurs souhaitant créer leurs propres humains numériques en 3D. Les principaux défis résident dans la difficulté à établir une cohérence 3D et à récupérer les informations manquantes à partir d'une entrée très éparse. Nous avons repensé un modèle de reconstruction géométrique basé sur des modèles de reconstruction de base pour prédire des nuages de points cohérents, même lorsque les images d'entrée présentent peu de chevauchements, grâce à un entraînement extensif sur des données humaines. De plus, un algorithme d'amélioration est appliqué pour compléter les informations de couleur manquantes, permettant ainsi d'obtenir des nuages de points humains complets avec des couleurs, qui sont ensuite directement transformés en gaussiennes 3D pour une meilleure qualité de rendu. Les expériences montrent que notre méthode peut reconstruire un humain entier en 190 ms sur une seule carte NVIDIA RTX 4090, avec deux images d'une résolution de 1024x1024, démontrant des performances de pointe sur les ensembles de données THuman2.0 et inter-domaines. Par ailleurs, notre méthode peut accomplir la reconstruction humaine même avec des images capturées par des appareils mobiles peu coûteux, réduisant ainsi les exigences en matière de collecte de données. Les démonstrations et le code sont disponibles à l'adresse https://hustvl.github.io/Snap-Snap/.
Le développement des grands modèles de langage et de parole (LSLMs) a été ralenti par des architectures fragmentées et un manque de transparence, entravant la comparaison systématique et la reproductibilité des recherches. Contrairement au domaine vision-langage, le champ des LSLMs souffre de la pratique courante consistant à publier les poids des modèles sans leurs données d'entraînement et configurations correspondantes. Pour combler ces lacunes critiques, nous introduisons LLaSO, le premier cadre entièrement ouvert et de bout en bout pour la modélisation à grande échelle du langage et de la parole. LLaSO fournit à la communauté trois ressources essentielles : (1) LLaSO-Align, un corpus d'alignement parole-texte de 12 millions d'instances ; (2) LLaSO-Instruct, un ensemble de données de réglage par instructions multi-tâches de 13,5 millions d'instances ; et (3) LLaSO-Eval, un benchmark reproductible pour l'évaluation standardisée. Pour valider notre cadre, nous construisons et publions LLaSO-Base, un modèle de référence de 3,8 milliards de paramètres entraîné exclusivement sur nos données publiques. Il atteint un score normalisé de 0,72, établissant une base solide et reproductible qui surpasse les modèles comparables. Notre analyse révèle que si une couverture d'entraînement plus large améliore les performances, des lacunes de généralisation significatives persistent sur des tâches non vues, en particulier dans des scénarios audio purs. En publiant l'ensemble complet des données, benchmarks et modèles, LLaSO établit une norme ouverte fondamentale pour unifier les efforts de recherche et accélérer les progrès communautaires dans les LSLMs. Nous publions le code, les données, les modèles pré-entraînés et les résultats sur https://github.com/EIT-NLP/LLaSO.
Comprendre les vidéos va au-delà de la simple réponse à des questions ouvertes ; cela exige la capacité d'identifier précisément quand les événements se produisent et comment les entités interagissent au fil du temps. Bien que les modèles de langage vidéo (Video LLMs) récents aient réalisé des progrès remarquables en matière de raisonnement holistique, ils restent limités dans leur perception temporelle : les horodatages sont encodés de manière implicite, les caractéristiques au niveau des images sont faibles pour capturer la continuité, et l'alignement entre le langage et la vision dérive souvent des entités d'intérêt. Dans cet article, nous présentons Grounded VideoDiT, un Video LLM conçu pour surmonter ces limitations grâce à trois innovations clés. Premièrement, un encodeur de latence temporelle par diffusion (Diffusion Temporal Latent, DTL) améliore la sensibilité aux limites et maintient la cohérence temporelle. Deuxièmement, des représentations ancrées sur les objets lient explicitement les entités interrogées à des preuves visuelles localisées, renforçant ainsi l'alignement. Troisièmement, un schéma de tokens mixtes avec des tokens temporels discrets permet une modélisation explicite des horodatages, favorisant un raisonnement temporel fin. Ensemble, ces conceptions dotent Grounded VideoDiT de capacités d'ancrage robustes, comme en témoignent les résultats de pointe obtenus sur Charades STA, NExT GQA et plusieurs benchmarks de question-réponse vidéo (VideoQA).
Les modèles de récompense de processus (PRM) ont émergé comme un cadre prometteur pour superviser le raisonnement intermédiaire dans les grands modèles de langage (LLM). Cependant, les PRM existants sont principalement entraînés sur des domaines généraux ou scientifiques, technologiques, ingénieriques et mathématiques (STEM), et se révèlent insuffisants dans des contextes spécifiques comme la finance, où le raisonnement est plus structuré, symbolique et sensible à l'exactitude factuelle et réglementaire. Nous présentons Fin-PRM, un PRM spécialisé dans un domaine et conscient des trajectoires, conçu pour évaluer les étapes de raisonnement intermédiaire dans les tâches financières. Fin-PRM intègre une supervision des récompenses au niveau des étapes et des trajectoires, permettant une évaluation fine des traces de raisonnement alignées sur la logique financière. Nous appliquons Fin-PRM dans des contextes d'apprentissage de récompenses hors ligne et en ligne, soutenant trois applications clés : (i) la sélection de trajectoires de raisonnement de haute qualité pour un réglage fin supervisé basé sur la distillation, (ii) la fourniture de récompenses denses au niveau du processus pour l'apprentissage par renforcement, et (iii) le guidage de l'inférence Best-of-N informée par les récompenses au moment du test. Les résultats expérimentaux sur des benchmarks de raisonnement financier, notamment CFLUE et FinQA, montrent que Fin-PRM surpasse systématiquement les PRM généralistes et les bases de référence spécifiques au domaine en termes de qualité de sélection des trajectoires. Les modèles en aval entraînés avec Fin-PRM montrent des améliorations substantielles par rapport aux bases de référence, avec des gains de 12,9 % en apprentissage supervisé, 5,2 % en apprentissage par renforcement et 5,1 % en performance au moment du test. Ces résultats mettent en lumière la valeur de la modélisation des récompenses spécialisée dans un domaine pour aligner les LLM sur un raisonnement financier de niveau expert. Nos ressources de projet seront disponibles à l'adresse https://github.com/aliyun/qwen-dianjin.
La compagnie IA, où les utilisateurs développent des liens émotionnels avec des systèmes d'IA, est apparue comme un phénomène significatif aux implications à la fois positives et préoccupantes. Nous présentons INTIMA (Interactions and Machine Attachment Benchmark), un benchmark pour évaluer les comportements de compagnie dans les modèles de langage. En nous appuyant sur des théories psychologiques et des données utilisateurs, nous avons développé une taxonomie de 31 comportements répartis en quatre catégories et 368 prompts ciblés. Les réponses à ces prompts sont évaluées comme renforçant la compagnie, maintenant les limites ou étant neutres. L'application d'INTIMA à Gemma-3, Phi-4, o3-mini et Claude-4 révèle que les comportements renforçant la compagnie restent beaucoup plus fréquents dans tous les modèles, bien que nous observions des différences marquées entre eux. Différents fournisseurs commerciaux privilégient différentes catégories dans les parties les plus sensibles du benchmark, ce qui est préoccupant puisque tant la définition appropriée des limites que le soutien émotionnel sont importants pour le bien-être des utilisateurs. Ces résultats soulignent la nécessité d'approches plus cohérentes pour gérer les interactions chargées émotionnellement.