papers.description
Nous présentons Hala, une famille de modèles d’instruction et de traduction centrés sur l’arabe, construits grâce à notre pipeline de traduction et d’ajustement. Nous compressons d’abord un modèle enseignant performant AR↔EN en FP8 (permettant un débit environ deux fois plus élevé sans perte de qualité) et l’utilisons pour créer une supervision bilingue de haute fidélité. Un modèle de langage léger LFM2-1.2B est ensuite affiné sur ces données et utilisé pour traduire des ensembles d’instructions de haute qualité de l’anglais vers l’arabe, produisant un corpus à l’échelle du million adapté au suivi d’instructions. Nous entraînons les modèles Hala avec 350M, 700M, 1.2B et 9B de paramètres, et appliquons la fusion slerp pour équilibrer la spécialisation en arabe avec les forces du modèle de base. Sur des benchmarks centrés sur l’arabe, Hala obtient des résultats de pointe dans les catégories « nano » (≤2B) et « petite » (7-9B), surpassant leurs bases. Nous publions les modèles, les données, les évaluations et les recettes pour accélérer la recherche en traitement automatique du langage naturel (TALN) pour l’arabe.
Nous présentons SAIL-VL2, un modèle de base vision-langage (LVM) open-suite pour une compréhension et un raisonnement multimodaux complets. Successeur de SAIL-VL, SAIL-VL2 atteint des performances de pointe aux échelles de 2B et 8B paramètres sur divers benchmarks d'images et de vidéos, démontrant des capacités solides allant de la perception fine au raisonnement complexe. Trois innovations clés en sous-tendent l'efficacité. Premièrement, un pipeline de curation de données à grande échelle avec des stratégies de notation et de filtrage améliore à la fois la qualité et la distribution des données de légendage, de reconnaissance de texte (OCR), de questions-réponses (QA) et de vidéos, augmentant ainsi l'efficacité de l'entraînement. Deuxièmement, un cadre d'entraînement progressif commence avec un encodeur visuel pré-entraîné puissant (SAIL-ViT), progresse à travers un pré-entraînement multimodal, et culmine dans un paradigme hybride SFT-RL de fusion de pensée qui renforce systématiquement les capacités du modèle. Troisièmement, des avancées architecturales vont au-delà des modèles de langage dense (LLM) pour inclure des conceptions efficaces de Mixture-of-Experts (MoE) éparses. Grâce à ces contributions, SAIL-VL2 démontre des performances compétitives sur 106 ensembles de données et obtient des résultats de pointe sur des benchmarks de raisonnement difficiles tels que MMMU et MathVista. De plus, sur le classement OpenCompass, SAIL-VL2-2B se classe premier parmi les modèles open-source officiellement publiés sous l'échelle de 4B paramètres, tout en servant de base efficace et extensible pour la communauté open-source multimodale.
La vision omnidirectionnelle, qui utilise une vision à 360 degrés pour comprendre l'environnement, est devenue de plus en plus cruciale dans des domaines tels que la robotique, l'inspection industrielle et la surveillance environnementale. Comparée à la vision traditionnelle par sténopé, la vision omnidirectionnelle offre une conscience environnementale holistique, améliorant significativement l'exhaustivité de la perception des scènes et la fiabilité de la prise de décision. Cependant, la recherche fondamentale dans ce domaine a historiquement pris du retard par rapport à la vision par sténopé traditionnelle. Cette présentation explore une tendance émergente à l'ère de l'IA incarnée : le développement rapide de la vision omnidirectionnelle, stimulé par une demande industrielle croissante et un intérêt académique accru. Nous mettons en lumière les récentes avancées dans la génération omnidirectionnelle, la perception omnidirectionnelle, la compréhension omnidirectionnelle et les jeux de données associés. En nous appuyant sur les perspectives issues du monde académique et de l'industrie, nous proposons une architecture de système panoramique idéale à l'ère de l'IA incarnée, PANORAMA, composée de quatre sous-systèmes clés. De plus, nous offrons des opinions approfondies sur les tendances émergentes et les impacts intercommunautaires à l'intersection de la vision panoramique et de l'IA incarnée, ainsi que sur la feuille de route future et les défis ouverts. Cette synthèse rassemble les avancées de pointe et esquisse les défis et opportunités pour la recherche future dans la construction de systèmes d'IA omnidirectionnels robustes et polyvalents à l'ère de l'IA incarnée.
Les examens constituent un test fondamental de l'intelligence de niveau expert et nécessitent une compréhension intégrée, un raisonnement et une génération. Les benchmarks existants de type examen se concentrent principalement sur les tâches de compréhension et de raisonnement, tandis que les benchmarks actuels de génération mettent l'accent sur l'illustration des connaissances générales et des concepts visuels, négligeant l'évaluation des examens de dessin rigoureux. Nous présentons GenExam, le premier benchmark pour les examens multidisciplinaires de génération d'images à partir de texte, comprenant 1 000 échantillons répartis sur 10 sujets avec des prompts de type examen organisés selon une taxonomie à quatre niveaux. Chaque problème est accompagné d'images de référence et de points de notation détaillés pour permettre une évaluation précise de la correction sémantique et de la plausibilité visuelle. Les expériences montrent que même les modèles de pointe tels que GPT-Image-1 et Gemini-2.5-Flash-Image obtiennent des scores stricts inférieurs à 15 %, et que la plupart des modèles atteignent presque 0 %, ce qui souligne le grand défi posé par notre benchmark. En cadrant la génération d'images comme un examen, GenExam offre une évaluation rigoureuse de la capacité des modèles à intégrer les connaissances, le raisonnement et la génération, fournissant des perspectives sur le chemin vers une AGI générale.
Bien que les modèles de langage de code (CLMs) aient démontré des performances supérieures dans des tâches d'ingénierie logicielle telles que la génération et la synthèse de code, des études empiriques récentes révèlent une vulnérabilité critique en matière de confidentialité : ces modèles présentent une mémorisation involontaire de données sensibles issues de l'entraînement, permettant la reproduction textuelle d'informations confidentielles lorsqu'ils sont spécifiquement sollicités. Pour résoudre ce problème, plusieurs approches, incluant la déduplication des données d'entraînement et l'augmentation par confidentialité différentielle, ont été proposées. Cependant, ces méthodes nécessitent un réentraînement complet des CLMs déjà déployés, ce qui engendre des coûts computationnels substantiels. Dans cet article, nous cherchons à répondre à la question de recherche suivante : Les informations sensibles mémorisées par les CLMs peuvent-elles être effacées de manière efficace et efficiente ? Nous menons une investigation pionnière sur l'effacement de la mémorisation sensible dans les CLMs via le désapprentissage automatique (machine unlearning) — une méthode de modification post-hoc qui supprime des informations spécifiques des modèles entraînés sans nécessiter un réentraînement complet. Plus précisément, nous quantifions d'abord les risques de mémorisation des données sensibles dans les ensembles de données d'entraînement des CLMs et constituons un ensemble de données à haut risque de 50 000 échantillons sensibles mémorisés comme cibles de désapprentissage. Nous étudions deux approches de désapprentissage basées sur l'ascension de gradient largement utilisées : les méthodes classique et contrainte, et introduisons CodeEraser, une variante avancée qui désapprend sélectivement les segments sensibles mémorisés dans le code tout en préservant l'intégrité structurelle et la correction fonctionnelle du code environnant. Des expériences approfondies sur trois familles de CLMs, à savoir CodeParrot, CodeGen-Mono et Qwen2.5-Coder, valident l'efficacité et l'efficience de CodeEraser pour effacer la mémorisation sensible ciblée tout en maintenant l'utilité du modèle.
Les récents développements des agents basés sur des modèles de langage de grande taille (LLM) ont démontré des capacités impressionnantes dans de multiples domaines, illustrées par des systèmes de recherche approfondie qui affichent des performances supérieures dans des tâches complexes de recherche et de synthèse d'informations. Bien que les agents de recherche approfondie à usage général aient montré des capacités remarquables, ils rencontrent des difficultés significatives face aux défis du domaine médical, comme en témoignent les systèmes propriétaires leaders qui obtiennent une précision limitée sur des benchmarks médicaux complexes. Les principales limitations sont : (1) le manque de connaissances médicales denses suffisantes pour le raisonnement clinique, et (2) l'absence d'outils de recherche spécialisés adaptés aux contextes médicaux. Nous présentons un agent de recherche approfondie médical qui relève ces défis grâce à deux innovations clés. Premièrement, nous développons un nouveau cadre de synthèse de données utilisant des graphes de connaissances médicaux, en extrayant les chaînes les plus longues à partir de sous-graphes autour d'entités médicales rares pour générer des paires de questions-réponses complexes à multiples sauts. Deuxièmement, nous intégrons un moteur de recherche médical privé personnalisé aux côtés d'outils à usage général, permettant une synthèse précise des informations médicales. Notre approche génère plus de 2100 trajectoires diverses couvrant 12 spécialités médicales, chacune impliquant en moyenne 4,2 interactions avec des outils. Grâce à un paradigme de formation en deux étapes combinant un réglage fin supervisé et un apprentissage par renforcement en ligne avec des récompenses composites, notre modèle MedResearcher-R1-32B démontre des performances exceptionnelles, établissant de nouveaux résultats de pointe sur les benchmarks médicaux tout en maintenant des performances compétitives sur les tâches générales de recherche approfondie. Notre travail montre que des innovations stratégiques spécifiques au domaine dans l'architecture, la conception des outils et la construction des données d'entraînement peuvent permettre à des modèles open-source plus petits de surpasser des systèmes propriétaires beaucoup plus volumineux dans des domaines spécialisés.
Les modèles de langage à grande échelle (LLMs) ont réalisé des progrès remarquables en raisonnement mathématique, mais continuent de rencontrer des difficultés avec des tâches de haute précision comme le calcul numérique et la manipulation formelle de symboles. L'intégration d'outils externes s'est révélée être une approche prometteuse pour combler cet écart. Malgré les avancées récentes, les méthodes existantes peinent à relever trois défis majeurs : la construction de données de raisonnement intégrant des outils, l'optimisation fine et l'amélioration de l'inférence. Pour surmonter ces limitations, nous proposons THOR (Tool-Integrated Hierarchical Optimization via RL). Premièrement, nous introduisons TIRGen, un pipeline basé sur un acteur-critique multi-agent pour construire des ensembles de données de haute qualité de chemins de raisonnement intégrant des outils, alignés sur la politique et généralisant bien à travers divers modèles. Deuxièmement, pour réaliser une optimisation hiérarchique fine, nous introduisons une stratégie de RL qui optimise conjointement la résolution de problèmes au niveau de la trajectoire et la génération de code au niveau des étapes. Cela est motivé par notre idée clé que le succès d'un appel d'outil intermédiaire est un fort prédicteur de la justesse de la réponse finale. Enfin, THOR intègre un mécanisme d'auto-correction qui exploite les retours immédiats des outils pour réviser dynamiquement les chemins de raisonnement erronés pendant l'inférence. Notre approche démontre une forte généralisation à travers divers modèles, performant efficacement aussi bien dans les modèles de raisonnement que dans les modèles non dédiés au raisonnement. Elle atteint en outre des performances de pointe pour des modèles de taille similaire sur plusieurs benchmarks mathématiques, tout en apportant des améliorations constantes sur les benchmarks de code. Notre code sera disponible publiquement à l'adresse https://github.com/JingMog/THOR.
Nous présentons Wan-Animate, un cadre unifié pour l'animation et le remplacement de personnages. Étant donné une image de personnage et une vidéo de référence, Wan-Animate peut animer le personnage en reproduisant précisément les expressions et les mouvements du personnage dans la vidéo pour générer des vidéos de personnages de haute fidélité. Alternativement, il peut intégrer le personnage animé dans la vidéo de référence pour remplacer le personnage original, en reproduisant l'éclairage et la tonalité de couleur de la scène pour parvenir à une intégration environnementale fluide. Wan-Animate est construit sur le modèle Wan. Pour l'adapter aux tâches d'animation de personnages, nous utilisons un paradigme d'entrée modifié pour différencier les conditions de référence et les zones de génération. Cette conception unifie plusieurs tâches en une représentation symbolique commune. Nous utilisons des signaux de squelette spatialement alignés pour reproduire les mouvements du corps et des caractéristiques faciales implicites extraites des images sources pour recréer les expressions, permettant ainsi la génération de vidéos de personnages avec une grande contrôlabilité et expressivité. De plus, pour améliorer l'intégration environnementale lors du remplacement de personnages, nous développons un LoRA de rééclairage auxiliaire. Ce module préserve la cohérence de l'apparence du personnage tout en appliquant l'éclairage et la tonalité de couleur environnementaux appropriés. Les résultats expérimentaux démontrent que Wan-Animate atteint des performances de pointe. Nous nous engageons à ouvrir les poids du modèle et son code source.
Cet article passe en revue le défi MARS2 2025 sur le raisonnement multimodal. Nous visons à rassembler différentes approches en apprentissage multimodal et en modèles de langage de grande taille (LLMs) à travers un vaste benchmark. Nous espérons qu'il permettra aux chercheurs de mieux suivre l'état de l'art dans ce domaine très dynamique. Parallèlement, un nombre croissant de bancs d'essai a stimulé l'évolution des modèles de langage généralistes de grande taille. Ainsi, cette année, MARS2 se concentre sur des scénarios réels et spécialisés pour élargir les applications du raisonnement multimodal des MLLMs. Notre équipe d'organisation a publié deux ensembles de données sur mesure, Lens et AdsQA, comme ensembles de test, qui soutiennent respectivement le raisonnement général dans 12 scénarios quotidiens et le raisonnement spécifique au domaine dans les vidéos publicitaires. Nous avons évalué plus de 40 modèles de référence, incluant à la fois des MLLMs généralistes et des modèles spécifiques à une tâche, et avons ouvert trois pistes de compétition, à savoir l'ancrage visuel dans des scénarios réels (VG-RS), la réponse à des questions visuelles avec conscience spatiale (VQA-SA), et le raisonnement visuel dans les vidéos publicitaires créatives (VR-Ads). Enfin, 76 équipes issues d'institutions académiques et industrielles renommées se sont inscrites et plus de 40 soumissions valides (sur plus de 1200) ont été incluses dans nos classements. Nos ensembles de données, ensembles de code (plus de 40 modèles de référence et plus de 15 méthodes de participants), et classements sont disponibles publiquement sur le site web de l'atelier MARS2 et sur notre page GitHub https://github.com/mars2workshop/, où nos mises à jour et annonces des événements à venir seront continuellement fournies.
Les grands modèles de langage (LLMs) peinent souvent à maintenir la fidélité contextuelle, produisant des réponses incohérentes lorsqu'ils répondent à des questions basées sur des informations fournies. Les approches existantes reposent soit sur un réglage supervisé coûteux pour générer des preuves après la réponse, soit sur l'entraînement des modèles à effectuer des recherches sur le web sans nécessairement améliorer l'utilisation du contexte donné. Nous proposons CARE, un nouveau cadre de raisonnement augmenté par récupération native, qui enseigne aux LLMs à intégrer explicitement des preuves contextuelles dans leur processus de raisonnement en utilisant leurs propres capacités de récupération. Notre méthode nécessite un nombre limité de données de preuves étiquetées tout en améliorant significativement à la fois la précision de la récupération et la performance de génération de réponses grâce à des jetons contextuels stratégiquement récupérés dans la chaîne de raisonnement. Des expériences approfondies sur plusieurs benchmarks de questions-réponses (QA) réels et contrefactuels démontrent que notre approche surpasse substantiellement le réglage supervisé, les méthodes traditionnelles de génération augmentée par récupération et les solutions de récupération externes. Ce travail représente une avancée fondamentale pour rendre les LLMs plus précis, fiables et efficaces pour les tâches nécessitant une connaissance approfondie.
Nous proposons LLM-Interleaved (LLM-I), un cadre flexible et dynamique qui reformule la génération intercalée d'images et de texte comme un problème d'utilisation d'outils. LLM-I est conçu pour surmonter le goulot d'étranglement du "un seul outil" des modèles unifiés actuels, qui sont limités à la production d'images synthétiques et peinent à accomplir des tâches nécessitant une base factuelle ou une précision programmatique. Notre cadre habilite un agent central LLM ou MLLM à orchestrer intelligemment une boîte à outils diversifiée d'outils visuels spécialisés, incluant la recherche d'images en ligne, la génération basée sur la diffusion, l'exécution de code et l'édition d'images. L'agent est entraîné à sélectionner et appliquer ces outils de manière compétente via un cadre d'apprentissage par renforcement (RL) qui intègre un système de récompense hybride combinant une logique basée sur des règles avec les jugements d'évaluateurs LLM et MLLM. Entraîné sur un nouveau jeu de données diversifié utilisant quatre architectures de modèles différentes, LLM-I démontre des performances de pointe, surpassant largement les méthodes existantes sur quatre benchmarks. Nous introduisons également une nouvelle stratégie de mise à l'échelle au moment du test qui offre des gains de performance supplémentaires. Page du projet : https://github.com/ByteDance-BandAI/LLM-I.
L'apprentissage automatique génératif offre de nouvelles opportunités pour mieux comprendre la dynamique complexe du système terrestre. Les méthodes récentes basées sur la diffusion abordent les biais spectraux et améliorent l'étalonnage des ensembles dans la prévision météorologique par rapport aux méthodes déterministes, mais se sont jusqu'à présent avérées difficiles à mettre à l'échelle de manière stable à haute résolution. Nous présentons AERIS, un transformeur de diffusion Swin au niveau des pixels de 1,3 à 80 milliards de paramètres pour combler cette lacune, et SWiPe, une technique généralisable qui combine le parallélisme de fenêtres avec le parallélisme de séquence et de pipeline pour partitionner les transformeurs basés sur des fenêtres sans coût de communication supplémentaire ni augmentation de la taille globale du lot. Sur Aurora (10 080 nœuds), AERIS maintient 10,21 ExaFLOPS (précision mixte) et une performance de pointe de 11,21 ExaFLOPS avec une taille de patch de 1 fois 1 sur le jeu de données ERA5 à 0,25{\deg}, atteignant une efficacité de mise à l'échelle faible de 95,5 % et une efficacité de mise à l'échelle forte de 81,6 %. AERIS surpasse l'IFS ENS et reste stable sur des échelles saisonnières jusqu'à 90 jours, mettant en évidence le potentiel des modèles de diffusion à milliards de paramètres pour la prévision météorologique et climatique.
Les modèles génératifs d'images récents capturent généralement la distribution des images dans un espace latent pré-construit, en s'appuyant sur un tokenizer d'images figé. Cependant, il existe un écart significatif entre la distribution de reconstruction et la distribution de génération, où les tokenizers actuels ne priorisent que la tâche de reconstruction qui se produit avant l'entraînement génératif, sans tenir compte des erreurs de génération lors de l'échantillonnage. Dans cet article, nous analysons de manière exhaustive la raison de cet écart dans un espace latent discret, et, à partir de cela, nous proposons un nouveau schéma d'entraînement de tokenizer incluant à la fois un entraînement principal et un post-entraînement, se concentrant respectivement sur l'amélioration de la construction de l'espace latent et du décodage. Pendant l'entraînement principal, une stratégie de perturbation latente est proposée pour simuler les bruits d'échantillonnage, c'est-à-dire les tokens inattendus générés lors de l'inférence générative. Plus précisément, nous proposons un schéma d'entraînement de tokenizer plug-and-play, qui améliore significativement la robustesse du tokenizer, augmentant ainsi la qualité de génération et la vitesse de convergence, ainsi qu'une nouvelle métrique d'évaluation de tokenizer, à savoir le pFID, qui corrèle avec succès la performance du tokenizer à la qualité de génération. Pendant le post-entraînement, nous optimisons davantage le décodeur du tokenizer par rapport à un modèle génératif bien entraîné pour atténuer la différence de distribution entre les tokens générés et reconstruits. Avec un générateur sim400M, un tokenizer discret entraîné avec notre entraînement principal atteint un gFID notable de 1,60 et obtient ensuite un gFID de 1,36 avec le post-entraînement supplémentaire. Des expériences supplémentaires sont menées pour valider largement l'efficacité de notre stratégie de post-entraînement sur des tokenizers discrets et continus prêts à l'emploi, couplés à des générateurs autoregressifs et basés sur la diffusion.
Nous présentons SteeringControl, un benchmark pour évaluer les méthodes de pilotage des représentations à travers des objectifs fondamentaux d'alignement—biais, génération nuisible et hallucination—ainsi que leurs effets sur des comportements secondaires tels que la flagornerie et la moralité de bon sens. Alors que les travaux antérieurs sur l'alignement mettent souvent en avant la véracité ou la capacité de raisonnement pour démontrer les effets secondaires du pilotage des représentations, nous constatons qu'il existe de nombreux compromis inexplorés qui n'ont pas encore été compris de manière systématique. Nous avons rassemblé un ensemble de données de comportements primaires et secondaires liés à la sécurité pour évaluer l'efficacité du pilotage et l'enchevêtrement comportemental, en nous concentrant sur cinq méthodes de pilotage populaires. Pour ce faire, nous avons conçu un cadre de pilotage modulaire basé sur des composants uniques qui servent de blocs de construction pour de nombreuses méthodes existantes. Nos résultats sur Qwen-2.5-7B et Llama-3.1-8B montrent que la performance forte en pilotage dépend de la combinaison spécifique de la méthode de pilotage, du modèle et du comportement ciblé, et qu'un enchevêtrement conceptuel sévère peut résulter de mauvaises combinaisons de ces trois éléments également. Nous publions notre code ici : https://github.com/wang-research-lab/SteeringControl.git.
Les circuits quantiques variationnels (VQCs) sont au cœur de l'apprentissage automatique quantique, tandis que les progrès récents dans les réseaux de Kolmogorov-Arnold (KANs) mettent en lumière la puissance des fonctions d'activation apprenables. Nous unifions ces directions en introduisant les fonctions d'activation quantiques variationnelles (QVAFs), réalisées à travers des circuits de re-téléchargement de données à un seul qubit appelés DatA Re-Uploading ActivatioNs (DARUANs). Nous montrons que DARUAN, avec des poids entraînables dans le prétraitement des données, possède un spectre de fréquence croissant de manière exponentielle avec les répétitions de données, permettant une réduction exponentielle de la taille des paramètres par rapport aux activations basées sur Fourier sans perte d'expressivité. L'intégration de DARUAN dans les KANs donne naissance aux KANs inspirés par la quantique (QKANs), qui conservent l'interprétabilité des KANs tout en améliorant leur efficacité paramétrique, leur expressivité et leur généralisation. Nous introduisons également deux techniques novatrices pour améliorer l'évolutivité, la faisabilité et l'efficacité computationnelle, telles que l'extension de couches et les QKANs hybrides (HQKANs) en tant que remplacements directs des perceptrons multicouches (MLPs) pour les réseaux feed-forward dans les modèles à grande échelle. Nous fournissons une analyse théorique et des expériences approfondies sur la régression de fonctions, la classification d'images et la modélisation générative de langage autorégressive, démontrant l'efficacité et l'évolutivité des QKANs. Les DARUANs et les QKANs offrent une direction prometteuse pour faire progresser l'apprentissage automatique quantique sur les matériels quantiques à échelle intermédiaire bruyante (NISQ) et les simulateurs quantiques classiques.
Nous proposons une pipeline pour extraire et reconstruire des éléments de fumée dynamiques en 3D à partir d'une seule vidéo capturée en conditions réelles, et intégrer ensuite une simulation interactive pour la conception et l'édition de fumée. Les récents progrès en vision 3D ont considérablement amélioré la reconstruction et le rendu de la dynamique des fluides, permettant une synthèse d'images réalistes et temporellement cohérentes. Cependant, les reconstructions de fluides actuelles reposent fortement sur des environnements de laboratoire soigneusement contrôlés, tandis que les vidéos du monde réel capturées en conditions naturelles restent largement inexplorées. Nous identifions trois défis majeurs dans la reconstruction de fumée à partir de vidéos réelles et concevons des techniques ciblées, incluant l'extraction de fumée avec suppression de l'arrière-plan, l'initialisation des particules de fumée et des poses de caméra, ainsi que l'inférence de vidéos multi-vues. Notre méthode surpasse non seulement les approches précédentes de reconstruction et de génération avec des reconstructions de fumée de haute qualité (+2,22 PSNR en moyenne sur les vidéos réelles), mais permet également une édition diversifiée et réaliste de la dynamique des fluides en simulant nos éléments de fumée. Nous mettons à disposition nos modèles, données et éléments de fumée 4D sur [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke).
Alors que les grands modèles de langage (LLMs) deviennent essentiels dans les systèmes multi-agents, de nouveaux risques en matière de confidentialité émergent, dépassant la simple mémorisation, l'inférence directe ou les évaluations en une seule étape. En particulier, des réponses apparemment anodines, lorsqu'elles sont composées à travers plusieurs interactions, peuvent permettre cumulativement à des adversaires de récupérer des informations sensibles, un phénomène que nous appelons la fuite de confidentialité compositionnelle. Nous présentons la première étude systématique de telles fuites de confidentialité compositionnelle et des méthodes possibles pour les atténuer dans les systèmes multi-agents basés sur des LLMs. Tout d'abord, nous développons un cadre qui modélise comment les connaissances auxiliaires et les interactions entre agents amplifient conjointement les risques pour la confidentialité, même lorsque chaque réponse est bénigne isolément. Ensuite, pour atténuer ce problème, nous proposons et évaluons deux stratégies de défense : (1) la défense par théorie de l'esprit (ToM), où les agents défenseurs infèrent l'intention d'un questionneur en anticipant comment leurs réponses pourraient être exploitées par des adversaires, et (2) la défense par consensus collaboratif (CoDef), où les agents répondants collaborent avec des pairs qui votent en fonction d'un état agrégé partagé pour limiter la diffusion d'informations sensibles. De manière cruciale, nous équilibrons notre évaluation entre les compositions qui exposent des informations sensibles et celles qui produisent des inférences bénignes. Nos expériences quantifient comment ces stratégies de défense diffèrent dans l'équilibre entre confidentialité et utilité. Nous constatons que si la chaîne de pensée seule offre une protection limitée contre les fuites (~39 % de blocage des informations sensibles), notre défense ToM améliore considérablement le blocage des requêtes sensibles (jusqu'à 97 %) mais peut réduire le succès des tâches bénignes. CoDef atteint le meilleur équilibre, produisant le résultat équilibré le plus élevé (79,8 %), mettant en évidence l'avantage de combiner un raisonnement explicite avec une collaboration entre défenseurs. Ensemble, nos résultats révèlent une nouvelle classe de risques dans les déploiements collaboratifs de LLMs et fournissent des insights actionnables pour concevoir des protections contre les fuites de confidentialité compositionnelles et contextuelles.
Les conseils financiers personnalisés nécessitent la prise en compte des objectifs, des contraintes, de la tolérance au risque et de la juridiction de l'utilisateur. Les travaux antérieurs sur les LLM se sont concentrés sur les systèmes d'aide pour les investisseurs et les planificateurs financiers. Parallèlement, de nombreuses études récentes examinent des tâches plus larges en matière de finances personnelles, y compris la budgétisation, la gestion de la dette, la retraite et la planification successorale, à travers des pipelines agentiques qui engendrent des coûts de maintenance élevés, générant moins de 25 % de leurs rendements financiers attendus. Dans cette étude, nous introduisons un cadre novateur et reproductible qui intègre un contexte financier pertinent avec des études de finance comportementale pour construire des données de supervision pour des conseillers de bout en bout. En utilisant ce cadre, nous créons un ensemble de données de raisonnement de 19 000 échantillons et effectuons un ajustement fin complet du modèle Qwen-3-8B sur cet ensemble. Grâce à une division de test réservée et à une étude à l'aveugle par un jury de LLM, nous démontrons qu'avec une curation minutieuse des données et une intégration comportementale, notre modèle de 8B atteint des performances comparables à des modèles de référence nettement plus grands (14-32 milliards de paramètres) en termes de précision factuelle, de fluidité et de personnalisation, tout en engendrant des coûts 80 % inférieurs à ceux des modèles plus volumineux.
Cette étude présente une comparaison systématique entre les réseaux de neurones hybrides quantiques-classiques et les modèles purement classiques sur trois ensembles de données de référence (MNIST, CIFAR100 et STL10) pour évaluer leurs performances, leur efficacité et leur robustesse. Les modèles hybrides intègrent des circuits quantiques paramétrés avec des architectures d'apprentissage profond classiques, tandis que les modèles classiques utilisent des réseaux de neurones convolutifs (CNN) conventionnels. Les expériences ont été menées sur 50 époques d'entraînement pour chaque ensemble de données, avec des évaluations portant sur la précision de validation, la précision de test, le temps d'entraînement, l'utilisation des ressources computationnelles et la robustesse aux attaques adverses (testée avec des perturbations epsilon=0.1). Les principaux résultats montrent que les modèles hybrides surpassent systématiquement les modèles classiques en précision finale, atteignant {99,38\% (MNIST), 41,69\% (CIFAR100) et 74,05\% (STL10) en précision de validation, contre des références classiques de 98,21\%, 32,25\% et 63,76\%, respectivement. Notamment, l'avantage des modèles hybrides s'accroît avec la complexité des données, montrant les gains les plus significatifs sur CIFAR100 (+9,44\%) et STL10 (+10,29\%). Les modèles hybrides s'entraînent également 5 à 12 fois plus vite (par exemple, 21,23s contre 108,44s par époque sur MNIST) et utilisent 6 à 32\% de paramètres en moins, tout en maintenant une généralisation supérieure aux données de test non vues. Les tests de robustesse adversaire révèlent que les modèles hybrides sont significativement plus résilients sur des ensembles de données plus simples (par exemple, 45,27\% de précision robuste sur MNIST contre 10,80\% pour les classiques) mais montrent une fragilité comparable sur des ensembles de données complexes comme CIFAR100 (environ 1\% de robustesse pour les deux). Les analyses d'efficacité des ressources indiquent que les modèles hybrides consomment moins de mémoire (4-5 Go contre 5-6 Go pour les classiques) et une utilisation CPU plus faible (9,5\% contre 23,2\% en moyenne). Ces résultats suggèrent que les architectures hybrides quantiques-classiques offrent des avantages convaincants en termes de précision, d'efficacité d'entraînement et de scalabilité des paramètres, en particulier pour les tâches de vision complexes.