papers.description
Nous présentons une amélioration simple mais théoriquement motivée au Fine-Tuning Supervisé (SFT) pour les Modèles de Langue à Grande Échelle (LLM), en abordant sa généralisation limitée par rapport à l'apprentissage par renforcement (RL). Grâce à une analyse mathématique, nous révélons que les gradients standard du SFT encodent implicitement une structure de récompense problématique qui peut sévèrement restreindre les capacités de généralisation du modèle. Pour y remédier, nous proposons le Fine-Tuning Dynamique (DFT), qui stabilise les mises à jour des gradients pour chaque token en redimensionnant dynamiquement la fonction objectif avec la probabilité de ce token. De manière remarquable, ce changement de code en une seule ligne surpasse significativement le SFT standard sur plusieurs benchmarks complexes et modèles de base, démontrant une bien meilleure généralisation. De plus, notre approche montre des résultats compétitifs dans les configurations de RL hors ligne, offrant une alternative efficace et plus simple. Ce travail établit un pont entre les insights théoriques et les solutions pratiques, améliorant substantiellement les performances du SFT. Le code sera disponible à l'adresse suivante : https://github.com/yongliang-wu/DFT.
Les modèles de langage à grande échelle auto-évolutifs (LLMs) offrent une voie évolutive vers la super-intelligence en générant, affinant et apprenant de manière autonome à partir de leurs propres expériences. Cependant, les méthodes existantes pour entraîner de tels modèles reposent encore largement sur des tâches et des étiquettes soigneusement sélectionnées par des humains, généralement via un ajustement fin ou un apprentissage par renforcement, ce qui constitue un goulot d'étranglement fondamental pour faire progresser les systèmes d'IA vers des capacités dépassant l'intelligence humaine. Pour surmonter cette limitation, nous introduisons R-Zero, un cadre entièrement autonome qui génère ses propres données d'entraînement à partir de zéro. En partant d'un seul modèle de langage de base, R-Zero initialise deux modèles indépendants avec des rôles distincts, un Défi et un Résolveur. Ces modèles sont optimisés séparément et co-évoluent par interaction : le Défi est récompensé pour proposer des tâches à la limite des capacités du Résolveur, et le Résolveur est récompensé pour résoudre des tâches de plus en plus complexes posées par le Défi. Ce processus génère un curriculum ciblé et auto-améliorant sans aucune tâche ou étiquette préexistante. Empiriquement, R-Zero améliore considérablement les capacités de raisonnement à travers différents modèles de langage de base, par exemple en augmentant les performances de Qwen3-4B-Base de +6,49 sur des benchmarks de raisonnement mathématique et de +7,54 sur des benchmarks de raisonnement général.
Nous présentons Genie Envisioner (GE), une plateforme unifiée de fondation mondiale pour la manipulation robotique qui intègre l'apprentissage de politiques, l'évaluation et la simulation au sein d'un cadre unique de génération vidéo. Au cœur de GE se trouve GE-Base, un modèle de diffusion vidéo à grande échelle conditionné par des instructions, qui capture les dynamiques spatiales, temporelles et sémantiques des interactions robotiques du monde réel dans un espace latent structuré. Construit sur cette base, GE-Act cartographie les représentations latentes vers des trajectoires d'actions exécutables grâce à un décodeur léger basé sur le flux, permettant une inférence de politique précise et généralisable à travers diverses incarnations avec un minimum de supervision. Pour soutenir une évaluation et un entraînement évolutifs, GE-Sim sert de simulateur neuronal conditionné par les actions, produisant des déploiements haute fidélité pour le développement de politiques en boucle fermée. La plateforme est en outre équipée d'EWMBench, une suite de benchmarks standardisés mesurant la fidélité visuelle, la cohérence physique et l'alignement instruction-action. Ensemble, ces composants établissent Genie Envisioner comme une fondation évolutive et pratique pour l'intelligence incarnée à usage général pilotée par des instructions. Tous les codes, modèles et benchmarks seront rendus publics.
Bien que les modèles de langage visuel (VLMs) démontrent de solides capacités perceptuelles et un raisonnement visuel impressionnant, ils éprouvent des difficultés à accorder une attention aux détails et à planifier des actions précises dans des environnements complexes et dynamiques, ce qui entraîne des performances médiocres. Les tâches du monde réel nécessitent généralement des interactions complexes, un raisonnement spatial avancé, une planification à long terme et un affinement continu des stratégies, exigeant souvent une compréhension des règles physiques du scénario cible. Cependant, évaluer ces capacités dans des scénarios réels est souvent prohibitivement coûteux. Pour combler cette lacune, nous présentons DeepPHY, un cadre de référence novateur conçu pour évaluer systématiquement la compréhension et le raisonnement des VLMs sur les principes physiques fondamentaux à travers une série d'environnements simulés exigeants. DeepPHY intègre plusieurs environnements de raisonnement physique de niveaux de difficulté variés et incorpore des métriques d'évaluation fines. Notre évaluation révèle que même les VLMs les plus avancés peinent à traduire des connaissances physiques descriptives en un contrôle prédictif précis.
Malgré les avancées rapides dans la génération de contenu 3D, l'évaluation de la qualité des actifs 3D générés reste un défi. Les méthodes existantes reposent principalement sur des métriques basées sur l'image et opèrent uniquement au niveau de l'objet, limitant leur capacité à capturer la cohérence spatiale, l'authenticité des matériaux et les détails locaux de haute fidélité. 1) Pour relever ces défis, nous introduisons Hi3DEval, un cadre d'évaluation hiérarchique conçu pour le contenu génératif 3D. Il combine une évaluation à la fois au niveau de l'objet et au niveau des parties, permettant des évaluations holistiques à travers plusieurs dimensions ainsi qu'une analyse fine de la qualité. De plus, nous étendons l'évaluation des textures au-delà de l'apparence esthétique en évaluant explicitement le réalisme des matériaux, en nous concentrant sur des attributs tels que l'albédo, la saturation et la métallicité. 2) Pour soutenir ce cadre, nous construisons Hi3DBench, un ensemble de données à grande échelle comprenant divers actifs 3D et des annotations de haute qualité, accompagné d'un pipeline d'annotation multi-agent fiable. Nous proposons en outre un système de notation automatisé 3D basé sur des représentations hybrides 3D. Plus précisément, nous exploitons des représentations basées sur la vidéo pour les évaluations au niveau de l'objet et des sujets matériels afin d'améliorer la modélisation de la cohérence spatio-temporelle, et nous utilisons des caractéristiques 3D pré-entraînées pour la perception au niveau des parties. Des expériences approfondies démontrent que notre approche surpasse les métriques basées sur l'image existantes dans la modélisation des caractéristiques 3D et atteint une meilleure alignement avec les préférences humaines, offrant une alternative évolutive aux évaluations manuelles. La page du projet est disponible à l'adresse https://zyh482.github.io/Hi3DEval/.
Les systèmes de Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) utilisant des Modèles de Langage Multimodaux de Grande Taille (Multimodal Large Language Models, MLLMs) montrent un grand potentiel pour la compréhension complexe de documents, mais leur développement est freiné par une évaluation inadéquate. Les benchmarks actuels se concentrent souvent sur une partie spécifique des systèmes RAG de documents et utilisent des données synthétiques avec des étiquettes de vérité terrain et de preuves incomplètes, ne reflétant donc pas les goulots d'étranglement et les défis du monde réel. Pour surmonter ces limites, nous introduisons Double-Bench : un nouveau système d'évaluation à grande échelle, multilingue et multimodal, capable de produire une évaluation fine de chaque composant des systèmes RAG de documents. Il comprend 3 276 documents (72 880 pages) et 5 168 requêtes simples et multi-sauts dans 6 langues et 4 types de documents, avec un support de mise à jour dynamique rationalisé pour les problèmes potentiels de contamination des données. Les requêtes sont ancrées dans des pages de preuves scannées de manière exhaustive et vérifiées par des experts humains pour garantir une qualité et une complétude maximales. Nos expériences approfondies sur 9 modèles d'embedding de pointe, 4 MLLMs et 4 frameworks RAG de documents de bout en bout démontrent que l'écart entre les modèles d'embedding textuels et visuels se réduit, soulignant la nécessité de construire des modèles de récupération de documents plus robustes. Nos résultats révèlent également le dilemme de sur-confiance dans les frameworks RAG de documents actuels, qui ont tendance à fournir une réponse même sans support de preuve. Nous espérons que notre Double-Bench entièrement open-source fournira une base rigoureuse pour les recherches futures sur les systèmes RAG de documents avancés. Nous prévoyons de récupérer un corpus à jour et de publier de nouveaux benchmarks sur une base annuelle.
Le bien-être englobe des dimensions mentales, physiques et sociales essentielles à la croissance personnelle et à la prise de décisions éclairées dans la vie. Alors que les individus consultent de plus en plus les modèles de langage de grande envergure (LLMs) pour comprendre le bien-être, un défi majeur émerge : ces LLMs peuvent-ils générer des explications qui soient non seulement précises, mais aussi adaptées à des publics divers ? Des explications de haute qualité nécessitent à la fois une exactitude factuelle et la capacité de répondre aux attentes des utilisateurs ayant des niveaux d'expertise variés. Dans ce travail, nous construisons un jeu de données à grande échelle comprenant 43 880 explications de 2 194 concepts liés au bien-être, générées par dix LLMs différents. Nous introduisons un cadre d'évaluation guidé par des principes, utilisant des juges doubles pour évaluer la qualité des explications. De plus, nous montrons que l'affinage d'un LLM open-source par Fine-Tuning Supervisé (SFT) et par Optimisation Directe des Préférences (DPO) peut significativement améliorer la qualité des explications générées. Nos résultats révèlent : (1) Les juges LLM proposés s'alignent bien avec les évaluations humaines ; (2) la qualité des explications varie significativement selon les modèles, les publics et les catégories ; et (3) les modèles affinés par DPO et SFT surpassent leurs homologues plus volumineux, démontrant l'efficacité de l'apprentissage basé sur les préférences pour des tâches d'explication spécialisées.
Récemment, les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) sont progressivement devenus un sujet de recherche privilégié en raison de leurs performances exceptionnelles dans la gestion de tâches complexes. Parmi eux, DeepSeek R1 a suscité une attention particulière pour ses performances remarquables et son caractère open-source, stimulant ainsi les avancées dans la recherche sur les LRMs de style R1. Contrairement aux modèles de langage à grande échelle (Large Language Models, LLMs) traditionnels, ces modèles améliorent les capacités de déduction logique et de prise de décision lors du raisonnement en intégrant des mécanismes tels que les chaînes de pensée longues et l'auto-réflexion via l'apprentissage par renforcement. Cependant, avec l'application généralisée de ces modèles, le problème de la sur-réflexion a progressivement émergé. Plus précisément, lors de la génération de réponses, ces modèles construisent souvent des chaînes de raisonnement excessivement longues avec des étapes redondantes ou répétitives, ce qui réduit l'efficacité du raisonnement et peut affecter la précision de la réponse finale. Pour remédier à cela, diverses méthodes de raisonnement efficace ont été proposées, visant à réduire la longueur des chemins de raisonnement sans compromettre les performances du modèle et sa capacité de raisonnement. En examinant systématiquement les avancées actuelles de la recherche dans le domaine des méthodes de raisonnement efficace, nous classons les travaux existants en deux grandes directions basées sur l'optimisation d'un modèle unique versus la collaboration entre modèles : (1) le raisonnement efficace avec un modèle unique, qui se concentre sur l'amélioration de l'efficacité du raisonnement des modèles individuels ; et (2) le raisonnement efficace par collaboration de modèles, qui explore l'optimisation des chemins de raisonnement grâce à la collaboration entre plusieurs modèles. Par ailleurs, nous maintenons un dépôt GitHub public qui suit les derniers progrès dans les méthodes de raisonnement efficace.
Cet article présente un système de synthèse vocale multifonctionnel qui intègre le clonage vocal et la synthèse de parole avec contrôle émotionnel dans un cadre unifié. L'objectif de ce travail est de relever les défis de longue date liés à la génération de parole hautement expressive, contrôlable et naturelle, tout en préservant fidèlement l'identité du locuteur dans divers contextes linguistiques et émotionnels. Notre approche introduit un mécanisme efficace de dissociation locuteur-émotion avec un apprentissage contrastif intra-lot, permettant une manipulation indépendante de l'identité du locuteur et du style émotionnel, ainsi qu'une méthode d'intégration d'encodage émotionnel rotationnel pour un contrôle fluide des émotions. Pour soutenir un entraînement et une évaluation complets, nous avons constitué CSEMOTIONS, un ensemble de données de parole émotionnelle de haute qualité contenant 10 heures de discours en mandarin provenant de six locuteurs professionnels couvrant sept catégories émotionnelles. Des expériences approfondies démontrent que notre système, Marco-Voice, obtient des améliorations substantielles à la fois sur les métriques objectives et subjectives. Des évaluations et analyses complètes ont été menées, les résultats montrent que MarcoVoice offre des performances compétitives en termes de clarté de la parole et de richesse émotionnelle, représentant une avancée significative dans le domaine de la synthèse vocale neuronale expressive.
Les agents autonomes qui opèrent des ordinateurs via des interfaces graphiques (GUI) souffrent souvent d'un manque d'efficacité et de fiabilité pour les tâches complexes et à long terme. Bien que l'ajout de planificateurs à ces agents puisse améliorer la décomposition des tâches, ils restent limités par les contraintes inhérentes à l'exécution de toutes les actions via la manipulation de l'interface graphique, ce qui entraîne fragilité et inefficacité. Dans ce travail, nous introduisons un paradigme plus robuste et flexible : permettre aux agents d'utiliser le codage comme une action améliorée. Nous présentons CoAct-1, un système multi-agent novateur qui combine de manière synergique le contrôle basé sur l'interface graphique avec l'exécution programmatique directe. CoAct-1 intègre un Orchestrateur qui délègue dynamiquement les sous-tâches soit à un Opérateur GUI conventionnel, soit à un agent Programmeur spécialisé, capable d'écrire et d'exécuter des scripts Python ou Bash. Cette approche hybride permet à l'agent de contourner les séquences d'actions inefficaces sur l'interface graphique pour des tâches telles que la gestion de fichiers et le traitement de données, tout en exploitant l'interaction visuelle lorsque nécessaire. Nous évaluons notre système sur le benchmark exigeant OSWorld, où CoAct-1 atteint un taux de réussite inédit de 60,76 %, surpassant significativement les méthodes précédentes. De plus, notre approche améliore considérablement l'efficacité, réduisant le nombre moyen d'étapes nécessaires pour accomplir une tâche à seulement 10,15, contre 15 pour les meilleurs agents basés sur l'interface graphique. Nos résultats démontrent que l'intégration du codage comme action centrale offre une voie plus puissante, efficace et évolutive vers l'automatisation généralisée des ordinateurs.
Les modèles multimodaux de grande taille (LMMs) ont connu une croissance remarquable, démontrant des capacités impressionnantes dans la gestion de tâches multimodales complexes avec des performances exceptionnelles. Des recherches récentes ont mis en évidence la tendance des grands modèles de langage à accepter passivement des entrées défectueuses, conduisant souvent à un raisonnement infructueux sur des invites invalides. Cependant, la question cruciale de savoir si les LMMs peuvent activement détecter et examiner les entrées erronées reste encore inexplorée. Pour combler cette lacune, nous introduisons le cadre d'évaluation de la capacité de vérification des entrées (ISEval), qui englobe sept catégories de prémisses défectueuses et trois métriques d'évaluation. Notre évaluation approfondie de dix LMMs avancés a permis d'identifier des résultats clés. La plupart des modèles peinent à détecter activement des prémisses textuelles défectueuses sans guidance, ce qui reflète une forte dépendance à des invites explicites pour l'identification des erreurs de prémisses. Le type d'erreur affecte la performance : les modèles excellent dans l'identification des erreurs logiques mais peinent avec les erreurs linguistiques superficielles et certaines failles conditionnelles. La confiance dans les modalités varie : Gemini 2.5 pro et Claude Sonnet 4 équilibrent les informations visuelles et textuelles, tandis qu'aya-vision-8b se repose excessivement sur le texte en cas de conflits. Ces observations soulignent le besoin urgent d'améliorer la vérification proactive de la validité des entrées par les LMMs et apportent de nouvelles perspectives pour atténuer ce problème. Le code est disponible à l'adresse https://github.com/MLGroupJLU/LMM_ISEval.
Un support client efficace nécessite non seulement une résolution précise des problèmes, mais aussi une communication structurée et empathique conforme aux standards professionnels. Cependant, les ensembles de données de dialogue existants manquent souvent de guidance stratégique, et les données de service réelles sont difficiles à accéder et à annoter. Pour remédier à cela, nous introduisons la tâche de Conversation de Support Client (CSC), visant à former les agents de service client à répondre en utilisant des stratégies de support bien définies. Nous proposons un cadre structuré de CSC basé sur les directives COPC, définissant cinq étapes conversationnelles et douze stratégies pour guider des interactions de haute qualité. Sur cette base, nous construisons CSConv, un ensemble de données d'évaluation de 1 855 conversations réelles entre clients et agents, réécrites à l'aide de modèles de langage (LLMs) pour refléter l'utilisation délibérée de stratégies, et annotées en conséquence. De plus, nous développons une approche de jeu de rôle qui simule des conversations riches en stratégies en utilisant des rôles alimentés par des LLMs alignés sur le cadre CSC, aboutissant à l'ensemble de données d'entraînement RoleCS. Les expériences montrent que le fine-tuning de LLMs performants sur RoleCS améliore significativement leur capacité à générer des réponses de haute qualité et alignées sur les stratégies dans CSConv. Les évaluations humaines confirment en outre des gains dans la résolution des problèmes. Tous les codes et données seront rendus publics sur https://github.com/aliyun/qwen-dianjin.
La segmentation d'objets vidéo (VOS) vise à segmenter des objets cibles spécifiés tout au long d'une vidéo. Bien que les méthodes de pointe aient obtenu des performances impressionnantes (par exemple, plus de 90 % en J&F) sur des benchmarks existants tels que DAVIS et YouTube-VOS, ces ensembles de données contiennent principalement des objets saillants, dominants et isolés, limitant ainsi leur généralisation à des scénarios réels. Pour faire progresser la VOS vers des environnements plus réalistes, le jeu de données coMplex video Object SEgmentation (MOSEv1) a été introduit pour faciliter la recherche en VOS dans des scènes complexes. En s'appuyant sur les forces et les limites de MOSEv1, nous présentons MOSEv2, un ensemble de données nettement plus difficile, conçu pour faire progresser davantage les méthodes de VOS dans des conditions réelles. MOSEv2 se compose de 5 024 vidéos et de plus de 701 976 masques de haute qualité pour 10 074 objets répartis dans 200 catégories. Par rapport à son prédécesseur, MOSEv2 introduit une complexité de scène bien plus importante, incluant des disparitions et réapparitions d'objets plus fréquentes, des occlusions et des encombrements sévères, des objets plus petits, ainsi qu'une gamme de nouveaux défis tels que des conditions météorologiques adverses (par exemple, pluie, neige, brouillard), des scènes en faible luminosité (par exemple, nuit, sous l'eau), des séquences multi-plans, des objets camouflés, des cibles non physiques (par exemple, ombres, reflets), des scénarios nécessitant des connaissances externes, etc. Nous évaluons 20 méthodes représentatives de VOS sous 5 configurations différentes et observons des baisses de performances constantes. Par exemple, SAM2 passe de 76,4 % sur MOSEv1 à seulement 50,9 % sur MOSEv2. Nous évaluons également 9 méthodes de suivi d'objets vidéo et constatons des déclins similaires, démontrant que MOSEv2 présente des défis transversaux. Ces résultats soulignent que, malgré une précision élevée sur les ensembles de données existants, les méthodes actuelles de VOS peinent encore face aux complexités du monde réel. MOSEv2 est disponible publiquement à l'adresse https://MOSE.video.
Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes sur une large gamme de tâches complexes. Cependant, l'amélioration de ces capacités par le biais d'un post-entraînement reste coûteuse en ressources, notamment en termes de données et de calcul. Bien que des efforts récents aient cherché à améliorer l'efficacité des échantillons grâce à une curation sélective des données, les méthodes existantes reposent souvent sur des stratégies heuristiques ou spécifiques à une tâche, ce qui limite leur évolutivité. Dans ce travail, nous présentons InfiAlign, un cadre de post-entraînement évolutif et efficace en termes d'échantillons, qui intègre un ajustement fin supervisé (SFT) avec l'optimisation directe des préférences (DPO) pour aligner les LLMs afin d'améliorer leur raisonnement. Au cœur d'InfiAlign se trouve un pipeline robuste de sélection de données qui curate automatiquement des données d'alignement de haute qualité à partir de jeux de données de raisonnement open-source, en utilisant des métriques de qualité multidimensionnelles. Ce pipeline permet des gains de performance significatifs tout en réduisant considérablement les besoins en données et reste extensible à de nouvelles sources de données. Appliqué au modèle Qwen2.5-Math-7B-Base, notre modèle SFT atteint des performances comparables à celles de DeepSeek-R1-Distill-Qwen-7B, tout en utilisant seulement environ 12 % des données d'entraînement, et démontre une forte généralisation sur diverses tâches de raisonnement. Des améliorations supplémentaires sont obtenues grâce à l'application de la DPO, avec des gains particulièrement notables dans les tâches de raisonnement mathématique. Le modèle réalise une amélioration moyenne de 3,89 % sur les benchmarks AIME 24/25. Nos résultats mettent en évidence l'efficacité de la combinaison d'une sélection de données rigoureuse avec un post-entraînement complet, offrant une solution pratique pour aligner les grands modèles de raisonnement de manière évolutive et efficace en termes de données. Les points de contrôle du modèle sont disponibles à l'adresse https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
La génération réaliste de mèches de cheveux est cruciale pour des applications telles que l’infographie et la réalité virtuelle. Bien que les modèles de diffusion puissent générer des coiffures à partir de texte ou d’images, ces entrées manquent de précision et de convivialité. Nous proposons plutôt le premier modèle de génération de mèches basé sur des croquis, offrant un contrôle plus fin tout en restant facile à utiliser. Notre cadre aborde des défis clés, tels que la modélisation des interactions complexes entre les mèches et des motifs de croquis variés, grâce à deux innovations principales : une stratégie d’upsampling apprenable qui encode les mèches 3D dans des espaces latents multi-échelles, et un mécanisme de conditionnement adaptatif multi-échelles utilisant un transformateur avec des têtes de diffusion pour assurer la cohérence entre les niveaux de granularité. Les expériences sur plusieurs ensembles de données de référence montrent que notre méthode surpasse les approches existantes en termes de réalisme et de précision. Les résultats qualitatifs confirment en outre son efficacité. Le code sera publié sur [GitHub](https://github.com/fighting-Zhang/StrandDesigner).
La compression d'images basée sur la diffusion a démontré des performances perceptuelles impressionnantes. Cependant, elle souffre de deux inconvénients majeurs : (1) une latence de décodage excessive due à l'échantillonnage multi-étapes, et (2) une fidélité médiocre résultant d'une dépendance excessive aux a priori génératifs. Pour résoudre ces problèmes, nous proposons SODEC, un nouveau modèle de compression d'images par diffusion en une seule étape. Nous soutenons que dans la compression d'images, un latent suffisamment informatif rend inutile le raffinement multi-étapes. Sur la base de cette idée, nous exploitons un modèle pré-entraîné basé sur VAE pour produire des latents riches en informations, et remplaçons le processus itératif de débruitage par un décodage en une seule étape. Par ailleurs, pour améliorer la fidélité, nous introduisons le module de guidage de fidélité, encourageant une sortie fidèle à l'image originale. De plus, nous concevons la stratégie d'entraînement par annélation du taux pour permettre un entraînement efficace à des débits extrêmement faibles. Des expériences approfondies montrent que SODEC surpasse significativement les méthodes existantes, atteignant une performance supérieure en termes de taux-distortion-perception. En outre, par rapport aux modèles de compression basés sur la diffusion précédents, SODEC améliore la vitesse de décodage de plus de 20 fois. Le code est disponible à l'adresse : https://github.com/zhengchen1999/SODEC.
Les modèles de langage à raisonnement (R-LLMs) ont considérablement progressé dans les tâches de raisonnement complexe, mais ils peinent souvent à maintenir la factualité, générant significativement plus d'hallucinations que leurs homologues non raisonnés sur les benchmarks de factualité à long format. Cependant, l'extension de l'apprentissage par renforcement en ligne (RL), un composant clé des récents progrès des R-LLMs, au contexte de factualité à long format présente plusieurs défis uniques en raison de l'absence de méthodes de vérification fiables. Les travaux précédents ont utilisé des cadres d'évaluation automatique de la factualité, tels que FActScore, pour constituer des données de préférence dans le cadre du RL hors ligne. Cependant, nous constatons que l'utilisation directe de ces méthodes comme récompense dans le RL en ligne entraîne un détournement de récompense de plusieurs manières, comme la production de réponses moins détaillées ou pertinentes. Nous proposons une nouvelle fonction de récompense qui prend simultanément en compte la précision factuelle, le niveau de détail de la réponse et la pertinence de la réponse, et appliquons le RL en ligne pour apprendre un raisonnement factuel de haute qualité. Évalué sur six benchmarks de factualité à long format, notre modèle de raisonnement factuel obtient une réduction moyenne de 23,1 points de pourcentage du taux d'hallucination, une augmentation de 23 % du niveau de détail des réponses, et aucune dégradation de l'utilité globale des réponses.
La segmentation d'expression référentielle (RES, *Reference Expression Segmentation*) vise à segmenter les régions d'image spécifiées par des expressions référentielles et a gagné en popularité avec l'essor des modèles multimodaux de grande taille (MLLMs, *Multimodal Large Models*). Bien que les MLLMs excellent dans la compréhension sémantique, leur paradigme de génération de tokens peine à réaliser des prédictions denses au niveau des pixels. Les méthodes RES existantes couplent soit les MLLMs avec le modèle Segment Anything Model (SAM), lourd en paramètres avec 632 millions de paramètres réseau, soit adoptent des pipelines légers sans SAM qui sacrifient la précision. Pour résoudre ce compromis entre performance et coût, nous proposons spécifiquement MLLMSeg, un nouveau cadre qui exploite pleinement les caractéristiques visuelles détaillées intrinsèques encodées dans l'encodeur visuel des MLLMs sans introduire d'encodeur visuel supplémentaire. Par ailleurs, nous proposons un module de fusion de caractéristiques amélioré en détails et cohérent sémantiquement (DSFF, *Detail-Enhanced and Semantic-Consistent Feature Fusion*) qui intègre pleinement la caractéristique visuelle liée aux détails avec la caractéristique sémantique produite par le modèle de langage de grande taille (LLM, *Large Language Model*) des MLLMs. Enfin, nous établissons un décodeur de masque léger avec seulement 34 millions de paramètres réseau qui exploite de manière optimale les caractéristiques spatiales détaillées de l'encodeur visuel et les caractéristiques sémantiques du LLM pour réaliser une prédiction de masque précise. Des expériences approfondies démontrent que notre méthode surpasse généralement à la fois les concurrents basés sur SAM et ceux sans SAM, offrant un meilleur équilibre entre performance et coût. Le code est disponible à l'adresse https://github.com/jcwang0602/MLLMSeg.
Les modèles vision-langage (VLMs) existants, qu'ils soient généralistes ou spécialisés, restent limités par leur échelle de paramètres, manquent de capacités robustes d'auto-correction et sous-performent dans les tâches impliquant des contextes visuels longs et des raisonnements complexes, ce qui entraîne des performances sous-optimales dans les tâches basées sur des documents. Pour remédier à cela, nous proposons MACT, un cadre de collaboration multi-agents avec mise à l'échelle au moment du test, conçu pour la compréhension visuelle de documents et la réponse à des questions visuelles (VQA). Il comprend quatre agents distincts à petite échelle, à savoir les agents de planification, d'exécution, de jugement et de réponse, avec des rôles clairement définis et une collaboration efficace. Notamment, l'agent de jugement vérifie exclusivement la justesse et redirige vers les agents précédents pour des révisions, surpassant les stratégies de correction conventionnelles. Pour étendre davantage les limites de capacité du cadre, nous proposons une modélisation de récompense mixte qui équilibre les capacités spécifiques des agents et la collaboration globale, ainsi qu'une mise à l'échelle hybride au moment du test par agent, qui personnalise différentes stratégies de mise à l'échelle pour chaque agent en fonction de leurs fonctions. Évalué sur des benchmarks couvrant à la fois des contextes basés sur des documents et non basés sur des documents, notre MACT montre une performance supérieure avec une échelle de paramètres plus petite sans sacrifier la capacité des tâches générales et mathématiques. En particulier, il se distingue dans les benchmarks impliquant des contextes visuels longs et des raisonnements complexes. Les trois variantes de MACT occupent systématiquement les trois premières positions en termes de scores moyens, menant dans 13 des 15 benchmarks. Le code sera disponible à l'adresse : https://github.com/YU-deep/MACT.git.
La performance des modèles de langage à grande échelle (LLMs) est fortement sensible à la position contextuelle des informations dans l'entrée. Pour étudier le mécanisme sous-jacent à ce biais positionnel, nos expériences approfondies révèlent un phénomène constant que nous appelons le bassin d'attention : lorsqu'ils sont confrontés à une séquence d'éléments structurés (par exemple, des documents récupérés ou des exemples en few-shot), les modèles attribuent systématiquement une attention plus élevée aux éléments situés au début et à la fin de la séquence, tout en négligeant ceux du milieu. De manière cruciale, notre analyse révèle en outre que l'allocation d'une attention plus élevée aux informations critiques est essentielle pour améliorer la performance des modèles. Sur la base de ces observations, nous introduisons le réordonnancement piloté par l'attention (AttnRank), un cadre en deux étapes qui (i) estime les préférences attentionnelles positionnelles intrinsèques d'un modèle à l'aide d'un petit ensemble de calibration, et (ii) réordonne les documents récupérés ou les exemples en few-shot pour aligner le contenu le plus saillant avec ces positions à haute attention. AttnRank est une méthode agnostique au modèle, sans entraînement, et prête à l'emploi, avec un surcoût computationnel minimal. Les expériences sur des tâches de questions-réponses multi-sauts et d'apprentissage en contexte few-shot démontrent qu'AttnRank obtient des améliorations substantielles sur 10 modèles de langage à grande échelle de différentes architectures et échelles, sans modifier les paramètres du modèle ou les procédures d'entraînement.
Cet article présente un benchmark complet pour évaluer la manière dont les modèles de langage de grande taille (LLMs) réagissent aux shibboleths linguistiques : des marqueurs linguistiques subtils qui peuvent révéler involontairement des attributs démographiques tels que le genre, la classe sociale ou l'origine régionale. À travers des simulations d'entretiens soigneusement construites utilisant 100 paires de questions-réponses validées, nous démontrons comment les LLMs pénalisent systématiquement certains schémas linguistiques, en particulier le langage de précaution, malgré une qualité de contenu équivalente. Notre benchmark génère des variations linguistiques contrôlées qui isolent des phénomènes spécifiques tout en maintenant une équivalence sémantique, ce qui permet une mesure précise des biais démographiques dans les systèmes d'évaluation automatisés. Nous validons notre approche selon plusieurs dimensions linguistiques, montrant que les réponses prudentes reçoivent en moyenne des notes 25,6 % plus basses, et démontrons l'efficacité du benchmark pour identifier les biais spécifiques aux modèles. Ce travail établit un cadre fondamental pour détecter et mesurer la discrimination linguistique dans les systèmes d'intelligence artificielle, avec des applications étendues à l'équité dans les contextes de prise de décision automatisée.
Le lien d'entités multimodale joue un rôle crucial dans un large éventail d'applications. Les récents progrès des méthodes basées sur des modèles de langage de grande envergure sont devenus le paradigme dominant pour cette tâche, exploitant efficacement à la fois les modalités textuelles et visuelles pour améliorer les performances. Malgré leur succès, ces méthodes sont encore confrontées à deux défis, notamment l'incorporation inutile de données d'image dans certains scénarios et la dépendance uniquement à une extraction unique des caractéristiques visuelles, ce qui peut compromettre leur efficacité et leur précision. Pour relever ces défis, nous proposons un nouveau cadre basé sur un modèle de langage de grande envergure pour la tâche de lien d'entités multimodale, appelé Réflexions Collaboratives Intra- et Inter-modales. Ce cadre priorise l'exploitation des informations textuelles pour accomplir la tâche. Lorsque le texte seul est insuffisant pour lier l'entité correcte à travers des évaluations intra- et inter-modales, il emploie une stratégie itérative multi-tours qui intègre des indices visuels clés provenant de divers aspects de l'image pour soutenir le raisonnement et améliorer la précision de la correspondance. Des expériences approfondies sur trois ensembles de données publics largement utilisés démontrent que notre cadre surpasse systématiquement les méthodes actuelles les plus avancées dans la tâche, obtenant des améliorations de 3,2 %, 5,1 % et 1,6 %, respectivement. Notre code est disponible à l'adresse https://github.com/ziyan-xiaoyu/I2CR/.
L'alignement et l'uniformité sont des principes fondamentaux dans le domaine de l'apprentissage contrastif. Dans les systèmes de recommandation, les travaux antérieurs ont établi que l'optimisation de la fonction de perte Bayesian Personalized Ranking (BPR) contribue aux objectifs d'alignement et d'uniformité. Plus précisément, l'alignement vise à rapprocher les représentations des utilisateurs et des éléments interagissant entre eux, tandis que l'uniformité impose une distribution uniforme des embeddings des utilisateurs et des éléments sur une hypersphère unitaire. Cette étude revisite les propriétés d'alignement et d'uniformité dans le contexte des systèmes de recommandation multimodaux, révélant une tendance des modèles existants à privilégier l'uniformité au détriment de l'alignement. Notre hypothèse remet en question l'hypothèse conventionnelle d'un traitement équitable des éléments via une perte d'uniformité, en proposant une approche plus nuancée où les éléments présentant des attributs multimodaux similaires convergent vers des représentations proches au sein de la variété hypersphérique. Plus spécifiquement, nous exploitons la similarité inhérente entre les données multimodales des éléments pour calibrer leur distribution d'uniformité, induisant ainsi une force répulsive plus marquée entre les entités dissimilaires dans l'espace d'embedding. Une analyse théorique éclaire la relation entre cette perte d'uniformité calibrée et la fonction d'uniformité conventionnelle. Par ailleurs, pour améliorer la fusion des caractéristiques multimodales, nous introduisons une méthode de B\'ezier sphérique conçue pour intégrer un nombre arbitraire de modalités tout en garantissant que les caractéristiques fusionnées résultantes sont contraintes à la même variété hypersphérique. Les évaluations empiriques menées sur cinq jeux de données réels confirment la supériorité de notre approche par rapport aux méthodes de référence concurrentes. Nous montrons également que les méthodes proposées peuvent atteindre une augmentation de jusqu'à 5,4 % des performances NDCG@20 grâce à l'intégration de caractéristiques extraites par MLLM. Le code source est disponible à l'adresse suivante : https://github.com/enoche/CM3.
La rédaction des informations personnellement identifiables (PII) à partir de texte non structuré est essentielle pour garantir la confidentialité des données dans les domaines réglementés. Si les approches antérieures reposaient sur des systèmes basés sur des règles et des modèles de reconnaissance d'entités nommées (NER) spécifiques à un domaine, ces méthodes échouent à généraliser leur application à travers différents formats et contextes. Les récents progrès des modèles de langage de grande taille (LLMs) offrent une alternative prometteuse, bien que l'impact des choix architecturaux et d'entraînement sur les performances de rédaction reste peu exploré. Les LLMs ont démontré des performances solides dans des tâches nécessitant une compréhension contextuelle du langage, y compris la rédaction des PII dans du texte libre. Les travaux antérieurs suggèrent qu'avec une adaptation appropriée, les LLMs peuvent devenir des apprenants efficaces en matière de confidentialité contextuelle. Cependant, les conséquences des choix architecturaux et d'entraînement pour la rédaction des PII restent insuffisamment étudiées. Dans ce travail, nous présentons une analyse approfondie des LLMs en tant que systèmes de rédaction des PII préservant la confidentialité. Nous évaluons une gamme d'architectures de LLMs et de stratégies d'entraînement pour leur efficacité dans la rédaction des PII. Notre analyse mesure les performances de rédaction, la préservation sémantique et les fuites de PII, et compare ces résultats à la latence et au coût computationnel. Les résultats fournissent des conseils pratiques pour configurer des rédacteurs basés sur LLM qui sont précis, efficaces et conscients de la confidentialité. Pour soutenir la reproductibilité et le déploiement en conditions réelles, nous publions PRvL, une suite open-source de modèles affinés et d'outils d'évaluation pour la rédaction générale des PII. PRvL est entièrement construit sur des LLMs open-source et prend en charge plusieurs configurations d'inférence pour la flexibilité et la conformité. Il est conçu pour être facilement personnalisable pour différents domaines et entièrement opérable dans des environnements sécurisés et autogérés. Cela permet aux propriétaires de données d'effectuer des rédactions sans recourir à des services tiers ou exposer du contenu sensible au-delà de leur propre infrastructure.
Les systèmes de traduction simultanée de la parole (SimulST) traitent l'audio en flux continu tout en produisant simultanément du texte ou de la parole traduite. Ces systèmes sont confrontés au défi majeur d'équilibrer la qualité de la traduction et la latence. Nous introduisons une stratégie pour optimiser ce compromis : attendre davantage d'entrée uniquement si cela permet d'obtenir des informations supplémentaires. Sur la base de cette stratégie, nous présentons Regularized Entropy INformation Adaptation (REINA), une nouvelle fonction de perte pour entraîner une politique adaptative en utilisant un modèle de traduction non-streaming existant. Nous dérivons REINA à partir des principes de la théorie de l'information et montrons que REINA permet de repousser la frontière de Pareto rapportée du compromis latence/qualité par rapport aux travaux antérieurs. En utilisant REINA, nous entraînons un modèle SimulST sur le français, l'espagnol et l'allemand, à la fois depuis et vers l'anglais. En nous appuyant uniquement sur des données open source ou générées synthétiquement, nous obtenons des résultats de streaming à l'état de l'art (SOTA) pour des modèles de taille comparable. Nous introduisons également une métrique d'efficacité du streaming, montrant quantitativement que REINA améliore le compromis latence/qualité jusqu'à 21 % par rapport aux approches précédentes, normalisé par rapport aux scores BLEU de référence non-streaming.
L'émergence de modèles de raisonnement et leur intégration dans des chatbots d'intelligence artificielle pratiques ont conduit à des avancées dans la résolution de problèmes mathématiques avancés, de recherche approfondie et de réponse à des questions extractives nécessitant un processus de pensée complexe et multi-étapes. Cependant, une compréhension complète de la raison pour laquelle ces modèles hallucinent davantage que les modèles de langage à usage général fait encore défaut. Dans cette étude investigatrice, nous explorons systématiquement les échecs de raisonnement des modèles de langage contemporains sur des tâches de réponse à des questions à sauts multiples. Nous introduisons un cadre novateur et nuancé de catégorisation des erreurs qui examine les échecs selon trois dimensions critiques : la diversité et l'unicité des documents sources impliqués ("sauts"), l'exhaustivité dans la capture des informations pertinentes ("couverture"), et l'inefficacité cognitive ("sur-réflexion"). Grâce à une annotation humaine rigoureuse, soutenue par des métriques automatisées complémentaires, notre exploration révèle des schémas d'erreurs complexes souvent masqués par des évaluations centrées sur la précision. Cette approche investigatrice offre des insights plus profonds sur les limitations cognitives des modèles actuels et fournit des orientations actionnables pour améliorer la fidélité, la transparence et la robustesse du raisonnement dans les futurs efforts de modélisation du langage.
L'analyse en composantes principales robuste (RPCA) décompose une matrice d'observation en un fond de faible rang et des composantes d'objets parcimonieuses. Cette capacité a permis son application dans des tâches allant de la restauration d'images à la segmentation. Cependant, les modèles RPCA traditionnels souffrent de charges computationnelles dues aux opérations matricielles, d'une dépendance à des hyperparamètres finement ajustés, et de priors rigides qui limitent l'adaptabilité dans des scénarios dynamiques. Pour résoudre ces limitations, nous proposons RPCANet++, un cadre de segmentation d'objets parcimonieux qui fusionne l'interprétabilité de la RPCA avec des architectures profondes efficaces. Notre approche déploie un modèle RPCA relaxé en un réseau structuré comprenant un Module d'Approximation de Fond (BAM), un Module d'Extraction d'Objets (OEM), et un Module de Restauration d'Image (IRM). Pour atténuer la perte de transmission inter-étapes dans le BAM, nous introduisons un Module à Mémoire Augmentée (MAM) pour améliorer la préservation des caractéristiques de fond, tandis qu'un Module de Priorité de Contraste Profond (DCPM) exploite des indices de saillance pour accélérer l'extraction d'objets. Des expériences approfondies sur divers ensembles de données démontrent que RPCANet++ atteint des performances de pointe dans divers scénarios d'imagerie. Nous améliorons également l'interprétabilité via des mesures visuelles et numériques de faible rang et de parcimonie. En combinant les forces théoriques de la RPCA avec l'efficacité des réseaux profonds, notre approche établit une nouvelle référence pour une segmentation d'objets parcimonieux fiable et interprétable. Les codes sont disponibles sur notre page de projet https://fengyiwu98.github.io/rpcanetx.
Les modèles de langage multimodaux (MLMs) montrent un potentiel pour le soutien à la décision clinique et le raisonnement diagnostique, ouvrant la perspective d'une interprétation automatisée des images médicales de bout en bout. Cependant, les cliniciens sont très sélectifs dans l'adoption des outils d'IA ; un modèle qui commet des erreurs sur des tâches de perception apparemment simples, comme déterminer l'orientation d'une image ou identifier si un scanner est avec produit de contraste, a peu de chances d'être adopté pour des tâches cliniques. Nous présentons Medblink, un benchmark conçu pour évaluer ces modèles sur de telles capacités perceptuelles. Medblink couvre huit tâches cliniquement significatives à travers plusieurs modalités d'imagerie et régions anatomiques, totalisant 1 429 questions à choix multiples sur 1 605 images. Nous évaluons 19 MLMs de pointe, incluant des modèles à usage général (GPT4o, Claude 3.5 Sonnet) et spécialisés (Med Flamingo, LLaVA Med, RadFM). Alors que les annotateurs humains atteignent une précision de 96,4 %, le meilleur modèle n'atteint que 65 %. Ces résultats montrent que les MLMs actuels échouent fréquemment sur des vérifications perceptuelles de routine, suggérant la nécessité de renforcer leur ancrage visuel pour favoriser leur adoption clinique. Les données sont disponibles sur notre page de projet.