papers.description
Les récentes avancées dans les modèles de langage de grande taille (LLMs) et les systèmes multi-agents ont démontré des capacités remarquables dans des tâches complexes de résolution de problèmes, telles que la recherche approfondie, le codage intuitif et le raisonnement mathématique. Cependant, la plupart des systèmes multi-agents existants sont construits sur une ingénierie manuelle de prompts et de workflows avec des cadres d'agents sophistiqués, ce qui les rend inefficaces sur le plan computationnel, moins performants et incapables de bénéficier d'un apprentissage centré sur les données. Dans ce travail, nous introduisons Chain-of-Agents (CoA), un nouveau paradigme de raisonnement pour les LLMs qui permet une résolution de problèmes complexes native de bout en bout, de la même manière qu'un système multi-agent (c'est-à-dire une résolution de problèmes en plusieurs étapes avec plusieurs outils et plusieurs agents) au sein d'un seul modèle. Dans la résolution de problèmes en chaîne d'agents, le modèle active dynamiquement différents agents-outils et agents de jeu de rôle pour simuler une collaboration multi-agent de manière end-to-end. Pour susciter les capacités de résolution de problèmes en chaîne d'agents de bout en bout dans les LLMs, nous introduisons un cadre de distillation multi-agent pour distiller les systèmes multi-agents de pointe en trajectoires de chaîne d'agents pour un ajustement fin supervisé agentique. Nous utilisons ensuite un apprentissage par renforcement agentique sur des tâches agentiques vérifiables pour améliorer davantage les capacités des modèles en matière de résolution de problèmes en chaîne d'agents. Nous appelons les modèles résultants Agent Foundation Models (AFMs). Nos études empiriques démontrent que l'AFM établit de nouvelles performances de pointe sur divers benchmarks, tant dans des contextes d'agents web que d'agents de code. Nous rendons l'intégralité de la recherche, y compris les poids des modèles, le code pour l'entraînement et l'évaluation, ainsi que les données d'entraînement, entièrement open-source, offrant ainsi un point de départ solide pour les recherches futures sur les modèles d'agents et l'apprentissage par renforcement agentique.
LongSplat aborde les défis critiques de la synthèse de nouvelles vues (NVS) à partir de vidéos longues capturées de manière informelle, caractérisées par des mouvements de caméra irréguliers, des poses de caméra inconnues et des scènes étendues. Les méthodes actuelles souffrent souvent de dérive de pose, d'initialisation géométrique imprécise et de limitations sévères de mémoire. Pour résoudre ces problèmes, nous introduisons LongSplat, un cadre robuste de splatting 3D Gaussien non posé, comprenant : (1) une Optimisation Conjointe Incrémentale qui optimise simultanément les poses de caméra et les Gaussiennes 3D pour éviter les minima locaux et assurer une cohérence globale ; (2) un Module d'Estimation de Pose Robuste exploitant des a priori 3D appris ; et (3) un mécanisme efficace de Formation d'Ancres Octree qui convertit des nuages de points denses en ancres basées sur la densité spatiale. Des expériences approfondies sur des benchmarks difficiles démontrent que LongSplat atteint des résultats de pointe, améliorant considérablement la qualité de rendu, la précision des poses et l'efficacité computationnelle par rapport aux approches précédentes. Page du projet : https://linjohnss.github.io/longsplat/
Les modèles de langage de grande taille (LLMs) nécessitent un prompt sophistiqué, mais les pratiques actuelles rencontrent des défis en matière de structure, d'intégration de données, de sensibilité au format et d'outillage. Les méthodes existantes manquent de solutions complètes pour organiser des prompts complexes impliquant divers types de données (documents, tableaux, images) ou pour gérer systématiquement les variations de présentation. Pour combler ces lacunes, nous introduisons POML (Prompt Orchestration Markup Language). POML utilise un balisage basé sur des composants pour la structure logique (rôles, tâches, exemples), des balises spécialisées pour une intégration transparente des données, et un système de style similaire à CSS pour découpler le contenu de la présentation, réduisant ainsi la sensibilité au format. Il inclut un système de modèles pour des prompts dynamiques et une boîte à outils complète pour les développeurs (support IDE, SDKs) afin d'améliorer le contrôle de version et la collaboration. Nous validons POML à travers deux études de cas démontrant son impact sur l'intégration d'applications complexes (PomLink) et la performance en termes de précision (TableQA), ainsi qu'une étude utilisateur évaluant son efficacité dans des scénarios de développement réels.
Les designers visuels puisent naturellement leur inspiration dans de multiples références visuelles, combinant divers éléments et principes esthétiques pour créer des œuvres. Cependant, les cadres actuels de génération d'images reposent principalement sur des entrées à source unique -- soit des invites textuelles, soit des images de référence individuelles. Dans cet article, nous nous concentrons sur la tâche de génération d'images contrôlable à l'aide de multiples références visuelles. Nous présentons MultiRef-bench, un cadre d'évaluation rigoureux comprenant 990 échantillons synthétiques et 1 000 échantillons réels nécessitant l'intégration de contenu visuel provenant de plusieurs images de référence. Les échantillons synthétiques sont générés artificiellement grâce à notre moteur de données RefBlend, avec 10 types de références et 33 combinaisons de références. Sur la base de RefBlend, nous construisons en outre un ensemble de données MultiRef contenant 38 000 images de haute qualité pour faciliter les recherches ultérieures. Nos expériences sur trois modèles intercalés image-texte (c'est-à-dire OmniGen, ACE et Show-o) et six cadres agentiques (par exemple, ChatDiT et LLM + SD) révèlent que même les systèmes les plus avancés peinent avec le conditionnement multi-référence, le meilleur modèle OmniGen atteignant seulement 66,6 % sur les échantillons synthétiques et 79,0 % sur les cas réels en moyenne par rapport à la réponse idéale. Ces résultats fournissent des orientations précieuses pour développer des outils créatifs plus flexibles et plus proches de l'humain, capables d'intégrer efficacement plusieurs sources d'inspiration visuelle. L'ensemble de données est disponible publiquement à l'adresse : https://multiref.github.io/.
L'évaluation des recommandations personnalisées reste un défi central, en particulier dans les domaines audio de longue durée comme les podcasts, où les métriques traditionnelles hors ligne souffrent de biais d'exposition et où les méthodes en ligne telles que les tests A/B sont coûteuses et opérationnellement contraignantes. Dans cet article, nous proposons un cadre novateur qui exploite les modèles de langage de grande taille (LLM) en tant qu'évaluateurs hors ligne pour juger de la qualité des recommandations de podcasts de manière scalable et interprétable. Notre approche en deux étapes, prenant en compte les profils, commence par construire des profils utilisateur en langage naturel distillés à partir de 90 jours d'historique d'écoute. Ces profils résument à la fois les centres d'intérêt thématiques et les modèles comportementaux, servant de représentations compactes et interprétables des préférences des utilisateurs. Plutôt que de fournir au LLM des données brutes, nous utilisons ces profils pour fournir un contexte de haut niveau et sémantiquement riche, permettant au LLM de raisonner plus efficacement sur l'alignement entre les intérêts d'un utilisateur et les épisodes recommandés. Cela réduit la complexité des entrées et améliore l'interprétabilité. Le LLM est ensuite sollicité pour fournir des jugements point par point et par paires basés sur la correspondance profil-épisode. Dans une étude contrôlée avec 47 participants, notre évaluateur prenant en compte les profils a correspondu aux jugements humains avec une grande fidélité et a surpassé ou égalé une variante utilisant des historiques d'écoute bruts. Ce cadre permet une évaluation efficace et prenant en compte les profils pour des tests itératifs et la sélection de modèles dans les systèmes de recommandation.
La généralisation en IA incarnée est entravée par le "fossé perception-action", qui découle de la rareté des données et de l'hétérogénéité des incarnations. Pour y remédier, nous introduisons le "pointage" comme représentation intermédiaire unifiée et indépendante de l'incarnation, définissant quatre capacités fondamentales de pointage incarné qui relient la compréhension visuo-linguistique de haut niveau avec les primitives d'action de bas niveau. Nous présentons Embodied-R1, un modèle vision-langage (VLM) de 3B spécialement conçu pour le raisonnement et le pointage incarnés. Nous utilisons une variété de jeux de données de raisonnement visuel général et incarné pour construire un ensemble de données à grande échelle, Embodied-Points-200K, qui soutient les capacités clés de pointage incarné. Nous entraînons ensuite Embodied-R1 en utilisant un curriculum en deux étapes de Fine-tuning Renforcé (RFT) avec une conception de récompense multi-tâche spécialisée. Embodied-R1 atteint des performances de pointe sur 11 benchmarks de spatialité et de pointage incarnés. De manière critique, il démontre une généralisation robuste en zero-shot en atteignant un taux de réussite de 56,2% dans SIMPLEREnv et de 87,5% sur 8 tâches réelles avec le bras robotique XArm sans aucun fine-tuning spécifique à la tâche, représentant une amélioration de 62% par rapport aux bases de référence solides. De plus, le modèle montre une grande robustesse face à diverses perturbations visuelles. Notre travail montre qu'une représentation centrée sur le pointage, combinée à un paradigme d'entraînement RFT, offre une voie efficace et généralisable pour combler le fossé perception-action en robotique.
Bien que les grands modèles de langage (LLM) aient démontré des performances remarquables sur diverses tâches, ils manquent fondamentalement de conscience de soi et manifestent fréquemment une surconfiance, attribuant des scores de confiance élevés à des prédictions incorrectes. Une estimation précise de la confiance est donc cruciale pour renforcer la fiabilité et la crédibilité des sorties générées par les LLM. Cependant, les approches existantes souffrent de mécanismes de notation grossiers qui ne parviennent pas à fournir des estimations de confiance continues et fines tout au long du processus de génération. Pour pallier ces limites, nous introduisons FineCE, une nouvelle méthode d'estimation de la confiance qui fournit des scores de confiance précis et granulaires pendant la génération de texte. Plus précisément, nous développons d'abord un pipeline complet pour construire des données d'entraînement qui capturent efficacement la distribution probabiliste sous-jacente des réponses des LLM, puis nous entraînons un modèle à prédire les scores de confiance pour des séquences de texte arbitraires de manière supervisée. En outre, nous proposons une stratégie d'Intégration de Confiance Rétrospective (BCI) qui exploite les informations du texte suivant pour améliorer l'estimation de la confiance pour la séquence actuelle lors de l'inférence. Nous introduisons également trois stratégies pour identifier les positions optimales pour effectuer l'estimation de la confiance dans le processus de génération. Des expériences approfondies sur plusieurs ensembles de données de référence montrent que FineCE surpasse systématiquement les méthodes classiques d'estimation de la confiance existantes. Notre code et toutes les bases de référence utilisées dans l'article sont disponibles sur GitHub.
L'édition de couleurs guidée par texte dans les images et les vidéos est un problème fondamental mais non résolu, nécessitant une manipulation fine des attributs de couleur, y compris l'albedo, la couleur de la source lumineuse et l'éclairage ambiant, tout en préservant la cohérence physique de la géométrie, des propriétés des matériaux et des interactions lumière-matière. Les méthodes existantes sans apprentissage offrent une applicabilité large à travers diverses tâches d'édition, mais peinent à contrôler précisément les couleurs et introduisent souvent des incohérences visuelles dans les régions éditées et non éditées. Dans ce travail, nous présentons ColorCtrl, une méthode d'édition de couleurs sans apprentissage qui exploite les mécanismes d'attention des Transformers de Diffusion Multi-Modale (MM-DiT) modernes. En séparant la structure et la couleur par une manipulation ciblée des cartes d'attention et des tokens de valeur, notre méthode permet une édition de couleurs précise et cohérente, ainsi qu'un contrôle au niveau des mots de l'intensité des attributs. Notre méthode modifie uniquement les régions spécifiées par l'invite, laissant les zones non concernées intactes. Des expériences approfondies sur SD3 et FLUX.1-dev démontrent que ColorCtrl surpasse les approches existantes sans apprentissage et atteint des performances de pointe en termes de qualité d'édition et de cohérence. De plus, notre méthode dépasse des modèles commerciaux robustes tels que FLUX.1 Kontext Max et GPT-4o Image Generation en termes de cohérence. Lorsqu'elle est étendue à des modèles vidéo comme CogVideoX, notre approche présente des avantages encore plus marqués, notamment dans le maintien de la cohérence temporelle et de la stabilité de l'édition. Enfin, notre méthode se généralise également à des modèles de diffusion d'édition basés sur des instructions comme Step1X-Edit et FLUX.1 Kontext dev, démontrant ainsi sa polyvalence.
L'essayage virtuel (Virtual Try-ON, VTON) est une tâche pratique et largement appliquée, pour laquelle la plupart des travaux existants se concentrent sur les vêtements. Cet article présente OmniTry, un cadre unifié qui étend le VTON au-delà des vêtements pour inclure tout objet portable, par exemple les bijoux et accessoires, avec un paramétrage sans masque pour une application plus pratique. Lors de l'extension à divers types d'objets, la curation des données est un défi pour obtenir des images appariées, c'est-à-dire l'image de l'objet et le résultat d'essayage correspondant. Pour résoudre ce problème, nous proposons un pipeline en deux étapes : Pour la première étape, nous exploitons des images non appariées à grande échelle, c'est-à-dire des portraits avec des objets portables, pour entraîner le modèle à la localisation sans masque. Plus précisément, nous réutilisons le modèle de réparation d'image pour dessiner automatiquement les objets à des positions appropriées en fonction d'un masque vide. Pour la deuxième étape, le modèle est ensuite affiné avec des images appariées pour transférer la cohérence de l'apparence de l'objet. Nous avons observé que le modèle après la première étape montre une convergence rapide même avec peu d'échantillons appariés. OmniTry est évalué sur un benchmark complet composé de 12 classes courantes d'objets portables, avec des images en boutique et en situation réelle. Les résultats expérimentaux suggèrent qu'OmniTry montre de meilleures performances à la fois en localisation d'objets et en préservation de l'identité par rapport aux méthodes existantes. Le code, les poids du modèle et le benchmark d'évaluation d'OmniTry seront rendus publics à l'adresse https://omnitry.github.io/.
Les récents progrès en matière d'auto-affinage ont démontré un potentiel significatif pour améliorer les sorties des grands modèles de langage (LLMs) grâce à un affinage itératif. Cependant, la plupart des méthodes d'auto-affinage existantes reposent sur un processus réactif avec un nombre fixe d'itérations, ce qui rend difficile la détermination du moment optimal et du contenu de l'affinage en fonction du contexte d'évolution de la génération. Inspirés par la manière dont les humains affinent dynamiquement leurs pensées pendant l'exécution, nous proposons l'Auto-Affinage Proactif (PASR), une méthode novatrice qui permet aux LLMs d'affiner leurs sorties pendant le processus de génération. Contrairement aux méthodes qui régénèrent entièrement les réponses, PASR décide de manière proactive s'il faut, quand et comment affiner en fonction de l'état interne du modèle et du contexte en évolution. Nous menons des expériences approfondies sur un ensemble diversifié de 10 tâches pour évaluer l'efficacité de PASR. Les résultats expérimentaux montrent que PASR améliore significativement les performances en résolution de problèmes. En particulier, sur Qwen3-8B, PASR réduit la consommation moyenne de tokens de 41,6 % par rapport à la génération standard, tout en améliorant la précision de 8,2 %. Notre code et toutes les bases de référence utilisées dans l'article sont disponibles sur GitHub.
Le domaine de la séparation de la parole, qui s'attaque au "problème du cocktail party", a connu des avancées révolutionnaires grâce aux réseaux de neurones profonds (DNN). La séparation de la parole améliore la clarté dans des environnements acoustiques complexes et sert de prétraitement crucial pour la reconnaissance vocale et la reconnaissance du locuteur. Cependant, la littérature actuelle se concentre de manière étroite sur des architectures spécifiques ou des approches isolées, créant une compréhension fragmentée. Cette étude comble cette lacune en fournissant un examen systématique des techniques de séparation de la parole basées sur les DNN. Notre travail se distingue par : (I) Une perspective complète : Nous examinons systématiquement les paradigmes d'apprentissage, les scénarios de séparation avec des locuteurs connus/inconnus, une analyse comparative des cadres supervisés/auto-supervisés/non supervisés, et les composants architecturaux des encodeurs aux stratégies d'estimation. (II) Actualité : La couverture des développements de pointe garantit l'accès aux innovations et aux benchmarks actuels. (III) Des insights uniques : Au-delà de la synthèse, nous évaluons les trajectoires technologiques, identifions les tendances émergentes et mettons en lumière des directions prometteuses, notamment les cadres robustes aux domaines, les architectures efficaces, l'intégration multimodale et les nouveaux paradigmes auto-supervisés. (IV) Une évaluation équitable : Nous fournissons des évaluations quantitatives sur des jeux de données standard, révélant les véritables capacités et limites des différentes méthodes. Cette étude exhaustive sert de référence accessible pour les chercheurs expérimentés et les nouveaux venus naviguant dans le paysage complexe de la séparation de la parole.
Cette étude explore l'utilisation des modèles de langage de grande taille (LLMs) pour prédire les scores de misère perçus par les humains à partir de descriptions en langage naturel de scénarios réels. La tâche est formulée comme un problème de régression, où le modèle attribue une valeur scalaire comprise entre 0 et 100 à chaque énoncé en entrée. Nous évaluons plusieurs stratégies d'incitation, notamment l'approche zero-shot, le few-shot à contexte fixe et l'incitation basée sur la récupération utilisant des embeddings de phrases BERT. Les approches few-shot surpassent systématiquement les bases de référence zero-shot, soulignant l'importance des exemples contextuels dans la prédiction affective. Pour aller au-delà de l'évaluation statique, nous introduisons le "Misery Game Show", un cadre gamifié novateur inspiré d'un format télévisuel. Il teste les LLMs à travers des tours structurés impliquant la comparaison ordinale, la classification binaire, l'estimation scalaire et le raisonnement basé sur les retours d'information. Cette configuration nous permet d'évaluer non seulement la précision prédictive, mais aussi la capacité du modèle à s'adapter en fonction des retours correctifs. L'évaluation gamifiée met en lumière le potentiel plus large des LLMs dans des tâches de raisonnement émotionnel dynamique au-delà de la régression standard. Lien vers le code et les données : https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
Les récents modèles de correspondance de flux pour la génération d'images à partir de texte ont atteint une qualité remarquable, mais leur intégration avec l'apprentissage par renforcement pour l'alignement sur les préférences humaines reste sous-optimale, entravant l'optimisation fine basée sur les récompenses. Nous observons que le principal obstacle à un entraînement efficace des modèles de flux par GRPO (Gradient-based Reward Policy Optimization) est l'hypothèse d'uniformité temporelle dans les approches existantes : les récompenses terminales éparses avec une attribution de crédit uniforme ne parviennent pas à capturer la criticité variable des décisions à travers les étapes de génération, entraînant une exploration inefficace et une convergence sous-optimale. Pour remédier à cette lacune, nous introduisons TempFlow-GRPO (Temporal Flow GRPO), un cadre GRPO fondé qui capture et exploite la structure temporelle inhérente à la génération basée sur les flux. TempFlow-GRPO introduit deux innovations clés : (i) un mécanisme de branchement de trajectoire qui fournit des récompenses de processus en concentrant la stochasticité à des points de branchement désignés, permettant une attribution de crédit précise sans nécessiter de modèles de récompense intermédiaires spécialisés ; et (ii) un schéma de pondération sensible au bruit qui module l'optimisation de la politique en fonction du potentiel d'exploration intrinsèque de chaque étape temporelle, priorisant l'apprentissage lors des étapes initiales à fort impact tout en assurant un affinement stable dans les phases ultérieures. Ces innovations dotent le modèle d'une optimisation temporellement consciente qui respecte la dynamique générative sous-jacente, conduisant à des performances de pointe dans l'alignement sur les préférences humaines et les benchmarks standards de génération d'images à partir de texte.
L'apprentissage par renforcement multi-agent (MARL) est un paradigme puissant pour résoudre des problèmes de prise de décision coopératifs et compétitifs. Bien que de nombreux benchmarks MARL aient été proposés, peu combinent des espaces d'états et d'actions continus avec des tâches complexes de coordination et de planification. Nous présentons CAMAR, un nouveau benchmark MARL conçu explicitement pour la recherche de chemin multi-agent dans des environnements à actions continues. CAMAR prend en charge les interactions coopératives et compétitives entre agents et fonctionne efficacement jusqu'à 100 000 étapes d'environnement par seconde. Nous proposons également un protocole d'évaluation à trois niveaux pour mieux suivre les progrès algorithmiques et permettre une analyse approfondie des performances. De plus, CAMAR permet l'intégration de méthodes de planification classiques telles que RRT et RRT* dans les pipelines MARL. Nous les utilisons comme bases de référence autonomes et combinons RRT* avec des algorithmes MARL populaires pour créer des approches hybrides. Nous fournissons une suite de scénarios de test et d'outils de benchmarking pour garantir la reproductibilité et une comparaison équitable. Les expériences montrent que CAMAR constitue un banc d'essai à la fois stimulant et réaliste pour la communauté MARL.
La protection des droits d'auteur pour les grands modèles de langage (LLM) revêt une importance cruciale, compte tenu de leurs coûts de développement substantiels, de leur valeur propriétaire et de leur potentiel de mauvaise utilisation. Les études existantes se sont principalement concentrées sur les techniques de traçage du contenu généré par les LLM, notamment le tatouage de texte, tandis qu'une exploration systématique des méthodes de protection des modèles eux-mêmes (c'est-à-dire le tatouage de modèles et l'empreinte de modèles) reste absente. De plus, les relations et distinctions entre le tatouage de texte, le tatouage de modèles et l'empreinte de modèles n'ont pas été clairement établies. Ce travail présente une étude approfondie de l'état actuel des technologies de protection des droits d'auteur pour les LLM, en mettant l'accent sur l'empreinte de modèles, couvrant les aspects suivants : (1) clarifier le lien conceptuel entre le tatouage de texte, le tatouage de modèles et l'empreinte de modèles, et adopter une terminologie unifiée qui intègre le tatouage de modèles dans le cadre plus large de l'empreinte ; (2) fournir un aperçu et une comparaison des diverses techniques de tatouage de texte, en mettant en évidence les cas où ces méthodes peuvent fonctionner comme empreinte de modèles ; (3) catégoriser et comparer systématiquement les approches existantes d'empreinte de modèles pour la protection des droits d'auteur des LLM ; (4) présenter, pour la première fois, des techniques de transfert et de suppression d'empreintes ; (5) résumer les métriques d'évaluation pour les empreintes de modèles, incluant l'efficacité, l'innocuité, la robustesse, la discrétion et la fiabilité ; et (6) discuter des défis ouverts et des directions de recherche futures. Cette étude vise à offrir aux chercheurs une compréhension approfondie des technologies de tatouage de texte et d'empreinte de modèles à l'ère des LLM, favorisant ainsi des avancées supplémentaires dans la protection de leur propriété intellectuelle.
Les agents IA dotés de capacités avancées de raisonnement et d'utilisation d'outils ont démontré des performances impressionnantes dans la navigation web pour des recherches approfondies. Bien que les benchmarks existants tels que BrowseComp évaluent ces capacités de navigation, ils se concentrent principalement sur les informations textuelles, négligeant la prévalence du contenu multimodal. Pour combler cette lacune, nous introduisons MM-BrowseComp, un nouveau benchmark composé de 224 questions complexes et soigneusement conçues, spécifiquement destinées à évaluer les capacités de récupération et de raisonnement multimodal des agents. Ces questions intègrent souvent des images dans les prompts, et les informations cruciales rencontrées lors du processus de recherche et de raisonnement peuvent également être intégrées dans des images ou des vidéos sur les pages web. Par conséquent, les méthodes reposant uniquement sur le texte s'avèrent insuffisantes pour notre benchmark. De plus, nous fournissons une liste de vérification validée pour chaque question, permettant une analyse fine des dépendances multimodales et des chemins de raisonnement. Notre évaluation approfondie des modèles de pointe sur MM-BrowseComp révèle que même les meilleurs modèles comme OpenAI o3 avec outils n'atteignent qu'une précision de 29,02 %, mettant en évidence les capacités multimodales sous-optimales et le manque de raisonnement multimodal natif dans les modèles actuels.
La compréhension audio - incluant la parole, les sons non verbaux et la musique - est essentielle pour atteindre une intelligence de niveau humain. Par conséquent, les agents d'IA doivent démontrer une compréhension audio holistique pour être qualifiés d'intelligents de manière générale. Cependant, évaluer de manière exhaustive l'intelligence auditive reste un défi. Pour combler cette lacune, nous présentons MMAU-Pro, le benchmark le plus complet et rigoureusement conçu pour évaluer l'intelligence audio dans les systèmes d'IA. MMAU-Pro contient 5 305 instances, où chaque instance comprend un ou plusieurs audios associés à des paires de questions-réponses générées par des experts humains, couvrant la parole, les sons, la musique et leurs combinaisons. Contrairement aux benchmarks existants, MMAU-Pro évalue l'intelligence auditive à travers 49 compétences uniques et plusieurs dimensions complexes, notamment la compréhension audio de longue durée, le raisonnement spatial audio, la compréhension multi-audio, entre autres. Toutes les questions sont méticuleusement conçues pour nécessiter un raisonnement multi-étapes délibéré, incluant à la fois des formats de réponse à choix multiples et ouverts. De manière cruciale, les données audio sont directement extraites "du terrain" plutôt que de jeux de données existants avec des distributions connues. Nous évaluons 22 modèles d'IA multimodaux open-source et propriétaires leaders, révélant des limitations significatives : même les modèles de pointe tels que Gemini 2.5 Flash et Audio Flamingo 3 n'atteignent respectivement que 59,2 % et 51,7 % de précision, approchant des performances aléatoires dans plusieurs catégories. Notre analyse approfondie met en lumière des lacunes spécifiques et fournit de nouvelles perspectives, offrant des points de vue actionnables pour la communauté afin d'améliorer la progression des futurs systèmes d'IA vers l'intelligence audio générale. Le benchmark et le code sont disponibles à l'adresse https://sonalkum.github.io/mmau-pro.
Ce travail étudie le défi de transférer des animations entre des personnages dont les topologies squelettiques diffèrent substantiellement. Bien que de nombreuses techniques aient fait progresser les méthodes de retargeting au fil des décennies, le transfert de mouvements entre des topologies variées reste peu exploré. Le principal obstacle réside dans l'incohérence topologique inhérente entre les squelettes source et cible, ce qui limite l'établissement de correspondances osseuses directes de un à un. De plus, l'absence actuelle de jeux de données de mouvements appariés à grande échelle couvrant différentes structures topologiques entrave considérablement le développement d'approches basées sur les données. Pour pallier ces limitations, nous introduisons Motion2Motion, un nouveau cadre de travail ne nécessitant pas d'entraînement. Simple mais efficace, Motion2Motion fonctionne avec seulement un ou quelques exemples de mouvements sur le squelette cible, en accédant à un ensemble restreint de correspondances osseuses entre les squelettes source et cible. Grâce à des évaluations qualitatives et quantitatives approfondies, nous démontrons que Motion2Motion atteint une performance efficace et fiable dans des scénarios de transfert entre squelettes similaires et entre espèces différentes. L'utilité pratique de notre approche est en outre attestée par son intégration réussie dans des applications et interfaces utilisateur en aval, soulignant son potentiel pour des applications industrielles. Le code et les données sont disponibles à l'adresse https://lhchen.top/Motion2Motion.
Les autoencodeurs parcimonieux (SAE) peuvent extraire des caractéristiques interprétables des grands modèles de langage (LLM) sans supervision. Cependant, leur efficacité dans les tâches de pilotage en aval est limitée par la nécessité de jeux de données contrastifs ou d'un stockage important d'activations. Pour surmonter ces limitations, nous proposons CorrSteer, qui sélectionne les caractéristiques en corrélant la justesse des échantillons avec les activations des SAE à partir des tokens générés au moment de l'inférence. Cette approche utilise uniquement les activations d'inférence pour extraire des caractéristiques plus pertinentes, évitant ainsi les corrélations fallacieuses. Elle obtient également les coefficients de pilotage à partir des activations moyennes, automatisant ainsi l'ensemble du pipeline. Notre méthode montre une amélioration des performances sur des tâches de questions-réponses, de réduction des biais, de prévention des jailbreaks et de raisonnement sur les modèles Gemma 2 2B et LLaMA 3.1 8B, atteignant notamment une amélioration de +4,1 % sur MMLU et de +22,9 % sur HarmBench avec seulement 4000 échantillons. Les caractéristiques sélectionnées présentent des motifs sémantiquement significatifs alignés sur les exigences de chaque tâche, révélant les capacités sous-jacentes qui pilotent les performances. Notre travail établit la sélection basée sur la corrélation comme une approche efficace et scalable pour le pilotage automatisé des SAE dans les applications de modèles de langage.
Les modèles universels de segmentation d'images médicales sont apparus comme un paradigme prometteur grâce à leur forte généralisabilité sur des tâches variées, montrant un grand potentiel pour un large éventail d'applications cliniques. Ce potentiel a été en partie stimulé par le succès des modèles de vision à usage général tels que le Segment Anything Model (SAM), qui a inspiré le développement de diverses variantes affinées pour les tâches de segmentation médicale. Cependant, les variantes affinées comme MedSAM sont entraînées sur des données d'imagerie médicale relativement limitées, souvent confrontées à l'hétérogénéité, aux annotations rares et aux décalages de distribution. Ces défis limitent leur capacité à généraliser sur une large gamme de tâches de segmentation médicale. À cet égard, nous proposons MedSAMix, une méthode de fusion de modèles sans entraînement qui intègre les forces des modèles généralistes (par exemple, SAM) et des modèles spécialistes (par exemple, MedSAM) pour la segmentation d'images médicales. Contrairement aux approches traditionnelles de fusion de modèles qui reposent sur une configuration manuelle et aboutissent souvent à des résultats sous-optimaux, nous proposons une méthode d'optimisation d'ordre zéro pour découvrir automatiquement des solutions optimales de fusion couche par couche. De plus, pour les applications cliniques, nous développons deux régimes pour répondre aux besoins de spécificité de domaine et de généralisabilité dans différents scénarios, respectivement par optimisation mono-tâche et optimisation multi-objectifs. Des évaluations approfondies sur 25 tâches de segmentation médicale démontrent que MedSAMix atténue efficacement les biais des modèles et améliore de manière constante les performances en termes de précision spécifique au domaine et de généralisation, avec des améliorations de 6,67 % sur les tâches spécialisées et de 4,37 % sur les évaluations multi-tâches.
Les modèles génératifs alimentés par les grands modèles de langage (LLM) émergent comme une solution unifiée pour alimenter à la fois les tâches de recommandation et de recherche. Un choix de conception clé dans ces modèles est la manière de représenter les éléments, traditionnellement par des identifiants uniques (ID) et plus récemment avec des ID sémantiques composés de codes discrets, obtenus à partir d'embeddings. Bien que les modèles d'embedding spécifiques à une tâche puissent améliorer les performances pour des tâches individuelles, ils peuvent ne pas bien généraliser dans un cadre conjoint. Dans cet article, nous explorons comment construire des ID sémantiques qui performent bien à la fois en recherche et en recommandation lors de l'utilisation d'un modèle unifié. Nous comparons une gamme de stratégies pour construire des ID sémantiques, en examinant les approches spécifiques à une tâche et transversales, et également si chaque tâche devrait avoir ses propres tokens d'ID sémantiques dans un modèle génératif unifié de recherche et de recommandation. Nos résultats montrent que l'utilisation d'un modèle bi-encodeur affiné sur les tâches de recherche et de recommandation pour obtenir des embeddings d'éléments, suivi de la construction d'un espace d'ID sémantique unifié, offre un compromis efficace, permettant des performances solides dans les deux tâches. Nous espérons que ces résultats susciteront des travaux de suivi sur des schémas d'ID généralisables et sémantiquement fondés, et éclaireront la prochaine vague d'architectures génératives unifiées de recommandation.
Les systèmes de recommandation vidéo existants s'appuient principalement sur des métadonnées définies par l'utilisateur ou sur des signaux visuels et acoustiques de bas niveau extraits par des encodeurs spécialisés. Ces caractéristiques de bas niveau décrivent ce qui apparaît à l'écran mais manquent de sémantiques plus profondes telles que l'intention, l'humour et les connaissances générales qui rendent les clips résonnants pour les spectateurs. Par exemple, un clip de 30 secondes est-il simplement un chanteur sur un toit, ou une parodie ironique filmée parmi les cheminées de fées de Cappadoce, en Turquie ? Ces distinctions sont cruciales pour des recommandations personnalisées, mais restent invisibles pour les pipelines d'encodage traditionnels. Dans cet article, nous introduisons un cadre simple et indépendant du système de recommandation, sans ajustement fin, qui injecte des sémantiques de haut niveau dans le pipeline de recommandation en incitant un modèle de langage multimodal (MLLM) prêt à l'emploi à résumer chaque clip en une description riche en langage naturel (par exemple, "une parodie de super-héros avec des combats burlesques et des coups d'orchestre"), comblant ainsi l'écart entre le contenu brut et l'intention de l'utilisateur. Nous utilisons la sortie du MLLM avec un encodeur de texte de pointe et l'intégrons dans des systèmes de recommandation standards collaboratifs, basés sur le contenu et génératifs. Sur le jeu de données MicroLens-100K, qui simule les interactions des utilisateurs avec des vidéos de style TikTok, notre cadre surpasse systématiquement les caractéristiques vidéo, audio et métadonnées conventionnelles dans cinq modèles représentatifs. Nos résultats mettent en évidence le potentiel d'exploiter les MLLM comme extracteurs de connaissances à la volée pour construire des systèmes de recommandation vidéo plus conscients de l'intention.
Le développement des champs de radiance (RF), tels que le 3D Gaussian Splatting (3DGS) et les Neural Radiance Fields (NeRF), a révolutionné la synthèse interactive de vues photoréalistes et ouvre d'immenses opportunités pour la recherche et les applications en réalité étendue (XR). Cependant, malgré la croissance exponentielle des recherches sur les RF, les contributions liées aux RF au sein de la communauté XR restent rares. Pour mieux comprendre cet écart de recherche, nous avons réalisé une étude systématique de la littérature actuelle sur les RF afin d'analyser (i) comment les RF sont envisagés pour les applications XR, (ii) comment ils ont déjà été mis en œuvre, et (iii) les lacunes de recherche persistantes. Nous avons recueilli 365 contributions sur les RF liées à la XR provenant des communautés en vision par ordinateur, infographie, robotique, multimédia, interaction homme-machine et XR, cherchant à répondre à ces questions de recherche. Parmi ces 365 articles, nous avons analysé en détail 66 articles qui abordaient déjà un aspect spécifique de la recherche sur les RF pour la XR. Grâce à cette étude, nous avons étendu et positionné les sujets de recherche sur les RF spécifiques à la XR dans le champ plus large de la recherche sur les RF, offrant ainsi une ressource utile à la communauté XR pour naviguer dans le développement rapide de cette recherche.
Les séries temporelles de capteurs de mouvement sont essentielles pour la reconnaissance d'activités humaines (HAR), avec des applications dans la santé, le sport et les dispositifs intelligents. Cependant, les méthodes existantes sont entraînées pour des ensembles d'activités fixes et nécessitent un réentraînement coûteux lorsque de nouveaux comportements ou configurations de capteurs apparaissent. Les tentatives récentes d'utiliser des modèles de langage de grande taille (LLMs) pour la HAR, généralement en convertissant les signaux en texte ou en images, souffrent d'une précision limitée et d'un manque d'interprétabilité vérifiable. Nous proposons ZARA, le premier cadre basé sur des agents pour la HAR en zero-shot et explicable directement à partir de séries temporelles brutes de mouvement. ZARA intègre une base de connaissances de caractéristiques par paires dérivée automatiquement qui capture les statistiques discriminantes pour chaque paire d'activités, un module de récupération multi-capteurs qui met en évidence les preuves pertinentes, et un pipeline hiérarchique d'agents qui guide le LLM pour sélectionner itérativement des caractéristiques, s'appuyer sur ces preuves, et produire à la fois des prédictions d'activités et des explications en langage naturel. ZARA permet une HAR flexible et interprétable sans aucun ajustement fin ou classificateur spécifique à la tâche. Des expériences approfondies sur 8 benchmarks de HAR montrent que ZARA atteint des performances SOTA en zero-shot, fournissant un raisonnement clair tout en dépassant les meilleures bases de référence de 2,53x en F1 macro. Les études d'ablation confirment en outre la nécessité de chaque module, marquant ZARA comme une étape prometteuse vers une analyse fiable et plug-and-play des séries temporelles de mouvement. Nos codes sont disponibles à l'adresse https://github.com/zechenli03/ZARA.
Comment les grands modèles de langage comprennent-ils les dimensions morales par rapport aux humains ? Cette première évaluation bayésienne à grande échelle des modèles de langage leaders du marché apporte la réponse. Contrairement aux travaux antérieurs utilisant une vérité terrain déterministe (règles de majorité ou d'inclusion), nous modélisons les désaccords entre annotateurs pour capturer à la fois l'incertitude aléatoire (désaccord humain inhérent) et l'incertitude épistémique (sensibilité du modèle au domaine). Nous évaluons les meilleurs modèles de langage (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) sur plus de 250 000 annotations provenant d'environ 700 annotateurs pour plus de 100 000 textes couvrant les réseaux sociaux, les actualités et les forums. Notre cadre bayésien optimisé pour GPU a traité plus d'un million de requêtes de modèles, révélant que les modèles d'IA se classent généralement parmi les 25 % supérieurs des annotateurs humains, atteignant une précision équilibrée bien supérieure à la moyenne. Fait important, nous constatons que l'IA produit beaucoup moins de faux négatifs que les humains, mettant en évidence leurs capacités de détection morale plus sensibles.
Nous abordons le défi de la détection de la parole synthétisée face à des décalages de distribution - résultant de méthodes de synthèse, de locuteurs, de langues ou de conditions audio inconnus - par rapport aux données d'entraînement. Les méthodes d'apprentissage en few-shot constituent une approche prometteuse pour gérer ces décalages de distribution en s'adaptant rapidement sur la base de quelques échantillons issus de la distribution cible. Nous proposons un réseau prototypique à auto-attention pour permettre une adaptation few-shot plus robuste. Pour évaluer notre approche, nous comparons systématiquement les performances des détecteurs zero-shot traditionnels et des détecteurs few-shot proposés, en contrôlant soigneusement les conditions d'entraînement pour introduire des décalages de distribution au moment de l'évaluation. Dans les situations où les décalages de distribution affectent les performances zero-shot, notre technique d'adaptation few-shot peut s'adapter rapidement en utilisant aussi peu que 10 échantillons issus de la distribution cible - atteignant une réduction relative de l'EER allant jusqu'à 32% sur des deepfakes en langue japonaise et 20% sur le jeu de données ASVspoof 2021 Deepfake.
Les grands modèles de langage (LLM) démontrent des capacités remarquables de résolution de problèmes, mais peinent à accomplir des tâches complexes en raison de leur connaissance interne statique. La Génération Augmentée par Récupération (RAG) améliore l'accès à des informations externes, mais reste limitée dans le raisonnement multi-étapes et la recherche stratégique en raison de flux de travail rigides. Les récents progrès dans la recherche approfondie agentique permettent aux LLM de raisonner, rechercher et synthétiser des informations de manière autonome. Cependant, les approches actuelles basées sur l'apprentissage par renforcement (RL) axé sur les résultats rencontrent des problèmes critiques tels que des gradients conflictuels et une rareté des récompenses, limitant les gains de performance et l'efficacité de l'entraînement. Pour y remédier, nous proposons d'abord Atomic Thought, un nouveau paradigme de pensée pour les LLM qui décompose le raisonnement en unités fonctionnelles fines. Ces unités sont supervisées par des Modèles de Récompense de Raisonnement (RRM), qui fournissent des Récompenses Atomic Thought (ATR) pour un guidage fin. Sur cette base, nous proposons Atom-Searcher, un nouveau cadre RL pour la recherche approfondie agentique qui intègre Atomic Thought et ATR. Atom-Searcher utilise un calendrier de récompenses inspiré par un curriculum, priorisant les ATR au niveau du processus en début d'apprentissage et passant progressivement aux récompenses basées sur les résultats, accélérant ainsi la convergence vers des chemins de raisonnement efficaces. Les expériences sur sept benchmarks montrent des améliorations constantes par rapport à l'état de l'art. Les principaux avantages incluent : (1) Atom-Searcher adapte le calcul au moment du test. (2) Atomic Thought fournit des ancres de supervision pour les RRM, reliant les tâches de recherche approfondie et les RRM. (3) Atom-Searcher présente des schémas de raisonnement plus interprétables et proches de ceux des humains.