papers.description
Les agents web tels que Deep Research ont démontré des capacités cognitives surhumaines, capables de résoudre des problèmes de recherche d'information hautement complexes. Cependant, la plupart des recherches restent principalement centrées sur le texte, négligeant les informations visuelles du monde réel. Cela rend le Deep Research multimodal particulièrement difficile, car ces agents nécessitent des capacités de raisonnement bien plus fortes en perception, logique, connaissance et utilisation d'outils sophistiqués par rapport aux agents basés uniquement sur le texte. Pour pallier cette limitation, nous présentons WebWatcher, un agent multimodal pour le Deep Research doté de capacités de raisonnement visuel-langage améliorées. Il exploite des trajectoires multimodales synthétiques de haute qualité pour un entraînement efficace à froid, utilise divers outils pour un raisonnement approfondi, et améliore encore la généralisation grâce à l'apprentissage par renforcement. Pour mieux évaluer les capacités des agents multimodaux, nous proposons BrowseComp-VL, un benchmark de style BrowseComp qui nécessite une recherche d'information complexe impliquant à la fois des informations visuelles et textuelles. Les résultats expérimentaux montrent que WebWatcher surpasse significativement les bases de référence propriétaires, le workflow RAG et les agents open-source dans quatre benchmarks VQA exigeants, ouvrant ainsi la voie à la résolution de tâches complexes de recherche d'information multimodale.
La génération de mondes 3D explorables à partir d'une seule image ou d'une invite textuelle constitue une pierre angulaire de l'intelligence spatiale. Les travaux récents utilisent des modèles vidéo pour réaliser une génération de mondes 3D à grande échelle et généralisable. Cependant, les approches existantes souffrent souvent d'une portée limitée dans les scènes générées. Dans ce travail, nous proposons Matrix-3D, un cadre qui utilise une représentation panoramique pour la génération de mondes 3D omnidirectionnels explorables à grande couverture, combinant la génération vidéo conditionnelle et la reconstruction 3D panoramique. Nous entraînons d'abord un modèle de diffusion vidéo panoramique guidé par trajectoire qui utilise des rendus de maillage de scène comme condition, permettant ainsi une génération de vidéos de scène de haute qualité et géométriquement cohérentes. Pour transformer la vidéo panoramique en un monde 3D, nous proposons deux méthodes distinctes : (1) un modèle de reconstruction panoramique à grand échelle en flux direct pour une reconstruction rapide de scènes 3D, et (2) un pipeline basé sur l'optimisation pour une reconstruction précise et détaillée de scènes 3D. Pour faciliter un entraînement efficace, nous introduisons également le jeu de données Matrix-Pano, la première collection synthétique à grande échelle comprenant 116 000 séquences vidéo panoramiques statiques de haute qualité avec des annotations de profondeur et de trajectoire. Des expériences approfondies démontrent que notre cadre proposé atteint des performances de pointe en génération de vidéos panoramiques et en génération de mondes 3D. Pour en savoir plus, consultez https://matrix-3d.github.io.
Les récentes avancées dans les agents basés sur LLM (modèles de langage de grande taille) ont démontré des capacités remarquables pour gérer des tâches complexes et riches en connaissances grâce à l'intégration d'outils externes. Parmi les divers choix d'outils, les outils de recherche jouent un rôle central pour accéder à de vastes connaissances externes. Cependant, les agents open source ne parviennent pas encore à atteindre un niveau expert en Intelligence de Recherche, c'est-à-dire la capacité à résoudre des requêtes ambiguës, générer des recherches précises, analyser les résultats et mener des explorations approfondies. Les approches existantes présentent des lacunes en termes d'évolutivité, d'efficacité et de qualité des données. Par exemple, les limites de tours dans les méthodes de RL (apprentissage par renforcement) en ligne actuelles, par exemple <=10, restreignent l'apprentissage de stratégies complexes. Ce papier présente ASearcher, un projet open source pour l'entraînement à grande échelle d'agents de recherche par RL. Nos contributions clés incluent : (1) Un entraînement RL entièrement asynchrone et évolutif, permettant des recherches à long horizon tout en maintenant une efficacité d'entraînement élevée. (2) Un agent LLM basé sur des prompts qui synthétise de manière autonome des QAs (Questions-Réponses) de haute qualité et exigeants, créant ainsi un jeu de données QA à grande échelle. Grâce à l'entraînement RL, notre agent QwQ-32B basé sur des prompts réalise des améliorations substantielles, avec des gains de 46,7 % et 20,8 % en Avg@4 sur xBench et GAIA, respectivement. Notamment, notre agent montre une capacité de recherche à très long horizon, avec des appels d'outils dépassant 40 tours et des tokens de sortie excédant 150k pendant l'entraînement. Avec une conception d'agent simple et sans LLM externes, ASearcher-Web-QwQ atteint des scores Avg@4 de 42,1 sur xBench et 52,8 sur GAIA, surpassant les agents open source 32B existants. Nous rendons publics nos modèles, données d'entraînement et codes sur https://github.com/inclusionAI/ASearcher.
La capacité à suivre des instructions a catalysé l'ère récente des modèles de langage à grande échelle (LLMs) et constitue la compétence fondamentale sous-tendant des capacités plus avancées telles que le raisonnement et les comportements agentiques. À mesure que les tâches deviennent plus complexes, les structures logiques intégrées dans les instructions en langage naturel deviennent de plus en plus complexes. Cependant, la performance des LLMs sur de telles instructions riches en logique reste peu explorée. Nous proposons LogicIFGen et LogicIFEval. LogicIFGen est un cadre automatisé et évolutif pour générer des instructions vérifiables à partir de fonctions de code, qui peuvent exprimer naturellement une logique riche telle que les conditionnelles, l'imbrication, la récursion et les appels de fonctions. Nous avons également constitué une collection de fonctions de code complexes et utilisé LogicIFGen pour construire LogicIFEval, un benchmark comprenant 426 instructions vérifiables riches en logique. Nos expériences démontrent que les LLMs actuels les plus performants peinent encore à suivre correctement les instructions de LogicIFEval. La plupart des LLMs ne parviennent à suivre que moins de 60 % des instructions, révélant des lacunes significatives dans leur capacité à suivre des instructions. Code et Benchmark : https://github.com/mianzhang/LogicIF
Dans cet article, nous proposons CharacterShot, un cadre de contrôle et de cohérence pour l'animation de personnages 4D, permettant à tout concepteur individuel de créer des personnages 3D dynamiques (c'est-à-dire une animation de personnage 4D) à partir d'une seule image de référence de personnage et d'une séquence de poses 2D. Nous commençons par pré-entraîner un puissant modèle d'animation de personnage 2D basé sur un modèle de pointe de conversion d'image en vidéo basé sur DiT, qui permet d'utiliser n'importe quelle séquence de poses 2D comme signal de contrôle. Nous élevons ensuite le modèle d'animation de 2D à 3D en introduisant un module de double attention ainsi qu'un a priori de caméra pour générer des vidéos multi-vues avec une cohérence spatio-temporelle et spatio-visuelle. Enfin, nous appliquons une nouvelle optimisation par splatting gaussien 4D contraint par les voisins sur ces vidéos multi-vues, aboutissant à des représentations de personnage 4D continues et stables. De plus, pour améliorer les performances centrées sur les personnages, nous construisons un jeu de données à grande échelle, Character4D, contenant 13 115 personnages uniques avec des apparences et des mouvements variés, rendus à partir de multiples points de vue. Des expériences approfondies sur notre nouveau benchmark, CharacterBench, démontrent que notre approche surpasse les méthodes actuelles de pointe. Le code, les modèles et les jeux de données seront disponibles publiquement à l'adresse https://github.com/Jeoyal/CharacterShot.
Les modèles de langage à grande échelle par diffusion (dLLMs) génèrent du texte par débruitage itératif, mais les stratégies de décodage actuelles écartent les prédictions intermédiaires riches au profit de la sortie finale. Notre travail révèle ici un phénomène critique, l'oscillation temporelle, où les réponses correctes émergent souvent au cours du processus intermédiaire, mais sont écrasées lors des étapes ultérieures de débruitage. Pour résoudre ce problème, nous introduisons deux méthodes complémentaires qui exploitent la cohérence temporelle : 1) le Vote d'Auto-Cohérence Temporelle, une stratégie de décodage sans apprentissage au moment du test qui agrège les prédictions à travers les étapes de débruitage pour sélectionner la sortie la plus cohérente ; et 2) une méthode post-apprentissage appelée Renforcement de la Cohérence Temporelle, qui utilise l'Entropie Sémantique Temporelle (TSE), une mesure de la stabilité sémantique des prédictions intermédiaires, comme signal de récompense pour encourager des générations stables. Les résultats empiriques sur plusieurs benchmarks démontrent l'efficacité de notre approche. En utilisant uniquement la récompense TSE négative, nous observons une amélioration moyenne remarquable de 24,7 % sur le jeu de données Countdown par rapport à un dLLM existant. Combinée avec la récompense de précision, nous obtenons des gains absolus de 2,0 % sur GSM8K, 4,3 % sur MATH500, 6,6 % sur SVAMP et 25,3 % sur Countdown, respectivement. Nos résultats soulignent le potentiel inexploité des dynamiques temporelles dans les dLLMs et offrent deux outils simples mais efficaces pour les exploiter.
Récemment, les grands modèles de raisonnement ont démontré de solides capacités en mathématiques et en programmation, et la recherche approfondie exploite leurs capacités de raisonnement dans des tâches complexes de recherche d'information. Les travaux existants en recherche approfondie se limitent généralement à une seule source de connaissances, qu'elle soit locale ou sur le Web. Cependant, les entreprises nécessitent souvent des systèmes de recherche approfondie privés capables d'exploiter des outils de recherche à la fois sur des corpus locaux et sur le Web. L'idée simple de former un agent équipé de plusieurs outils de recherche en utilisant l'apprentissage par renforcement (RL) standard est une approche directe, mais elle présente des problèmes tels qu'une faible efficacité des données d'entraînement et une mauvaise maîtrise des outils complexes. Pour résoudre ce problème, nous proposons un cadre de recherche approfondie hiérarchique et agentique, HierSearch, entraîné avec un apprentissage par renforcement hiérarchique. Au niveau inférieur, un agent de recherche approfondie locale et un agent de recherche approfondie sur le Web sont entraînés pour extraire des preuves de leurs domaines respectifs. Au niveau supérieur, un agent planificateur coordonne les agents de niveau inférieur et fournit la réponse finale. De plus, pour éviter la copie directe de réponses et la propagation d'erreurs, nous concevons un raffineur de connaissances qui filtre les hallucinations et les preuves non pertinentes renvoyées par les agents de niveau inférieur. Les expériences montrent que HierSearch obtient de meilleures performances par rapport au RL standard, et surpasse diverses bases de référence en recherche approfondie et en génération augmentée par récupération multi-sources sur six benchmarks couvrant les domaines général, financier et médical.
Nous présentons VertexRegen, un nouveau cadre de génération de maillages permettant une génération à un niveau de détail continu. Les méthodes autorégressives existantes génèrent des maillages de manière partielle à complète, de sorte que les étapes intermédiaires de génération représentent des structures incomplètes. VertexRegen s'inspire des maillages progressifs et reformule le processus comme l'inversion d'une contraction d'arête, c'est-à-dire une division de sommet, apprise via un modèle génératif. Les résultats expérimentaux montrent que VertexRegen produit des maillages de qualité comparable aux méthodes de pointe tout en offrant de manière unique une génération à tout moment, avec la flexibilité de s'arrêter à n'importe quelle étape pour produire des maillages valides avec différents niveaux de détail.
Les modèles vision-langage ont démontré des capacités impressionnantes en tant qu'agents d'utilisation informatique (CUA) capables d'automatiser diverses tâches informatiques. Alors que leur potentiel commercial s'accroît, les détails critiques des systèmes CUA les plus performants restent fermés. Étant donné que ces agents interviendront de plus en plus dans les interactions numériques et prendront des décisions importantes en notre nom, la communauté de recherche a besoin d'accéder à des frameworks CUA ouverts pour étudier leurs capacités, leurs limites et leurs risques. Pour combler cette lacune, nous proposons OpenCUA, un framework open-source complet pour l'évolutivité des données et des modèles de base CUA. Notre framework comprend : (1) une infrastructure d'annotation qui capture de manière fluide les démonstrations d'utilisation informatique par des humains ; (2) AgentNet, le premier jeu de données à grande échelle pour les tâches d'utilisation informatique couvrant 3 systèmes d'exploitation et plus de 200 applications et sites web ; (3) un pipeline évolutif qui transforme les démonstrations en paires état-action avec un raisonnement réflexif en chaîne de pensée (Chain-of-Thought) qui maintient des gains de performance robustes à mesure que les données augmentent. Nos modèles d'agents de bout en bout démontrent de solides performances sur les benchmarks CUA. En particulier, OpenCUA-32B atteint un taux de réussite moyen de 34,8 % sur OSWorld-Verified, établissant un nouvel état de l'art (SOTA) parmi les modèles open-source et surpassant OpenAI CUA (GPT-4o). Une analyse approfondie confirme que notre approche généralise bien à travers les domaines et bénéficie significativement d'une augmentation du temps de calcul lors des tests. Nous publions notre outil d'annotation, les jeux de données, le code et les modèles pour poser des bases ouvertes à la recherche future sur les CUA.
L'ancrage d'interface graphique (GUI), qui consiste à mapper des instructions en langage naturel vers des coordonnées précises à l'écran, est fondamental pour les agents autonomes d'interface graphique. Bien que les méthodes existantes atteignent des performances solides grâce à un apprentissage supervisé intensif ou à un apprentissage par renforcement avec des récompenses étiquetées, elles restent limitées par le coût et la disponibilité des annotations au niveau des pixels. Nous observons que lorsque les modèles génèrent plusieurs prédictions pour le même élément d'interface graphique, les motifs de chevauchement spatial révèlent des signaux de confiance implicites qui peuvent guider une localisation plus précise. En exploitant cette intuition, nous proposons GUI-RC (Région de Cohérence), une méthode de mise à l'échelle au moment du test qui construit des grilles de vote spatial à partir de plusieurs prédictions échantillonnées pour identifier les régions de consensus où les modèles montrent le plus grand accord. Sans aucun entraînement supplémentaire, GUI-RC améliore la précision de 2 à 3 % sur diverses architectures dans les benchmarks ScreenSpot. Nous introduisons également GUI-RCPO (Optimisation de Politique de Cohérence Régionale), qui transforme ces motifs de cohérence en récompenses pour un apprentissage par renforcement au moment du test. En calculant à quel point chaque prédiction s'aligne avec le consensus collectif, GUI-RCPO permet aux modèles d'affiner itérativement leurs sorties sur des données non étiquetées pendant l'inférence. Des expériences approfondies démontrent la généralité de notre approche : GUI-RC améliore Qwen2.5-VL-3B-Instruct de 80,11 % à 83,57 % sur ScreenSpot-v2, tandis que GUI-RCPO l'améliore encore à 85,14 % grâce à une optimisation auto-supervisée. Notre approche révèle le potentiel inexploité de la mise à l'échelle au moment du test et de l'apprentissage par renforcement au moment du test pour l'ancrage d'interface graphique, offrant une voie prometteuse vers des agents d'interface graphique plus robustes et plus efficaces en termes de données.
Les travaux récents visant à améliorer les capacités de raisonnement des grands modèles de langage (LLMs) ont introduit le contrôle explicite de la longueur comme moyen de limiter les coûts de calcul tout en préservant la précision. Cependant, les approches existantes reposent sur des budgets d'entraînement à longueur fixe, qui ne tirent pas parti de la progression naturelle de l'exploration vers la compression pendant l'apprentissage. Dans ce travail, nous proposons une stratégie d'apprentissage curriculaire pour le raisonnement contrôlé en longueur utilisant l'Optimisation de Politique Relative par Groupe (GRPO). Notre méthode commence avec des budgets de tokens généreux et les resserre progressivement au cours de l'entraînement, encourageant les modèles à découvrir d'abord des stratégies de solution efficaces, puis à les condenser en traces de raisonnement plus concises. Nous enrichissons GRPO avec une fonction de récompense qui équilibre trois signaux : la justesse de la tâche (via un retour de vérificateur), l'efficacité en termes de longueur, et le respect du format (via des balises structurelles). Les expériences sur GSM8K, MATH500, SVAMP, College Math et GSM+ montrent que l'entraînement basé sur un curriculum surpasse systématiquement les bases de référence à budget fixe pour le même budget final, atteignant une précision plus élevée et une efficacité en tokens significativement améliorée. Nous étudions également l'impact de la pondération des récompenses et de la conception du calendrier de décroissance, montrant que la contrainte progressive sert de biais inductif puissant pour entraîner des modèles de raisonnement efficaces. Notre code et nos points de contrôle sont disponibles à l'adresse : https://github.com/hammoudhasan/curriculum_grpo.
Les modèles de diffusion actuels pour la génération de vidéos d'avatars pilotées par l'audio peinent à synthétiser des vidéos longues avec une synchronisation audio naturelle et une cohérence d'identité. Cet article présente StableAvatar, le premier transformeur de diffusion vidéo de bout en bout qui synthétise des vidéos de haute qualité de longueur infinie sans post-traitement. Conditionné par une image de référence et un audio, StableAvatar intègre des modules d'entraînement et d'inférence spécifiques pour permettre la génération de vidéos de longueur infinie. Nous observons que la principale raison empêchant les modèles existants de générer des vidéos longues réside dans leur modélisation audio. Ils s'appuient généralement sur des extracteurs tiers prêts à l'emploi pour obtenir des embeddings audio, qui sont ensuite injectés directement dans le modèle de diffusion via une attention croisée. Comme les architectures de diffusion actuelles ne possèdent aucun a priori lié à l'audio, cette approche entraîne une accumulation sévère d'erreurs de distribution latente entre les clips vidéo, conduisant la distribution latente des segments suivants à s'éloigner progressivement de la distribution optimale. Pour résoudre ce problème, StableAvatar introduit un nouvel Adaptateur Audio Conscient du Pas de Temps qui empêche l'accumulation d'erreurs via une modulation consciente du pas de temps. Pendant l'inférence, nous proposons un nouveau Mécanisme de Guidage Audio Natif pour améliorer davantage la synchronisation audio en exploitant la prédiction audio-latente évolutive de la diffusion elle-même comme signal de guidage dynamique. Pour améliorer la fluidité des vidéos de longueur infinie, nous introduisons une Stratégie de Fenêtre Glissante à Poids Dynamique qui fusionne les latents dans le temps. Les expériences sur des benchmarks montrent l'efficacité de StableAvatar à la fois qualitativement et quantitativement.
La génération texte-image (T2I) a été activement étudiée à l'aide de modèles de diffusion et de modèles autorégressifs. Récemment, les Transformers Génératifs Masqués ont suscité l'intérêt comme alternative aux modèles autorégressifs pour surmonter les limitations inhérentes à l'attention causale et au décodage autorégressif, grâce à une attention bidirectionnelle et un décodage parallèle, permettant une génération d'images efficace et de haute qualité. Cependant, la génération compositionnelle T2I reste un défi, car même les modèles de diffusion les plus avancés échouent souvent à lier précisément les attributs et à obtenir un alignement texte-image adéquat. Bien que les modèles de diffusion aient été largement étudiés pour ce problème, les Transformers Génératifs Masqués présentent des limitations similaires mais n'ont pas été explorés dans ce contexte. Pour y remédier, nous proposons Unmasking with Contrastive Attention Guidance (UNCAGE), une nouvelle méthode sans apprentissage qui améliore la fidélité compositionnelle en exploitant les cartes d'attention pour prioriser le démasquage des tokens qui représentent clairement des objets individuels. UNCAGE améliore systématiquement les performances dans les évaluations quantitatives et qualitatives sur plusieurs benchmarks et métriques, avec une surcharge d'inférence négligeable. Notre code est disponible à l'adresse https://github.com/furiosa-ai/uncage.
Nous présentons Aryabhata 1.0, un modèle compact de raisonnement mathématique à 7 milliards de paramètres, optimisé pour l'examen académique indien, le Joint Entrance Examination (JEE). Malgré les progrès rapides des grands modèles de langage (LLM), les modèles actuels restent souvent inadaptés à un usage éducatif. Aryabhata 1.0 est construit en fusionnant des modèles de raisonnement open-weight performants, suivis d'un fine-tuning supervisé (SFT) avec apprentissage curriculaire sur des traces vérifiées de raisonnement en chaîne (CoT) sélectionnées via un échantillonnage par rejet best-of-n. Pour améliorer encore les performances, nous appliquons un apprentissage par renforcement avec récompenses vérifiables (RLVR) en utilisant l'objectif A2C avec estimation d'avantage relative par groupe, ainsi que des stratégies d'exploration novatrices telles que le redimensionnement adaptatif de groupe et la mise à l'échelle de la température. Évalué sur des benchmarks en distribution (JEE Main 2025) et hors distribution (MATH, GSM8K), Aryabhata surpasse les modèles existants en termes de précision et d'efficacité, tout en offrant un raisonnement étape par étape pédagogiquement utile. Nous publions Aryabhata comme modèle de base pour faire progresser les petits modèles de langage open-source centrés sur les examens. Il s'agit de notre première publication ouverte pour recueillir les retours de la communauté (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 sur Hugging Face}) ; PW forme activement de futurs modèles pour améliorer encore les résultats d'apprentissage des étudiants.
L'utilisation efficace d'outils est essentielle pour que les grands modèles de langage (LLMs) interagissent de manière significative avec leur environnement. Cependant, les progrès sont limités par le manque de cadres d'apprentissage par renforcement (RL) efficaces spécifiquement conçus pour l'utilisation d'outils, en raison des difficultés à construire des environnements d'entraînement stables et à concevoir des mécanismes de récompense vérifiables. Pour remédier à cela, nous proposons un pipeline automatisé de construction d'environnement, intégrant la décomposition de scénarios, la génération de documents, l'intégration de fonctions, la mise à l'échelle de la complexité et le déploiement localisé. Cela permet la création d'environnements d'entraînement de haute qualité qui fournissent un retour d'information détaillé et mesurable sans dépendre d'outils externes. De plus, nous introduisons un mécanisme de récompense vérifiable qui évalue à la fois la précision de l'utilisation des outils et l'exhaustivité de l'exécution des tâches. Combiné avec les données de trajectoire collectées à partir des environnements construits, ce mécanisme s'intègre parfaitement aux algorithmes RL standards pour faciliter l'entraînement des modèles basé sur le retour d'information. Les expériences sur des LLMs de différentes tailles démontrent que notre approche améliore significativement les performances d'utilisation des outils des modèles sans dégrader leurs capacités générales, quel que soit le mode d'inférence ou l'algorithme d'entraînement. Notre analyse suggère que ces gains résultent d'une meilleure compréhension contextuelle et d'un raisonnement amélioré, motivés par les mises à jour des paramètres MLP des couches inférieures des modèles.
La génération efficace de plans multiples exige des transitions intentionnelles, semblables à celles du cinéma, et une continuité cinématographique rigoureuse. Les méthodes actuelles, cependant, privilégient souvent une cohérence visuelle basique, négligeant les motifs de montage cruciaux (par exemple, champ/contre-champ, plans de coupe) qui animent le flux narratif pour un récit captivant. Cela produit des résultats qui peuvent être visuellement cohérents mais manquent de sophistication narrative et d'intégrité cinématographique véritable. Pour combler cette lacune, nous introduisons la génération de plans suivants (Next Shot Generation, NSG) : synthétiser un plan ultérieur de haute qualité qui respecte de manière critique les motifs de montage professionnels tout en maintenant une continuité cinématographique rigoureuse. Notre cadre, Cut2Next, s'appuie sur un Transformer de Diffusion (DiT). Il utilise un réglage en contexte guidé par une nouvelle stratégie de Multi-Prompting Hiérarchique. Cette stratégie utilise des Prompts Relationnels pour définir le contexte global et les styles de montage inter-plans. Les Prompts Individuels spécifient ensuite le contenu par plan et les attributs cinématographiques. Ensemble, ces éléments guident Cut2Next pour générer des plans suivants cinématographiquement appropriés. Des innovations architecturales, l'Injection de Condition Contextuellement Consciente (Context-Aware Condition Injection, CACI) et le Masque d'Attention Hiérarchique (Hierarchical Attention Mask, HAM), intègrent davantage ces signaux divers sans introduire de nouveaux paramètres. Nous construisons les ensembles de données RawCuts (à grande échelle) et CuratedCuts (raffinés), tous deux dotés de prompts hiérarchiques, et introduisons CutBench pour l'évaluation. Les expériences montrent que Cut2Next excelle en cohérence visuelle et fidélité textuelle. Crucialement, les études utilisateurs révèlent une forte préférence pour Cut2Next, en particulier pour son adhésion aux motifs de montage intentionnels et à la continuité cinématographique globale, validant sa capacité à générer des plans suivants de haute qualité, expressifs sur le plan narratif et cohérents sur le plan cinématographique.
Une main habile capable de saisir des objets de manière généralisable est fondamentale pour le développement d'une IA incarnée à usage général. Cependant, les méthodes précédentes se concentrent étroitement sur des métriques de stabilité de préhension de bas niveau, négligeant le positionnement conscient des affordances et les poses similaires à celles des humains, qui sont cruciales pour la manipulation ultérieure. Pour répondre à ces limitations, nous proposons AffordDex, un nouveau cadre avec un entraînement en deux étapes qui apprend une politique de préhension universelle avec une compréhension intrinsèque des priors de mouvement et des affordances des objets. Dans la première étape, un imitateur de trajectoire est pré-entraîné sur un large corpus de mouvements de main humains pour instiller un fort prior pour des mouvements naturels. Dans la deuxième étape, un module résiduel est entraîné pour adapter ces mouvements généraux similaires à ceux des humains à des instances spécifiques d'objets. Ce raffinement est guidé de manière critique par deux composants : notre module de segmentation conscient des affordances négatives (NAA), qui identifie les régions de contact fonctionnellement inappropriées, et un processus de distillation privilégié enseignant-élève qui garantit que la politique finale basée sur la vision est hautement réussie. Des expériences approfondies démontrent qu'AffordDex non seulement réalise une préhension habile universelle, mais reste également remarquablement similaire à celle des humains en posture et fonctionnellement appropriée dans l'emplacement du contact. En conséquence, AffordDex surpasse significativement les bases de référence de pointe à travers les objets vus, les instances non vues, et même des catégories entièrement nouvelles.
Nous présentons le premier dispositif d'évaluation permettant à tout modèle de langage de grande taille (LLM) local, prêt à l'emploi, de jouer à Diplomacy en mode complet sans nécessiter de fine-tuning ou d'entraînement spécialisé. Les travaux précédents exigeaient des LLM de pointe ou un fine-tuning, en raison de la complexité élevée et de la densité d'information de l'état du jeu dans Diplomacy. Combinés à la forte variabilité des matchs, ces facteurs rendaient Diplomacy difficile à étudier. Dans ce travail, nous avons utilisé une itération basée sur les données pour optimiser une représentation textuelle de l'état du jeu, permettant ainsi à un modèle de 24 milliards de paramètres de terminer des parties de manière fiable sans aucun fine-tuning. Nous avons développé des outils pour faciliter les tests d'hypothèses et l'analyse statistique, et nous présentons des études de cas sur la persuasion, les styles de jeu agressifs et les performances sur une gamme de modèles. Nous avons mené diverses expériences sur de nombreux LLM populaires, constatant que les modèles plus grands obtiennent les meilleurs résultats, mais que les modèles plus petits jouent encore de manière adéquate. Nous introduisons également l'Analyse des États Critiques : un protocole expérimental pour itérer et analyser rapidement les moments clés d'une partie en profondeur. Notre dispositif démocratise l'évaluation du raisonnement stratégique dans les LLM en éliminant le besoin de fine-tuning, et il fournit des insights sur la manière dont ces capacités émergent naturellement des LLM largement utilisés. Notre code est disponible dans les annexes et sera open source.
Grâce au développement des modèles intermodaux, la recherche vidéo par texte (T2VR) progresse rapidement, mais sa robustesse reste largement inexplorée. Les attaques existantes contre la T2VR sont conçues pour éloigner les vidéos des requêtes, c'est-à-dire pour réduire leur classement, tandis que les attaques visant à rapprocher les vidéos de requêtes sélectionnées, c'est-à-dire à améliorer leur classement, restent largement inexplorées. Ces attaques peuvent être plus impactantes, car les attaquants peuvent obtenir plus de vues/clics pour des bénéfices financiers et une diffusion (dés)informationnelle étendue. À cette fin, nous introduisons la première attaque contre la T2VR visant à promouvoir des vidéos de manière antagoniste, baptisée l'attaque de Promotion Vidéo (ViPro). Nous proposons en outre un Raffinement Modal (MoRe) pour capturer l'interaction plus fine et complexe entre les modalités visuelles et textuelles afin d'améliorer la transférabilité en boîte noire. Des expérimentations exhaustives couvrent 2 références existantes, 3 modèles de T2VR leaders, 3 jeux de données populaires contenant plus de 10 000 vidéos, évalués dans 3 scénarios. Toutes les expériences sont menées dans un cadre multi-cibles pour refléter des scénarios réalistes où les attaquants cherchent à promouvoir la vidéo concernant plusieurs requêtes simultanément. Nous avons également évalué nos attaques pour les défenses et l'imperceptibilité. Globalement, ViPro surpasse les autres références de plus de 30/10/4 % en moyenne pour les configurations en boîte blanche/grise/noire. Notre travail met en lumière une vulnérabilité négligée, fournit une analyse qualitative sur les limites supérieures/inférieures de nos attaques, et offre des perspectives sur les contre-mesures potentielles. Le code sera disponible publiquement à l'adresse https://github.com/michaeltian108/ViPro.
Cet article présente une régularisation simple mais efficace pour le modèle de langage interne induit par le décodeur dans les modèles de reconnaissance automatique de la parole (ASR) de type encodeur-décodeur, améliorant ainsi la robustesse et la généralisation dans des contextes intra- et extra-domaines. La méthode proposée, appelée Decoder-Centric Regularization in Encoder-Decoder (DeCRED), ajoute des classificateurs auxiliaires au décodeur, permettant la prédiction du token suivant via des logits intermédiaires. Empiriquement, DeCRED réduit la perplexité moyenne du modèle de langage interne en BPE de 36,6 % par rapport à 11 ensembles de test. De plus, cela se traduit par des améliorations réelles du taux d'erreur de mots (WER) par rapport à la référence dans 5 des 7 ensembles de test intra-domaines et 3 des 4 ensembles de test extra-domaines, réduisant le WER macro de 6,4 % à 6,3 % et de 18,2 % à 16,2 %, respectivement. Sur TEDLIUM3, DeCRED atteint un WER de 7,0 %, surpassant la référence et la régularisation InterCTC centrée sur l'encodeur de 0,6 % et 0,5 %, respectivement. Enfin, nous comparons DeCRED avec OWSM v3.1 et Whisper-medium, montrant des WER compétitifs malgré un entraînement sur beaucoup moins de données et avec moins de paramètres.
Les assistants de codage basés sur l'IA, comme GitHub Copilot, transforment rapidement le développement logiciel, mais leur sécurité reste profondément incertaine, en particulier dans des domaines à haut risque comme la cybersécurité. Les outils actuels de red teaming reposent souvent sur des benchmarks fixes ou des prompts irréalistes, manquant ainsi de nombreuses vulnérabilités réelles. Nous présentons ASTRA, un système d'agents automatisé conçu pour découvrir systématiquement les failles de sécurité dans les systèmes de génération de code et de conseils en sécurité pilotés par l'IA. ASTRA fonctionne en trois étapes : (1) il construit des graphes de connaissances structurés spécifiques au domaine, modélisant des tâches logicielles complexes et des faiblesses connues ; (2) il explore en ligne les vulnérabilités de chaque modèle cible en sondant de manière adaptative à la fois son espace d'entrée, c'est-à-dire l'exploration spatiale, et ses processus de raisonnement, c'est-à-dire l'exploration temporelle, guidé par les graphes de connaissances ; et (3) il génère des cas de haute qualité induisant des violations pour améliorer l'alignement du modèle. Contrairement aux méthodes précédentes, ASTRA se concentre sur des entrées réalistes—des requêtes que les développeurs pourraient réellement poser—et utilise à la fois une modélisation de domaine guidée par abstraction hors ligne et une adaptation en ligne des graphes de connaissances pour révéler des vulnérabilités de cas limites. Dans deux domaines d'évaluation majeurs, ASTRA identifie 11 à 66 % de problèmes supplémentaires par rapport aux techniques existantes et produit des cas de test qui conduisent à un entraînement d'alignement 17 % plus efficace, démontrant ainsi sa valeur pratique pour la construction de systèmes d'IA plus sûrs.
Dans cet article, nous proposons AimBot, une technique légère d'augmentation visuelle qui fournit des repères spatiaux explicites pour améliorer l'apprentissage de politiques visuomotrices dans la manipulation robotique. AimBot superpose des lignes de visée et des réticules sur des images RVB multi-vues, offrant ainsi un guidage visuel auxiliaire qui encode l'état de l'effecteur terminal. Les superpositions sont calculées à partir d'images de profondeur, des extrinsèques de la caméra et de la pose actuelle de l'effecteur terminal, transmettant explicitement les relations spatiales entre la pince et les objets de la scène. AimBot induit une surcharge computationnelle minimale (moins de 1 ms) et ne nécessite aucune modification des architectures de modèle, car il remplace simplement les images RVB originales par leurs versions augmentées. Malgré sa simplicité, nos résultats montrent qu'AimBot améliore systématiquement les performances de diverses politiques visuomotrices, tant en simulation que dans des environnements réels, mettant en évidence les avantages d'un retour visuel ancré spatialement.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans divers domaines, avec la génération de code émergeant comme un domaine clé d'intérêt. Bien que de nombreux benchmarks aient été proposés pour évaluer leurs capacités de génération de code, ces benchmarks présentent plusieurs limitations critiques. Premièrement, ils reposent souvent sur des annotations manuelles, qui sont chronophages et difficiles à mettre à l'échelle pour différents langages de programmation et niveaux de complexité des problèmes. Deuxièmement, la plupart des benchmarks existants se concentrent principalement sur Python, tandis que les rares benchmarks multilingues souffrent d'une difficulté limitée et d'une répartition inégale des langages. Pour relever ces défis, nous proposons AutoCodeGen, une méthode automatisée pour générer des ensembles de données de génération de code multilingues de haute difficulté sans annotations manuelles. AutoCodeGen garantit la correction et l'exhaustivité des cas de test en générant des entrées de test avec des LLMs et en obtenant les sorties de test via un bac à sable multilingue, tout en assurant une qualité élevée des données grâce à la génération de problèmes en ordre inverse et à plusieurs étapes de filtrage. En utilisant cette nouvelle méthode, nous introduisons AutoCodeBench, un benchmark de génération de code à grande échelle comprenant 3 920 problèmes répartis de manière équilibrée sur 20 langages de programmation. Il est spécifiquement conçu pour évaluer les LLMs sur des tâches multilingues difficiles, diversifiées et pratiques. Nous évaluons plus de 30 LLMs open-source et propriétaires de premier plan sur AutoCodeBench et sa version simplifiée AutoCodeBench-Lite. Les résultats montrent que même les LLMs les plus avancés peinent à gérer la complexité, la diversité et le caractère multilingue de ces tâches. Par ailleurs, nous introduisons AutoCodeBench-Complete, spécialement conçu pour les modèles de base afin d'évaluer leurs capacités de génération de code en few-shot. Nous espérons que la série AutoCodeBench servira de ressource précieuse et incitera la communauté à se concentrer sur des scénarios de génération de code multilingues plus difficiles et pratiques.
Les LLM (modèles de langage de grande taille) ont démontré de bonnes performances en traduction automatique (TA) grâce à l'apprentissage en contexte (ICL), rivalisant avec les modèles supervisés pour les traductions vers des langues à ressources abondantes (HRL). Cependant, ils sont moins performants pour les traductions vers des langues à ressources limitées (LRL). La sélection d'exemples via une recherche de similarité et l'affinage supervisé apportent des améliorations, mais celles-ci sont limitées par la taille, la qualité et la diversité des jeux de données parallèles existants. Une technique courante en TA pour les langues à ressources limitées est la création de données parallèles synthétiques, dont la méthode la plus fréquente est la rétro-traduction, où des textes existants dans la langue cible sont automatiquement traduits dans la langue source. Cependant, cela suppose l'existence de textes de qualité et pertinents dans la langue cible, qui ne sont pas facilement disponibles pour de nombreuses LRL. Dans cet article, nous présentons TopXGen, une approche basée sur les LLM pour générer des données de haute qualité et diversifiées sur le plan thématique dans plusieurs LRL, qui peuvent ensuite être rétro-traduites pour produire des textes parallèles utiles et diversifiés pour l'ICL et l'affinage. Notre intuition est que, bien que les LLM peinent à traduire vers les LRL, leur capacité à bien traduire vers les HRL et leur multilingüisme leur permettent de générer des textes de qualité et naturels dans la langue cible, qui peuvent être bien traduits dans une langue source à ressources abondantes. Nous montrons que TopXGen améliore les performances de traduction des LLM lors de l'affinage et de l'apprentissage en contexte. Le code et les résultats sont disponibles à l'adresse https://github.com/ArmelRandy/topxgen.
Bien que les modèles de langage de grande taille deviennent de plus en plus performants, il reste déraisonnable de s'attendre à ce qu'ils excellent dans des tâches sous-représentées sur Internet. L'exploitation des LLM pour des applications spécialisées, en particulier dans des langages de programmation de niche et des domaines privés, reste un défi largement non résolu. Dans ce travail, nous comblons cette lacune en présentant une approche open-source complète pour adapter les LLM au langage de programmation Q, un outil populaire en finance quantitative qui est beaucoup moins présent sur Internet par rapport à Python, C, Java et d'autres langages « grand public », et qui n'est donc pas un point fort des modèles d'IA généralistes. Nous introduisons un nouveau jeu de données d'évaluation de style Leetcode pour Q, évaluons les principaux modèles de pointe sur ce jeu de données, puis effectuons un pré-entraînement, un réglage fin supervisé et un apprentissage par renforcement pour entraîner une série de modèles de raisonnement et non-raisonnement basés sur la série Qwen-2.5, couvrant cinq tailles de paramètres (1,5B, 3B, 7B, 14B, 32B). Notre meilleur modèle atteint une précision pass@1 de 59 % sur notre benchmark Q, surpassant le modèle de pointe le plus performant, Claude Opus-4, de 29,5 %. De plus, tous les modèles, y compris notre modèle de 1,5B, surpassent GPT-4.1 sur cette tâche. En plus de publier les modèles, le code et les données, nous fournissons un guide détaillé pour la construction du jeu de données, le pré-entraînement des modèles, le réglage fin supervisé et l'apprentissage par renforcement. Notre méthodologie est largement applicable, et nous discutons de la manière dont ces techniques peuvent être étendues à d'autres tâches, y compris celles où l'évaluation peut reposer sur des signaux mous ou subjectifs.
La tâche de transfert de style pour les splats gaussiens 3D a été explorée dans de nombreux travaux antérieurs, mais ceux-ci nécessitent de reconstruire ou de fine-tuner le splat tout en intégrant des informations de style ou d'optimiser un réseau d'extraction de caractéristiques sur la représentation du splat. Nous proposons une approche de stylisation des splats gaussiens 3D sans reconstruction ni optimisation. Cela est réalisé en générant une structure de graphe à travers la surface implicite de la représentation du splat. Une méthode de stylisation basée sur la surface et à propagation avant est ensuite utilisée et interpolée sur les splats individuels de la scène. Cela permet d'utiliser n'importe quelle image de style et splat gaussien 3D sans nécessiter d'entraînement ou d'optimisation supplémentaire. Cela permet également une stylisation rapide des splats, atteignant des vitesses inférieures à 2 minutes même sur du matériel grand public. Nous démontrons la qualité des résultats obtenus par cette approche et la comparons à d'autres méthodes de transfert de style pour splats gaussiens 3D. Le code est disponible publiquement à l'adresse https://github.com/davidmhart/FastSplatStyler.
La mise en œuvre de la théorie des jeux quantiques sur du matériel réel est complexe en raison du bruit, de la décohérence et de la connectivité limitée des qubits. Pourtant, de telles démonstrations sont essentielles pour valider les prédictions théoriques. Nous présentons l'une des premières réalisations expérimentales complètes du jeu de la Bataille des sexes dans le cadre d'Eisert-Wilkens-Lewenstein (EWL) sur le processeur supraconducteur ibm_sherbrooke d'IBM Quantum. Quatre stratégies quantiques (I, H, R(π/4), R(π)) ont été évaluées pour 31 valeurs d'intrication γ dans l'intervalle [0, π], en utilisant 2048 tirages par configuration, permettant une comparaison directe entre les prédictions analytiques et l'exécution matérielle. Pour atténuer le bruit et la variabilité, nous introduisons une méthode de Cartographie de Circuit Guidée (GCM) qui sélectionne dynamiquement les paires de qubits et optimise le routage en fonction de la topologie et des données de calibration en temps réel. Le modèle analytique prévoit une amélioration des gains allant jusqu'à 108 % par rapport à l'équilibre classique, et malgré les écarts induits par le matériel, les résultats expérimentaux avec GCM préservent les tendances attendues des gains avec une erreur relative comprise entre 3,5 % et 12 %. Ces résultats montrent que les avantages quantiques dans la coordination stratégique peuvent persister dans des conditions réalistes de calcul quantique à bruit intermédiaire (NISQ), ouvrant la voie à des applications pratiques de la théorie des jeux quantiques dans les systèmes multi-agents, économiques et de prise de décision distribuée.
Comprendre les biais et les stéréotypes encodés dans les poids des modèles de langage à grande échelle (LLMs) est crucial pour développer des stratégies d'atténuation efficaces. Les comportements biaisés sont souvent subtils et non triviaux à isoler, même lorsqu'ils sont délibérément provoqués, rendant l'analyse systématique et la débiaisation particulièrement complexes. Pour répondre à ce défi, nous introduisons BiasGym, un cadre simple, économique et généralisable permettant d'injecter, d'analyser et d'atténuer de manière fiable les associations conceptuelles au sein des LLMs. BiasGym se compose de deux éléments : BiasInject, qui injecte des biais spécifiques dans le modèle via un ajustement fin basé sur les tokens tout en gardant le modèle figé, et BiasScope, qui exploite ces signaux injectés pour identifier et orienter les composants responsables des comportements biaisés. Notre méthode permet une provocation cohérente des biais pour une analyse mécaniste, soutient une débiaisation ciblée sans dégrader les performances sur les tâches en aval, et se généralise à des biais non rencontrés pendant l'entraînement. Nous démontrons l'efficacité de BiasGym dans la réduction des stéréotypes réels (par exemple, les personnes d'un pays étant des « conducteurs imprudents ») et dans l'exploration d'associations fictives (par exemple, les personnes d'un pays ayant une « peau bleue »), montrant ainsi son utilité à la fois pour les interventions de sécurité et la recherche en interprétabilité.
Les globules rouges (GR) sont essentiels à la santé humaine, et leur analyse morphologique précise est cruciale pour diagnostiquer les troubles hématologiques. Malgré le potentiel des modèles de base dans le diagnostic médical, les solutions d'IA complètes pour l'analyse des GR restent rares. Nous présentons RedDino, un modèle de base auto-supervisé conçu pour l'analyse d'images de GR. RedDino utilise une adaptation spécifique aux GR du cadre d'apprentissage auto-supervisé DINOv2 et est entraîné sur un ensemble de données soigneusement sélectionné de 1,25 million d'images de GR provenant de diverses modalités et sources d'acquisition. Des évaluations approfondies montrent que RedDino surpasse les modèles de pointe existants en matière de classification des formes de GR. Grâce à des évaluations incluant le sondage linéaire et la classification par plus proches voisins, nous confirmons ses représentations de caractéristiques robustes et sa capacité de généralisation. Nos principales contributions sont : (1) un modèle de base spécialement conçu pour l'analyse des GR, (2) des études d'ablation explorant les configurations de DINOv2 pour la modélisation des GR, et (3) une évaluation détaillée des performances de généralisation. RedDino relève les principaux défis de l'hématologie computationnelle en capturant des caractéristiques morphologiques nuancées, faisant progresser le développement d'outils de diagnostic fiables. Le code source et les modèles pré-entraînés de RedDino sont disponibles à l'adresse https://github.com/Snarci/RedDino, et les modèles pré-entraînés peuvent être téléchargés depuis notre collection Hugging Face à l'adresse https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc.
L'urbanisation, le changement climatique et les pressions agricoles augmentent la demande pour une surveillance environnementale précise et en temps réel. La température de surface terrestre (LST) est une variable clé dans ce contexte et est obtenue à partir de satellites de télédétection. Cependant, ces systèmes sont confrontés à un compromis entre résolution spatiale et temporelle. Bien que les méthodes de fusion spatio-temporelle offrent des solutions prometteuses, peu d'entre elles ont abordé l'estimation quotidienne de la LST à une résolution de 10 m. Dans cette étude, nous présentons WGAST, un réseau génératif faiblement supervisé pour l'estimation quotidienne de la LST à 10 m via la fusion spatio-temporelle des données de Terra MODIS, Landsat 8 et Sentinel-2. WGAST est le premier cadre d'apprentissage profond end-to-end conçu pour cette tâche. Il adopte une architecture générative adversarial conditionnelle, avec un générateur composé de quatre étapes : extraction de caractéristiques, fusion, reconstruction de la LST et suppression du bruit. La première étape utilise un ensemble d'encodeurs pour extraire des représentations latentes multi-niveaux des entrées, qui sont ensuite fusionnées dans la deuxième étape en utilisant la similarité cosinus, la normalisation et des mécanismes d'attention temporelle. La troisième étape décode les caractéristiques fusionnées en une LST haute résolution, suivie d'un filtre gaussien pour supprimer le bruit haute fréquence. L'entraînement suit une stratégie faiblement supervisée basée sur des principes de moyenne physique et renforcée par un discriminateur PatchGAN. Les expériences démontrent que WGAST surpasse les méthodes existantes dans les évaluations quantitatives et qualitatives. Par rapport à la meilleure méthode de référence, en moyenne, WGAST réduit l'erreur quadratique moyenne (RMSE) de 17,18 % et améliore l'indice de similarité structurelle (SSIM) de 11,00 %. De plus, WGAST est robuste aux perturbations de la LST induites par les nuages et capture efficacement les motifs thermiques à fine échelle, comme validé par 33 capteurs au sol. Le code est disponible à l'adresse suivante : https://github.com/Sofianebouaziz1/WGAST.git.
La capacité d'apprentissage continu des grands modèles de langage (LLMs) est cruciale pour faire progresser l'intelligence artificielle générale. Cependant, l'affinage continu des LLMs à travers divers domaines souffre souvent de l'oubli catastrophique, caractérisé par : 1) un oubli significatif de leurs capacités générales, et 2) une forte baisse de performance dans les tâches précédemment apprises. Pour résoudre simultanément ces deux problèmes de manière simple et stable, nous proposons General Sample Replay (GeRe), un cadre qui utilise des textes de pré-entraînement usuels pour une anti-oubli efficace. Au-delà de la révision des pratiques basées sur le replay les plus répandues sous GeRe, nous exploitons également les états neuronaux pour introduire une méthode d'optimisation contrainte des états d'activation améliorée utilisant une perte de marge basée sur un seuil (TM), qui maintient la cohérence des états d'activation pendant l'apprentissage par replay. Nous sommes les premiers à valider qu'un petit ensemble fixe d'échantillons de replay généraux pré-collectés est suffisant pour résoudre les deux préoccupations—conserver les capacités générales tout en améliorant la performance globale à travers les tâches séquentielles. En effet, la première peut intrinsèquement faciliter la seconde. À travers des expériences contrôlées, nous comparons systématiquement TM avec différentes stratégies de replay sous le cadre GeRe, incluant l'ajustement simple des étiquettes, l'imitation des logits via la divergence KL et l'imitation des caractéristiques via les pertes L1/L2. Les résultats démontrent que TM améliore constamment la performance et montre une meilleure robustesse. Notre travail ouvre la voie à un replay efficace des LLMs pour l'avenir. Notre code et nos données sont disponibles à l'adresse https://github.com/Qznan/GeRe.
Les benchmarks actuels de raisonnement mathématique pour les grands modèles de langage (LLM) approchent de la saturation, certains atteignant une précision supérieure à 90 %, et sont de plus en plus compromis par la contamination des ensembles d'entraînement. Nous présentons Putnam-AXIOM, un benchmark de 522 problèmes de compétition universitaire tirés du prestigieux concours William Lowell Putnam de mathématiques, ainsi que Putnam-AXIOM Variation, un ensemble compagnon inédit de 100 variantes fonctionnelles générées en perturbant programmatiquement les variables et les constantes. Le protocole de variation produit un flux illimité d'instances également difficiles et inédites, offrant ainsi un banc d'essai résilient à la contamination. Sur l'ensemble Original, o1-preview d'OpenAI — le modèle le plus performant évalué — obtient un score de 41,9 %, mais sa précision chute de 19,6 % (une diminution relative de 46,8 %) sur les Variations appariées. Les dix-huit autres modèles montrent la même tendance à la baisse, dix d'entre eux ayant des intervalles de confiance à 95 % non chevauchants. Ces écarts suggèrent une mémorisation et soulignent la nécessité de benchmarks dynamiques. Nous complétons la précision "encadrée" par la Teacher-Forced Accuracy (TFA), une métrique légère qui évalue directement les traces de raisonnement et automatise l'évaluation des preuves en langage naturel. Putnam-AXIOM fournit donc un cadre d'évaluation rigoureux et résilient à la contamination pour évaluer le raisonnement mathématique avancé des LLM. Les données et le code d'évaluation sont disponibles publiquement à l'adresse https://github.com/brando90/putnam-axiom.
La surface de la Terre est en constante évolution, et la détection de ces changements offre des informations précieuses qui profitent à divers aspects de la société humaine. Bien que les méthodes traditionnelles de détection des changements aient été utilisées pour identifier les modifications à partir d'images bi-temporelles, ces approches nécessitent généralement une expertise pour une interprétation précise. Pour permettre un accès plus large et plus flexible aux informations sur les changements par des utilisateurs non experts, la tâche de Question-Réponse Visuelle pour la Détection des Changements (CDVQA) a été introduite. Cependant, les méthodes existantes de CDVQA ont été développées en supposant que les ensembles de données d'entraînement et de test partagent des distributions similaires. Cette hypothèse ne tient pas dans les applications réelles, où des décalages de domaine se produisent souvent. Dans cet article, la tâche CDVQA est revisitée en mettant l'accent sur la gestion des décalages de domaine. À cette fin, un nouveau jeu de données multi-modal et multi-domaine, BrightVQA, est introduit pour faciliter la recherche sur la généralisation de domaine en CDVQA. De plus, un nouveau modèle d'espace d'état, appelé Modèle d'Espace d'État Conditionné par le Texte (TCSSM), est proposé. Le cadre TCSSM est conçu pour exploiter à la fois les images bi-temporelles et les informations textuelles liées aux catastrophes géologiques de manière unifiée afin d'extraire des caractéristiques invariantes au domaine. Les paramètres dépendants de l'entrée dans TCSSM sont prédits dynamiquement en utilisant à la fois les images bi-temporelles et les descriptions liées aux catastrophes géologiques, facilitant ainsi l'alignement entre les données visuelles bi-temporelles et les descriptions textuelles associées. Des expériences approfondies sont menées pour évaluer la méthode proposée par rapport aux modèles de pointe, et une performance supérieure est systématiquement démontrée. Le code et le jeu de données seront rendus publics après acceptation à l'adresse https://github.com/Elman295/TCSSM.
Le transfert de style artistique est depuis longtemps réalisable grâce aux avancées des réseaux neuronaux basés sur les convolutions et les transformeurs. La plupart des algorithmes appliquent le transfert de style artistique à l'ensemble de l'image, mais les utilisateurs individuels peuvent avoir besoin d'appliquer un transfert de style uniquement à une région spécifique de l'image. La pratique standard consiste simplement à masquer l'image après la stylisation. Ce travail montre que cette approche tend à capturer de manière inadéquate les caractéristiques stylistiques dans la région d'intérêt. Nous proposons un réseau de transfert de style basé sur des convolutions partielles qui applique avec précision les caractéristiques stylistiques exclusivement à la région d'intérêt. De plus, nous présentons des techniques de fusion interne au réseau qui prennent en compte les imperfections dans la sélection de la région. Nous démontrons que cela améliore visuellement et quantitativement la stylisation en utilisant des exemples issus du jeu de données SA-1B. Le code est disponible publiquement à l'adresse suivante : https://github.com/davidmhart/StyleTransferMasked.
Les vocalisations paralangagières, comprenant des sons non verbaux tels que le rire et la respiration, ainsi que des interjections lexicalisées comme "euh" et "oh", sont essentielles à la communication orale naturelle. Malgré leur importance dans la transmission des émotions, des intentions et des indices interactionnels, ces indices restent largement négligés dans les systèmes conventionnels de reconnaissance automatique de la parole (ASR) et de synthèse vocale (TTS). Nous présentons NVSpeech, une pipeline intégrée et évolutive qui relie la reconnaissance et la synthèse des vocalisations paralangagières, englobant la construction de jeux de données, la modélisation ASR et la TTS contrôlable. (1) Nous introduisons un jeu de données annoté manuellement de 48 430 énoncés humains avec 18 catégories paralangagières au niveau des mots. (2) Nous développons le modèle ASR conscient des paralangages, qui traite les indices paralangagiers comme des jetons décodables en ligne (par exemple, "Tu es si drôle [Rire]"), permettant une transcription conjointe lexicale et non verbale. Ce modèle est ensuite utilisé pour annoter automatiquement un grand corpus, le premier jeu de données chinois à grande échelle de 174 179 énoncés (573 heures) avec un alignement au niveau des mots et des indices paralangagiers. (3) Nous affinons des modèles TTS zero-shot sur des données annotées manuellement et automatiquement pour permettre un contrôle explicite des vocalisations paralangagières, autorisant une insertion contextuelle à des positions arbitraires de jetons pour une synthèse vocale humaine. En unifiant la reconnaissance et la génération des vocalisations paralangagières, NVSpeech propose la première pipeline ouverte, à grande échelle et annotée au niveau des mots pour la modélisation de la parole expressive en mandarin, intégrant la reconnaissance et la synthèse de manière évolutive et contrôlable. Les jeux de données et les démonstrations audio sont disponibles à l'adresse https://nvspeech170k.github.io/.