papers.description
Les LLM ont démontré de solides capacités de raisonnement mathématique en exploitant l'apprentissage par renforcement avec des chaînes de pensée longues, mais ils continuent de rencontrer des difficultés dans la démonstration de théorèmes en raison du manque de signaux de supervision clairs lors de l'utilisation exclusive du langage naturel. Des langages dédiés spécifiques au domaine, comme Lean, fournissent une supervision claire via la vérification formelle des preuves, permettant un entraînement efficace grâce à l'apprentissage par renforcement. Dans ce travail, nous proposons Seed-Prover, un modèle de raisonnement sur des preuves complètes de style lemme. Seed-Prover peut affiner itérativement sa preuve en se basant sur les retours de Lean, les lemmes prouvés et l'auto-résumé. Pour résoudre des problèmes de concours de niveau IMO, nous concevons trois stratégies d'inférence au moment du test qui permettent un raisonnement à la fois profond et étendu. Seed-Prover démontre 78,1 % des problèmes passés de l'IMO formalisés, sature MiniF2F et atteint plus de 50 % sur PutnamBench, surpassant largement l'état de l'art précédent. Pour pallier le manque de support géométrique dans Lean, nous introduisons un moteur de raisonnement géométrique Seed-Geometry, qui surpasse les moteurs de géométrie formelle précédents. Nous utilisons ces deux systèmes pour participer à l'IMO 2025 et démontrons entièrement 5 des 6 problèmes. Ce travail représente une avancée significative dans le raisonnement mathématique automatisé, démontrant l'efficacité de la vérification formelle avec un raisonnement en chaîne de pensée longue.
Avec le développement des modèles de raisonnement multimodal, les agents d'utilisation informatique (CUA), similaires à Jarvis dans "Iron Man", deviennent une réalité. L'ancrage dans les interfaces graphiques (GUI) est un composant essentiel pour permettre aux CUA d'exécuter des actions concrètes, comparable au contrôle mécanique en robotique, et il influence directement le succès ou l'échec du système. Il détermine des actions telles que les clics et la saisie, ainsi que les paramètres associés comme les coordonnées des clics. Les modèles d'ancrage de bout en bout actuels atteignent encore moins de 65 % de précision sur des benchmarks exigeants comme ScreenSpot-pro et UI-Vision, indiquant qu'ils sont loin d'être prêts pour un déploiement. Dans ce travail, nous menons une étude empirique sur l'entraînement des modèles d'ancrage, en examinant les détails allant de la collecte des données à l'entraînement du modèle. Finalement, nous avons développé la famille de modèles Phi-Ground, qui atteint des performances de pointe sur les cinq benchmarks d'ancrage pour les modèles de moins de 10 milliards de paramètres dans des contextes d'agents. Dans le cadre des modèles de bout en bout, notre modèle obtient toujours des résultats SOTA avec des scores de \textbf{43,2} sur ScreenSpot-pro et \textbf{27,2} sur UI-Vision. Nous pensons que les divers détails discutés dans cet article, ainsi que nos succès et échecs, non seulement clarifient la construction des modèles d'ancrage, mais profitent également à d'autres tâches de perception. Page du projet : https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
Les modèles de dialogue parlé (SDMs) ont récemment suscité un intérêt considérable pour leur capacité à générer des réponses vocales directement aux requêtes orales des utilisateurs. Malgré leur popularité croissante, il existe un manque de recherche axée sur la compréhension approfondie de leur efficacité pratique dans la compréhension et l'imitation des conversations humaines. Cela est particulièrement vrai par rapport aux modèles de langage à grande échelle (LLMs) basés sur le texte, qui bénéficient d'un benchmarking extensif. Les interactions vocales humaines sont intrinsèquement plus complexes que le texte en raison de caractéristiques propres au dialogue parlé. L'ambiguïté constitue un défi, découlant de facteurs sémantiques comme la polysémie, ainsi que d'aspects phonologiques tels que les hétérographes, les hétéronymes et les schémas d'accentuation. De plus, la dépendance contextuelle, comme l'omission, la coréférence et l'interaction multi-tours, ajoute une complexité supplémentaire à la dynamique conversationnelle humaine. Pour éclairer l'état actuel du développement des SDMs et relever ces défis, nous présentons dans cet article un ensemble de données de référence, comprenant 1 079 instances en anglais et en chinois. Accompagné d'une méthode d'évaluation basée sur un LLM qui s'aligne étroitement avec le jugement humain, cet ensemble de données facilite une exploration approfondie de la performance des SDMs face à ces défis pratiques.
Les systèmes de recommandation figurent parmi les applications les plus influentes de l'intelligence artificielle, servant d'infrastructure critique reliant les utilisateurs, les commerçants et les plateformes. Cependant, la plupart des systèmes industriels actuels restent fortement dépendants des modèles de co-occurrence historique et des objectifs d'ajustement aux logs, c'est-à-dire qu'ils optimisent les interactions passées des utilisateurs sans modéliser explicitement leurs intentions. Cette approche d'ajustement aux logs conduit souvent à un surajustement aux préférences historiques étroites, échouant à capturer les intérêts évolutifs et latents des utilisateurs. En conséquence, elle renforce les bulles de filtrage et les phénomènes de longue traîne, nuisant finalement à l'expérience utilisateur et menaçant la durabilité de l'écosystème de recommandation. Pour relever ces défis, nous repensons le paradigme de conception global des systèmes de recommandation et proposons RecGPT, un framework de nouvelle génération qui place l'intention utilisateur au cœur du pipeline de recommandation. En intégrant des modèles de langage de grande taille (LLMs) aux étapes clés de l'exploration des intérêts utilisateur, de la récupération d'articles et de la génération d'explications, RecGPT transforme la recommandation basée sur les logs en un processus centré sur l'intention. Pour aligner efficacement les LLMs à usage général sur ces tâches de recommandation spécifiques à grande échelle, RecGPT intègre un paradigme de formation multi-étapes, qui combine un pré-alignement amélioré par le raisonnement et une évolution par auto-formation, guidé par un système de jugement coopératif Humain-LLM. Actuellement, RecGPT est entièrement déployé sur l'application Taobao. Les expériences en ligne démontrent que RecGPT obtient des gains de performance constants pour toutes les parties prenantes : les utilisateurs bénéficient d'une diversité et d'une satisfaction accrues, tandis que les commerçants et la plateforme gagnent en visibilité et en conversions. Ces résultats d'amélioration globale pour toutes les parties prenantes valident que la conception centrée sur l'intention, pilotée par les LLMs, peut favoriser un écosystème de recommandation plus durable et mutuellement bénéfique.
Les modèles Visuel-Langage-Action (VLA) sont devenus un paradigme populaire pour l'apprentissage de politiques de manipulation robotique capables de suivre des instructions linguistiques et de généraliser à des scénarios nouveaux. Des travaux récents ont commencé à explorer l'intégration d'actions latentes, une représentation abstraite du changement visuel entre deux images, dans le pré-entraînement des modèles VLA. Dans cet article, nous présentons villa-X, un nouveau cadre Visuel-Langage-Action-Latente (ViLLA) qui fait progresser la modélisation des actions latentes pour l'apprentissage de politiques de manipulation robotique généralisables. Notre approche améliore à la fois la manière dont les actions latentes sont apprises et la façon dont elles sont intégrées dans le pré-entraînement des modèles VLA. Ensemble, ces contributions permettent à villa-X d'obtenir des performances supérieures dans des environnements simulés, notamment SIMPLER et LIBERO, ainsi que sur deux configurations robotiques réelles incluant la manipulation par pince et par main dextre. Nous croyons que le paradigme ViLLA présente un potentiel significatif, et que notre villa-X offre une base solide pour les recherches futures.
La modélisation 3D feed-forward s'est imposée comme une approche prometteuse pour une reconstruction 3D rapide et de haute qualité. En particulier, la génération directe de représentations 3D explicites, telles que le splatting de Gaussiennes 3D, a suscité un intérêt considérable en raison de son rendu rapide et de haute qualité, ainsi que de ses nombreuses applications. Cependant, de nombreuses méthodes de pointe, principalement basées sur des architectures de type transformer, souffrent de problèmes de scalabilité importants car elles reposent sur une attention complète entre les tokens d'images provenant de multiples vues d'entrée, ce qui entraîne des coûts de calcul prohibitifs à mesure que le nombre de vues ou la résolution des images augmente. Pour une reconstruction 3D feed-forward scalable et efficace, nous introduisons un modèle itératif de reconstruction 3D à grande échelle (iLRM) qui génère des représentations de Gaussiennes 3D via un mécanisme de raffinement itératif, guidé par trois principes clés : (1) découpler la représentation de la scène des images des vues d'entrée pour permettre des représentations 3D compactes ; (2) décomposer les interactions multi-vues à attention complète en un schéma d'attention en deux étapes pour réduire les coûts de calcul ; et (3) injecter des informations à haute résolution à chaque couche pour obtenir une reconstruction haute fidélité. Les résultats expérimentaux sur des ensembles de données largement utilisés, tels que RE10K et DL3DV, démontrent qu'iLRM surpasse les méthodes existantes à la fois en qualité de reconstruction et en vitesse. Notamment, iLRM présente une scalabilité supérieure, offrant une qualité de reconstruction significativement plus élevée à un coût de calcul comparable en exploitant efficacement un plus grand nombre de vues d'entrée.
Les grands modèles de langage interagissent avec les utilisateurs à travers une personnalité simulée d'« Assistant ». Bien que l'Assistant soit généralement entraîné pour être utile, inoffensif et honnête, il s'écarte parfois de ces idéaux. Dans cet article, nous identifions des directions dans l'espace d'activation du modèle — des vecteurs de personnalité — qui sous-tendent plusieurs traits, tels que la malveillance, la flagornerie et la propension à halluciner. Nous confirmons que ces vecteurs peuvent être utilisés pour surveiller les fluctuations de la personnalité de l'Assistant lors de son déploiement. Nous appliquons ensuite ces vecteurs de personnalité pour prédire et contrôler les changements de personnalité qui surviennent pendant l'entraînement. Nous constatons que les modifications intentionnelles et non intentionnelles de la personnalité après un ajustement fin sont fortement corrélées aux déplacements le long des vecteurs de personnalité pertinents. Ces déplacements peuvent être atténués par une intervention post-hoc ou évités dès le départ grâce à une nouvelle méthode de pilotage préventif. De plus, les vecteurs de personnalité peuvent être utilisés pour identifier les données d'entraînement susceptibles de provoquer des changements de personnalité indésirables, tant au niveau de l'ensemble de données qu'au niveau des échantillons individuels. Notre méthode d'extraction des vecteurs de personnalité est automatisée et peut être appliquée à tout trait de personnalité d'intérêt, à partir d'une simple description en langage naturel.
Bien que l'apprentissage par renforcement (Reinforcement Learning, RL) ait obtenu des succès remarquables dans la modélisation du langage, son triomphe ne s'est pas encore pleinement étendu aux agents visuomoteurs. Un défi majeur des modèles RL réside dans leur tendance à surajuster des tâches ou environnements spécifiques, entravant ainsi l'acquisition de comportements généralisables dans divers contextes. Cet article apporte une réponse préliminaire à ce défi en démontrant que des agents visuomoteurs affinés par RL dans Minecraft peuvent réaliser une généralisation zero-shot à des mondes inédits. Plus précisément, nous explorons le potentiel du RL pour améliorer les capacités de raisonnement spatial et d'interaction généralisables dans des mondes 3D. Pour relever les défis liés à la représentation multi-tâches en RL, nous analysons et établissons la spécification d'objectifs inter-vues comme un espace d'objectifs unifié pour les politiques visuomotrices. Par ailleurs, pour surmonter le goulot d'étranglement significatif que représente la conception manuelle de tâches, nous proposons une synthèse automatisée de tâches dans l'environnement hautement personnalisable de Minecraft pour un entraînement RL multi-tâches à grande échelle, et nous construisons un cadre RL distribué efficace pour le supporter. Les résultats expérimentaux montrent que le RL augmente significativement les taux de réussite des interactions par un facteur de 4 et permet une généralisation zero-shot du raisonnement spatial dans divers environnements, y compris des contextes du monde réel. Nos conclusions soulignent le potentiel immense de l'entraînement RL dans des environnements simulés en 3D, en particulier ceux propices à la génération de tâches à grande échelle, pour faire progresser considérablement le raisonnement spatial des agents visuomoteurs.
Nous présentons NeRF-GS, un nouveau cadre qui optimise conjointement les Champs de Radiance Neuronaux (NeRF) et le Splatting Gaussien 3D (3DGS). Ce cadre exploite la représentation spatiale continue inhérente à NeRF pour atténuer plusieurs limitations de 3DGS, notamment la sensibilité à l'initialisation gaussienne, la conscience spatiale limitée et les faibles corrélations inter-gaussiennes, améliorant ainsi ses performances. Dans NeRF-GS, nous revisitons la conception de 3DGS et alignons progressivement ses caractéristiques spatiales avec NeRF, permettant aux deux représentations d'être optimisées au sein de la même scène grâce à des informations spatiales 3D partagées. Nous abordons également les distinctions formelles entre les deux approches en optimisant les vecteurs résiduels pour les caractéristiques implicites et les positions gaussiennes, afin d'améliorer les capacités personnalisées de 3DGS. Les résultats expérimentaux sur des ensembles de données de référence montrent que NeRF-GS surpasse les méthodes existantes et atteint des performances de pointe. Ce résultat confirme que NeRF et 3DGS sont complémentaires plutôt que concurrents, offrant de nouvelles perspectives sur les approches hybrides qui combinent 3DGS et NeRF pour une représentation efficace de scènes 3D.
Les modèles de langage multimodaux de grande taille (MLLMs) permettent un raisonnement visuel-linguistique, mais génèrent souvent des sorties plausibles qui sont factuellement incorrectes ou visuellement non fondées, compromettant ainsi leur fiabilité. L'optimisation directe des préférences (DPO) est une stratégie courante pour corriger les hallucinations en alignant les sorties du modèle avec les préférences humaines. Les stratégies DPO existantes traitent généralement les préférences liées aux hallucinations comme des cibles fixes, s'appuyant sur des signaux de supervision statiques pendant l'entraînement. Cette approche tend à surajuster les indices linguistiques superficiels dans les données de préférence, conduisant à une rigidité distributionnelle et à des corrélations fallacieuses qui altèrent l'ancrage dans les informations visuelles causalement pertinentes. Pour surmonter cette limitation, nous proposons TARS, une stratégie de préférence adaptative au niveau des tokens qui reformule la DPO comme un problème d'optimisation min-max. TARS maximise les variations distributionnelles au niveau des tokens sous contraintes sémantiques pour simuler l'incertitude d'alignement, et minimise simultanément la perte de préférence attendue sous ces perturbations contrôlées. Cet objectif conjoint préserve l'ancrage causal tout en atténuant le surajustement aux modèles de préférence, réduisant ainsi les hallucinations dans le raisonnement multimodal. Nous évaluons TARS sur plusieurs benchmarks d'hallucinations et observons une performance constamment élevée. En utilisant seulement 4,8k échantillons de préférence et sans retour d'expert, TARS réduit les taux d'hallucination de 26,4% à 13,2% et diminue la valeur de cognition de 2,5 à 0,4. Il surpasse la DPO standard et rivalise avec GPT-4o sur plusieurs métriques clés.
La compréhension automatisée précise des tâches agricoles, telles que l'identification des maladies, est essentielle pour une production durable des cultures. Les récentes avancées dans les modèles vision-langage (VLMs) devraient encore élargir la gamme des tâches agricoles en facilitant l'interaction humain-modèle grâce à une communication textuelle simple. Nous présentons ici AgroBench (Agronomist AI Benchmark), un benchmark pour évaluer les modèles VLM sur sept sujets agricoles, couvrant des domaines clés de l'ingénierie agricole et pertinents pour l'agriculture réelle. Contrairement aux récents benchmarks agricoles pour VLMs, AgroBench est annoté par des agronomes experts. Notre AgroBench couvre une gamme de catégories à la pointe de la technologie, incluant 203 catégories de cultures et 682 catégories de maladies, pour évaluer de manière approfondie les capacités des VLMs. Dans notre évaluation sur AgroBench, nous révélons que les VLMs ont des marges d'amélioration dans les tâches d'identification fine. Notamment, dans l'identification des mauvaises herbes, la plupart des VLMs open-source performaient proches du hasard. Avec notre large gamme de sujets et de catégories annotées par des experts, nous analysons les types d'erreurs commises par les VLMs et suggérons des pistes potentielles pour le développement futur des VLMs. Notre jeu de données et notre code sont disponibles à l'adresse https://dahlian00.github.io/AgroBenchPage/.
La classification des styles artistiques reste un défi majeur en esthétique computationnelle en raison de la rareté des ensembles de données expertement annotés et de l'interaction complexe, souvent non linéaire, des éléments stylistiques. Bien que les récents cadres auto-supervisés à double enseignant réduisent la dépendance aux données étiquetées, leurs couches de projection linéaire et leur focalisation locale peinent à modéliser le contexte compositionnel global et les interactions complexes entre les caractéristiques stylistiques. Nous améliorons le cadre de distillation de connaissances à double enseignant pour surmonter ces limitations en remplaçant les têtes de projection et de prédiction MLP conventionnelles par des réseaux de Kolmogorov-Arnold (KAN). Notre approche conserve l'orientation complémentaire de deux réseaux enseignants, l'un mettant l'accent sur les motifs locaux de texture et de coup de pinceau, l'autre capturant les hiérarchies stylistiques plus larges, tout en exploitant les activations basées sur des splines des KAN pour modéliser avec précision mathématique les corrélations non linéaires entre caractéristiques. Les expériences sur WikiArt et Pandora18k démontrent que notre approche surpasse l'architecture de base à double enseignant en termes de précision Top-1. Nos résultats soulignent l'importance des KAN dans le démêlage des variétés stylistiques complexes, conduisant à une meilleure précision des sondes linéaires par rapport aux projections MLP.
Depuis son introduction, l'attention softmax est devenue la pierre angulaire des architectures modernes de transformateurs en raison de son expressivité et de sa scalabilité sur un large éventail de tâches. Cependant, le principal inconvénient de l'attention softmax réside dans son besoin en mémoire quadratique et sa complexité computationnelle par rapport à la longueur de la séquence. En remplaçant la non-linéarité softmax, l'attention linéaire et des méthodes similaires ont été introduites pour éviter le goulot d'étranglement quadratique de l'attention softmax. Bien que ces formes linéaires d'attention soient dérivées de la formulation originale de la softmax, elles sont généralement moins performantes en termes de précision en aval. Alors qu'une intuition forte de la non-linéarité softmax sur le produit interne des requêtes et des clés suggère qu'elle possède des propriétés souhaitables par rapport à d'autres non-linéarités, la question de savoir pourquoi cette divergence existe reste sans réponse. Ce travail démontre que l'attention linéaire est une approximation de l'attention softmax en dérivant la forme récurrente de l'attention softmax. En utilisant cette forme, chaque partie de l'attention softmax peut être décrite dans le langage des réseaux de neurones récurrents (RNN). Décrire l'attention softmax comme un RNN permet de procéder à l'ablation des composants de l'attention softmax pour comprendre l'importance de chaque partie et comment elles interagissent. De cette manière, notre travail contribue à expliquer pourquoi l'attention softmax est plus expressive que ses alternatives.
Les données parviennent à nos sens sous forme d'un flux continu, se transformant en douceur d'un instant à l'autre. Ces transformations fluides peuvent être considérées comme des symétries continues de l'environnement que nous habitons, définissant des relations d'équivalence entre les stimuli au fil du temps. En apprentissage automatique, les architectures de réseaux neuronaux qui respectent les symétries de leurs données sont dites équivariantes et présentent des avantages prouvés en termes de capacité de généralisation et d'efficacité d'échantillonnage. Jusqu'à présent, cependant, l'équivariance n'a été considérée que pour des transformations statiques et des réseaux à propagation avant, limitant ainsi son applicabilité aux modèles séquentiels, tels que les réseaux neuronaux récurrents (RNN), et aux transformations séquentielles paramétrées par le temps correspondantes. Dans ce travail, nous étendons la théorie des réseaux équivariants à ce régime de « flux » — des sous-groupes de Lie à un paramètre capturant les transformations naturelles dans le temps, comme le mouvement visuel. Nous commençons par montrer que les RNN standards ne sont généralement pas équivariants par rapport aux flux : leurs états cachés ne se transforment pas de manière géométriquement structurée pour des stimuli en mouvement. Nous montrons ensuite comment l'équivariance par rapport aux flux peut être introduite, et démontrons que ces modèles surpassent significativement leurs homologues non équivariants en termes de vitesse d'apprentissage, de généralisation à des longueurs variables et de généralisation à des vitesses différentes, tant pour la prédiction de l'étape suivante que pour la classification de séquences. Nous présentons ce travail comme une première étape vers la construction de modèles séquentiels qui respectent les symétries paramétrées par le temps qui régissent le monde qui nous entoure.
L'arabe représente un défi particulier pour le traitement automatique du langage naturel (TALN) et la recherche d'information (RI) en raison de sa morphologie complexe, de ses diacritiques optionnels et de la coexistence de l'arabe standard moderne (ASM) avec divers dialectes. Malgré l'importance croissante de l'arabe à l'échelle mondiale, cette langue reste sous-représentée dans la recherche en TALN et dans les ressources de référence. Dans cet article, nous présentons un cadre amélioré de récupération dense de passages (Dense Passage Retrieval, DPR) spécialement conçu pour l'arabe. Au cœur de notre approche se trouve un nouveau mécanisme de notation attentive de la pertinence (Attentive Relevance Scoring, ARS) qui remplace les mécanismes d'interaction standards par une fonction de notation adaptative, modélisant plus efficacement la pertinence sémantique entre les questions et les passages. Notre méthode intègre des modèles de langage arabe pré-entraînés et des améliorations architecturales pour accroître les performances de récupération et augmenter significativement la précision du classement lors de la réponse à des questions en arabe. Le code est rendu public à l'adresse suivante : https://github.com/Bekhouche/APR{GitHub}.
En raison des préoccupations croissantes en matière de confidentialité, le désapprentissage automatique, qui vise à permettre aux modèles d'apprentissage automatique d'« oublier » des données d'entraînement spécifiques, a suscité un intérêt croissant. Parmi les méthodes existantes, le désapprentissage basé sur l'influence s'est imposé comme une approche prédominante en raison de sa capacité à estimer l'impact des échantillons d'entraînement individuels sur les paramètres du modèle sans nécessiter de réentraînement. Cependant, cette approche souffre d'une surcharge computationnelle prohibitive découlant de la nécessité de calculer la matrice hessienne et son inverse pour tous les échantillons d'entraînement et paramètres, la rendant peu pratique pour les modèles à grande échelle et les scénarios impliquant des demandes fréquentes de suppression de données. Cela met en lumière la difficulté d'oublier. Inspiré par les sciences cognitives, qui suggèrent que mémoriser est plus facile qu'oublier, cet article établit un lien théorique entre la mémorisation (apprentissage incrémental) et l'oubli (désapprentissage). Cette connexion permet d'aborder le désapprentissage automatique sous l'angle de l'apprentissage incrémental. Contrairement aux calculs hessiens chronophages dans le désapprentissage (oubli), l'apprentissage incrémental (mémorisation) repose généralement sur une optimisation par gradient plus efficace, ce qui soutient la théorie cognitive mentionnée. Sur la base de cette connexion, nous introduisons l'algorithme Influence Approximation Unlearning (IAU) pour un désapprentissage efficace du point de vue incrémental. Des évaluations empiriques approfondies démontrent qu'IAU atteint un équilibre supérieur entre garantie de suppression, efficacité de désapprentissage et utilité comparable du modèle, tout en surpassant les méthodes de pointe sur divers ensembles de données et architectures de modèles. Notre code est disponible à l'adresse https://github.com/Lolo1222/IAU.