Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le raisonnement est au cœur de l'intelligence, façonnant la capacité à prendre des décisions, tirer des conclusions et généraliser à travers différents domaines. En intelligence artificielle, alors que les systèmes opèrent de plus en plus dans des environnements ouverts, incertains et multimodaux, le raisonnement devient essentiel pour permettre des comportements robustes et adaptatifs. Les modèles de raisonnement multimodal à grande échelle (LMRMs) ont émergé comme un paradigme prometteur, intégrant des modalités telles que le texte, les images, l'audio et la vidéo pour soutenir des capacités de raisonnement complexes, visant à atteindre une perception globale, une compréhension précise et un raisonnement approfondi. À mesure que la recherche progresse, le raisonnement multimodal a rapidement évolué, passant de pipelines modulaires et pilotés par la perception à des frameworks unifiés et centrés sur le langage, offrant une compréhension intermodale plus cohérente. Bien que le réglage par instruction et l'apprentissage par renforcement aient amélioré le raisonnement des modèles, des défis importants subsistent en matière de généralisation omni-modale, de profondeur de raisonnement et de comportement agentique. Pour aborder ces problèmes, nous présentons une étude approfondie et structurée de la recherche sur le raisonnement multimodal, organisée autour d'une feuille de route développementale en quatre étapes qui reflète l'évolution des philosophies de conception et des capacités émergentes du domaine. Tout d'abord, nous passons en revue les premières approches basées sur des modules spécifiques à des tâches, où le raisonnement était implicitement intégré à travers les étapes de représentation, d'alignement et de fusion. Ensuite, nous examinons les approches récentes qui unifient le raisonnement dans des LLMs multimodaux, avec des avancées telles que la Chaîne de Pensée Multimodale (MCoT) et l'apprentissage par renforcement multimodal, permettant des chaînes de raisonnement plus riches et structurées. Enfin, en nous appuyant sur des insights empiriques provenant de benchmarks exigeants et de cas expérimentaux comme OpenAI O3 et O4-mini, nous discutons de la direction conceptuelle des modèles natifs de raisonnement multimodal à grande échelle (N-LMRMs), qui visent à soutenir un raisonnement et une planification évolutifs, agentiques et adaptatifs dans des environnements complexes et réels.
Nous proposons Flow-GRPO, la première méthode intégrant l'apprentissage par renforcement en ligne (RL) dans les modèles de correspondance de flux. Notre approche utilise deux stratégies clés : (1) une conversion ODE-to-SDE qui transforme une équation différentielle ordinaire (ODE) déterministe en une équation différentielle stochastique (SDE) équivalente, correspondant à la distribution marginale du modèle original à tous les pas de temps, permettant ainsi un échantillonnage statistique pour l'exploration en RL ; et (2) une stratégie de réduction de bruit qui diminue les étapes de débruitage pendant l'entraînement tout en conservant le nombre de pas de temps d'inférence original, améliorant significativement l'efficacité d'échantillonnage sans dégradation des performances. Empiriquement, Flow-GRPO s'avère efficace pour plusieurs tâches de génération d'images à partir de texte. Pour des compositions complexes, SD3.5 ajusté par RL génère des comptes d'objets, des relations spatiales et des attributs fins presque parfaits, augmentant la précision de GenEval de 63 % à 95 %. Dans le rendu de texte visuel, sa précision passe de 59 % à 92 %, améliorant considérablement la génération de texte. Flow-GRPO réalise également des gains substantiels en termes d'alignement avec les préférences humaines. Notamment, peu ou pas de détournement de récompense n'a été observé, ce qui signifie que les récompenses n'ont pas augmenté au détriment de la qualité ou de la diversité des images, et ces deux aspects sont restés stables dans nos expériences.
Nous présentons LegoGPT, la première approche permettant de générer des modèles de briques LEGO physiquement stables à partir de prompts textuels. Pour y parvenir, nous construisons un jeu de données à grande échelle de conceptions LEGO physiquement stables, accompagnées de leurs légendes associées, et nous entraînons un modèle de langage autoregressif de grande taille à prédire la prochaine brique à ajouter via la prédiction du token suivant. Pour améliorer la stabilité des conceptions résultantes, nous utilisons une vérification d'efficacité et un retour en arrière prenant en compte la physique lors de l'inférence autoregressive, ce qui élimine les prédictions de tokens irréalisables en utilisant les lois de la physique et les contraintes d'assemblage. Nos expériences montrent que LegoGPT produit des conceptions LEGO stables, diversifiées et esthétiquement plaisantes, qui s'alignent étroitement avec les prompts textuels d'entrée. Nous développons également une méthode de texturation LEGO basée sur le texte pour générer des designs colorés et texturés. Nous démontrons que nos conceptions peuvent être assemblées manuellement par des humains et automatiquement par des bras robotiques. Nous publions également notre nouveau jeu de données, StableText2Lego, contenant plus de 47 000 structures LEGO de plus de 28 000 objets 3D uniques accompagnés de légendes détaillées, ainsi que notre code et nos modèles sur le site web du projet : https://avalovelace1.github.io/LegoGPT/.
Évaluer dans quelle mesure un grand modèle de langage (LLM) comprend l'humain, plutôt que simplement le texte, reste un défi ouvert. Pour combler cet écart, nous introduisons Sentient Agent as a Judge (SAGE), un cadre d'évaluation automatisé qui mesure la cognition sociale d'ordre supérieur d'un LLM. SAGE instancie un agent sentient qui simule des changements émotionnels et des pensées intérieures semblables à ceux d'un humain lors d'une interaction, offrant ainsi une évaluation plus réaliste du modèle testé dans des conversations à plusieurs tours. À chaque tour, l'agent raisonne sur (i) comment son émotion évolue, (ii) ce qu'il ressent, et (iii) comment il devrait répondre, produisant une trajectoire émotionnelle numérique et des pensées intérieures interprétables. Des expériences sur 100 scénarios de dialogues de soutien montrent que le score émotionnel Sentient final corrèle fortement avec les évaluations de l'Inventaire de Relation Barrett-Lennard (BLRI) et les métriques d'empathie au niveau des énoncés, validant ainsi la fidélité psychologique. Nous construisons également un classement public Sentient Leaderboard couvrant 18 modèles commerciaux et open-source, révélant des écarts substantiels (jusqu'à 4x) entre les systèmes de pointe (GPT-4o-Latest, Gemini2.5-Pro) et les modèles de référence antérieurs, écarts non reflétés dans les classements conventionnels (par exemple, Arena). SAGE fournit ainsi un outil princié, scalable et interprétable pour suivre les progrès vers des agents de langage véritablement empathiques et socialement compétents.
Les grands modèles de raisonnement (LRM) ont réalisé des progrès remarquables sur des tâches complexes en générant des chaînes de pensée (CoT) étendues. Cependant, leurs longueurs de sortie non contrôlées posent des défis importants pour un déploiement en conditions réelles, où les budgets en termes de tokens, de latence ou de calcul au moment de l'inférence sont strictement limités. Nous proposons le Raisonnement Élastique, un cadre novateur pour des chaînes de pensée scalables qui sépare explicitement le raisonnement en deux phases—pensée et solution—avec des budgets alloués de manière indépendante. Au moment du test, le Raisonnement Élastique priorise l'exhaustivité des segments de solution, améliorant significativement la fiabilité sous des contraintes de ressources strictes. Pour entraîner des modèles robustes à une pensée tronquée, nous introduisons une stratégie légère de déploiement sous contrainte budgétaire, intégrée à GRPO, qui enseigne au modèle à raisonner de manière adaptative lorsque le processus de pensée est interrompu et généralise efficacement à des contraintes budgétaires inédites sans entraînement supplémentaire. Les résultats empiriques sur des benchmarks mathématiques (AIME, MATH500) et de programmation (LiveCodeBench, Codeforces) démontrent que le Raisonnement Élastique performe de manière robuste sous des contraintes budgétaires strictes, tout en engendrant des coûts d'entraînement significativement plus faibles que les méthodes de référence. De manière remarquable, notre approche produit également un raisonnement plus concis et efficace même dans des contextes sans contraintes. Le Raisonnement Élastique offre une solution à la fois théorique et pratique au défi pressant du raisonnement contrôlable à grande échelle.
La génération de scènes 3D vise à synthétiser des environnements spatialement structurés, sémantiquement significatifs et photoréalistes pour des applications telles que les médias immersifs, la robotique, la conduite autonome et l'IA incarnée. Les premières méthodes basées sur des règles procédurales offraient une évolutivité mais une diversité limitée. Les récents progrès dans les modèles génératifs profonds (par exemple, les GAN, les modèles de diffusion) et les représentations 3D (par exemple, NeRF, les gaussiennes 3D) ont permis l'apprentissage des distributions de scènes du monde réel, améliorant ainsi la fidélité, la diversité et la cohérence des vues. Les avancées récentes comme les modèles de diffusion relient la synthèse de scènes 3D et le photoréalisme en reformulant la génération comme des problèmes de synthèse d'images ou de vidéos. Cette étude fournit un aperçu systématique des approches de pointe, les organisant en quatre paradigmes : la génération procédurale, la génération basée sur des réseaux neuronaux 3D, la génération basée sur des images et la génération basée sur des vidéos. Nous analysons leurs fondements techniques, les compromis et les résultats représentatifs, et passons en revue les ensembles de données couramment utilisés, les protocoles d'évaluation et les applications en aval. Nous concluons en discutant des défis clés en matière de capacité de génération, de représentation 3D, de données et d'annotations, et d'évaluation, et en esquissant des directions prometteuses incluant une fidélité accrue, une génération interactive et consciente de la physique, et des modèles unifiés de perception-génération. Cette revue organise les avancées récentes dans la génération de scènes 3D et met en lumière des directions prometteuses à l'intersection de l'IA générative, de la vision 3D et de l'intelligence incarnée. Pour suivre les développements en cours, nous maintenons une page de projet à jour : https://github.com/hzxie/Awesome-3D-Scene-Generation.
Le pré-entraînement contrastif langue-image (CLIP) excelle dans les tâches multimodales telles que la recherche image-texte et la classification zero-shot, mais peine à comprendre les détails fins en raison de son accent sur des légendes courtes et grossières. Pour remédier à cela, nous proposons Fine-Grained CLIP (FG-CLIP), qui améliore la compréhension fine grâce à trois innovations clés. Premièrement, nous exploitons des modèles multimodaux de grande envergure pour générer 1,6 milliard de paires légende-image longues afin de capturer des détails sémantiques au niveau global. Deuxièmement, un ensemble de données de haute qualité est construit avec 12 millions d'images et 40 millions de boîtes englobantes spécifiques à des régions, alignées avec des légendes détaillées pour garantir des représentations précises et riches en contexte. Troisièmement, 10 millions d'échantillons négatifs difficiles et fins sont intégrés pour améliorer la capacité du modèle à distinguer des différences sémantiques subtiles. Des méthodes d'entraînement correspondantes sont soigneusement conçues pour ces données. Des expériences approfondies démontrent que FG-CLIP surpasse le CLIP original et d'autres méthodes de pointe dans diverses tâches en aval, y compris la compréhension fine, la détection d'objets à vocabulaire ouvert, la recherche image-texte et des benchmarks multimodaux généraux. Ces résultats mettent en évidence l'efficacité de FG-CLIP à capturer les détails fins des images et à améliorer les performances globales du modèle. Les données, le code et les modèles associés sont disponibles à l'adresse https://github.com/360CVGroup/FG-CLIP.
Les modèles propriétaires récents (par exemple, o3) ont commencé à démontrer de solides capacités de raisonnement multimodal. Pourtant, la plupart des recherches open-source existantes se concentrent sur l'entraînement de modèles de raisonnement basés uniquement sur le texte, avec des évaluations limitées principalement à des tâches mathématiques et généralistes. Par conséquent, il reste incertain comment étendre efficacement les capacités de raisonnement au-delà des entrées textuelles et des domaines généraux. Cet article explore une question de recherche fondamentale : Le raisonnement est-il généralisable à travers les modalités et les domaines ? Nos résultats soutiennent une réponse affirmative : Un post-entraînement basé sur du texte généraliste peut permettre un tel raisonnement fortement généralisable. En tirant parti de cette découverte, nous introduisons X-Reasoner, un modèle vision-langage post-entraîné uniquement sur du texte généraliste pour un raisonnement généralisable, en utilisant une approche en deux étapes : une phase initiale de fine-tuning supervisé avec des chaînes de pensée longues distillées, suivie d'un apprentissage par renforcement avec des récompenses vérifiables. Les expériences montrent que X-Reasoner transfère avec succès ses capacités de raisonnement à des contextes multimodaux et hors domaine, surpassant les modèles de pointe existants entraînés avec des données intra-domaines et multimodales sur divers benchmarks généraux et médicaux (Figure 1). De plus, nous constatons que la performance de X-Reasoner dans des domaines spécialisés peut être encore améliorée par un entraînement continu sur des données textuelles spécifiques au domaine. Sur cette base, nous introduisons X-Reasoner-Med, une variante spécialisée en médecine qui établit un nouvel état de l'art sur de nombreux benchmarks médicaux textuels et multimodaux.
Nous présentons StreamBridge, un cadre simple mais efficace qui transforme de manière fluide les modèles Video-LLM hors ligne en modèles capables de fonctionner en streaming. Il aborde deux défis fondamentaux dans l'adaptation des modèles existants aux scénarios en ligne : (1) une capacité limitée pour la compréhension en temps réel sur plusieurs tours, et (2) un manque de mécanismes de réponse proactive. Plus précisément, StreamBridge intègre (1) un tampon mémoire combiné à une stratégie de compression à décroissance circulaire, supportant des interactions à contexte long sur plusieurs tours, et (2) un modèle d'activation léger et découplé qui peut être intégré sans effort dans les Video-LLM existants, permettant des réponses proactives continues. Pour soutenir davantage StreamBridge, nous avons construit Stream-IT, un jeu de données à grande échelle conçu pour la compréhension de vidéos en streaming, comportant des séquences entrelacées de vidéo et de texte ainsi que divers formats d'instructions. Des expériences approfondies montrent que StreamBridge améliore significativement les capacités de compréhension en streaming des Video-LLM hors ligne sur diverses tâches, surpassant même des modèles propriétaires tels que GPT-4o et Gemini 1.5 Pro. Parallèlement, il atteint des performances compétitives ou supérieures sur les benchmarks standards de compréhension vidéo.
Nous introduisons la nouvelle tâche du Placement d'Objets Guidé par le Langage dans des Scènes 3D Réelles. Notre modèle reçoit un nuage de points d'une scène 3D, un asset 3D, et une instruction textuelle décrivant de manière générale où l'asset 3D devrait être placé. La tâche consiste ici à trouver un placement valide pour l'asset 3D qui respecte l'instruction. Comparée à d'autres tâches de localisation guidée par le langage dans des scènes 3D, comme l'ancrage, cette tâche présente des défis spécifiques : elle est ambiguë car elle admet plusieurs solutions valides, et elle nécessite un raisonnement sur les relations géométriques 3D et l'espace libre. Nous inaugurons cette tâche en proposant un nouveau benchmark et un protocole d'évaluation. Nous introduisons également un nouveau jeu de données pour entraîner des modèles de langage 3D sur cette tâche, ainsi que la première méthode servant de base de référence non triviale. Nous pensons que cette tâche exigeante et notre nouveau benchmark pourraient s'intégrer à la suite de benchmarks utilisés pour évaluer et comparer les modèles de langage 3D généralistes.
Les méthodes prédominantes d'apprentissage par renforcement (RL) pour le réglage fin de raisonneurs LLM, telles que GRPO ou Leave-one-out PPO, abandonnent la fonction de valeur apprise au profit de retours estimés empiriquement. Cela entrave la mise à l'échelle des calculs au moment du test qui repose sur l'utilisation de la fonction de valeur pour la vérification. Dans ce travail, nous proposons RL^V, qui améliore toute méthode RL « sans valeur » en entraînant conjointement le LLM comme raisonneur et vérificateur génératif à l'aide de données générées par RL, ajoutant ainsi des capacités de vérification sans surcharge significative. Empiriquement, RL^V améliore la précision sur MATH de plus de 20 % avec un échantillonnage parallèle et permet une mise à l'échelle des calculs au moment du test 8 à 32 fois plus efficace que la méthode RL de base. RL^V montre également de solides capacités de généralisation pour les tâches faciles à difficiles et hors domaine. De plus, RL^V atteint une performance 1,2 à 1,6 fois supérieure lors de la mise à l'échelle conjointe des calculs parallèles et séquentiels au moment du test avec un modèle de raisonnement long R1.
La sélection des données pour l'ajustement des instructions est essentielle pour améliorer les performances des grands modèles de langage (LLMs) et réduire les coûts d'entraînement. Cependant, les méthodes de sélection automatisées existantes dépendent soit de mesures basées sur le gradient, coûteuses en calcul, soit d'heuristiques conçues manuellement, qui peuvent ne pas exploiter pleinement les attributs intrinsèques des données. Dans cet article, nous proposons In-context Learning for Contribution Measurement (ICon), une nouvelle méthode sans gradient qui tire parti de la nature implicite de l'ajustement fin par apprentissage en contexte (ICL) pour mesurer la contribution des échantillons sans calcul de gradient ni conception manuelle d'indicateurs. ICon offre une alternative efficace sur le plan computationnel aux méthodes basées sur le gradient et réduit le biais inductif humain inhérent aux approches heuristiques. ICon se compose de trois éléments et identifie les données à forte contribution en évaluant les variations de performance sous l'apprentissage implicite via l'ICL. Des expériences approfondies sur trois LLMs à travers 12 benchmarks et 5 ensembles d'évaluation par paires démontrent l'efficacité d'ICon. De manière remarquable, sur LLaMA3.1-8B, les modèles entraînés sur 15 % des données sélectionnées par ICon surpassent les ensembles de données complets de 5,42 points de pourcentage et dépassent la meilleure performance des méthodes de sélection largement utilisées de 2,06 points de pourcentage. Nous analysons en outre les échantillons à forte contribution sélectionnés par ICon, qui montrent à la fois des tâches variées et des niveaux de difficulté appropriés, plutôt que seulement les plus difficiles.
Les capacités de raisonnement des grands modèles de langage sont principalement étudiées pour l'anglais, même lorsque les modèles pré-entraînés sont multilingues. Dans ce travail, nous examinons dans quelle mesure le fine-tuning du raisonnement en anglais avec de longues chaînes de pensée (CoTs) peut se généraliser à travers les langues. Premièrement, nous constatons que l'augmentation des ressources de calcul pour l'inférence des modèles de raisonnement linguistique (RLMs) centrés sur l'anglais améliore le raisonnement mathématique multilingue dans de nombreuses langues, y compris les langues à faibles ressources, à un point où ils surpassent des modèles deux fois plus grands. Deuxièmement, nous révélons que bien que les CoTs des RLMs centrés sur l'anglais soient naturellement majoritairement en anglais, ils suivent systématiquement un modèle de citation et de réflexion pour raisonner sur des entrées non anglaises citées. Troisièmement, nous découvrons une stratégie efficace pour contrôler la langue des longues chaînes de pensée, et nous observons que les modèles raisonnent mieux et plus efficacement dans les langues à ressources élevées. Enfin, nous observons une faible généralisation du raisonnement hors domaine, en particulier des STEM aux connaissances de bon sens culturel, même pour l'anglais. Globalement, nous démontrons les potentiels, étudions les mécanismes et décrivons les limites de la généralisation translinguale du scaling au moment du test de raisonnement en anglais. Nous concluons que les praticiens devraient laisser les RLMs centrés sur l'anglais raisonner dans les langues à ressources élevées, tout en nécessitant des travaux supplémentaires pour améliorer le raisonnement dans les langues à faibles ressources et les contextes hors domaine.
Le désapprentissage des grands modèles de langage (LLM) est crucial dans les applications réelles où il est nécessaire de supprimer efficacement l'influence de données privées, protégées par le droit d'auteur ou nuisibles provenant de certains utilisateurs. Cependant, les métriques de désapprentissage existantes axées sur l'utilité (basées sur l'utilité du modèle) peuvent échouer à évaluer avec précision l'étendue du désapprentissage dans des scénarios réalistes, tels que lorsque (a) les ensembles de données à oublier et à conserver ont un contenu sémantiquement similaire, (b) le réentraînement du modèle à partir de zéro sur l'ensemble à conserver est impraticable, et/ou (c) le propriétaire du modèle peut améliorer la métrique de désapprentissage sans effectuer directement le désapprentissage sur le LLM. Cet article présente la première métrique de désapprentissage centrée sur les données pour les LLM, appelée WaterDrum, qui exploite le tatouage robuste de texte pour surmonter ces limitations. Nous introduisons également de nouveaux ensembles de données de référence pour le désapprentissage des LLM, contenant différents niveaux de points de données similaires, et pouvant être utilisés pour évaluer rigoureusement les algorithmes de désapprentissage avec WaterDrum. Notre code est disponible à l'adresse https://github.com/lululu008/WaterDrum et nos nouveaux ensembles de données de référence sont publiés à l'adresse https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
La méthode de chaîne de pensées (Chain-of-Thoughts, CoT) nécessite que les grands modèles de langage (LLMs) génèrent des étapes intermédiaires avant d'arriver à la réponse finale, et s'est avérée efficace pour aider les LLMs à résoudre des tâches de raisonnement complexes. Cependant, le mécanisme interne de la CoT reste largement méconnu. Dans cet article, nous étudions empiriquement le rôle des tokens de CoT dans les LLMs sur deux tâches compositionnelles : la multiplication de nombres à plusieurs chiffres et la programmation dynamique. Bien que la CoT soit essentielle pour résoudre ces problèmes, nous constatons que la conservation uniquement des tokens qui stockent les résultats intermédiaires permet d'obtenir des performances comparables. De plus, nous observons que le stockage des résultats intermédiaires sous une forme latente alternative n'affecte pas les performances du modèle. Nous intervenons également de manière aléatoire sur certaines valeurs dans la CoT, et remarquons que les tokens de CoT suivants ainsi que la réponse finale changent en conséquence. Ces résultats suggèrent que les tokens de CoT pourraient fonctionner comme des variables dans les programmes informatiques, mais avec des inconvénients potentiels tels que des raccourcis involontaires et des limites de complexité computationnelle entre les tokens. Le code et les données sont disponibles à l'adresse https://github.com/solitaryzero/CoTs_are_Variables.
Les modèles Vision-Langage-Action (VLA) représentent une avancée transformative dans le domaine de l'intelligence artificielle, visant à unifier la perception, la compréhension du langage naturel et l'action incarnée au sein d'un même cadre computationnel. Cette revue fondamentale présente une synthèse exhaustive des récents progrès dans les modèles VLA, systématiquement organisée autour de cinq piliers thématiques qui structurent le paysage de ce domaine en évolution rapide. Nous commençons par établir les fondements conceptuels des systèmes VLA, retraçant leur évolution depuis les architectures d'apprentissage intermodal jusqu'aux agents généralistes qui intègrent étroitement les modèles vision-langage (VLM), les planificateurs d'actions et les contrôleurs hiérarchiques. Notre méthodologie adopte un cadre rigoureux de revue de la littérature, couvrant plus de 80 modèles VLA publiés au cours des trois dernières années. Les domaines clés de progrès incluent les innovations architecturales, les stratégies d'entraînement à paramètres efficaces et les accélérations d'inférence en temps réel. Nous explorons divers domaines d'application tels que la robotique humanoïde, les véhicules autonomes, la robotique médicale et industrielle, l'agriculture de précision et la navigation en réalité augmentée. La revue aborde également les principaux défis liés au contrôle en temps réel, à la représentation multimodale des actions, à l'évolutivité des systèmes, à la généralisation à des tâches inédites et aux risques éthiques de déploiement. En nous appuyant sur l'état de l'art, nous proposons des solutions ciblées, notamment l'adaptation de l'IA agentique, la généralisation inter-embodiment et la planification neuro-symbolique unifiée. Dans notre discussion prospective, nous esquissons une feuille de route future où les modèles VLA, les VLM et l'IA agentique convergent pour alimenter des agents incarnés socialement alignés, adaptatifs et polyvalents. Ce travail sert de référence fondamentale pour faire progresser la robotique intelligente en contexte réel et l'intelligence artificielle générale. >Vision-langage-action, IA agentique, Agents IA, Modèles vision-langage
La correspondance robuste et efficace de caractéristiques locales joue un rôle crucial dans des applications telles que la localisation et cartographie simultanées (SLAM) et la localisation visuelle pour la robotique. Malgré des progrès significatifs, il reste très difficile d'extraire des caractéristiques visuelles robustes et discriminatives dans des scénarios présentant des changements d'éclairage drastiques, des zones à faible texture ou des motifs répétitifs. Dans cet article, nous proposons un nouveau réseau léger appelé LiftFeat, qui améliore la robustesse des descripteurs bruts en agrégeant des caractéristiques géométriques 3D. Plus précisément, nous adoptons d'abord un modèle pré-entraîné d'estimation de profondeur monoculaire pour générer des étiquettes pseudo-normales de surface, supervisant ainsi l'extraction des caractéristiques géométriques 3D en termes de normales de surface prédites. Nous concevons ensuite un module de rehaussement de caractéristiques conscient de la géométrie 3D pour fusionner les caractéristiques de normales de surface avec les descripteurs 2D bruts. L'intégration de telles caractéristiques géométriques 3D améliore la capacité discriminative de la description des caractéristiques 2D dans des conditions extrêmes. Les résultats expérimentaux approfondis sur les tâches d'estimation de pose relative, d'estimation d'homographie et de localisation visuelle démontrent que notre LiftFeat surpasse certaines méthodes légères de pointe. Le code sera disponible à l'adresse : https://github.com/lyp-deeplearning/LiftFeat.
L'alignement des modèles de langage avec les préférences humaines repose sur des ensembles de données de préférences par paires. Bien que certaines études suggèrent que les données on-policy surpassent systématiquement les données off-policy pour l'apprentissage des préférences, d'autres indiquent que les avantages des données on-policy peuvent dépendre de la tâche, soulignant la nécessité d'une exploration systématique de leur interaction. Dans ce travail, nous montrons que les données on-policy et off-policy offrent des forces complémentaires dans l'optimisation des préférences : les données on-policy sont particulièrement efficaces pour les tâches de raisonnement comme les mathématiques et le codage, tandis que les données off-policy donnent de meilleurs résultats sur des tâches ouvertes telles que l'écriture créative et les recommandations personnelles. Guidés par ces observations, nous introduisons SIMPLEMIX, une approche qui combine les forces complémentaires de l'apprentissage des préférences on-policy et off-policy en mélangeant simplement ces deux sources de données. Nos résultats empiriques sur diverses tâches et benchmarks démontrent que SIMPLEMIX améliore considérablement l'alignement des modèles de langage. Plus précisément, SIMPLEMIX surpasse les approches DPO on-policy et DPO off-policy de 6,03 % en moyenne sur Alpaca Eval 2.0. De plus, il dépasse les approches antérieures, bien plus complexes dans la combinaison des données on-policy et off-policy, telles que HyPO et DPO-Mix-P, de 3,05 % en moyenne.
Alors que les grands modèles de langage (LLM) évoluent en agents utilisant des outils, la capacité à naviguer sur le web en temps réel est devenue un critère essentiel pour mesurer leurs compétences en raisonnement et en recherche. Les benchmarks existants, tels que BrowseComp, se concentrent sur l'anglais et négligent les complexités linguistiques, infrastructurelles et liées à la censure des autres écosystèmes d'information majeurs — notamment le chinois. Pour combler cette lacune, nous introduisons BrowseComp-ZH, un benchmark de haute difficulté conçu spécifiquement pour évaluer de manière exhaustive les agents LLM sur le web chinois. BrowseComp-ZH comprend 289 questions multi-sauts couvrant 11 domaines divers. Chaque question est rétro-conçue à partir d'une réponse courte, objective et facilement vérifiable (par exemple, une date, un nombre ou un nom propre). Un protocole de contrôle qualité en deux étapes est appliqué pour viser une difficulté élevée des questions et une unicité des réponses. Nous évaluons plus de 20 modèles de langage et systèmes de recherche agentiques de pointe sur notre benchmark BrowseComp-ZH. Malgré leurs solides capacités conversationnelles et de recherche, la plupart des modèles rencontrent de graves difficultés : un grand nombre obtiennent des taux de précision inférieurs à 10 %, et seulement quelques-uns dépassent 20 %. Même le système le plus performant, DeepResearch d'OpenAI, atteint seulement 42,9 %. Ces résultats démontrent la difficulté considérable de BrowseComp-ZH, où le succès exige non seulement des stratégies de recherche efficaces, mais aussi un raisonnement sophistiqué et une réconciliation d'informations — des capacités que les modèles actuels peinent encore à maîtriser. Notre jeu de données, nos directives de construction et nos résultats de benchmark ont été rendus publics à l'adresse https://github.com/PALIN2018/BrowseComp-ZH.