papers.description
La tâche de géolocalisation d'images vise à prédire l'emplacement où une photo a été prise n'importe où sur Terre en utilisant des indices visuels. Les approches existantes basées sur les grands modèles vision-langage (LVLM) exploitent les connaissances mondiales, le raisonnement en chaîne de pensée et les capacités agentielles, mais négligent une stratégie courante utilisée par les humains : l'utilisation de cartes. Dans ce travail, nous dotons d'abord le modèle de la capacité de réflexion avec des cartes et la formulons comme une boucle agent-dans-la-carte. Nous développons un schéma d'optimisation en deux étapes, incluant un apprentissage par renforcement agentiel suivi d'une mise à l'échelle parallèle au moment du test. Le renforcement apprentissage renforce la capacité agentielle du modèle pour améliorer l'efficacité de l'échantillonnage, et la mise à l'échelle parallèle permet au modèle d'explorer plusieurs chemins candidats avant de faire la prédiction finale, ce qui est crucial pour la géolocalisation. Pour évaluer notre méthode sur des images récentes et non contrôlées, nous présentons en outre MAPBench, un benchmark complet d'entraînement et d'évaluation en géolocalisation composé entièrement d'images du monde réel. Les résultats expérimentaux montrent que notre méthode surpasse les modèles open source et propriétaires existants sur la plupart des métriques, améliorant spécifiquement Acc@500m de 8,0 % à 22,1 % par rapport à Gemini-3-Pro avec le mode ancré Google Search/Map.
L'autoformalisation, qui traduit les mathématiques en langage naturel en énoncés formels pour permettre le raisonnement machine, est confrontée à des défis fondamentaux dans des conditions réelles en raison de la nature multimodale du monde physique, où la physique nécessite d'inférer des contraintes cachées (par exemple, la masse ou l'énergie) à partir d'éléments visuels. Pour y remédier, nous proposons MMFormalizer, qui étend l'autoformalisation au-delà du texte en intégrant un ancrage adaptatif avec des entités issues des domaines mathématiques et physiques du monde réel. MMFormalizer construit récursivement des propositions formelles à partir de primitives ancrées perceptuellement via un ancrage récursif et une composition d'axiomes, avec une terminaison récursive adaptative garantissant que chaque abstraction est étayée par des preuves visuelles et ancrée dans un fondement dimensionnel ou axiomatique. Nous évaluons MMFormalizer sur un nouveau benchmark, PhyX-AF, comprenant 115 échantillons sélectionnés issus de MathVerse, PhyX, Géométrie Synthétique et Géométrie Analytique, couvrant diverses tâches d'autoformalisation multimodale. Les résultats montrent que les modèles de pointe tels que GPT-5 et Gemini-3-Pro atteignent la plus haute exactitude de compilation et sémantique, GPT-5 excellant dans le raisonnement physique, tandis que la géométrie reste le domaine le plus difficile. Globalement, MMFormalizer fournit un cadre évolutif pour une autoformalisation multimodale unifiée, faisant le lien entre la perception et le raisonnement formel. À notre connaissance, il s'agit de la première méthode d'autoformalisation multimodale capable de traiter la mécanique classique (dérivée du Hamiltonien), ainsi que la relativité, la mécanique quantique et la thermodynamique. Plus de détails sont disponibles sur notre page projet : MMFormalizer.github.io
Dans ce rapport, nous présentons les séries de modèles Qwen3-VL-Embedding et Qwen3-VL-Reranker, les dernières extensions de la famille Qwen construites sur le modèle de base Qwen3-VL. Ensemble, elles fournissent un pipeline de bout en bout pour la recherche multimodale de haute précision en projetant des modalités diverses, incluant le texte, les images, les images de documents et la vidéo, dans un espace de représentation unifié. Le modèle Qwen3-VL-Embedding utilise un paradigme d'entraînement multi-étapes, progressant d'un pré-entraînement contrastif à grande échelle vers une distillation de modèle de reranking, pour générer des vecteurs haute dimension sémantiquement riches. Il prend en charge l'apprentissage de représentations Matriochka (Matryoshka Representation Learning), permettant des dimensions d'embedding flexibles, et gère des entrées allant jusqu'à 32k tokens. En complément, Qwen3-VL-Reranker effectue une estimation de la pertinence fine pour des paires requête-document en utilisant une architecture cross-encoder avec des mécanismes d'attention croisée (cross-attention). Les deux séries de modèles héritent des capacités multilingues de Qwen3-VL, prenant en charge plus de 30 langues, et sont publiées en tailles de 2B et 8B de paramètres pour répondre à divers besoins de déploiement. Les évaluations empiriques démontrent que la série Qwen3-VL-Embedding obtient des résultats de pointe sur divers benchmarks d'évaluation d'embedding multimodaux. Spécifiquement, Qwen3-VL-Embedding-8B atteint un score global de 77.8 sur MMEB-V2, se classant première parmi tous les modèles (au 8 janvier 2025). Ce rapport présente l'architecture, la méthodologie d'entraînement et les capacités pratiques de la série, démontrant leur efficacité sur diverses tâches de recherche multimodale, incluant la recherche image-texte, la réponse visuelle à des questions et l'appariement vidéo-texte.
Nous présentons un cadre de caricaturisation 3D photoréaliste et contrôlable pour les visages. Nous commençons par une technique d'exagération de surface basée sur la courbure gaussienne intrinsèque, qui, lorsqu'elle est couplée à la texture, a tendance à produire des rendus excessivement lissés. Pour résoudre ce problème, nous avons recours au *3D Gaussian Splatting* (3DGS), qui s'est récemment révélé capable de produire des avatars réalistes en vue libre. À partir d'une séquence multivue, nous extrayons un maillage FLAME, résolvons une équation de Poisson pondérée par la courbure et obtenons sa forme exagérée. Cependant, la déformation directe des Gaussiennes donne des résultats médiocres, ce qui nécessite la synthèse d'images caricaturales pseudo *ground-truth* en déformant chaque image vers sa représentation 2D exagérée à l'aide de transformations affines locales. Nous concevons ensuite un schéma d'apprentissage qui alterne la supervision sur des données réelles et synthétisées, permettant à une unique collection de Gaussiennes de représenter à la fois des avatars naturels et exagérés. Cette approche améliore la fidélité, prend en charge les modifications locales et permet un contrôle continu de l'intensité de la caricature. Afin d'obtenir des déformations en temps réel, une interpolation efficace entre les surfaces originale et exagérée est introduite. Nous analysons et montrons en outre que son écart par rapport aux solutions de forme fermée est borné. Lors d'évaluations quantitatives et qualitatives, nos résultats surpassent les travaux antérieurs, produisant des avatars caricaturaux photoréalistes et contrôlés par la géométrie.
Les grands modèles de langage (LLM) échouent souvent à acquérir un raisonnement efficace en chaîne de pensée longue (Long CoT) par imitation d'humains ou de LLM non spécialisés. Pour comprendre ce phénomène, nous proposons que les trajectoires Long CoT efficaces et apprenables présentent des structures moléculaires stables dans une vision unifiée, formées par trois types d'interactions : raisonnement profond (de type liaison covalente), auto-réflexion (de type liaison hydrogène) et auto-exploration (de type van der Waals). L'analyse des trajectoires distillées révèle que ces structures émergent du fine-tuning Long CoT, et non d'une imitation de mots-clés. Nous introduisons la notion d'isomères sémantiques efficaces et montrons que seules les liaisons favorisant une convergence rapide de l'entropie soutiennent un apprentissage Long CoT stable, tandis que la compétition structurelle nuit à l'entraînement. Forts de ces résultats, nous présentons Mole-Syn, une méthode par graphe de transfert de distribution qui guide la synthèse de structures Long CoT efficaces, améliorant les performances et la stabilité de l'apprentissage par renforcement sur divers benchmarks.
L'apprentissage par renforcement (RL) est devenu une technique essentielle pour améliorer les agents de recherche approfondie basés sur les LLM. Cependant, les approches existantes reposent principalement sur des récompenses binaires basées sur le résultat, qui ne parviennent pas à capturer l'exhaustivité et la factualité du processus de raisonnement des agents, et conduisent souvent à des comportements indésirables tels que l'exploitation de raccourcis et les hallucinations. Pour remédier à ces limitations, nous proposons Citation-aware Rubric Rewards (CaRR), un cadre de récompenses à granularité fine pour les agents de recherche approfondie qui met l'accent sur l'exhaustivité du raisonnement, l'ancrage factuel et la connectivité des preuves. CaRR décompose les questions complexes en rubriques vérifiables à saut unique et exige que les agents satisfassent ces rubriques en identifiant explicitement les entités cachées, en les étayant avec des citations correctes et en construisant des chaînes de preuves complètes liées à la réponse prédite. Nous introduisons également Citation-aware Group Relative Policy Optimization (C-GRPO), qui combine CaRR et les récompenses basées sur le résultat pour entraîner des agents de recherche approfondie robustes. Les expériences montrent que C-GRPO surpasse constamment les méthodes de référence RL standard basées sur le résultat sur plusieurs benchmarks de recherche approfondie. Notre analyse valide également que C-GRPO décourage efficacement l'exploitation de raccourcis, favorise un raisonnement exhaustif et fondé sur des preuves, et présente une forte généralisation aux tâches de recherche approfondie ouvertes. Notre code et nos données sont disponibles à l'adresse https://github.com/THUDM/CaRR.
On s'attend à ce que les grands modèles de langage (LLM) soient entraînés à agir comme agents dans divers environnements réels, mais ce processus repose sur des bacs à sable d'interaction avec des outils riches et variés. Cependant, l'accès aux systèmes réels est souvent restreint ; les environnements simulés par LLM sont sujets aux hallucinations et aux incohérences ; et les bacs à sable construits manuellement sont difficiles à mettre à l'échelle. Dans cet article, nous proposons EnvScaler, un cadre automatisé pour des environnements d'interaction avec des outils évolutifs via la synthèse programmatique. EnvScaler comprend deux composants. Premièrement, SkelBuilder construit des squelettes d'environnement diversifiés par le biais de l'extraction de thèmes, de la modélisation logique et de l'évaluation de la qualité. Ensuite, ScenGenerator génère de multiples scénarios de tâches et des fonctions de validation de trajectoire basées sur des règles pour chaque environnement. Avec EnvScaler, nous synthétisons 191 environnements et environ 7 000 scénarios, et nous les appliquons au Fine-Tuning Supervisé (SFT) et à l'Apprentissage par Renforcement (RL) pour les modèles de la série Qwen3. Les résultats sur trois benchmarks montrent qu'EnvScaler améliore significativement la capacité des LLM à résoudre des tâches dans des environnements complexes impliquant des interactions multi-tours et multi-outils. Nous publions notre code et nos données à l'adresse https://github.com/RUC-NLPIR/EnvScaler.
Les récents progrès des grands modèles de langage (LLM) permettent le développement de systèmes agentiques entraînés par apprentissage par renforcement (RL) sur des trajectoires d'interaction multi-tours, mais leur déploiement pratique est limité par la croissance rapide des historiques textuels qui gonflent les budgets de tokens et l'utilisation de la mémoire. Nous présentons AgentOCR, un cadre qui exploite la densité informationnelle supérieure des tokens visuels en représentant l'historique cumulé des observations-actions sous forme d'une image rendue compacte. Pour rendre les déploiements multi-tours évolutifs, AgentOCR propose la mise en cache optique par segments. En décomposant l'historique en segments hachables et en maintenant un cache visuel, ce mécanisme élimine le re-rendu redondant. Au-delà du rendu fixe, AgentOCR introduit l'auto-compression agentique, où l'agent émet activement un taux de compression et est entraîné avec une récompense sensible à la compression pour équilibrer de manière adaptive la réussite de la tâche et l'efficacité des tokens. Nous menons des expériences approfondies sur des benchmarks agentiques exigeants, ALFWorld et les questions-réponses basées sur la recherche. De manière remarquable, les résultats démontrent qu'AgentOCR préserve plus de 95 % des performances des agents basés sur le texte tout en réduisant substantiellement la consommation de tokens (>50 %), offrant ainsi une efficacité constante en tokens et en mémoire. Notre analyse approfondie valide une accélération du rendu de 20x grâce à la mise en cache optique par segments et l'équilibrage stratégique efficace de l'auto-compression.
Les agents autonomes d'apprentissage automatique ont révolutionné la découverte scientifique, mais ils restent contraints par un paradigme de Génération-Exécution-Rétroaction. Les approches antérieures souffrent d'un goulot d'étranglement sévère lors de l'exécution, car l'évaluation des hypothèses dépend strictement d'une exécution physique coûteuse. Pour contourner ces contraintes physiques, nous internalisons des connaissances a priori d'exécution afin de substituer aux vérifications runtime onéreuses un raisonnement prédictif instantané, en nous inspirant des modèles du monde. Dans ce travail, nous formalisons la tâche de Préférence de Solution Centrée sur les Données et construisons un corpus exhaustif de 18 438 comparaisons par paires. Nous démontrons que les grands modèles de langage présentent des capacités prédictives significatives lorsqu'ils sont amorcés avec un Rapport d'Analyse de Données Vérifié, atteignant une précision de 61,5 % et une calibration robuste de la confiance. Enfin, nous instancions ce cadre dans FOREAGENT, un agent qui emploie une boucle Prédire-puis-Vérifier, obtenant une accélération par 6 de la convergence tout en surpassant les méthodes de référence basées sur l'exécution de +6 %. Notre code et jeu de données seront bientôt disponibles publiquement à l'adresse https://github.com/zjunlp/predict-before-execute.
Les progrès récents en génération vidéo ont été dominés par les modèles de diffusion et d'appariement de flux, qui produisent des résultats de haute qualité mais restent intensifs en calcul et difficiles à mettre à l'échelle. Dans ce travail, nous présentons VideoAR, le premier cadre autoregressif visuel (VAR) à grande échelle pour la génération vidéo, qui combine une prédiction d'image suivante multi-échelle avec une modélisation autoregressive. VideoAR dissocie les dépendances spatiales et temporelles en intégrant une modélisation VAR intra-image avec une prédiction causale d'image suivante, soutenue par un tokeniseur 3D multi-échelle qui encode efficacement la dynamique spatio-temporelle. Pour améliorer la cohérence à long terme, nous proposons le RoPE temporel multi-échelle, la correction d'erreur inter-images et le masquage aléatoire d'images, qui atténuent collectivement la propagation des erreurs et stabilisent la cohérence temporelle. Notre pipeline de pré-entraînement multi-étapes aligne progressivement l'apprentissage spatial et temporel sur des résolutions et durées croissantes. Empiriquement, VideoAR établit de nouveaux records parmi les modèles autoregressifs, améliorant le FVD sur UCF-101 de 99,5 à 88,6 tout en réduisant les étapes d'inférence de plus de 10 fois, et atteignant un score VBench de 81,74 – compétitif avec des modèles basés sur la diffusion d'un ordre de grandeur plus grands. Ces résultats démontrent que VideoAR réduit l'écart de performance entre les paradigmes autoregressif et diffusionnel, offrant une base évolutive, efficace et temporellement cohérente pour la recherche future en génération vidéo.
Le réglage des préférences aligne les modèles de langage préentraînés sur les jugements humains de qualité, d'utilité ou de sécurité en optimisant des signaux de préférence explicites plutôt que la seule vraisemblance. Des travaux antérieurs ont montré que le réglage des préférences dégrade les performances et réduit l'utilité lors d'évaluations en dehors du domaine d'entraînement. Cependant, la mesure dans laquelle les stratégies d'adaptation atténuent ce décalage de domaine reste inexplorée. Nous relevons ce défi en menant une étude systématique et exhaustive de la généralisation de l'alignement sous décalage de domaine. Nous comparons cinq objectifs d'alignement populaires et diverses stratégies d'adaptation de la source vers la cible, incluant le réglage fin supervisé dans le domaine cible et l'étiquetage pseudo-supervisé, à travers des tâches d'utilité en résumé de texte et en réponse aux questions. Nos résultats révèlent des différences systématiques dans la généralisation entre les objectifs d'alignement sous décalage de domaine. Nous montrons que les stratégies d'adaptation basées sur l'étiquetage pseudo-supervisé peuvent réduire substantiellement la dégradation due au décalage de domaine.
Alors que les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des contextes réels, la seule exactitude des réponses s'avère insuffisante. Un déploiement fiable nécessite le maintien de croyances véridiques face à des perturbations contextuelles. Les évaluations existantes reposent largement sur des mesures de confiance ponctuelles comme l'auto-cohérence, qui peuvent masquer une croyance fragile. Nous démontrons que même les faits obtenus avec une auto-cohérence parfaite peuvent s'effondrer rapidement sous une légère interférence contextuelle. Pour combler cette lacune, nous proposons la Croyance à Cohérence de Voisinage (NCB), une mesure structurelle de la robustesse des croyances qui évalue la cohérence des réponses au sein d'un voisinage conceptuel. Pour valider l'efficacité de NCB, nous introduisons un nouveau protocole de test de résistance cognitive qui sonde la stabilité des sorties sous interférence contextuelle. Les expériences menées sur plusieurs LLM montrent que les données à NCB élevé présentent une résistance relativement plus forte aux interférences. Enfin, nous présentons l'Apprentissage Sensible à la Structure (SAT), qui optimise la structure de croyance invariante au contexte et réduit la fragilité des connaissances de la traîne longue d'environ 30%. Le code sera disponible à l'adresse https://github.com/zjunlp/belief.
Les progrès récents en génération vidéo ont permis le développement de « modèles du monde » capables de simuler des futurs potentiels pour la robotique et la planification. Cependant, la spécification d'objectifs précis pour ces modèles reste un défi ; les instructions textuelles sont souvent trop abstraites pour saisir les nuances physiques, tandis que les images cibles sont fréquemment impossibles à spécifier pour des tâches dynamiques. Pour résoudre ce problème, nous présentons Goal Force, un nouveau cadre qui permet aux utilisateurs de définir des objectifs via des vecteurs de force explicites et une dynamique intermédiaire, reflétant la façon dont les humains conceptualisent les tâches physiques. Nous entraînons un modèle de génération vidéo sur un ensemble de données soigneusement sélectionné de primitives causales synthétiques – telles que les collisions élastiques et les dominos qui tombent – pour lui apprendre à propager les forces dans le temps et l'espace. Bien qu'entraîné sur des données de physique simples, notre modèle démontre une remarquable généralisation zero-shot à des scénarios complexes du monde réel, incluant la manipulation d'outils et les chaînes causales multi-objets. Nos résultats suggèrent qu'en ancrant la génération vidéo dans des interactions physiques fondamentales, les modèles peuvent émerger en tant que simulateurs de physique neuronaux implicites, permettant une planification précise et consciente de la physique sans dépendre de moteurs externes. Nous publions tous les jeux de données, le code, les poids des modèles et les démonstrations vidéo interactives sur notre page projet.
Les grands modèles de langage ont connu une évolution rapide, émergeant comme une technologie pivot pour l'intelligence dans les opérations financières. Cependant, les bancs d'essai existants sont souvent limités par des écueils tels que la dépendance à des échantillons simulés ou généralistes et une focalisation sur des scénarios statiques uniques et hors ligne. Par conséquent, ils ne répondent pas aux exigences d'authenticité et de réactivité en temps réel des services financiers, créant un écart significatif entre les performances mesurées et l'efficacité opérationnelle réelle. Pour y remédier, nous présentons BizFinBench.v2, le premier banc d'essai d'évaluation à grande échelle fondé sur des données commerciales authentiques des marchés actions chinois et américain, intégrant une évaluation en ligne. Nous avons réalisé une analyse de clustering sur des requêtes utilisateur authentiques provenant de plateformes financières, aboutissant à huit tâches fondamentales et deux tâches en ligne couvrant quatre scénarios métier centraux, totalisant 29 578 paires questions-réponses de niveau expert. Les résultats expérimentaux montrent que ChatGPT-5 atteint une précision remarquable de 61,5% dans les tâches principales, bien qu'un écart substantiel persiste par rapport aux experts financiers ; dans les tâches en ligne, DeepSeek-R1 surpasse tous les autres LLM commerciaux. L'analyse des erreurs identifie en outre les lacunes spécifiques des modèles existants dans les contextes métier financiers pratiques. BizFinBench.v2 transcende les limites des bancs d'essai actuels, réalisant une déconstruction au niveau métier des capacités financières des LLM et fournissant une base précise pour évaluer l'efficacité du déploiement massif des LLM dans le domaine financier. Les données et le code sont disponibles à l'adresse https://github.com/HiThink-Research/BizFinBench.v2.
L'estimation de profondeur monoculaire vise à reconstruire l'information de profondeur de scènes 3D à partir d'images 2D. Les travaux récents ont réalisé des progrès significatifs, mais leur dépendance à des jeux de données à grande échelle et à des décodeurs complexes a limité leur efficacité et leur capacité de généralisation. Dans cet article, nous proposons un cadre léger et axé sur les données pour l'estimation de profondeur monoculaire zero-shot. Nous adoptons d'abord DINOv3 comme encodeur visuel pour obtenir des caractéristiques denses de haute qualité. Ensuite, pour remédier aux inconvénients inhérents à la structure complexe du DPT, nous concevons le Simple Depth Transformer (SDT), un décodeur compact basé sur les transformers. Comparé au DPT, il utilise un processus de fusion de caractéristiques et de suréchantillonnage à chemin unique pour réduire la surcharge computationnelle de la fusion de caractéristiques multi-échelles, atteignant une plus grande précision tout en réduisant le nombre de paramètres d'environ 85 % à 89 %. De plus, nous proposons une stratégie de filtrage basée sur la qualité pour éliminer les échantillons nuisibles, réduisant ainsi la taille du jeu de données tout en améliorant la qualité globale de l'entraînement. Des expériences approfondies sur cinq benchmarks démontrent que notre cadre surpasse le DPT en précision. Ce travail souligne l'importance d'équilibrer la conception du modèle et la qualité des données pour réaliser une estimation de profondeur zero-shot efficace et généralisable. Code : https://github.com/AIGeeksGroup/AnyDepth. Site web : https://aigeeksgroup.github.io/AnyDepth.
Les grands modèles de langage (LLM) sont largement déployés dans divers domaines de la finance. Comme leurs données d'entraînement proviennent majoritairement de corpus rédigés par des humains, les LLM peuvent hériter de divers biais humains. Les biais comportementaux peuvent entraîner une instabilité et une incertitude dans la prise de décision, particulièrement lors du traitement d'informations financières. Cependant, les recherches existantes sur les biais des LLM se sont principalement concentrées sur des interrogations directes ou des configurations simplifiées à usage général, avec une considération limitée des environnements financiers complexes du monde réel et des tâches de détection de désinformation financière multilingue, à haut risque et sensible au contexte (\mfmd). Dans ce travail, nous proposons \mfmdscen, un benchmark complet pour évaluer les biais comportementaux des LLM dans le cadre du \mfmd à travers divers scénarios économiques. En collaboration avec des experts financiers, nous avons construit trois types de scénarios financiers complexes : (i) basés sur les rôles et la personnalité, (ii) basés sur les rôles et la région, et (iii) basés sur les rôles intégrant l'origine ethnique et les croyances religieuses. Nous avons en outre développé un jeu de données multilingue de désinformation financière couvrant l'anglais, le chinois, le grec et le bengali. En intégrant ces scénarios à des affirmations trompeuses, \mfmdscen permet une évaluation systématique de 22 LLM grand public. Nos résultats révèlent que des biais comportementaux prononcés persistent à la fois dans les modèles commerciaux et open source. Ce projet sera disponible à l'adresse https://github.com/lzw108/FMD.
Les agents de recherche basés sur des grands modèles de langage (LLM) se sont révélés prometteurs pour résoudre des problèmes nécessitant des connaissances étendues en intégrant des capacités de recherche d'information. Les travaux existants se concentrent principalement sur l'optimisation des paradigmes de raisonnement des agents de recherche, tandis que la qualité des requêtes de recherche intermédiaires durant le raisonnement reste négligée. Par conséquent, les requêtes générées demeurent souvent imprécises, conduisant à des résultats de récupération inattendus et limitant in fine l'efficacité globale des agents de recherche. Pour atténuer ce problème, nous présentons SmartSearch, un cadre reposant sur deux mécanismes clés : (1) Les récompenses de processus, qui fournissent une supervision granulaire de la qualité de chaque requête de recherche intermédiaire via une Évaluation de Crédit à Double Niveau. (2) Le raffinement de requêtes, qui favorise l'optimisation de la génération de requêtes en affinant sélectivement les requêtes de recherche de faible qualité et en régénérant les tours de recherche suivants sur la base de ces améliorations. Pour permettre à l'agent de recherche d'intérioriser progressivement la capacité d'améliorer la qualité des requêtes sous la guidance des récompenses de processus, nous concevons un cadre d'apprentissage curriculaire en trois étapes. Ce cadre guide l'agent à travers une progression allant de l'imitation, à l'alignement, et finalement à la généralisation. Les résultats expérimentaux montrent que SmartSearch surpasse constamment les méthodes de référence existantes, et des analyses quantitatives supplémentaires confirment ses gains significatifs tant en efficacité de recherche qu'en qualité des requêtes. Le code est disponible à l'adresse https://github.com/MYVAE/SmartSearch.
Ce travail présente Orient Anything V2, un modèle de fondation amélioré pour la compréhension unifiée de l'orientation et de la rotation 3D d'objets à partir d'images uniques ou appariées. S'appuyant sur Orient Anything V1, qui définit l'orientation via une unique face avant, la version V2 étend cette capacité pour gérer des objets avec des symétries rotationnelles diverses et estimer directement les rotations relatives. Ces améliorations sont permises par quatre innovations clés : 1) Des assets 3D synthétisés de manière scalable par des modèles génératifs, garantissant une couverture étendue de catégories et une distribution équilibrée des données ; 2) Un système d'annotation efficace, à modèle en boucle, qui identifie de manière robuste de 0 à N faces avant valides pour chaque objet ; 3) Un objectif d'ajustement de distribution périodique, sensible à la symétrie, qui capture toutes les orientations plausibles face à l'avant, modélisant efficacement la symétrie rotationnelle de l'objet ; 4) Une architecture multi-images qui prédit directement les rotations relatives des objets. Des expériences approfondies montrent qu'Orient Anything V2 atteint des performances state-of-the-art en généralisation zero-shot sur l'estimation d'orientation, l'estimation de pose 6DoF et la reconnaissance de symétrie d'objets sur 11 benchmarks largement utilisés. Le modèle démontre une forte capacité de généralisation, élargissant significativement l'applicabilité de l'estimation d'orientation dans diverses tâches en aval.
Les grands modèles de langage (LLM) augmentés par recherche excellent dans les tâches nécessitant des connaissances en intégrant des sources externes. Cependant, ils présentent souvent une tendance à la sur-recherche - en invoquant inutilement l'outil de recherche même lorsque cela n'améliore pas la qualité des réponses, ce qui entraîne une inefficacité computationnelle et des hallucinations en incorporant un contexte non pertinent. Dans ce travail, nous réalisons une évaluation systématique de la sur-recherche selon plusieurs dimensions, incluant les types de requêtes, les catégories de modèles, les conditions de recherche et les conversations multi-tours. Nos résultats montrent que : (i) la recherche améliore généralement la précision des réponses pour les requêtes solubles mais nuit à l'abstention pour les requêtes insolubles ; (ii) la sur-recherche est plus prononcée dans les modèles de raisonnement complexe et les systèmes de recherche approfondie, est exacerbée par un bruit de récupération, et s'accentue dans les conversations multi-tours ; et (iii) la composition des preuves récupérées est cruciale, car la présence de preuves négatives améliore l'abstention. Pour quantifier la sur-recherche, nous introduisons les Tokens par Correctitude (TPC), une métrique d'évaluation qui capture le compromis performance-coût pour les LLM augmentés par recherche. Enfin, nous étudions des approches d'atténuation au niveau des requêtes et de la récupération, et publions OverSearchQA pour favoriser la recherche continue sur les LLM augmentés par recherche efficaces.
Les systèmes multi-agents (SMA) sont devenus un paradigme puissant pour construire des applications intelligentes hautes performances. Dans ces systèmes, le routeur responsable de déterminer quels agents experts doivent traiter une requête donnée joue un rôle crucial dans les performances globales. Les stratégies de routage existantes se divisent généralement en deux catégories : le routage de performance, qui équilibre la latence et le coût entre modèles de différentes tailles, et le routage de tâches, qui affecte les requêtes à des experts spécialisés pour améliorer la précision. Dans les applications d'entreprise réelles, le routage de tâches est plus adapté ; cependant, la plupart des approches existantes reposent sur des décisions statiques à étiquette unique, ce qui introduit deux limitations majeures : (i) la difficulté d'intégrer de nouveaux agents de manière transparente lors de l'expansion des domaines métier, et (ii) les conflits de routage causés par le chevauchement des capacités des agents, dégradant finalement la précision et la robustesse. Pour relever ces défis, nous proposons TCAndon-Router (TCAR) : un routeur à raisonnement adaptatif pour la collaboration multi-agents. Contrairement aux routeurs traditionnels, TCAR prend en charge l'intégration dynamique d'agents et génère d'abord une chaîne de raisonnement en langage naturel avant de prédire un ensemble d'agents candidats capables de traiter la requête. De plus, nous concevons un pipeline d'exécution collaborative dans lequel les agents sélectionnés produisent indépendamment des réponses, qui sont ensuite agrégées et affinées en une réponse unique de haute qualité par un Agent de Raffinement dédié. Les expériences sur des jeux de données publics et des données d'entreprise réelles démontrent que TCAR améliore significativement la précision du routage, réduit les conflits de routage et reste robuste dans des scénarios ambigus. Nous avons publié TCAR à l'adresse https://huggingface.co/tencent/TCAndon-Router pour soutenir les futures recherches sur le routage multi-agent explicable et collaboratif.
Le modèle à mélange d'experts (MoE) est devenu un paradigme majeur pour la mise à l'échelle des grands modèles de langage (LLM). Le fine-tuning économe en paramètres (PEFT), tel que LoRA, est largement adopté pour adapter les LLM MoE pré-entraînés à des tâches en aval. Cependant, les approches existantes attribuent un rang LoRA identique à tous les experts, négligeant la spécialisation fonctionnelle intrinsèque des LLM MoE. Cette allocation uniforme entraîne un déséquilibre des ressources : les experts pertinents pour la tâche sont sous-équipés tandis que les moins pertinents reçoivent des paramètres redondants. Nous proposons un cadre LoRA à rang dynamique nommé DR-LoRA, qui augmente dynamiquement le rang LoRA des experts pendant le fine-tuning en fonction des besoins spécifiques à la tâche. DR-LoRA utilise un mécanisme de notation de la saillance des experts qui intègre la fréquence de routage des experts et l'importance du rang LoRA pour quantifier la demande de capacité supplémentaire de chaque expert. Les experts ayant les scores de saillance les plus élevés sont prioritaires pour l'expansion de rang, permettant la formation automatique d'une distribution de rang hétérogène adaptée à la tâche cible. Les expériences sur plusieurs benchmarks démontrent que DR-LoRA surpasse constamment LoRA standard et les stratégies d'allocation statique sous un budget paramétrique équivalent, atteignant une performance supérieure sur la tâche avec une utilisation plus efficace des paramètres.
Les grands modèles de langage (LLM) sont de plus en plus déployés en tant qu'agents intelligents capables de raisonner, planifier et interagir avec leur environnement. Pour s'adapter efficacement à des scénarios à long terme, une capacité essentielle pour ces agents est un mécanisme de mémoire pouvant conserver, organiser et récupérer des expériences passées afin de soutenir la prise de décision ultérieure. Cependant, la plupart des approches existantes organisent et stockent les mémoires de manière plate et reposent sur des techniques de récupération simples basées sur la similarité. Même lorsqu'une mémoire structurée est introduite, les méthodes existantes peinent souvent à capturer explicitement les relations logiques entre les expériences ou les unités de mémoire. De plus, l'accès à la mémoire est largement dissocié de la structure construite et dépend toujours d'une récupération sémantique superficielle, empêchant les agents de raisonner logiquement sur des dépendances à long terme. Dans ce travail, nous proposons CompassMem, un cadre de mémoire centré sur les événements inspiré par la théorie de la segmentation des événements. CompassMem organise la mémoire sous forme de graphe d'événements en segmentant progressivement les expériences en événements et en les reliant par des relations logiques explicites. Ce graphe sert de carte logique, permettant aux agents d'effectuer une navigation structurée et orientée vers un but dans la mémoire au-delà d'une récupération superficielle, rassemblant progressivement des mémoires précieuses pour soutenir le raisonnement à long terme. Les expériences sur LoCoMo et NarrativeQA démontrent que CompassMem améliore constamment les performances de récupération et de raisonnement sur plusieurs modèles de base.
Les récentes avancées des modèles de langage de grande taille (LLM) les positionnent comme un paradigme prometteur pour les agents, la planification à long terme et la prise de décision émergeant comme des capacités polyvalentes fondamentales pour s'adapter à divers scénarios et tâches. Les jeux de stratégie en temps réel (RTS) constituent un banc d'essai idéal pour évaluer ces deux capacités, car leur gameplay intrinsèque requiert à la fois une planification stratégique au niveau macro et une adaptation tactique avec exécution d'actions au niveau micro. Les environnements existants basés sur les jeux RTS souffrent soit de demandes computationnelles relativement élevées, soit d'un manque de support pour les observations textuelles, ce qui a limité l'utilisation des jeux RTS pour l'évaluation des LLM. Motivés par ce constat, nous présentons TowerMind, un nouvel environnement basé sur le sous-genre tower defense (TD) des jeux RTS. TowerMind préserve les principaux atouts évaluatifs des jeux RTS pour l'évaluation des LLM, tout en présentant de faibles exigences computationnelles et un espace d'observation multimodal, incluant des représentations basées sur les pixels, textuelles et structurées de l'état du jeu. De plus, TowerMind permet d'évaluer les hallucinations des modèles et offre un degré élevé de personnalisation. Nous concevons cinq niveaux de référence pour évaluer plusieurs LLM largement utilisés sous différents paramètres d'entrée multimodale. Les résultats révèlent un écart de performance net entre les LLM et les experts humains, à la fois sur les dimensions des capacités et des hallucinations. Les expériences mettent en outre en lumière des limitations clés dans le comportement des LLM, telles qu'une validation inadéquate de la planification, un manque de multifinalité dans la prise de décision et une utilisation inefficace des actions. Nous évaluons également deux algorithmes classiques d'apprentissage par renforcement : Ape-X DQN et PPO. En offrant une conception légère et multimodale, TowerMind complète le paysage existant des environnements basés sur les jeux RTS et introduit un nouveau benchmark pour le domaine des agents IA. Le code source est publiquement disponible sur GitHub (https://github.com/tb6147877/TowerMind).
L'alignement de l'intelligence artificielle (IA) englobe le problème normatif consistant à spécifier comment les systèmes d'IA doivent agir et le problème technique visant à garantir que ces systèmes respectent ces spécifications. Jusqu'à présent, l'alignement de l'IA a généralement négligé une source importante de connaissances et de pratiques pour appréhender ces problèmes : le droit. Dans cet article, nous visons à combler cette lacune en explorant comment les règles, principes et méthodes juridiques peuvent être mobilisés pour résoudre les problèmes d'alignement et éclairer la conception de systèmes d'IA fonctionnant de manière sûre et éthique. Ce champ émergent – l'alignement juridique – se concentre sur trois axes de recherche : (1) la conception de systèmes d'IA pour qu'ils se conforment au contenu des règles juridiques élaborées par des institutions et processus légitimes, (2) l'adaptation des méthodes d'interprétation juridique pour guider le raisonnement et la prise de décision des systèmes d'IA, et (3) l'utilisation de concepts juridiques comme schéma directeur structurel pour relever les défis de la fiabilité, de la confiance et de la coopération dans les systèmes d'IA. Ces axes de recherche soulèvent de nouvelles questions conceptuelles, empiriques et institutionnelles, qui incluent l'examen de l'ensemble spécifique de lois que les systèmes d'IA particuliers doivent suivre, la création d'évaluations pour mesurer leur conformité juridique dans des contextes réels, et le développement de cadres de gouvernance pour soutenir la mise en œuvre pratique de l'alignement juridique. Aborder ces questions nécessite une expertise transversale en droit, en informatique et dans d'autres disciplines, offrant à ces communautés l'opportunité de collaborer à la conception d'une IA au service du bien commun.
Alors que les modèles génératifs deviennent omniprésents, la nécessité d'un contrôle granulaire sur le processus de génération devient cruciale. Pourtant, malgré la prolifération des méthodes de génération contrôlée, du promptage au fine-tuning, une question fondamentale demeure sans réponse : ces modèles sont-ils véritablement contrôlables en premier lieu ? Dans ce travail, nous proposons un cadre théorique pour répondre formellement à cette question. En modélisant l'interaction humain-modèle comme un processus de contrôle, nous proposons un nouvel algorithme pour estimer les ensembles contrôlables des modèles dans un contexte de dialogue. De manière notable, nous fournissons des garanties formelles sur l'erreur d'estimation en fonction de la complexité de l'échantillon : nous dérivons des bornes probablement approximativement correctes pour les estimations d'ensembles contrôlables qui sont indépendantes de la distribution, n'utilisent aucune hypothèse à part la bornitude des sorties, et fonctionnent pour tout système de contrôle non linéaire en boîte noire (c'est-à-dire, tout modèle génératif). Nous démontrons empiriquement le cadre théorique sur différentes tâches de contrôle de processus de dialogue, pour les modèles de langage et la génération texte-image. Nos résultats montrent que la contrôlabilité des modèles est étonnamment fragile et fortement dépendante du cadre expérimental. Cela souligne la nécessité d'une analyse rigoureuse de la contrôlabilité, déplaçant l'attention de la simple tentative de contrôle vers la compréhension préalable de ses limites fondamentales.
Les progrès récents en Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) pour le raisonnement des Grands Modèles de Langage (LLM) sont freinés par un défi persistant : l'effondrement de l'exploration. L'homogénéité sémantique des déploiements aléatoires piège souvent les modèles dans des comportements étroits et suroptimisés. Si les méthodes existantes exploitent l'entropie de la politique pour encourager l'exploration, elles rencontrent des limitations inhérentes. La régularisation par entropie globale est sensible au détournement de récompense, pouvant induire une verbosité insignifiante, tandis que les mises à jour locales sélectives par token peinent avec le biais inductif fort des modèles pré-entraînés. Pour y remédier, nous proposons l'Optimisation de Politique Latente par Goulot d'Étranglement Informationnel Itératif (IIB-LPO), une approche novatrice qui déplace l'exploration de la perturbation statistique des distributions de tokens vers la ramification topologique des trajectoires de raisonnement. IIB-LPO déclenche une ramification latente dans les états à haute entropie pour diversifier les chemins de raisonnement et utilise le principe du Goulot d'Étranglement Informationnel à la fois comme filtre de trajectoire et mécanisme d'auto-récompense, garantissant une exploration concise et informative. Les résultats empiriques sur quatre benchmarks de raisonnement mathématique démontrent qu'IIB-LPO atteint des performances à la pointe de l'état de l'art, surpassant les méthodes antérieures avec des marges allant jusqu'à 5,3 % en précision et 7,4 % dans les métriques de diversité.
L'Afrique abrite plus d'un tiers des langues du monde, mais reste sous-représentée dans la recherche en IA. Nous présentons Afri-MCQA, le premier benchmark multilingue de questions-réponses culturelles couvrant 7,5 paires de questions-réponses dans 15 langues africaines issues de 12 pays. Ce benchmark propose des paires de questions-réponses parallèles anglais-langues africaines à travers les modalités texte et parole, intégralement créées par des locuteurs natifs. L'évaluation des grands modèles de langage (LLM) sur Afri-MCQA révèle que les modèles à poids ouverts obtiennent de faibles performances sur les cultures évaluées, avec une précision quasi nulle en VQA à réponse libre lorsqu'ils sont interrogés en langue native ou par parole. Pour évaluer la compétence linguistique, nous incluons des expériences de contrôle visant à évaluer cet aspect spécifique indépendamment des connaissances culturelles, et nous observons des écarts de performance significatifs entre les langues natives et l'anglais, tant pour le texte que pour la parole. Ces résultats soulignent la nécessité d'approches axées sur la parole, de pré-entraînements ancrés culturellement et de transferts culturels translinguistiques. Pour favoriser le développement d'une IA multimodale plus inclusive dans les langues africaines, nous publions Afri-MCQA sous licence académique ou CC BY-NC 4.0 sur HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
L'évaluation de la qualité des images faciales (FIQA) est essentielle pour la fiabilité des systèmes de reconnaissance faciale. Les approches actuelles exploitent principalement les représentations de la couche finale, tandis que les méthodes sans entrainement nécessitent de multiples passes avant ou de la rétropropagation. Nous proposons ViTNT-FIQA, une approche sans entrainement qui mesure la stabilité de l'évolution des plongements de patchs à travers les blocs intermédiaires d'un Vision Transformer (ViT). Nous démontrons que les images faciales de haute qualité présentent des trajectoires de raffinement des caractéristiques stables entre les blocs, tandis que les images dégradées présentent des transformations erratiques. Notre méthode calcule les distances euclidiennes entre les plongements de patchs normalisés L2 de blocs de transformateurs consécutifs et les agrège en scores de qualité au niveau de l'image. Nous validons empiriquement cette corrélation sur un ensemble de données synthétiques étiqueté en qualité avec des niveaux de dégradation contrôlés. Contrairement aux approches sans entrainement existantes, ViTNT-FIQA ne nécessite qu'une seule passe avant, sans rétropropagation ni modifications architecturales. Grâce à une évaluation approfondie sur huit benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), nous montrons que ViTNT-FIQA atteint des performances compétitives avec les méthodes de l'état de l'art tout en maintenant une efficacité computationnelle et une applicabilité immédiate à tout modèle de reconnaissance faciale pré-entraîné basé sur ViT.
Nous proposons un cadre qui amortit le coût du raisonnement lors de l'inférence en convertissant des critiques transitoires en directives récupérables, grâce à un système de mémoire basé sur des fichiers et des appels d'outils contrôlés par un agent. Nous évaluons cette méthode sur le Rubric Feedback Bench, un nouvel ensemble de données pour l'apprentissage basé sur des grilles d'évaluation. Les expériences démontrent que nos LLM augmentés atteignent rapidement les performances des pipelines de raffinement en phase de test tout en réduisant considérablement le coût d'inférence.
L'auto-complétion multimodale en temps réel est essentielle pour les assistants numériques, les chatbots, les outils de conception et les consultations médicales, où les entrées utilisateur reposent sur un contexte visuel partagé. Nous présentons l'Auto-Complétion Multimodale (MAC), une tâche qui prédit les caractères à venir dans les discussions en direct en utilisant un texte partiellement saisi et des indices visuels. Contrairement à l'auto-complétion textuelle traditionnelle (TAC), la MAC ancre ses prédictions dans un contexte multimodal pour mieux saisir l'intention de l'utilisateur. Pour permettre cette tâche, nous adaptons MMDialog et ImageChat pour créer des jeux de données de référence. Nous évaluons les modèles vision-langue (VLM) leaders par rapport à des modèles de référence textuels solides, en mettant en évidence les compromis entre précision et efficacité. Nous présentons Router-Suggest, un framework routeur qui sélectionne dynamiquement entre les modèles textuels et les VLM en fonction du contexte du dialogue, ainsi qu'une variante légère pour les environnements à ressources limitées. Router-Suggest obtient une accélération de 2,3x à 10x par rapport au VLM le plus performant. Une étude utilisateur montre que les VLM surpassent significativement les modèles textuels en termes de satisfaction des utilisateurs, économisant notamment l'effort de saisie et améliorant la qualité des complétions dans les conversations multi-tours. Ces résultats soulignent la nécessité d'un contexte multimodal dans l'auto-complétion, conduisant à des assistants plus intelligents et conscients de l'utilisateur.
La personnalisation conditionnée peut être considérée comme un a priori comportemental pour les grands modèles de langage (LLM) et est souvent supposée conférer une expertise et améliorer la sécurité de manière monotone. Cependant, ses effets sur la prise de décision clinique à haut risque restent mal caractérisés. Nous évaluons systématiquement le contrôle par personnalisation dans les LLM cliniques, en examinant comment les rôles professionnels (médecin des urgences, infirmier) et les styles d'interaction (audacieux vs. prudent) influencent le comportement à travers les modèles et les tâches médicales. Nous évaluons la performance sur des tâches de triage clinique et de sécurité des patients à l'aide d'évaluations multidimensionnelles qui capturent la précision de la tâche, l'étalonnage et les comportements à risque liés à la sécurité. Nous constatons des effets systématiques, contextuels et non monotones : les personnalisations médicales améliorent les performances dans les tâches de soins critiques, avec des gains allant jusqu'à ∼+20 % en précision et en étalonnage, mais dégradent les performances en soins primaires par des marges comparables. Le style d'interaction module la propension au risque et la sensibilité, mais cela dépend fortement du modèle. Bien que les classements agrégés par des LLM juges favorisent les personnalisations médicales face aux non médicales dans les cas critiques pour la sécurité, nous avons constaté que les cliniciens humains montrent un accord modéré sur la conformité sécuritaire (κ de Cohen moyen = 0,43) mais indiquent une faible confiance dans 95,9 % de leurs réponses concernant la qualité du raisonnement. Notre travail montre que les personnalisations fonctionnent comme des a priori comportementaux qui introduisent des compromis contextuels plutôt que des garanties de sécurité ou d'expertise. Le code est disponible à l'adresse https://github.com/rsinghlab/Persona_Paradox.