Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles de langage centrés sur le raisonnement ont mis en lumière l'apprentissage par renforcement (RL) comme une méthode prometteuse pour aligner les modèles avec des récompenses vérifiables. Cependant, il reste controversé de savoir si le RL étend véritablement les capacités de raisonnement d'un modèle ou s'il amplifie simplement les sorties à forte récompense déjà latentes dans la distribution du modèle de base, et si l'augmentation continue des ressources de calcul en RL conduit de manière fiable à une amélioration des performances de raisonnement. Dans ce travail, nous remettons en question les hypothèses dominantes en démontrant qu'un entraînement prolongé en RL (ProRL) peut révéler de nouvelles stratégies de raisonnement inaccessibles aux modèles de base, même sous un échantillonnage extensif. Nous introduisons ProRL, une nouvelle méthodologie d'entraînement qui intègre le contrôle de la divergence KL, la réinitialisation de la politique de référence et une diversité de tâches. Notre analyse empirique révèle que les modèles entraînés par RL surpassent systématiquement les modèles de base dans une large gamme d'évaluations pass@k, y compris dans des scénarios où les modèles de base échouent complètement, quel que soit le nombre d'essais. Nous montrons en outre que les améliorations des limites de raisonnement sont fortement corrélées à la compétence de la tâche du modèle de base et à la durée de l'entraînement, suggérant que le RL peut explorer et peupler de nouvelles régions de l'espace des solutions au fil du temps. Ces résultats offrent de nouvelles perspectives sur les conditions dans lesquelles le RL élargit de manière significative les limites de raisonnement dans les modèles de langage et établissent une base pour les travaux futurs sur le RL à long terme pour le raisonnement. Nous publions les poids des modèles pour soutenir la recherche future : https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
Cet article présente AlphaOne (alpha1), un cadre universel pour moduler la progression du raisonnement dans les grands modèles de raisonnement (LRMs) lors de la phase de test. alpha1 introduit d'abord le concept de moment alpha, qui représente la phase de pensée mise à l'échelle avec un paramètre universel alpha. Au sein de cette phase pré-alpha moment mise à l'échelle, il planifie dynamiquement les transitions de pensée lente en modélisant l'insertion de jetons de transition de raisonnement comme un processus stochastique de Bernoulli. Après le moment alpha, alpha1 termine de manière déterministe la pensée lente avec le jeton de fin de pensée, favorisant ainsi un raisonnement rapide et une génération efficace de réponses. Cette approche unifie et généralise les méthodes existantes de mise à l'échelle monotone en permettant une modulation flexible et dense du passage d'un raisonnement lent à un raisonnement rapide. Des études empiriques approfondies sur divers benchmarks exigeants dans les domaines mathématiques, de programmation et scientifiques démontrent la capacité de raisonnement supérieure et l'efficacité d'alpha1. Page du projet : https://alphaone-project.github.io/
Les récents progrès des modèles vision-langage (VLMs) ont permis des avancées impressionnantes dans la compréhension des relations spatio-temporelles dans les vidéos. Cependant, lorsque l'information spatiale est obscurcie, ces modèles peinent à capturer des motifs purement temporels. Nous présentons SpookyBench, un benchmark où l'information est encodée uniquement dans des séquences temporelles d'images ressemblant à du bruit, reflétant des phénomènes naturels allant de la signalisation biologique à la communication secrète. Fait intéressant, alors que les humains peuvent reconnaître des formes, du texte et des motifs dans ces séquences avec une précision supérieure à 98 %, les VLMs de pointe atteignent une précision de 0 %. Cet écart de performance met en lumière une limitation critique : une dépendance excessive aux caractéristiques spatiales au niveau des images et une incapacité à extraire du sens à partir des indices temporels. De plus, lorsqu'ils sont entraînés sur des ensembles de données avec un faible rapport signal-sur-bruit (SNR) spatial, la compréhension temporelle des modèles se dégrade plus rapidement que la perception humaine, en particulier dans les tâches nécessitant un raisonnement temporel fin. Surmonter cette limitation nécessitera des architectures ou des paradigmes d'entraînement novateurs qui découplent les dépendances spatiales du traitement temporel. Notre analyse systématique montre que ce problème persiste à travers les échelles et les architectures de modèles. Nous publions SpookyBench pour catalyser la recherche en reconnaissance de motifs temporels et combler le fossé entre la compréhension humaine et machine des vidéos. Le jeu de données et le code sont disponibles sur notre site web : https://timeblindness.github.io/.
La génération de données synthétiques qui capturent fidèlement la structure statistique des distributions du monde réel constitue un défi fondamental en modélisation de données. Les approches classiques reposent souvent sur des hypothèses paramétriques fortes ou sur une conception structurelle manuelle, et peinent à s’appliquer dans des domaines à haute dimensionnalité ou hétérogènes. Les récents progrès des modèles de langage à grande échelle (LLMs) révèlent leur potentiel en tant que priors flexibles et à haute dimensionnalité pour les distributions du monde réel. Cependant, lorsqu’ils sont appliqués à la synthèse de données, l’échantillonnage standard basé sur les LLMs s’avère inefficace, limité par des contraintes de contexte fixes, et ne parvient pas à garantir un alignement statistique. Face à cela, nous introduisons LLMSynthor, un cadre général pour la synthèse de données qui transforme les LLMs en simulateurs conscients de la structure, guidés par un retour d’information distributionnel. LLMSynthor traite le LLM comme un simulateur de copule non paramétrique pour modéliser les dépendances d’ordre élevé et introduit l’échantillonnage par proposition LLM pour générer des distributions de propositions ancrées qui améliorent l’efficacité de l’échantillonnage sans nécessiter de rejet. En minimisant les écarts dans l’espace des statistiques résumées, la boucle de synthèse itérative aligne les données réelles et synthétiques tout en découvrant et en affinant progressivement la structure générative latente. Nous évaluons LLMSynthor dans des contextes contrôlés et réels en utilisant des ensembles de données hétérogènes dans des domaines sensibles à la vie privée (par exemple, commerce électronique, population et mobilité) qui englobent à la fois des formats structurés et non structurés. Les données synthétiques produites par LLMSynthor montrent une fidélité statistique élevée, une utilité pratique et une adaptabilité inter-données, ce qui en fait un outil précieux pour l’économie, les sciences sociales, les études urbaines et au-delà.
Les vérificateurs jouent un rôle crucial dans le raisonnement des grands modèles de langage (LLM), nécessaires pour des techniques post-entraînement telles que l'apprentissage par renforcement. Cependant, obtenir des vérificateurs fiables pour des problèmes de codage complexes est difficile, car une solution incorrecte bien déguisée ne peut souvent être détectée que par des cas limites soigneusement rédigés par des humains, difficiles à synthétiser. Pour résoudre ce problème, nous proposons HARDTESTGEN, un pipeline pour la synthèse de tests de haute qualité utilisant des LLM. Avec ce pipeline, nous avons constitué un ensemble de données complet de programmation compétitive, HARDTESTS, comprenant 47 000 problèmes et des tests synthétiques de haute qualité. Comparés aux tests existants, les tests HARDTESTGEN montrent une précision supérieure de 11,3 points de pourcentage et un rappel supérieur de 17,5 points de pourcentage lors de l'évaluation de code généré par LLM. Pour les problèmes plus difficiles, l'amélioration de la précision peut atteindre jusqu'à 40 points. HARDTESTS s'avère également plus efficace pour l'entraînement des modèles, mesuré par les performances en génération de code en aval. Nous mettrons à disposition notre ensemble de données et notre pipeline de synthèse en open source à l'adresse https://leililab.github.io/HardTests/.
Nous présentons v1, une extension légère des Modèles de Langage Multimodaux de Grande Taille (MLLMs) qui permet une révision visuelle sélective pendant l'inférence. Alors que les MLLMs actuels consomment généralement l'entrée visuelle une seule fois et raisonnent uniquement sur la mémoire interne, v1 introduit un mécanisme simple de pointage et copie qui permet au modèle de récupérer dynamiquement les régions pertinentes de l'image tout au long du processus de raisonnement. Ce mécanisme enrichit les architectures existantes avec des modifications minimales, permettant un accès contextuel aux tokens visuels en fonction des hypothèses évolutives du modèle. Pour entraîner cette capacité, nous construisons v1g, un ensemble de données de 300K traces de raisonnement multimodal avec des annotations entrelacées d'ancrage visuel. Les expériences sur trois benchmarks de raisonnement mathématique multimodal -- MathVista, MathVision et MathVerse -- démontrent que v1 améliore systématiquement les performances par rapport aux bases de comparaison, en particulier sur les tâches nécessitant une référence visuelle fine et un raisonnement à plusieurs étapes. Nos résultats suggèrent que l'accès visuel dynamique est une direction prometteuse pour améliorer le raisonnement multimodal ancré. Le code, les modèles et les données seront publiés pour soutenir les recherches futures.
La visualisation d'histoires, qui vise à générer une séquence d'images visuellement cohérentes alignées avec un récit donné et des images de référence, a connu des progrès significatifs grâce aux récentes avancées dans les modèles génératifs. Pour améliorer davantage les performances des cadres de visualisation d'histoires dans des scénarios réels, nous introduisons un benchmark d'évaluation complet, ViStoryBench. Nous avons collecté un ensemble de données diversifié couvrant différents types d'histoires et styles artistiques, garantissant que les modèles sont évalués sur plusieurs dimensions telles que différents intrigues (par exemple, comédie, horreur) et esthétiques visuelles (par exemple, anime, rendus 3D). ViStoryBench est soigneusement conçu pour équilibrer les structures narratives et les éléments visuels, incluant des histoires avec un ou plusieurs protagonistes pour tester la capacité des modèles à maintenir la cohérence des personnages. De plus, il comprend des intrigues complexes et des constructions de mondes détaillées pour défier les modèles dans la génération d'images précises. Pour assurer des comparaisons exhaustives, notre benchmark intègre une large gamme de métriques d'évaluation couvrant des aspects critiques. Ce cadre structuré et multidimensionnel permet aux chercheurs d'identifier de manière approfondie les forces et les faiblesses des différents modèles, favorisant ainsi des améliorations ciblées.
L'intérêt récent et explosif pour les capacités de raisonnement des grands modèles de langage, tels que DeepSeek-R1, a démontré un succès remarquable grâce à des cadres de réglage fin basés sur l'apprentissage par renforcement, illustrés par des méthodes comme l'Optimisation Relative de Politique par Groupe (Group Relative Policy Optimization, GRPO). Cependant, ces capacités de raisonnement restent sous-explorées et notablement absentes dans les modèles de fondation visuelle, y compris les modèles de représentation comme la série DINO. Dans ce travail, nous proposons DINO-R1, la première tentative visant à encourager les capacités de raisonnement visuel en contexte des modèles de fondation visuelle en utilisant l'apprentissage par renforcement. Plus précisément, DINO-R1 introduit l'Optimisation Relative de Requête par Groupe (Group Relative Query Optimization, GRQO), une nouvelle stratégie d'entraînement de style renforcement explicitement conçue pour les modèles de représentation basés sur des requêtes, qui calcule des récompenses au niveau des requêtes en fonction de la qualité d'alignement normalisée par groupe. Nous appliquons également une régularisation KL pour stabiliser la distribution de l'objectivité afin de réduire l'instabilité de l'entraînement. Cette optimisation conjointe permet une supervision dense et expressive à travers les requêtes tout en atténuant le surajustement et la dérive distributionnelle. En nous appuyant sur Grounding-DINO, nous entraînons une série de modèles de la famille DINO-R1 qui intègrent un encodeur d'invite visuelle et un mécanisme de sélection de requêtes guidé par la vision. Des expériences approfondies sur COCO, LVIS et ODinW démontrent que DINO-R1 surpasse significativement les bases de réglage fin supervisé, atteignant une forte généralisation dans les scénarios d'invite visuelle à vocabulaire ouvert et à ensemble fermé.
L'automatisation de la recherche en IA présente un potentiel immense pour accélérer les progrès scientifiques, mais les agents d'IA actuels peinent à gérer les complexités des expérimentations rigoureuses et complètes. Nous présentons EXP-Bench, un nouveau benchmark conçu pour évaluer systématiquement les agents d'IA sur des expériences de recherche complètes issues de publications influentes en IA. Étant donné une question de recherche et un code de départ incomplet, EXP-Bench met au défi les agents d'IA de formuler des hypothèses, de concevoir et de mettre en œuvre des procédures expérimentales, de les exécuter et d'analyser les résultats. Pour permettre la création de tâches aussi complexes et authentiques avec une haute fidélité, nous avons conçu un pipeline semi-autonome pour extraire et structurer les détails expérimentaux cruciaux de ces articles de recherche et de leur code open-source associé. Grâce à ce pipeline, EXP-Bench a sélectionné 461 tâches de recherche en IA issues de 51 articles de recherche de premier plan en IA. Les évaluations des principaux agents basés sur des modèles de langage, tels que OpenHands et IterativeAgent, sur EXP-Bench montrent des capacités partielles : bien que les scores sur des aspects individuels de l'expérience, comme la conception ou la correction de l'implémentation, atteignent occasionnellement 20 à 35 %, le taux de réussite pour des expériences complètes et exécutables n'était que de 0,5 %. En identifiant ces goulots d'étranglement et en fournissant des procédures expérimentales réalistes étape par étape, EXP-Bench sert d'outil essentiel pour que les futurs agents d'IA améliorent leur capacité à mener des expériences de recherche en IA. EXP-Bench est open-source à l'adresse https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
Les CAPTCHA ont constitué un goulot d'étranglement majeur pour le déploiement d'agents web dans des applications réelles, les empêchant souvent de réaliser des tâches d'automatisation de bout en bout. Bien que les agents MLLM (Multimodal Large Language Models) modernes aient démontré des performances impressionnantes dans des tâches de perception statique, leur capacité à gérer des défis interactifs et à raisonnement multi-étapes comme les CAPTCHA reste largement inexplorée. Pour combler cette lacune, nous présentons Open CaptchaWorld, le premier benchmark et plateforme web spécifiquement conçus pour évaluer les capacités de raisonnement visuel et d'interaction des agents pilotés par MLLM à travers une variété de puzzles CAPTCHA dynamiques. Notre benchmark couvre 20 types modernes de CAPTCHA, totalisant 225 CAPTCHA, annotés avec une nouvelle métrique que nous proposons : la Profondeur de Raisonnement CAPTCHA, qui quantifie le nombre d'étapes cognitives et motrices nécessaires pour résoudre chaque puzzle. Les résultats expérimentaux montrent que les humains atteignent systématiquement des scores quasi parfaits, tandis que les agents MLLM de pointe rencontrent des difficultés significatives, avec des taux de réussite atteignant au maximum 40,0 % pour Browser-Use Openai-o3, bien en deçà de la performance humaine de 93,3 %. Cela souligne Open CaptchaWorld comme un benchmark essentiel pour diagnostiquer les limites des agents multimodaux actuels et guider le développement de systèmes de raisonnement multimodal plus robustes. Le code et les données sont disponibles à l'URL suivante : [insérer URL].
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment émergé comme un paradigme puissant pour l'affinage post-entraînement des grands modèles de langage (LLM), atteignant des performances de pointe sur des tâches comportant des réponses structurées et vérifiables. L'application du RLVR aux modèles de langage multimodaux (MLLM) présente des opportunités significatives, mais est compliquée par la nature plus large et hétérogène des tâches vision-langage, qui exigent des capacités visuelles, logiques et spatiales nuancées. Ainsi, l'entraînement des MLLM avec le RLVR sur plusieurs ensembles de données pourrait être bénéfique, mais crée des défis liés à des objectifs conflictuels résultant de l'interaction entre des ensembles de données diversifiés, soulignant la nécessité de stratégies optimales de mélange de données pour améliorer la généralisation et le raisonnement. Nous introduisons un cadre systématique d'affinage post-entraînement pour le RLVR des MLLM, comprenant une formulation rigoureuse du problème de mélange de données et une implémentation de référence. Plus précisément, (1) Nous avons développé un cadre RLVR multimodal pour l'affinage post-entraînement multi-ensembles de données en constituant un ensemble de données contenant divers problèmes vision-langage vérifiables et en permettant un apprentissage RL en ligne multi-domaines avec différentes récompenses vérifiables ; (2) Nous avons proposé une stratégie de mélange de données qui apprend à prédire le résultat de l'affinage RL à partir de la distribution du mélange de données, et optimise ainsi le meilleur mélange. Des expériences approfondies démontrent que l'entraînement RLVR multi-domaines, combiné à des stratégies de prédiction de mélange, peut considérablement améliorer les capacités de raisonnement général des MLLM. Notre meilleur mélange améliore la précision du modèle affiné sur des benchmarks hors distribution de 5,24 % en moyenne par rapport au même modèle affiné avec un mélange de données uniforme, et de 20,74 % au total par rapport au modèle de base avant affinage.
La synthèse de la manipulation d'objets articulés impliquant l'ensemble du corps, incluant les mouvements du corps, des mains et de l'objet, constitue une tâche cruciale mais complexe, avec des applications étendues dans les domaines des humains virtuels et de la robotique. Les défis principaux sont doubles. Premièrement, obtenir un mouvement réaliste de l'ensemble du corps nécessite une coordination étroite entre les mains et le reste du corps, car leurs mouvements sont interdépendants lors de la manipulation. Deuxièmement, la manipulation d'objets articulés implique généralement un grand nombre de degrés de liberté et exige une précision accrue, souvent nécessitant que les doigts soient positionnés sur des régions spécifiques pour actionner les parties mobiles. Pour relever ces défis, nous proposons un nouveau cadre d'optimisation de bruit de diffusion coordonné. Plus précisément, nous effectuons une optimisation dans l'espace de bruit sur trois modèles de diffusion spécialisés pour le corps, la main gauche et la main droite, chacun entraîné sur son propre ensemble de données de mouvement pour améliorer la généralisation. La coordination émerge naturellement grâce au flux de gradient le long de la chaîne cinématique humaine, permettant à la posture globale du corps de s'adapter en réponse aux objectifs de mouvement des mains avec une grande fidélité. Pour renforcer encore la précision dans l'interaction main-objet, nous adoptons une représentation unifiée basée sur des ensembles de points de base (BPS), où les positions des effecteurs finaux sont encodées comme des distances au même BPS utilisé pour la géométrie de l'objet. Cette représentation unifiée capture les relations spatiales fines entre la main et les parties articulées de l'objet, et les trajectoires résultantes servent de cibles pour guider l'optimisation du bruit de diffusion, produisant un mouvement d'interaction très précis. Nous menons des expériences approfondies démontrant que notre méthode surpasse les approches existantes en termes de qualité de mouvement et de plausibilité physique, et permet diverses capacités telles que le contrôle de la pose de l'objet, la manipulation simultanée en marchant, et la génération de l'ensemble du corps à partir de données uniquement manuelles.
Les grands modèles de langage (LLMs) mémorisent une vaste quantité de connaissances préalables provenant d'Internet, ce qui les aide dans les tâches en aval, mais peut également influencer de manière notoire leurs sorties vers des réponses erronées ou biaisées. Dans ce travail, nous testons comment la connaissance de sujets populaires nuit à la précision des modèles de vision et de langage (VLMs) sur des tâches visuelles standard et objectives de comptage et d'identification. Nous constatons que les VLMs de pointe sont fortement biaisés (par exemple, incapables de reconnaître qu'une quatrième bande a été ajoutée au logo à trois bandes d'Adidas), obtenant une précision moyenne de 17,05 % en comptage (par exemple, compter les bandes dans un logo similaire à celui d'Adidas) sur 7 domaines variés allant des animaux, logos, échecs, jeux de société, illusions d'optique, aux grilles à motifs. L'insertion de texte (par exemple, "Adidas") décrivant le nom du sujet dans l'image contrefactuelle réduit encore la précision des VLMs. Les biais dans les VLMs sont si forts que leur demander de revérifier leurs résultats ou de s'appuyer exclusivement sur les détails de l'image pour répondre n'améliore la précision en comptage que de +2 points, en moyenne. Notre travail présente un mode d'échec intéressant dans les VLMs et un cadre automatisé pour tester les biais des VLMs. Le code et les données sont disponibles à l'adresse : vlmsarebiased.github.io.
Un élément crucial dans la fiabilité des LLM (modèles de langage de grande envergure) est la communication fiable de l'incertitude. Pourtant, les LLM utilisent souvent un langage assertif lorsqu'ils transmettent des affirmations erronées, ce qui entraîne une confiance excessive et une érosion de la crédibilité. Nous présentons la première étude systématique sur la calibration fidèle de la confiance des LLM, en évaluant la capacité des modèles à utiliser des expressions linguistiques d'incertitude qui reflètent fidèlement leur incertitude intrinsèque, à travers un large éventail de modèles, de jeux de données et de stratégies d'incitation. Nos résultats montrent que les LLM échouent largement dans cette tâche et que les interventions existantes sont insuffisantes : les approches d'incitation standard n'apportent que des gains marginaux, et les techniques de calibration existantes basées sur la factualité peuvent même nuire à la calibration fidèle. Pour combler cette lacune critique, nous introduisons MetaFaith, une nouvelle approche de calibration basée sur l'incitation, inspirée par la métacognition humaine. Nous démontrons que MetaFaith améliore de manière robuste la calibration fidèle dans divers modèles et domaines de tâches, permettant une amélioration allant jusqu'à 61 % en termes de fidélité et atteignant un taux de réussite de 83 % par rapport aux générations originales, tel qu'évalué par des humains.
Les benchmarks de synthèse vocale (Text-to-Speech, TTS) échouent souvent à évaluer la capacité des modèles à gérer des textes nuancés et sémantiquement complexes. En nous appuyant sur EmergentTTS, nous introduisons EmergentTTS-Eval, un benchmark complet couvrant six scénarios TTS exigeants : les émotions, les aspects paralinguistiques, les mots étrangers, la complexité syntaxique, la prononciation complexe (par exemple, les URL, les formules) et les questions. De manière cruciale, notre framework automatise à la fois la génération des cas de test et leur évaluation, rendant le benchmark facilement extensible. À partir d'un petit ensemble de prompts écrits par des humains, nous les étendons itérativement en utilisant des modèles de langage (LLMs) pour cibler des défis structurels, phonétiques et prosodiques spécifiques, aboutissant à 1 645 cas de test diversifiés. De plus, nous employons une approche de modèle-comme-juge, utilisant un Large Audio Language Model (LALM) pour évaluer la parole selon plusieurs dimensions telles que l'émotion exprimée, la prosodie, l'intonation et la précision de la prononciation. Nous évaluons les systèmes TTS open-source et propriétaires de pointe, tels que 11Labs, Deepgram et le 4o-mini-TTS d'OpenAI, sur EmergentTTS-Eval, démontrant sa capacité à révéler des différences de performance fines. Les résultats montrent que l'approche modèle-comme-juge offre une évaluation robuste des systèmes TTS et une forte corrélation avec les préférences humaines. Nous rendons publics le code d'évaluation https://github.com/boson-ai/EmergentTTS-Eval-public et le jeu de données https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
Récemment, les méthodes exploitant les a priori des modèles de diffusion pour assister l'estimation géométrique monoculaire (par exemple, la profondeur et la normale) ont suscité un intérêt considérable en raison de leur forte capacité de généralisation. Cependant, la plupart des travaux existants se concentrent sur l'estimation des propriétés géométriques dans le système de coordonnées de la caméra pour des images vidéo individuelles, négligeant la capacité inhérente des modèles de diffusion à déterminer la correspondance inter-images. Dans ce travail, nous démontrons que, grâce à une conception et un ajustement appropriés, la cohérence intrinsèque des modèles de génération vidéo peut être efficacement exploitée pour une estimation géométrique cohérente. Plus précisément, nous 1) sélectionnons des attributs géométriques dans le système de coordonnées global qui partagent la même correspondance avec les images vidéo que les cibles de prédiction, 2) introduisons une nouvelle méthode de conditionnement efficace en réutilisant les encodages positionnels, et 3) améliorons les performances grâce à un entraînement conjoint sur plusieurs attributs géométriques qui partagent la même correspondance. Nos résultats atteignent des performances supérieures dans la prédiction des attributs géométriques globaux dans les vidéos et peuvent être directement appliqués aux tâches de reconstruction. Même lorsqu'il est entraîné uniquement sur des données vidéo statiques, notre approche montre un potentiel de généralisation aux scènes vidéo dynamiques.
Le calcul au moment du test a permis aux grands modèles de langage multimodaux de générer des chaînes de raisonnement étendues, obtenant ainsi de solides performances sur des tâches telles que le raisonnement mathématique multimodal. Cependant, cette amélioration de la capacité de raisonnement s'accompagne souvent d'une augmentation des hallucinations : à mesure que les générations deviennent plus longues, les modèles ont tendance à s'éloigner du contenu ancré dans l'image et à s'appuyer davantage sur les connaissances linguistiques préalables. L'analyse de l'attention montre que des chaînes de raisonnement plus longues entraînent une réduction de la concentration sur les entrées visuelles, ce qui contribue aux hallucinations. Pour étudier systématiquement ce phénomène, nous introduisons RH-AUC, une métrique qui quantifie comment la précision de perception d'un modèle évolue avec la longueur du raisonnement, nous permettant ainsi d'évaluer si le modèle préserve l'ancrage visuel pendant le raisonnement. Nous publions également RH-Bench, un benchmark diagnostique couvrant une variété de tâches multimodales, conçu pour évaluer le compromis entre la capacité de raisonnement et les hallucinations. Notre analyse révèle que (i) les modèles plus grands atteignent généralement un meilleur équilibre entre raisonnement et perception, et (ii) cet équilibre est davantage influencé par les types et domaines des données d'entraînement que par leur volume global. Ces résultats soulignent l'importance des cadres d'évaluation qui prennent en compte à la fois la qualité du raisonnement et la fidélité perceptuelle.
La génération de textes multilingues précis à l'aide de modèles de diffusion est un objectif de longue date, mais qui reste difficile à atteindre. Les méthodes récentes ont fait des progrès dans le rendu de texte dans une seule langue, mais le rendu de langues arbitraires demeure un domaine inexploré. Cet article présente EasyText, un cadre de rendu de texte basé sur DiT (Diffusion Transformer), qui relie les latents de débruitage à des tokens de caractères multilingues encodés en tant que tokens de caractères. Nous proposons des techniques d'encodage de positionnement des caractères et d'interpolation d'encodage de position pour réaliser un rendu de texte contrôlé et précis. De plus, nous construisons un vaste ensemble de données synthétiques d'images textuelles comprenant 1 million d'annotations image-texte multilingues ainsi qu'un ensemble de données de haute qualité de 20 000 images annotées, utilisés respectivement pour le pré-entraînement et le réglage fin. Des expériences et évaluations approfondies démontrent l'efficacité et l'avancée de notre approche en matière de rendu de texte multilingue, de qualité visuelle et d'intégration de texte sensible à la mise en page.
Nous démontrons que les opérations d'inférence de plusieurs grands modèles de langage (LLMs) à poids ouverts peuvent être mappées à un système linéaire exactement équivalent pour une séquence d'entrée, sans modifier les poids du modèle ni altérer les prédictions de sortie. En étendant des techniques issues des modèles de diffusion d'images qui présentent une linéarité locale ou par morceaux, nous modifions stratégiquement le calcul du gradient par rapport à une séquence d'entrée donnée pour une prédiction de token suivant, de sorte que le Jacobien du modèle reproduit presque exactement la prédiction avant avec un système linéaire. Nous illustrons cette approche sur plusieurs modèles (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral et OLMo 2, jusqu'à Llama 3.3 70B Q4) et montrons, à travers la décomposition en valeurs singulières du Jacobien détaché, que ces LLMs opèrent dans des sous-espaces de très faible dimension où de nombreux vecteurs singuliers les plus grands décodent des concepts liés au token de sortie le plus probable. Cette approche nous permet également d'examiner le fonctionnement de chaque couche successive (ainsi que ses composants d'attention et MLP) comme des systèmes linéaires presque exacts et d'observer l'émergence de concepts sémantiques. Malgré leur puissance expressive et leur non-linéarité globale, les LLMs modernes peuvent être interprétés à travers des décompositions localement linéaires presque exactes qui fournissent des insights sur leurs représentations internes et révèlent des structures sémantiques interprétables dans le processus de prédiction de token suivant.
Le décodage spéculatif (SD) est une méthode prometteuse pour accélérer le processus de décodage des grands modèles de langage (LLMs). L'efficacité du SD dépend principalement de la cohérence entre le modèle de brouillon et le modèle de vérification. Cependant, les approches existantes de génération de brouillons nécessitent généralement l'entraînement de modules supplémentaires, ce qui peut être difficile à mettre en œuvre et à assurer la compatibilité avec divers LLMs. Dans cet article, nous proposons CLaSp, une stratégie de saut de couches en contexte pour le décodage spéculatif autonome. Contrairement aux méthodes précédentes, CLaSp ne nécessite pas de modules de brouillon supplémentaires ni d'entraînement additionnel. Au lieu de cela, il utilise un mécanisme plug-and-play en sautant des couches intermédiaires du modèle de vérification pour construire un modèle de brouillon compressé. Plus précisément, nous développons un algorithme de programmation dynamique qui optimise le processus de saut de couches en exploitant les états cachés complets de la dernière étape de vérification comme objectif. Cela permet à CLaSp d'ajuster dynamiquement sa stratégie de saut de couches après chaque étape de vérification, sans dépendre de jeux de couches sautées pré-optimisés. Les résultats expérimentaux sur diverses tâches en aval démontrent que CLaSp permet une accélération de 1,3x à 1,7x sur les modèles de la série LLaMA3 sans altérer la distribution originale du texte généré.
Bien que le raisonnement en chaîne de pensée et l'apprentissage par renforcement (RL) aient conduit à des avancées majeures en traitement du langage naturel (NLP), leur intégration dans les modèles génératifs visuels reste peu explorée. Nous présentons ReasonGen-R1, un cadre en deux étapes qui, dans un premier temps, dote un générateur d'images autorégressif de compétences explicites de « réflexion » basées sur le texte via un réglage fin supervisé sur un nouvel ensemble de données de raisonnement contenant des justifications écrites, puis affine ses sorties à l'aide de l'optimisation de politique relative par groupe (Group Relative Policy Optimization). Pour permettre au modèle de raisonner via le texte avant de générer des images, nous générons automatiquement et publions un corpus de justifications élaborées par le modèle, associées à des invites visuelles, permettant une planification contrôlée des dispositions d'objets, des styles et des compositions de scènes. Notre algorithme GRPO utilise des signaux de récompense provenant d'un modèle de langage visuel pré-entraîné pour évaluer la qualité visuelle globale, optimisant la politique à chaque mise à jour. Les évaluations sur GenEval, DPG et le benchmark T2I démontrent que ReasonGen-R1 surpasse systématiquement les modèles de référence solides et les modèles de pointe antérieurs. Plus d'informations : aka.ms/reasongen.
L'objectif de ce travail est d'améliorer la compréhension multimodale équilibrée dans les grands modèles de langage audio-visuels (AV-LLMs) en abordant le biais de modalité sans nécessiter d'entraînement supplémentaire. Dans les AV-LLMs actuels, les caractéristiques audio et vidéo sont généralement traitées conjointement dans le décodeur. Bien que cette stratégie facilite une compréhension multimodale unifiée, elle peut introduire un biais de modalité, où le modèle a tendance à trop s'appuyer sur une modalité en raison de signaux d'entraînement déséquilibrés. Pour atténuer ce problème, nous proposons le décodage Fork-Merge (FMD), une stratégie simple mais efficace au moment de l'inférence qui ne nécessite ni entraînement supplémentaire ni modifications architecturales. Le FMD effectue d'abord un raisonnement spécifique à chaque modalité en traitant les entrées audio uniquement et vidéo uniquement à travers les premières couches du décodeur (phase de fork), puis fusionne les états cachés résultants pour un raisonnement conjoint dans les couches restantes (phase de merge). Cette approche favorise des contributions équilibrées des modalités et exploite les informations complémentaires entre les modalités. Nous évaluons notre méthode sur deux AV-LLMs représentatifs, VideoLLaMA2 et video-SALMONN, en utilisant trois ensembles de données de référence. Les résultats expérimentaux montrent des améliorations constantes des performances sur des tâches axées sur le raisonnement audio, vidéo et audio-visuel combiné, démontrant l'efficacité des interventions au moment de l'inférence pour une compréhension multimodale robuste.
Les récents progrès en distillation de modèles démontrent que les données provenant de modèles de raisonnement avancés (par exemple, DeepSeek-R1, o1 d'OpenAI) peuvent transférer efficacement des capacités de raisonnement complexes à des modèles étudiants plus petits et efficaces. Cependant, les pratiques standard utilisent l'échantillonnage par rejet, écartant les exemples de raisonnement incorrects — des données précieuses, mais souvent sous-utilisées. Cet article aborde la question cruciale : Comment exploiter efficacement à la fois les traces de raisonnement distillées positives et négatives pour maximiser les performances de raisonnement des LLM dans un contexte hors ligne ? À cette fin, nous proposons la Distillation par Renforcement (REDI), un cadre en deux étapes. L'étape 1 apprend à partir des traces positives via un Réglage Supervisé (SFT). L'étape 2 affine davantage le modèle en utilisant à la fois les traces positives et négatives grâce à notre objectif REDI proposé. Cet objectif novateur est une fonction de perte simple et sans référence qui surpasse les méthodes établies comme DPO et SimPO dans ce contexte de distillation. Nos évaluations empiriques démontrent la supériorité de REDI par rapport aux bases de référence que sont le SFT par échantillonnage par rejet ou le SFT combiné à DPO/SimPO sur des tâches de raisonnement mathématique. Notamment, le modèle Qwen-REDI-1.5B, post-entraîné sur seulement 131 000 exemples positifs et négatifs provenant du jeu de données ouvert Open-R1, atteint un score de 83,1 % sur MATH-500 (pass@1). Ses performances égalent ou surpassent celles de DeepSeek-R1-Distill-Qwen-1.5B (un modèle post-entraîné sur 800 000 données propriétaires) sur divers benchmarks de raisonnement mathématique, établissant un nouvel état de l'art pour les modèles de 1,5B post-entraînés hors ligne avec des données ouvertement disponibles.
Nous présentons DexUMI - un cadre de collecte de données et d'apprentissage de politiques qui utilise la main humaine comme interface naturelle pour transférer des compétences de manipulation dextre à diverses mains robotiques. DexUMI inclut des adaptations matérielles et logicielles pour minimiser l'écart d'incarnation entre la main humaine et différentes mains robotiques. L'adaptation matérielle comble l'écart cinématique en utilisant un exosquelette de main portable. Il permet un retour haptique direct lors de la collecte de données de manipulation et adapte le mouvement humain à un mouvement réalisable par une main robotique. L'adaptation logicielle comble l'écart visuel en remplaçant la main humaine dans les données vidéo par une reconstruction fidèle de main robotique. Nous démontrons les capacités de DexUMI à travers des expériences complètes en conditions réelles sur deux plates-formes matérielles différentes de mains robotiques dextres, atteignant un taux de réussite moyen des tâches de 86%.
Les modèles de langage multimodaux de grande envergure (MLLMs) ont obtenu des performances remarquables sur des tâches complexes impliquant un contexte multimodal. Cependant, il reste encore peu étudié s'ils présentent une préférence modale lors du traitement de contextes multimodaux. Pour étudier cette question, nous avons d'abord construit un benchmark MC\textsuperscript{2} dans des scénarios de conflit de preuves contrôlés afin d'évaluer systématiquement la préférence modale, c'est-à-dire la tendance à favoriser une modalité par rapport à une autre lors de la prise de décisions basées sur des preuves multimodales conflictuelles. Notre évaluation approfondie révèle que les 18 MLLMs testés démontrent généralement un biais modal clair, et que la préférence modale peut être influencée par des interventions externes. Une analyse approfondie montre que la direction de la préférence peut être capturée dans les représentations latentes des MLLMs. Sur cette base, nous proposons une méthode de sondage et de pilotage basée sur l'ingénierie des représentations pour contrôler explicitement la préférence modale sans nécessiter de réglage fin supplémentaire ou de prompts soigneusement élaborés. Notre méthode amplifie efficacement la préférence modale dans une direction souhaitée et s'applique à des tâches en aval telles que l'atténuation des hallucinations et la traduction automatique multimodale, apportant des améliorations prometteuses.
Les Agents de Langage de Jeu de Rôle (RPLAs) visent à simuler des personnages pour des interactions homme-machine réalistes et captivantes. Cependant, les modèles de récompense traditionnels rencontrent souvent des difficultés en termes d'évolutivité et d'adaptation aux préférences conversationnelles subjectives. Nous proposons ChARM, un Modèle de Récompense Adaptatif basé sur les Actes de Personnage, qui aborde ces défis grâce à deux innovations : (1) une marge adaptative aux actes qui améliore significativement l'efficacité d'apprentissage et la généralisation, et (2) un mécanisme d'auto-évolution exploitant des données non labellisées à grande échelle pour améliorer la couverture de l'entraînement. Par ailleurs, nous introduisons RoleplayPref, le premier ensemble de données de préférences à grande échelle spécifiquement conçu pour les RPLAs, comprenant 1 108 personnages, 13 sous-catégories et 16 888 dialogues bilingues, ainsi que RoleplayEval, un benchmark d'évaluation dédié. Les résultats expérimentaux montrent une amélioration de 13 % par rapport au modèle Bradley-Terry conventionnel dans les classements de préférences. De plus, l'application des récompenses générées par ChARM aux techniques d'apprentissage des préférences (par exemple, l'optimisation directe des préférences) permet d'obtenir des résultats de pointe sur CharacterEval et RoleplayEval. Le code et l'ensemble de données sont disponibles à l'adresse https://github.com/calubkk/ChARM.
Les grands modèles de langage (LLMs) démontrent une capacité remarquable à adopter des personnalités et à s'engager dans des jeux de rôle. Cependant, évaluer cette aptitude présente des défis importants, car les évaluations humaines sont coûteuses en ressources et les évaluations automatisées peuvent être biaisées. Pour résoudre ce problème, nous introduisons Role-Playing Eval (RPEval), un nouveau benchmark conçu pour évaluer les capacités de jeu de rôle des LLMs selon quatre dimensions clés : la compréhension émotionnelle, la prise de décision, l'alignement moral et la cohérence dans le personnage. Cet article détaille la construction de RPEval et présente des évaluations de référence. Notre code et notre ensemble de données sont disponibles à l'adresse https://github.com/yelboudouri/RPEval.
Alors que les lois d'échelle ont transformé le traitement du langage naturel et la vision par ordinateur, la compréhension des nuages de points 3D n'a pas encore atteint ce stade. Cela peut être attribué à la fois à l'échelle relativement plus petite des ensembles de données 3D, ainsi qu'aux sources disparates des données elles-mêmes. Les nuages de points sont capturés par divers capteurs (par exemple, caméras de profondeur, LiDAR) dans des domaines variés (par exemple, intérieur, extérieur), chacun introduisant des modèles de balayage, des densités d'échantillonnage et des biais sémantiques uniques. Une telle hétérogénéité de domaine constitue un obstacle majeur à l'entraînement de modèles unifiés à grande échelle, en particulier sous la contrainte réaliste que les étiquettes de domaine sont généralement inaccessibles au moment de l'inférence. Dans ce travail, nous proposons Point-MoE, une architecture de Mélange d'Experts conçue pour permettre une généralisation à grande échelle et inter-domaines dans la perception 3D. Nous montrons que les architectures standard de nuages de points voient leurs performances se dégrader significativement lorsqu'elles sont entraînées sur des données multi-domaines, alors que Point-MoE avec une simple stratégie de routage top-k peut spécialiser automatiquement les experts, même sans accès aux étiquettes de domaine. Nos expériences démontrent que Point-MoE surpasse non seulement les solides références multi-domaines, mais généralise également mieux à des domaines non vus. Ce travail met en lumière une voie évolutive pour la compréhension 3D : laisser le modèle découvrir la structure dans des données 3D diverses, plutôt que de l'imposer par une curation manuelle ou une supervision de domaine.
Les récents progrès dans l'optimisation au moment du test ont conduit à des capacités de raisonnement remarquables dans les modèles de langage de grande taille (LLMs), leur permettant de résoudre des problèmes hautement complexes en mathématiques et en codage. Cependant, les capacités de raisonnement des LLMs multimodaux (MLLMs) restent nettement en retard, en particulier pour les tâches complexes impliquant la vidéo et le langage. Pour résoudre ce problème, nous présentons SiLVR, un cadre simple de raisonnement vidéo basé sur le langage qui décompose la compréhension complexe de la vidéo en deux étapes. Dans la première étape, SiLVR transforme la vidéo brute en représentations basées sur le langage en utilisant des entrées multisensorielles, telles que des légendes de courts clips et des sous-titres audio/parole. Dans la deuxième étape, les descriptions linguistiques sont introduites dans un LLM de raisonnement puissant pour résoudre des tâches complexes de compréhension vidéo-langage. Pour gérer les entrées multisensorielles à contexte long, nous utilisons un schéma de réduction de jetons adaptatif, qui détermine dynamiquement la granularité temporelle à laquelle échantillonner les jetons. Notre cadre simple, modulaire et sans entraînement pour le raisonnement vidéo obtient les meilleurs résultats rapportés sur Video-MME (long), Video-MMMU (compréhension), Video-MMLU, CGBench et EgoLife. De plus, notre étude empirique axée sur les capacités de raisonnement vidéo montre que, bien qu'ils ne soient pas explicitement entraînés sur la vidéo, les LLMs de raisonnement puissants peuvent effectivement agréger des informations d'entrée multisensorielles provenant de la vidéo, de la parole et de l'audio pour des tâches de raisonnement temporel, causal, à contexte long et d'acquisition de connaissances dans la vidéo. Le code est disponible à l'adresse https://github.com/CeeZh/SILVR.
À une époque de croissance scientifique exponentielle, identifier des idées de recherche novatrices est crucial et complexe dans le milieu académique. Malgré leur potentiel, l'absence d'un ensemble de données de référence approprié entrave la recherche sur la détection de nouveauté. Plus important encore, l'adoption simple des technologies existantes en traitement du langage naturel (TLN), comme la récupération suivie d'une vérification croisée, ne constitue pas une solution universelle en raison de l'écart entre la similarité textuelle et la conception d'idées. Dans cet article, nous proposons d'exploiter les grands modèles de langage (LLMs) pour la détection de nouveauté scientifique (ND), en association avec deux nouveaux ensembles de données dans les domaines du marketing et du TLN. Pour construire des ensembles de données adaptés à la ND, nous proposons d'extraire des ensembles de fermeture d'articles en fonction de leurs relations, puis de résumer leurs idées principales à l'aide de LLMs. Pour capturer la conception d'idées, nous proposons d'entraîner un récupérateur léger en distillant les connaissances au niveau des idées des LLMs pour aligner les idées ayant une conception similaire, permettant ainsi une récupération d'idées efficace et précise pour la détection de nouveauté par LLM. Les expériences montrent que notre méthode surpasse systématiquement les autres sur les ensembles de données de référence proposés pour les tâches de récupération d'idées et de ND. Les codes et les données sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/NoveltyDetection-10FB/.
Le pré-entraînement contrastif langue-image (CLIP) est devenu un modèle de base et a été appliqué à diverses tâches de vision et multimodales. Cependant, des travaux récents indiquent que CLIP peine à distinguer les différences détaillées dans les images et montre des performances sous-optimales sur les tâches de prédiction dense et les tâches multimodales centrées sur la vision. Par conséquent, ce travail se concentre sur l'amélioration des modèles CLIP existants, visant à capturer autant de détails visuels dans les images que possible. Nous constatons qu'un type spécifique de modèles génératifs, unCLIP, fournit un cadre approprié pour atteindre notre objectif. Plus précisément, unCLIP entraîne un générateur d'images conditionné sur l'embedding d'image de CLIP. En d'autres termes, il inverse l'encodeur d'images de CLIP. Par rapport aux modèles discriminatifs comme CLIP, les modèles génératifs sont meilleurs pour capturer les détails des images car ils sont entraînés à apprendre la distribution des données des images. De plus, l'espace d'entrée conditionnel d'unCLIP s'aligne avec l'espace d'embedding image-texte original de CLIP. Par conséquent, nous proposons d'inverser unCLIP (appelé un^2CLIP) pour améliorer le modèle CLIP. De cette manière, l'encodeur d'images amélioré peut acquérir la capacité de capture de détails visuels d'unCLIP tout en préservant son alignement avec l'encodeur de texte original. Nous évaluons notre CLIP amélioré sur diverses tâches auxquelles CLIP a été appliqué, y compris le benchmark MMVP-VLM, la tâche de segmentation à vocabulaire ouvert de prédiction dense, et les tâches de modèles de langage multimodaux de grande taille. Les expériences montrent que un^2CLIP améliore significativement le CLIP original et les méthodes précédentes d'amélioration de CLIP. Le code et les modèles seront disponibles à l'adresse https://github.com/LiYinqi/un2CLIP.
Les grands modèles de langage (LLMs) tels que GPT-4o sont capables de gérer un large éventail de tâches complexes avec un bon prompt. À mesure que les coûts par token diminuent, les avantages du fine-tuning des petits modèles de langage (SLMs) pour des applications réelles — inférence plus rapide, coûts réduits — pourraient ne plus être évidents. Dans ce travail, nous présentons des preuves que, pour des tâches spécifiques à un domaine nécessitant des sorties structurées, les SLMs conservent un avantage en termes de qualité. Nous comparons le fine-tuning d'un SLM à l'utilisation de prompts sur des LLMs pour la génération de workflows low-code sous forme JSON. Nous observons que, bien qu'un bon prompt puisse donner des résultats raisonnables, le fine-tuning améliore la qualité de 10 % en moyenne. Nous effectuons également une analyse systématique des erreurs pour révéler les limites des modèles.
Les grands modèles de langage (LLMs) ont montré un potentiel remarquable, mais il reste difficile de les améliorer continuellement par le biais de l’affinage traditionnel, en particulier lors de l’intégration de capacités provenant d’autres LLMs spécialisés. Les méthodes populaires telles que l’assemblage (ensemble) et la fusion de poids nécessitent une mémoire substantielle et peinent à s’adapter à des environnements de données changeants. Des efforts récents ont permis de transférer des connaissances provenant de plusieurs LLMs vers un modèle cible unique ; cependant, ils souffrent d’interférences et d’une dégradation des performances entre les tâches, principalement en raison d’une flexibilité limitée dans la sélection des candidats et les pipelines d’entraînement. Pour résoudre ces problèmes, nous proposons un cadre qui sélectionne et agrège de manière adaptative les connaissances provenant de divers LLMs afin de construire un modèle unique et plus performant, évitant ainsi la surcharge mémoire élevée de l’assemblage et la rigidité de la fusion de poids. Plus précisément, nous concevons un réseau de sélection adaptative qui identifie les LLMs sources les plus pertinents en fonction de leurs scores, réduisant ainsi les interférences de connaissances. Nous proposons également une stratégie de fusion pondérée dynamique qui tient compte des forces intrinsèques des LLMs candidats, ainsi qu’une fonction de perte pilotée par rétroaction qui empêche le sélecteur de converger vers un seul sous-ensemble de sources. Les résultats expérimentaux démontrent que notre méthode permet un processus d’agrégation des connaissances plus stable et évolutif, tout en réduisant les interférences de connaissances jusqu’à 50 % par rapport aux approches existantes. Le code est disponible à l’adresse suivante : https://github.com/ZLKong/LLM_Integration.
Le rôle des unités cachées dans les réseaux neuronaux récurrents est généralement perçu comme la modélisation de la mémoire, avec des recherches axées sur l'amélioration de la rétention d'information grâce à des mécanismes de gating. Une perspective moins explorée considère les unités cachées comme des participants actifs dans le calcul effectué par le réseau, plutôt que comme des réservoirs de mémoire passifs. Dans ce travail, nous revisitons les opérations bi-linéaires, qui impliquent des interactions multiplicatives entre les unités cachées et les embeddings d'entrée. Nous démontrons théoriquement et empiriquement qu'elles constituent un biais inductif naturel pour représenter l'évolution des états cachés dans les tâches de suivi d'état. Ces dernières constituent le type de tâche le plus simple nécessitant que les unités cachées contribuent activement au comportement du réseau. Nous montrons également que les mises à jour d'état bi-linéaires forment une hiérarchie naturelle correspondant à des tâches de suivi d'état de complexité croissante, avec des réseaux récurrents linéaires populaires tels que Mamba situés au centre de cette hiérarchie, là où la complexité est la plus faible.
Les modèles de langage de grande taille (LLMs) excellent dans diverses tâches de traitement du langage naturel, mais restent vulnérables à la génération de contenus nuisibles ou à l'exploitation à des fins malveillantes. Bien que des ensembles de données d'alignement de sécurité aient été introduits pour atténuer ces risques grâce à un réglage fin supervisé (SFT), ces ensembles de données manquent souvent de couverture exhaustive des risques. La plupart des ensembles de données existants se concentrent principalement sur la diversité lexicale tout en négligeant d'autres dimensions critiques. Pour remédier à cette limitation, nous proposons un cadre d'analyse novateur permettant de mesurer systématiquement la couverture des risques des ensembles de données d'alignement selon trois dimensions essentielles : la diversité lexicale, l'intention malveillante et les tactiques de contournement (jailbreak). Nous introduisons également TRIDENT, un pipeline automatisé qui exploite la génération zero-shot basée sur des personnages par des LLM pour produire des instructions diversifiées et complètes couvrant ces dimensions. Chaque instruction nuisible est associée à une réponse éthiquement alignée, résultant en deux ensembles de données : TRIDENT-Core, comprenant 26 311 exemples, et TRIDENT-Edge, avec 18 773 exemples. Le réglage fin de Llama 3.1-8B sur TRIDENT-Edge montre des améliorations substantielles, avec une réduction moyenne de 14,29 % du score de nuisance et une diminution de 20 % du taux de réussite des attaques par rapport au modèle de référence le plus performant réglé sur l'ensemble de données WildBreak.
La similarité sémantique textuelle (STS) est une tâche cruciale en traitement automatique du langage naturel (TALN), permettant des applications dans la recherche d'information, le clustering et la compréhension des relations sémantiques entre textes. Cependant, la recherche dans ce domaine pour la langue arabe reste limitée en raison du manque de jeux de données de haute qualité et de modèles pré-entraînés. Cette pénurie de ressources a restreint l'évaluation précise et l'avancement de la similarité sémantique dans les textes arabes. Cet article présente les modèles General Arabic Text Embedding (GATE), qui atteignent des performances de pointe sur la tâche de similarité sémantique textuelle dans le benchmark MTEB. GATE exploite l'apprentissage de représentations Matryoshka et une approche d'entraînement avec une fonction de perte hybride utilisant des jeux de données de triplets arabes pour l'inférence en langage naturel, éléments essentiels pour améliorer les performances du modèle dans les tâches nécessitant une compréhension sémantique fine. GATE surpasse des modèles plus volumineux, y compris ceux d'OpenAI, avec une amélioration des performances de 20 à 25 % sur les benchmarks STS, capturant efficacement les nuances sémantiques uniques de l'arabe.
Les grands modèles de langage (LLM) montrent un potentiel remarquable pour démocratiser le raisonnement automatisé en générant des spécifications formelles. Cependant, une tension fondamentale existe : les LLM sont probabilistes, tandis que la vérification formelle exige des garanties déterministes. Cet article aborde cet écart épistémologique en étudiant de manière exhaustive les modes de défaillance et la quantification de l'incertitude (UQ) dans les artefacts formels générés par les LLM. Notre évaluation systématique de cinq LLM de pointe révèle l'impact spécifique au domaine de l'autoformalisation basée sur les théories de satisfiabilité modulo (SMT) sur la précision (allant de +34,8 % pour les tâches logiques à -44,5 % pour les tâches factuelles), avec des techniques d'UQ connues comme l'entropie des probabilités de tokens échouant à identifier ces erreurs. Nous introduisons un cadre de grammaire hors contexte probabiliste (PCFG) pour modéliser les sorties des LLM, produisant une taxonomie raffinée de l'incertitude. Nous constatons que les signaux d'incertitude dépendent de la tâche (par exemple, l'entropie grammaticale pour la logique, AUROC>0,93). Enfin, une fusion légère de ces signaux permet une vérification sélective, réduisant considérablement les erreurs (14-100 %) avec une abstention minimale, transformant ainsi la formalisation pilotée par les LLM en une discipline d'ingénierie fiable.
Les agents d'IA sont de plus en plus utilisés dans des applications destinées aux consommateurs pour les assister dans des tâches telles que la recherche de produits, la négociation et l'exécution de transactions. Dans cet article, nous explorons un scénario futur où à la fois les consommateurs et les commerçants autorisent des agents d'IA à automatiser entièrement les négociations et les transactions. Nous cherchons à répondre à deux questions clés : (1) Les différents agents de LLM varient-ils dans leur capacité à obtenir des accords favorables pour les utilisateurs ? (2) Quels risques découlent de l'automatisation complète de la conclusion d'accords par des agents d'IA sur les marchés de consommation ? Pour répondre à ces questions, nous développons un cadre expérimental qui évalue la performance de divers agents de LLM dans des contextes réels de négociation et de transaction. Nos résultats révèlent que la conclusion d'accords médiée par l'IA est un jeu intrinsèquement déséquilibré — différents agents obtiennent des résultats significativement différents pour leurs utilisateurs. De plus, des anomalies comportementales dans les LLM peuvent entraîner des pertes financières pour les consommateurs et les commerçants, telles que des dépenses excessives ou l'acceptation d'accords déraisonnables. Ces résultats soulignent que si l'automatisation peut améliorer l'efficacité, elle introduit également des risques substantiels. Les utilisateurs devraient faire preuve de prudence lorsqu'ils délèguent des décisions commerciales à des agents d'IA.
Les capacités émergentes des grands modèles de langage (LLMs) ont suscité des inquiétudes quant à leur potentiel immédiat d'utilisation néfaste. L'approche principale pour atténuer ces préoccupations est la détection des requêtes nuisibles adressées au modèle. Les méthodes de détection actuelles sont faillibles et particulièrement vulnérables aux attaques qui exploitent une généralisation incohérente des capacités du modèle (par exemple, des prompts dans des langues peu représentées ou des prompts fournis sous des modalités non textuelles telles que l'image et l'audio). Pour relever ce défi, nous proposons OMNIGUARD, une approche pour détecter les prompts nuisibles à travers les langues et les modalités. Notre méthode (i) identifie les représentations internes d'un LLM/MLLM qui sont alignées entre les langues ou les modalités, puis (ii) les utilise pour construire un classificateur indépendant de la langue ou de la modalité afin de détecter les prompts nuisibles. OMNIGUARD améliore la précision de classification des prompts nuisibles de 11,57 % par rapport à la base de référence la plus solide dans un contexte multilingue, de 20,44 % pour les prompts basés sur l'image, et établit un nouvel état de l'art pour les prompts basés sur l'audio. En réutilisant les embeddings calculés lors de la génération, OMNIGUARD est également très efficace (environ 120 fois plus rapide que la base de référence suivante). Le code et les données sont disponibles à l'adresse : https://github.com/vsahil/OmniGuard.
La recherche de cas juridiques (Legal Case Retrieval, LCR), qui consiste à retrouver des cas pertinents à partir d'un cas de requête, est une tâche fondamentale pour les professionnels du droit dans leurs recherches et prises de décision. Cependant, les études existantes sur la LCR présentent deux limitations majeures. Premièrement, elles sont évaluées sur des corpus de recherche relativement petits (par exemple, 100 à 55 000 cas) et utilisent une gamme étroite de types de requêtes criminelles, ce qui ne reflète pas suffisamment la complexité des scénarios réels de recherche juridique. Deuxièmement, leur dépendance à des méthodes basées sur des embeddings ou des correspondances lexicales aboutit souvent à des représentations limitées et à des correspondances juridiquement non pertinentes. Pour résoudre ces problèmes, nous présentons : (1) LEGAR BENCH, le premier benchmark coréen à grande échelle pour la LCR, couvrant 411 types de crimes divers dans les requêtes sur 1,2 million de cas juridiques ; et (2) LegalSearchLM, un modèle de recherche qui effectue un raisonnement sur les éléments juridiques du cas de requête et génère directement un contenu ancré dans les cas cibles grâce à un décodage contraint. Les résultats expérimentaux montrent que LegalSearchLM surpasse les modèles de référence de 6 à 20 % sur LEGAR BENCH, atteignant des performances de pointe. Il démontre également une forte généralisation aux cas hors domaine, surpassant les modèles génératifs naïfs entraînés sur des données du domaine de 15 %.
Une limitation des méthodes modernes d'incorporation pour la recherche de documents est qu'elles encodent généralement les passages (segments) issus des mêmes documents de manière indépendante, négligeant souvent des informations contextuelles cruciales provenant du reste du document qui pourraient grandement améliorer la représentation des segments individuels. Dans ce travail, nous présentons ConTEB (Context-aware Text Embedding Benchmark), un benchmark conçu pour évaluer les modèles de recherche sur leur capacité à exploiter le contexte à l'échelle du document. Nos résultats montrent que les modèles d'incorporation de pointe peinent dans les scénarios de recherche où le contexte est nécessaire. Pour remédier à cette limitation, nous proposons InSeNT (In-sequence Negative Training), une nouvelle approche de post-entraînement contrastif qui, combinée à un regroupement tardif des segments, améliore l'apprentissage des représentations contextuelles tout en préservant l'efficacité computationnelle. Notre méthode améliore significativement la qualité de la recherche sur ConTEB sans sacrifier les performances du modèle de base. Nous constatons également que les segments incorporés avec notre méthode sont plus robustes face à des stratégies de segmentation sous-optimales et à des tailles de corpus de recherche plus importantes. Nous mettons à disposition tous les artefacts en open-source à l'adresse suivante : https://github.com/illuin-tech/contextual-embeddings.
Cet article présente une analyse approfondie de la diversité linguistique dans la recherche sur la sécurité des modèles de langage (LLM), mettant en lumière le caractère centré sur l'anglais de ce domaine. À travers une revue systématique de près de 300 publications parues entre 2020 et 2024 dans les principales conférences et ateliers de traitement automatique du langage (NLP) de l'*ACL, nous identifions un écart linguistique significatif et croissant dans la recherche sur la sécurité des LLM, où même les langues non anglaises à ressources élevées reçoivent une attention minimale. Nous observons en outre que les langues non anglaises sont rarement étudiées en tant que langues autonomes et que la recherche sur la sécurité en anglais présente de faibles pratiques de documentation linguistique. Pour encourager de futures recherches sur la sécurité multilingue, nous formulons plusieurs recommandations basées sur notre étude, puis proposons trois axes concrets pour l'avenir : l'évaluation de la sécurité, la génération de données d'entraînement et la généralisation translinguistique de la sécurité. Sur la base de notre étude et des orientations proposées, le domaine pourra développer des pratiques de sécurité de l'IA plus robustes et inclusives pour des populations mondiales diversifiées.