papers.description
Bien que les modèles contemporains de génération d'images à partir de texte aient réalisé des avancées remarquables dans la production d'images visuellement attrayantes, leur capacité à générer des éléments typographiques précis et flexibles, en particulier pour les alphabets non latins, reste limitée. Pour répondre à ces limitations, nous partons d'une hypothèse naïve selon laquelle la compréhension du texte est une condition suffisante, mais non nécessaire, pour le rendu du texte. Sur cette base, nous présentons RepText, qui vise à doter les modèles pré-entraînés monolingues de génération d'images à partir de texte de la capacité de rendre, ou plus précisément, de reproduire avec précision du texte visuel multilingue dans des polices spécifiées par l'utilisateur, sans avoir besoin de vraiment le comprendre. Concrètement, nous adoptons le cadre de ControlNet et intégrons en plus des glyphes et des positions de texte rendus indépendants de la langue pour permettre la génération de texte visuel harmonisé, permettant aux utilisateurs de personnaliser le contenu, la police et la position du texte selon leurs besoins. Pour améliorer la précision, une perte perceptuelle du texte est utilisée en complément de la perte de diffusion. De plus, pour stabiliser le processus de rendu, lors de la phase d'inférence, nous initialisons directement avec un latent de glyphe bruité au lieu d'une initialisation aléatoire, et adoptons des masques de région pour limiter l'injection de caractéristiques à la seule région du texte afin d'éviter la distorsion de l'arrière-plan. Nous avons mené des expériences approfondies pour vérifier l'efficacité de notre RepText par rapport aux travaux existants. Notre approche surpasse les méthodes open-source existantes et obtient des résultats comparables aux modèles natifs multilingues propriétaires. Pour être plus équitable, nous discutons également exhaustivement de ses limitations à la fin.
Les prestataires de soins de santé mondiaux explorent l'utilisation des grands modèles de langage (LLMs) pour fournir des conseils médicaux au public. Les LLMs obtiennent désormais des scores quasi parfaits aux examens de licence médicale, mais cela ne se traduit pas nécessairement par une performance précise dans des contextes réels. Nous avons testé si les LLMs peuvent aider les membres du public à identifier des conditions sous-jacentes et à choisir une ligne de conduite (disposition) dans dix scénarios médicaux lors d'une étude contrôlée avec 1 298 participants. Les participants ont été assignés au hasard pour recevoir une assistance d'un LLM (GPT-4o, Llama 3, Command R+) ou d'une source de leur choix (groupe témoin). Testés seuls, les LLMs complètent les scénarios avec précision, identifiant correctement les conditions dans 94,9 % des cas et la disposition dans 56,3 % en moyenne. Cependant, les participants utilisant les mêmes LLMs ont identifié les conditions pertinentes dans moins de 34,5 % des cas et la disposition dans moins de 44,2 %, aucun de ces résultats n'étant meilleur que ceux du groupe témoin. Nous identifions les interactions utilisateur comme un défi au déploiement des LLMs pour les conseils médicaux. Les benchmarks standard pour les connaissances médicales et les interactions simulées avec des patients ne prédisent pas les échecs que nous observons avec les participants humains. Pour aller de l'avant, nous recommandons des tests systématiques avec des utilisateurs humains pour évaluer les capacités interactives avant tout déploiement public dans le domaine de la santé.
Avec l'essor rapide des grands modèles de langage (LLM), l'automatisation des téléphones a connu des transformations majeures. Cet article passe en revue de manière systématique les agents d'interface graphique (GUI) téléphoniques pilotés par des LLM, en mettant en lumière leur évolution depuis l'automatisation basée sur des scripts vers des systèmes intelligents et adaptatifs. Nous contextualisons d'abord les principaux défis : (i) la généralité limitée, (ii) la charge de maintenance élevée, et (iii) la faible compréhension des intentions, et montrons comment les LLM abordent ces problèmes grâce à une compréhension avancée du langage, une perception multimodale et une prise de décision robuste. Nous proposons ensuite une taxonomie couvrant les cadres fondamentaux des agents (agent unique, multi-agents, planification puis action), les approches de modélisation (ingénierie des prompts, apprentissage par entraînement) ainsi que les ensembles de données et benchmarks essentiels. De plus, nous détaillons les architectures spécifiques aux tâches, le réglage fin supervisé et les stratégies d'apprentissage par renforcement qui relient les intentions des utilisateurs aux opérations sur l'interface graphique. Enfin, nous discutons des défis ouverts tels que la diversité des ensembles de données, l'efficacité du déploiement sur appareil, l'adaptation centrée sur l'utilisateur et les préoccupations de sécurité, en offrant des perspectives prospectives sur ce domaine en évolution rapide. En fournissant une vue d'ensemble structurée et en identifiant les lacunes de recherche pressantes, cet article sert de référence définitive pour les chercheurs et praticiens cherchant à exploiter les LLM dans la conception d'agents d'interface graphique téléphoniques évolutifs et conviviaux.
Les modèles de langage de grande taille (LLMs) ont démontré une remarquable capacité à générer des réponses contextuellement cohérentes, mais leurs fenêtres de contexte fixes posent des défis fondamentaux pour maintenir la cohérence dans des dialogues prolongés sur plusieurs sessions. Nous présentons Mem0, une architecture centrée sur la mémoire et évolutive, qui résout ce problème en extrayant, consolidant et récupérant dynamiquement les informations saillantes des conversations en cours. Sur cette base, nous proposons également une variante améliorée qui exploite des représentations de mémoire basées sur des graphes pour capturer les structures relationnelles complexes entre les éléments conversationnels. À travers des évaluations approfondies sur le benchmark LOCOMO, nous comparons systématiquement nos approches à six catégories de références : (i) les systèmes établis augmentés de mémoire, (ii) la génération augmentée par récupération (RAG) avec différentes tailles de segments et valeurs de k, (iii) une approche de contexte complet qui traite l'intégralité de l'historique de la conversation, (iv) une solution de mémoire open-source, (v) un système de modèle propriétaire, et (vi) une plateforme dédiée à la gestion de la mémoire. Les résultats empiriques montrent que nos méthodes surpassent systématiquement tous les systèmes de mémoire existants dans quatre catégories de questions : à saut unique, temporelles, à sauts multiples et ouvertes. Notamment, Mem0 obtient une amélioration relative de 26 % sur la métrique LLM-as-a-Judge par rapport à OpenAI, tandis que Mem0 avec mémoire graphique atteint un score global environ 2 % plus élevé que la configuration de base. Au-delà des gains en précision, nous réduisons également de manière significative la surcharge computationnelle par rapport à la méthode de contexte complet. En particulier, Mem0 atteint une latence p95 inférieure de 91 % et économise plus de 90 % des coûts en tokens, offrant un équilibre convaincant entre des capacités de raisonnement avancées et les contraintes pratiques de déploiement. Nos résultats mettent en lumière le rôle crucial des mécanismes de mémoire structurée et persistante pour la cohérence conversationnelle à long terme, ouvrant la voie à des agents IA pilotés par des LLMs plus fiables et efficaces.
Évaluer la fiabilité étape par étape du raisonnement des grands modèles de langage (LLM), comme la Chaîne de Pensée (Chain-of-Thought), reste un défi en raison de la difficulté et du coût liés à l'obtention d'une supervision de haute qualité au niveau des étapes. Dans cet article, nous introduisons le **Self-Play Critic (SPC)**, une approche novatrice dans laquelle un modèle critique développe sa capacité à évaluer les étapes de raisonnement à travers des jeux adversariaux d'auto-apprentissage, éliminant ainsi le besoin d'annotations manuelles au niveau des étapes. Le SPC consiste à affiner deux copies d'un modèle de base pour jouer deux rôles : un **"générateur sournois"** qui produit délibérément des étapes erronées conçues pour être difficiles à détecter, et un **"critique"** qui analyse la justesse des étapes de raisonnement. Ces deux modèles s'engagent dans un jeu adversarial où le générateur cherche à tromper le critique, tandis que le modèle critique vise à identifier les erreurs du générateur. En utilisant l'apprentissage par renforcement basé sur les résultats du jeu, les modèles s'améliorent de manière itérative : le gagnant de chaque confrontation reçoit une récompense positive et le perdant une récompense négative, favorisant ainsi une auto-évolution continue. Les expériences menées sur trois benchmarks de processus de raisonnement (ProcessBench, PRM800K, DeltaBench) démontrent que notre SPC améliore progressivement ses capacités de détection d'erreurs (par exemple, la précision passe de 70,8 % à 77,7 % sur ProcessBench) et surpasse des modèles de référence solides, y compris le modèle R1 distillé. De plus, l'application du SPC pour guider la recherche en temps réel de divers LLM améliore significativement leurs performances en raisonnement mathématique sur MATH500 et AIME2024, surpassant les modèles de récompense de processus les plus avancés.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables, en particulier les récents progrès en matière de raisonnement, tels que o1 et o3, repoussant les limites de l'IA. Malgré ces réalisations impressionnantes en mathématiques et en programmation, les capacités de raisonnement des LLM dans les domaines nécessitant une expertise cryptographique restent peu explorées. Dans cet article, nous présentons CipherBank, un benchmark complet conçu pour évaluer les capacités de raisonnement des LLM dans les tâches de décryptage cryptographique. CipherBank comprend 2 358 problèmes soigneusement élaborés, couvrant 262 textes clairs uniques répartis dans 5 domaines et 14 sous-domaines, en mettant l'accent sur des scénarios sensibles à la vie privée et réalistes nécessitant un chiffrement. D'un point de vue cryptographique, CipherBank intègre 3 grandes catégories de méthodes de chiffrement, englobant 9 algorithmes distincts, allant des chiffrements classiques aux techniques cryptographiques personnalisées. Nous évaluons les LLM de pointe sur CipherBank, par exemple GPT-4o, DeepSeek-V3, ainsi que des modèles axés sur le raisonnement de pointe tels que o1 et DeepSeek-R1. Nos résultats révèlent des lacunes significatives dans les capacités de raisonnement, non seulement entre les LLM de discussion généralistes et les LLM axés sur le raisonnement, mais aussi dans la performance des modèles actuels axés sur le raisonnement lorsqu'ils sont appliqués à des tâches de décryptage cryptographique classiques, mettant en évidence les défis que ces modèles rencontrent pour comprendre et manipuler les données chiffrées. Grâce à une analyse détaillée et à des investigations sur les erreurs, nous fournissons plusieurs observations clés qui éclairent les limites et les domaines d'amélioration potentiels pour les LLM en matière de raisonnement cryptographique. Ces résultats soulignent la nécessité d'avancées continues dans les capacités de raisonnement des LLM.
Les récentes avancées dans les modèles de vision et langage de grande envergure (LVLMs) ont considérablement amélioré leur capacité à intégrer des informations visuelles et linguistiques, atteignant une compétence quasi humaine dans des tâches telles que la reconnaissance d'objets, la génération de légendes et la réponse à des questions visuelles. Cependant, les benchmarks actuels se concentrent généralement sur des évaluations centrées sur les connaissances qui mesurent l'expertise dans des domaines spécifiques, négligeant souvent la capacité fondamentale à raisonner sur des éléments mathématiques et des concepts visuels de base. Nous identifions un manque dans l'évaluation des problèmes mathématiques de niveau élémentaire, qui reposent sur des dépendances visuelles explicites, nécessitant que les modèles discernent, intègrent et raisonnent à travers plusieurs images tout en incorporant des connaissances de bon sens, éléments cruciaux pour progresser vers des capacités d'AGI plus larges. Pour combler cette lacune, nous introduisons VCBENCH, un benchmark complet pour le raisonnement mathématique multimodal avec des dépendances visuelles explicites. VCBENCH comprend 1 720 problèmes répartis dans six domaines cognitifs, incluant 6 697 images (en moyenne 3,9 par question) pour garantir un raisonnement multi-image. Nous évaluons 26 LVLMs de pointe sur VCBENCH, révélant des disparités de performance substantielles, avec même les meilleurs modèles incapables de dépasser 50 % de précision. Nos résultats mettent en lumière les défis persistants dans l'intégration visuo-mathématique et suggèrent des pistes pour les futures avancées des LVLMs.
Les couches de sous-échantillonnage sont des éléments essentiels dans les architectures de CNN, qui contribuent à augmenter le champ réceptif pour l'apprentissage de caractéristiques de haut niveau et à réduire la quantité de mémoire/calcul dans le modèle. Dans ce travail, nous étudions la généralisation de la couche de sous-échantillonnage uniforme pour les architectures équivariantes par groupe, par exemple, les G-CNN. Plus précisément, nous visons à sous-échantillonner des signaux (cartes de caractéristiques) sur des groupes finis généraux avec anti-crénelage. Cela implique les éléments suivants : (a) Étant donné un groupe fini et un taux de sous-échantillonnage, nous présentons un algorithme pour former un choix approprié de sous-groupe. (b) Étant donné un groupe et un sous-groupe, nous étudions la notion de limitation de bande et proposons comment effectuer l'anti-crénelage. Notamment, notre méthode généralise la notion de sous-échantillonnage basée sur la théorie classique de l'échantillonnage. Lorsque le signal est sur un groupe cyclique, c'est-à-dire périodique, notre méthode retrouve le sous-échantillonnage standard d'un filtre passe-bas idéal suivi d'une opération de sous-échantillonnage. Enfin, nous avons mené des expériences sur des tâches de classification d'images démontrant que l'opération de sous-échantillonnage proposée améliore la précision, préserve mieux l'équivariance et réduit la taille du modèle lorsqu'elle est intégrée dans les réseaux G-équivariants.
L'intégration des capacités de contexte long avec la compréhension visuelle débloque un potentiel sans précédent pour les modèles de langage visuel (VLMs). Cependant, la complexité quadratique de l'attention lors de la phase de pré-remplissage reste un obstacle majeur au déploiement en conditions réelles. Pour surmonter cette limitation, nous introduisons MMInference (Multimodality Million tokens Inference), une méthode d'attention dynamique parcimonieuse qui accélère l'étape de pré-remplissage pour les entrées multimodales à contexte long. D'abord, notre analyse révèle que la localité temporelle et spatiale des entrées vidéo conduit à un motif parcimonieux unique, le motif en grille. Parallèlement, les VLMs présentent des distributions parcimonieuses nettement différentes selon les modalités. Nous introduisons une méthode basée sur les permutations pour exploiter le motif en grille unique et gérer les problèmes de frontières entre modalités. En recherchant hors ligne les motifs parcimonieux optimaux pour chaque tête, MMInference construit dynamiquement la distribution parcimonieuse en fonction de l'entrée. Nous fournissons également des noyaux GPU optimisés pour des calculs parcimonieux efficaces. Notamment, MMInference s'intègre de manière transparente dans les pipelines existants de VLMs sans nécessiter de modifications du modèle ou de réglage fin. Les expériences sur des benchmarks multimodaux—incluant Video QA, Captioning, VisionNIAH, et Mixed-Modality NIAH—avec des VLMs à contexte long de pointe (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) montrent que MMInference accélère l'étape de pré-remplissage jusqu'à 8,3 fois pour 1 million de tokens tout en maintenant la précision. Notre code est disponible à l'adresse https://aka.ms/MMInference.
Les modèles existants de Vision-Langue-Action (VLA) ont montré des performances prometteuses dans des scénarios zero-shot, démontrant des capacités impressionnantes d'exécution de tâches et de raisonnement. Cependant, un défi majeur réside dans les limitations de l'encodage visuel, qui peuvent entraîner des échecs lors de tâches telles que la saisie d'objets. De plus, ces modèles souffrent généralement d'un coût computationnel élevé en raison de leur grande taille, dépassant souvent 7 milliards de paramètres. Bien que ces modèles excellent en raisonnement et en planification de tâches, le coût computationnel substantiel qu'ils engendrent les rend peu pratiques pour des environnements robotiques en temps réel, où la vitesse et l'efficacité sont primordiales. Pour pallier les limitations des modèles VLA existants, nous proposons NORA, un modèle de 3 milliards de paramètres conçu pour réduire le coût computationnel tout en maintenant de solides performances de tâche. NORA adopte le modèle multimodal Qwen-2.5-VL-3B comme architecture de base, tirant parti de sa compréhension visuo-sémantique supérieure pour améliorer le raisonnement visuel et l'ancrage des actions. En outre, notre modèle est entraîné sur 970 000 démonstrations robotiques du monde réel et équipé du tokenizer FAST+ pour une génération efficace de séquences d'actions. Les résultats expérimentaux montrent que NORA surpasse les modèles VLA à grande échelle existants, obtenant de meilleures performances de tâche avec un coût computationnel significativement réduit, ce qui en fait une solution plus pratique pour l'autonomie robotique en temps réel.
La génération de chansons se concentre sur la production de chansons de haute qualité et contrôlables à partir de divers prompts. Cependant, les méthodes existantes peinent à générer des voix et des accompagnements avec un contrôle basé sur les prompts et un alignement approprié. De plus, elles ne parviennent pas à supporter diverses tâches. Pour relever ces défis, nous introduisons VersBand, un framework de génération de chansons multi-tâches permettant de synthétiser des chansons de haute qualité, alignées et contrôlables via des prompts. VersBand comprend les modèles principaux suivants : 1) VocalBand, un modèle découplé, qui exploite la méthode de flow-matching pour générer des styles de chant, des hauteurs et des mel-spectrogrammes, permettant une génération vocale rapide et de haute qualité avec contrôle du style. 2) AccompBand, un modèle transformer basé sur les flows, qui intègre le Band-MOE, sélectionnant des experts adaptés pour améliorer la qualité, l'alignement et le contrôle. Ce modèle permet de générer des accompagnements contrôlables et de haute qualité alignés avec les voix. 3) Deux modèles de génération, LyricBand pour les paroles et MelodyBand pour les mélodies, contribuent au système complet de génération de chansons multi-tâches, permettant un contrôle étendu basé sur plusieurs prompts. Les résultats expérimentaux démontrent que VersBand surpasse les modèles de référence dans plusieurs tâches de génération de chansons, selon des métriques objectives et subjectives. Des échantillons audio sont disponibles à l'adresse https://VersBand.github.io.
La résolution de problèmes géométriques mathématiques (GPS) nécessite souvent une intégration efficace d'informations multimodales et une cohérence logique vérifiable. Malgré le développement rapide des grands modèles de langage dans la résolution générale de problèmes, les aspects méthodologiques et les benchmarks restent non résolus, en particulier étant donné que les benchmarks synthétiques existants pour GPS ne sont souvent pas auto-vérifiés et contiennent du bruit ainsi que des informations contradictoires en raison des illusions des LLMs. Dans cet article, nous proposons un moteur de données évolutif appelé TrustGeoGen pour la génération de problèmes, avec une vérification formelle pour fournir un benchmark fondé sur des principes, ce qui, selon nous, pose les bases pour le développement ultérieur de méthodes pour GPS. Le moteur synthétise des données géométriques grâce à quatre innovations clés : 1) la génération alignée multimodalement de diagrammes, de descriptions textuelles et de solutions étape par étape ; 2) la vérification formelle assurant des chemins de raisonnement conformes aux règles ; 3) un mécanisme de bootstrapping permettant une escalade de complexité via la génération récursive d'états et 4) nos algorithmes GeoExplore conçus pour produire simultanément des variantes à solutions multiples et des traces de rétrospection auto-réfléchies. Grâce à la vérification logique formelle, TrustGeoGen produit le jeu de données GeoTrust-200K avec une intégrité modale garantie, ainsi que le jeu de test GeoTrust-test. Les expériences révèlent que les modèles de pointe n'atteignent qu'une précision de 49,17 % sur GeoTrust-test, démontrant ainsi sa rigueur d'évaluation. De manière cruciale, les modèles entraînés sur GeoTrust atteignent une généralisation hors distribution (OOD) sur GeoQA, réduisant significativement les incohérences logiques par rapport aux pseudo-labels annotés par OpenAI-o1. Notre code est disponible à l'adresse https://github.com/Alpha-Innovator/TrustGeoGen.
Les travaux récents suggèrent que l'apprentissage en contexte (In-Context Learning, ICL) fonctionne selon deux modes distincts : la récupération de tâches (rappel des motifs appris lors du pré-entraînement) et l'apprentissage de tâches (« apprentissage » au moment de l'inférence à partir de démonstrations). Cependant, séparer ces deux modes reste un objectif difficile à atteindre. Nous introduisons ICL CIPHERS, une classe de reformulations de tâches basées sur des chiffrements par substitution empruntés à la cryptographie classique. Dans cette approche, un sous-ensemble de tokens dans les entrées en contexte est remplacé par d'autres tokens (sans rapport), rendant les phrases en anglais moins compréhensibles à l'œil humain. Cependant, par conception, il existe un motif latent et fixe à cette substitution, la rendant réversible. Ce chiffrement bijectif (réversible) garantit que la tâche reste bien définie dans un sens abstrait, malgré les transformations. Il est intéressant de se demander si les modèles de langage (LLMs) peuvent résoudre ICL CIPHERS avec une application BIJECTIVE, ce qui nécessite de décrypter le chiffrement latent. Nous montrons que les LLMs sont plus performants pour résoudre ICL CIPHERS avec des applications BIJECTIVES que la ligne de base NON-BIJECTIVE (irréversible), offrant ainsi une nouvelle approche pour quantifier « l'apprentissage » dans ICL. Bien que cet écart soit faible, il est cohérent sur quatre jeux de données et six modèles. Enfin, nous examinons les représentations internes des LLMs et identifions des preuves de leur capacité à décoder les entrées chiffrées.
La demande croissante pour les architectures spécifiques à un domaine (Domain-Specific Architecture, DSA) a stimulé le développement de la méthodologie agile de développement matériel (Agile Hardware Development Methodology, AHDM). Les langages de construction matérielle (Hardware Construction Language, HCL) comme Chisel offrent des fonctionnalités d'abstraction de haut niveau, ce qui en fait un langage idéal pour l'AHDM basée sur HCL. Bien que les modèles de langage de grande taille (Large Language Models, LLMs) excellent dans les tâches de génération de code, ils rencontrent encore des difficultés avec la génération de Chisel, notamment en ce qui concerne la correction syntaxique et la variabilité de conception. Les modèles de raisonnement récents ont considérablement amélioré les capacités de génération de code grâce à des techniques de mise à l'échelle au moment du test. Cependant, nous avons constaté que les modèles de raisonnement sans adaptation de domaine ne peuvent pas apporter d'avantages substantiels aux tâches de génération de code Chisel. Cet article présente ChiseLLM, une solution comprenant le traitement et la transformation des données, la synthèse de traces de raisonnement guidée par des prompts, et l'entraînement de modèles adaptés au domaine. Nous avons construit des ensembles de données de haute qualité à partir de ressources publiques de code RTL et avons guidé le modèle à adopter des schémas de pensée structurés grâce à des méthodes d'amélioration des prompts. Les expériences démontrent que nos modèles ChiseLLM-7B et ChiseLLM-32B ont amélioré la correction syntaxique de 18,85 % et 26,32 % respectivement par rapport aux modèles de base, tout en augmentant la capacité de variabilité de conception de 47,58 % par rapport aux modèles de raisonnement de référence. Nos ensembles de données et modèles sont disponibles publiquement, offrant des modèles performants et économiques pour l'AHDM basée sur HCL, et fournissant une base efficace pour les recherches futures. Dépôt Github : https://github.com/observerw/ChiseLLM