Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les méthodes modernes de fine-tuning efficace en paramètres (PEFT) telles que l'adaptation de bas rang (LoRA) réduisent le coût de personnalisation des grands modèles de langage (LLM), mais nécessitent toujours une optimisation distincte pour chaque ensemble de données en aval. Nous introduisons Drag-and-Drop LLMs (\textit{DnD}), un générateur de paramètres conditionné par des prompts qui élimine l'entraînement par tâche en mappant une poignée de prompts non étiquetés directement à des mises à jour de poids LoRA. Un encodeur de texte léger distille chaque lot de prompts en embeddings de condition, qui sont ensuite transformés par un décodeur hyper-convolutionnel en cascade en l'ensemble complet des matrices LoRA. Une fois entraîné sur une collection diversifiée de paires prompt-checkpoint, DnD produit des paramètres spécifiques à la tâche en quelques secondes, offrant i) jusqu'à 12 000 fois moins de surcharge que le fine-tuning complet, ii) des gains moyens allant jusqu'à 30 % en performance par rapport aux LoRA les plus performants sur des benchmarks de raisonnement de bon sens, de mathématiques, de codage et multimodaux non vus, et iii) une généralisation robuste entre domaines malgré n'avoir jamais vu les données ou les étiquettes cibles. Nos résultats démontrent que la génération de paramètres conditionnée par des prompts est une alternative viable à l'adaptation basée sur le gradient pour spécialiser rapidement les LLM. Notre projet est disponible à l'adresse https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
Les systèmes de Génération Augmentée par Récupération (RAG) ont révolutionné la recherche d'information et la réponse aux questions, mais les méthodes traditionnelles de segmentation de texte peinent à gérer les structures complexes de documents, les tableaux multi-pages, les figures intégrées et les dépendances contextuelles traversant les limites des pages. Nous présentons une nouvelle approche de segmentation multimodale de documents qui exploite les Modèles Multimodaux de Grande Taille (LMM) pour traiter les documents PDF par lots tout en préservant la cohérence sémantique et l'intégrité structurelle. Notre méthode traite les documents par lots de pages configurables avec préservation du contexte inter-lots, permettant une gestion précise des tableaux s'étendant sur plusieurs pages, des éléments visuels intégrés et du contenu procédural. Nous évaluons notre approche sur un ensemble de données soigneusement sélectionné de documents PDF avec des requêtes manuellement élaborées, démontrant des améliorations dans la qualité des segments et les performances en aval des systèmes RAG. Notre approche guidée par la vision atteint une meilleure précision par rapport aux systèmes RAG traditionnels, avec une analyse qualitative montrant une préservation supérieure de la structure du document et de la cohérence sémantique.
Dans la génération visuelle, la complexité quadratique des mécanismes d'attention entraîne des coûts élevés en mémoire et en calcul, en particulier pour les séquences de tokens plus longues nécessaires dans la génération d'images haute résolution ou de vidéos multi-images. Pour y remédier, des recherches antérieures ont exploré des techniques telles que la sparsification et la quantification. Cependant, ces techniques rencontrent des défis importants sous de faibles densités et des largeurs de bits réduites. À travers une analyse systématique, nous identifions que la difficulté principale découle des caractéristiques dispersées et irrégulières des motifs d'attention visuelle. Par conséquent, au lieu d'introduire des conceptions spécialisées de sparsification et de quantification pour s'adapter à ces motifs, nous proposons une stratégie alternative : *réorganiser* le motif d'attention pour atténuer ces défis. Inspirés par la nature d'agrégation locale de l'extraction de caractéristiques visuelles, nous concevons une nouvelle technique **Pattern-Aware token ReOrdering (PARO)**, qui unifie les divers motifs d'attention en un motif par blocs adapté au matériel. Cette unification simplifie et améliore considérablement à la fois la sparsification et la quantification. Nous évaluons les compromis performance-efficacité de divers choix de conception et finalisons une méthodologie adaptée au motif unifié. Notre approche, **PAROAttention**, permet la génération de vidéos et d'images avec des métriques sans perte, et des résultats presque identiques aux références en pleine précision (FP), tout en opérant à des densités notablement plus faibles (~20%-30%) et des largeurs de bits réduites (**INT8/INT4**), atteignant une accélération de latence de bout en bout de **1,9x** à **2,7x**.
Les récentes avancées dans la génération de vidéos basée sur la diffusion et contrôlable ont permis une synthèse vidéo de haute qualité et cohérente temporellement, posant les bases pour des expériences de jeu immersives et interactives. Cependant, les méthodes actuelles présentent des limitations en termes de dynamique, de généralité, de cohérence à long terme et d'efficacité, ce qui restreint la capacité à créer diverses vidéos de gameplay. Pour combler ces lacunes, nous introduisons Hunyuan-GameCraft, un nouveau cadre pour la génération de vidéos interactives à haute dynamique dans des environnements de jeu. Pour parvenir à un contrôle précis des actions, nous unifions les entrées standard du clavier et de la souris dans un espace de représentation de caméra partagé, facilitant une interpolation fluide entre diverses opérations de caméra et de mouvement. Ensuite, nous proposons une stratégie d'entraînement hybride conditionnée par l'historique, qui étend les séquences vidéo de manière autorégressive tout en préservant les informations de la scène de jeu. De plus, pour améliorer l'efficacité de l'inférence et la jouabilité, nous réalisons une distillation de modèle afin de réduire la surcharge computationnelle tout en maintenant la cohérence sur de longues séquences temporelles, rendant le modèle adapté à un déploiement en temps réel dans des environnements interactifs complexes. Le modèle est entraîné sur un vaste ensemble de données comprenant plus d'un million d'enregistrements de gameplay provenant de plus de 100 jeux AAA, assurant une couverture large et diversifiée, puis affiné sur un ensemble de données synthétiques soigneusement annoté pour améliorer la précision et le contrôle. Les données de scènes de jeu soigneusement sélectionnées améliorent significativement la fidélité visuelle, le réalisme et la contrôlabilité des actions. Des expériences approfondies démontrent que Hunyuan-GameCraft surpasse significativement les modèles existants, faisant progresser le réalisme et la jouabilité de la génération de vidéos de jeu interactives.
La coordination de multiples agents incarnés dans des environnements dynamiques demeure un défi central en intelligence artificielle, nécessitant à la fois un raisonnement basé sur la perception et des stratégies de coopération évolutives. Bien que des travaux récents aient exploité des modèles de langage de grande taille (LLMs) pour la planification multi-agents, peu ont commencé à explorer les modèles vision-langage (VLMs) pour le raisonnement visuel. Cependant, ces approches basées sur les VLMs restent limitées dans leur prise en charge de divers types d'incarnation. Dans ce travail, nous introduisons VIKI-Bench, le premier benchmark hiérarchique conçu pour la coopération multi-agents incarnés, comportant trois niveaux structurés : activation des agents, planification des tâches et perception des trajectoires. VIKI-Bench inclut diverses incarnations de robots, des observations visuelles multi-vues et des signaux de supervision structurés pour évaluer le raisonnement ancré dans les entrées visuelles. Pour démontrer l'utilité de VIKI-Bench, nous proposons VIKI-R, un framework en deux étapes qui affine un modèle vision-langage pré-entraîné (VLM) en utilisant des démonstrations annotées par Chain-of-Thought, suivi d'un apprentissage par renforcement sous des signaux de récompense multi-niveaux. Nos expériences approfondies montrent que VIKI-R surpasse significativement les méthodes de référence à tous les niveaux de tâches. De plus, nous montrons que l'apprentissage par renforcement permet l'émergence de modèles de coopération compositionnels parmi des agents hétérogènes. Ensemble, VIKI-Bench et VIKI-R offrent un banc d'essai unifié et une méthode pour faire progresser la coopération multi-agents pilotée par la vision dans les systèmes d'IA incarnés.
Les systèmes de synthèse vocale (TTS) de pointe atteignent un haut niveau de naturalité dans des environnements monolingues, mais la synthèse de la parole avec des accents multilingues corrects (en particulier pour les langues indiennes) et des émotions pertinentes au contexte reste difficile en raison des divergences de nuances culturelles dans les cadres actuels. Cet article présente une nouvelle architecture TTS intégrant l'accent tout en préservant la translittération avec une modélisation des émotions à multi-échelle, spécialement adaptée pour l'hindi et l'accent anglais indien. Notre approche étend le modèle Parler-TTS en intégrant une architecture hybride encodeur-décodeur spécifique à la langue pour l'alignement des phonèmes, des couches d'incorporation d'émotions sensibles à la culture entraînées sur des corpus de locuteurs natifs, ainsi qu'un changement dynamique d'accent avec quantification vectorielle résiduelle. Les tests quantitatifs démontrent une amélioration de 23,7 % dans la précision de l'accent (réduction du taux d'erreur sur les mots de 15,4 % à 11,8 %) et une précision de reconnaissance des émotions de 85,3 % par les auditeurs natifs, surpassant les références METTS et VECL-TTS. La nouveauté du système réside dans sa capacité à mélanger les codes en temps réel - générant des phrases telles que "Namaste, parlons de <phrase en hindi>" avec des transitions d'accent fluides tout en préservant la cohérence émotionnelle. Une évaluation subjective auprès de 200 utilisateurs a rapporté un score d'opinion moyen (MOS) de 4,2/5 pour la justesse culturelle, bien supérieur aux systèmes multilingues existants (p<0,01). Cette recherche rend la synthèse translinguistique plus réalisable en démontrant une séparation scalable entre accent et émotion, avec une application directe dans les logiciels éducatifs et d'accessibilité en Asie du Sud.
La synthèse de panoramas 3D est une tâche prometteuse mais complexe, nécessitant une apparence visuelle et une géométrie de haute qualité et diversifiées pour le contenu omnidirectionnel généré. Les méthodes existantes exploitent des connaissances riches issues de modèles de base 2D pré-entraînés pour pallier la rareté des données panoramiques 3D, mais l'incompatibilité entre les panoramas 3D et les vues uniques 2D limite leur efficacité. Dans ce travail, nous démontrons qu'en appliquant une synchronisation multi-plans aux opérateurs issus de modèles de base 2D, leurs capacités peuvent être étendues de manière fluide au domaine omnidirectionnel. Sur la base de cette conception, nous introduisons DreamCube, un modèle de diffusion RGB-D multi-plans pour la génération de panoramas 3D, qui maximise la réutilisation des connaissances des modèles de base 2D pour obtenir des apparences variées et une géométrie précise tout en maintenant la cohérence multi-vues. Des expériences approfondies démontrent l'efficacité de notre approche dans la génération d'images panoramiques, l'estimation de profondeur panoramique et la génération de scènes 3D.
Dans ce rapport, nous présentons Hunyuan3D 2.5, une suite robuste de modèles de diffusion 3D visant à générer des actifs 3D texturés de haute fidélité et détaillés. Hunyuan3D 2.5 suit le pipeline en deux étapes de sa version précédente, Hunyuan3D 2.0, tout en démontrant des avancées significatives dans la génération de formes et de textures. En ce qui concerne la génération de formes, nous introduisons un nouveau modèle de base pour les formes — LATTICE — qui est entraîné avec des ensembles de données de haute qualité, une taille de modèle et une puissance de calcul accrues. Notre plus grand modèle atteint 10 milliards de paramètres et génère des formes 3D nettes et détaillées avec un suivi précis image-3D, tout en maintenant une surface de maillage propre et lisse, réduisant ainsi considérablement l'écart entre les formes 3D générées et celles créées manuellement. Pour la génération de textures, elle est améliorée avec un rendu basé sur la physique (PBR) via une nouvelle architecture multi-vues étendue à partir du modèle Paint de Hunyuan3D 2.0. Notre évaluation approfondie montre que Hunyuan3D 2.5 surpasse de manière significative les méthodes précédentes tant dans la génération de formes que dans la génération de textures de bout en bout.
Les modèles vision-langage (VLMs) excellent dans la compréhension multimodale, mais leur décodage basé uniquement sur le texte les oblige à verbaliser leur raisonnement visuel, limitant ainsi leurs performances sur des tâches nécessitant une imagination visuelle. Des tentatives récentes ont cherché à entraîner les VLMs à générer des images explicites, mais le pré-entraînement intensif en génération d'images compromet souvent leur capacité de raisonnement. Inspirés par la manière dont les humains raisonnent avec des images mentales—la construction et la manipulation internes d'indices visuels—nous explorons si les VLMs peuvent raisonner à travers des trajectoires multimodales entrelacées sans produire d'images explicites. À cette fin, nous proposons un cadre de Machine Mental Imagery, baptisé Mirage, qui enrichit le décodage des VLMs avec des tokens visuels latents en plus du texte ordinaire. Concrètement, lorsque le modèle choisit de « penser visuellement », il reformule ses états cachés en tokens suivants, poursuivant ainsi une trajectoire multimodale sans générer d'images au niveau des pixels. En commençant par superviser les tokens latents via une distillation à partir d'embeddings d'images de référence, nous passons ensuite à une supervision basée uniquement sur le texte pour aligner étroitement la trajectoire latente avec l'objectif de la tâche. Une étape d'apprentissage par renforcement renforce ensuite la capacité de raisonnement multimodal. Les expériences sur divers benchmarks démontrent que Mirage débloque un raisonnement multimodal plus puissant sans génération explicite d'images.
La compréhension et la génération unifiées d'images sont apparues comme un paradigme prometteur dans l'intelligence artificielle multimodale. Malgré les progrès récents, la conception architecturale optimale pour de tels modèles unifiés reste un défi ouvert. Dans ce travail, nous commençons par analyser les comportements d'alignement des modalités des modèles experts spécifiques à une tâche pour la compréhension et la génération, ainsi que des modèles unifiés actuels. Notre analyse révèle une observation cruciale : les tâches de compréhension bénéficient d'un alignement progressivement croissant des modalités à travers la profondeur du réseau, ce qui aide à construire des informations sémantiques pour une meilleure compréhension ; en revanche, les tâches de génération suivent une tendance différente : l'alignement des modalités augmente dans les couches initiales mais diminue dans les couches profondes pour récupérer les détails spatiaux. Ces schémas d'alignement divergents créent un conflit fondamental dans les architectures Transformer entièrement partagées, où un flux de représentation uniforme conduit souvent à des compromis de performance entre les deux tâches. Motivés par cette découverte, nous introduisons UniFork, une architecture en forme de Y qui partage les couches superficielles pour l'apprentissage de représentations inter-tâches, tout en employant des branches spécifiques aux tâches dans les couches plus profondes pour éviter les interférences entre tâches. Cette conception équilibre efficacement l'apprentissage partagé et la spécialisation des tâches. À travers des expériences d'ablation approfondies, nous démontrons qu'UniFork surpasse systématiquement les architectures Transformer entièrement partagées conventionnelles et atteint des performances égales ou supérieures à celles des modèles spécifiques à une tâche.
Le contenu 3D généré par intelligence artificielle (AIGC) est un domaine passionnant qui a considérablement accéléré la création de modèles 3D dans les secteurs du jeu vidéo, du cinéma et du design. Malgré le développement de plusieurs modèles révolutionnaires qui ont transformé la génération 3D, ce domaine reste largement accessible uniquement aux chercheurs, développeurs et concepteurs en raison des complexités liées à la collecte, au traitement et à l’entraînement des modèles 3D. Pour relever ces défis, nous présentons Hunyuan3D 2.1 comme étude de cas dans ce tutoriel. Ce tutoriel propose un guide complet et détaillé sur le traitement des données 3D, l’entraînement d’un modèle génératif 3D et l’évaluation de ses performances à l’aide de Hunyuan3D 2.1, un système avancé pour produire des actifs 3D haute résolution et texturés. Le système comprend deux composants principaux : Hunyuan3D-DiT pour la génération de formes et Hunyuan3D-Paint pour la synthèse de textures. Nous explorerons l’ensemble du flux de travail, incluant la préparation des données, l’architecture du modèle, les stratégies d’entraînement, les métriques d’évaluation et le déploiement. À l’issue de ce tutoriel, vous disposerez des connaissances nécessaires pour affiner ou développer un modèle génératif 3D robuste, adapté aux applications dans les domaines du jeu vidéo, de la réalité virtuelle et du design industriel.
Les modèles de langage multimodaux de grande envergure (MLLMs) modernes peuvent raisonner sur des vidéos d'une heure, mais leur cache clé-valeur (KV) croît linéairement avec le temps, dépassant rapidement la mémoire fixe des téléphones, des lunettes AR et des robots périphériques. Les schémas de compression antérieurs supposent soit que la vidéo entière et la requête de l'utilisateur sont disponibles hors ligne, soit qu'ils doivent d'abord construire le cache complet, de sorte que la mémoire continue de s'étendre avec la durée du flux. InfiniPot-V est le premier cadre d'analyse sans apprentissage et indépendant des requêtes qui impose une limite de mémoire stricte et indépendante de la durée pour la compréhension des vidéos en flux continu. Pendant l'encodage de la vidéo, il surveille le cache et, une fois qu'un seuil défini par l'utilisateur est atteint, exécute une passe de compression légère qui (i) supprime les tokens redondants dans le temps via la métrique de redondance temporelle (TaR) et (ii) conserve les tokens sémantiquement significatifs via le classement basé sur la norme des valeurs (VaN). Sur quatre MLLMs open-source et quatre benchmarks de vidéos longues et deux de vidéos en flux continu, InfiniPot-V réduit la mémoire GPU maximale jusqu'à 94%, maintient une génération en temps réel et correspond ou dépasse la précision du cache complet—même dans des dialogues multi-tours. En éliminant le goulot d'étranglement du cache KV sans nécessiter de réentraînement ou de connaissance des requêtes, InfiniPot-V comble le fossé pour les assistants vidéo en flux continu sur appareil.
Une promesse que les modèles Vision-Langage-Action (VLA) offrent par rapport à l'apprentissage par imitation traditionnel en robotique est de tirer parti des vastes capacités de généralisation des grands modèles Vision-Langage (VLM) pour produire des politiques robotiques polyvalentes et "généralistes". Cependant, les évaluations actuelles des VLA restent insuffisantes. Les benchmarks traditionnels d'apprentissage par imitation ne sont pas adaptés en raison de l'absence d'instructions langagières. Les benchmarks émergents pour les VLA qui intègrent le langage sont souvent limités en termes de tâches d'évaluation et ne visent pas à étudier dans quelle mesure le pré-entraînement des VLM contribue réellement aux capacités de généralisation de la politique robotique en aval. Par ailleurs, une grande partie de la recherche repose sur des configurations robotiques réelles conçues de manière isolée par différentes institutions, ce qui crée un obstacle à la reproductibilité et à l'accessibilité. Pour combler cette lacune, nous introduisons une suite de tests unifiée composée de 50 tâches basées sur la simulation, réparties en 10 sous-catégories couvrant les instructions langagières, la vision et les objets. Nous évaluons systématiquement plusieurs architectures VLA de pointe sur cette suite afin de comprendre leur capacité de généralisation. Nos résultats montrent que si les architectures VLM confèrent aux VLA une compréhension perceptuelle robuste et une planification de haut niveau, que nous qualifions de "bonnes intentions", cela ne se traduit pas de manière fiable en une exécution motrice précise : face à des observations hors distribution, les politiques affichent souvent des intentions cohérentes, mais échouent dans l'exécution des actions. De plus, le fine-tuning sur des données d'action peut éroder les capacités de raisonnement généraliste du VLM d'origine. Nous publions notre suite de tâches et notre code d'évaluation pour servir de benchmark standardisé pour les futurs VLA et pour stimuler la recherche sur la réduction de l'écart entre la perception et l'action. Plus d'informations, y compris le code source, sont disponibles à l'adresse https://ai4ce.github.io/INT-ACT/.
Un simulateur de trafic idéal reproduit le déplacement réaliste à long terme d'un point à un autre qu'un système de conduite autonome expérimente lors de son déploiement. Les modèles et benchmarks précédents se concentrent sur la simulation en boucle fermée du mouvement des agents initiaux dans une scène. Cela pose problème pour la simulation à long terme, car les agents entrent et sortent de la scène à mesure que le véhicule égoïste pénètre dans de nouvelles régions. Nous proposons InfGen, un modèle unifié de prédiction du prochain jeton qui effectue une simulation intercalée du mouvement en boucle fermée et une génération de scène. InfGen bascule automatiquement entre le mode de simulation en boucle fermée et le mode de génération de scène. Il permet une simulation stable à long terme. InfGen atteint des performances de pointe dans la simulation de trafic à court terme (9s) et surpasse significativement toutes les autres méthodes dans la simulation à long terme (30s). Le code et le modèle d'InfGen seront disponibles sur https://orangesodahub.github.io/InfGen.
La combinaison de modèles experts pré-entraînés offre un potentiel considérable pour le raisonnement multimodal évolutif, mais la construction d'un cadre unifié reste un défi en raison de la diversité croissante des modalités d'entrée et de la complexité des tâches. Par exemple, le diagnostic médical nécessite un raisonnement précis sur des tableaux cliniques structurés, tandis que la prévision financière dépend de l'interprétation de données graphiques pour formuler des prédictions éclairées. Pour relever ce défi, nous présentons MEXA, un cadre sans entraînement qui effectue une agrégation consciente des modalités et des tâches de plusieurs modèles experts afin de permettre un raisonnement multimodal efficace dans des domaines divers et distincts. MEXA sélectionne dynamiquement les modèles experts en fonction de la modalité d'entrée et des exigences de raisonnement spécifiques à la tâche (c'est-à-dire les compétences). Chaque modèle expert, spécialisé dans une paire modalité-tâche, génère des sorties de raisonnement textuelles interprétables. MEXA agrège ensuite ces sorties et raisonne dessus à l'aide d'un Grand Modèle de Raisonnement (LRM) pour produire la réponse finale. Cette conception modulaire permet un raisonnement multimodal flexible et transparent dans divers domaines sans surcharge d'entraînement supplémentaire. Nous évaluons largement notre approche sur divers benchmarks multimodaux, notamment le raisonnement vidéo, le raisonnement audio, la compréhension 3D et les questions-réponses médicales. MEXA améliore systématiquement les performances par rapport à des bases de référence multimodales solides, mettant en évidence l'efficacité et la large applicabilité de notre sélection et agrégation pilotées par des experts dans diverses tâches de raisonnement multimodal.
La génération de résumés impartiaux dans des contextes réels tels que la synthèse de perspectives politiques reste une application cruciale des modèles de langage à grande échelle (LLMs). Cependant, les cadres d'évaluation existants s'appuient sur des métriques traditionnelles pour mesurer des attributs clés tels que la couverture et la fidélité sans vérifier leur applicabilité, et les efforts pour développer des systèmes de synthèse améliorés sont encore à leurs débuts. Nous comblons ces lacunes en (1) identifiant des métriques fiables pour mesurer la qualité des résumés de perspectives, et (2) en examinant l'efficacité des méthodes basées sur les LLMs au-delà de l'inférence zero-shot. Plus précisément, nous construisons un ensemble de tests pour évaluer la fiabilité des métriques en utilisant des annotations humaines et montrons que les métriques traditionnelles sont moins performantes que les métriques basées sur des modèles de langage, qui s'avèrent être des évaluateurs robustes. En utilisant ces métriques, nous démontrons que les méthodes basées sur le réordonnancement donnent des résultats solides, et que l'ajustement des préférences avec des données générées de manière synthétique et étiquetées par réordonnancement améliore encore les performances. Nos résultats visent à contribuer à l'évaluation fiable et au développement des méthodes de synthèse de perspectives.
Le marquage des sorties des modèles génératifs est apparu comme une approche prometteuse pour suivre leur provenance. Malgré un intérêt significatif pour les modèles de génération d'images autorégressifs et leur potentiel d'utilisation abusive, aucun travail antérieur n'a tenté de marquer leurs sorties au niveau des tokens. Dans ce travail, nous présentons la première approche de ce type en adaptant les techniques de marquage des modèles de langage à ce contexte. Nous identifions un défi majeur : l'absence de cohérence inverse du cycle (RCC), où la re-tokenisation des tokens d'images générées modifie significativement la séquence de tokens, effaçant ainsi le marquage. Pour résoudre ce problème et rendre notre méthode robuste aux transformations d'images courantes, à la compression neuronale et aux attaques de suppression, nous introduisons (i) une procédure de fine-tuning personnalisée de tokenizer-detokenizer qui améliore la RCC, et (ii) une couche de synchronisation de marquage complémentaire. Comme le démontrent nos expériences, notre approche permet une détection fiable et robuste du marquage avec des valeurs p théoriquement fondées.
L'inversion de modèles de langage vise à récupérer des prompts cachés en utilisant uniquement les sorties du modèle de langage. Cette capacité a des implications pour la sécurité et la responsabilité dans les déploiements de modèles de langage, comme la fuite d'informations privées à partir du message système d'un modèle de langage protégé par API. Nous proposons une nouvelle méthode -- l'inversion de prompt à partir de séquences de logprobs (PILS) -- qui récupère les prompts cachés en extrayant des indices à partir des probabilités de prochain token du modèle au cours de plusieurs étapes de génération. Notre méthode est rendue possible par une idée clé : les sorties vectorielles d'un modèle de langage occupent un sous-espace de faible dimension. Cela nous permet de compresser sans perte la distribution complète des probabilités de prochain token sur plusieurs étapes de génération en utilisant une application linéaire, permettant ainsi d'utiliser plus d'informations de sortie pour l'inversion. Notre approche apporte des gains massifs par rapport aux méthodes précédentes de l'état de l'art pour la récupération de prompts cachés, atteignant des taux de récupération exacte 2 à 3,5 fois plus élevés sur les ensembles de test, augmentant dans un cas le taux de récupération de 17% à 60%. Notre méthode montre également un comportement de généralisation étonnamment bon ; par exemple, un inverseur entraîné sur 16 étapes de génération obtient une récupération de prompt 5 à 27 points plus élevée lorsque nous augmentons le nombre d'étapes à 32 au moment du test. De plus, nous démontrons une forte performance de notre méthode sur la tâche plus difficile de récupération de messages système cachés. Nous analysons également le rôle de la répétition littérale dans la récupération de prompt et proposons une nouvelle méthode pour le transfert inter-familles de modèles pour les inverseurs basés sur les logits. Nos résultats montrent que les probabilités de prochain token constituent une surface d'attaque considérablement plus vulnérable pour les attaques d'inversion que ce qui était connu auparavant.