Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'amélioration des modèles existants avec de nouvelles connaissances constitue un aspect crucial du développement de l'IA. Cet article présente une méthode novatrice pour intégrer une nouvelle langue dans un grand modèle de langage (LLM). Notre approche permet d'incorporer avec succès une langue cible précédemment inconnue dans un LLM existant sans compromettre ses connaissances antérieures. Nous avons entraîné un petit modèle de 1,5 milliard de paramètres, nommé Kuwain, en injectant la langue arabe dans un modèle open-source principalement entraîné en anglais. Notre méthode démontre des améliorations significatives dans les performances en arabe, avec une augmentation moyenne de 8 % sur divers benchmarks, tout en conservant les connaissances existantes du modèle avec une quantité minimale de données du modèle original. Cela offre une alternative économique à l'entraînement d'un modèle complet en anglais et en arabe. Les résultats mettent en évidence le potentiel d'une expansion ciblée et efficace des modèles de langage sans nécessiter de réentraînement extensif ou de processus gourmands en ressources.
Cet article explore l'apprentissage par renforcement (Reinforcement Learning, RL) sur des données sans étiquettes explicites pour des tâches de raisonnement dans les grands modèles de langage (Large Language Models, LLMs). Le défi central de ce problème réside dans l'estimation des récompenses lors de l'inférence, sans accès à des informations de référence. Bien que ce contexte semble complexe, nous constatons que les pratiques courantes dans le redimensionnement au moment du test (Test-Time Scaling, TTS), telles que le vote majoritaire, produisent des récompenses étonnamment efficaces pour entraîner le RL. Dans ce travail, nous introduisons l'apprentissage par renforcement au moment du test (Test-Time Reinforcement Learning, TTRL), une méthode novatrice pour entraîner les LLMs en utilisant le RL sur des données non étiquetées. TTRL permet l'auto-évolution des LLMs en exploitant les connaissances préalables des modèles pré-entraînés. Nos expériences démontrent que TTRL améliore systématiquement les performances sur une variété de tâches et de modèles. Notamment, TTRL augmente la performance pass@1 de Qwen-2.5-Math-7B d'environ 159 % sur l'AIME 2024 en utilisant uniquement des données de test non étiquetées. De plus, bien que TTRL ne soit supervisé que par la métrique Maj@N, il a montré une capacité à dépasser systématiquement la limite supérieure du modèle initial et à approcher les performances des modèles entraînés directement sur des données de test avec des étiquettes de référence. Nos résultats expérimentaux valident l'efficacité générale de TTRL sur diverses tâches et mettent en lumière son potentiel pour des tâches et domaines plus larges. GitHub : https://github.com/PRIME-RL/TTRL
Alors que les grands modèles de langage (LLM) continuent de progresser dans leurs capacités linguistiques, une évaluation multilingue robuste est devenue essentielle pour promouvoir un progrès technologique équitable. Ce document de position examine plus de 2 000 benchmarks multilingues (non anglophones) provenant de 148 pays, publiés entre 2021 et 2024, afin d'évaluer les pratiques passées, présentes et futures en matière de benchmarking multilingue. Nos résultats révèlent que, malgré des investissements significatifs atteignant des dizaines de millions de dollars, l'anglais reste largement surreprésenté dans ces benchmarks. De plus, la plupart des benchmarks s'appuient sur du contenu en langue originale plutôt que sur des traductions, avec une majorité provenant de pays disposant de ressources abondantes, tels que la Chine, l'Inde, l'Allemagne, le Royaume-Uni et les États-Unis. Par ailleurs, une comparaison des performances des benchmarks avec les jugements humains met en lumière des disparités notables. Les tâches liées aux STEM (sciences, technologie, ingénierie et mathématiques) montrent de fortes corrélations avec les évaluations humaines (0,70 à 0,85), tandis que les tâches traditionnelles de traitement du langage naturel (NLP) comme la réponse à des questions (par exemple, XQuAD) présentent des corrélations beaucoup plus faibles (0,11 à 0,30). En outre, la traduction de benchmarks anglais dans d'autres langues s'avère insuffisante, car les benchmarks localisés démontrent un alignement significativement plus élevé avec les jugements humains locaux (0,68) que leurs équivalents traduits (0,47). Cela souligne l'importance de créer des benchmarks adaptés culturellement et linguistiquement plutôt que de s'appuyer uniquement sur des traductions. À travers cette analyse approfondie, nous mettons en évidence six limitations majeures des pratiques actuelles d'évaluation multilingue, proposons les principes directeurs correspondants pour un benchmarking multilingue efficace, et esquissons cinq axes de recherche critiques pour faire progresser le domaine. Enfin, nous appelons à un effort collaboratif mondial pour développer des benchmarks alignés sur les jugements humains, en privilégiant les applications réelles.
Générer des descriptions détaillées et précises pour des régions spécifiques dans les images et les vidéos reste un défi fondamental pour les modèles vision-langage. Nous présentons le Describe Anything Model (DAM), un modèle conçu pour le sous-titrage localisé détaillé (Detailed Localized Captioning, DLC). DAM préserve à la fois les détails locaux et le contexte global grâce à deux innovations clés : un prompt focal, qui garantit un encodage haute résolution des régions ciblées, et un backbone visuel localisé, qui intègre une localisation précise avec son contexte plus large. Pour remédier à la rareté des données DLC de haute qualité, nous proposons un pipeline de données basé sur l'apprentissage semi-supervisé (Semi-supervised Learning, SSL) (DLC-SDP). DLC-SDP commence avec des ensembles de données de segmentation existants et s'étend à des images web non étiquetées en utilisant SSL. Nous introduisons DLC-Bench, un benchmark conçu pour évaluer le DLC sans s'appuyer sur des descriptions de référence. DAM établit de nouveaux records sur 7 benchmarks couvrant le sous-titrage localisé au niveau des mots-clés, des phrases et des descriptions multi-phrases détaillées pour les images et les vidéos.
L'augmentation des calculs lors de l'inférence a considérablement amélioré les capacités de raisonnement des modèles de langage. Cependant, les méthodes existantes présentent des limitations significatives : les approches sérialisées de type chaîne de pensée produisent des sorties excessivement longues, entraînant une latence accrue et l'épuisement des fenêtres de contexte, tandis que les méthodes parallèles telles que l'auto-cohérence souffrent d'une coordination insuffisante, conduisant à des calculs redondants et à des gains de performance limités. Pour remédier à ces lacunes, nous proposons le Raisonnement Parallèle Adaptatif (APR), un nouveau cadre de raisonnement qui permet aux modèles de langage d'orchestrer à la fois des calculs sérialisés et parallèles de bout en bout. APR généralise les méthodes de raisonnement existantes en permettant une inférence multi-threadée adaptative grâce aux opérations spawn() et join(). Une innovation clé est notre stratégie d'apprentissage par renforcement de bout en bout, optimisant à la fois les threads d'inférence parents et enfants pour améliorer le taux de réussite des tâches sans nécessiter de structures de raisonnement prédéfinies. Les expériences sur la tâche de raisonnement Countdown démontrent les avantages significatifs d'APR : (1) une performance supérieure dans la même fenêtre de contexte (83,4 % contre 60,0 % à 4k de contexte) ; (2) une meilleure scalabilité avec l'augmentation des calculs (80,1 % contre 66,6 % à 20k tokens au total) ; (3) une précision améliorée à latence équivalente (75,2 % contre 57,3 % à environ 5 000 ms). APR représente une étape vers la capacité des modèles de langage à optimiser de manière autonome leurs processus de raisonnement grâce à l'allocation adaptative des calculs.
Les récents modèles de langage de grande taille pour la vidéo (Video LLMs) reposent souvent sur des annotations humaines coûteuses ou des API de modèles propriétaires (par exemple, GPT-4o) pour générer des données d'entraînement, ce qui limite leur entraînement à grande échelle. Dans cet article, nous explorons l'entraînement à grande échelle pour les Video LLMs en utilisant des transcriptions peu coûteuses issues de la reconnaissance automatique de la parole (ASR). Plus précisément, nous proposons une nouvelle approche d'entraînement en flux continu qui entrelace densément les mots de l'ASR et les images vidéo selon leurs horodatages. Par rapport aux études précédentes sur la représentation vision-langage avec l'ASR, notre méthode s'adapte naturellement aux caractéristiques de flux continu de l'ASR, permettant ainsi au modèle d'apprendre une modélisation vision-langage temporellement alignée et fine. Pour soutenir l'algorithme d'entraînement, nous introduisons un pipeline de production de données pour traiter les vidéos YouTube et leurs sous-titres (CC, identiques à l'ASR), aboutissant au jeu de données Live-CC-5M pour le pré-entraînement et au jeu de données Live-WhisperX-526K pour un réglage fin supervisé (SFT) de haute qualité. Remarquablement, même sans SFT, le modèle LiveCC-7B-Base pré-entraîné uniquement sur l'ASR démontre des performances compétitives en question-réponse vidéo générale et présente une nouvelle capacité en commentaire vidéo en temps réel. Pour évaluer cela, nous concevons soigneusement un nouveau benchmark LiveSports-3K, utilisant LLM-comme-juge pour mesurer le commentaire libre. Les expériences montrent que notre modèle final LiveCC-7B-Instruct peut surpasser des modèles avancés de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) en qualité de commentaire, même en mode temps réel. Parallèlement, il atteint des résultats de pointe à l'échelle 7B/8B sur des benchmarks populaires de question-réponse vidéo tels que VideoMME et OVOBench, démontrant la large généralisabilité de notre approche. Toutes les ressources de cet article ont été publiées à l'adresse https://showlab.github.io/livecc.
Les récents progrès des modèles de langage à grande échelle (LLMs) ont permis la simulation sociale grâce à des systèmes multi-agents. Les efforts antérieurs se concentrent sur des sociétés d'agents créées de toutes pièces, en attribuant à ces agents des personnalités nouvellement définies. Cependant, la simulation de mondes fictionnels établis et de leurs personnages reste largement inexplorée, malgré sa valeur pratique significative. Dans cet article, nous présentons BookWorld, un système complet pour construire et simuler des sociétés multi-agents basées sur des livres. La conception de BookWorld couvre les complexités du monde réel, incluant des personnages divers et dynamiques, des visions du monde fictionnelles, des contraintes et changements géographiques, etc. BookWorld permet diverses applications, notamment la génération d'histoires, les jeux interactifs et la simulation sociale, offrant de nouvelles manières d'étendre et d'explorer des œuvres fictionnelles appréciées. À travers des expériences approfondies, nous démontrons que BookWorld génère des histoires créatives et de haute qualité tout en maintenant une fidélité aux livres sources, surpassant les méthodes précédentes avec un taux de réussite de 75,36 %. Le code de cet article est disponible sur la page du projet : https://bookworld2025.github.io/.
Les cadres d'évaluation existants pour les Modèles de Langage Multimodaux de Grande Taille (MLLMs) se concentrent principalement sur le raisonnement visuel ou les tâches générales de compréhension vidéo, négligeant largement le rôle significatif du contexte visuel dans la compréhension vidéo. Pour combler cette lacune, nous proposons IV-Bench, le premier benchmark complet pour évaluer la Perception et le Raisonnement Vidéo Ancré dans l'Image. IV-Bench se compose de 967 vidéos associées à 2 585 requêtes image-texte méticuleusement annotées, couvrant 13 tâches (7 tâches de perception et 6 tâches de raisonnement) et 5 catégories représentatives. Des évaluations approfondies des MLLMs open-source de pointe (par exemple, InternVL2.5, Qwen2.5-VL) et propriétaires (par exemple, GPT-4o, Gemini2-Flash et Gemini2-Pro) démontrent que les modèles actuels sous-performent considérablement dans la Perception et le Raisonnement Vidéo Ancré dans l'Image, atteignant au mieux une précision de 28,9 %. Une analyse plus poussée révèle des facteurs clés influençant la performance des modèles sur IV-Bench, notamment le schéma d'inférence, le nombre de trames et la résolution. De plus, grâce à une approche simple de synthèse de données, nous démontrons que les défis d'IV-Bench vont au-delà du simple alignement du format de données dans le processus d'entraînement. Ces résultats fournissent collectivement des insights précieux pour les recherches futures. Nos codes et données sont disponibles sur https://github.com/multimodal-art-projection/IV-Bench.
Le succès des modèles de langage de grande taille (LLMs) a suscité un intérêt pour diverses applications agentiques. Une hypothèse clé est que les LLMs, en tirant parti du bon sens et du raisonnement en chaîne de pensée (Chain-of-Thought, CoT), peuvent explorer efficacement et résoudre de manière efficiente des domaines complexes. Cependant, il a été observé que les agents basés sur les LLMs souffrent d'une exploration sous-optimale et du fossé savoir-faire, c'est-à-dire de l'incapacité à agir efficacement sur les connaissances présentes dans le modèle. Dans ce travail, nous étudions systématiquement pourquoi les LLMs performent de manière sous-optimale dans des scénarios de prise de décision. En particulier, nous examinons de près trois modes d'échec prévalents : l'avarice, le biais de fréquence et le fossé savoir-faire. Nous proposons d'atténuer ces lacunes par un ajustement fin via l'apprentissage par renforcement (Reinforcement Learning, RL) sur des justifications CoT auto-générées. Nos expériences, menées sur des bandits multi-bras, des bandits contextuels et le jeu de Tic-tac-toe, démontrent que l'ajustement fin par RL améliore les capacités de prise de décision des LLMs en augmentant l'exploration et en réduisant le fossé savoir-faire. Enfin, nous étudions à la fois des mécanismes classiques d'exploration, tels que l'epsilon-greedy, et des approches spécifiques aux LLMs, comme l'auto-correction et l'auto-cohérence, pour permettre un ajustement fin plus efficace des LLMs pour la prise de décision.
Les récents progrès des grands modèles de langage ont démontré l'efficacité de la mise à l'échelle de la longueur lors du post-entraînement, mais son potentiel pendant le pré-entraînement reste sous-exploré. Nous présentons le Parallel Hidden Decoding Transformer (PHD-Transformer), un cadre novateur qui permet une mise à l'échelle de la longueur efficace pendant le pré-entraînement tout en maintenant l'efficacité de l'inférence. Le PHD-Transformer y parvient grâce à une stratégie innovante de gestion du cache KV qui distingue les tokens originaux des tokens de décodage cachés. En conservant uniquement le cache KV des tokens originaux pour les dépendances à longue portée tout en éliminant immédiatement les tokens de décodage cachés après leur utilisation, notre approche maintient la même taille de cache KV que le transformer classique tout en permettant une mise à l'échelle de la longueur efficace. Pour améliorer encore les performances, nous introduisons deux variantes optimisées : PHD-SWA utilise une attention par fenêtre glissante pour préserver les dépendances locales, tandis que PHD-CSWA met en œuvre une attention par fenêtre glissante par morceaux pour éliminer la croissance linéaire du temps de pré-remplissage. Des expériences approfondies démontrent des améliorations constantes sur plusieurs benchmarks.
Pouvons-nous construire des modèles du monde précis à partir de grands modèles de langage (LLMs) ? Comment les modèles du monde peuvent-ils bénéficier aux agents LLM ? L'écart entre les connaissances préalables des LLMs et la dynamique spécifique de l'environnement limite généralement la performance des LLMs en tant que modèles du monde. Pour combler cet écart, nous proposons une "alignement du monde" sans entraînement qui apprend les connaissances symboliques d'un environnement, complémentaires aux LLMs. Ces connaissances symboliques couvrent les règles d'action, les graphes de connaissances et les graphes de scène, qui sont extraits par les LLMs à partir de trajectoires d'exploration et encodés en codes exécutables pour réguler les politiques des agents LLM. Nous proposons en outre un agent sans apprentissage par renforcement (RL) et basé sur un modèle, "WALL-E 2.0", via le cadre de contrôle prédictif par modèle (MPC). Contrairement au MPC classique qui nécessite une optimisation coûteuse en temps réel, nous adoptons un agent LLM comme optimiseur efficace des actions futures en interagissant avec le modèle du monde neurosymbolique. Bien que les heuristiques puissantes de l'agent LLM en fassent un planificateur efficace dans le MPC, la qualité de ses actions planifiées est également garantie par les prédictions précises du modèle du monde aligné. Ensemble, ils améliorent considérablement l'efficacité d'apprentissage dans un nouvel environnement. Sur les défis en monde ouvert dans Mars (similaire à Minecraft) et ALFWorld (environnements intérieurs incarnés), WALL-E 2.0 surpasse significativement les méthodes existantes, par exemple en dépassant les bases de référence dans Mars de 16,1 % à 51,6 % en taux de réussite et d'au moins 61,7 % en score. Dans ALFWorld, il atteint un nouveau record de 98 % de taux de réussite après seulement 4 itérations.
La synthèse d'images personnalisées est devenue une application essentielle dans la génération d'images à partir de texte, permettant la création d'images mettant en scène des sujets spécifiques dans divers contextes. Bien que les modèles de diffusion dominent ce domaine, les modèles auto-régressifs, avec leur architecture unifiée pour la modélisation du texte et de l'image, restent peu explorés pour la génération d'images personnalisées. Cet article étudie le potentiel de l'optimisation des modèles auto-régressifs pour la synthèse d'images personnalisées, en exploitant leurs capacités multimodales intrinsèques pour accomplir cette tâche. Nous proposons une stratégie d'entraînement en deux étapes qui combine l'optimisation des embeddings textuels et le réglage fin des couches de transformeurs. Nos expériences sur le modèle auto-régressif démontrent que cette méthode atteint une fidélité au sujet et un suivi des instructions comparables aux meilleures méthodes de personnalisation basées sur la diffusion. Les résultats mettent en évidence l'efficacité des modèles auto-régressifs dans la génération d'images personnalisées, ouvrant une nouvelle direction pour les recherches futures dans ce domaine.
Les humains peuvent développer des modèles internes du monde qui encodent des connaissances de bon sens, leur indiquant comment le monde fonctionne et prédisant les conséquences de leurs actions. Ce concept est apparu comme une direction prometteuse pour établir des modèles d'apprentissage automatique à usage général dans des travaux préliminaires récents, par exemple pour l'apprentissage de représentations visuelles. Dans cet article, nous présentons CheXWorld, la première tentative vers un modèle du monde auto-supervisé pour les images radiographiques. Plus précisément, notre travail développe un cadre unifié qui modélise simultanément trois aspects des connaissances médicales essentielles pour des radiologues qualifiés, incluant 1) les structures anatomiques locales décrivant les caractéristiques fines des tissus locaux (par exemple, les architectures, les formes et les textures) ; 2) les dispositions anatomiques globales décrivant l'organisation globale du corps humain (par exemple, la disposition des organes et des squelettes) ; et 3) les variations de domaine qui encouragent CheXWorld à modéliser les transitions entre différents domaines d'apparence des radiographies (par exemple, la clarté, le contraste et l'exposition variables causées par la collecte de radiographies provenant de différents hôpitaux, appareils ou patients). Empiriquement, nous concevons des analyses qualitatives et quantitatives sur mesure, révélant que CheXWorld capture avec succès ces trois dimensions des connaissances médicales. De plus, des expériences de transfert d'apprentissage sur huit benchmarks de classification et de segmentation d'images médicales montrent que CheXWorld surpasse significativement les méthodes SSL existantes et les modèles de fondation médicale à grande échelle. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/LeapLabTHU/CheXWorld.
Les récents modèles de diffusion texte-image atteignent une qualité visuelle impressionnante grâce à une mise à l'échelle extensive des données d'entraînement et des paramètres du modèle, mais ils peinent souvent avec des scènes complexes et des détails fins. Inspirés par les capacités d'auto-réflexion émergentes des grands modèles de langage, nous proposons ReflectionFlow, un cadre d'inférence permettant aux modèles de diffusion de réfléchir et d'affiner leurs sorties de manière itérative. ReflectionFlow introduit trois axes complémentaires de mise à l'échelle lors de l'inférence : (1) la mise à l'échelle au niveau du bruit pour optimiser l'initialisation latente ; (2) la mise à l'échelle au niveau de l'invite pour un guidage sémantique précis ; et surtout, (3) la mise à l'échelle au niveau de la réflexion, qui fournit explicitement des réflexions actionnables pour évaluer et corriger les générations précédentes de manière itérative. Pour faciliter la mise à l'échelle au niveau de la réflexion, nous construisons GenRef, un jeu de données à grande échelle comprenant 1 million de triplets, chacun contenant une réflexion, une image défectueuse et une image améliorée. En exploitant ce jeu de données, nous effectuons efficacement un ajustement par réflexion sur le transformateur de diffusion de pointe, FLUX.1-dev, en modélisant conjointement les entrées multimodales dans un cadre unifié. Les résultats expérimentaux montrent que ReflectionFlow surpasse significativement les méthodes naïves de mise à l'échelle au niveau du bruit, offrant une solution évolutive et efficace en termes de calcul pour une synthèse d'images de meilleure qualité sur des tâches complexes.
Les humains partagent naturellement des informations avec leurs proches, et la vidéo est devenue l'un des principaux médias de communication et d'expression sur Internet. Pour soutenir la création de contenus vidéo à grande échelle et de haute qualité, un pipeline moderne nécessite une compréhension approfondie à la fois des matériaux bruts (par exemple, les séquences non montées capturées par les caméras) et des composants d'édition (par exemple, les effets visuels). Dans les scénarios de montage vidéo, les modèles doivent traiter plusieurs modalités (par exemple, la vision, l'audio, le texte) avec une solide connaissance de fond et gérer des longueurs d'entrée flexibles (par exemple, des vidéos brutes d'une heure), ce qui pose des défis importants pour les modèles traditionnels. Dans ce rapport, nous présentons Vidi, une famille de modèles multimodaux de grande taille (LMMs) pour une large gamme de scénarios de compréhension et de montage vidéo. La première version se concentre sur la récupération temporelle, c'est-à-dire l'identification des plages de temps dans les vidéos d'entrée correspondant à une requête textuelle donnée, ce qui joue un rôle crucial dans le montage intelligent. Le modèle est capable de traiter des vidéos d'une heure avec une forte capacité de compréhension temporelle, par exemple, récupérer des plages de temps pour certaines requêtes. Pour soutenir une évaluation complète dans des scénarios réels, nous présentons également le benchmark VUE-TR, qui introduit cinq avancées clés. 1) Durée de la vidéo : significativement plus longue que les ensembles de données de récupération temporelle existants, 2) Support audio : inclut des requêtes basées sur l'audio, 3) Format de requête : longueurs/formats de requête divers, 4) Qualité d'annotation : les plages de temps de référence sont annotées manuellement. 5) Métrique d'évaluation : une métrique IoU raffinée pour soutenir l'évaluation sur plusieurs plages de temps. Remarquablement, Vidi surpasse significativement les modèles propriétaires leaders, par exemple, GPT-4o et Gemini, dans la tâche de récupération temporelle, indiquant sa supériorité dans les scénarios de montage vidéo.
L'animation de personnages contrôlable reste un problème complexe, notamment en ce qui concerne la gestion de poses rares, de personnages stylisés, d'interactions entre personnages et objets, d'éclairages complexes et de scènes dynamiques. Pour résoudre ces problèmes, les travaux antérieurs se sont principalement concentrés sur l'injection de guidages de pose et d'apparence via des réseaux de contournement élaborés, mais peinent souvent à généraliser aux scénarios en monde ouvert. Dans cet article, nous proposons une nouvelle perspective selon laquelle, tant que le modèle de base est suffisamment puissant, des modifications simples du modèle combinées à des stratégies de fine-tuning flexibles peuvent largement relever ces défis, faisant ainsi un pas vers l'animation de personnages contrôlable en conditions réelles. Plus précisément, nous présentons RealisDance-DiT, construit sur le modèle de base vidéo Wan-2.1. Notre analyse approfondie révèle que la conception largement adoptée du Reference Net n'est pas optimale pour les modèles DiT à grande échelle. Au lieu de cela, nous démontrons que des modifications minimales de l'architecture du modèle de base produisent une base étonnamment solide. Nous proposons en outre les stratégies d'échauffement à faible bruit et de "grands lots et petites itérations" pour accélérer la convergence du modèle lors du fine-tuning tout en préservant au maximum les connaissances préalables du modèle de base. De plus, nous introduisons un nouveau jeu de données de test qui capture divers défis du monde réel, complétant les benchmarks existants tels que le dataset TikTok et le dataset de vidéos de mode UBC, afin d'évaluer de manière exhaustive la méthode proposée. Des expériences approfondies montrent que RealisDance-DiT surpasse de loin les méthodes existantes.
Les agents LLM représentent une forme émergente de systèmes d'IA où les grands modèles de langage (LLM) servent de composant central, utilisant un ensemble diversifié d'outils pour accomplir des tâches assignées par l'utilisateur. Malgré leur grand potentiel, les agents LLM présentent des risques de sécurité significatifs. Lorsqu'ils interagissent avec le monde extérieur, ils peuvent rencontrer des commandes malveillantes provenant d'attaquants, conduisant à l'exécution d'actions dangereuses. Une approche prometteuse pour résoudre ce problème consiste à appliquer le principe du moindre privilège : autoriser uniquement les actions essentielles pour l'accomplissement des tâches tout en bloquant celles qui sont inutiles. Cependant, cela s'avère difficile, car cela nécessite de couvrir divers scénarios d'agents tout en préservant à la fois la sécurité et l'utilité. Nous présentons Progent, le premier mécanisme de contrôle des privilèges pour les agents LLM. Au cœur de ce système se trouve un langage spécifique permettant d'exprimer de manière flexible des politiques de contrôle des privilèges appliquées lors de l'exécution de l'agent. Ces politiques fournissent des contraintes granulaires sur les appels d'outils, décidant quand ces appels sont autorisés et spécifiant des alternatives s'ils ne le sont pas. Cela permet aux développeurs et utilisateurs d'agents de concevoir des politiques adaptées à leurs cas d'utilisation spécifiques et de les appliquer de manière déterministe pour garantir la sécurité. Grâce à sa conception modulaire, l'intégration de Progent ne modifie pas les internes de l'agent et ne nécessite que des changements minimes dans l'implémentation de l'agent, augmentant ainsi sa praticabilité et son potentiel d'adoption généralisée. Pour automatiser la rédaction des politiques, nous exploitons les LLM pour générer des politiques basées sur les requêtes des utilisateurs, qui sont ensuite mises à jour dynamiquement pour améliorer la sécurité et l'utilité. Notre évaluation approfondie montre qu'il permet une sécurité robuste tout en préservant une utilité élevée dans trois scénarios ou benchmarks distincts : AgentDojo, ASB et AgentPoison. De plus, nous effectuons une analyse approfondie, démontrant l'efficacité de ses composants clés et la résilience de sa génération automatisée de politiques face aux attaques adaptatives.
Nous proposons MR. Video, un cadre agentique de compréhension de vidéos longues qui illustre le principe simple mais efficace de MapReduce pour le traitement des vidéos longues : (1) Map : perception indépendante et dense de courts clips vidéo, et (2) Reduce : agrégation conjointe des informations provenant de tous les clips. Par rapport aux modèles vision-langage de type séquence-à-séquence (VLMs), MR. Video effectue une perception détaillée des courts clips vidéo sans être limité par la longueur du contexte. Comparé aux agents vidéo existants qui reposent généralement sur la sélection séquentielle de segments clés, l'opération Map permet une perception parallèle des segments vidéo courts plus simple et plus évolutive. L'étape Reduce permet une agrégation et un raisonnement contextuel plus complets, surpassant la récupération explicite de segments clés. Ce principe MapReduce est applicable à la fois aux VLMs et aux agents vidéo, et nous utilisons des agents LLM pour valider son efficacité. En pratique, MR. Video emploie deux étapes MapReduce : (A) Sous-titrage : génération de sous-titres pour les courts clips vidéo (map), puis standardisation des personnages et objets répétés en noms partagés (reduce) ; (B) Analyse : pour chaque question de l'utilisateur, analyse des informations pertinentes à partir des courts clips vidéo individuels (map), et intégration de celles-ci dans une réponse finale (reduce). MR. Video obtient une amélioration de plus de 10 % en précision sur le benchmark LVBench par rapport aux VLMs et agents vidéo de pointe. Le code est disponible à l'adresse : https://github.com/ziqipang/MR-Video
La reconnaissance et le raisonnement sur les objets occlus (partiellement ou totalement cachés) sont essentiels pour comprendre les scènes visuelles, car les occlusions se produisent fréquemment dans les environnements réels et constituent des obstacles à la compréhension spatiale. Pour tester la capacité des modèles à raisonner sur plusieurs objets occlus, nous introduisons une nouvelle tâche, **Counting Amodally for Patterns Through Unseen REgions (CAPTURe)**, qui exige qu'un modèle compte des objets disposés selon un motif en inférant comment ce motif se poursuit derrière un occlusseur (un objet qui bloque des parties de la scène). CAPTURe nécessite à la fois la reconnaissance de motifs visuels et un raisonnement, ce qui en fait un banc d'essai utile pour évaluer les modèles vision-langage (VLMs) sur leur compréhension des motifs occlus et leurs compétences en compréhension spatiale. En exigeant des modèles qu'ils raisonnent sur des objets occlus, CAPTURe teste également la capacité des VLMs à former des modèles du monde qui leur permettraient de combler les informations manquantes. CAPTURe se compose de deux parties : (1) **CAPTURe-real**, avec des images filtrées manuellement d'objets réels disposés en motifs, et (2) **CAPTURe-synthetic**, un diagnostic contrôlé avec des images générées de motifs. Nous évaluons quatre VLMs performants (GPT-4o, Intern-VL2, Molmo et Qwen2-VL) sur CAPTURe, constatant que les modèles ont des difficultés à compter à la fois sur des motifs occlus et non occlus. De manière cruciale, nous observons que les modèles performent moins bien avec des occlusions, suggérant que les VLMs sont également déficients dans l'inférence des relations spatiales invisibles : même les VLMs les plus performants comme GPT-4o échouent à compter en présence d'occlusions. En revanche, nous constatons que les humains commettent très peu d'erreurs sur CAPTURe. Nous observons également que fournir des informations auxiliaires sur les emplacements des objets occlus améliore les performances, soulignant que l'erreur des modèles provient à la fois d'une incapacité à gérer les occlusions et d'une difficulté à compter dans les images.
La propriété intellectuelle (PI) est un domaine unique qui intègre des connaissances techniques et juridiques, la rendant intrinsèquement complexe et riche en savoirs. Alors que les grands modèles de langage (LLMs) continuent de progresser, ils montrent un grand potentiel pour traiter des tâches liées à la PI, permettant une analyse, une compréhension et une génération de contenu lié à la PI plus efficaces. Cependant, les ensembles de données et benchmarks existants se concentrent soit de manière étroite sur les brevets, soit couvrent des aspects limités du domaine de la PI, manquant d'alignement avec les scénarios réels. Pour combler cette lacune, nous introduisons la première taxonomie complète des tâches de PI ainsi qu'un benchmark bilingue, diversifié et de grande envergure, IPBench, couvrant 8 mécanismes de PI et 20 tâches. Ce benchmark est conçu pour évaluer les LLMs dans des applications réelles de propriété intellectuelle, englobant à la fois la compréhension et la génération. Nous évaluons 16 LLMs, allant des modèles généralistes aux modèles spécialisés, et constatons que même le modèle le plus performant n'atteint qu'une précision de 75,8%, révélant une marge d'amélioration substantielle. Notamment, les modèles open-source orientés PI et droit sont à la traîne par rapport aux modèles généralistes propriétaires. Nous rendons publics toutes les données et le code d'IPBench et continuerons à les mettre à jour avec des tâches supplémentaires liées à la PI pour mieux refléter les défis réels du domaine de la propriété intellectuelle.
Cette étude présente un nouveau modèle interprétable, DiffVox, pour l'appariement des effets vocaux dans la production musicale. DiffVox, abréviation de « Differentiable Vocal Fx », intègre l'égalisation paramétrique, le contrôle de la dynamique, le délai et la réverbération avec des implémentations différentiables efficaces, permettant ainsi une optimisation basée sur le gradient pour l'estimation des paramètres. Les préréglages vocaux sont extraits de deux ensembles de données, comprenant 70 pistes de MedleyDB et 365 pistes d'une collection privée. L'analyse des corrélations entre paramètres met en évidence des relations fortes entre les effets et les paramètres, comme les filtres passe-haut et étagère basse qui agissent souvent ensemble pour façonner les basses fréquences, et le temps de délai qui est corrélé à l'intensité des signaux retardés. L'analyse en composantes principales révèle des liens avec les dimensions timbrales de McAdams, où la composante principale module la perception de l'espace tandis que les composantes secondaires influencent la brillance spectrale. Les tests statistiques confirment la nature non gaussienne de la distribution des paramètres, soulignant la complexité de l'espace des effets vocaux. Ces premiers résultats sur les distributions de paramètres posent les bases pour des recherches futures sur la modélisation des effets vocaux et le mixage automatique. Notre code source et les ensembles de données sont accessibles à l'adresse https://github.com/SonyResearch/diffvox.