Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique du langage naturel (NLP), mais les LLMs multilingues open-source restent rares, les modèles existants étant souvent limités en termes de couverture linguistique. Ces modèles privilégient généralement les langues bien dotées en ressources, tandis que les langues largement parlées mais sous-dotées sont souvent négligées. Pour remédier à cette disparité, nous présentons Babel, un LLM multilingue open-source qui couvre les 25 langues les plus parlées, prend en charge plus de 90 % de la population mondiale et inclut de nombreuses langues ignorées par d'autres LLMs multilingues open-source. Contrairement aux approches traditionnelles de pré-entraînement continu, Babel étend son nombre de paramètres grâce à une technique d'extension de couches qui élève le plafond de performance de Babel. Nous introduisons deux variantes : Babel-9B, conçu pour une inférence et un fine-tuning efficaces, et Babel-83B, qui établit un nouveau standard pour les LLMs multilingues open-source. Des évaluations approfondies sur des tâches multilingues démontrent sa performance supérieure par rapport aux LLMs open-source de taille comparable. De plus, en utilisant des ensembles de données de fine-tuning supervisé open-source, Babel obtient des performances remarquables, avec Babel-9B-Chat en tête parmi les LLMs de 10 milliards de paramètres et Babel-83B-Chat établissant un nouveau standard pour les tâches multilingues, atteignant le niveau des modèles commerciaux.
Un point faible des modèles de langage à grande échelle (LLMs) est leur tendance à produire des déclarations non factuelles, ou hallucinations. Une réponse mêlant des affirmations factuelles et non factuelles représente un défi pour les humains, qui doivent vérifier et fonder leurs décisions de manière précise. Pour résoudre ce problème, nous proposons le Highlighted Chain-of-Thought Prompting (HoT), une technique qui incite les LLMs à générer des réponses avec des balises XML ancrant les faits à ceux fournis dans la requête. Concrètement, face à une question d'entrée, les LLMs reformatent d'abord la question en ajoutant des balises XML mettant en évidence les faits clés, puis génèrent une réponse en surlignant les faits référencés dans l'entrée. Fait intéressant, dans des contextes few-shot, HoT surpasse le chain of thought prompting classique (CoT) sur un large éventail de 17 tâches, allant de l'arithmétique à la compréhension de texte en passant par le raisonnement logique. Lorsque des humains sont chargés de vérifier les réponses des LLMs, les surlignages aident les participants sous contrainte de temps à identifier plus précisément et efficacement quand les LLMs ont raison. Cependant, étonnamment, lorsque les LLMs se trompent, HoT a tendance à faire croire aux utilisateurs que la réponse est correcte.
Les modèles de langage de grande taille ont démontré des performances exceptionnelles sur diverses tâches en aval et ont été largement appliqués dans de multiples scénarios. Les données de préférence annotées par des humains sont utilisées pour l'entraînement afin d'améliorer encore les performances des LLM, ce qui est limité par le plafond des capacités humaines. Par conséquent, la méthode d'auto-récompense a été proposée, où les LLM génèrent des données d'entraînement en récompensant leurs propres sorties. Cependant, le paradigme actuel d'auto-récompense n'est pas efficace dans les scénarios de raisonnement mathématique et peut même entraîner une baisse de performance. Dans ce travail, nous proposons le pipeline d'auto-récompense basé sur le processus pour les modèles de langage, qui introduit un raisonnement approfondi, une évaluation pas à pas par le LLM en tant que juge, et une optimisation des préférences étape par étape dans le paradigme d'auto-récompense. Notre nouveau paradigme améliore avec succès les performances des LLM sur plusieurs benchmarks de raisonnement mathématique grâce à une auto-récompense itérative basée sur le processus, démontrant le potentiel immense de l'auto-récompense pour atteindre un raisonnement des LLM qui pourrait surpasser les capacités humaines.
Nous présentons KodCode, un ensemble de données synthétiques qui relève le défi persistant d'acquisition de données d'entraînement de haute qualité et vérifiables, couvrant divers niveaux de difficulté et domaines pour l'entraînement de modèles de langage dédiés au codage. Les ressources existantes axées sur le code échouent généralement à garantir soit l'étendue de la couverture (par exemple, allant de tâches de codage simples à des problèmes algorithmiques avancés), soit la vérifiabilité de la correction (par exemple, via des tests unitaires). En revanche, KodCode est composé de triplets question-solution-test systématiquement validés via une procédure d'auto-vérification. Notre pipeline commence par la synthèse d'une large gamme de questions de codage, puis génère des solutions et des cas de test, avec des tentatives supplémentaires allouées aux problèmes complexes. Enfin, une synthèse post-entraînement des données est effectuée en reformulant les questions dans divers formats et en générant des réponses via une procédure de rejet basée sur des tests à partir d'un modèle de raisonnement (DeepSeek R1). Ce pipeline produit un ensemble de données de codage à grande échelle, robuste et diversifié. KodCode est adapté pour le réglage fin supervisé, et les tests unitaires jumelés offrent également un grand potentiel pour le réglage par apprentissage par renforcement. Les expériences de réglage fin sur des benchmarks de codage (HumanEval(+), MBPP(+), BigCodeBench et LiveCodeBench) démontrent que les modèles ajustés avec KodCode atteignent des performances de pointe, surpassant des modèles tels que Qwen2.5-Coder-32B-Instruct et DeepSeek-R1-Distill-Llama-70B.
Nous présentons GEN3C, un modèle génératif de vidéo doté d'un contrôle précis de la caméra et d'une cohérence temporelle 3D. Les modèles vidéo existants génèrent déjà des vidéos réalistes, mais ils exploitent peu d'informations 3D, ce qui entraîne des incohérences, comme des objets apparaissant et disparaissant subitement. Le contrôle de la caméra, lorsqu'il est implémenté, est souvent imprécis, car les paramètres de la caméra ne sont que des entrées du réseau neuronal, qui doit ensuite déduire comment la vidéo dépend de la caméra. En revanche, GEN3C est guidé par un cache 3D : des nuages de points obtenus en prédisant la profondeur pixel par pixel des images de départ ou des images précédemment générées. Lors de la génération des images suivantes, GEN3C est conditionné par les rendus 2D du cache 3D avec la nouvelle trajectoire de caméra fournie par l'utilisateur. Cela signifie que GEN3C n'a ni besoin de se souvenir de ce qu'il a précédemment généré, ni de déduire la structure de l'image à partir de la pose de la caméra. Le modèle peut ainsi concentrer toute sa puissance générative sur les régions non encore observées, tout en faisant évoluer l'état de la scène vers l'image suivante. Nos résultats démontrent un contrôle de la caméra plus précis que les travaux précédents, ainsi que des performances de pointe en synthèse de nouvelles vues à partir de vues éparses, même dans des contextes difficiles comme les scènes de conduite et les vidéos dynamiques monoculaires. Les résultats sont mieux appréciés en vidéo. Consultez notre page web ! https://research.nvidia.com/labs/toronto-ai/GEN3C/
Les modèles d'embedding visuel excellent dans les tâches zero-shot comme la recherche visuelle et la classification. Cependant, ces modèles ne peuvent pas être utilisés pour des tâches contenant des ambiguïtés ou nécessitant des instructions utilisateur. Ces tâches exigent un modèle d'embedding multimodal, qui produit des embeddings combinant des entrées visuelles et en langage naturel. Les approches existantes basées sur CLIP intègrent les images et le texte de manière indépendante, puis fusionnent les résultats. Nous constatons que cela entraîne des interactions faibles entre les modalités et un contrôle limité de l'utilisateur sur la représentation. Nous présentons ABC, un modèle d'embedding multimodal open-source qui utilise une architecture de modèle vision-langage pour intégrer profondément les caractéristiques visuelles avec les instructions en langage naturel. ABC atteint les meilleures performances pour sa taille sur la tâche de recherche image-texte de MSCOCO et est le modèle le plus performant sur les tâches de classification et de question-réponse visuelle (VQA) dans le benchmark Massive Multimodal Embedding. Grâce à une représentation vision-langage fortement unifiée, ABC peut utiliser le langage naturel pour résoudre des problèmes de recherche visuelle subtils et potentiellement ambigus. Pour évaluer cette capacité, nous concevons CtrlBench, un benchmark qui nécessite l'intercalation d'instructions textuelles avec le contenu visuel pour une recherche correcte. ABC fait progresser l'état de l'art des embeddings multimodaux en offrant des représentations de haute qualité et un contrôle flexible via le langage naturel. Notre modèle et les jeux de données sont disponibles sur notre page de projet.
La distillation des capacités d'exécution d'instructions des modèles de langage avancés (LLM) dans des modèles plus petits à l'aide d'un sous-ensemble sélectionné est devenue une approche courante dans l'entraînement des modèles. Bien que les stratégies existantes de sélection de données d'instructions synthétiques reposent principalement sur des signaux unidimensionnels (c'est-à-dire les scores de récompense, la perplexité du modèle), elles ne parviennent pas à capturer la complexité de l'exécution d'instructions dans divers domaines. Par conséquent, nous explorons des signaux plus diversifiés pour capturer les caractéristiques complètes des paires instruction-réponse et proposons trois métriques fondamentales qui exploitent la sagesse collective de plusieurs LLM, basées sur (1) les réponses variées des LLM et (2) l'évaluation par un modèle de récompense. Sur la base de ces métriques, nous proposons CrowdSelect, une métrique intégrée qui intègre une approche basée sur le clustering pour maintenir la diversité des réponses. Nos expériences approfondies démontrent que nos métriques fondamentales améliorent systématiquement les performances sur 4 modèles de base dans MT-bench et Arena-Hard. CrowdSelect, qui intègre efficacement toutes les métriques, atteint des performances de pointe à la fois en fine-tuning complet et en LoRA, montrant des améliorations de 4,81 % sur Arena-Hard et de 11,1 % sur MT-bench avec Llama-3.2-3b-instruct. Nous espérons que nos résultats apporteront des insights précieux pour les recherches futures dans cette direction. Le code est disponible à l'adresse https://github.com/listentm/crowdselect.
Les modèles de langage visuel (VLMs) ont démontré des capacités impressionnantes dans les tâches de référencement visuel. Cependant, leur efficacité dans le domaine médical, en particulier pour la détection et la localisation d'anomalies dans les images médicales, reste peu explorée. Un défi majeur réside dans la nature complexe et abstraite de la terminologie médicale, qui rend difficile l'association directe des termes d'anomalies pathologiques avec leurs caractéristiques visuelles correspondantes. Dans ce travail, nous introduisons une approche novatrice pour améliorer les performances des VLMs dans la détection et la localisation d'anomalies médicales en exploitant des connaissances médicales décomposées. Plutôt que de demander directement aux modèles de reconnaître des anomalies spécifiques, nous nous concentrons sur la décomposition des concepts médicaux en attributs fondamentaux et en motifs visuels communs. Cette stratégie favorise un meilleur alignement entre les descriptions textuelles et les caractéristiques visuelles, améliorant ainsi la reconnaissance et la localisation des anomalies dans les images médicales. Nous évaluons notre méthode sur le modèle de base Florence-2 de 0,23 milliard de paramètres et démontrons qu'elle atteint des performances comparables en matière de référencement d'anomalies à des VLMs médicaux basés sur LLaVA de 7 milliards de paramètres, bien qu'elle n'ait été entraînée qu'avec 1,5 % des données utilisées pour ces modèles. Les résultats expérimentaux montrent également l'efficacité de notre approche pour les anomalies connues et inconnues, suggérant de solides capacités de généralisation.
Le déploiement de modèles linguistiques à grande échelle sur des appareils périphériques se heurte à des défis inhérents tels que des exigences computationnelles élevées, une consommation énergétique importante et des risques potentiels pour la confidentialité des données. Cet article présente les modèles linguistiques compacts Shakti (SLMs) Shakti-100M, Shakti-250M et Shakti-500M, conçus pour relever ces contraintes de front. En combinant des architectures efficaces, des techniques de quantification et des principes d'IA responsable, la série Shakti permet une intelligence embarquée pour les smartphones, les appareils intelligents, les systèmes IoT et au-delà. Nous offrons des insights complets sur leur philosophie de conception, leurs pipelines d'entraînement et leurs performances de référence sur des tâches générales (par exemple, MMLU, Hellaswag) et des domaines spécialisés (santé, finance et juridique). Nos résultats démontrent que des modèles compacts, lorsqu'ils sont soigneusement conçus et affinés, peuvent répondre et souvent dépasser les attentes dans des scénarios réels d'IA périphérique.
Une partie du succès des modèles de diffusion provient de leur capacité à effectuer un raffinement itératif, c'est-à-dire à corriger de manière répétée les sorties pendant la génération. Cependant, la diffusion discrète masquée moderne ne possède pas cette capacité : lorsqu'un token est généré, il ne peut plus être mis à jour, même s'il introduit une erreur. Ici, nous abordons cette limitation en introduisant l'échantillonneur ReMDM (Remasking Diffusion Model), une méthode qui peut être appliquée de manière rigoureuse à des modèles de diffusion masquée pré-entraînés et qui est dérivée d'un modèle de diffusion discrète avec un processus de retour personnalisé de remasquage. Plus intéressant encore, ReMDM confère à la diffusion discrète une forme de mise à l'échelle du calcul au moment de l'inférence. En augmentant le nombre d'étapes d'échantillonnage, ReMDM génère des sorties en langage naturel qui approchent la qualité des modèles autorégressifs, tandis que lorsque le budget de calcul est limité, ReMDM maintient mieux la qualité. ReMDM améliore également la qualité des échantillons des modèles de diffusion masquée pour les images discrétisées, et dans des domaines scientifiques tels que la conception de molécules, ReMDM facilite le guidage par diffusion et repousse la frontière de Pareto de la contrôlabilité par rapport au masquage classique et à la diffusion de bruit uniforme. Nous fournissons le code ainsi qu'un article de blog sur la page du projet : https://remdm.github.io.
Les bases de connaissances graphiques riches en texte (TG-KBs) sont devenues de plus en plus cruciales pour répondre aux requêtes en fournissant des connaissances textuelles et structurelles. Cependant, les méthodes de recherche actuelles récupèrent souvent ces deux types de connaissances de manière isolée, sans tenir compte de leur renforcement mutuel, et certaines méthodes hybrides contournent même entièrement la recherche structurelle après une agrégation voisine. Pour combler cette lacune, nous proposons un Mélange de Recherche Structurelle et Textuelle (MoR) afin de récupérer ces deux types de connaissances via un cadre de Planification-Raisonnement-Organisation. Dans l'étape de Planification, MoR génère des graphes de planification textuelle décrivant la logique pour répondre aux requêtes. Suite aux graphes de planification, dans l'étape de Raisonnement, MoR entrelace le parcours structurel et la correspondance textuelle pour obtenir des candidats à partir des TG-KBs. Dans l'étape d'Organisation, MoR réordonne davantage les candidats récupérés en fonction de leur trajectoire structurelle. Des expériences approfondies démontrent la supériorité de MoR dans l'harmonisation de la recherche structurelle et textuelle, avec des insights, notamment une performance de récupération inégale selon les différentes logiques de requête et les avantages de l'intégration des trajectoires structurelles pour le réordonnancement des candidats. Notre code est disponible à l'adresse https://github.com/Yoega/MoR.
L'estimation de qualité au niveau des mots (QE) détecte les segments erronés dans les traductions automatiques, ce qui peut orienter et faciliter la post-édition humaine. Bien que la précision des systèmes de QE au niveau des mots ait été largement évaluée, leur utilité et leur influence en aval sur la vitesse, la qualité et les choix de révision des post-éditeurs humains restent peu étudiées. Notre étude QE4PE examine l'impact de la QE au niveau des mots sur la post-édition de traductions automatiques (MT) dans un cadre réaliste impliquant 42 post-éditeurs professionnels pour deux directions de traduction. Nous comparons quatre modalités de surlignage des erreurs, incluant des méthodes de QE supervisées et basées sur l'incertitude, pour identifier les erreurs potentielles dans les sorties d'un modèle de traduction neuronale de pointe. L'effort et la productivité de post-édition sont estimés à partir de logs comportementaux, tandis que les améliorations de qualité sont évaluées par des annotations humaines au niveau des mots et des segments. Nous constatons que le domaine, la langue et la vitesse des éditeurs sont des facteurs critiques dans l'efficacité des surlignages, avec des différences modestes entre les surlignages manuels et automatisés, soulignant un écart entre la précision et l'utilité dans les workflows professionnels.
Les assistants conversationnels nécessitent souvent un algorithme de reformulation de questions qui exploite un sous-ensemble des interactions passées pour fournir une réponse plus pertinente (précise) à la question ou à la demande de l'utilisateur. Cependant, l'approche exacte de reformulation peut souvent dépendre du cas d'utilisation et des tâches spécifiques à l'application prises en charge par l'assistant conversationnel, entre autres contraintes. Dans cet article, nous étudions systématiquement deux approches différentes, désignées comme reformulation et fusion, sur deux tâches de génération fondamentalement distinctes, incluant une tâche de génération texte-à-texte et une tâche générative multimodale qui prend en entrée du texte et génère une visualisation ou un tableau de données répondant à la question de l'utilisateur. Nos résultats indiquent que l'approche spécifique de reformulation ou de fusion dépend fortement du cas d'utilisation sous-jacent et de la tâche générative. En particulier, nous constatons que pour un assistant conversationnel de questions-réponses, l'approche de reformulation de requête fonctionne le mieux, tandis que pour un assistant d'analyse de données qui génère des visualisations et des tableaux de données basés sur la conversation de l'utilisateur avec l'assistant, l'approche de fusion est la plus efficace. Notamment, nous explorons deux jeux de données pour le cas d'utilisation de l'assistant d'analyse de données, pour des conversations courtes et longues, et nous constatons que la fusion de requêtes fonctionne toujours mieux, alors que pour la question-réponse conversationnelle basée sur du texte, l'approche de reformulation de requête est la plus performante.
L'apprentissage d'outils vise à enrichir les grands modèles de langage (LLM) avec une diversité d'outils, leur permettant d'agir comme des agents pour résoudre des tâches pratiques. En raison de la longueur de contexte limitée des LLM utilisant des outils, l'adoption de modèles de recherche d'information (IR) pour sélectionner des outils utiles parmi de grands ensembles d'outils constitue une étape initiale cruciale. Cependant, la performance des modèles IR dans les tâches de récupération d'outils reste peu explorée et incertaine. La plupart des benchmarks d'utilisation d'outils simplifient cette étape en annotant manuellement un petit ensemble d'outils pertinents pour chaque tâche, ce qui est loin des scénarios réels. Dans cet article, nous proposons ToolRet, un benchmark hétérogène de récupération d'outils comprenant 7,6k tâches de récupération diverses, et un corpus de 43k outils, collectés à partir de jeux de données existants. Nous évaluons six types de modèles sur ToolRet. Étonnamment, même les modèles ayant de bonnes performances dans les benchmarks IR conventionnels montrent des performances médiocres sur ToolRet. Cette faible qualité de récupération dégrade le taux de réussite des tâches des LLM utilisant des outils. En complément, nous contribuons un ensemble de données d'entraînement à grande échelle avec plus de 200k instances, qui optimise considérablement la capacité de récupération d'outils des modèles IR.
Les récents progrès en manipulation robotique ont été alimentés par des ensembles de données à grande échelle collectés dans divers environnements. Traditionnellement, l'entraînement des politiques de manipulation robotique sur ces ensembles de données s'effectue de manière centralisée, soulevant des préoccupations concernant l'évolutivité, l'adaptabilité et la confidentialité des données. Bien que l'apprentissage fédéré permette un entraînement décentralisé et respectueux de la vie privée, son application à la manipulation robotique reste largement inexplorée. Nous présentons FLAME (Federated Learning Across Manipulation Environments), le premier benchmark conçu pour l'apprentissage fédéré en manipulation robotique. FLAME comprend : (i) un ensemble de jeux de données à grande échelle contenant plus de 160 000 démonstrations expertes de multiples tâches de manipulation, collectées dans une large gamme d'environnements simulés ; (ii) un cadre d'entraînement et d'évaluation pour l'apprentissage de politiques robotiques dans un contexte fédéré. Nous évaluons des algorithmes standard d'apprentissage fédéré dans FLAME, démontrant leur potentiel pour l'apprentissage distribué de politiques et mettant en lumière les principaux défis. Notre benchmark établit une base pour un apprentissage robotique évolutif, adaptable et respectueux de la confidentialité.
Les récentes avancées en intelligence artificielle générative ont conduit à l'adoption généralisée des grands modèles de langage (LLMs) dans le domaine de l'ingénierie logicielle, permettant de relever de nombreux défis de longue date. Cependant, une étude approfondie examinant les capacités des LLMs dans la détection des vulnérabilités logicielles (SVD), un aspect crucial de la sécurité des logiciels, fait actuellement défaut. Les recherches existantes se concentrent principalement sur l'évaluation des LLMs à l'aide de jeux de données en C/C++. Elles explorent généralement une ou deux stratégies parmi l'ingénierie des prompts, l'ajustement par instruction et le fine-tuning par classification de séquence pour les LLMs open-source. Par conséquent, il existe un manque de connaissances significatif concernant l'efficacité des différents LLMs dans la détection des vulnérabilités à travers divers langages de programmation. Pour combler cette lacune, nous présentons une étude empirique approfondie évaluant la performance des LLMs sur la tâche de SVD. Nous avons compilé un jeu de données complet comprenant 8 260 fonctions vulnérables en Python, 7 505 en Java et 28 983 en JavaScript. Nous évaluons cinq LLMs open-source en utilisant plusieurs approches, incluant l'ingénierie des prompts, l'ajustement par instruction et le fine-tuning par classification de séquence. Ces LLMs sont comparés à cinq petits modèles de langage fine-tunés et à deux outils open-source de test de sécurité applicative statique. De plus, nous explorons deux voies pour améliorer la performance des LLMs sur la SVD : a) Perspective des données : Réentraînement des modèles en utilisant des jeux de données équilibrés sous-échantillonnés. b) Perspective du modèle : Investigation des méthodes d'apprentissage ensembliste combinant les prédictions de plusieurs LLMs. Nos expériences approfondies démontrent que la SVD reste une tâche complexe pour les LLMs. Cette étude offre une compréhension approfondie du rôle des LLMs dans la SVD et fournit des insights pratiques pour les futures avancées dans l'exploitation de l'IA générative pour améliorer les pratiques de sécurité logicielle.
La coordination multi-agent est cruciale pour une navigation fiable des robots multiples dans des espaces partagés tels que les entrepôts automatisés. Dans les zones à forte densité de trafic robotique, les méthodes de coordination locale peuvent échouer à trouver une solution sans interblocage. Dans ces scénarios, il est approprié de laisser une unité centrale générer un planning global qui décide de l'ordre de passage des robots. Cependant, le temps d'exécution de ces méthodes de coordination centralisées augmente considérablement avec l'échelle du problème. Dans cet article, nous proposons d'exploiter les Graph Neural Network Variational Autoencoders (GNN-VAE) pour résoudre le problème de coordination multi-agent à grande échelle plus rapidement qu'avec une optimisation centralisée. Nous formulons le problème de coordination comme un problème de graphe et collectons des données de référence en utilisant un solveur de Programmation Linéaire en Nombres Entiers (MILP). Pendant l'entraînement, notre cadre d'apprentissage encode des solutions de haute qualité du problème de graphe dans un espace latent. Au moment de l'inférence, des échantillons de solutions sont décodés à partir des variables latentes échantillonnées, et l'échantillon de plus faible coût est sélectionné pour la coordination. Enfin, la proposition réalisable avec l'indice de performance le plus élevé est sélectionnée pour le déploiement. Par construction, notre cadre GNN-VAE retourne des solutions qui respectent toujours les contraintes du problème de coordination considéré. Les résultats numériques montrent que notre approche, entraînée sur des problèmes à petite échelle, peut atteindre des solutions de haute qualité même pour des problèmes à grande échelle avec 250 robots, étant beaucoup plus rapide que les autres méthodes de référence. Page du projet : https://mengyuest.github.io/gnn-vae-coord
La génération de simulations réalistes est cruciale pour les applications de systèmes autonomes telles que la conduite autonome et les interactions humain-robot. Cependant, les simulateurs de conduite actuels éprouvent encore des difficultés à générer des comportements contrôlables, diversifiés et conformes aux règles pour les participants à la route : les modèles basés sur des règles ne peuvent pas produire des comportements variés et nécessitent un réglage minutieux, tandis que les méthodes basées sur l'apprentissage imitent la politique à partir des données mais ne sont pas conçues pour suivre explicitement les règles. De plus, les ensembles de données du monde réel sont par nature "à résultat unique", ce qui rend difficile pour les méthodes d'apprentissage de générer des comportements diversifiés. Dans cet article, nous exploitons la logique temporelle des signaux (Signal Temporal Logic, STL) et les modèles de diffusion pour apprendre une politique contrôlable, diversifiée et consciente des règles. Nous calibrons d'abord la STL sur les données réelles, puis générons des données synthétiques variées à l'aide de l'optimisation de trajectoire, et enfin apprenons la politique de diffusion rectifiée sur l'ensemble de données augmenté. Nous testons sur le jeu de données NuScenes et notre approche peut générer les trajectoires les plus diversifiées et conformes aux règles par rapport aux autres méthodes de référence, avec un temps d'exécution 17 fois plus rapide que la deuxième meilleure approche. Dans les tests en boucle fermée, notre méthode atteint la plus grande diversité, le taux de satisfaction des règles le plus élevé et le taux de collision le plus faible. Notre méthode peut générer des caractéristiques variées en fonction de différents paramètres STL lors des tests. Une étude de cas sur des scénarios de rencontre humain-robot montre que notre approche peut générer des trajectoires diversifiées et proches de l'oracle. L'outil d'annotation, l'ensemble de données augmenté et le code sont disponibles à l'adresse https://github.com/mengyuest/pSTL-diffusion-policy.
Cet article présente CognitiveDrone, un nouveau modèle Vision-Langage-Action (VLA) conçu pour des tâches complexes de drones aériens sans pilote (UAV) nécessitant des capacités cognitives avancées. Entraîné sur un ensemble de données comprenant plus de 8 000 trajectoires de vol simulées réparties en trois catégories principales — Reconnaissance Humaine, Compréhension de Symboles et Raisonnement — le modèle génère des commandes d'action 4D en temps réel à partir d'entrées visuelles à la première personne et d'instructions textuelles. Pour améliorer encore les performances dans des scénarios complexes, nous proposons CognitiveDrone-R1, qui intègre un module de raisonnement supplémentaire basé sur un modèle Vision-Langage (VLM) afin de simplifier les directives de tâches avant le contrôle haute fréquence. Les évaluations expérimentales utilisant notre benchmark open-source, CognitiveDroneBench, révèlent que tandis qu'un modèle axé sur la course (RaceVLA) atteint un taux de réussite global de 31,3 %, le modèle de base CognitiveDrone atteint 59,6 %, et CognitiveDrone-R1 obtient un taux de réussite de 77,2 %. Ces résultats montrent des améliorations allant jusqu'à 30 % dans des tâches cognitives critiques, soulignant l'efficacité de l'intégration de capacités de raisonnement avancées dans les systèmes de contrôle des UAV. Nos contributions incluent le développement d'un modèle VLA de pointe pour le contrôle des UAV et l'introduction du premier benchmark dédié à l'évaluation des tâches cognitives dans les opérations de drones. Le dépôt complet est disponible sur cognitivedrone.github.io.
En Suisse, la traduction juridique revêt une importance particulière en raison des quatre langues officielles du pays et des exigences en matière de documentation juridique multilingue. Cependant, ce processus repose traditionnellement sur des professionnels qui doivent être à la fois experts en droit et traducteurs qualifiés, ce qui crée des goulots d'étranglement et affecte l'accès effectif à la justice. Pour relever ce défi, nous présentons SwiLTra-Bench, un benchmark multilingue complet comprenant plus de 180 000 paires de traductions juridiques suisses alignées, incluant des lois, des notes introductives et des communiqués de presse dans toutes les langues suisses ainsi qu'en anglais, conçu pour évaluer les systèmes de traduction basés sur des modèles de langage (LLM). Notre évaluation systématique révèle que les modèles de pointe atteignent des performances de traduction supérieures pour tous les types de documents, tandis que les systèmes de traduction spécialisés excellent spécifiquement dans les lois mais sous-performent dans les notes introductives. Grâce à des tests rigoureux et à une validation par des experts humains, nous démontrons que bien que le fine-tuning des modèles de langage ouverts (SLM) améliore significativement leur qualité de traduction, ils restent en retard par rapport aux meilleurs modèles de pointe utilisés en zero-shot, tels que Claude-3.5-Sonnet. De plus, nous présentons SwiLTra-Judge, un système d'évaluation LLM spécialisé qui s'aligne le mieux avec les évaluations des experts humains.
Les véhicules autonomes (AV) ont atteint le stade de commercialisation, mais leur capacité limitée à interagir et à exprimer des intentions continue de poser des défis dans les interactions avec les véhicules conduits par des humains (HV). Les récents progrès des grands modèles de langage (LLM) permettent une communication bidirectionnelle homme-machine, mais le conflit entre la lenteur de l'inférence et la nécessité d'une prise de décision en temps réel complique le déploiement pratique. Pour résoudre ces problèmes, cet article propose un cadre parallèle Acteur-Raisonneur conçu pour permettre des interactions bidirectionnelles explicites entre AV et HV dans divers scénarios. Tout d'abord, en facilitant les interactions entre le Raisonneur piloté par un LLM et des HV hétérogènes simulés pendant l'entraînement, une base de données de mémoire d'interaction, appelée l'Acteur, est établie. Ensuite, grâce à l'introduction du module de partition de mémoire et du module de récupération de mémoire à deux couches, la capacité de l'Acteur à gérer des HV hétérogènes est considérablement améliorée. Des études d'ablation et des comparaisons avec d'autres méthodes de prise de décision montrent que le cadre Acteur-Raisonneur proposé améliore significativement la sécurité et l'efficacité. Enfin, en combinant les informations de l'Interface Homme-Machine externe (eHMI) dérivées du raisonnement du Raisonneur et les solutions d'action réalisables récupérées par l'Acteur, l'efficacité du cadre Acteur-Raisonneur est confirmée dans des interactions de terrain multi-scénarios. Notre code est disponible à l'adresse https://github.com/FanGShiYuu/Actor-Reasoner.