papers.description
Les modèles de langage de grande taille (LLM) sont de plus en plus sollicités pour des tâches de génération créative, incluant la simulation de personnages fictifs. Cependant, leur capacité à incarner des personnages antagonistes et non prosociaux reste largement inexplorée. Nous émettons l'hypothèse que l'alignement de sécurité des LLM modernes crée un conflit fondamental avec la tâche consistant à jouer de manière authentique des personnages moralement ambigus ou antagonistes. Pour étudier cela, nous présentons le benchmark Moral RolePlay, un nouvel ensemble de données comportant une échelle d'alignement moral à quatre niveaux et un ensemble de test équilibré pour une évaluation rigoureuse. Nous demandons à des LLM de pointe d'incarner des personnages allant de parangons de vertu à des méchants purs. Notre évaluation à grande échelle révèle un déclin constant et monotone de la fidélité du jeu de rôle à mesure que la moralité du personnage diminue. Nous constatons que les modèles éprouvent le plus de difficultés avec les traits de caractère directement antitétiques aux principes de sécurité, tels que « Trompeur » et « Manipulateur », substituant souvent une malveillance nuancée par une agression superficielle. De plus, nous démontrons que la compétence générale d'un chatbot est un mauvais prédicteur de sa capacité à jouer un méchant, les modèles fortement alignés sur la sécurité obtenant des résultats particulièrement médiocres. Notre travail apporte la première preuve systématique de cette limitation critique, mettant en lumière une tension fondamentale entre la sécurité des modèles et la fidélité créative. Notre benchmark et nos résultats ouvrent la voie au développement de méthodes d'alignement plus nuancées et conscientes du contexte.
La capture des relations spatiales à partir d'entrées visuelles est une pierre angulaire de l'intelligence générale de type humain. Plusieurs études antérieures ont tenté d'améliorer la conscience spatiale des modèles vision-langage (VLM) en ajoutant des encodeurs experts supplémentaires, ce qui engendre une surcharge computationnelle et nuit généralement aux capacités générales. Pour renforcer les capacités spatiales dans les architectures générales, nous présentons VST (Visual Spatial Tuning), un cadre complet visant à doter les VLM de capacités visuo-spatiales semblables à celles des humains, allant de la perception au raisonnement spatial. Nous tentons d'abord d'améliorer la perception spatiale des VLM en construisant un jeu de données à grande échelle nommé VST-P, qui comprend 4,1 millions d'échantillons couvrant 19 compétences sur des vues uniques, des images multiples et des vidéos. Ensuite, nous présentons VST-R, un jeu de données soigneusement constitué avec 135 000 échantillons qui instruisent les modèles à raisonner dans l'espace. Nous adoptons notamment un pipeline d'entraînement progressif : un fine-tuning supervisé pour construire des connaissances spatiales fondamentales, suivi d'un apprentissage par renforcement pour améliorer davantage les capacités de raisonnement spatial. Sans effet secondaire sur les capacités générales, la méthode VST proposée obtient systématiquement des résultats state-of-the-art sur plusieurs benchmarks spatiaux, notamment 34,8 % sur MMSI-Bench et 61,2 % sur VSIBench. Il s'avère que les modèles Vision-Langage-Action peuvent être significativement améliorés avec le paradigme de réglage spatial proposé, ouvrant la voie à une IA plus ancrée dans le monde physique.
Les modèles multimodaux agentiques ne doivent pas seulement comprendre le texte et les images, mais aussi activement solliciter des outils externes, tels que des environnements d'exécution de code et la recherche web, et intégrer ces opérations dans le raisonnement. Dans ce travail, nous présentons DeepEyesV2 et explorons comment construire un modèle multimodal agentique sous les angles de la construction des données, des méthodes d'entraînement et de l'évaluation du modèle. Nous observons que l'apprentissage par renforcement seul échoue à induire un comportement robuste d'utilisation d'outils. Ce phénomène motive une pipeline d'entraînement en deux étapes : une phase d'amorçage pour établir les schémas d'utilisation d'outils, et une phase d'apprentissage par renforcement pour affiner davantage l'invocation des outils. Nous constituons un ensemble de données d'entraînement diversifié et modérément difficile, incluant spécifiquement des exemples où l'utilisation d'outils est bénéfique. Nous introduisons en outre RealX-Bench, un benchmark complet conçu pour évaluer le raisonnement multimodal en conditions réelles, qui nécessite intrinsèquement l'intégration de multiples capacités, incluant la perception, la recherche et le raisonnement. Nous évaluons DeepEyesV2 sur RealX-Bench et d'autres benchmarks représentatifs, démontrant son efficacité dans la compréhension du monde réel, le raisonnement mathématique et les tâches intensives en recherche. De plus, DeepEyesV2 présente une invocation d'outils adaptative à la tâche, tendant à utiliser les opérations sur images pour les tâches de perception et les calculs numériques pour les tâches de raisonnement. L'apprentissage par renforcement permet en outre des combinaisons complexes d'outils et permet au modèle d'invoquer sélectivement les outils en fonction du contexte. Nous espérons que notre étude pourra fournir des orientations à la communauté pour le développement de modèles multimodaux agentiques.
Les modèles de langage de grande taille (LLM) peuvent réaliser des raisonnements à plusieurs étapes via la méthode Chaîne de Pensée (CoT), mais ils ne peuvent pas vérifier de manière fiable leur propre logique. Même lorsqu'ils parviennent à des réponses correctes, le raisonnement sous-jacent peut être erroné, ce qui compromet la confiance dans des scénarios à enjeux élevés. Pour atténuer ce problème, nous présentons VeriCoT, une méthode neuro-symbolique qui extrait et vérifie des arguments logiques formels à partir du raisonnement CoT. VeriCoT formalise chaque étape de raisonnement CoT en logique du premier ordre et identifie les prémisses qui ancrent l'argument dans le contexte source, les connaissances de sens commun ou les étapes de raisonnement antérieures. La représentation symbolique permet à des solveurs automatisés de vérifier la validité logique, tandis que les prémisses en langage naturel permettent aux humains et aux systèmes d'identifier les étapes de raisonnement non fondées ou fallacieuses. Les expériences sur les jeux de données ProofWriter, LegalBench et BioASQ montrent que VeriCoT identifie efficacement les raisonnements défectueux et constitue un indicateur robuste de l'exactitude de la réponse finale. Nous exploitons également le signal de vérification de VeriCoT pour (1) l'auto-réflexion en temps d'inférence, (2) l'affinage supervisé (SFT) sur des jeux de données distillés par VeriCoT et (3) l'affinage par préférences (PFT) via l'optimisation directe des préférences (DPO) en utilisant des récompenses par paires basées sur la vérification, améliorant ainsi davantage la validité et la précision du raisonnement.
Les agents dans le monde réel doivent produire des jugements non seulement logiques mais aussi opportuns. Cela nécessite une conscience continue de l'environnement dynamique : des dangers émergent, des opportunités apparaissent et d'autres agents agissent, tandis que le raisonnement de l'agent est encore en cours. Malgré les progrès dans le raisonnement des modèles de langage, les approches existantes ne prennent pas en compte cette nature dynamique. Nous introduisons le raisonnement en temps réel comme une nouvelle formulation de problème pour les agents dans des environnements évolutifs et créons Real-Time Reasoning Gym pour le démontrer. Nous étudions deux paradigmes pour déployer des modèles de langage dans des agents : (1) les agents réactifs, qui utilisent des modèles de langage avec un calcul de raisonnement limité pour des réponses rapides, et (2) les agents planificateurs, qui autorisent un calcul de raisonnement étendu pour des problèmes complexes. Nos expériences montrent que même les modèles les plus avancés peinent à produire des jugements logiques et opportuns dans l'un ou l'autre paradigme. Pour remédier à cette limitation, nous proposons AgileThinker, qui mobilise simultanément les deux paradigmes de raisonnement. AgileThinker surpasse constamment les agents n'utilisant qu'un seul paradigme de raisonnement à mesure que la difficulté de la tâche et la pression temporelle augmentent, équilibrant efficacement la profondeur du raisonnement et la latence de réponse. Notre travail établit le raisonnement en temps réel comme un banc d'essai critique pour le développement d'agents pratiques et fournit une base pour la recherche sur les systèmes d'IA soumis à des contraintes temporelles, traçant une voie vers des agents capables d'opérer en temps réel.
Les récentes avancées dans l'intégration du mouvement humain 3D et du langage se sont principalement concentrées sur la génération de texte vers le mouvement, laissant la tâche de compréhension du mouvement relativement inexplorée. Nous introduisons l'Annotation Dense du Mouvement, une nouvelle tâche qui vise à localiser temporellement et à décrire les actions au sein de séquences de mouvement humain 3D. Les jeux de données actuels sont insuffisants pour fournir des annotations temporelles détaillées et consistent principalement en de courtes séquences comportant peu d'actions. Pour surmonter ces limitations, nous présentons le Complex Motion Dataset (CompMo), le premier jeu de données à grande échelle comportant des séquences de mouvement complexes richement annotées avec des limites temporelles précises. Construit grâce à une pipeline de génération de données soigneusement conçue, CompMo comprend 60 000 séquences de mouvement, chacune composée de multiples actions allant d'au moins deux à dix, annotées avec précision selon leur étendue temporelle. Nous présentons également DEMO, un modèle qui intègre un grand modèle de langage avec un simple adaptateur de mouvement, entraîné pour générer des descriptions denses et temporellement ancrées. Nos expériences montrent que DEMO surpasse substantiellement les méthodes existantes sur CompMo ainsi que sur des benchmarks adaptés, établissant une base solide pour les futures recherches en compréhension et annotation du mouvement 3D.
Dans cette étude, nous identifions un biais inhérent aux architectures de LVLM dominantes en faveur de la modalité linguistique, résultant largement de la pratique courante qui consiste à simplement ajouter les embeddings visuels à la séquence textuelle d'entrée. Pour y remédier, nous proposons une méthode simple mais efficace qui affine les embeddings textuels en intégrant des caractéristiques visuelles moyennées par pooling. Notre approche améliore nettement l'ancrage visuel et réduit significativement les hallucinations sur des benchmarks établis. Bien que le pooling moyen offre un moyen simple, robuste et efficace d'intégrer l'information visuelle, nous estimons que des méthodes de fusion plus sophistiquées pourraient encore améliorer l'ancrage visuel et l'alignement intermodal. Étant donné que l'objectif principal de ce travail est de mettre en lumière le déséquilibre modal et son impact sur les hallucinations – et de montrer que l'affinement des embeddings textuels avec des informations visuelles atténue ce problème – nous laissons l'exploration de stratégies de fusion avancées à de futurs travaux.
Une calibration précise de la confiance dans les grands modèles de langage (LLM) est cruciale pour leur utilisation sécurisée dans des domaines à haut risque, où une confiance verbalisée claire renforce la confiance des utilisateurs. Les méthodes traditionnelles qui imitent des expressions de confiance de référence échouent souvent à capturer le raisonnement nécessaire à une évaluation précise de la confiance. Nous proposons les critiques en langage naturel comme solution, idéalement adaptées à la calibration de la confiance, car les étiquettes de confiance de référence précises sont difficiles à obtenir et nécessitent souvent de multiples générations. Cet article étudie comment les critiques en langage naturel peuvent améliorer la confiance verbalisée, en abordant : (1) *Que critiquer* : l'incertitude (centrée sur la question) ou la confiance (spécifique à la réponse) ? L'analyse montre que la confiance convient aux tâches à choix multiples, tandis que l'incertitude excelle dans les scénarios ouverts. (2) *Comment critiquer* : l'auto-critique ou l'entraînement par calibration des critiques ? Nous proposons l'Auto-Critique (Self-Critique), permettant aux LLM de critiquer et d'optimiser leur confiance au-delà de la simple exactitude, et CritiCal, une nouvelle méthode d'entraînement par Calibration des Critiques (Critique Calibration) qui exploite les critiques en langage naturel pour améliorer la calibration de la confiance, dépassant l'optimisation numérique directe. Les expériences montrent que CritiCal surpasse significativement l'Auto-Critique et d'autres bases de référence compétitives, dépassant même son modèle enseignant, GPT-4o, dans des tâches de raisonnement complexe. CritiCal démontre également une généralisation robuste dans des contextes hors distribution, faisant progresser la fiabilité des LLM.
Les récents progrès des modèles de langage à contexte étendu (LM) ont permis de traiter des entrées d'un million de tokens, élargissant leurs capacités pour des tâches complexes comme les agents d'utilisation informatique. Cependant, les implications en matière de sécurité de ces contextes étendus restent floues. Pour combler cette lacune, nous présentons NINJA (acronyme de Needle-in-haystack jailbreak attack), une méthode qui contourne les protections des LM alignés en ajoutant un contenu généré par le modèle et bénin à des objectifs utilisateur nuisibles. L'observation cruciale de notre méthode est que la position des objectifs nuisibles joue un rôle important dans la sécurité. Les expériences sur le benchmark de sécurité standard HarmBench montrent que NINJA augmente significativement les taux de réussite des attaques pour les modèles open source et propriétaires les plus avancés, incluant LLaMA, Qwen, Mistral et Gemini. Contrairement aux méthodes de contournement antérieures, notre approche est peu gourmande en ressources, transférable et moins détectable. De plus, nous montrons que NINJA est optimal en calcul : avec un budget de calcul fixe, augmenter la longueur du contexte surpasse l'augmentation du nombre d'essais dans les attaques par sélection du meilleur résultat parmi N. Ces résultats révèlent que même des contextes longs bénins - lorsqu'ils sont conçus avec un positionnement minutieux des objectifs - introduisent des vulnérabilités fondamentales dans les LM modernes.
La réparation automatisée de programmes (APR) s'oriente récemment vers les grands modèles de langage et les systèmes à base d'agents, mais la plupart des systèmes s'appuient sur un contexte instantané local, négligeant l'historique du dépôt. Les travaux antérieurs montrent que l'historique du dépôt aide à réparer les bogues d'une seule ligne, car le dernier commit modifiant la ligne boguée est souvent celui qui a introduit le bogue. Dans cet article, nous étudions si l'historique du dépôt peut également améliorer les systèmes d'APR agentiques à grande échelle, en particulier pour les bogues complexes multi-fragments. Nous présentons HAFixAgent, un agent de correction de bogues sensible à l'historique qui intègre des heuristiques dérivées du blame dans sa boucle de réparation. Une étude préliminaire de l'ensemble des 854 bogues réels de Defects4J motive notre conception, montrant que l'historique pertinent est à la fois largement disponible et très concentré. La comparaison empirique de HAFixAgent avec deux étalons de pointe montre : (1) Efficacité : HAFixAgent s'améliore significativement par rapport à l'étalon à base d'agents (de 212,3 %) et à l'étalon multi-fragments (de 29,9 %). (2) Efficience : l'historique n'augmente pas significativement les étapes de l'agent et maintient des coûts en tokens comparables, avec des coûts médians nettement inférieurs pour les bogues complexes multi-fichiers multi-fragments. (3) Practicalité : la combinaison de différentes heuristiques historiques répare plus de bogues, offrant un compromis coût-bénéfice clair. HAFixAgent propose une approche pratique pour l'APR agentique sensible à l'historique : ancrer l'agent dans l'historique de contrôle de version, prioriser le contexte historique basé sur les diff, et intégrer des heuristiques complémentaires si nécessaire.