papers.description
Le réglage fin par renforcement (RFT), un cadre en deux étapes comprenant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL), a montré des résultats prometteurs pour améliorer la capacité de raisonnement des grands modèles de langage (LLM). Cependant, l'extension du RFT aux grands modèles vidéo-langage (LVLM) reste un défi. Nous proposons VideoP2R, un nouveau cadre de RFT vidéo conscient des processus qui améliore le raisonnement vidéo en modélisant la perception et le raisonnement comme des processus distincts. Lors de l'étape SFT, nous développons un pipeline en trois étapes pour générer VideoP2R-CoT-162K, un jeu de données de chaîne de pensée (CoT) de haute qualité et conscient des processus pour la perception et le raisonnement. Lors de l'étape RL, nous introduisons un nouvel algorithme d'optimisation de politique relative par groupe conscient des processus (PA-GRPO) qui fournit des récompenses distinctes pour la perception et le raisonnement. Des expériences approfondies montrent que VideoP2R atteint des performances à la pointe de l'état de l'art (SotA) sur six des sept benchmarks de raisonnement et de compréhension vidéo. Des études d'ablation confirment en outre l'efficacité de notre modélisation consciente des processus et du PA-GRPO, et démontrent que la sortie de perception du modèle est suffisamment informative pour le raisonnement en aval.
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM), particulièrement sous contrainte de paramètres, est cruciale pour les applications réelles. Les travaux antérieurs proposent des transformeurs récurrents, qui allouent un nombre fixe d'itérations supplémentaires par token pour améliorer la qualité de la génération. Après la première passe avant standard, au lieu de la verbalisation, les états cachés de la dernière couche sont réinjectés en entrée pour des itérations supplémentaires afin d'affiner les prédictions de tokens. Cependant, nous identifions un phénomène de « sur-réflexion » latent : des prédictions de tokens faciles, déjà correctes après la première passe, sont parfois modifiées en erreurs lors des itérations supplémentaires. Pour résoudre ce problème, nous proposons Think-at-Hard (TaH), une méthode de réflexion latente dynamique qui itère plus profondément uniquement sur les tokens difficiles. Elle utilise un décideur neuronal léger pour déclencher des itérations latentes uniquement sur les tokens susceptibles d'être incorrects après la passe avant standard. Durant les itérations latentes, des modules LoRA (Low-Rank Adaptation) font passer l'objectif du LLM d'une prédiction générale du token suivant à un affinage ciblé des tokens difficiles. Nous introduisons en outre un mécanisme d'attention doublement causale qui étend l'attention de la dimension séquentielle des tokens à une dimension supplémentaire de profondeur d'itération. Cela permet un flux d'information trans-itération tout en maintenant un parallélisme séquentiel complet. Les expériences montrent que TaH améliore les performances de raisonnement des LLM sur cinq benchmarks exigeants tout en conservant le même nombre de paramètres. Par rapport aux modèles de référence qui itèrent deux fois pour tous les tokens de sortie, TaH procure des gains de précision de 8,1 à 11,3 % tout en exemptant 94 % des tokens de la seconde itération. Face aux modèles Qwen3 à itération unique finetunés avec les mêmes données, il procure également des gains de précision de 4,0 à 5,0 %. Lorsque l'on autorise moins de 3 % de paramètres supplémentaires via LoRA et le décideur d'itération, les gains augmentent respectivement à 8,5-12,6 % et 5,3-5,4 %. Notre code est disponible à l'adresse https://github.com/thu-nics/TaH.
La stylisation visuelle innovante est une pierre angulaire de la création artistique, mais la génération de styles visuels nouveaux et cohérents reste un défi majeur. Les approches génératives existantes reposent généralement sur des invites textuelles longues, des images de référence ou du *fine-tuning* économe en paramètres pour guider la génération d'images sensibles au style, mais elles peinent souvent avec la cohérence stylistique, la créativité limitée et les représentations de styles complexes. Dans cet article, nous affirmons qu'un style vaut un code numérique en introduisant la nouvelle tâche de génération d'images code-à-style, qui produit des images avec des styles visuels nouveaux et cohérents conditionnés uniquement par un code de style numérique. À ce jour, ce domaine n'a été principalement exploré que par l'industrie (par exemple, Midjourney), sans recherche open-source de la communauté académique. Pour combler cette lacune, nous proposons CoTyle, la première méthode open-source pour cette tâche. Concrètement, nous entraînons d'abord un *codebook* de styles discrets à partir d'une collection d'images pour extraire des embeddings stylistiques. Ces embeddings servent de conditions à un modèle de diffusion texte-à-image (T2I-DM) pour générer des images stylisées. Ensuite, nous entraînons un générateur de styles autorégressif sur les embeddings de styles discrets pour modéliser leur distribution, permettant la synthèse de nouveaux embeddings stylistiques. Lors de l'inférence, un code de style numérique est mappé à un embedding de style unique par le générateur de styles, et cet embedding guide le T2I-DM pour générer des images dans le style correspondant. Contrairement aux méthodes existantes, notre offre offre une simplicité et une diversité inégalées, déverrouillant un vaste espace de styles reproductibles à partir d'une entrée minimale. Des expériences approfondies valident que CoTyle transforme efficacement un code numérique en contrôleur de style, démontrant qu'un style vaut bien un code.
Nous présentons AraLingBench : un benchmark entièrement annoté par des humains pour évaluer la compétence linguistique en arabe des grands modèles de langage (LLM). Ce benchmark couvre cinq catégories principales : grammaire, morphologie, orthographe, compréhension écrite et syntaxe, à travers 150 questions à choix multiples conçues par des experts qui évaluent directement la compréhension structurelle de la langue. L’évaluation de 35 LLM arabes et bilingues révèle que les modèles actuels démontrent une forte maîtrise superficielle mais peinent à raisonner de manière approfondie sur les aspects grammaticaux et syntaxiques. AraLingBench met en lumière un écart persistant entre les scores élevés sur les benchmarks basés sur la connaissance et une véritable maîtrise linguistique, montrant que de nombreux modèles réussissent grâce à la mémorisation ou à la reconnaissance de motifs plutôt qu’à une compréhension authentique. En isolant et en mesurant les compétences linguistiques fondamentales, AraLingBench fournit un cadre diagnostique pour le développement des LLM arabes. Le code complet de l’évaluation est disponible publiquement sur GitHub.
Les modèles de fondation ont révolutionné l'intelligence artificielle dans de nombreux domaines, mais leur potentiel transformateur reste largement inexploité dans la classification multi-étiquettes extrême (XMC). Dans le cadre XMC, les requêtes sont associées à des étiquettes pertinentes issues d'espaces d'étiquettes extrêmement vastes, où il est crucial de trouver un équilibre entre efficacité et performance. Par conséquent, de nombreuses approches récentes formulent efficacement le problème XMC comme une recherche du produit scalaire maximum entre des embeddings appris à partir de petites architectures de transformeurs encodeurs uniquement. Dans cet article, nous abordons deux aspects importants du XMC : comment exploiter efficacement des modèles décodeurs uniquement plus grands, et comment tirer parti des informations visuelles tout en maintenant l'efficacité computationnelle. Nous démontrons que ces deux aspects jouent un rôle critique séparément dans le XMC et peuvent être combinés pour améliorer les performances. Nous montrons qu'un décodeur de quelques milliards de paramètres peut apporter des améliorations substantielles tout en gardant la surcharge computationnelle gérable. De plus, notre cadre d'apprentissage multi-étiquettes extrême enrichi par la vision (ViXML) intègre efficacement des modèles de fondation visuels en agrégeant un seul embedding par image. Cela limite l'augmentation computationnelle tout en débloquant des capacités multimodales. Fait remarquable, ViXML avec de petits encodeurs surpasse le décodeur basé uniquement sur le texte dans la plupart des cas, montrant qu'une image vaut des milliards de paramètres. Enfin, nous présentons une extension de jeux de données textuels existants pour exploiter les métadonnées visuelles et les mettons à disposition pour des évaluations futures. Des expériences complètes sur quatre jeux de données publics textuels et leurs versions enrichies d'images valident l'efficacité de nos propositions, dépassant l'état de l'art précédent jusqu'à +8,21 % en P@1 sur le plus grand jeu de données. Le code de ViXML est disponible à l'adresse https://github.com/DiegoOrtego/vixml.
Si le *prompting* en chaîne de pensée (Chain-of-Thought, CoT) permet un raisonnement symbolique sophistiqué dans les grands modèles de langage (LLM), il reste confiné au texte discret et ne peut simuler la dynamique continue, régie par les lois de la physique, du monde réel. Les récents modèles de génération vidéo sont apparus comme des simulateurs du monde potentiels grâce au raisonnement en chaîne de trames (Chain-of-Frames, CoF) – matérialisant la pensée sous forme de séquences visuelles image par image, chaque trame représentant une étape de raisonnement physiquement ancrée. Malgré des démonstrations convaincantes, un défi persiste : les benchmarks existants, axés sur la fidélité ou l'alignement, n'évaluent pas le raisonnement CoF et ne peuvent donc pas mesurer les capacités cognitives fondamentales en planification multi-étapes, en logique algorithmique ou en extrapolation de motifs abstraits. Ce vide évaluatif empêche une compréhension systématique des capacités des modèles et un guidage principiel pour leur amélioration. Nous présentons Gen-ViRe (Generative Visual Reasoning Benchmark), un cadre fondé sur les sciences cognitives et les applications réelles de l'IA, qui décompose le raisonnement CoF en six dimensions cognitives – allant de la logique perceptuelle à la planification abstraite – et 24 sous-tâches. Grâce à une curation de données multi-sources, des protocoles de *prompting* minimaux et une évaluation hybride assistée par modèles de vision et langage (VLM) avec des critères détaillés, Gen-ViRe offre la première évaluation quantitative des modèles vidéo en tant que raisonneurs. Nos expériences sur les systèmes à la pointe (SOTA) révèlent des écarts substantiels entre une qualité visuelle impressionnante et la profondeur réelle de raisonnement, établissant des bases de référence et des outils de diagnostic pour faire progresser les véritables simulateurs du monde.
Les mécanismes d’auto-réflexion qui reposent sur des processus de reconsidération purement textuels obtiennent de bons résultats dans la plupart des tâches multimodales. Cependant, lorsqu'ils sont directement appliqués à des scénarios de compréhension vidéo longue durée, ils présentent des limitations évidentes. Les raisons fondamentales résident en deux points : (1) la compréhension vidéo longue durée implique une entrée visuelle plus riche et dynamique, ce qui signifie que reconsidérer uniquement l'information textuelle est insuffisant et nécessite un processus de reconsidération supplémentaire spécifiquement ciblé sur l'information visuelle ; (2) les mécanismes de réflexion purement textuels manquent de capacités d'interaction cross-modale, les empêchant d'intégrer pleinement l'information visuelle durant la réflexion. Motivés par ces constats, nous proposons REVISOR (REflective VIsual Segment Oriented Reasoning), un nouveau cadre pour la réflexion multimodale augmentée par outils. REVISOR permet aux MLLM de construire collaborativement des processus de réflexion introspective à travers les modalités textuelle et visuelle, améliorant significativement leur capacité de raisonnement pour la compréhension vidéo longue durée. Pour garantir que REVISOR puisse apprendre à réviser précisément les segments vidéo fortement pertinents pour la question durant l'apprentissage par renforcement, nous avons conçu le mécanisme de récompense découplée à double attribution (DADR). Intégré dans la stratégie d'entraînement GRPO, ce mécanisme impose un alignement causal entre le raisonnement du modèle et les preuves vidéo sélectionnées. Notamment, le cadre REVISOR améliore significativement la capacité de compréhension vidéo longue durée des MLLM sans nécessiter de fine-tuning supervisé supplémentaire ou de modèles externes, obtenant des résultats impressionnants sur quatre benchmarks incluant VideoMME, LongVideoBench, MLVU et LVBench.
L'évaluation de la robustesse des Grands Modèles Vision-Langage (LVLM) est essentielle pour leur développement continu et leur déploiement responsable dans des applications réelles. Cependant, les benchmarks de robustesse existants se concentrent généralement sur les hallucinations ou les entrées textuelles trompeuses, tout en négligeant largement le défi tout aussi critique posé par les entrées visuelles trompeuses dans l'évaluation de la compréhension visuelle. Pour combler cette importante lacune, nous présentons MVI-Bench, le premier benchmark complet spécialement conçu pour évaluer comment les Entrées Visuelles Trompeuses (MVI) compromettent la robustesse des LVLM. Fondée sur des primitives visuelles fondamentales, la conception de MVI-Bench s'articule autour de trois niveaux hiérarchiques d'entrées visuelles trompeuses : Concept Visuel, Attribut Visuel et Relation Visuelle. En utilisant cette taxonomie, nous avons constitué six catégories représentatives et compilé 1 248 instances de questions-réponses visuelles (VQA) expertement annotées. Pour faciliter une évaluation granulaire de la robustesse, nous introduisons également MVI-Sensitivity, une nouvelle métrique qui caractérise la robustesse des LVLM à un niveau fin. Les résultats empiriques obtenus sur 18 LVLM à la pointe révèlent des vulnérabilités prononcées face aux entrées visuelles trompeuses, et nos analyses approfondies sur MVI-Bench fournissent des insights actionnables pouvant guider le développement de LVLM plus fiables et robustes. Le benchmark et le codebase sont accessibles à l'adresse https://github.com/chenyil6/MVI-Bench.
Nous présentons Orion, un cadre d'agent visuel capable de traiter toute modalité en entrée et de générer toute modalité en sortie. S'appuyant sur une architecture agentique dotée de capacités multiples d'appel d'outils, Orion est conçu pour les tâches d'intelligence artificielle visuelle et obtient des résultats à la pointe de l'état de l'art. Contrairement aux modèles vision-langage traditionnels produisant des sorties descriptives, Orion orchestre une suite d'outils spécialisés en vision par ordinateur, incluant la détection d'objets, la localisation de points-clés, la segmentation panoptique, la reconnaissance optique de caractères et l'analyse géométrique, pour exécuter des workflows visuels complexes multi-étapes. Le système atteint des performances compétitives sur MMMU, MMBench, DocVQA et MMLongBench tout en étendant les modèles monolithiques vision-langage vers une intelligence visuelle de qualité industrielle. En combinant la perception neuronale avec l'exécution symbolique, Orion permet un raisonnement visuel autonome, marquant une transition entre la compréhension visuelle passive et une intelligence visuelle active pilotée par des outils.
Les modèles de langage de grande taille (LLM) sont de plus en plus explorés pour la construction d'Agents capables d'interagir activement avec leur environnement (par exemple, via l'utilisation d'outils) pour résoudre des problèmes complexes. L'apprentissage par renforcement (RL) est considéré comme une technologie clé au potentiel significatif pour entraîner de tels Agents ; cependant, l'application efficace du RL aux Agents LLM en est encore à ses débuts et fait face à des défis considérables. Actuellement, ce domaine émergent manque d'une exploration approfondie des approches de RL spécifiquement adaptées au contexte des Agents LLM, ainsi que d'une pénurie de cadres d'entraînement flexibles et facilement extensibles conçus à cet effet. Pour contribuer à l'avancement de ce domaine, cet article revient d'abord sur les méthodologies d'Apprentissage par Renforcement pour les Agents LLM et les clarifie en étendant systématiquement le cadre des Processus de Décision Markoviens (MDP) pour définir de manière exhaustive les composants clés d'un Agent LLM. Deuxièmement, nous présentons Agent-R1, un cadre d'entraînement modulaire, flexible et convivial pour les Agents LLM basés sur le RL, conçu pour une adaptation simple à divers scénarios de tâches et environnements interactifs. Nous avons mené des expériences sur des tâches de référence de Questions à Sauts Multiples, fournissant une validation initiale de l'efficacité de nos méthodes et cadre proposés.
Les modèles linguistiques omnimodaux (OmniLLM) suscitent un intérêt croissant pour la compréhension unifiée audio-vidéo, mais le traitement des séquences de tokens audio-vidéo constitue un goulot d'étranglement computationnel important. Les méthodes existantes de compression de tokens ne répondent pas encore à ce besoin émergent de compression conjointe de tokens multimodaux. Pour combler cette lacune, nous présentons OmniZip, un cadre de compression de tokens audio-visuels guidé par l'audio et sans apprentissage, qui optimise la représentation multimodale des tokens et accélère l'inférence. Concrètement, OmniZip identifie d'abord les tokens audio saillants, puis calcule un score de rétention audio pour chaque groupe temporel afin de capturer la densité informationnelle, guidant ainsi dynamiquement l'élagage des tokens vidéo tout en préservant les indices provenant d'ancres audio renforcées par la similarité cross-modale. Pour chaque fenêtre temporelle, OmniZip compresse les tokens vidéo selon un schéma spatio-temporel entrelacé. Des résultats empiriques approfondis démontrent les mérites d'OmniZip : il atteint une accélération d'inférence de 3,42X et une réduction de mémoire de 1,4X par rapport aux meilleures alternatives, tout en maintenant les performances sans aucun apprentissage.
Le progrès rapide des modèles de langage à grande échelle (LLM) a entraîné une saturation des performances sur de nombreux benchmarks établis, remettant en question leur capacité à distinguer les modèles de pointe. Parallèlement, les benchmarks existants à haute difficulté souffrent souvent d'un focus disciplinaire étroit, de formats de réponse trop simplifiés et d'une vulnérabilité à la contamination des données, créant un écart de fidélité avec la démarche scientifique réelle. Pour relever ces défis, nous présentons ATLAS (AGI-Oriented Testbed for Logical Application in Science), une suite d'évaluation à grande échelle, à haute difficulté et interdisciplinaire composée d'environ 800 problèmes originaux. Développé par des experts de domaine (niveau doctorat et au-delà), ATLAS couvre sept domaines scientifiques fondamentaux : les mathématiques, la physique, la chimie, la biologie, l'informatique, les sciences de la Terre et la science des matériaux. Ses principales caractéristiques incluent : (1) une Haute Originalité et une Résistance à la Contamination, toutes les questions étant nouvellement créées ou substantiellement adaptées pour prévenir les fuites de données de test ; (2) un Focus Interdisciplinaire, conçu pour évaluer la capacité des modèles à intégrer des connaissances et à raisonner à travers les domaines scientifiques ; (3) des Réponses à Haute Fidélité, privilégiant des réponses complexes et ouvertes impliquant un raisonnement en plusieurs étapes et des expressions formatées en LaTeX plutôt que de simples questions à choix multiples ; et (4) un Contrôle Qualité Rigoureux, employant un processus en plusieurs étapes d'examen par les pairs experts et de tests adversariaux pour garantir la difficulté des questions, leur valeur scientifique et leur exactitude. Nous proposons également un paradigme d'évaluation robuste utilisant un panel de juges LLM pour une évaluation automatisée et nuancée des réponses complexes. Les résultats préliminaires sur les modèles leaders démontrent l'efficacité d'ATLAS à différencier leurs capacités avancées de raisonnement scientifique. Nous prévoyons de développer ATLAS en une plateforme ouverte, communautaire et pérenne pour fournir une "règle" fiable mesurant les progrès vers l'Intelligence Artificielle Générale.
Les modèles de fondation sont apparus comme des architectures efficaces pour de nombreuses tâches de vision. Cependant, les caractéristiques auto-supervisées actuelles entremêlent la sémantique de haut niveau avec des facteurs physiques de bas niveau, tels que la géométrie et l'éclairage, ce qui entrave leur utilisation dans les tâches nécessitant un raisonnement physique explicite. Dans cet article, nous présentons Φeat, une nouvelle architecture visuelle ancrée dans la physique qui favorise une représentation sensible à l'identité matérielle, incluant les indices de réflectance et la mésostructure géométrique. Notre idée clé est d'employer une stratégie de pré-entraînement qui oppose des recadrages spatiaux et des augmentations physiques d'un même matériau sous différentes formes et conditions d'éclairage. Bien que des données similaires aient été utilisées dans des tâches supervisées spécialisées comme la décomposition intrinsèque ou l'estimation de matériaux, nous démontrons qu'une stratégie d'entraînement purement auto-supervisée, sans étiquettes explicites, fournit déjà une forte antériorité pour les tâches nécessitant des caractéristiques robustes invariantes aux facteurs physiques externes. Nous évaluons les représentations apprises par l'analyse de similarité des caractéristiques et la sélection de matériaux, montrant que Φeat capture une structure physiquement fondée au-delà du regroupement sémantique. Ces résultats soulignent le potentiel de l'apprentissage non supervisé de caractéristiques physiques comme fondement pour une perception consciente de la physique en vision et en graphisme.
Les grands modèles de langage (LLM) sont des apprenants performants en contexte zéro-shot et few-shot. Cependant, lorsqu'ils effectuent des prédictions parmi un ensemble d'options candidates, les LLM souffrent de biais liés aux étiquettes, et les méthodes d'étalonnage existantes négligent les biais découlant des étiquettes de classe multi-tokens. Nous abordons un problème que nous appelons le biais de longueur des étiquettes, où les étiquettes de différentes longueurs sont traitées de manière incohérente, même après normalisation standard de la longueur. Pour y remédier, nous proposons l'étalonnage contextuel normalisé (NCC), une méthode efficace qui normalise et étalonne les prédictions au niveau de l'étiquette complète. NCC obtient des améliorations statistiquement significatives par rapport aux approches antérieures sur plusieurs jeux de données et modèles, avec des gains allant jusqu'à 10% en F1. De plus, NCC étend l'atténuation des biais à des tâches plus larges comme les questions à choix multiples. Notre analyse montre que, combiné à l'apprentissage en contexte, NCC est moins sensible à la sélection d'exemples few-shot, nécessite moins d'exemples pour des performances compétitives et produit des estimations de confiance plus fiables. Ces résultats soulignent l'importance d'atténuer les biais au niveau des étiquettes complètes pour améliorer les performances et la robustesse des méthodes basées sur les LLM, particulièrement dans les applications réelles où les étiquettes de classe comportent naturellement plusieurs tokens.
Nous présentons des assistants auditifs proactifs qui identifient et séparent automatiquement les interlocuteurs de l'utilisateur, sans nécessiter d'invites explicites. Notre système fonctionne sur des signaux audio binauriculaires égocentriques et utilise l'auto-parole de l'utilisateur comme point d'ancrage, exploitant les tours de parole et la dynamique conversationnelle pour inférer les interlocuteurs et supprimer les autres voix. Pour permettre un fonctionnement en temps réel sur appareil, nous proposons une architecture à double modèle : un modèle léger en flux continu s'exécute toutes les 12,5 ms pour une extraction à faible latence des interlocuteurs, tandis qu'un modèle plus lent s'exécute moins fréquemment pour capturer la dynamique conversationnelle à plus long terme. Les résultats sur des ensembles de test de conversations réelles à 2 et 3 locuteurs, collectés avec un matériel binauriculaire égocentrique auprès de 11 participants totalisant 6,8 heures, montrent une généralisation de l'identification et de l'isolation des interlocuteurs dans des environnements multi-conversations. Notre travail représente une étape vers des assistants auditifs qui s'adaptent proactivement à la dynamique conversationnelle et à l'engagement. Plus d'informations sont disponibles sur notre site web : https://proactivehearing.cs.washington.edu/
Les outils de programmation agentique reçoivent des objectifs formulés en langage naturel, les décomposent en tâches spécifiques, et écrivent ou exécutent le code réel avec une intervention humaine minimale. Au cœur de ce processus se trouvent les fichiers de contexte d'agent (« README pour agents »), qui fournissent des instructions persistantes au niveau du projet. Dans cet article, nous menons la première étude empirique à grande échelle sur 2 303 fichiers de contexte d'agent provenant de 1 925 dépôts pour caractériser leur structure, leur maintenance et leur contenu. Nous constatons que ces fichiers ne sont pas une documentation statique, mais des artefacts complexes et difficiles à lire qui évoluent comme du code de configuration, maintenus par de fréquents ajouts mineurs. Notre analyse de contenu sur 16 types d'instructions montre que les développeurs privilégient le contexte fonctionnel, tel que les commandes de compilation et d'exécution (62,3 %), les détails d'implémentation (69,9 %) et l'architecture (67,7 %). Nous identifions également un écart significatif : les exigences non fonctionnelles comme la sécurité (14,5 %) et les performances (14,5 %) sont rarement spécifiées. Ces résultats indiquent que si les développeurs utilisent les fichiers de contexte pour rendre les agents fonctionnels, ils fournissent peu de garde-fous pour garantir que le code généré par l'agent est sécurisé ou performant, soulignant le besoin d'améliorer les outils et les pratiques.
Malgré les progrès récents des modèles de langage 3D (3D-LLMs), leur capacité à ancrer précisément le langage dans les éléments visuels et spatiaux des environnements 3D reste limitée. Cette limitation découle en partie de données d'entraînement qui privilégient le raisonnement linguistique au détriment de la compréhension spatiale, en raison de la rareté des ressources 3D, laissant ainsi des biais d'ancrage inhérents non résolus. Pour y remédier, nous proposons l'édition de scènes 3D comme mécanisme clé pour générer des contrefactuels visuels précis qui atténuent ces biais via une manipulation spatiale fine, sans nécessiter de reconstruction coûteuse de scènes ou de collecte à grande échelle de données 3D. De plus, pour que ces modifications soient ciblées et corrigent directement les faiblesses spécifiques du modèle, nous présentons DEER-3D, un cadre piloté par l'erreur suivant un processus structuré « Décomposer, Évaluer le diagnostic, Modifier, Ré-entraîner », plutôt que d'augmenter les données de manière large ou aléatoire comme dans les approches conventionnelles. Concrètement, après avoir identifié un échec d'ancrage du 3D-LLM, notre cadre diagnostique d'abord l'erreur exacte au niveau du prédicat (par exemple, un attribut ou une relation spatiale). Il exécute ensuite des modifications minimales de la scène 3D, alignées sur le prédicat, comme un changement de couleur ou un repositionnement, pour produire une supervision contrefactuelle ciblée destinée à l'affinage itératif du modèle, améliorant ainsi significativement la précision de l'ancrage. Nous évaluons notre pipeline d'édition sur plusieurs benchmarks pour les tâches d'ancrage 3D et de compréhension de scènes, démontrant systématiquement des améliorations sur tous les jeux de données évalués grâce à un raffinement itératif. DEER-3D souligne l'efficacité de l'édition de scènes ciblée et pilotée par l'erreur pour combler l'écart entre les capacités de raisonnement linguistique et l'ancrage spatial dans les modèles de langage 3D.
Les émotions humaines sont difficiles à transmettre par des mots et sont souvent abstraites lors de ce processus ; cependant, les signaux électroencéphalographiques (EEG) peuvent offrir une perspective plus directe sur l'activité cérébrale émotionnelle. Des études récentes montrent que les modèles d'apprentissage profond peuvent traiter ces signaux pour réaliser une reconnaissance des émotions avec une grande précision. Cependant, de nombreuses approches existantes négligent l'interaction dynamique entre les différentes régions cérébrales, qui peut être cruciale pour comprendre comment les émotions se déploient et évoluent dans le temps, ce qui pourrait contribuer à une reconnaissance plus précise. Pour remédier à cela, nous proposons RBTransformer, une architecture de réseau neuronal basée sur le Transformer qui modélise la dynamique neuronale inter-corticale du cerveau dans un espace latent afin de mieux capturer les interactions neuronales structurées pour une reconnaissance efficace des émotions basée sur l'EEG. Premièrement, les signaux EEG sont convertis en tokens d'entropie différentielle par bande (BDE), qui sont ensuite traités par des plongements d'identité d'électrode pour préserver la provenance spatiale. Ces tokens sont traités par des blocs d'attention multi-têtes inter-corticaux successifs qui construisent une matrice d'attention électrode x électrode, permettant au modèle d'apprendre les dépendances neuronales inter-corticales. Les caractéristiques résultantes sont ensuite traitées par une tête de classification pour obtenir la prédiction finale. Nous avons mené des expériences approfondies, spécifiquement dans des conditions dépendantes du sujet, sur les jeux de données SEED, DEAP et DREAMER, sur les trois dimensions (Valence, Arousal et Dominance pour DEAP et DREAMER), dans des cadres de classification binaire et multi-classes. Les résultats démontrent que le RBTransformer proposé surpasse toutes les méthodes antérieures de l'état de l'art sur les trois jeux de données, pour les trois dimensions et dans les deux cadres de classification. Le code source est disponible à l'adresse : https://github.com/nnilayy/RBTransformer.
L'ingénierie du chaos (CE) est une technique d'ingénierie visant à améliorer la résilience des systèmes distribués. Elle consiste à injecter intentionnellement des fautes dans un système pour tester sa résilience, identifier ses points faibles et y remédier avant qu'ils ne provoquent des défaillances en production. Les outils récents de CE automatisent l'exécution d'expériences de CE prédéfinies. Cependant, la planification de ces expériences et l'amélioration du système basée sur les résultats expérimentaux demeurent manuelles. Ces processus sont laborieux et nécessitent une expertise multidisciplinaire. Pour relever ces défis et permettre à quiconque de construire des systèmes résilients à faible coût, cet article propose ChaosEater, un système qui automatise l'ensemble du cycle de CE grâce aux Grands Modèles de Langage (LLM). Il prédéfinit un workflow agentique selon un cycle de CE systématique et assigne les processus subdivisés au sein du workflow à des LLM. ChaosEater cible la CE pour les systèmes logiciels construits sur Kubernetes. Par conséquent, les LLM dans ChaosEater complètent les cycles de CE via des tâches de génie logiciel, incluant la définition des exigences, la génération de code, les tests et le débogage. Nous évaluons ChaosEater par des études de cas sur des systèmes Kubernetes à petite et grande échelle. Les résultats démontrent qu'il complète systématiquement des cycles de CE raisonnables avec des coûts temporels et monétaires significativement bas. Ses cycles sont également validés qualitativement par des ingénieurs humains et des LLM.
Les grands modèles vision-langage (LVLM) alignent généralement les caractéristiques visuelles d'un encodeur avec un modèle de langage de grande taille (LLM) pré-entraîné. Cependant, cela rend le module de perception visuelle un goulot d'étranglement, limitant les capacités globales des LVLM. Les benchmarks d'évaluation conventionnels, bien que riches en sémantique visuelle, contiennent souvent des raccourcis locaux inévitables qui peuvent conduire à une surestimation des capacités perceptuelles des modèles. Nous présentons ici TopoPerception, un benchmark qui exploite les propriétés topologiques pour évaluer rigoureusement les capacités de perception visuelle globale des LVLM à différentes granularités. Comme la topologie dépend de la structure globale d'une image et est invariante aux caractéristiques locales, TopoPerception permet une évaluation sans raccourci de la perception globale, la distinguant fondamentalement des tâches sémantiquement riches. Nous évaluons les modèles de pointe sur TopoPerception et constatons que même à la granularité perceptuelle la plus grossière, tous les modèles ne font pas mieux qu'un choix aléatoire, indiquant une incapacité profonde à percevoir les caractéristiques visuelles globales. Notamment, une tendance constante émerge au sein des familles de modèles : les modèles plus puissants avec des capacités de raisonnement plus fortes présentent une précision plus faible. Cela suggère que simplement augmenter la taille des modèles est insuffisant pour combler ce déficit et pourrait même l'aggraver. Des progrès pourraient nécessiter de nouveaux paradigmes d'entraînement ou architectures. TopoPerception expose non seulement un goulot d'étranglement critique dans les LVLM actuels, mais offre également une perspective et une direction pour améliorer leur perception visuelle globale. Les données et le code sont disponibles publiquement à l'adresse : https://github.com/Wenhao-Zhou/TopoPerception.