papers.description
Le code est devenu un support précis et exécutable pour le raisonnement et l'action à l'ère des agents. Pourtant, les progrès se sont largement concentrés sur les tâches centrées sur le langage, comme la synthèse et le débogage de programmes, laissant le codage visuel sous-exploré. Inspirés par la façon dont les humains raisonnent à partir de croquis, nous proposons le code SVG comme une représentation visuelle compacte, interprétable et exécutable. Nous présentons VCode, un benchmark qui reformule la compréhension multimodale en génération de code : étant donnée une image, un modèle doit produire du SVG qui préserve la signification symbolique pour un raisonnement en aval. VCode couvre trois domaines : le bon sens général (MM-Vet), les disciplines professionnelles (MMMU) et la perception visuelle centrée (CV-Bench). Pour évaluer la fidélité symbolique, nous proposons CodeVQA, un nouveau protocole d'évaluation dans lequel un modèle politique répond à des questions sur des SVG rendus ; les réponses correctes indiquent une préservation symbolique fidèle. Empiriquement, les modèles de langage visuel (VLM) de pointe peinent à générer des SVG fidèles, révélant un écart persistant entre le codage centré sur le langage et le codage visuel. Pour combler cet écart, nous introduisons VCoder, un framework agentique qui améliore les VLM selon deux axes : (i) Penser avec Révision, qui analyse itérativement les écarts et affine le code SVG ; et (ii) Agir avec des Outils Visuels, où des détecteurs et analyseurs fournissent des indices structurés tels que des objets, des formes et du texte au-delà de la capacité intrinsèque du modèle. Sur les benchmarks, les VLM de pointe dotés de fortes capacités de raisonnement obtiennent de bons scores globaux mais restent limités en connaissances professionnelles et en raisonnement 3D. VCoder procure un gain global de 12,3 points par rapport au Claude-4-Opus le plus performant. Des études humaines montrent que les humains et les VLM obtiennent de moins bons résultats sur les SVG rendus, mais leur cohérence révèle la promesse de la représentation visuelle symbolique. Le benchmark et le code sont disponibles à l'adresse https://github.com/CSU-JPG/VCode.
Le succès croissant des modèles Vision-Langage-Action (VLA) découle de la promesse que les modèles Vision-Langage (VLM) pré-entraînés peuvent doter les agents de connaissances transférables sur le monde et d'un ancrage vision-langage (VL), posant ainsi les bases de modèles d'action dotés d'une plus grande capacité de généralisation. Pourtant, lorsque ces VLM sont adaptés à la modalité d'action, on ignore encore dans quelle mesure leurs représentations et connaissances VL originales sont préservées. Dans ce travail, nous menons une étude systématique de la rétention des représentations lors du fine-tuning des modèles VLA, montrant qu'un fine-tuning naïf pour l'action entraîne une dégradation des représentations visuelles. Pour caractériser et mesurer ces effets, nous sondons les représentations cachées des modèles VLA et analysons les cartes d'attention ; de plus, nous concevons un ensemble de tâches et de méthodes ciblées qui comparent les modèles VLA à leurs contreparties VLM, isolant ainsi les changements dans les capacités VL induits par le fine-tuning pour l'action. Nous évaluons ensuite une gamme de stratégies pour aligner les représentations visuelles et présentons une méthode simple mais efficace qui atténue la dégradation et permet une meilleure généralisation à des scénarios hors distribution (OOD). Globalement, notre analyse clarifie le compromis entre le fine-tuning pour l'action et la dégradation des représentations VL et met en lumière des approches pratiques pour retrouver les capacités VL héritées. Le code est publiquement disponible : https://blind-vla-paper.github.io
Nous proposons MIRA, un nouveau benchmark conçu pour évaluer les modèles dans des scénarios où la génération d'images visuelles intermédiaires est essentielle à un raisonnement réussi. Contrairement aux méthodes CoT traditionnelles qui reposent uniquement sur du texte, les tâches de MIRA exigent que les modèles génèrent et utilisent des images intermédiaires - telles que des croquis, des diagrammes structurels ou des tracés de chemin - pour guider leur processus de raisonnement. Cette configuration reflète étroitement la manière dont les humains résolvent des problèmes complexes en "dessinant pour réfléchir". Pour y parvenir, MIRA se concentre sur des tâches intrinsèquement difficiles, impliquant des structures complexes, des relations spatiales ou des étapes de raisonnement difficiles à exprimer par le langage seul. Pour garantir la haute qualité de nos données d'évaluation, nous incluons 546 problèmes multimodaux, annotés avec des images visuelles intermédiaires et des réponses finales. Nous proposons également un protocole d'évaluation unifié pour MIRA couvrant trois niveaux d'entrée d'évaluation : entrée directe (image et question uniquement), entrée CoT texte seul (image et invites de réflexion) et entrée Visual-CoT (indices visuels annotés et invites textuelles de réflexion). Pour sonder la limite supérieure des capacités des modèles sur notre benchmark, nous rapportons également les précisions pass@k et par vote majoritaire sous différents paramètres k. Les résultats expérimentaux montrent que les grands modèles de langage multimodaux existants, y compris les modèles privés les plus performants et les modèles open-weight solides, obtiennent de mauvais résultats lorsqu'ils reposent uniquement sur des invites textuelles. Cependant, lorsque des indices visuels intermédiaires sont fournis, les performances des modèles s'améliorent systématiquement, avec un gain relatif moyen de 33,7 % sur l'ensemble des modèles et des tâches. Nous explorons également la limite supérieure en élargissant l'espace de recherche et en concevant des invites textuelles alignées sur le Visual-CoT, mais ces deux approches n'apportent que des améliorations limitées par rapport à notre configuration Visual-CoT. Ces résultats soulignent le rôle crucial de l'information visuelle imaginée pour permettre un raisonnement réussi sur MIRA.
Nous présentons Step-Audio-EditX, le premier modèle audio open-source basé sur un LLM qui excelle dans l'édition audio expressive et itérative, englobant l'émotion, le style d'élocution et les caractéristiques para-linguistiques, tout en possédant de solides capacités de synthèse vocale (TTS) zero-shot. Notre innovation fondamentale réside dans l'exploitation exclusive de données synthétiques à large marge, ce qui évite le recours à des préalables basés sur des embeddings ou à des modules auxiliaires. Cette approche d'apprentissage à large marge permet à la fois un contrôle itératif et une grande expressivité entre les voix, et représente un changement fondamental par rapport à l'accent conventionnel mis sur la dissociation au niveau de la représentation. Les résultats d'évaluation démontrent que Step-Audio-EditX surpasse à la fois MiniMax-2.6-hd et Doubao-Seed-TTS-2.0 dans les tâches d'édition des émotions et d'autres tâches de contrôle fin.
Les grands modèles linguistiques multimodaux (MLLM) doivent résoudre les conflits lorsque différentes modalités fournissent des informations contradictoires, un processus que nous nommons suivi modal. Les travaux antérieurs n'ont mesuré ce comportement qu'avec des statistiques grossières au niveau du jeu de données, négligeant l'influence de la confiance du modèle dans le raisonnement unimodal. Dans cet article, nous introduisons un nouveau cadre qui décompose le suivi modal en deux facteurs fondamentaux : l'incertitude relative du raisonnement (l'écart de confiance spécifique au cas entre les prédictions unimodales) et la préférence modale inhérente (un biais stable du modèle lorsque les incertitudes sont équilibrées). Pour valider ce cadre, nous construisons un jeu de données contrôlable qui fait varier systématiquement la difficulté de raisonnement des entrées visuelles et textuelles. En utilisant l'entropie comme métrique d'incertitude fine, nous découvrons une loi universelle : la probabilité de suivre une modalité diminue de manière monotone à mesure que son incertitude relative augmente. Au niveau de difficulté relative où le modèle a tendance à suivre les deux modalités avec une probabilité comparable – ce que nous appelons le point d'équilibre –, nous obtenons un indicateur pratique de la préférence inhérente du modèle. Contrairement aux ratios macroscopiques traditionnels, cette mesure offre une manière plus rigoureuse et moins biaisée de caractériser le parti pris modal, en le dissociant des capacités unimodales et des artéfacts du jeu de données. De plus, en sondant les prédictions couche par couche, nous révélons le mécanisme interne de l'oscillation : dans les régions ambiguës proches du point d'équilibre, les modèles oscillent entre les modalités à travers les couches, expliquant l'indécision observée extérieurement. Ensemble, ces résultats établissent l'incertitude relative et la préférence inhérente comme les deux principes régissant le suivi modal, offrant à la fois un cadre quantitatif et une perspective mécanistique sur la façon dont les MLLM résolvent les informations conflictuelles.
La trajectoire du développement de l'IA suggère que nous dépendrons de plus en plus de systèmes à base d'agents, composés d'agents développés indépendamment, disposant d'informations, de privilèges et d'outils différents. Le succès de ces systèmes dépendra de manière cruciale d'une collaboration efficace entre ces agents hétérogènes, même dans des conditions d'observabilité partielle. Malgré un vif intérêt, peu d'études empiriques ont évalué une telle collaboration entre agents à grande échelle. Nous proposons un benchmark collaboratif de résolution de labyrinthes qui (i) isole les capacités collaboratives, (ii) module la complexité du problème, (iii) permet une évaluation automatisée et scalable, et (iv) n'impose aucune contrainte sur le format de sortie, préservant ainsi la plausibilité écologique. En utilisant ce cadre, nous évaluons 32 modèles open-source et propriétaires leaders, en configurations solo, en paires homogènes et hétérogènes. Nos résultats révèlent un « fossé collaboratif » : les modèles performants seuls voient souvent leurs résultats se dégrader substantiellement lorsqu'ils doivent collaborer. La collaboration peut échouer de manière spectaculaire ; par exemple, de petits modèles distillés qui résolvent bien seuls des labyrinthes peuvent échouer presque complètement dans certaines paires. Nous constatons que commencer avec l'agent le plus fort améliore souvent les résultats, ce qui motive une approche d'« inférence en relais » où l'agent le plus fort mène la tâche avant de la passer au plus faible, comblant ainsi une grande partie du fossé. Nos conclusions plaident pour (1) une évaluation prenant en compte la collaboration, (2) des stratégies d'entraînement développées pour renforcer les capacités collaboratives, et (3) une conception des interactions qui sollicite de manière fiable les compétences latentes des agents, des conseils qui s'appliquent à la collaboration entre IA-IA et humain-IA.
La reconstruction d'images vues par des personnes à partir de leurs enregistrements cérébraux par IRMf offre une fenêtre non invasive sur le cerveau humain. Malgré les progrès récents permis par les modèles de diffusion, les méthodes actuelles manquent souvent de fidélité aux images réellement vues. Nous présentons "Brain-IT", une approche inspirée du cerveau qui relève ce défi grâce à un transformeur d'interaction cérébrale (BIT), permettant des interactions efficaces entre des groupes de voxels cérébraux fonctionnellement similaires. Ces groupes fonctionnels sont partagés par tous les sujets, servant de blocs de construction pour intégrer l'information à l'intérieur et entre les cerveaux. Tous les composants du modèle sont partagés par tous les groupes et sujets, permettant un entraînement efficace avec une quantité limitée de données. Pour guider la reconstruction d'image, BIT prédit deux caractéristiques d'image localisées au niveau des patchs, complémentaires : (i) des caractéristiques sémantiques de haut niveau qui orientent le modèle de diffusion vers le contenu sémantique correct de l'image ; et (ii) des caractéristiques structurelles de bas niveau qui aident à initialiser le processus de diffusion avec la disposition grossière correcte de l'image. La conception de BIT permet un flux direct d'informations des groupes de voxels cérébraux vers les caractéristiques d'image localisées. Grâce à ces principes, notre méthode atteint des reconstructions d'images à partir de l'IRMf qui reconstruisent fidèlement les images vues, et surpasse les approches actuelles de l'état de l'art à la fois visuellement et par les métriques objectives standard. De plus, avec seulement 1 heure de données d'IRMf d'un nouveau sujet, nous obtenons des résultats comparables aux méthodes actuelles entraînées sur des enregistrements complets de 40 heures.
Les grands modèles de langage (LLM) entraînés pour un raisonnement étape par étape deviennent souvent excessivement verbeux, ce qui augmente le coût de l'inférence. Les pipelines standards de Reinforcement Learning avec Récompenses Vérifiables (RLVR) filtrent les problèmes « faciles » pour l'efficacité de l'entraînement, laissant le modèle s'entraîner principalement sur des problèmes plus difficiles nécessitant des chaînes de raisonnement plus longues. Cela biaise la distribution de la longueur des sorties vers le haut, conduisant à un modèle qui confond « réfléchir plus longtemps » avec « mieux réfléchir ». Dans ce travail, nous montrons que conserver et pondérer modérément les problèmes modérément faciles agit comme un régularisateur implicite de la longueur. Exposer le modèle à des tâches solubles à chaîne courte contraint sa distribution de sortie et empêche une verbosité excessive. Le résultat est une *brièveté émergente gratuite* : le modèle apprend à résoudre des problèmes plus difficiles sans gonfler la longueur de sortie, et ce en l'absence de toute pénalisation explicite de la longueur. Les expériences RLVR utilisant cette approche sur Qwen3-4B-Thinking-2507 (avec une limite de 16k tokens) atteignent la précision pass@1 de référence sur AIME25 tout en générant des solutions qui sont, en moyenne, près de deux fois plus courtes. Le code est disponible à l'adresse https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, avec les jeux de données et modèles sur https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
Les grands modèles multimodaux (LMM) souffrent souvent d'une inefficacité sévère lors de l'inférence en raison du grand nombre de tokens visuels introduits par les encodeurs d'images. Bien que les méthodes récentes de compression de tokens, telles que l'élagage et la fusion, aient montré des résultats prometteurs pour réduire la redondance, leur évaluation reste fragmentée et incohérente. Dans ce travail, nous présentons UniPruneBench, un benchmark unifié et extensible pour l'élagage de tokens visuels dans les LLM multimodaux. UniPruneBench fournit des protocoles standardisés couvrant six dimensions de capacités et dix jeux de données, incluant dix algorithmes de compression représentatifs et trois familles de LMM (LLaVA-v1.5, Intern-VL3 et Qwen2.5-VL). Au-delà de la précision sur les tâches, il intègre des métriques au niveau système, telles que le temps d'exécution et la latence de préremplissage, pour offrir une vue holistique. Nos expériences révèlent plusieurs résultats clés : (1) l'élagage aléatoire constitue une base de référence étonnamment solide, (2) aucune méthode ne surpasse constamment les autres dans tous les scénarios, (3) la sensibilité à l'élagage varie considérablement selon les tâches, la reconnaissance de caractères (OCR) étant la plus vulnérable, et (4) le taux d'élagage est le facteur dominant gouvernant la dégradation des performances. Nous pensons qu'UniPruneBench servira de fondation fiable pour les futures recherches sur la modélisation multimodale efficace.
Les évaluations actuelles en programmation testent les modèles de langage (ML) sur des tâches concrètes et bien définies, comme corriger des bogues spécifiques ou écrire des tests ciblés. Cependant, les programmeurs humains ne passent pas leurs journées à résoudre incessamment des tâches isolées. Au contraire, le développement logiciel réel s’ancre dans la poursuite d’objectifs de haut niveau, tels qu’améliorer la rétention des utilisateurs ou réduire les coûts. Évaluer si les ML peuvent également développer du code de manière itérative pour mieux atteindre des objectifs ouverts, sans guidance explicite, reste un défi non résolu. Pour y remédier, nous présentons CodeClash, un benchmark où des ML s’affrontent dans des tournois en plusieurs rounds pour construire la base de code la plus performante afin d’atteindre un objectif compétitif. Chaque round se déroule en deux phases : les agents modifient leur code, puis leurs bases de code s’affrontent directement dans une arène de code qui détermine les gagnants selon des objectifs tels que la maximisation de score, l’acquisition de ressources ou la survie. Qu’il s’agisse de prendre des notes, d’examiner la documentation, d’analyser les logs des compétitions ou de créer des suites de tests, les modèles doivent décider par eux-mêmes comment améliorer leurs bases de code, à la fois en absolu et par rapport à leurs adversaires. Nous avons exécuté 1680 tournois (soit 25 200 rounds au total) pour évaluer 8 ML sur 6 arènes différentes. Nos résultats révèlent que si les modèles présentent des styles de développement variés, ils partagent des limitations fondamentales en raisonnement stratégique. Les modèles éprouvent également des difficultés à maintenir leur base de code sur le long terme, les dépôts devenant progressivement désorganisés et redondants. Ces limitations sont frappantes : les meilleurs modèles perdent systématiquement contre des programmeurs humains experts. Nous ouvrons CodeClash en open source pour faire progresser l’étude du développement autonome de code orienté par objectifs.
Les données à grande échelle ont permis des avancées majeures en robotique, des modèles de langage aux modèles vision-langage-action pour la manipulation bimanuelle. Cependant, la robotique humanoïde souffre d'un manque de cadres de collecte de données aussi efficaces. Les systèmes de téléopération humanoïde existants utilisent soit un contrôle découplé, soit dépendent de configurations coûteuses de capture de mouvement. Nous présentons TWIST2, un système portable et sans mocap de téléopération et de collecte de données pour humanoïdes qui préserve un contrôle complet du corps tout en améliorant l'évolutivité. Notre système utilise PICO4U VR pour obtenir les mouvements humains du corps entier en temps réel, avec un cou robotisé personnalisé à 2 degrés de liberté (coût d'environ 250 $) pour la vision égocentrique, permettant un contrôle holistique de l'humain à l'humanoïde. Nous démontrons des compétences humanoïdes dextres et mobiles sur de long horizons temporels et pouvons collecter 100 démonstrations en 15 minutes avec un taux de réussite proche de 100 %. S'appuyant sur cette infrastructure, nous proposons un cadre de politique visuomotrice hiérarchique qui contrôle autonome-ment le corps humanoïde complet sur la base de la vision égocentrique. Notre politique visuomotrice démontre avec succès des tâches de manipulation dextre du corps entier et de coup de pied dynamique. L'ensemble du système est entièrement reproductible et open-source à l'adresse https://yanjieze.com/TWIST2. Notre jeu de données collecté est également open-source à l'adresse https://twist-data.github.io.
Les paradigmes d'évaluation actuels pour les grands modèles de langage (LLM) représentent un angle mort critique dans la recherche sur l'IA. Ils reposent sur des métriques numériques opaques qui masquent des limitations fondamentales en raisonnement spatial, sans offrir de compréhension intuitive des capacités des modèles. Cette carence crée un décalage dangereux entre les performances déclarées et les aptitudes pratiques, particulièrement pour les applications nécessitant une compréhension du monde physique. Nous présentons LTD-Bench, un benchmark révolutionnaire qui transforme l'évaluation des LLM de scores abstraits en sorties visibles directement observables, en exigeant que les modèles génèrent des dessins via des matrices de points ou du code exécutable. Cette approche rend les limitations du raisonnement spatial immédiatement apparentes, même pour les non-experts, comblant le fossé fondamental entre la performance statistique et l'évaluation intuitive. LTD-Bench met en œuvre une méthodologie complète avec des tâches de génération complémentaires (testant l'imagination spatiale) et des tâches de reconnaissance (évaluant la perception spatiale) sur trois niveaux de difficulté progressivement croissants, évaluant méthodiquement les deux directions cruciales de la cartographie langage-espace. Nos expériences approfondies avec des modèles de pointe révèlent un écart de capacités alarmant : même les LLM obtenant des résultats impressionnants sur les benchmarks traditionnels démontrent des lacunes profondes dans l'établissement de mappings bidirectionnels entre le langage et les concepts spatiaux - une limitation fondamentale qui compromet leur potentiel en tant que véritables modèles du monde. De plus, les sorties visuelles de LTD-Bench permettent une analyse diagnostique puissante, offrant une approche potentielle pour étudier la similarité entre modèles.
Les tests sur des machines réelles sont indispensables pour les algorithmes de contrôle robotique. Dans le contexte des algorithmes d'apprentissage, en particulier des modèles VLA, la nécessité d'une évaluation à grande échelle - c'est-à-dire tester un grand nombre de modèles sur une multitude de tâches - devient de plus en plus pressante. Cependant, mener correctement cette évaluation s'avère particulièrement complexe, surtout lorsque l'évolutivité et la reproductibilité sont prises en compte. Dans ce rapport, nous décrivons notre méthodologie pour construire RoboChallenge, un système d'évaluation en ligne destiné à tester les algorithmes de contrôle robotique, ainsi que notre étude des modèles VLA récents les plus performants utilisant notre benchmark initial Table30.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans de nombreuses applications réelles. Bien que la grande majorité des recherches menées sous un angle expérimental progresse rapidement, elles exigent des ressources computationnelles, des données et d'autres ressources substantielles. Par conséquent, la question de comment ouvrir la boîte noire des LLM d'un point de vue théorique est devenue un défi critique. Cet article prend pour point de départ la théorie de la fonction débit-distorsion, l'information dirigée et la causalité au sens de Granger pour étudier les principes informationnels sous-jacents aux LLM, conduisant au développement d'une théorie de l'information sémantique pour les LLM, où l'unité fondamentale est le token, plutôt que le bit dépourvu de signification sémantique. En définissant le modèle probabiliste des LLM, nous discutons des mesures informationnelles indépendantes de la structure, telles que la fonction débit-distorsion dirigée dans le pré-entraînement, la fonction débit-récompense dirigée dans le post-entraînement, et le flux d'information sémantique dans la phase d'inférence. Cet article examine également en profondeur la théorie de l'embedding sémantique au niveau du token et la méthode de vectorisation optimale d'un point de vue informationnel. Par la suite, nous proposons une définition générale d'un LLM autorégressif, à partir de laquelle l'architecture Transformer et ses performances, telles que l'ELBO, la borne d'erreur de généralisation, la capacité mémoire et les mesures d'information sémantique, peuvent être dérivées théoriquement. D'autres architectures, comme Mamba/Mamba2 et LLaDA, sont également discutées dans notre cadre. Par conséquent, cet article fournit un cadre théorique pour comprendre les LLM sous l'angle de la théorie de l'information sémantique, qui offre également les outils théoriques nécessaires pour des recherches plus approfondies.
Nous présentons iFlyBot-VLA, un modèle Vision-Langage-Action (VLA) à grande échelle entraîné selon une nouvelle architecture. Les contributions principales sont les suivantes : (1) un modèle d'action latente entraîné de manière exhaustive sur de vastes collections de vidéos de manipulations humaines et robotiques ; (2) un cadre de représentation d'action à double niveau qui supervise conjointement le modèle vision-langage (VLM) et l'expert en action pendant l'entraînement ; (3) une stratégie d'entraînement mixte combinant des données de trajectoires robotiques avec des ensembles de données de questions-réponses générales et spatiales, améliorant efficacement les capacités de perception 3D et de raisonnement du backbone VLM. Plus précisément, le VLM est entraîné à prédire deux formes d'actions complémentaires : des actions latentes, dérivées de notre modèle d'action latente pré-entraîné sur des données de manipulation trans-embodiment, qui capturent des intentions de haut niveau implicites ; et des tokens d'action discrets structurés, obtenus par transformation dans le domaine fréquentiel de signaux de contrôle continus, qui encodent la dynamique explicite de bas niveau. Cette double supervision aligne les espaces de représentation du langage, de la vision et de l'action, permettant au VLM de contribuer directement à la génération d'actions. Les résultats expérimentaux sur le benchmark LIBERO Franka démontrent la supériorité de notre architecture, tandis que des évaluations en conditions réelles montrent en outre qu'iFlyBot-VLA atteint des taux de réussite compétitifs sur diverses tâches de manipulation complexes. De plus, nous prévoyons de rendre open-source une partie de notre jeu de données auto-construit pour soutenir les recherches futures dans la communauté.
Les grands modèles de langage ont démontré des performances solides sur de nombreuses références établies en matière de raisonnement. Cependant, ces benchmarks évaluent principalement des compétences structurées telles que la résolution quantitative de problèmes, laissant un vide dans l'évaluation des capacités de raisonnement flexibles et multidimensionnelles qui sont au cœur de l'intelligence humaine. Ces capacités nécessitent l'intégration de la déduction logique avec la conscience spatiale et la satisfaction de contraintes, que les évaluations actuelles ne mesurent pas bien. Pour remédier à cela, nous présentons RiddleBench, un benchmark de 1 737 énigmes complexes en anglais conçu pour sonder ces capacités fondamentales de raisonnement. L'évaluation des modèles les plus avancés sur RiddleBench révèle des faiblesses fondamentales. Même les meilleurs modèles propriétaires comme Gemini 2.5 Pro, o3 et Claude 4 Sonnet n'atteignent qu'une précision légèrement supérieure à 60 % (respectivement 60,30 %, 63,37 % et 63,16 %). L'analyse révèle en outre des échecs profonds, incluant des cascades d'hallucinations (acceptation de raisonnements erronés d'autres modèles) et une faible autocorrection due à un fort biais d'auto-confirmation. Leur raisonnement est également fragile, les performances se dégradant significativement lorsque les contraintes sont réorganisées ou que des informations non pertinentes sont introduites. RiddleBench sert à la fois d'outil de diagnostic pour ces problèmes et de ressource pour guider le développement de modèles de langage plus robustes et fiables.
Les tâches complexes de compréhension de graphiques exigent des modèles de langage multimodaux (MLLM) des capacités avancées de reconnaissance visuelle et de raisonnement. Cependant, la recherche actuelle couvre limitativement les scénarios de graphiques complexes et les tâches de raisonnement intensives en calcul, pourtant répandues dans les applications réelles. Cette étude propose un pipeline automatisé multi-étapes piloté par code pour générer systématiquement des ensembles de données de raisonnement visuel afin de remédier à ces limitations. Le pipeline intègre la génération augmentée par récupération (RAG) pour extraire des modèles de graphiques professionnels et emploie des stratégies de chaîne de pensée (CoT) pour générer des codes de raisonnement simulant des distributions de données réelles, pilotant ainsi le rendu des graphiques et les calculs statistiques liés aux questions. Grâce à une évaluation basée sur des modèles, le pipeline améliore la diversité des graphiques et la qualité des données. En utilisant ce cadre, nous construisons ChartM³, un ensemble de données multidimensionnel et multi-étapes contenant 38 000 graphiques et 142 000 paires questions-réponses pour l'entraînement, ainsi que 2 871 échantillons d'évaluation de haute qualité permettant une évaluation réaliste des performances. Des expériences de réglage fin supervisé (SFT) et d'apprentissage par renforcement (RL) démontrent que notre ensemble de données améliore significativement les capacités de raisonnement et les performances de généralisation inter-domaines, permettant à des modèles plus petits d'atteindre des performances comparables à des modèles à plus grande échelle dans la compréhension de graphiques complexes.
La compréhension et la prédiction des émotions à partir de vidéos ont suscité un intérêt considérable dans les études récentes, portées par les progrès des grands modèles linguistiques vidéo (VideoLLMs). Bien que les méthodes avancées aient réalisé des progrès dans l'analyse des émotions vidéo, la nature intrinsèque des émotions présente des défis majeurs. Les émotions se caractérisent par des propriétés dynamiques et dépendantes d'indices contextuels, rendant difficile la compréhension d'états émotionnels complexes et évolutifs avec un raisonnement justifiable. Pour relever ces défis, nous proposons un nouveau cadre de raisonnement guidé par les indices affectifs qui unifie la perception des attributs fondamentaux, l'analyse des expressions et la compréhension émotionnelle de haut niveau de manière séquentielle. Au cœur de notre approche se trouve une famille de modèles fondamentaux pour l'émotion vidéo (VidEmo), spécialement conçue pour le raisonnement émotionnel et le suivi d'instructions. Ces modèles suivent un processus d'ajustement en deux étapes : d'abord, un apprentissage curriculaire des émotions pour intégrer des connaissances émotionnelles, suivi d'un apprentissage par renforcement arborescent affectif pour le raisonnement émotionnel. Par ailleurs, nous avons établi une infrastructure de données fondamentale et introduit un jeu de données granulaire centré sur l'émotion (Emo-CFG) comprenant 2,1 million d'échantillons diversifiés basés sur des instructions. Emo-CFG inclut des questions-réponses émotionnelles explicables, des descriptions granulaires et des rationalités associées, fournissant des ressources essentielles pour faire progresser les tâches de compréhension des émotions. Les résultats expérimentaux démontrent que notre approche atteint des performances compétitives, établissant un nouveau jalon sur 15 tâches de perception faciale.
Dans ce travail, nous proposons LiveSecBench, un benchmark de sécurité dynamique et continuellement mis à jour, spécifiquement conçu pour les scénarios d'application des LLM en langue chinoise. LiveSecBench évalue les modèles selon six dimensions critiques (Légalité, Éthique, Factualité, Vie privée, Robustesse aux attaques adverses et Sécurité du raisonnement) ancrées dans les cadres juridiques et sociaux chinois. Ce benchmark maintient sa pertinence grâce à un calendrier de mise à jour dynamique qui intègre de nouveaux vecteurs de menace, comme l'inclusion prévue de la sécurité de la génération texte-image et de la sécurité des agents dans la prochaine mise à jour. Pour l'instant, LiveSecBench (v251030) a évalué 18 LLM, offrant un panorama de la sécurité de l'IA dans le contexte de la langue chinoise. Le classement est accessible publiquement à l'adresse https://livesecbench.intokentech.cn/.
Alors que le fardeau mondial de la maladie d'Alzheimer continue de s'alourdir, la détection précoce et précise est devenue de plus en plus cruciale, particulièrement dans les régions ayant un accès limité aux outils de diagnostic avancés. Nous proposons BRAINS (Biomédical Retrieval-Augmented Intelligence for Neurodegeneration Screening) pour relever ce défi. Ce système novateur exploite les puissantes capacités de raisonnement des Grands Modèles de Langage (LLM) pour la détection et la surveillance de la maladie d'Alzheimer. BRAINS présente une architecture à double module : un module de diagnostic cognitif et un module de recherche de cas similaires. Le Module de Diagnostic utilise des LLM spécialisés sur des ensembles de données cognitifs et de neuro-imagerie — incluant les scores MMSE, CDR et les métriques de volume cérébral — pour réaliser des évaluations structurées du risque de maladie d'Alzheimer. Pendant ce temps, le Module de Recherche de Cas encode les profils des patients en représentations latentes et récupère des cas similaires à partir d'une base de connaissances organisée. Ces cas auxiliaires sont fusionnés avec le profil d'entrée via une Couche de Fusion de Cas pour améliorer la compréhension contextuelle. La représentation combinée est ensuite traitée avec des invites cliniques pour l'inférence. Les évaluations sur des ensembles de données réels démontrent l'efficacité de BRAINS à classer la sévérité de la maladie et à identifier les signes précoces du déclin cognitif. Ce système montre non seulement un fort potentiel en tant qu'outil d'assistance pour une détection scalable, explicable et précoce de la maladie d'Alzheimer, mais il offre également de l'espoir pour de futures applications dans le domaine.
Les grands modèles de langage actuels excellent dans des tâches générales, mais affichent systématiquement des performances inférieures lorsqu'ils sont confrontés à des domaines hautement spécialisés nécessitant une expertise culturelle, linguistique et technique approfondie. Les systèmes médicaux traditionnels comme l'Ayurvede incarnent notamment des siècles de connaissances textuelles et cliniques nuancées que les LLM grand public ne parviennent pas à interpréter ou appliquer avec précision. Nous présentons AyurParam-2.9B, un modèle linguistique bilingue spécialisé, affiné à partir de Param-1-2.9B grâce à un vaste jeu de données ayurvédiques soigneusement constitué par des experts, couvrant des textes classiques et des directives cliniques. Le jeu de données d'AyurParam intègre des questions-réponses contextuelles, raisonnées et de type objectif en anglais et en hindi, avec des protocoles d'annotation rigoureux pour une précision factuelle et une clarté pédagogique. Évalué sur BhashaBench-Ayur, AyurParam surpasse non seulement tous les modèles open-source optimisés pour les instructions dans sa catégorie (1,5 à 3 milliards de paramètres), mais démontre également des performances compétitives ou supérieures à des modèles beaucoup plus volumineux. Les résultats d'AyurParam soulignent la nécessité d'une adaptation domainale authentique et d'une supervision de haute qualité pour fournir une IA fiable et culturellement congruente dédiée aux connaissances médicales spécialisées.
Les modèles de diffusion texte-image (T2I) ont atteint des performances remarquables en matière d'alignement sémantique, mais ils peinent encore à générer le nombre correct d'objets spécifiés dans les prompts. Les approches existantes intègrent généralement des réseaux de comptage auxiliaires comme critiques externes pour améliorer la numératie. Cependant, ces critiques devant fournir un guidage par gradient durant la génération, elles se limitent à des modèles de régression intrinsèquement différentiables, excluant ainsi les modèles à base de détecteurs – pourtant supérieurs en capacité de comptage – dont la nature à compter par énumération est non différentiable. Pour surmonter cette limitation, nous proposons D2D (Detector-to-Differentiable), un cadre novateur qui transforme les modèles de détection non différentiables en critiques différentiables, exploitant ainsi leur capacité de comptage supérieure pour guider la génération numérique. Plus précisément, nous concevons des fonctions d'activation personnalisées pour convertir les logits du détecteur en indicateurs binaires continus, qui sont ensuite utilisés pour optimiser l'a priori de bruit lors de l'inférence avec des modèles T2I pré-entraînés. Nos expériences approfondies sur SDXL-Turbo, SD-Turbo et Pixart-DMD, à travers quatre benchmarks de complexité variable (scénarios à faible densité, haute densité et multi-objets), démontrent des améliorations constantes et substantielles de la précision du comptage d'objets (par exemple, un gain allant jusqu'à 13,7 % sur D2D-Small, un benchmark à faible densité de 400 prompts), avec une dégradation minime de la qualité globale de l'image et une surcharge computationnelle réduite.
Le raisonnement complexe sur des données tabulaires est crucial dans l'analyse de données réelles, mais les grands modèles de langage (LLM) sont souvent sous-performants en raison de requêtes complexes, de données bruitées et de capacités numériques limitées. Pour résoudre ces problèmes, nous proposons \method, un cadre comprenant : (1) un décomposeur de requêtes qui fragmente les questions complexes, (2) un assainisseur de tableaux qui nettoie et filtre les tables bruitées, et (3) un raisonneur basé sur les programmes de pensée (PoT) qui génère du code exécutable pour dériver la réponse finale à partir de la table assainie. Pour garantir une évaluation impartiale et atténuer les fuites de données, nous introduisons un nouveau jeu de données, CalTab151, spécifiquement conçu pour le raisonnement numérique complexe sur les tableaux. Les résultats expérimentaux démontrent que \method surpasse systématiquement les méthodes existantes, atteignant des performances de pointe (SOTA) avec une amélioration de la précision de 8,79 %, 6,08 % et 19,87 % respectivement sur TAT-QA, TableBench et \method. De plus, notre cadre s'intègre de manière transparente avec les LLM grand public, offrant une solution robuste pour le raisonnement numérique tabulaire complexe. Ces résultats soulignent l'efficacité de notre cadre pour améliorer les performances des LLM dans le raisonnement numérique tabulaire complexe. Les données et le code sont disponibles sur demande.
L'apprentissage non supervisé de la profondeur et de l'ego-motion, deux tâches fondamentales de perception 3D, a réalisé des progrès significatifs ces dernières années. Cependant, la plupart des méthodes traitent l'ego-motion comme une tâche auxiliaire, soit en mélangeant tous les types de mouvement, soit en excluant les mouvements rotationnels indépendants de la profondeur lors de la supervision. De telles conceptions limitent l'intégration de fortes contraintes géométriques, réduisant la fiabilité et la robustesse dans des conditions variées. Cette étude introduit un traitement discriminatif des composantes du mouvement, exploitant les régularités géométriques de leurs flux rigides respectifs pour bénéficier à la fois à l'estimation de la profondeur et de l'ego-motion. Étant données des images vidéo consécutives, les sorties du réseau alignent d'abord les axes optiques et les plans image des caméras source et cible. Les flux optiques entre les images sont transformés via ces alignements, et les écarts sont quantifiés pour imposer des contraintes géométriques individuellement sur chaque composante de l'ego-motion, permettant un affinage plus ciblé. Ces alignements reformulent en outre le processus d'apprentissage conjoint en des formes coaxiale et coplanaire, où la profondeur et chaque composante de translation peuvent être déduites mutuellement via des relations géométriques de forme fermée, introduisant des contraintes complémentaires qui améliorent la robustesse de la profondeur. DiMoDE, un cadre général d'apprentissage conjoint de la profondeur et de l'ego-motion intégrant ces conceptions, atteint des performances de pointe sur plusieurs ensembles de données publics et sur un nouvel ensemble de données réel diversifié, particulièrement dans des conditions difficiles. Notre code source sera publiquement disponible à l'adresse mias.group/DiMoDE après publication.
Des études récentes ont identifié l'Optimisation Directe des Préférences (DPO) comme une approche efficace et sans récompense pour améliorer la qualité de la génération vidéo. Cependant, les méthodes existantes suivent largement les paradigmes du domaine de l'image et sont principalement développées sur des modèles à petite échelle (environ 2 milliards de paramètres), limitant leur capacité à relever les défis spécifiques aux tâches vidéo, tels que la construction coûteuse de données, l'entraînement instable et la consommation mémoire élevée. Pour surmonter ces limitations, nous introduisons un GT-Pair qui construit automatiquement des paires de préférences de haute qualité en utilisant des vidéos réelles comme positifs et des vidéos générées par le modèle comme négatifs, éliminant ainsi tout besoin d'annotation externe. Nous présentons également Reg-DPO, qui intègre la perte SFT comme terme de régularisation dans l'objectif DPO pour améliorer la stabilité de l'entraînement et la fidélité de la génération. De plus, en combinant le framework FSDP avec plusieurs techniques d'optimisation de la mémoire, notre approche atteint une capacité d'entraînement près de trois fois supérieure à l'utilisation de FSDP seul. Des expériences approfondies sur les tâches I2V et T2V à travers plusieurs jeux de données démontrent que notre méthode surpasse constamment les approches existantes, offrant une qualité de génération vidéo supérieure.