papers.description
Les modèles Vision-Langage-Action (VLA) comblent généralement l'écart entre les espaces perceptuels et d'action en pré-entraînant un modèle Vision-Langage (VLM) à grande échelle sur des données robotiques. Bien que cette approche améliore considérablement les performances, elle entraîne également des coûts d'entraînement importants. Dans cet article, nous étudions comment relier efficacement les représentations vision-langage (VL) à l'action (A). Nous introduisons VLA-Adapter, un nouveau paradigme conçu pour réduire la dépendance des modèles VLA envers les VLM à grande échelle et le pré-entraînement extensif. Pour ce faire, nous analysons d'abord systématiquement l'efficacité de diverses conditions VL et présentons des conclusions clés sur les conditions essentielles pour relier les espaces perceptuels et d'action. Sur la base de ces insights, nous proposons un module de Politique léger avec Attention de Pont, qui injecte automatiquement la condition optimale dans l'espace d'action. Ainsi, notre méthode atteint des performances élevées en utilisant uniquement un backbone de 0,5 milliard de paramètres, sans aucun pré-entraînement sur des données robotiques. Des expériences approfondies sur des benchmarks robotiques simulés et réels démontrent que VLA-Adapter non seulement atteint des performances de pointe, mais offre également la vitesse d'inférence la plus rapide rapportée à ce jour. De plus, grâce au paradigme de pontage avancé proposé, VLA-Adapter permet l'entraînement d'un modèle VLA puissant en seulement 8 heures sur un seul GPU grand public, abaissant considérablement la barrière au déploiement du modèle VLA. Page du projet : https://vla-adapter.github.io/.
Les méthodes de génération de vidéos centrées sur l'humain (HCVG) visent à synthétiser des vidéos humaines à partir d'entrées multimodales, incluant du texte, des images et de l'audio. Les méthodes existantes peinent à coordonner efficacement ces modalités hétérogènes en raison de deux défis majeurs : la rareté des données d'entraînement avec des conditions de triplet appariées et la difficulté de collaborer les sous-tâches de préservation du sujet et de synchronisation audio-visuelle avec des entrées multimodales. Dans ce travail, nous présentons HuMo, un cadre unifié HCVG pour le contrôle multimodal collaboratif. Pour le premier défi, nous construisons un ensemble de données de haute qualité avec des textes, des images de référence et des audios diversifiés et appariés. Pour le second défi, nous proposons un paradigme d'entraînement multimodal progressif en deux étapes avec des stratégies spécifiques aux tâches. Pour la tâche de préservation du sujet, afin de maintenir les capacités de suivi de l'invite et de génération visuelle du modèle de base, nous adoptons une stratégie d'injection d'image minimalement invasive. Pour la tâche de synchronisation audio-visuelle, en plus de la couche d'attention croisée audio couramment utilisée, nous proposons une stratégie de focalisation par prédiction qui guide implicitement le modèle à associer l'audio aux régions faciales. Pour l'apprentissage conjoint des contrôlabilités à travers les entrées multimodales, en nous appuyant sur les capacités précédemment acquises, nous incorporons progressivement la tâche de synchronisation audio-visuelle. Pendant l'inférence, pour un contrôle multimodal flexible et granulaire, nous concevons une stratégie de guidage sans classificateur adaptative dans le temps qui ajuste dynamiquement les poids de guidage à travers les étapes de débruitage. Les résultats expérimentaux approfondis démontrent que HuMo surpasse les méthodes spécialisées de pointe dans les sous-tâches, établissant un cadre unifié pour la génération de vidéos centrées sur l'humain conditionnée de manière collaborative par des entrées multimodales. Page du projet : https://phantom-video.github.io/HuMo.
Les modèles Vision-Langage-Action (VLA) ont récemment émergé comme un paradigme puissant pour la manipulation robotique. Malgré des progrès substantiels rendus possibles par le pré-entraînement à grande échelle et le réglage fin supervisé (SFT), ces modèles sont confrontés à deux défis fondamentaux : (i) la rareté et le coût élevé des trajectoires robotiques à grande échelle opérées par l'homme nécessaires pour l'extension du SFT, et (ii) une généralisation limitée aux tâches impliquant un décalage de distribution. Les récentes avancées dans les modèles de raisonnement à grande échelle (LRMs) démontrent que l'apprentissage par renforcement (RL) peut considérablement améliorer les capacités de raisonnement étape par étape, soulevant une question naturelle : Le RL peut-il de même améliorer la planification d'actions étape par étape à long terme des VLA ? Dans ce travail, nous introduisons SimpleVLA-RL, un cadre RL efficace conçu pour les modèles VLA. En nous appuyant sur veRL, nous introduisons un échantillonnage de trajectoires spécifique aux VLA, une parallélisation scalable, un rendu multi-environnement et un calcul de perte optimisé. Appliqué à OpenVLA-OFT, SimpleVLA-RL atteint des performances de pointe sur LIBERO et surpasse même pi_0 sur RoboTwin 1.0\&2.0 avec les stratégies d'amélioration de l'exploration que nous introduisons. SimpleVLA-RL réduit non seulement la dépendance aux données à grande échelle et permet une généralisation robuste, mais surpasse également de manière remarquable le SFT dans les tâches du monde réel. De plus, nous identifions un nouveau phénomène appelé « pushcut » lors de l'entraînement RL, dans lequel la politique découvre des modèles précédemment invisibles au-delà de ceux observés dans le processus d'entraînement précédent. Github : https://github.com/PRIME-RL/SimpleVLA-RL
Les grands modèles de langage parole-à-parole (SLLMs) suscitent un intérêt croissant. Dérivés des grands modèles de langage basés sur le texte (LLMs), les SLLMs présentent souvent une dégradation de leurs capacités de connaissance et de raisonnement. Nous émettons l'hypothèse que cette limitation découle du fait que les paradigmes d'entraînement actuels pour les SLLMs ne parviennent pas à combler l'écart acoustico-sémantique dans l'espace de représentation des caractéristiques. Pour résoudre ce problème, nous proposons EchoX, qui exploite des représentations sémantiques et génère dynamiquement des cibles d'entraînement vocales. Cette approche intègre à la fois l'apprentissage acoustique et sémantique, permettant à EchoX de préserver de solides capacités de raisonnement en tant que modèle de langage vocal. Les résultats expérimentaux montrent qu'EchoX, avec environ six mille heures de données d'entraînement, obtient des performances avancées sur plusieurs benchmarks de questions-réponses basées sur la connaissance. Le projet est disponible à l'adresse https://github.com/FreedomIntelligence/EchoX.
Dans les tâches à long terme, les agents récents basés sur des modèles de langage de grande taille (LLMs) rencontrent un défi majeur : les récompenses rares et basées sur les résultats rendent difficile l'attribution de crédit aux étapes intermédiaires. Les méthodes précédentes se concentrent principalement sur la création de signaux de récompense denses pour guider l'apprentissage, soit par des techniques traditionnelles d'apprentissage par renforcement comme l'apprentissage par renforcement inverse, soit en utilisant des modèles de récompense de processus pour un retour d'information étape par étape. Dans cet article, nous identifions un problème fondamental dans la dynamique d'apprentissage des LLMs : l'amplitude des gradients de politique est intrinsèquement couplée à l'entropie, ce qui entraîne des mises à jour inefficaces et petites pour les actions correctes et confiantes, et potentiellement déstabilise les mises à jour importantes pour les actions incertaines. Pour résoudre ce problème, nous proposons les Gradients de Politique Modulés par l'Entropie (EMPG), un cadre qui recalibre le signal d'apprentissage en fonction de l'incertitude étape par étape et du résultat final de la tâche. EMPG amplifie les mises à jour pour les actions correctes et confiantes, pénalise les erreurs confiantes, et atténue les mises à jour des étapes incertaines pour stabiliser l'exploration. Nous introduisons également un terme de bonus pour la clarté future qui encourage les agents à trouver des chemins de solution plus prévisibles. À travers des expériences approfondies sur trois tâches d'agent complexes, WebShop, ALFWorld et Deep Search, nous démontrons qu'EMPG obtient des gains de performance substantiels et surpasse significativement les bases solides de gradients de politique. La page du projet est disponible à l'adresse https://empgseed-seed.github.io/.
Les récentes avancées dans la génération de vidéos d'avatars pilotées par l'audio ont considérablement amélioré le réalisme audio-visuel. Cependant, les méthodes existantes traitent le conditionnement par instructions simplement comme un suivi de bas niveau guidé par des indices acoustiques ou visuels, sans modéliser l'intention communicative véhiculée par les instructions. Cette limitation compromet leur cohérence narrative et l'expressivité des personnages. Pour combler cette lacune, nous présentons Kling-Avatar, un nouveau framework en cascade qui unifie la compréhension multimodale des instructions avec la génération de portraits photoréalistes. Notre approche adopte un pipeline en deux étapes. Dans la première étape, nous concevons un directeur basé sur un modèle de langage multimodale (MLLM) qui produit une vidéo planifiée conditionnée par divers signaux d'instructions, régissant ainsi les sémantiques de haut niveau telles que les mouvements et les émotions des personnages. Dans la deuxième étape, guidés par les images clés du plan, nous générons plusieurs sous-clips en parallèle en utilisant une stratégie de première-dernière image. Ce framework global-local préserve les détails fins tout en encodant fidèlement l'intention de haut niveau derrière les instructions multimodales. Notre architecture parallèle permet également une génération rapide et stable de vidéos de longue durée, la rendant adaptée à des applications réelles telles que le streaming et le vlogging d'humains numériques. Pour évaluer de manière exhaustive notre méthode, nous construisons un benchmark de 375 échantillons soigneusement sélectionnés couvrant diverses instructions et scénarios complexes. Des expériences approfondies démontrent que Kling-Avatar est capable de générer des vidéos vives, fluides et de longue durée jusqu'à 1080p et 48 ips, obtenant des performances supérieures en termes de précision de synchronisation labiale, d'expressivité émotionnelle et dynamique, de contrôlabilité des instructions, de préservation de l'identité et de généralisation inter-domaines. Ces résultats établissent Kling-Avatar comme un nouveau benchmark pour la synthèse d'avatars pilotés par l'audio, sémantiquement fondée et de haute fidélité.
Le progrès des modèles open-source de génération d’images à partir de texte (T2I) a été entravé par l’absence de jeux de données à grande échelle axés sur le raisonnement et de benchmarks d’évaluation complets, ce qui a creusé un écart de performance par rapport aux systèmes propriétaires leaders. Pour relever ce défi, nous introduisons FLUX-Reason-6M et PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M est un jeu de données massif comprenant 6 millions d’images de haute qualité générées par FLUX et 20 millions de descriptions bilingues (anglais et chinois) spécialement conçues pour enseigner le raisonnement complexe. Les images sont organisées selon six caractéristiques clés : Imagination, Entité, Rendu de texte, Style, Affection et Composition, et un processus explicite de Chaîne de Pensée de Génération (GCoT) est mis en place pour fournir des décompositions détaillées des étapes de génération d’images. La curation complète des données a nécessité 15 000 jours de calcul sur des GPU A100, offrant à la communauté une ressource jusqu’alors inaccessible en dehors des grands laboratoires industriels. PRISM-Bench propose une norme d’évaluation novatrice avec sept pistes distinctes, incluant un défi redoutable de Texte Long utilisant GCoT. Grâce à des prompts soigneusement conçus, il exploite des modèles avancés de vision et de langage pour une évaluation nuancée et alignée sur les critères humains de l’adéquation prompt-image et de l’esthétique des images. Notre évaluation approfondie de 19 modèles leaders sur PRISM-Bench révèle des écarts de performance critiques et met en lumière des domaines spécifiques nécessitant des améliorations. Notre jeu de données, benchmark et code d’évaluation sont publiés pour catalyser la prochaine vague de génération T2I orientée vers le raisonnement. Page du projet : https://flux-reason-6m.github.io/ .
Dans cet article, nous introduisons un paradigme novateur à travers le prisme de l'Auto-Encodeur : la compréhension comme encodeur (I2T) qui compresse les images en texte, et la génération comme décodeur (T2I) qui reconstruit les images à partir de ce texte. En utilisant la fidélité de reconstruction comme objectif d'apprentissage unifié, nous renforçons le flux d'information bidirectionnel cohérent entre les processus de compréhension et de génération, apportant des gains mutuels. Pour mettre en œuvre cela, nous proposons UAE, un nouveau cadre pour l'apprentissage multimodal unifié. Nous commençons par pré-entraîner le décodeur avec des légendes d'images à contexte long et à grande échelle pour capturer les relations sémantiques fines et les relations spatiales complexes. Nous proposons ensuite Unified-GRPO via l'apprentissage par renforcement (RL), qui couvre trois étapes : (1) Une phase de démarrage à froid pour initialiser doucement à la fois l'encodeur et le décodeur avec une perte de reconstruction sémantique ; (2) Génération pour la Compréhension, où l'encodeur est entraîné à générer des légendes informatives qui maximisent la qualité de reconstruction du décodeur, améliorant ainsi sa compréhension visuelle ; (3) Compréhension pour la Génération, où le décodeur est affiné pour reconstruire à partir de ces légendes, l'obligeant à exploiter chaque détail et améliorant sa capacité à suivre les instructions à long contexte et la fidélité de génération. Pour l'évaluation, nous introduisons Unified-Bench, le premier benchmark conçu pour évaluer le degré d'unification des UMMs. Un moment de révélation surprenant émerge dans le domaine de l'apprentissage multimodal : à mesure que le RL progresse, l'encodeur produit de manière autonome des légendes plus descriptives, tandis que le décodeur démontre simultanément une capacité profonde à comprendre ces descriptions complexes, aboutissant à des reconstructions d'une fidélité frappante.
Les grands modèles de langage (LLMs) possèdent une vaste connaissance du monde et une forte capacité de raisonnement général, mais ils peinent à apprendre à partir de nombreux exemples contextuels dans les tâches standard d'apprentissage automatique (ML), c'est-à-dire à exploiter des démonstrations en contexte pur via l'apprentissage en contexte (ICL) sans descente de gradient. Nous présentons MachineLearningLM, un cadre portable de pré-entraînement continu qui dote un LLM généraliste d'une robuste capacité d'apprentissage automatique en contexte tout en préservant ses connaissances générales et son raisonnement pour des workflows de conversation plus larges. Notre procédure de pré-entraînement synthétise des tâches ML à partir de millions de modèles causaux structurels (SCMs), couvrant des comptages de shots allant jusqu'à 1 024. Nous commençons avec un enseignant de type forêt aléatoire, distillant les stratégies de décision basées sur les arbres dans le LLM pour renforcer la robustesse dans la modélisation numérique. Toutes les tâches sont sérialisées avec une invite efficace en tokens, permettant de 3 à 6 fois plus d'exemples par fenêtre contextuelle et offrant jusqu'à 50 fois le débit amorti via l'inférence par lots. Malgré une configuration modeste (Qwen-2.5-7B-Instruct avec un rang LoRA de 8), MachineLearningLM surpasse les LLM de référence (par exemple, GPT-5-mini) en moyenne d'environ 15 % sur la classification tabulaire hors distribution dans les domaines de la finance, de la physique, de la biologie et de la santé. Il présente une loi d'échelle frappante pour les nombreux shots : la précision augmente de manière monotone à mesure que les démonstrations en contexte passent de 8 à 1 024. Sans aucun entraînement spécifique à la tâche, il atteint une précision au niveau de la forêt aléatoire sur des centaines de shots. Les capacités générales de conversation, y compris les connaissances et le raisonnement, sont préservées : il atteint 75,4 % sur MMLU.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est un paradigme puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes actuelles de RLVR explorent souvent de manière insuffisante, conduisant à une convergence prématurée et à un effondrement de l'entropie. Pour relever ce défi, nous introduisons l'exploration guidée par la curiosité (CDE), un cadre qui exploite le sens intrinsèque de curiosité du modèle pour orienter l'exploration. Nous formalisons la curiosité à l'aide de signaux provenant à la fois de l'acteur et du critique : pour l'acteur, nous utilisons la perplexité sur sa réponse générée, et pour le critique, nous utilisons la variance des estimations de valeur provenant d'une architecture à têtes multiples. Ces deux signaux servent de bonus d'exploration dans le cadre du RLVR pour guider le modèle. Notre analyse théorique montre que le bonus lié à l'acteur pénalise intrinsèquement les erreurs de surconfiance et favorise la diversité parmi les réponses correctes ; de plus, nous relions le bonus lié au critique au bonus d'exploration basé sur le comptage bien établi en apprentissage par renforcement. Empiriquement, notre méthode obtient une amélioration d'environ +3 points par rapport au RLVR standard utilisant GRPO/PPO sur les benchmarks AIME. Une analyse plus approfondie identifie un mécanisme d'effondrement de la calibration au sein du RLVR, éclairant les modes de défaillance courants des LLM.
Les modèles de langage audio de grande envergure (LALMs) progressent rapidement, mais leur évaluation reste un défi en raison de boîtes à outils inefficaces qui limitent les comparaisons équitables et les évaluations systématiques. Les cadres actuels souffrent de trois problèmes critiques : un traitement lent qui freine les études à grande échelle, des incitations incohérentes qui nuisent à la reproductibilité, et une couverture étroite des tâches qui néglige des capacités importantes de raisonnement audio. Nous présentons AU-Harness, un cadre d'évaluation efficace et complet pour les LALMs. Notre système atteint une accélération allant jusqu'à 127 % par rapport aux boîtes à outils existantes grâce à un traitement par lots optimisé et une exécution parallèle, permettant des évaluations à grande échelle auparavant impraticables. Nous proposons des protocoles d'incitation standardisés et des configurations flexibles pour des comparaisons équitables de modèles dans divers scénarios. De plus, nous introduisons deux nouvelles catégories d'évaluation : la Diarisation Adaptative LLM pour la compréhension temporelle audio et le Raisonnement en Langage Parlé pour les tâches cognitives complexes basées sur l'audio. À travers l'évaluation de plus de 380 tâches, nous révélons des lacunes significatives dans les LALMs actuels, notamment dans la compréhension temporelle et les tâches complexes de raisonnement en langage parlé. Nos résultats mettent également en lumière un manque de standardisation dans la modalité d'instruction existant dans les benchmarks audio, ce qui peut entraîner des différences de performance allant jusqu'à 9,5 points absolus sur les tâches complexes de suivi d'instructions en aval. AU-Harness fournit à la fois des outils d'évaluation pratiques et des insights sur les limites des modèles, faisant progresser le développement systématique des LALMs.
Des progrès significatifs ont été réalisés dans le domaine de l'intelligence spatiale, couvrant à la fois la reconstruction spatiale et l'exploration du monde. Cependant, l'évolutivité et la fidélité au monde réel des modèles actuels restent sévèrement limitées par la rareté de données d'entraînement à grande échelle et de haute qualité. Bien que plusieurs ensembles de données fournissent des informations sur la pose de la caméra, ils sont généralement limités en termes d'échelle, de diversité et de richesse d'annotations, en particulier pour les scènes dynamiques du monde réel avec des mouvements de caméra de référence. À cette fin, nous avons constitué SpatialVID, un ensemble de données composé d'un vaste corpus de vidéos en conditions réelles avec des scènes variées, des mouvements de caméra et des annotations 3D denses telles que les poses de caméra par image, la profondeur et les instructions de mouvement. Plus précisément, nous avons collecté plus de 21 000 heures de vidéo brute, que nous avons traitées en 2,7 millions de clips grâce à un pipeline de filtrage hiérarchique, totalisant 7 089 heures de contenu dynamique. Un pipeline d'annotation ultérieur enrichit ces clips avec des informations spatiales et sémantiques détaillées, incluant les poses de caméra, les cartes de profondeur, les masques dynamiques, les légendes structurées et les instructions de mouvement sérialisées. L'analyse des statistiques des données de SpatialVID révèle une richesse et une diversité qui favorisent directement l'amélioration de la généralisation et des performances des modèles, établissant ainsi cet ensemble de données comme un atout clé pour la communauté de recherche en vision vidéo et 3D.
La compréhension de graphiques représente un test crucial pour les capacités de raisonnement des modèles vision-langage (VLMs). Les approches précédentes présentent des limites importantes : certaines s'appuient sur des outils externes, les rendant fragiles et contraintes par une boîte à outils prédéfinie, tandis que d'autres affinent des modèles spécialisés qui adoptent souvent une stratégie de raisonnement unique, telle que la chaîne de pensée (CoT) basée sur le texte. Les étapes intermédiaires du raisonnement textuel sont difficiles à vérifier, ce qui complique l'utilisation de signaux d'apprentissage par renforcement récompensant l'exactitude factuelle. Pour résoudre ce problème, nous proposons une approche Code-as-Thought (CaT) pour représenter les informations visuelles d'un graphique dans un format symbolique vérifiable. Notre idée clé est que cette stratégie doit être adaptative : une implémentation fixe basée uniquement sur le code échoue systématiquement sur des graphiques complexes où la représentation symbolique est inadaptée. Cette observation nous amène à introduire la Programmation Visuelle : une propriété apprenable qui détermine si une paire graphique-question est mieux résolue avec du code ou une analyse visuelle directe. Nous implémentons ce concept dans un cadre adaptatif où un VLM apprend à choisir entre la voie CaT et une voie de raisonnement visuel direct. La politique de sélection du modèle est entraînée par apprentissage par renforcement à l'aide d'un système de récompense dual inédit. Ce système combine une récompense basée sur l'exactitude des données pour ancrer le modèle dans les faits et prévenir les hallucinations numériques, avec une récompense de décision qui enseigne au modèle quand utiliser chaque stratégie, l'empêchant de se rabattre sur un mode de raisonnement unique. Les expériences démontrent une performance forte et robuste sur divers benchmarks de compréhension de graphiques. Notre travail montre que les VLMs peuvent être enseignés non seulement à raisonner, mais aussi à choisir dynamiquement la voie de raisonnement optimale pour chaque tâche.
Les modèles de langage de type encodeur uniquement sont fréquemment utilisés pour une variété de tâches standards d'apprentissage automatique, notamment la classification et la recherche d'information. Cependant, il y a eu un manque de recherches récentes sur les modèles encodeurs, en particulier en ce qui concerne les modèles multilingues. Nous présentons mmBERT, un modèle de langage de type encodeur uniquement pré-entraîné sur 3 000 milliards de tokens de texte multilingue dans plus de 1800 langues. Pour construire mmBERT, nous introduisons plusieurs éléments novateurs, notamment un plan de ratio de masquage inverse et un ratio d'échantillonnage à température inverse. Nous ajoutons plus de 1700 langues à faible ressource au mélange de données uniquement pendant la phase de décroissance, démontrant que cela améliore considérablement les performances et maximise les gains obtenus à partir de la quantité relativement faible de données d'entraînement. Malgré l'inclusion de ces langues à faible ressource uniquement dans la courte phase de décroissance, nous obtenons des performances de classification similaires à des modèles comme o3 d'OpenAI et Gemini 2.5 Pro de Google. Globalement, nous montrons que mmBERT surpasse significativement la génération précédente de modèles sur les tâches de classification et de recherche d'information — tant pour les langues à ressources élevées que pour celles à faibles ressources.
Bien que le pré-entraînement contrastif texte-image (CLIP) démontre des performances solides sur diverses tâches de vision, son application à l'apprentissage de représentations de personnes rencontre deux défis majeurs : (i) la rareté de données vision-langue annotées à grande échelle centrées sur des images de personnes, et (ii) les limitations inhérentes à l'apprentissage contrastif global, qui peine à préserver les caractéristiques locales discriminantes essentielles pour un appariement fin, tout en restant vulnérable aux tokens textuels bruyants. Ce travail améliore CLIP pour l'apprentissage de représentations de personnes grâce à des avancées synergiques en matière de curation de données et d'architecture de modèle. Premièrement, nous développons un pipeline de construction de données résistant au bruit qui exploite les capacités d'apprentissage en contexte des MLLMs pour filtrer et légender automatiquement des images issues du web. Cela donne naissance à WebPerson, un jeu de données à grande échelle de 5 millions de paires image-texte de haute qualité centrées sur des personnes. Deuxièmement, nous introduisons le cadre GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), qui améliore l'alignement intermodal en masquant de manière adaptative les tokens textuels bruyants basés sur le score de similarité gradient-attention. De plus, nous intégrons des objectifs de prédiction de tokens masqués qui contraignent le modèle à prédire des tokens textuels informatifs, renforçant ainsi l'apprentissage de représentations sémantiques fines. Des expériences approfondies montrent que GA-DMS atteint des performances de pointe sur plusieurs benchmarks.
La compréhension des relations spatiales en 3D reste une limitation majeure des modèles actuels de vision et langage (VLMs). Les travaux précédents ont abordé ce problème en créant des ensembles de données de questions-réponses (QA) spatiales basées sur des images uniques ou des vidéos d'intérieur. Cependant, les agents d'IA incarnés dans le monde réel, tels que les robots et les voitures autonomes, s'appuient généralement sur des observations égocentriques et multi-vues. Dans cette optique, nous introduisons Ego3D-Bench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement spatial des VLMs en utilisant des données égocentriques et multi-vues en extérieur. Ego3D-Bench comprend plus de 8 600 paires de questions-réponses, créées avec une implication significative d'annotateurs humains pour garantir qualité et diversité. Nous évaluons 16 VLMs de pointe, dont GPT-4o, Gemini1.5-Pro, InternVL3 et Qwen2.5-VL. Nos résultats révèlent un écart notable entre les performances des VLMs et les scores humains, soulignant que les VLMs actuels sont encore loin d'atteindre le niveau de compréhension spatiale humaine. Pour combler cet écart, nous proposons Ego3D-VLM, un cadre de post-formation qui améliore le raisonnement spatial en 3D des VLMs. Ego3D-VLM génère une carte cognitive basée sur des coordonnées 3D globales estimées, entraînant une amélioration moyenne de 12 % sur les QA à choix multiples et de 56 % sur l'estimation de distance absolue. Ego3D-VLM est modulaire et peut être intégré à tout VLM existant. Ensemble, Ego3D-Bench et Ego3D-VLM offrent des outils précieux pour progresser vers une compréhension spatiale de niveau humain dans des environnements réels et multi-vues.
Le Gaussian Splatting (GS), une technique récente pour convertir des points discrets en représentations spatiales continues, a montré des résultats prometteurs dans la modélisation de scènes 3D et la super-résolution d'images 2D. Dans cet article, nous explorons son potentiel inexploité pour la restauration d'images, qui exige à la fois une synthèse de pixels localement cohérente et une restauration sémantique globalement consistante. Nous proposons le premier cadre de restauration d'images basé sur le Gaussian Splatting 2D, qui encode des images incomplètes dans un champ continu de coefficients de splats gaussiens 2D et reconstruit l'image finale via un processus de rasterisation différentiable. Le paradigme de rendu continu du GS favorise intrinsèquement la cohérence au niveau des pixels dans les résultats restaurés. Pour améliorer l'efficacité et la scalabilité, nous introduisons une stratégie de rasterisation par patchs qui réduit la surcharge mémoire et accélère l'inférence. Pour la cohérence sémantique globale, nous intégrons des caractéristiques issues d'un modèle DINO pré-entraîné. Nous observons que les caractéristiques globales de DINO sont naturellement robustes aux petites régions manquantes et peuvent être efficacement adaptées pour guider l'alignement sémantique dans des scénarios de masques larges, garantissant que le contenu restauré reste contextuellement cohérent avec la scène environnante. Des expériences approfondies sur des benchmarks standards démontrent que notre méthode atteint des performances compétitives à la fois en termes de métriques quantitatives et de qualité perceptuelle, établissant une nouvelle direction pour l'application du Gaussian Splatting au traitement d'images 2D.
Les récentes avancées dans les modèles de langage multimodaux de grande envergure (MLLMs) ont ouvert de nouvelles opportunités pour l'intelligence incarnée, permettant une compréhension, un raisonnement et une interaction multimodaux, ainsi qu'une prise de décision spatiale continue. Néanmoins, les systèmes incarnés actuels basés sur les MLLMs sont confrontés à deux limitations critiques. Premièrement, le Fossé d'Adaptabilité Géométrique : les modèles entraînés uniquement sur des entrées 2D ou avec une injection de géométrie 3D prédéfinie souffrent soit d'une information spatiale insuffisante, soit d'une généralisation 2D restreinte, conduisant à une mauvaise adaptabilité aux tâches avec des exigences spatiales variées. Deuxièmement, le Fossé de Contrainte d'Incarnation : les travaux antérieurs négligent souvent les contraintes et capacités physiques des robots réels, aboutissant à des plans de tâches théoriquement valides mais pratiquement irréalisables. Pour combler ces lacunes, nous présentons OmniEVA — un planificateur polyvalent incarné qui permet un raisonnement et une planification de tâches avancés grâce à deux innovations majeures : (1) un Mécanisme d'Ancrage 3D Adaptatif aux Tâches, qui introduit un routeur à portes pour effectuer une régulation sélective explicite de la fusion 3D en fonction des exigences contextuelles, permettant un ancrage 3D conscient du contexte pour diverses tâches incarnées. (2) un Cadre de Raisonnement Conscient de l'Incarnation qui intègre conjointement les objectifs de tâche et les contraintes d'incarnation dans la boucle de raisonnement, aboutissant à des décisions de planification à la fois orientées vers un but et exécutables. Les résultats expérimentaux approfondis démontrent qu'OmniEVA non seulement atteint des performances de pointe en raisonnement incarné général, mais montre également une forte capacité dans un large éventail de scénarios en aval. Les évaluations d'une série de benchmarks incarnés proposés, incluant à la fois des tâches primitives et composites, confirment ses capacités de planification robustes et polyvalentes. Page du projet : https://omnieva.github.io
L'émergence de modèles de langage à contexte étendu, avec des fenêtres de contexte atteignant des millions de tokens, a ouvert de nouvelles opportunités pour une compréhension sophistiquée du code et l'évaluation du développement logiciel. Nous proposons LoCoBench, un benchmark complet spécialement conçu pour évaluer les modèles de langage à contexte étendu (LLMs) dans des scénarios réalistes et complexes de développement logiciel. Contrairement aux benchmarks d'évaluation de code existants qui se concentrent sur la complétion de fonctions individuelles ou des tâches à contexte court, LoCoBench comble une lacune critique en évaluant les capacités à contexte étendu, nécessitant la compréhension de bases de code entières, le raisonnement à travers plusieurs fichiers et le maintien de la cohérence architecturale dans des systèmes logiciels à grande échelle. Notre benchmark propose 8 000 scénarios d'évaluation générés systématiquement dans 10 langages de programmation, avec des longueurs de contexte variant de 10K à 1M tokens, une variation de 100x permettant une évaluation précise de la dégradation des performances en contexte étendu dans des environnements réalistes de développement logiciel. LoCoBench introduit 8 catégories de tâches qui capturent les capacités essentielles en contexte étendu : compréhension architecturale, refactorisation inter-fichiers, développement multi-sessions, investigation de bugs, implémentation de fonctionnalités, compréhension du code, tests d'intégration et analyse de sécurité. Grâce à un pipeline en 5 phases, nous créons des scénarios diversifiés et de haute qualité qui mettent les LLMs au défi de raisonner sur des bases de code complexes à une échelle sans précédent. Nous introduisons un cadre d'évaluation complet avec 17 métriques réparties en 4 dimensions, incluant 8 nouvelles métriques d'évaluation, combinées dans un score LoCoBench (LCBS). Notre évaluation des modèles à contexte étendu de pointe révèle des écarts de performance substantiels, démontrant que la compréhension en contexte étendu dans le développement logiciel complexe représente un défi majeur non résolu qui nécessite plus d'attention. LoCoBench est disponible à l'adresse suivante : https://github.com/SalesforceAIResearch/LoCoBench.
La navigation visuelle utilisant uniquement une seule caméra et une carte topologique est récemment devenue une alternative attrayante aux méthodes nécessitant des capteurs supplémentaires et des cartes 3D. Cela est généralement réalisé grâce à une approche « relative à l'image » pour estimer le contrôle à partir d'une paire donnée d'observation actuelle et d'image de sous-objectif. Cependant, les représentations du monde au niveau de l'image ont des limites, car les images sont strictement liées à la pose et à l'incarnation de l'agent. En revanche, les objets, étant une propriété de la carte, offrent une représentation du monde invariante à l'incarnation et à la trajectoire. Dans ce travail, nous présentons un nouveau paradigme d'apprentissage du contrôle « relatif aux objets » qui présente plusieurs caractéristiques souhaitables : a) de nouveaux itinéraires peuvent être parcourus sans nécessiter strictement l'imitation d'expériences antérieures, b) le problème de prédiction du contrôle peut être découplé de la résolution du problème de correspondance d'images, et c) une invariance élevée peut être obtenue dans le déploiement inter-incarnation pour les variations entre les paramètres d'entraînement-test et de cartographie-exécution. Nous proposons une représentation de carte topométrique sous la forme d'un graphe de scène 3D « relatif », utilisé pour obtenir des coûts de planification de chemin global plus informatifs au niveau des objets. Nous entraînons un contrôleur local, nommé « ObjectReact », conditionné directement sur une représentation de haut niveau appelée « WayObject Costmap », qui élimine le besoin d'une entrée RGB explicite. Nous démontrons les avantages de l'apprentissage du contrôle relatif aux objets par rapport à son homologue relatif à l'image, à travers des variations de hauteur de capteur et plusieurs tâches de navigation qui mettent à l'épreuve la capacité de compréhension spatiale sous-jacente, par exemple, naviguer sur une trajectoire de carte dans le sens inverse. Nous montrons en outre que notre politique uniquement simulée est capable de bien généraliser aux environnements intérieurs réels. Le code et le matériel supplémentaire sont accessibles via la page du projet : https://object-react.github.io/
Les récentes avancées dans les grands modèles vision-langage (LVLMs) ont démontré des performances solides sur des tâches médicales généralistes. Cependant, leur efficacité dans des domaines spécialisés tels que la dentisterie reste peu explorée. En particulier, les radiographies panoramiques, une modalité d'imagerie largement utilisée en radiologie bucco-dentaire, posent des défis d'interprétation en raison des structures anatomiques denses et des indices pathologiques subtils, qui ne sont pas capturés par les benchmarks ou ensembles de données d'instructions médicaux existants. À cette fin, nous introduisons MMOral, le premier ensemble de données et benchmark multimodal à grande échelle conçu pour l'interprétation des radiographies panoramiques. MMOral se compose de 20 563 images annotées associées à 1,3 million d'instances d'instructions couvrant divers types de tâches, notamment l'extraction d'attributs, la génération de rapports, la réponse à des questions visuelles et le dialogue ancré dans l'image. De plus, nous présentons MMOral-Bench, une suite d'évaluation complète couvrant cinq dimensions diagnostiques clés en dentisterie. Nous évaluons 64 LVLMs sur MMOral-Bench et constatons que même le modèle le plus performant, à savoir GPT-4o, n'atteint qu'une précision de 41,45 %, révélant ainsi des limitations significatives des modèles actuels dans ce domaine. Pour favoriser les progrès dans ce domaine spécifique, nous proposons également OralGPT, qui effectue un fine-tuning supervisé (SFT) sur Qwen2.5-VL-7B avec notre ensemble de données d'instructions MMOral soigneusement élaboré. Remarquablement, une seule époque de SFT entraîne des améliorations substantielles des performances des LVLMs, par exemple, OralGPT démontre une amélioration de 24,73 %. MMOral et OralGPT présentent un potentiel significatif en tant que fondation critique pour une dentisterie intelligente et permettent de développer des systèmes d'IA multimodaux ayant un impact clinique plus important dans le domaine dentaire. L'ensemble de données, le modèle, le benchmark et la suite d'évaluation sont disponibles à l'adresse suivante : https://github.com/isbrycee/OralGPT.
Un paradoxe central dans le réglage fin des grands modèles de langage (LLMs) avec l'apprentissage par renforcement avec récompense vérifiable (RLVR) est la dégradation fréquente des performances sur plusieurs tentatives (Pass@k) malgré les améliorations de la précision sur une seule tentative (Pass@1). Ce phénomène s'accompagne souvent d'un oubli catastrophique, où les modèles perdent des compétences précédemment acquises. Bien que diverses méthodes aient été proposées, le choix et la fonction du terme de divergence ont été étonnamment peu examinés comme solution proactive. Nous soutenons que les objectifs standards du RLVR — ceux utilisant la divergence KL inverse axée sur le mode et ceux renonçant entièrement à un terme de divergence — manquent d'un mécanisme crucial pour la rétention des connaissances. La KL inverse accélère activement cette dégradation en rétrécissant la politique, tandis que son absence ne fournit aucune protection contre la dérive du modèle par rapport à sa base de connaissances diversifiée. Nous proposons un changement fondamental de perspective : utiliser le terme de divergence lui-même comme solution. Notre cadre, l'apprentissage par renforcement hybride préservant la diversité (DPH-RL), exploite les f-divergences couvrantes (comme la KL directe et la divergence JS) pour fonctionner comme un mécanisme de répétition. En se référant continuellement à la politique initiale, cette approche oblige le modèle à maintenir une couverture large des solutions. Des expériences approfondies sur la génération de mathématiques et de SQL démontrent que DPH-RL résout non seulement la dégradation de Pass@k, mais améliore à la fois Pass@1 et Pass@k en domaine et hors domaine. De plus, DPH-RL est plus efficace en termes d'entraînement car il calcule la f-divergence à l'aide de fonctions génératrices, nécessitant uniquement un échantillonnage de la politique initiale et aucun modèle de référence en ligne. Notre travail met en lumière un axe crucial et négligé pour améliorer le RLVR, démontrant que la sélection appropriée d'une mesure de divergence est un outil puissant pour construire des modèles de raisonnement plus généraux et diversifiés.
Les solutions d'apprentissage profond pour la détection de vulnérabilités proposées dans la recherche académique ne sont pas toujours accessibles aux développeurs, et leur applicabilité dans des contextes industriels est rarement abordée. Le transfert de ces technologies de l'académie vers l'industrie présente des défis liés à la fiabilité, aux systèmes hérités, à la faible littératie numérique et à l'écart entre les expertises académiques et industrielles. Pour l'apprentissage profond en particulier, les performances et l'intégration dans les flux de travail existants constituent des préoccupations supplémentaires. Dans ce travail, nous évaluons d'abord les performances de CodeBERT pour la détection de fonctions vulnérables dans des logiciels industriels et open source. Nous analysons sa généralisation inter-domaines lorsqu'il est affiné sur des données open source et testé sur des données industrielles, et vice versa, en explorant également des stratégies pour gérer le déséquilibre des classes. Sur la base de ces résultats, nous développons AI-DO (Automatisation de l'intégration de la détection de vulnérabilités pour les opérations des développeurs), un système de recommandation intégré à l'intégration continue et au déploiement continu (CI/CD) qui utilise CodeBERT affiné pour détecter et localiser les vulnérabilités lors de la revue de code sans perturber les flux de travail. Enfin, nous évaluons l'utilité perçue de l'outil à travers une enquête auprès des professionnels de l'informatique de l'entreprise. Nos résultats montrent que les modèles entraînés sur des données industrielles détectent avec précision les vulnérabilités dans le même domaine mais perdent en performance sur le code open source, tandis qu'un modèle d'apprentissage profond affiné sur des données open source, avec des techniques d'échantillonnage appropriées, améliore la détection des vulnérabilités.
Les systèmes de recommandation multimodaux deviennent de plus en plus des technologies fondamentales pour les plateformes de commerce électronique et de contenu, permettant des services personnalisés en modélisant conjointement les comportements historiques des utilisateurs et les caractéristiques multimodales des articles (par exemple, visuelles et textuelles). Cependant, la plupart des méthodes existantes reposent soit sur des stratégies de fusion statiques, soit sur une modélisation des interactions locales basée sur des graphes, faisant face à deux limitations critiques : (1) une capacité insuffisante à modéliser les associations intermodales fines, conduisant à une qualité de fusion sous-optimale ; et (2) un manque de cohérence au niveau de la distribution globale, entraînant un biais de représentation. Pour y remédier, nous proposons MambaRec, un nouveau cadre qui intègre l'alignement local des caractéristiques et la régularisation globale de la distribution via un apprentissage guidé par l'attention. Au cœur de ce cadre, nous introduisons le module d'attention de raffinement dilaté (DREAM), qui utilise des convolutions dilatées multi-échelles avec une attention canal par canal et spatiale pour aligner les motifs sémantiques fins entre les modalités visuelles et textuelles. Ce module capture les relations hiérarchiques et les associations contextuelles, améliorant la modélisation sémantique intermodale. De plus, nous appliquons la divergence maximale moyenne (MMD) et des fonctions de perte contrastives pour contraindre l'alignement global des modalités, renforçant ainsi la cohérence sémantique. Cette double régularisation réduit les déviations spécifiques aux modes et améliore la robustesse. Pour améliorer l'évolutivité, MambaRec emploie une stratégie de réduction de dimensionnalité pour diminuer le coût computationnel des caractéristiques multimodales de haute dimension. Des expériences approfondies sur des ensembles de données de commerce électronique réels montrent que MambaRec surpasse les méthodes existantes en termes de qualité de fusion, de généralisation et d'efficacité. Notre code est disponible publiquement à l'adresse suivante : https://github.com/rkl71/MambaRec.
Notre équipe, All You Need Is A Fuzzing Brain, a été l'une des sept finalistes du défi Artificial Intelligence Cyber Challenge (AIxCC) de la DARPA, se classant quatrième lors de la finale. Durant la compétition, nous avons développé un Cyber Reasoning System (CRS) qui a découvert de manière autonome 28 vulnérabilités de sécurité - dont six zero-days précédemment inconnues - dans des projets open source réels en C et Java, et en a réussi à corriger 14. Le CRS complet est open source et disponible à l'adresse suivante : https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain. Cet article fournit une description technique détaillée de notre CRS, en mettant l'accent sur ses composants et stratégies alimentés par des LLM. En nous appuyant sur l'AIxCC, nous introduisons également un classement public pour évaluer les LLM de pointe sur des tâches de détection et de correction de vulnérabilités, basé sur le jeu de données de l'AIxCC. Le classement est accessible à l'adresse suivante : https://o2lab.github.io/FuzzingBrain-Leaderboard/.
Les premières recherches sur les attaques par empoisonnement de données contre les modèles de langage de grande taille (LLMs) ont démontré la facilité avec laquelle des portes dérobées pouvaient être injectées. Les LLMs plus récents intègrent un raisonnement étape par étape, élargissant ainsi la surface d'attaque pour inclure la chaîne de pensée (CoT) intermédiaire et sa caractéristique inhérente de décomposition des problèmes en sous-problèmes. En utilisant ces vecteurs pour un empoisonnement plus furtif, nous introduisons le concept de « poison de raisonnement décomposé », dans lequel l'attaquant modifie uniquement le chemin de raisonnement, laissant les invites et les réponses finales intactes, et répartit le déclencheur sur plusieurs composants individuellement inoffensifs. Fait fascinant, bien qu'il reste possible d'injecter ces poisons décomposés, les activer de manière fiable pour modifier les réponses finales (plutôt que simplement la CoT) s'avère étonnamment difficile. Cette difficulté découle du fait que les modèles peuvent souvent se remettre des portes dérobées activées au sein de leurs processus de pensée. En fin de compte, il semble qu'une forme émergente de robustesse contre les portes dérobées provienne des capacités de raisonnement de ces LLMs avancés, ainsi que de la séparation architecturale entre le raisonnement et la génération des réponses finales.