papers.description
La reconnaissance optique de caractères (OCR) pour les documents arabes reste une tâche complexe en raison de l'écriture cursive de la langue, de la diversité des polices, des diacritiques et de l'orientation de droite à gauche. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) modernes aient fait progresser la compréhension des documents pour les langues à ressources abondantes, leurs performances sur l'arabe restent limitées. Dans ce travail, nous présentons Baseer, un modèle vision-langage spécialement affiné pour l'OCR des documents arabes. En exploitant un jeu de données à grande échelle combinant des documents synthétiques et réels, Baseer est entraîné à l'aide d'une stratégie d'affinage de type décodeur uniquement, permettant d'adapter un MLLM pré-entraîné tout en préservant les caractéristiques visuelles générales. Nous présentons également Misraj-DocOCR, un benchmark de haute qualité vérifié par des experts, conçu pour une évaluation rigoureuse des systèmes d'OCR arabes. Nos expériences montrent que Baseer surpasse significativement les solutions open-source et commerciales existantes, atteignant un taux d'erreur de mots (WER) de 0,25 et établissant un nouvel état de l'art dans le domaine de l'OCR des documents arabes. Nos résultats mettent en évidence les avantages de l'adaptation spécifique au domaine des MLLMs à usage général et établissent une base solide pour une OCR de haute précision sur des langues morphologiquement riches comme l'arabe.
L'écart croissant entre l'échelle exponentielle des ressources de calcul et la croissance limitée des données textuelles de haute qualité contraint désormais les approches conventionnelles de mise à l'échelle pour les grands modèles de langage (LLMs). Pour relever ce défi, nous introduisons le **Reinforcement Learning on Pre-Training data (RLPT)**, un nouveau paradigme de mise à l'échelle au moment de l'entraînement pour optimiser les LLMs. Contrairement aux approches antérieures qui mettent à l'échelle l'entraînement principalement par apprentissage supervisé, RLPT permet à la politique d'explorer de manière autonome des trajectoires significatives pour apprendre à partir des données de pré-entraînement et d'améliorer ses capacités grâce à l'apprentissage par renforcement (RL). Alors que les stratégies RL existantes, telles que l'apprentissage par renforcement à partir de retours humains (RLHF) et l'apprentissage par renforcement avec récompenses vérifiables (RLVR), reposent sur l'annotation humaine pour la construction des récompenses, RLPT élimine cette dépendance en dérivant les signaux de récompense directement des données de pré-entraînement. Plus précisément, il adopte un objectif de raisonnement sur le segment suivant, récompensant la politique pour avoir prédit avec précision les segments de texte suivants en fonction du contexte précédent. Cette formulation permet de mettre à l'échelle le RL sur les données de pré-entraînement, encourageant l'exploration de trajectoires plus riches dans des contextes plus larges et favorisant ainsi des compétences de raisonnement plus généralisables. Des expériences approfondies sur des benchmarks de raisonnement général et mathématique, appliqués à plusieurs modèles, valident l'efficacité de RLPT. Par exemple, lorsqu'il est appliqué à Qwen3-4B-Base, RLPT entraîne des améliorations absolues de 3,0, 5,1, 8,1, 6,0, 6,6 et 5,3 sur MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 et AIME25, respectivement. Les résultats démontrent en outre un comportement de mise à l'échelle favorable, suggérant un fort potentiel de gains continus avec davantage de ressources de calcul. De plus, RLPT fournit une base solide, étendant les limites du raisonnement des LLMs et améliorant les performances de RLVR.
Les politiques visuomotrices basées sur l'apprentissage par imitation sont largement utilisées dans la manipulation robotique, où les observations visuelles et les états proprioceptifs sont généralement adoptés conjointement pour un contrôle précis. Cependant, dans cette étude, nous constatons que cette pratique courante rend la politique trop dépendante de l'entrée de l'état proprioceptif, ce qui entraîne un surajustement aux trajectoires d'entraînement et une mauvaise généralisation spatiale. Au contraire, nous proposons la Politique Sans État, en supprimant l'entrée de l'état proprioceptif et en prédisant les actions uniquement conditionnées par les observations visuelles. La Politique Sans État est construite dans l'espace d'action relatif de l'effecteur terminal, et doit garantir les observations visuelles complètes pertinentes pour la tâche, ici fournies par des caméras grand angle doubles montées sur le poignet. Les résultats empiriques démontrent que la Politique Sans État atteint une généralisation spatiale significativement plus forte que la politique basée sur l'état : dans des tâches du monde réel telles que le pick-and-place, le pliage de chemises difficile et la manipulation complexe du corps entier, couvrant plusieurs incarnations de robots, le taux de réussite moyen passe de 0\% à 85\% dans la généralisation en hauteur et de 6\% à 64\% dans la généralisation horizontale. De plus, elles montrent également des avantages en termes d'efficacité des données et d'adaptation trans-embodiment, renforçant ainsi leur praticabilité pour un déploiement dans le monde réel.
Les modèles de langage multimodaux de grande taille (MLLMs) connaissent des progrès rapides et représentent la pointe du développement de l'IA. Cependant, leur efficacité en matière d'entraînement et d'inférence est devenue un goulot d'étranglement majeur pour les rendre plus accessibles et évolutifs. Pour relever ces défis, nous présentons MiniCPM-V 4.5, un modèle de 8 milliards de paramètres conçu pour une efficacité élevée et des performances solides. Nous introduisons trois améliorations majeures dans l'architecture du modèle, la stratégie de données et la méthode d'entraînement : une architecture de modèle 3D-Resampler unifiée pour un encodage très compact des images et des vidéos, un paradigme d'apprentissage unifié pour la connaissance documentaire et la reconnaissance de texte sans nécessiter d'ingénierie de données lourde, et une stratégie d'apprentissage par renforcement hybride pour exceller dans les modes de raisonnement courts et longs. Les résultats expérimentaux complets dans l'évaluation OpenCompass montrent que MiniCPM-V 4.5 surpasse des modèles propriétaires largement utilisés comme GPT-4o-latest, ainsi que des modèles open-source beaucoup plus grands comme Qwen2.5-VL 72B. Il est à noter que ces performances solides sont obtenues avec une efficacité remarquable. Par exemple, sur le benchmark VideoMME largement adopté, MiniCPM-V 4.5 atteint des performances de pointe parmi les modèles de moins de 30 milliards de paramètres, en utilisant seulement 46,7 % de la mémoire GPU et 8,7 % du temps d'inférence de Qwen2.5-VL 7B.
Comprendre et raisonner sur des dépôts de logiciels entiers est une capacité essentielle pour les outils d'ingénierie logicielle intelligents. Bien que les benchmarks existants tels que CoSQA et CodeQA aient fait progresser le domaine, ils se concentrent principalement sur de petits extraits de code autonomes. Ces configurations ne parviennent pas à capturer la complexité des dépôts réels, où une compréhension et un raisonnement efficaces nécessitent souvent de naviguer entre plusieurs fichiers, de comprendre l'architecture logicielle et de fonder les réponses sur des dépendances de code à long terme. Dans cet article, nous présentons SWE-QA, un benchmark de question-réponse (QA) au niveau des dépôts conçu pour faciliter la recherche sur les systèmes de QA automatisés dans des environnements de code réalistes. SWE-QA comprend 576 paires de questions-réponses de haute qualité couvrant diverses catégories, notamment la compréhension des intentions, le raisonnement inter-fichiers et l'analyse de dépendances multi-sauts. Pour construire SWE-QA, nous avons d'abord extrait 77 100 issues GitHub provenant de 11 dépôts populaires. Sur la base d'une analyse des questions naturelles posées par les développeurs et extraites de ces issues, nous avons développé une taxonomie à deux niveaux des questions au niveau des dépôts et construit un ensemble de questions initiales pour chaque catégorie. Pour chaque catégorie, nous avons soigneusement sélectionné et validé les questions et collecté leurs réponses correspondantes. Comme application prototype, nous avons également développé SWE-QA-Agent, un framework agentique dans lequel des agents LLM raisonnent et agissent pour trouver des réponses automatiquement. Nous évaluons six LLM avancés sur SWE-QA sous diverses stratégies d'augmentation de contexte. Les résultats expérimentaux mettent en évidence le potentiel des LLM, en particulier notre framework SWE-QA-Agent, pour répondre aux questions au niveau des dépôts, tout en révélant des défis ouverts et en pointant vers des directions de recherche futures.
Le raisonnement visuo-spatial (VSR) est une capacité cognitive humaine fondamentale et une exigence critique pour faire progresser l'intelligence incarnée et les systèmes autonomes. Malgré les récents progrès des modèles vision-langage (VLMs), atteindre un niveau de VSR comparable à celui des humains reste extrêmement difficile en raison de la complexité inhérente à la représentation et au raisonnement dans un espace tridimensionnel. Dans cet article, nous présentons une investigation systématique du VSR dans les VLMs, comprenant une revue des méthodologies existantes à travers les modalités d'entrée, les architectures de modèles, les stratégies d'entraînement et les mécanismes de raisonnement. De plus, nous catégorisons l'intelligence spatiale en trois niveaux de capacité, à savoir la perception de base, la compréhension spatiale et la planification spatiale, et nous créons SIBench, un benchmark d'intelligence spatiale englobant près de 20 ensembles de données open-source couvrant 23 scénarios de tâches. Les expériences menées avec les VLMs les plus avancés révèlent un écart marqué entre la perception et le raisonnement, les modèles montrant des compétences dans les tâches perceptuelles de base mais sous-performant systématiquement dans les tâches de compréhension et de planification, en particulier dans l'estimation numérique, le raisonnement multi-vues, la dynamique temporelle et l'imagination spatiale. Ces résultats soulignent les défis substantiels qui subsistent dans la réalisation de l'intelligence spatiale, tout en fournissant à la fois une feuille de route systématique et un benchmark complet pour orienter les recherches futures dans ce domaine. Les ressources associées à cette étude sont accessibles à l'adresse suivante : https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
Les récents progrès en apprentissage par renforcement pour les modèles de base, tels que l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO), ont considérablement amélioré les performances de ces modèles sur des tâches de raisonnement. Notamment, la fonction d'avantage joue un rôle central dans GRPO pour classer l'importance des trajectoires. Cependant, les explorations existantes rencontrent à la fois des problèmes de réversion d'avantage et de miroir d'avantage, ce qui entrave une allocation raisonnable de l'avantage entre les différents échantillons de requêtes. Dans ce travail, nous proposons une stratégie GRPO simple mais efficace, l'Optimisation de Politique à Avantage Mixte (Mixed Advantage Policy Optimization, MAPO). Nous révélons que la trajectoire apparaît avec une certitude variable et proposons la déviation en pourcentage de l'avantage pour les échantillons avec des trajectoires à haute certitude. De plus, nous pondérons dynamiquement la fonction d'avantage pour les échantillons avec des certitudes de trajectoire variables, configurant ainsi de manière adaptative la fonction d'avantage pour tenir compte des caractéristiques spécifiques à chaque échantillon. Une comparaison avec les méthodes état de l'art connexes, ainsi que des études d'ablation sur différentes variantes de l'avantage, valident l'efficacité de notre approche.
Le rendu par projection de Gaussiennes 3D en mode feed-forward (3DGS) s'est imposé comme une solution très efficace pour la synthèse de nouvelles vues. Les méthodes existantes reposent principalement sur un paradigme de prédiction de Gaussiennes alignées sur les pixels, où chaque pixel 2D est mappé à une Gaussienne 3D. Nous revisitons cette formulation largement adoptée et identifions plusieurs limitations inhérentes : elle rend les modèles 3D reconstruits fortement dépendants du nombre de vues d'entrée, conduit à des distributions de densité biaisées par la vue, et introduit des erreurs d'alignement, en particulier lorsque les vues sources contiennent des occlusions ou peu de texture. Pour relever ces défis, nous introduisons VolSplat, un nouveau paradigme feed-forward multi-vues qui remplace l'alignement sur les pixels par des Gaussiennes alignées sur des voxels. En prédisant directement les Gaussiennes à partir d'une grille de voxels 3D prédite, il surmonte la dépendance de l'alignement sur les pixels à un appariement de caractéristiques 2D sujet aux erreurs, assurant ainsi une robuste cohérence multi-vues. De plus, il permet un contrôle adaptatif de la densité des Gaussiennes en fonction de la complexité de la scène 3D, produisant des nuages de points Gaussien plus fidèles, une meilleure cohérence géométrique et une qualité de rendu des nouvelles vues améliorée. Les expériences sur des benchmarks largement utilisés, tels que RealEstate10K et ScanNet, démontrent que VolSplat atteint des performances de pointe tout en produisant des reconstructions Gaussiennes plus plausibles et cohérentes entre les vues. En plus de résultats supérieurs, notre approche établit un cadre plus évolutif pour la reconstruction 3D feed-forward avec des représentations plus denses et robustes, ouvrant la voie à de nouvelles recherches dans des communautés plus larges. Les résultats vidéo, le code et les modèles entraînés sont disponibles sur notre page de projet : https://lhmd.top/volsplat.
Les grands modèles de raisonnement (LRMs) consacrent une part importante de leur temps de calcul à des traces longues de chaînes de pensée (CoT), mais ce qui *caractérise* une CoT efficace reste flou. Alors que des travaux antérieurs rapportent des gains en allongeant les CoT et en augmentant la révision (revisiter les étapes précédentes) via des jetons *wait* ajoutés, des études récentes suggèrent que des pensées plus courtes peuvent surpasser des traces plus longues. Nous menons donc une évaluation systématique sur dix LRMs pour des tâches de raisonnement mathématique et scientifique. Contrairement au récit "plus long est meilleur", nous constatons que l'allongement naïf des CoT et l'augmentation de la révision sont associés à une précision *moins élevée*. Alors que la CoT se déroule étape par étape, les métriques au niveau des jetons peuvent confondre la verbosité avec la qualité du processus. Nous introduisons une vue graphique de la CoT pour en extraire la structure et identifions une seule statistique - la *Fraction d'Étapes Échouées (FSF)*, la proportion d'étapes dans les branches abandonnées - qui prédit systématiquement mieux la justesse que la longueur et le taux de révision, et ce, à travers les modèles. Pour explorer la causalité, nous concevons deux interventions. Premièrement, nous classons les CoT candidates selon chaque métrique au moment du test, où la FSF produit les gains les plus importants en pass@1 ; deuxièmement, nous modifions les CoT pour supprimer les branches échouées, ce qui améliore significativement la précision, indiquant que les branches échouées biaisent le raisonnement ultérieur. Pris ensemble, ces résultats caractérisent les CoT efficaces comme celles qui *échouent moins* et soutiennent une mise à l'échelle au moment du test *consciente de la structure* plutôt qu'une génération indiscriminée de CoT longues.
La capacité à générer des environnements virtuels est cruciale pour des applications allant du jeu vidéo aux domaines de l’IA physique tels que la robotique, la conduite autonome et l’IA industrielle. Les méthodes actuelles de reconstruction 3D basées sur l’apprentissage reposent sur la disponibilité de données multi-vues capturées dans le monde réel, qui ne sont pas toujours facilement accessibles. Les récents progrès des modèles de diffusion vidéo ont démontré des capacités d’imagination remarquables, mais leur nature 2D limite les applications à la simulation où un robot doit naviguer et interagir avec l’environnement. Dans cet article, nous proposons un cadre d’auto-distillation visant à extraire les connaissances implicites en 3D des modèles de diffusion vidéo pour les transformer en une représentation explicite de type 3D Gaussian Splatting (3DGS), éliminant ainsi le besoin de données d’entraînement multi-vues. Plus précisément, nous enrichissons le décodeur RGB typique avec un décodeur 3DGS, supervisé par la sortie du décodeur RGB. Dans cette approche, le décodeur 3DGS peut être entièrement entraîné avec des données synthétiques générées par les modèles de diffusion vidéo. Au moment de l’inférence, notre modèle peut synthétiser des scènes 3D à partir d’une invite textuelle ou d’une seule image pour un rendu en temps réel. Notre cadre s’étend également à la génération de scènes 3D dynamiques à partir d’une vidéo monoculaire en entrée. Les résultats expérimentaux montrent que notre cadre atteint des performances de pointe dans la génération de scènes 3D statiques et dynamiques.
Les modèles multimodaux unifiés ont récemment suscité une attention considérable pour leurs capacités remarquables à comprendre et générer conjointement des contenus diversifiés. Cependant, à mesure que les contextes intègrent un nombre croissant de tokens multimodaux entrelacés, les processus itératifs de débruitage par diffusion et de décodage autorégressif imposent une surcharge computationnelle significative. Pour remédier à cela, nous proposons Hyper-Bagel, un cadre d'accélération unifié conçu pour accélérer simultanément les tâches de compréhension et de génération multimodales. Notre approche utilise une stratégie de division pour mieux régner, employant un décodage spéculatif pour la prédiction du token suivant et un processus de distillation multi-étapes pour le débruitage par diffusion. Le cadre offre des gains de performance substantiels, atteignant une accélération de plus de 2x dans la compréhension multimodale. Pour les tâches génératives, notre modèle 6-NFE sans perte permet une accélération de 16,67x dans la génération de texte à image et de 22x dans l'édition d'image, tout en préservant la haute qualité de sortie du modèle original. Nous développons en outre un modèle 1-NFE hautement efficace qui permet une édition et une génération interactives en quasi temps réel. En combinant une distillation adversarial avancée avec un apprentissage par feedback humain, ce modèle atteint une rentabilité et une réactivité optimales, rendant les interactions multimodales complexes fluides et instantanées.
L'utilisation de tokens continus au lieu de tokens discrets pendant la phase de raisonnement en Chaîne de Pensée (CoT) des LLM a récemment suscité l'attention, reposant sur l'intuition qu'un mélange continu de tokens discrets pourrait simuler une superposition de plusieurs chemins de raisonnement simultanément. Des résultats théoriques ont formellement démontré que les tokens continus offrent une expressivité bien plus grande et peuvent résoudre certains problèmes de manière plus efficace. Cependant, l'utilisation pratique des tokens continus a été limitée par des difficultés importantes d'entraînement : les travaux précédents se contentent soit d'utiliser des tokens continus uniquement lors de l'inférence sur un modèle pré-entraîné avec des tokens discrets, soit doivent distiller la CoT continue à partir de CoT discrètes de référence, ce qui engendre des coûts computationnels limitant la CoT à un très petit nombre de tokens. Ce travail est le premier à introduire une méthode scalable pour apprendre des CoT continues via l'apprentissage par renforcement (RL), sans distillation à partir de CoT discrètes de référence. Nous utilisons des tokens "mous" : des mélanges de tokens accompagnés de bruit sur l'embedding d'entrée pour permettre l'exploration en RL. La surcharge computationnelle est minimale, ce qui nous permet d'apprendre des CoT continues avec des centaines de tokens. Sur des benchmarks de raisonnement mathématique avec des modèles Llama et Qwen allant jusqu'à 8B, l'entraînement avec des CoT continues atteint des performances équivalentes à celles des CoT à tokens discrets pour le pass@1 et les dépasse pour le pass@32, montrant une plus grande diversité des CoT. Dans des comparaisons systématiques, le scénario le plus performant consiste à entraîner avec des tokens CoT continus puis à utiliser des tokens discrets pour l'inférence, ce qui signifie que les modèles "mous" peuvent être déployés de manière standard. Enfin, nous montrons que l'entraînement RL avec des CoT continues préserve mieux les prédictions du modèle de base sur des tâches hors domaine, offrant ainsi une approche plus douce pour le modèle de base.
Récemment, le 3D Gaussian Splatting (3DGS) est apparu comme une alternative puissante aux approches basées sur NeRF, permettant une synthèse de vues nouvelles en temps réel et de haute qualité grâce à des Gaussiennes 3D explicites et optimisables. Cependant, le 3DGS souffre d'une surcharge mémoire importante en raison de sa dépendance aux paramètres par Gaussienne pour modéliser les effets dépendants de la vue et les formes anisotropes. Bien que des travaux récents proposent de compresser le 3DGS avec des champs neuronaux, ces méthodes peinent à capturer les variations spatiales à haute fréquence des propriétés des Gaussiennes, ce qui entraîne une dégradation de la reconstruction des détails fins. Nous présentons Hybrid Radiance Fields (HyRF), une nouvelle représentation de scène qui combine les forces des Gaussiennes explicites et des champs neuronaux. HyRF décompose la scène en (1) un ensemble compact de Gaussiennes explicites stockant uniquement les paramètres critiques à haute fréquence et (2) des champs neuronaux basés sur une grille qui prédisent les propriétés restantes. Pour améliorer la capacité de représentation, nous introduisons une architecture de champ neuronal découplée, modélisant séparément la géométrie (échelle, opacité, rotation) et la couleur dépendante de la vue. De plus, nous proposons un schéma de rendu hybride qui combine le splatting de Gaussiennes avec un arrière-plan prédit par un champ neuronal, abordant ainsi les limitations dans la représentation des scènes lointaines. Les expériences démontrent que HyRF atteint une qualité de rendu de pointe tout en réduisant la taille du modèle de plus de 20 fois par rapport au 3DGS et en maintenant des performances en temps réel. Notre page de projet est disponible à l'adresse https://wzpscott.github.io/hyrf/.
Les dialectes constituent une composante significative de la culture humaine et se retrouvent dans toutes les régions du monde. En Allemagne, plus de 40 % de la population parle un dialecte régional (Adler et Hansen, 2022). Cependant, malgré leur importance culturelle, les individus parlant des dialectes font souvent face à des stéréotypes sociétaux négatifs. Nous examinons si ces stéréotypes se reflètent dans les grands modèles de langage (LLMs). Nous nous appuyons sur la littérature sociolinguistique concernant la perception des dialectes pour analyser les traits communément associés aux locuteurs de dialectes. Sur la base de ces traits, nous évaluons le biais de dénomination des dialectes et le biais d'utilisation des dialectes exprimés par les LLMs dans deux tâches : une tâche d'association et une tâche de décision. Pour évaluer le biais d'utilisation des dialectes d'un modèle, nous construisons un corpus d'évaluation inédit qui associe des phrases provenant de sept dialectes régionaux allemands (par exemple, l'alémanique et le bavarois) à leurs équivalents en allemand standard. Nous constatons que : (1) dans la tâche d'association, tous les LLMs évalués présentent un biais significatif de dénomination et d'utilisation des dialectes contre les locuteurs de dialectes allemands, reflété par des associations d'adjectifs négatifs ; (2) tous les modèles reproduisent ces biais de dénomination et d'utilisation des dialectes dans leur prise de décision ; et (3) contrairement aux travaux antérieurs montrant un biais minimal avec des mentions démographiques explicites, nous constatons que l'étiquetage explicite des caractéristiques démographiques linguistiques—les locuteurs de dialectes allemands—amplifie le biais davantage que des indices implicites comme l'utilisation des dialectes.
La modélisation générative conditionnelle vise à apprendre une distribution de données conditionnelle à partir d'échantillons contenant des paires données-conditions. Pour cela, les méthodes basées sur la diffusion et les flux ont obtenu des résultats convaincants. Ces méthodes utilisent un modèle de flux appris pour transporter un bruit gaussien standard initial, qui ignore la condition, vers la distribution de données conditionnelle. Le modèle doit donc apprendre à la fois le transport de masse et l'injection conditionnelle. Pour réduire la charge imposée au modèle, nous proposons la Reparamétrisation Conditionnelle pour l'Appariement de Flux (CAR-Flow) -- un décalage léger et appris qui conditionne la source, la cible, ou les deux distributions. En repositionnant ces distributions, CAR-Flow raccourcit le chemin de probabilité que le modèle doit apprendre, conduisant à un entraînement plus rapide en pratique. Sur des données synthétiques de faible dimension, nous visualisons et quantifions les effets de CAR. Sur des données d'images naturelles de plus haute dimension (ImageNet-256), l'équipement de SiT-XL/2 avec CAR-Flow réduit le FID de 2,07 à 1,68, tout en introduisant moins de 0,6 % de paramètres supplémentaires.
La rareté des données reste l'un des facteurs les plus limitants pour faire progresser la robotique. Cependant, la quantité de données robotiques disponibles dans le monde réel croît de manière exponentielle, ouvrant de nouvelles opportunités pour l'utilisation de données à grande échelle. Une prédiction fiable de l'achèvement temporel des tâches pourrait aider à annoter et à organiser automatiquement ces données à grande échelle. L'approche Generative Value Learning (GVL) a récemment été proposée, exploitant les connaissances intégrées dans les modèles vision-langage (VLMs) pour prédire l'avancement des tâches à partir d'observations visuelles. En nous appuyant sur GVL, nous proposons OpenGVL, un benchmark complet pour estimer l'avancement des tâches dans divers défis de manipulation impliquant à la fois des robots et des incarnations humaines. Nous évaluons les capacités des modèles de base open-source disponibles publiquement, montrant que les familles de modèles open-source sont nettement moins performantes que leurs homologues propriétaires, atteignant seulement environ 70 % de leurs performances sur les tâches de prédiction de progression temporelle. De plus, nous démontrons comment OpenGVL peut servir d'outil pratique pour la curation et le filtrage automatisés des données, permettant une évaluation efficace de la qualité des ensembles de données robotiques à grande échelle. Nous publions le benchmark ainsi que l'intégralité du code sur github.com/budzianowski/opengvl{OpenGVL}.
Les récentes avancées dans les modèles de langage multimodaux (MLLMs) ont considérablement amélioré les capacités de compréhension vidéo, ouvrant de nouvelles possibilités pour des applications pratiques. Cependant, les benchmarks vidéo actuels se concentrent principalement sur des scènes intérieures ou des activités extérieures de courte durée, laissant largement inexplorés les défis associés aux voyages longue distance. La maîtrise des trajectoires géospatiales-temporelles étendues est cruciale pour les MLLMs de nouvelle génération, soutenant des tâches du monde réel telles que la planification et la navigation pour l'IA incarnée. Pour combler cette lacune, nous présentons VIR-Bench, un nouveau benchmark composé de 200 vidéos de voyage qui cadre la reconstruction d'itinéraire comme une tâche complexe conçue pour évaluer et faire progresser l'intelligence géospatiale-temporelle des MLLMs. Les résultats expérimentaux révèlent que les MLLMs de pointe, y compris les modèles propriétaires, peinent à obtenir des scores élevés, soulignant la difficulté de traiter des vidéos couvrant des échelles spatiales et temporelles étendues. De plus, nous menons une étude de cas approfondie dans laquelle nous développons un prototype d'agent de planification de voyage qui exploite les insights tirés de VIR-Bench. Les recommandations d'itinéraire nettement améliorées de l'agent vérifient que notre protocole d'évaluation non seulement benchmarke efficacement les modèles, mais se traduit également par des gains de performance concrets dans les applications orientées utilisateur.
La reconstruction de surfaces précises à l'aide de champs de radiance a connu des progrès remarquables ces dernières années. Cependant, les approches dominantes, principalement basées sur le lissage gaussien, sont de plus en plus limitées par des goulots d'étranglement liés à la représentation. Dans cet article, nous présentons GeoSVR, un framework explicite basé sur des voxels qui explore et étend le potentiel sous-exploité des voxels clairsemés pour atteindre une reconstruction de surface précise, détaillée et complète. Parmi leurs atouts, les voxels clairsemés permettent de préserver l'exhaustivité de la couverture et la clarté géométrique, tout en présentant des défis liés à l'absence de contraintes de scène et à la localité dans le raffinement des surfaces. Pour garantir une convergence correcte de la scène, nous proposons d'abord une Contrainte de Profondeur à Incertitude Voxel qui maximise l'effet des indices de profondeur monoculaires tout en introduisant une incertitude orientée voxel pour éviter la dégradation de la qualité, permettant ainsi des contraintes de scène efficaces et robustes tout en préservant des géométries très précises. Par la suite, une Régularisation de Surface par Voxels Clairsemés est conçue pour améliorer la cohérence géométrique des petits voxels et faciliter la formation de surfaces nettes et précises basées sur les voxels. Des expériences approfondies démontrent notre performance supérieure par rapport aux méthodes existantes dans divers scénarios difficiles, excellant en précision géométrique, préservation des détails et exhaustivité de la reconstruction, tout en maintenant une efficacité élevée. Le code est disponible à l'adresse suivante : https://github.com/Fictionarry/GeoSVR.
Les systèmes de traduction simultanée parole-texte (SimulST) doivent équilibrer la qualité de traduction avec la latence—le délai entre l'entrée vocale et la sortie traduite. Alors que l'évaluation de la qualité est bien établie, la mesure précise de la latence reste un défi. Les métriques existantes produisent souvent des résultats incohérents ou trompeurs, en particulier dans le cadre largement utilisé du format court, où la parole est artificiellement présegmentée. Dans cet article, nous présentons la première analyse exhaustive des métriques de latence SimulST à travers les paires de langues, les systèmes, et les régimes de format court et long. Nous révélons un biais structurel dans les métriques actuelles lié à la segmentation, qui compromet des comparaisons équitables et significatives. Pour y remédier, nous introduisons YAAL (Yet Another Average Lagging), une métrique de latence raffinée qui offre des évaluations plus précises dans le régime de format court. Nous étendons YAAL à LongYAAL pour les audios non segmentés et proposons SoftSegmenter, un nouvel outil de resegmentation basé sur l'alignement au niveau des mots. Nos expériences montrent que YAAL et LongYAAL surpassent les métriques de latence populaires, tandis que SoftSegmenter améliore la qualité de l'alignement dans l'évaluation de format long, permettant ensemble des évaluations plus fiables des systèmes SimulST.
Cet article présente CommonForms, un jeu de données à l'échelle du web pour la détection de champs de formulaire. Il aborde le problème de la détection de champs de formulaire comme un problème de détection d'objets : étant donné une image d'une page, prédire l'emplacement et le type (Champ de texte, Bouton de choix, Signature) des champs de formulaire. Le jeu de données est construit en filtrant Common Crawl pour identifier les PDF contenant des éléments remplissables. À partir de 8 millions de documents, le processus de filtrage permet d'obtenir un jeu de données final d'environ 55 000 documents, comprenant plus de 450 000 pages. L'analyse montre que le jeu de données contient un mélange diversifié de langues et de domaines ; un tiers des pages sont en langues autres que l'anglais, et parmi les 14 domaines classifiés, aucun domaine ne représente plus de 25 % du jeu de données. Par ailleurs, cet article présente une famille de détecteurs de champs de formulaire, FFDNet-Small et FFDNet-Large, qui atteignent une très haute précision moyenne sur l'ensemble de test de CommonForms. Chaque modèle a coûté moins de 500 dollars à entraîner. Les résultats d'ablation montrent que des entrées haute résolution sont cruciales pour une détection de haute qualité des champs de formulaire, et que le processus de nettoyage améliore l'efficacité des données par rapport à l'utilisation de tous les PDF contenant des champs remplissables dans Common Crawl. Une analyse qualitative montre qu'ils surpassent un lecteur PDF populaire et commercialement disponible capable de préparer des formulaires. Contrairement aux solutions commerciales les plus populaires, FFDNet peut prédire des cases à cocher en plus des champs de texte et de signature. À notre connaissance, il s'agit du premier jeu de données à grande échelle publié pour la détection de champs de formulaire, ainsi que des premiers modèles open source. Le jeu de données, les modèles et le code seront disponibles à l'adresse https://github.com/jbarrow/commonforms.
L'imagerie multi-spectrale joue un rôle crucial dans diverses applications de télédétection, notamment la classification de l'occupation des sols, la surveillance environnementale et l'urbanisme. Ces images sont largement adoptées car leurs bandes spectrales supplémentaires sont fortement corrélées avec les matériaux physiques au sol, tels que la glace, l'eau et la végétation. Cela permet une identification plus précise, et leur disponibilité publique grâce à des missions comme Sentinel-2 et Landsat ne fait qu'ajouter à leur valeur. Actuellement, l'analyse automatique de ces données est principalement gérée par des modèles d'apprentissage automatique spécifiquement entraînés pour des entrées multi-spectrales, dont l'entraînement et le support sont coûteux. De plus, bien qu'elles offrent une grande utilité pour la télédétection, ces entrées supplémentaires ne peuvent pas être utilisées avec des modèles multimodaux généralistes puissants, capables de résoudre de nombreux problèmes visuels, mais incapables de comprendre les signaux multi-spectraux spécialisés. Pour remédier à cela, nous proposons une approche sans entraînement qui introduit de nouvelles données multi-spectrales en mode Zero-Shot uniquement, comme entrées pour des modèles multimodaux généralistes, entraînés sur des entrées RGB uniquement. Notre approche exploite la compréhension de l'espace visuel par les modèles multimodaux, et propose de s'adapter à ces entrées dans cet espace, et d'injecter des informations spécifiques au domaine sous forme d'instructions dans le modèle. Nous illustrons cette idée avec le modèle Gemini2.5 et observons des gains significatifs de performance en Zero-Shot sur des benchmarks populaires de télédétection pour la classification de l'occupation et de l'utilisation des sols, démontrant ainsi la facilité d'adaptation de Gemini2.5 à de nouvelles entrées. Ces résultats mettent en évidence le potentiel pour les professionnels de la géospatiale, travaillant avec des entrées spécialisées non standard, de tirer facilement parti de modèles multimodaux puissants, comme Gemini2.5, pour accélérer leur travail, en bénéficiant de leurs riches capacités de raisonnement et contextuelles, ancrées dans les données de capteurs spécialisées.
Les politiques de manipulation robotique échouent souvent à généraliser car elles doivent simultanément apprendre où se concentrer, quelles actions entreprendre et comment les exécuter. Nous soutenons que le raisonnement de haut niveau sur le "où" et le "quoi" peut être délégué à des modèles vision-langage (VLMs), permettant aux politiques de se spécialiser dans le "comment" agir. Nous présentons PEEK (Policy-agnostic Extraction of Essential Keypoints), qui affine les VLMs pour prédire une représentation intermédiaire unifiée basée sur des points : 1. des trajectoires d'effecteur final spécifiant les actions à entreprendre, et 2. des masques pertinents à la tâche indiquant où se concentrer. Ces annotations sont directement superposées aux observations du robot, rendant la représentation indépendante de la politique et transférable entre architectures. Pour permettre un entraînement scalable, nous introduisons un pipeline d'annotation automatique, générant des données étiquetées à partir de plus de 20 ensembles de données robotiques couvrant 9 configurations. Dans des évaluations en conditions réelles, PEEK améliore systématiquement la généralisation zero-shot, incluant une amélioration de 41,4x en conditions réelles pour une politique 3D entraînée uniquement en simulation, et des gains de 2 à 3,5x pour les grands VLAs ainsi que pour les petites politiques de manipulation. En permettant aux VLMs d'absorber la complexité sémantique et visuelle, PEEK équipe les politiques de manipulation des indices minimaux dont elles ont besoin—où, quoi et comment. Site web à l'adresse https://peek-robot.github.io/.
Nous présentons RadEval, un cadre unifié et open-source pour l'évaluation des textes radiologiques. RadEval regroupe une diversité de métriques, allant des mesures classiques de chevauchement n-gram (BLEU, ROUGE) et des mesures contextuelles (BERTScore) aux scores basés sur des concepts cliniques (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) et aux évaluateurs avancés basés sur des modèles de langage de grande taille (GREEN). Nous affinons et standardisons les implémentations, étendons GREEN pour prendre en charge plusieurs modalités d'imagerie avec un modèle plus léger, et pré-entraînons un encodeur spécifique au domaine radiologique, démontrant de solides performances en récupération zero-shot. Nous publions également un ensemble de données expertes richement annoté avec plus de 450 labels d'erreurs cliniquement significatives, et montrons comment différentes métriques corrèlent avec le jugement des radiologues. Enfin, RadEval fournit des outils de tests statistiques et des évaluations de modèles de référence sur plusieurs ensembles de données publiquement disponibles, facilitant ainsi la reproductibilité et l'établissement de benchmarks robustes dans la génération de rapports radiologiques.
Nous présentons DRISHTIKON, un benchmark multimodal et multilingue inédit, centré exclusivement sur la culture indienne, conçu pour évaluer la compréhension culturelle des systèmes d’intelligence artificielle générative. Contrairement aux benchmarks existants de portée générique ou mondiale, DRISHTIKON offre une couverture approfondie et granulaire des diverses régions de l’Inde, couvrant 15 langues, tous les États et territoires de l’Union, et intégrant plus de 64 000 paires texte-image alignées. Le jeu de données capture des thèmes culturels riches, incluant les festivals, les vêtements, les cuisines, les formes d’art et le patrimoine historique, parmi bien d’autres. Nous évaluons un large éventail de modèles vision-langage (VLMs), incluant des modèles open-source petits et grands, des systèmes propriétaires, des VLMs spécialisés dans le raisonnement et des modèles axés sur les langues indiennes, dans des contextes zero-shot et de chaîne de pensée. Nos résultats révèlent des limitations clés dans la capacité des modèles actuels à raisonner sur des entrées multimodales ancrées culturellement, en particulier pour les langues à ressources limitées et les traditions moins documentées. DRISHTIKON comble une lacune cruciale dans la recherche en IA inclusive, offrant un banc d’essai robuste pour faire progresser les technologies linguistiques culturellement conscientes et compétentes sur le plan multimodal.