Articles de recherche IA sélectionnés quotidiennement avec traductions
L'Image Chain-of-Thought (Image-CoT) est un paradigme de mise à l'échelle au moment du test qui améliore la génération d'images en prolongeant le temps d'inférence. La plupart des méthodes Image-CoT se concentrent sur la génération texte-à-image (T2I). Contrairement à la génération T2I, l'édition d'images est orientée vers un objectif : l'espace des solutions est contraint par l'image source et l'instruction. Cette inadéquation entraîne trois défis lors de l'application de l'Image-CoT à l'édition : une allocation inefficace des ressources avec des budgets d'échantillonnage fixes, une vérification peu fiable en phase précoce utilisant des scores MLLM généraux, et des résultats édités redondants dus à un échantillonnage à grande échelle. Pour y remédier, nous proposons ADaptive Edit-CoT (ADE-CoT), un cadre de mise à l'échelle au moment du test à la demande pour améliorer l'efficacité et les performances de l'édition. Il intègre trois stratégies clés : (1) une allocation de ressources sensible à la difficulté qui attribue des budgets dynamiques basés sur la difficulté d'édition estimée ; (2) une vérification spécifique à l'édition dans l'élagage précoce qui utilise la localisation de région et la cohérence de légende pour sélectionner des candidats prometteurs ; et (3) un arrêt opportun en profondeur d'abord, guidé par un vérificateur spécifique à l'instance, qui s'interrompt lorsque des résultats alignés avec l'intention sont trouvés. Des expériences approfondies sur trois modèles d'édition state-of-the-art (Step1X-Edit, BAGEL, FLUX.1 Kontext) et trois benchmarks montrent qu'ADE-CoT atteint des compromis performance-efficacité supérieurs. Avec des budgets d'échantillonnage comparables, ADE-CoT obtient de meilleures performances avec une accélération de plus de 2x par rapport à la méthode Best-of-N.
OmniLottie est un cadre polyvalent qui génère des animations vectorielles de haute qualité à partir d'instructions multimodales. Pour un contrôle flexible du mouvement et du contenu visuel, nous nous concentrons sur Lottie, un format JSON léger permettant de représenter à la fois les formes et les comportements d'animation. Cependant, les fichiers JSON Lottie bruts contiennent de nombreuses métadonnées structurelles invariantes et des jetons de formatage, ce qui pose des défis significatifs pour l'apprentissage de la génération d'animations vectorielles. Par conséquent, nous introduisons un tokeniseur Lottie bien conçu qui transforme les fichiers JSON en séquences structurées de commandes et de paramètres représentant les formes, les fonctions d'animation et les paramètres de contrôle. Ce tokeniseur nous permet de construire OmniLottie sur la base de modèles de vision et de langage pré-entraînés pour suivre des instructions entrelacées multimodales et générer des animations vectorielles de haute qualité. Pour faire progresser la recherche en génération d'animations vectorielles, nous constituons MMLottie-2M, un jeu de données à grande échelle d'animations vectorielles conçues professionnellement, accompagnées d'annotations textuelles et visuelles. Grâce à des expériences approfondies, nous validons qu'OmniLottie peut produire des animations vectorielles vives et sémantiquement alignées qui adhèrent étroitement aux instructions humaines multimodales.
Les agents d'ingénierie logicielle (SWE) progressent rapidement, les gains récents étant largement portés par l'apprentissage par renforcement (RL). Cependant, la formation par RL est limitée par la rareté de collections de tâches à grande échelle dotées d'environnements d'exécution reproductibles et de suites de tests fiables. Bien qu'un nombre croissant de benchmarks ait émergé, les ensembles de données adaptés à l'entraînement restent limités en taille et en diversité, ou ciblent souvent un ensemble restreint d'écosystèmes de langages à ressources abondantes. Nous présentons SWE-rebench V2, un pipeline automatisé indépendant du langage pour collecter des tâches SWE exécutables issues du monde réel et construire des environnements d'entraînement RL à grande échelle. Le pipeline synthétise les procédures d'installation et de test spécifiques aux dépôts via un agent de configuration interactif, et filtre les instances non valides à l'aide d'un ensemble de juges LLM, validés par rapport aux annotations SWE-bench vérifiées par des humains. En utilisant ce pipeline, nous constituons un ensemble de plus de 32 000 tâches couvrant 20 langages et plus de 3 600 dépôts, avec des images préconstruites pour une exécution reproductible. Pour augmenter encore les données d'entraînement, nous publions également plus de 120 000 tâches avec des instructions d'installation, des tests de type "échec-à-réussite" et des métadonnées riches, où l'énoncé du problème est généré à partir de la description originale de la demande de tirage (pull request). Nous validons les instances collectées via une étude diagnostique couvrant un sous-ensemble de tâches dans cinq langages de programmation et testée sur sept modèles populaires, et fournissons des métadonnées au niveau de l'instance qui signalent des facteurs confusionnels courants tels que des tests excessivement restrictifs et des descriptions sous-spécifiées. Nous publions les ensembles de données, le code de collecte et d'exécution, ainsi que les artefacts associés pour permettre l'entraînement à grande échelle d'agents SWE sur divers langages et dépôts.
Alors que l'alignement des Grands Modèles de Langage (LLM) évolue de simples complétions vers une génération complexe et hautement sophistiquée, les Modèles de Récompense s'orientent de plus en plus vers une évaluation guidée par des grilles critériées pour atténuer les biais de surface. Cependant, la communauté manque d'un benchmark unifié pour évaluer ce paradigme d'évaluation, car les benchmarks existants ne possèdent ni la complexité discriminative ni les annotations de grilles de référence nécessaires à une analyse rigoureuse. Pour combler cette lacune, nous présentons RubricBench, un benchmark organisé comprenant 1 147 comparaisons par paires, spécifiquement conçu pour évaluer la fiabilité de l'évaluation basée sur des grilles critériées. Notre processus de construction utilise un pipeline de filtration multidimensionnelle pour cibler des échantillons difficiles, présentant une complexité d'entrée nuancée et un biais de surface trompeur, en les enrichissant de grilles critériées atomiques, annotées par des experts et strictement dérivées des instructions. Des expériences approfondies révèlent un écart substantiel de capacité entre les grilles annotées par des humains et celles générées par des modèles, indiquant que même les modèles les plus avancés peinent à spécifier de manière autonome des critères d'évaluation valides, accusant un retard considérable par rapport aux performances guidées par l'humain.
OpenAutoNLU est une bibliothèque open-source d'apprentissage automatique automatisé pour les tâches de compréhension du langage naturel (NLU), couvrant à la fois la classification de texte et la reconnaissance d'entités nommées (NER). Contrairement aux solutions existantes, nous introduisons une sélection de régime d'entraînement adaptée aux données qui ne nécessite aucune configuration manuelle de l'utilisateur. La bibliothèque propose également des diagnostics intégrés de qualité des données, une détection configurable des données hors distribution (OOD) et des fonctionnalités de grands modèles de langage (LLM), le tout au sein d'une API lowcode minimale. L'application de démonstration est accessible ici https://openautonlu.dev.
Les progrès récents dans les capacités de raisonnement des modèles de langage multimodaux (MLLM) leur ont permis de s'attaquer à des tâches plus complexes telles que l'analyse scientifique et le raisonnement mathématique. Malgré leur potentiel, les capacités de raisonnement des MLLM dans différents scénarios de la vie réelle restent largement inexplorées et manquent de benchmarks standardisés pour leur évaluation. Pour combler cette lacune, nous présentons MMR-Life, un benchmark complet conçu pour évaluer les diverses capacités de raisonnement multimodal multi-images des MLLM dans des scénarios de la vie réelle. MMR-Life se compose de 2 646 questions à choix multiples basées sur 19 108 images principalement issues de contextes réels, couvrant de manière exhaustive sept types de raisonnement : abductif, analogique, causal, déductif, inductif, spatial et temporel. Contrairement aux benchmarks de raisonnement existants, MMR-Life ne repose pas sur une expertise spécifique à un domaine, mais exige plutôt que les modèles intègrent des informations provenant de multiples images et appliquent des capacités de raisonnement diverses. L'évaluation de 37 modèles avancés met en évidence le défi substantiel posé par MMR-Life. Même les meilleurs modèles comme GPT-5 n'atteignent qu'une précision de 58 % et présentent des variances considérables de performance selon les types de raisonnement. De plus, nous analysons les paradigmes de raisonnement des MLLM existants, en explorant comment des facteurs tels que la longueur de la réflexion, la méthode de raisonnement et le type de raisonnement affectent leurs performances. En résumé, MMR-Life établit une base complète pour évaluer, analyser et améliorer la prochaine génération de systèmes de raisonnement multimodal.
Les grands modèles de langage (LLM) ont récemment démontré des capacités de raisonnement remarquables, principalement grâce à un post-entraînement par fine-tuning supervisé (SFT) et apprentissage par renforcement (RL) sur des données de raisonnement de haute qualité. Cependant, la reproduction et l'extension de ces capacités dans des contextes ouverts et évolutifs se heurtent à trois défis fondamentaux liés aux données : (1) le problème de l'amorçage, découlant de l'absence de jeux de données initiaux contenant des trajectoires détaillées et longues de raisonnement en chaîne de pensées (CoT) nécessaires pour initialiser les politiques de raisonnement ; (2) la couverture domainale limitée, la plupart des jeux de données de raisonnement open-source existants étant concentrés sur les mathématiques, avec une couverture restreinte des disciplines scientifiques plus vastes ; et (3) le goulot d'étranglement de l'annotation, où la difficulté des tâches de raisonnement de niveau avancé rend l'annotation humaine fiable excessivement coûteuse ou irréalisable. Pour relever ces défis, nous présentons CHIMERA, un jeu de données synthétique compact pour le raisonnement, comprenant 9 000 échantillons pour un raisonnement généralisable cross-domaine. CHIMERA est construit autour de trois propriétés clés : (1) il fournit des trajectoires de raisonnement CoT riches et longues, synthétisées par des modèles de raisonnement de pointe ; (2) il offre une couverture large et structurée, couvrant 8 disciplines scientifiques majeures et plus de 1 000 sujets granulaires organisés via une taxinomie hiérarchique générée par modèle ; et (3) il utilise un pipeline d'évaluation entièrement automatisé et évolutif qui emploie des modèles de raisonnement robustes pour valider croisée à la fois la validité des problèmes et l'exactitude des réponses. Nous utilisons CHIMERA pour effectuer un post-entraînement d'un modèle Qwen3 de 4B. Malgré la taille modeste du jeu de données, le modèle résultant obtient de solides performances sur une suite de benchmarks de raisonnement exigeants, incluant GPQA-Diamond, AIME 24/25/26, HMMT 25 et Humanity's Last Exam, approchant ou égalant les performances de raisonnement de modèles substantiellement plus grands tels que DeepSeek-R1 et Qwen3-235B.
Les détecteurs 3D multi-vues actuels pour intérieurs reposent sur une géométrie des capteurs coûteuse à obtenir (c'est-à-dire des poses de caméras multi-vues précisément calibrées) pour fusionner les informations multi-vues dans une représentation globale de la scène, limitant ainsi leur déploiement dans des scènes réelles. Nous visons un cadre plus pratique : la détection 3D d'objets en intérieur multi-vues sans géométrie des capteurs (SG-Free), où aucune entrée géométrique fournie par les capteurs (poses multi-vues ou profondeur) n'est disponible. Le récent Visual Geometry Grounded Transformer (VGGT) montre que des indices 3D solides peuvent être inférés directement à partir des images. En nous appuyant sur cette idée, nous présentons VGGT-Det, le premier cadre conçu pour la détection 3D d'objets en intérieur multi-vues SG-Free. Plutôt que de simplement utiliser les prédictions de VGGT, notre méthode intègre l'encodeur VGGT dans un pipeline basé sur un transformateur. Pour exploiter efficacement les connaissances préalables sémantiques et géométriques internes à VGGT, nous introduisons deux nouvelles composantes clés : (i) la Génération de Requêtes Guidée par l'Attention (AG) : exploite les cartes d'attention de VGGT comme connaissances préalables sémantiques pour initialiser les requêtes d'objets, améliorant la localisation en se concentrant sur les régions des objets tout en préservant la structure spatiale globale ; (ii) l'Agrégation de Caractéristiques Pilotée par les Requêtes (QD) : une requête d'observation (See-Query) pouvant être apprise interagit avec les requêtes d'objets pour « voir » ce dont elles ont besoin, puis agrège dynamiquement les caractéristiques géométriques multi-niveaux à travers les couches de VGGT qui transforment progressivement les caractéristiques 2D en 3D. Les expériences montrent que VGGT-Det surpasse significativement la méthode la plus performante en contexte SG-Free de 4.4 et 8.6 mAP@0.25 sur ScanNet et ARKitScènes, respectivement. Une étude par ablation montre que les connaissances préalables sémantiques et géométriques apprises en interne par VGGT peuvent être efficacement exploitées par notre AG et QD.
Le développement d'agents interactifs multi-tours utilisant des outils est un défi complexe, car les besoins réels des utilisateurs sont souvent ambigus, tandis que les agents doivent exécuter des actions déterministes pour les satisfaire. Pour combler cet écart, nous présentons CoVe (Constraint-Verification), un cadre de synthèse de données post-entraînement conçu pour former des agents interactifs tout en garantissant la complexité et l'exactitude des données. CoVe commence par définir des contraintes explicites de tâche, qui jouent un double rôle : elles guident la génération de trajectoires complexes et servent de vérificateurs déterministes pour évaluer la qualité des trajectoires. Cela permet de créer des trajectoires d'entraînement de haute qualité pour le réglage fin supervisé (SFT) et d'obtenir des signaux de récompense précis pour l'apprentissage par renforcement (RL). Notre évaluation sur le benchmark exigeant τ²-bench démontre l'efficacité du cadre. Notamment, notre modèle compact CoVe-4B atteint des taux de réussite de 43,0 % et 59,4 % respectivement dans les domaines du Transport aérien et de la Vente au détail ; ses performances globales surpassent significativement celles de modèles de référence de taille similaire et restent compétitives avec des modèles jusqu'à 17 fois plus grands. Ces résultats indiquent que CoVe offre une voie efficace et efficiente pour synthétiser des données d'entraînement pour des agents interactifs utilisant des outils à la pointe de la technologie. Pour soutenir les recherches futures, nous ouvrons notre code, notre modèle entraîné et l'ensemble complet des 12 000 trajectoires de haute qualité utilisées pour l'entraînement.
Les albums photos personnels ne sont pas de simples collections d'images statiques, mais des archives écologiques vivantes, définies par une continuité temporelle, des intrications sociales et des métadonnées riches, ce qui rend la recherche photo personnalisée non triviale. Cependant, les benchmarks de recherche existants reposent largement sur des instantanés web isolés de leur contexte, échouant à capturer le raisonnement multi-source nécessaire pour résoudre des requêtes utilisateur authentiques et guidées par l'intention. Pour combler cette lacune, nous présentons PhotoBench, le premier benchmark construit à partir d'albums personnels authentiques. Il est conçu pour faire évoluer le paradigme de la correspondance visuelle vers un raisonnement personnalisé, multi-source et guidé par l'intention. En nous appuyant sur un cadre rigoureux de profilage multi-source, qui intègre la sémantique visuelle, les métadonnées spatio-temporelles, l'identité sociale et les événements temporels pour chaque image, nous synthétisons des requêtes complexes guidées par l'intention, ancrées dans les trajectoires de vie des utilisateurs. Une évaluation approfondie sur PhotoBench révèle deux limitations critiques : l'écart de modalité, où les modèles d'embedding unifiés échouent face à des contraintes non visuelles, et le paradoxe de la fusion des sources, où les systèmes agentiels montrent une faible capacité d'orchestration d'outils. Ces résultats indiquent que la prochaine frontière dans la recherche multimodale personnelle se situe au-delà des embeddings unifiés, nécessitant des systèmes de raisonnement agentiels robustes capables d'une satisfaction précise des contraintes et d'une fusion multi-source. Notre benchmark PhotoBench est disponible.
Nous présentons LLaDA-o, un modèle de diffusion omni efficace et adaptatif en longueur pour la compréhension et la génération multimodales. LLaDA-o repose sur un cadre de Mélange de Diffusion (MoD) qui découple la diffusion discrète masquée pour la compréhension textuelle et la diffusion continue pour la génération visuelle, tout en les couplant via une architecture attentionnelle partagée, simple et efficace qui réduit le calcul redondant pour les conditions fixes. Sur la base de MoD, nous introduisons en outre une stratégie d'adaptation de longueur centrée sur les données qui permet un décodage à longueur flexible en contexte multimodal sans modifications architecturales. Des expériences approfondies montrent que LLaDA-o obtient des performances de pointe parmi les modèles de diffusion omni sur les benchmarks de compréhension et de génération multimodales, et atteint un score de 87.04 sur DPG-Bench pour la génération d'images à partir de texte, confirmant l'efficacité de la modélisation unifiée par diffusion omni. Le code est disponible à l'adresse https://github.com/ML-GSAI/LLaDA-o.
Les modèles de fondation génératifs sont de plus en plus mis à l'échelle en largeur et en profondeur, ce qui pose des défis significatifs pour l'apprentissage stable des caractéristiques et le transfert fiable des hyperparamètres (HP) entre différentes tailles de modèles. Si la paramétrisation par mise à jour maximale (μP) a fourni une solution théorique à ces deux problèmes pour la mise à l'échelle en largeur, les extensions existantes au régime de mise à l'échelle conjointe largeur-profondeur restent fragmentées, spécifiques à l'architecture et à l'optimiseur, et s'appuient souvent sur des théories techniquement complexes. Dans ce travail, nous développons un cadre spectral simple et unifié pour μP sous une mise à l'échelle conjointe largeur-profondeur. En considérant des réseaux résiduels avec des profondeurs de blocs variables, nous introduisons d'abord une condition spectrale μP qui caractérise précisément comment les normes des poids et de leurs mises à jour par étape doivent être mises à l'échelle avec la largeur et la profondeur, unifiant ainsi des formulations μP précédemment disparates comme des cas particuliers. Sur la base de cette condition, nous dérivons ensuite une recette générale pour implémenter μP sur une large classe d'optimiseurs en mappant les contraintes spectrales à des paramétrisations concrètes des HP. Cette approche permet non seulement de retrouver les formulations μP existantes (par exemple pour SGD et AdamW) mais s'étend naturellement à une gamme plus large d'optimiseurs. Enfin, des expériences sur des modèles de langage de type GPT-2 démontrent que la condition spectrale μP proposée préserve l'apprentissage stable des caractéristiques et permet un transfert robuste des HP sous mise à l'échelle largeur-profondeur.
Les progrès récents des modèles de diffusion vidéo fondamentaux (VDM) ont engendré des avancées significatives. Pourtant, malgré la qualité visuelle remarquable des vidéos générées, la reconstruction de scènes 3D cohérentes à partir de ces résultats reste un défi, en raison d'une contrôlabilité limitée de la caméra et d'un contenu généré incohérent lorsqu'il est visualisé depuis des trajectoires caméra distinctes. Dans cet article, nous proposons WorldStereo, un nouveau cadre qui relie la génération de vidéos guidée par caméra et la reconstruction 3D via deux modules de mémoire géométrique dédiés. Formellement, la mémoire globale-géométrique permet un contrôle précis de la caméra tout en injectant des prérequis structurels grossiers via des nuages de points mis à jour de manière incrémentale. De plus, la mémoire stéréo-spatiale contraint les champs réceptifs d'attention du modèle avec une correspondance 3D pour se concentrer sur les détails fins provenant de la banque de mémoire. Ces composants permettent à WorldStereo de générer des vidéos cohérentes en multivue sous un contrôle précis de la caméra, facilitant ainsi une reconstruction 3D de haute qualité. Par ailleurs, la version flexible de WorldStereo, basée sur des branches de contrôle, démontre une efficacité impressionnante, bénéficiant de l'architecture VDM distillée par appariement de distributions sans apprentissage conjoint. Des expériences approfondies sur des benchmarks de génération de vidéos guidée par caméra et de reconstruction 3D démontrent l'efficacité de notre approche. Notamment, nous montrons que WorldStereo agit comme un modèle du monde puissant, relevant diverses tâches de génération de scènes (qu'elles partent d'images perspectives ou panoramiques) avec des résultats 3D de haute fidélité. Les modèles seront publiés.
L'apprentissage par renforcement (RL) joue un rôle central dans l'amélioration des capacités de raisonnement et de l'alignement des grands modèles de langage, mais son efficacité dépend de manière cruciale de la sélection des données d'entraînement. Les stratégies de sélection en ligne existantes reposent principalement sur des heuristiques basées sur la difficulté, favorisant les points de données présentant des taux de réussite intermédiaires, équivalant implicitement la difficulté à l'informativité et négligeant l'incertitude épistémique résultant de preuves limitées. Nous présentons InSight, une méthode de sélection de données guidée par l'INformation pour l'entraînement par renforcement, fondée sur un objectif d'information mutuelle pondérée. En modélisant les résultats des données par des taux de réussite latents bayésiens, nous montrons que la réduction d'incertitude attendue se décompose en composantes complémentaires dépendantes de la difficulté et des preuves, révélant une limitation fondamentale de la sélection basée uniquement sur la difficulté. En tirant parti de cette observation, InSight construit un score d'acquisition stable basé sur la croyance moyenne du succès des points de données plutôt que sur des résultats échantillonnés bruités, et s'étend naturellement aux configurations multi-évaluations courantes dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Des expériences approfondies démontrent qu'InSight atteint constamment des performances à l'état de l'art et améliore l'efficacité de l'entraînement, notamment un gain moyen de +1,41 sur les benchmarks de Planification et Mathématiques, une amélioration de +1,01 sur le raisonnement général, et une accélération allant jusqu'à ~2,2x, avec une surcharge computationnelle supplémentaire négligeable.
L'apprentissage par renforcement (RL) pour le raisonnement mathématique peut souffrir de la parcimonie des récompenses : pour les problèmes difficiles, le LLM ne parvient pas à échantillonner de trajectoires correctes, empêchant le RL de recevoir un retour positif significatif. Parallèlement, il existe souvent des solutions de référence rédigées par des humains accompagnant le problème (par exemple, les problèmes d'AoPS), mais un fine-tuning direct sur ces solutions n'offre aucun avantage car les modèles peinent souvent à imiter les preuves humaines qui sortent de leur propre distribution de raisonnement. Nous présentons le *Reference-Guided Fine-Tuning* (ReGFT), une méthode simple et efficace qui utilise les solutions de référence humaines pour synthétiser des trajectoires positives sur des problèmes difficiles et entraîne le modèle sur celles-ci avant le RL. Pour chaque problème, nous fournissons au modèle une solution de référence partielle et le laissons générer sa propre trace de raisonnement, garantissant que les trajectoires résultantes restent dans l'espace de raisonnement du modèle tout en bénéficiant du guidage par référence. Le fine-tuning sur ces trajectoires guidées par référence augmente le nombre de problèmes résolubles et produit un point de contrôle qui reçoit davantage de récompenses positives pendant le RL. Sur trois benchmarks (AIME24, AIME25, BeyondAIME), ReGFT améliore constamment la précision en supervisé, accélère l'entraînement par DAPO et élève le plateau de performance final du RL. Nos résultats montrent que ReGFT surmonte efficacement la parcimonie des récompenses et permet un raisonnement mathématique basé sur le RL plus performant.
Les grands modèles de langage (LLM) deviennent la base d'agents autonomes capables d'utiliser des outils pour résoudre des tâches complexes. L'apprentissage par renforcement (RL) s'est imposé comme une approche courante pour doter ces agents de telles capacités, mais généralement dans des cadres d'entraînement très contrôlés. Cette méthode repose souvent sur des paires tâche-solution soigneusement construites et une supervision humaine importante, ce qui constitue un obstacle fondamental à une auto-évolution ouverte vers des systèmes superintelligents. Dans cet article, nous proposons le cadre Tool-R0 pour entraîner des agents polyvalents d'appel d'outils à partir de zéro avec un RL par auto-jeu, sous l'hypothèse de données zéro. Initialisé à partir du même LLM de base, Tool-R0 fait co-évoluer un Générateur et un Solveur avec des récompenses complémentaires : l'un propose des tâches ciblées et difficiles à la limite des compétences de l'autre, et l'autre apprend à les résoudre avec des appels d'outils réels. Cela crée un cycle d'auto-évolution qui ne nécessite aucune tâche ou jeu de données préexistant. L'évaluation sur différents benchmarks d'utilisation d'outils montre que Tool-R0 permet une amélioration relative de 92,5 % par rapport au modèle de base et surpasse les modèles de référence supervisés pour l'appel d'outils dans le même cadre. Notre travail fournit en outre des insights empiriques sur les agents LLM par auto-jeu en analysant la co-évolution, la dynamique du curriculum et le comportement à l'échelle.
L'apprentissage par renforcement (RL) est de plus en plus utilisé pour post-entraîner les modèles vision-langage (VLM) médicaux, mais il reste incertain de savoir si le RL améliore réellement le raisonnement visuel médical ou s'il affine principalement des comportements déjà induits par le fine-tuning supervisé (SFT). Nous présentons une étude contrôlée qui dissocie ces effets selon trois axes : la vision, le SFT et le RL. En utilisant MedMNIST comme banc d'essai multi-modal, nous sondons la perception visuelle en comparant les tours de vision des VLM à des modèles de référence purement visuels, nous quantifions le support du raisonnement et l'efficacité d'échantillonnage via Accuracy@1 versus Pass@K, et nous évaluons quand le RL comble l'écart de support et comment les gains se transfèrent entre les modalités. Nous constatons que le RL est plus efficace lorsque le modèle dispose déjà d'un support non négligeable (Pass@K élevé) : il affine principalement la distribution de sortie, améliorant l'Acc@1 et l'efficacité d'échantillonnage, tandis que le SFT élargit le support et rend le RL efficace. Sur la base de ces résultats, nous proposons une méthode sensible aux limites et l'instancions en post-entraînant par RL un modèle initialisé avec OctoMed sur un petit sous-ensemble équilibré de questions à choix multiples VQA de PMC, obtenant ainsi de solides performances moyennes sur six benchmarks de VQA médicale.
Nous présentons V-SONAR, un espace d'incorporation vision-langage étendu à partir de l'espace d'incorporation textuel SONAR (Omnilingual Embeddings Team et al., 2026), qui prend en charge 1500 langues textuelles et 177 langues vocales. Pour construire V-SONAR, nous proposons un pipeline d'alignement post-hoc qui projette les représentations d'un encodeur visuel existant dans l'espace SONAR. Nous évaluons minutieusement V-SONAR et montrons que ses incorporations atteignent des performances compétitives en matière de recherche texte-vidéo. Équipé du décodeur textuel OMNISONAR, V-SONAR surpasse en outre les modèles état de l'art vision-langage sur les tâches de description vidéo, notamment sur DREAM-1K (BLEU 23,9 contre 19,6) et PE-VIDEO (BLEU 39,0 contre 30,0). En tirant parti de V-SONAR, nous démontrons d'abord que le *Large Concept Model* (LCM ; LCM team et al. 2024), qui opère dans SONAR et n'a été entraîné qu'avec du texte anglais, peut réaliser une compréhension de concepts visuels uniques et multiples de manière *zero-shot*. Enfin, nous présentons V-LCM, qui étend le LCM par un réglage par instruction vision-langage. V-LCM encode les entrées visuelles et textuelles en une séquence unifiée d'incorporations latentes via V-SONAR et SONAR, et est entraîné avec le même objectif de diffusion latente pour la prédiction de l'incorporation suivante que lors de l'entraînement préalable uniquement textuel du LCM. Des expériences sur un mélange de données massif et multilingue de réglage par instruction multimodal mettent en lumière le potentiel de V-LCM : V-LCM égale les modèles vision-langage état de l'art sur des tâches couvrant la description d'images/vidéos et le question-réponse, tout en les surpassant significativement dans 61 langues, des plus riches aux plus pauvres en ressources, sur les 62 langues testées au total.
Lorsqu'une description textuelle est étendue avec un détail supplémentaire, la similarité image-texte devrait diminuer si ce détail est incorrect. Nous montrons que les encodeurs doubles de type CLIP violent souvent cette intuition : ajouter un objet ou une relation plausible mais incorrecte à une description par ailleurs correcte peut augmenter le score de similarité. Nous appelons ces cas des demi-vérités. Sur COCO, CLIP ne préfère la description courte correcte que 40,6 % du temps, et cette performance chute à 32,9 % lorsque le détail ajouté est une relation. Nous attribuons cette vulnérabilité à une supervision faible des parties de légende : l'apprentissage contrastif aligne des phrases complètes mais n'impose pas explicitement que les entités et relations individuelles soient ancrées. Nous proposons CS-CLIP (CLIP à Supervision par Composants), qui décompose les légendes en unités d'entités et de relations, construit un leurre minimalement modifié pour chaque unité, et affine le modèle pour qu'il évalue l'unité correcte au-dessus de son leurre tout en préservant l'inférence standard des encodeurs doubles. CS-CLIP augmente la précision sur les demi-vérités à 69,3 % et améliore les performances moyennes sur des benchmarks compositionnels établis de 5,7 points, suggérant que réduire les erreurs de demi-vérités s'aligne sur des gains plus larges dans la compréhension compositionnelle. Le code est disponible publiquement à : https://github.com/kargibora/CS-CLIP
Les agents de LLM peuvent-ils explorer des bases de code et raisonner sur la sémantique du code sans l'exécuter ? Nous étudions cette capacité, que nous appelons le raisonnement agentique sur le code, et introduisons le raisonnement semi-formel : une méthodologie de prompting structuré qui oblige les agents à construire des prémisses explicites, tracer des chemins d'exécution et dériver des conclusions formelles. Contrairement au chain-of-thought non structuré, le raisonnement semi-formel agit comme un certificat : l'agent ne peut pas ignorer des cas ou faire des affirmations non étayées. Nous évaluons cette approche sur trois tâches (vérification d'équivalence de correctifs, localisation de fautes et réponse à des questions sur le code) et montrons que le raisonnement semi-formel améliore constamment la précision sur toutes ces tâches. Pour l'équivalence de correctifs, la précision passe de 78% à 88% sur des exemples curés et atteint 93% sur des correctifs générés par des agents en conditions réelles, approchant la fiabilité nécessaire pour des signaux de récompense RL sans exécution. Pour les réponses aux questions sur le code sur RubberDuckBench Mohammad et al. (2026), le raisonnement semi-formel atteint une précision de 87%. Pour la localisation de fautes sur Defects4J Just et al. (2014), le raisonnement semi-formel améliore la précision Top-5 de 5 points de pourcentage par rapport au raisonnement standard. Ces résultats démontrent que le raisonnement agentique structuré permet une analyse sémantique significative du code sans exécution, ouvrant des applications pratiques dans les pipelines d'entraînement RL, la revue de code et l'analyse statique de programmes.
Les raisonneurs de type « Penser-Répondre » tels que DeepSeek-R1 ont réalisé des progrès notables en exploitant un raisonnement interne interprétable. Cependant, malgré la présence fréquente d'indices d'auto-réflexion comme « Oups ! », ils restent vulnérables aux erreurs de sortie lors d'une inférence en une seule passe. Pour remédier à cette limitation, nous proposons un processus récursif de pensée-réponse (R-TAP) efficace qui permet aux modèles de s'engager dans des cycles de raisonnement itératifs et de générer des réponses plus précises, dépassant ainsi les approches conventionnelles en une seule passe. Au cœur de cette approche se trouve un générateur de confiance qui évalue la certitude des réponses du modèle et guide les améliorations ultérieures. En incorporant deux récompenses complémentaires – la récompense d'augmentation récursive de la confiance et la récompense de confiance dans la réponse finale – nous montrons que les modèles améliorés par R-TAP surpassent constamment les méthodes conventionnelles en une seule passe, tant pour les grands modèles de langage (LLM) que pour les modèles vision-langage (VLM). De plus, en analysant la fréquence des expressions de type « Oups » dans les réponses des modèles, nous constatons que les modèles auxquels R-TAP est appliqué présentent significativement moins de schémas d'auto-réflexion, ce qui se traduit par un raisonnement en temps d'inférence plus stable et plus rapide. Nous espérons que R-TAP ouvrira la voie à l'évolution de méthodes efficaces et élaborées pour affiner les processus de raisonnement des futures IA.
Le guidage de l'attention est une technique importante pour contrôler le focus des modèles, permettant des capacités telles que la mise en évidence d'instructions, où le modèle priorise le texte spécifié par l'utilisateur. Cependant, les méthodes existantes de guidage de l'attention nécessitent un stockage explicite de la matrice d'attention complète, les rendant incompatibles avec les implémentations optimisées en mémoire comme FlashAttention. Nous présentons l'Amplification Spectrale des Clés par Édition (SEKA), une méthode de guidage sans entraînement qui résout ce problème en modifiant directement les embeddings de clés avant le calcul de l'attention. SEKA utilise la décomposition spectrale pour orienter les embeddings de clés vers des directions latentes qui amplifient les scores d'attention pour certains tokens. Nous étendons cela à SEKA Adaptatif (AdaSEKA), une variante adaptative aux requêtes qui utilise un mécanisme de routage sans entraînement pour combiner dynamiquement plusieurs sous-espaces experts en fonction de l'intention sémantique de l'instruction. Nos expériences montrent que les deux méthodes surpassent significativement les bases de référence solides sur les benchmarks standards de guidage tout en ajoutant une latence et une surcharge mémoire bien inférieures, et en étant compatibles avec l'attention optimisée.
Nous présentons Legal RAG Bench, un benchmark et une méthodologie d'évaluation pour mesurer la performance de bout en bout des systèmes RAG juridiques. En tant que benchmark, Legal RAG Bench se compose de 4 876 passages issus du Victorian Criminal Charge Book, accompagnés de 100 questions complexes et élaborées manuellement, qui exigent une connaissance experte du droit pénal et de la procédure. Des réponses détaillées et les passages de référence sont fournis. En tant que méthodologie d'évaluation, Legal RAG Bench s'appuie sur un plan factoriel complet et un nouveau cadre de décomposition hiérarchique des erreurs, permettant des comparaisons équitables des contributions des modèles de recherche et de raisonnement dans les systèmes RAG. Nous évaluons trois modèles de plongement lexicaux de pointe (Kanon 2 Embedder d'Isaacus, Gemini Embedding 001 de Google et Text Embedding 3 Large d'OpenAI) et deux LLM frontaliers (Gemini 3.1 Pro et GPT-5.2), constatant que la recherche d'information est le principal facteur de performance des systèmes RAG juridiques, les LLM ayant un effet plus modéré sur l'exactitude et l'enracinement. Kanon 2 Embedder, en particulier, a eu l'impact positif le plus important sur les performances, améliorant l'exactitude moyenne de 17,5 points, l'enracinement de 4,5 points et la précision de la recherche de 34 points. Nous observons que de nombreuses erreurs attribuées à des hallucinations dans les systèmes RAG juridiques sont en réalité déclenchées par des échecs de recherche, concluant que la recherche fixe le plafond de performance de nombreux systèmes RAG juridiques modernes. Nous documentons les raisons et la méthode de construction de Legal RAG Bench ainsi que les résultats de nos évaluations. Nous publions également ouvertement notre code et nos données pour faciliter la reproduction de nos résultats.
La création d'environnements numériques interactifs pour le jeu vidéo, la robotique et la simulation repose sur des objets 3D articulés dont la fonctionnalité émerge de leur géométrie de pièces et de leur structure cinématique. Cependant, les approches existantes restent fondamentalement limitées : les méthodes de reconstruction par optimisation nécessitent un ajustement lent et spécifique à chaque articulation, et ne traitent généralement que des objets simples à articulation unique, tandis que les méthodes par assemblage sélectionnent des pièces dans une bibliothèque fixe, conduisant à une géométrie répétitive et à une faible généralisation. Pour relever ces défis, nous présentons ArtLLM, un nouveau cadre de génération d'actifs articulés de haute qualité directement à partir de maillages 3D complets. Son cœur repose sur un grand modèle linguistique multimodal 3D entraîné sur un vaste jeu de données d'articulation, constitué à la fois de jeux de données existants et d'objets générés de manière procédurale. Contrairement aux travaux antérieurs, ArtLLM prédit de manière autorégressive un nombre variable de pièces et d'articulations, en inférant leur structure cinématique de manière unifiée à partir du nuage de points de l'objet. Cette disposition sensible à l'articulation conditionne ensuite un modèle génératif 3D pour synthétiser des géométries de pièces à haute fidélité. Les expériences sur le jeu de données PartNet-Mobility montrent qu'ArtLLM surpasse significativement les méthodes de l'état de l'art en précision de disposition des pièces et en prédiction des articulations, tout en généralisant robustement aux objets du monde réel. Enfin, nous démontrons son utilité dans la construction de jumeaux numériques, mettant en lumière son potentiel pour l'apprentissage robotique scalable.
Les grands modèles de langage (LLM) ont fondamentalement transformé le retrieval dense, faisant évoluer les architectures de base des encodeurs discriminatifs vers des architectures génératives. Cependant, une déconnexion critique persiste : bien que les LLM possèdent de solides capacités de raisonnement, les systèmes de retrieval actuels les utilisent principalement comme des encodeurs statiques, laissant leur potentiel pour le raisonnement complexe inexploité. Pour y remédier, les approches existantes adoptent généralement des pipelines de réécriture puis retrieval pour générer des rationales de type chaîne de pensée (CoT) explicites avant le retrieval. Cependant, cela entraîne une latence prohibitive. Dans cet article, nous proposons LaSER, un nouveau cadre d'auto-distillation qui internalise le raisonnement explicite dans l'espace latent des retrieveurs denses. Fonctionnant sur une architecture LLM partagée, LaSER introduit un mécanisme d'entraînement à double vue : une vue Explicite qui encode explicitement les chemins de raisonnement de référence, et une vue Latente qui effectue une pensée latente implicite. Pour combler le fossé entre ces vues, nous concevons une stratégie d'alignement multi-échelle. Au-delà de l'alignement standard des sorties, nous introduisons un mécanisme d'alignement des trajectoires qui synchronise les états latents intermédiaires du chemin latent avec la progression sémantique des segments de raisonnement explicites. Cela permet au retriever de « penser » silencieusement et efficacement sans génération de texte auto-régressive. Des expériences approfondies sur des benchmarks de raisonnement intensif, en domaine connu et hors domaine, démontrent que LaSER surpasse significativement les meilleures méthodes de référence. De plus, des analyses sur diverses architectures et tailles de modèles valident la robustesse de notre approche, confirmant que notre cadre d'apprentissage unifié est essentiel pour susciter une pensée latente efficace. Notre méthode combine avec succès la profondeur de raisonnement des pipelines CoT explicites avec l'efficacité d'inférence des retrieveurs denses standard.
L'apprentissage par renforcement en phase de test (TTRL) est apparu comme un paradigme prometteur pour l'auto-évolution des grands modèles de raisonnement (LRM), permettant une adaptation en ligne sur des entrées de test non étiquetées via des récompenses auto-induites par vote majoritaire. Cependant, un consensus non vérifié, bien que sporadique et à haute fréquence, peut devenir un signal de récompense biaisé et renforcé, conduisant à un effondrement modal incorrect. Nous abordons ce mode de défaillance avec T^3RL (Vérification par Outil pour l'Apprentissage par Renforcement en Phase de Test), qui introduit une vérification par outil en phase de test dans l'estimation de la récompense. Concrètement, un vérificateur utilise un outil externe comme preuve (par exemple, via l'exécution de code) pour pondérer davantage les rollouts vérifiés dans un vote tenant compte de la vérification, produisant ainsi des pseudo-labels plus fiables pour l'entraînement. Sur diverses difficultés mathématiques (MATH-500, AMC et AIME 2024) et différents types de modèles de base, T^3RL améliore significativement les performances par rapport au TTRL, avec des gains plus importants sur les problèmes plus difficiles. Plus largement, T^3RL peut être considéré comme une synthèse de données en ligne vérifiée, mettant en lumière la vérification par outil en phase de test comme un mécanisme clé pour stabiliser l'auto-évolution.
Training on verifiable symbolic data is a promising way to expand the reasoning frontier of language models beyond what standard pre-training corpora provide. Yet existing procedural generators often rely on fixed puzzles or templates and do not deliver the distributional breadth needed at scale. We introduce Reasoning Core, a scalable suite that procedurally generates verifiable symbolic reasoning data across core formal domains: PDDL planning over randomized domains, first-order logic with equality, context-free grammar parsing and generation, causal reasoning over random Bayesian networks, and systems of equations. Each task is paired with an external solver for rigorous verification and admits continuous difficulty control for curriculum design. Examples can optionally include solver-derived reasoning traces, enabling supervised training from the earliest pre-training stages, and the same interface provides verifiable reward functions for reinforcement learning. Our experiments show that mixing Reasoning Core data into pre-training improves downstream reasoning while preserving, or slightly improving, language modeling quality. Zero-shot evaluations confirm these tasks challenge frontier models such as GPT-5. The code and data are publicly available under the MIT license.
Ce rapport présente CharacterFlywheel, un processus itératif de type « volant d'inertie » pour l'amélioration des grands modèles de langage (LLM) déployés dans les applications de chat social de production sur Instagram, WhatsApp et Messenger. En partant de LLaMA 3.1, nous avons affiné les modèles sur 15 générations en utilisant des données issues du trafic réel des utilisateurs, à la fois interne et externe. Grâce à des déploiements continus de juillet 2024 à avril 2025, nous avons mené des tests A/B contrôlés de 7 jours montrant des améliorations constantes de l'engagement : 7 des 8 nouveaux modèles déployés ont démontré une amélioration positive par rapport à la ligne de base, les plus performants atteignant jusqu'à 8,8 % d'amélioration de l'ampleur de l'engagement et 19,4 % de sa profondeur. Nous avons également observé des gains substantiels en matière de pilotabilité, le suivi des instructions passant de 59,2 % à 84,8 % et les violations d'instructions diminuant de 26,6 % à 5,8 %. Nous détaillons le processus CharacterFlywheel qui intègre l'épuration des données, la modélisation de récompense pour estimer et interpoler le paysage des métriques d'engagement, le fine-tuning supervisé (SFT), l'apprentissage par renforcement (RL), ainsi que l'évaluation hors ligne et en ligne pour garantir des progrès fiables à chaque étape d'optimisation. Nous discutons également de nos méthodes pour prévenir le surapprentissage et naviguer les dynamiques de production à grande échelle. Ces contributions font progresser la rigueur scientifique et la compréhension des LLM dans les applications sociales qui desservent des millions d'utilisateurs.
Nous présentons (Examen Final en Classe), un benchmark multimodal pour évaluer les capacités de raisonnement des grands modèles de langage à travers plus de 20 domaines des STEM. est constitué à partir de problèmes authentiques et récurrents de devoirs universitaires et d'examens, accompagnés de solutions de référence fournies par les enseignants. représente un défi significatif, même pour les modèles les plus avancés : le nouveau Gemini-3.1-pro-preview atteint une précision globale de 59,69 %, tandis que le deuxième meilleur modèle, Gemini-3-flash-preview, atteint 55,46 %, laissant une marge d'amélioration considérable. Au-delà des résultats du classement, nous effectuons une analyse diagnostique en décomposant les solutions de référence en flux de raisonnement. Nous constatons que si les modèles de pointe peuvent souvent répondre correctement à des sous-questions intermédiaires, ils éprouvent des difficultés à dériver et à maintenir de manière fiable des états intermédiaires corrects tout au long des solutions à multiples étapes. Nous observons en outre que les solutions générées par les modèles comportent généralement plus d'étapes de raisonnement que celles fournies par l'enseignant, ce qui indique une efficacité d'étape sous-optimale et un risque accru d'accumulation d'erreurs. Les données et le code sont disponibles à l'adresse https://github.com/Analogy-AI/CFE_Bench.
Les modèles de diffusion récents pour la génération d'images à partir de texte (T2I) atteignent un réalisme remarquable, mais l'alignement fidèle entre l'invite et l'image reste difficile, particulièrement pour les invites complexes comportant de multiples objets, relations et attributs granulaires. Les méthodes d'échelle à l'inférence sans entraînement existantes reposent sur des budgets d'itération fixes qui ne peuvent pas s'adapter à la difficulté de l'invite, tandis que les modèles ajustés par réflexion nécessitent des jeux de données de réflexion soigneusement constitués et un réglage fin conjoint extensif des modèles de diffusion et vision-langage, sujets au surapprentissage des données de chemins de réflexion et manquant de transférabilité entre modèles. Nous présentons RAISE (Requirement-Adaptive Self-Improving Evolution), un cadre évolutif sans entraînement et piloté par les exigences pour une génération d'images T2I adaptative. RAISE formule la génération d'image comme un processus d'échelle adaptatif piloté par les exigences, faisant évoluer une population de candidats au moment de l'inférence grâce à un ensemble diversifié d'actions de raffinement - incluant la réécriture de l'invite, le rééchantillonnage du bruit et l'édition instructionnelle. Chaque génération est vérifiée par rapport à une liste de contrôle structurée des exigences, permettant au système d'identifier dynamiquement les éléments non satisfaits et d'allouer des calculs supplémentaires uniquement là où c'est nécessaire. Cela permet une mise à l'échelle adaptative au moment du test qui aligne l'effort computationnel sur la complexité sémantique de la requête. Sur GenEval et DrawBench, RAISE atteint un alignement de pointe (0,94 global sur GenEval) tout en générant moins d'échantillons (réduits de 30 à 40 %) et moins d'appels aux modèles vision-langage (réduits de 80 %) que les méthodes d'échelle et les modèles ajustés par réflexion précédents, démontrant une auto-amélioration multi-tours efficace, généralisable et agnostique au modèle. Le code est disponible à l'adresse https://github.com/LiyaoJiang1998/RAISE.
Nous présentons Synthetic Visual Genome 2 (SVG2), un vaste ensemble de données de graphes de scènes vidéo panoptiques. SVG2 contient plus de 636 000 vidéos avec 6,6 millions d'objets, 52,0 millions d'attributs et 6,7 millions de relations, offrant une augmentation d'un ordre de grandeur en échelle et en diversité par rapport aux ensembles de données antérieurs de graphes de scènes spatio-temporels. Pour créer SVG2, nous avons conçu un pipeline entièrement automatisé qui combine la segmentation panoptique multi-échelle, le suivi de trajectoires en ligne-hors ligne avec découverte automatique de nouveaux objets, l'analyse sémantique par trajectoire et l'inférence de relations spatio-temporelles basée sur GPT-5. En nous appuyant sur cette ressource, nous entraînons TRaSER, un modèle de génération de graphes de scènes vidéo. TRaSER améliore les modèles de vision et langage (VLM) avec un mécanisme d'agencement de tokens aligné sur les trajectoires et de nouveaux modules : un rééchantillonneur d'objets-trajectoires et un rééchantillonneur de fenêtres temporelles pour convertir les vidéos brutes et les trajectoires panoptiques en graphes de scènes spatio-temporels compacts en une seule passe avant. Le rééchantillonneur de fenêtres temporelles lie les tokens visuels à de courts segments de trajectoire pour préserver le mouvement local et la sémantique temporelle, tandis que le rééchantillonneur d'objets-trajectoires agrège les trajectoires entières pour maintenir le contexte global des objets. Sur les ensembles de données de test PVSG, VIPSeg, VidOR et SVG2, TRaSER améliore la détection des relations de +15 à 20 %, la prédiction d'objets de +30 à 40 % par rapport aux meilleurs modèles de référence open-source et de +13 % par rapport à GPT-5, et la prédiction d'attributs de +15 %. Lorsque les graphes de scènes générés par TRaSER sont envoyés à un VLM pour la réponse à des questions sur vidéo, celui-ci obtient un gain de précision absolue de +1,5 à 4,6 % par rapport à l'utilisation de la vidéo seule ou de la vidéo augmentée des graphes de scènes générés par Qwen2.5-VL, démontrant l'utilité des graphes de scènes spatio-temporels explicites comme représentation intermédiaire.
La réponse visuelle aux questions basée sur les connaissances (KB-VQA) démontre un potentiel significatif pour traiter des tâches nécessitant une expertise poussée. Cependant, des conflits émergent entre les connaissances paramétriques statiques des modèles vision-langage (VLM) et les informations récupérées dynamiquement, en raison de la nature figée des connaissances issues du pré-entraînement. Les sorties ignorent soit les contextes récupérés, soit présentent une intégration incohérente avec les connaissances paramétriques, ce qui pose des défis majeurs pour la KB-VQA. Les méthodes actuelles d'atténuation des conflits de connaissances, principalement adaptées des approches linguistiques, se concentrent sur les conflits au niveau contextuel via des stratégies d'invitation élaborées ou des mécanismes de décodage sensibles au contexte. Cependant, ces méthodes négligent le rôle crucial de l'information visuelle dans les conflits et souffrent de contextes récupérés redondants, ce qui nuit à l'identification précise des conflits et à leur atténuation efficace. Pour remédier à ces limitations, nous proposons CC-VQA : une méthode nouvelle, sans entraînement, consciente des conflits et des corrélations pour la KB-VQA. Notre méthode comprend deux composants principaux : (1) un Raisonnement Contextuel des Conflits Centré sur la Vision, qui effectue une analyse des conflits visio-sémantiques dans les contextes de connaissances internes et externes ; et (2) un Encodage et Décodage Guidé par les Corrélations, comprenant une compression de l'encodage positionnel pour les énoncés à faible corrélation et un décodage adaptatif utilisant une pondération des conflits basée sur les corrélations. Des évaluations approfondies sur les benchmarks E-VQA, InfoSeek et OK-VQA démontrent que CC-VQA atteint des performances à la pointe de l'état de l'art, obtenant des améliorations absolues de précision de 3,3 % à 6,4 % par rapport aux méthodes existantes. Le code est disponible à l'adresse https://github.com/cqu-student/CC-VQA.
Nous identifions le raisonnement sur les occlusions comme un aspect fondamental mais négligé pour la génération conditionnée par la mise en page 3D. Il est essentiel pour synthétiser des objets partiellement occultés avec une géométrie et une échelle cohérentes en profondeur. Bien que les méthodes existantes puissent générer des scènes réalistes respectant les mises en page d'entrée, elles échouent souvent à modéliser les occlusions inter-objets précises. Nous proposons SeeThrough3D, un modèle de génération conditionnée par mise en page 3D qui modélise explicitement les occlusions. Nous introduisons une représentation de scène 3D sensible aux occlusions (OSCR), où les objets sont représentés comme des boîtes 3D translucides placées dans un environnement virtuel et rendues depuis le point de vue caméra souhaité. La transparence encode les régions cachées des objets, permettant au modèle de raisonner sur les occlusions, tandis que le point de vue rendu fournit un contrôle explicite de la caméra pendant la génération. Nous conditionnons un modèle de génération d'images texte-à-image préentraîné basé sur les flux en introduisant un ensemble de tokens visuels dérivés de notre représentation 3D rendue. De plus, nous appliquons une auto-attention masquée pour lier précisément chaque boîte englobante d'objet à sa description textuelle correspondante, permettant une génération précise de multiples objets sans mélange d'attributs. Pour entraîner le modèle, nous construisons un jeu de données synthétique avec des scènes multi-objets diverses présentant de fortes occlusions inter-objets. SeeThrough3D généralise efficacement à des catégories d'objets non vues et permet un contrôle précis de la mise en page 3D avec des occlusions réalistes et un contrôle cohérent de la caméra.
Le réglage fédéré d'instructions (FIT) permet un réglage collaboratif d'instructions des grands modèles de linguistiques entre plusieurs organisations (clients) dans un contexte inter-organisations sans nécessiter le partage d'instructions privées. Les découvertes récentes sur les portes dérobées naturelles et la méthode existante de collecte de données d'entraînement suggèrent que des échantillons empoisonnés pourraient être omniprésents et intégrés par inadvertance dans des ensembles de données réels, potentiellement répartis entre tous les clients, même si ces derniers sont bénins. Ce travail examine systématiquement cette menace dans le FIT, démontrant que les défenses existantes sont inefficaces lorsque les données empoisonnées sont dispersées parmi tous les clients. Relever ce défi implique deux difficultés majeures : identifier les caractéristiques distinctives des échantillons empoisonnés chez chaque client et permettre une défense collaborative lorsque certains clients sont fortement dominés par des échantillons empoisonnés. Pour résoudre ces difficultés, nous identifions les gradients dans le domaine fréquentiel comme un signal robuste pour distinguer les données empoisonnées. Nous proposons en outre un mécanisme global de clustering secondaire qui facilite l'identification collaborative des échantillons empoisonnés entre les clients. En résumé, cet article présente ProtegoFed, le premier framework FIT sans porte dérobée qui détecte, supprime et même purifie avec précision les données empoisonnées dispersées entre les clients pendant l'entraînement. Les résultats expérimentaux sur quatre ensembles de données d'apprentissage fédéré montrent que ProtegoFed identifie 92,00% à 100,00% des échantillons empoisonnés, réduit le taux de réussite des attaques à presque zéro et préserve l'utilité sur la tâche principale. Le code est disponible à l'adresse https://github.com/dongdongzhaoUP/ProtegoFed.
Les récentes avancées en génération vidéo ont ouvert de nouvelles voies pour la simulation macroscopique de systèmes dynamiques complexes, mais leur application aux phénomènes microscopiques reste largement inexplorée. La simulation à l'échelle microscopique présente un grand potentiel pour des applications biomédicales telles que la découverte de médicaments, les systèmes d'organes sur puce et les études des mécanismes des maladies, tout en montrant des perspectives prometteuses dans l'éducation et la visualisation interactive. Dans ce travail, nous présentons MicroWorldBench, un benchmark multi-niveaux basé sur une grille d'évaluation pour les tâches de simulation microscopique. MicroWorldBench permet une évaluation systématique via 459 critères uniques annotés par des experts, couvrant plusieurs tâches de simulation microscopique (par exemple, les processus au niveau des organes, la dynamique cellulaire et les interactions moléculaires subcellulaires) et dimensions d'évaluation (par exemple, la fidélité scientifique, la qualité visuelle, le respect des instructions). MicroWorldBench révèle que les modèles actuels de génération vidéo à l'état de l'art échouent dans la simulation microscopique, présentant des violations des lois physiques, des incohérences temporelles et un désalignement avec les critères experts. Pour remédier à ces limitations, nous avons constitué MicroSim-10K, un ensemble de données de simulation de haute qualité vérifié par des experts. En exploitant cet ensemble de données, nous avons entraîné MicroVerse, un modèle de génération vidéo spécialisé pour la simulation microscopique. MicroVerse peut reproduire avec précision des mécanismes microscopiques complexes. Notre travail introduit pour la première fois le concept de simulation du monde microscopique et présente une preuve de concept, ouvrant la voie à des applications en biologie, éducation et visualisation scientifique. Notre travail démontre le potentiel des simulations éducatives de mécanismes biologiques à l'échelle microscopique. Nos données et notre code sont disponibles publiquement à l'adresse https://github.com/FreedomIntelligence/MicroVerse.
Le développement de systèmes de reconnaissance automatique de la parole (ASR) pour les langues peu dotées est entravé par la rareté des corpus transcrits. Cette étude de preuve de concept explore les chansons comme source de données non conventionnelle mais prometteuse pour la RAP du kazakh. Nous constituons un jeu de données de 3 013 paires audio-texte (environ 4,5 heures) provenant de 195 chansons de 36 artistes, segmentées au niveau des lignes de paroles. En utilisant Whisper comme reconnaisseur de base, nous affinons des modèles selon sept scénarios d'entraînement impliquant les Chansons, le Common Voice Corpus (CVC) et FLEURS, et nous les évaluons sur trois benchmarks : CVC, FLEURS et le Kazakh Speech Corpus 2 (KSC2). Les résultats montrent que l'affinage basé sur les chansons améliore les performances par rapport aux modèles de base zero-shot. Par exemple, Whisper Large-V3 Turbo entraîné sur un mélange de Chansons, CVC et FLEURS atteint un WER normalisé de 27,6 % sur CVC et de 11,8 % sur FLEURS, tout en réduisant de moitié l'erreur sur KSC2 (39,3 % contre 81,2 %) par rapport au modèle zero-shot. Bien que ces gains restent inférieurs à ceux des modèles entraînés sur le corpus KSC2 de 1 100 heures, ils démontrent que même de modestes mélanges de chansons et de parole peuvent produire des améliorations d'adaptation significatives dans la RAP pour langues peu dotées. Le jeu de données est publié sur Hugging Face à des fins de recherche sous une licence contrôlée et non commerciale.
L'apprentissage par observation nécessite qu'un agent apprenne à exécuter une tâche en se référant uniquement aux observations de la tâche exécutée. Ce travail étudie le cadre équivalent dans l'apprentissage robotique réel, où l'accès aux récompenses conçues manuellement et aux actions du démonstrateur n'est pas supposé. Pour aborder ce cadre contraint en données, ce travail présente un algorithme de planification basé sur l'Apprentissage par Renforcement Inverse (ARI) pour la modélisation du monde à partir de la seule observation et interaction. Des expériences entièrement menées dans le monde réel démontrent que ce paradigme est efficace pour apprendre des tâches de manipulation basées sur l'image à partir de zéro en moins d'une heure, sans supposer de connaissances préalables, de pré-entraînement ou de données d'aucune sorte au-delà des observations de la tâche. De plus, ce travail démontre que la représentation du modèle du monde apprise est capable d'un apprentissage par transfert en ligne dans le monde réel à partir de zéro. Par rapport aux approches existantes, y compris l'ARI, l'AR et l'Imitation de Comportement (IC), qui ont des hypothèses plus restrictives, l'approche proposée démontre une efficacité d'échantillonnage et des taux de réussite significativement plus élevés, ouvrant une voie pratique pour la modélisation en ligne du monde et la planification à partir de l'observation et de l'interaction. Vidéos et plus sur : https://uwrobotlearning.github.io/mpail2/.
Nous présentons FireRed-OCR, un cadre systématique pour spécialiser les grands modèles vision-langage (VLM) généraux en modèles de reconnaissance optique de caractères (OCR) haute performance. Les grands modèles vision-langage ont démontré des capacités générales impressionnantes, mais souffrent fréquemment d'« hallucination structurelle » lors du traitement de documents complexes, limitant ainsi leur utilité dans les applications industrielles de l'OCR. Dans cet article, nous introduisons FireRed-OCR, un nouveau cadre conçu pour transformer les VLM généralistes (basés sur Qwen3-VL) en experts de l'analyse structurelle de documents avec une précision au pixel. Pour pallier la rareté des données structurées de haute qualité, nous avons construit une « Usine de Données Géométrie + Sémantique ». Contrairement à l'échantillonnage aléatoire traditionnel, notre pipeline exploite le clustering de caractéristiques géométriques et l'étiquetage multidimensionnel pour synthétiser et constituer un jeu de données extrêmement équilibré, gérant efficacement les mises en page à queue longue et les types de documents rares. De plus, nous proposons une stratégie d'Entraînement Progressif en Trois Étapes qui guide le modèle de la perception au niveau pixel vers la génération de structure logique. Ce curriculum comprend : (1) un Pré-alignement Multi-tâches pour ancrer la compréhension de la structure documentaire par le modèle ; (2) un Fine-Tuning Supervisé (SFT) spécialisé pour standardiser la sortie Markdown d'image complète ; et (3) une Optimisation de Politique Relative par Groupe sous Contrainte de Format (Format-Constrained GRPO), qui utilise l'apprentissage par renforcement pour imposer une validité syntaxique et une intégrité structurelle strictes (par exemple, la fermeture des tableaux, la syntaxe des formules). Des évaluations approfondies sur OmniDocBench v1.5 démontrent que FireRed-OCR atteint des performances de pointe avec un score global de 92,94 %, surpassant significativement des bases de référence solides telles que DeepSeek-OCR 2 et OCRVerse sur les métriques de texte, formules, tableaux et ordre de lecture. Nous ouvrons notre code et les poids de notre modèle en open source pour faciliter le paradigme « Du VLM Généraliste à l'Expert Structurel Spécialisé ».
Les modèles de fondation géospatiaux (GFM) ont été évalués sur diverses tâches d'observation de la Terre incluant de multiples domaines et ont démontré un fort potentiel pour produire des cartes fiables même avec des annotations éparses. Cependant, l'évaluation comparative des GFM pour les applications cryosphériques est restée limitée, principalement en raison du manque de jeux de données d'évaluation appropriés. Pour combler cette lacune, nous présentons Cryo-Bench, un benchmark conçu pour évaluer les performances des GFM sur les principales composantes cryosphériques. Cryo-Bench inclut les glaciers rocheux, les lacs glaciaires, la glace de mer et les fronts de vêlage, couvrant multiples capteurs et de vastes régions géographiques. Nous évaluons 14 GFM parallèlement à des modèles de référence UNet et ViT pour analyser leurs avantages, limites et stratégies d'utilisation optimales. Avec un encodeur gelé, UNet obtient le mIoU moyen le plus élevé de 66,38, suivi par TerraMind à 64,02 sur les cinq jeux de données d'évaluation inclus dans Cryo-Bench. En régime few-shot (10 % des données d'entrée), des GFM comme DOFA et TerraMind surpassent UNet, atteignant des scores mIoU de 59,53, 56,62 et 56,60 respectivement, contre 56,60 pour U-Net. Lors du réglage fin complet des GFM, nous observons des performances incohérentes entre les jeux de données et les modèles. Cependant, l'ajustement du taux d'apprentissage combiné au réglage fin améliore substantiellement les performances des GFM. Par exemple, l'évaluation sur deux jeux de données représentatifs (GLID et CaFFe) montre une amélioration relative moyenne de 12,77 %. Bien que leur données de pré-entraînement contiennent une représentation minimale de la cryosphère, les GFM présentent des capacités d'adaptation au domaine notables et produisent des résultats significatifs across les tâches. Sur la base de nos résultats, nous recommandons le réglage fin de l'encodeur avec optimisation des hyperparamètres pour obtenir les meilleures performances possibles, tout en utilisant des encodeurs gelés lorsque les utilisateurs ont besoin de résultats rapides sans expérimentation extensive. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
La performance laitière des chèvres laitières Saanen, réputées pour leur haut rendement en lait, est intrinsèquement liée à leur taille corporelle, ce qui rend la mesure tridimensionnelle précise essentielle pour évaluer le potentiel de production laitière. Cependant, les méthodes de reconstruction existantes manquent de données 3D authentiques spécifiques aux caprins. Pour pallier cette limitation, nous avons constitué le jeu de données FemaleSaanenGoat contenant des vidéos RGBD synchronisées sous huit angles de vue de 55 chèvres Saanen femelles (6-18 mois). En utilisant la méthode DynamicFusion multi-vues, nous fusionnons des séquences de nuages de points bruités et non rigides en scans 3D haute fidélité, surmontant les défis posés par les surfaces irrégulières et les mouvements rapides. Sur la base de ces scans, nous développons SaanenGoat, un modèle de forme 3D paramétrique spécifiquement conçu pour les chèvres Saanen femelles. Ce modèle intègre un template raffiné avec 41 articulations squelettiques et une représentation améliorée de la mamelle, apparié à nos données de scan. Un espace de formes complet construit à partir de 48 chèvres permet une représentation précise des variations individuelles diverses. Grâce au modèle SaanenGoat, nous obtenons une reconstruction 3D haute précision à partir d'une entrée RGBD monoculaire et réalisons la mesure automatisée de six dimensions corporelles critiques : la longueur du corps, la hauteur au garrot, la largeur de poitrine, le périmètre thoracique, la largeur de hanche et la hauteur de hanche. Les résultats expérimentaux démontrent la précision supérieure de notre méthode à la fois en reconstruction 3D et en mesure corporelle, présentant un nouveau paradigme pour les applications de vision 3D à grande échelle dans l'élevage de précision.