papers.description
L'optimisation des grands modèles de langage (LLM) reste un défi critique, particulièrement car l'augmentation de la taille des modèles exacerbe la sensibilité à l'imprécision algorithmique et à l'instabilité de l'entraînement. Les progrès récents en matière d'optimiseurs ont amélioré l'efficacité de la convergence grâce à l'orthogonalisation du momentum, mais souffrent de deux limitations majeures de robustesse : la fragilité dimensionnelle dans la précision de l'orthogonalisation et la vulnérabilité au bruit induit par les valeurs aberrantes. Pour relever ces défis de robustesse, nous présentons ROOT, un Optimiseur Orthogonalisé Robuste qui améliore la stabilité de l'entraînement grâce à des mécanismes de robustesse duals. Premièrement, nous développons un schéma d'orthogonalisation robuste aux dimensions en utilisant des itérations de Newton adaptatives avec des coefficients à granularité fine ajustés à des tailles de matrice spécifiques, garantissant une précision constante à travers diverses configurations architecturales. Deuxièmement, nous introduisons un cadre robuste à l'optimisation via une optimisation proximale qui supprime le bruit des valeurs aberrantes tout en préservant les directions de gradient significatives. Des expériences approfondies démontrent que ROOT atteint une robustesse considérablement améliorée, avec une convergence plus rapide et des performances finales supérieures par rapport aux optimiseurs basés sur Muon et Adam, particulièrement dans des scénarios bruités et non convexes. Notre travail établit un nouveau paradigme pour le développement d'optimiseurs robustes et précis, capables de gérer les complexités de l'entraînement moderne des modèles à grande échelle. Le code sera disponible à l'adresse https://github.com/huawei-noah/noah-research/tree/master/ROOT.
Les récents progrès dans le domaine de l'évolution computationnelle guidée par les modèles de langage (LLM), en particulier AlphaEvolve (Novikov et al., 2025 ; Georgiev et al., 2025), ont démontré un succès remarquable dans la découverte de constructions mathématiques novatrices et la résolution de problèmes d'optimisation complexes. Cependant, les descriptions de haut niveau dans les travaux publiés laissent de nombreux détails d'implémentation non spécifiés, entravant ainsi la reproductibilité et les recherches ultérieures. Dans ce rapport, nous présentons GigaEvo, un framework open-source extensible qui permet aux chercheurs d'étudier et d'expérimenter des approches hybrides LLM-évolution inspirées par AlphaEvolve. Notre système propose des implémentations modulaires des composants clés : des algorithmes de diversité-qualité MAP-Elites, des pipelines d'évaluation asynchrones basés sur des graphes orientés acycliques (DAG), des opérateurs de mutation pilotés par des LLM avec génération d'insights et suivi bidirectionnel de la lignée, ainsi que des stratégies évolutives multi-îles flexibles. Afin d'évaluer la reproductibilité et de valider notre implémentation, nous testons GigaEvo sur des problèmes complexes issus de l'article AlphaEvolve : le placement de triangles de Heilbronn, l'empilement de cercles dans des carrés et les nombres de baisers en haute dimension. Le framework met l'accent sur la modularité, la concurrence et la facilité d'expérimentation, permettant un prototypage rapide grâce à une configuration déclarative. Nous fournissons des descriptions détaillées de l'architecture du système, des décisions d'implémentation et de la méthodologie expérimentale pour soutenir les recherches futures sur les méthodes évolutives guidées par les LLM. Le framework GigaEvo et l'ensemble du code expérimental sont disponibles à l'adresse suivante : https://github.com/AIRI-Institute/gigaevo-core.
La segmentation d'images médicales est fondamentale pour les découvertes biomédicales. Les méthodes existantes manquent de généralisabilité et nécessitent une annotation manuelle extensive et chronique pour chaque nouvelle application clinique. Nous proposons ici MedSAM-3, un modèle de segmentation médicale guidable par texte pour la segmentation d'images et de vidéos médicales. En affinant l'architecture du Segment Anything Model (SAM) 3 sur des images médicales associées à des étiquettes conceptuelles sémantiques, notre MedSAM-3 permet une Segmentation de Concepts Guidable (PCS) médicale, autorisant le ciblage précis de structures anatomiques via des descriptions textuelles en vocabulaire libre plutôt que par des invites uniquement géométriques. Nous introduisons en outre l'Agent MedSAM-3, un cadre qui intègre des Modèles de Langue Multimodaux (MLLM) pour effectuer un raisonnement complexe et un raffinement itératif dans un workflow à agent-en-boucle. Des expériences exhaustives sur diverses modalités d'imagerie médicale, incluant les rayons X, l'IRM, l'échographie, la tomodensitométrie et la vidéo, démontrent que notre approche surpasse significativement les modèles spécialisés et de fondation existants. Nous publierons notre code et notre modèle à l'adresse https://github.com/Joey-S-Liu/MedSAM3.
Les agents vision-langage ont réalisé des progrès remarquables dans diverses tâches de raisonnement multimodal ; cependant, leur apprentissage reste limité par les contraintes de la supervision annotée par des humains. Les approches récentes d'auto-récompense tentent de surmonter cette contrainte en permettant aux modèles d'agir comme leurs propres critiques ou pourvoyeurs de récompenses. Pourtant, l'auto-évaluation purement textuelle peine à vérifier des étapes de raisonnement visuel complexes et souffre souvent d'hallucinations évaluatives. Pour relever ces défis, inspirés par les progrès récents en matière de raisonnement intégrant des outils, nous proposons Agent0-VL, un agent vision-langage auto-évolutif qui réalise une amélioration continue via un raisonnement intégrant des outils. Agent0-VL intègre l'utilisation d'outils non seulement dans le raisonnement mais aussi dans l'auto-évaluation et l'auto-correction, permettant au modèle d'introspecter, de vérifier et d'affiner son raisonnement grâce à une analyse fondée sur des preuves. Il unifie deux rôles synergiques au sein d'un même modèle de langage visuel (LVLM) : un Solveur qui effectue un raisonnement multi-tours intégrant des outils, et un Vérificateur qui génère des retours structurés et des auto-récompenses granulaires via une critique fondée sur les outils. Ces rôles interagissent dans un Cycle de Raisonnement Auto-Évolutif, où la vérification basée sur les outils et l'apprentissage par renforcement alignent conjointement les distributions de raisonnement et d'évaluation pour une auto-amélioration stable. Grâce à cette évolution sans récompense externe, Agent0-VL aligne ses comportements de raisonnement et de vérification sans aucune annotation humaine ni modèle de récompense externe, réalisant ainsi une auto-amélioration continue. Les expériences sur la résolution de problèmes géométriques et l'analyse scientifique visuelle montrent qu'Agent0-VL obtient une amélioration de 12,5 % par rapport au modèle de base. Notre code est disponible à l'adresse https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.
Préserver l'identité de la première image tout en assurant un contrôle précis du mouvement est un défi fondamental dans l'animation d'images humaines. Le processus de Liaison Image-Mouvement du paradigme dominant Référence-vers-Vidéo (R2V) néglige les désalignements spatio-temporels critiques courants dans les applications réelles, entraînant des échecs tels que la dérive d'identité et des artefacts visuels. Nous présentons SteadyDancer, un framework basé sur le paradigme Image-vers-Vidéo (I2V) qui réalise une animation harmonieuse et cohérente, et qui est le premier à garantir robustement la préservation de la première image. Premièrement, nous proposons un Mécanisme de Réconciliation des Conditions pour harmoniser les deux conditions conflictuelles, permettant un contrôle précis sans sacrifier la fidélité. Deuxièmement, nous concevons des Modules de Modulation de Pose Synergétiques pour générer une représentation de pose adaptative et cohérente, hautement compatible avec l'image de référence. Enfin, nous utilisons un Pipeline d'Entraînement à Objectifs Découplés et Échelonnés qui optimise hiérarchiquement le modèle pour la fidélité du mouvement, la qualité visuelle et la cohérence temporelle. Les expériences démontrent que SteadyDancer atteint des performances de pointe à la fois en fidélité d'apparence et en contrôle du mouvement, tout en nécessitant nettement moins de ressources d'entraînement que les méthodes comparables.
Ces dernières années ont connu des progrès significatifs dans les modèles multimodaux unifiés, mais une question fondamentale demeure : la compréhension informe-t-elle véritablement la génération ? Pour investiguer ce point, nous introduisons UniSandbox, un cadre d'évaluation découplé associé à des ensembles de données synthétiques contrôlés afin d'éviter les fuites de données et de permettre une analyse détaillée. Nos résultats révèlent un écart significatif entre la compréhension et la génération, qui se manifeste principalement dans deux dimensions clés : la génération par raisonnement et le transfert de connaissances. Plus précisément, pour les tâches de génération par raisonnement, nous observons qu'un raisonnement en chaîne (Chain-of-Thought, CoT) explicite dans le module de compréhension comble efficacement cet écart, et nous démontrons en outre qu'une approche par auto-apprentissage peut internaliser avec succès cette capacité, permettant un raisonnement implicite lors de la génération. Par ailleurs, pour les tâches de transfert de connaissances, nous constatons que le CoT assiste le processus génératif en aidant à récupérer les connaissances nouvellement acquises, et nous découvrons également que les architectures basées sur des requêtes présentent intrinsèquement des propriétés latentes similaires au CoT qui influencent ce transfert. UniSandbox offre des perspectives préliminaires pour concevoir de futures architectures unifiées et des stratégies d'entraînement qui comblent véritablement le fossé entre la compréhension et la génération. Le code et les données sont disponibles à l'adresse https://github.com/PKU-YuanGroup/UniSandBox.
L'apprentissage par renforcement (RL) joue un rôle de plus en plus important pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), mais l'optimisation stable et performante des politiques reste un défi. Les ratios d'importance au niveau des tokens présentent souvent une variance élevée - un phénomène exacerbé dans les modèles de type Mixture-of-Experts - conduisant à des mises à jour instables. Les méthodes d'optimisation de politique par groupe existantes, telles que GSPO et GRPO, atténuent ce problème via un écêtage dur, rendant difficile le maintien à la fois de la stabilité et d'un apprentissage efficace. Nous proposons l'Optimisation de Politique Adaptive et Douce (SAPO), qui remplace l'écêtage dur par une porte lisse, contrôlée par une température, qui atténue de manière adaptive les mises à jour hors-politique tout en préservant les signaux d'apprentissage utiles. Comparé à GSPO et GRPO, SAPO est à la fois cohérent au niveau de la séquence et adaptatif au niveau du token. Comme GSPO, SAPO maintient une cohérence au niveau séquentiel, mais son seuillage doux forme une région de confiance continue qui évite la bande d'écêtage dur et fragile utilisée dans GSPO. Lorsqu'une séquence contient quelques tokens fortement hors-politique, GSPO supprime tous les gradients pour cette séquence, tandis que SAPO réduit sélectivement le poids uniquement des tokens problématiques et préserve le signal d'apprentissage des tokens proches de la politique, améliorant ainsi l'efficacité de l'échantillonnage. Par rapport à GRPO, SAPO remplace l'écêtage dur au niveau du token par une mise à l'échelle lisse et contrôlée par température, permettant des mises à jour plus informatives et stables. Les résultats empiriques sur des benchmarks de raisonnement mathématique indiquent que SAPO présente une meilleure stabilité d'entraînement et de meilleures performances Pass@1 pour des budgets d'entraînement comparables. De plus, nous utilisons SAPO pour entraîner la série de modèles Qwen3-VL, démontrant que SAPO procure des gains de performance constants sur diverses tâches et pour différentes tailles de modèles. Globalement, SAPO offre une stratégie d'optimisation plus fiable, évolutive et efficace pour l'entraînement par RL des LLM.
Les modèles vidéo pré-entraînés acquièrent des connaissances préalables puissantes pour générer un contenu de haute qualité et temporellement cohérent. Bien que ces modèles excellent en cohérence temporelle, leur dynamique est souvent limitée par la nature continue de leurs données d'entraînement. Nous émettons l'hypothèse qu'en injectant la riche diversité de contenu sans contrainte des données d'image dans ce cadre temporel cohérent, nous pouvons générer des ensembles d'images présentant à la fois des transitions naturelles et une plage dynamique considérablement plus étendue. À cette fin, nous présentons iMontage, un cadre unifié conçu pour reconvertir un modèle vidéo performant en un générateur d'images tout-en-un. Ce framework consomme et produit des ensembles d'images de longueur variable, unifiant une large gamme de tâches de génération et d'édition d'images. Pour y parvenir, nous proposons une stratégie d'adaptation élégante et minimalement invasive, complétée par un processus de curation de données et un paradigme d'entraînement spécifiques. Cette approche permet au modèle d'acquérir de vastes capacités de manipulation d'images sans altérer ses précieuses connaissances préalables sur le mouvement. iMontage excelle dans plusieurs tâches principales de type "plusieurs entrées - plusieurs sorties", maintenant non seulement une forte cohérence contextuelle inter-images mais aussi générant des scènes aux dynamiques extraordinaires dépassant les cadres conventionnels. Consultez notre page d'accueil à l'adresse : https://kr1sjfu.github.io/iMontage-web/.
Les modèles du monde émergent comme un paradigme fondamental pour une IA incarnée évolutive et économe en données. Dans ce travail, nous présentons GigaWorld-0, un cadre unifié de modèle du monde conçu explicitement comme un moteur de données pour l'apprentissage Vision-Langage-Action (VLA). GigaWorld-0 intègre deux composantes synergiques : GigaWorld-0-Vidéo, qui exploite la génération de vidéos à grande échelle pour produire des séquences incarnées diverses, riches en textures et temporellement cohérentes sous un contrôle granulaire de l'apparence, du point de vue de la caméra et de la sémantique des actions ; et GigaWorld-0-3D, qui combine la modélisation générative 3D, la reconstruction par *Gaussian Splatting* 3D, l'identification de systèmes physiquement différentiables et la planification de mouvements exécutable pour garantir la cohérence géométrique et le réalisme physique. Leur optimisation conjointe permet la synthèse évolutive de données d'interaction incarnée qui sont visuellement attractives, spatialement cohérentes, physiquement plausibles et alignées sur les instructions. L'entraînement à grande échelle est rendu possible grâce à notre cadre efficace GigaTrain, qui exploite la précision FP8 et l'attention creuse pour réduire considérablement les besoins en mémoire et en calcul. Nous menons des évaluations complètes montrant que GigaWorld-0 génère des données de haute qualité, diversifiées et contrôlables sur de multiples dimensions. Fait crucial, les modèles VLA (par exemple, GigaBrain-0) entraînés sur des données générées par GigaWorld-0 atteignent de solides performances dans le monde réel, améliorant significativement la généralisation et la réussite des tâches sur des robots physiques sans aucune interaction réelle pendant l'entraînement.
La complexité quadratique de l'attention complète limite le traitement efficace des contextes longs dans les grands modèles de langage (LLM). L'attention creuse atténue ce coût en restreignant chaque requête à un sous-ensemble de tokens précédents ; cependant, les approches non entraînées conduisent souvent à une dégradation sévère des performances. Les méthodes d'attention creuse native (par exemple, NSA, MoBA) pallient ce problème, mais présentent un paradoxe critique : elles produisent une sparsité d'attention inférieure à celle des modèles à attention complète, bien qu'elles visent à l'approximer, ce qui peut limiter leur efficacité. Nous attribuons ce paradoxe à une déficience des mises à jour de gradient : les paires clé-valeur de faible rang exclues pendant l'entraînement creux ne reçoivent ni contribution avant ni gradients arrière, et n'apprennent donc jamais une suppression appropriée. Pour surmonter cette limitation, nous proposons SSA (Sparse Sparse Attention), un cadre d'entraînement unifié qui considère à la fois l'attention creuse et complète et impose un alignement bidirectionnel à chaque couche. Cette conception préserve le flux de gradient vers tous les tokens tout en encourageant explicitement les sorties de l'attention creuse à s'aligner sur leurs équivalents en attention complète, favorisant ainsi une sparsité plus forte. En conséquence, SSA atteint des performances de pointe en inférence creuse et complète sur plusieurs benchmarks de bon sens. De plus, SSA permet aux modèles de s'adapter fluidement à différents budgets de sparsité ; les performances s'améliorent constamment à mesure que plus de tokens peuvent participer, permettant des compromis flexibles entre calcul et performance lors de l'inférence. Enfin, nous montrons que l'entraînement par attention creuse native améliore de manière surprenante l'extrapolation en contexte long en atténuant la sur-allocation des valeurs d'attention dans les zones "sink", SSA démontrant la plus forte capacité d'extrapolation.
Ce document présente HunyuanOCR, un modèle vision-langage (VLM) open-source de qualité commerciale et léger (1 milliard de paramètres) dédié aux tâches de ROC (Reconnaissance Optique de Caractères). L'architecture comprend un Vision Transformer (ViT) natif et un LLM léger connectés via un adaptateur MLP. HunyuanOCR démontre des performances supérieures, surpassant les API commerciales, les pipelines traditionnels et les modèles plus volumineux (par exemple, Qwen3-VL-4B). Plus précisément, il surpasse les solutions publiques actuelles dans les tâches de perception (Repérage de texte, Analyse) et excelle dans les tâches sémantiques (Extraction d'information, Traduction d'images texte), décrochant la première place au Défi ICDAR 2025 DIMT (Piste des petits modèles). De plus, il obtient des résultats state-of-the-art (SOTA) sur OCRBench parmi les VLM comptant moins de 3 milliards de paramètres. HunyuanOCR réalise des percées dans trois aspects clés : 1) L'unification de la Polyvalence et de l'Efficacité : Nous mettons en œuvre une prise en charge complète des capacités fondamentales, incluant le repérage, l'analyse, l'IE, le VQA et la traduction, dans une architecture légère. Cela répond aux limitations des "modèles experts ROC" trop spécialisés et des "VLM généraux" inefficaces. 2) Une Architecture End-to-End Rationalisée : L'adoption d'un paradigme pur end-to-end élimine les dépendances envers les modules de prétraitement (par exemple, l'analyse de mise en page). Cela résout fondamentalement la propagation d'erreurs courante dans les pipelines traditionnels et simplifie le déploiement du système. 3) Stratégies axées sur les Données et par Renforcement : Nous confirmons le rôle crucial des données de haute qualité et, pour la première fois dans l'industrie, démontrons que les stratégies d'Apprentissage par Renforcement (RL) apportent des gains de performances significatifs dans les tâches de ROC. HunyuanOCR est officiellement open-source sur HuggingFace. Nous fournissons également une solution de déploiement haute performance basée sur vLLM, plaçant son efficacité en production au plus haut niveau. Nous espérons que ce modèle fera progresser la recherche de pointe et fournira une base solide pour les applications industrielles.
Les méthodes récentes de modèles de monde vidéo interactif génèrent l'évolution scénique conditionnée par des instructions utilisateur. Bien qu'elles obtiennent des résultats impressionnants, deux limitations majeures persistent. Premièrement, elles ne parviennent pas à exploiter pleinement la correspondance entre le mouvement scénique piloté par les instructions et la géométrie 3D sous-jacente, ce qui entraîne une instabilité structurelle lors des changements de point de vue. Deuxièmement, elles oublient facilement les informations historiques durant les interactions multi-étapes, provoquant une accumulation d'erreurs et une dérive progressive de la sémantique et de la structure scénique. Pour résoudre ces problèmes, nous proposons MagicWorld, un modèle de monde vidéo interactif intégrant des préconnaissances géométriques 3D et une restitution historique. MagicWorld part d'une image scénique unique, utilise les actions utilisateur pour piloter l'évolution dynamique de la scène, et synthétise de manière autorégressive des scènes continues. Nous introduisons le Module de Géométrie 3D Guidé par l'Action (AG3D), qui construit un nuage de points à partir de la première frame de chaque interaction et de l'action correspondante, fournissant des contraintes géométriques explicites pour les transitions de viewpoint et améliorant ainsi la cohérence structurelle. Nous proposons en outre un mécanisme de Récupération par Cache Historique (HCR), qui récupère les frames historiques pertinentes durant la génération et les injecte comme signaux de conditionnement, aidant le modèle à utiliser les informations scéniques passées et à atténuer l'accumulation d'erreurs. Les résultats expérimentaux démontrent que MagicWorld obtient des améliorations notables en stabilité et continuité scéniques à travers les itérations d'interaction.
Les flux de normalisation (NFs) sont des modèles génératifs basés sur la vraisemblance de bout en bout pour les données continues, et ont récemment retrouvé l'attention avec des progrès encourageants en génération d'images. Pourtant, dans le domaine de la génération vidéo, où la complexité spatio-temporelle et le coût computationnel sont nettement plus élevés, les systèmes à la pointe reposent presque exclusivement sur des modèles basés sur la diffusion. Dans ce travail, nous revisitons cet espace de conception en présentant STARFlow-V, un générateur vidéo basé sur les flux de normalisation offrant des avantages substantiels tels qu'un apprentissage de bout en bout, une prédiction causale robuste et une estimation native de la vraisemblance. S'appuyant sur le récent STARFlow, STARFlow-V opère dans l'espace latent spatio-temporel avec une architecture globale-locale qui restreint les dépendances causales à un espace latent global tout en préservant de riches interactions locales intra-trame. Cela atténue l'accumulation d'erreurs dans le temps, un écueil courant des modèles de génération par diffusion autogressive standard. De plus, nous proposons l'appariement par score de flux, qui équipe le modèle d'un débruiteur causal léger pour améliorer la cohérence de la génération vidéo de manière autogressive. Pour améliorer l'efficacité de l'échantillonnage, STARFlow-V emploie un schéma d'itération de Jacobi adapté aux vidéos qui reformule les mises à jour internes en itérations parallélisables sans briser la causalité. Grâce à la structure inversible, le même modèle peut prendre en charge nativement les tâches de génération texte-à-vidéo, image-à-vidéo ainsi que vidéo-à-vidéo. Empiriquement, STARFlow-V atteint une forte fidélité visuelle et une cohérence temporelle avec un débit d'échantillonnage pratique par rapport aux modèles de référence basés sur la diffusion. Ces résultats constituent, à notre connaissance, la première preuve que les NFs sont capables d'une génération vidéo autogressive de haute qualité, les établissant comme une direction de recherche prometteuse pour la construction de modèles du monde. Le code et des échantillons générés sont disponibles à l'adresse https://github.com/apple/ml-starflow.
Malgré les progrès réalisés, les transformeurs de diffusion vidéo peinent encore à généraliser au-delà de leur longueur d'entraînement, un défi que nous nommons l'extrapolation de longueur vidéo. Nous identifions deux modes de défaillance : une répétition périodique de contenu spécifique au modèle et une dégradation universelle de la qualité. Les travaux antérieurs tentent de résoudre la répétition via des encodages positionnels, négligeant la dégradation de la qualité et n'atteignant qu'une extrapolation limitée. Dans cet article, nous revisitons ce défi sous un angle plus fondamental : les cartes d'attention, qui régissent directement la manière dont le contexte influence les sorties. Nous identifions que les deux modes de défaillance proviennent d'une cause unifiée : la dispersion de l'attention, où les tokens au-delà de la fenêtre d'entraînement diluent les patterns d'attention appris. Ceci entraîne une dégradation de la qualité, et la répétition émerge comme un cas particulier lorsque cette dispersion se structure en patterns d'attention périodiques, induits par les propriétés harmoniques des encodages positionnels. En nous appuyant sur cette intuition, nous proposons UltraViCo, une méthode prête à l'emploi, sans entraînement, qui supprime l'attention pour les tokens au-delà de la fenêtre d'entraînement via un facteur d'atténuation constant. En abordant conjointement les deux modes de défaillance, nous surpassons un large ensemble de méthodes de référence sur de nombreux modèles et ratios d'extrapolation, repoussant la limite d'extrapolation de 2x à 4x. Fait remarquable, notre méthode améliore le Degré Dynamique et la Qualité d'Imagerie de 233 % et 40,5 % par rapport à la meilleure méthode précédente à une extrapolation de 4x. De plus, notre méthode se généralise de manière transparente à des tâches en aval telles que la synthèse vidéo contrôlable et l'édition.
Les modèles génératifs excellent dans la synthèse RVB, mais les applications réelles nécessitent la manipulation RVBA. Cette situation a engendré un paysage fragmenté : des modèles spécialisés mono-tâche gèrent le canal alpha mais manquent de polyvalence, tandis que les frameworks multi-tâches unifiés se limitent au domaine RVB. Pour combler cette lacune cruciale, nous proposons OmniAlpha, le premier framework génératif unifié et multi-tâches pour la génération et l'édition d'images RVBA séquence-à-séquence. Son architecture intègre MSRoPE-BiL, une nouvelle méthode RoPE avec un axe de couche bidirectionnellement extensible pour son backbone de Transformeur de Diffusion (DiT), permettant le traitement simultané de multiples couches RVBA en entrée et en cible. Pour alimenter ce framework, nous présentons AlphaLayers, un nouveau jeu de données de 1000 triplets multicouches de haute qualité, construit via un nouveau pipeline automatisé de synthèse et de filtrage. Un entraînement conjoint d'OmniAlpha sur ce jeu de données pour un ensemble complet de 21 tâches variées démontre, via des expériences approfondies, que notre approche unifiée surpasse systématiquement des bases de référence spécialisées solides. Plus notablement, OmniAlpha réalise une réduction relative spectaculaire de 84,8% du SAD pour le matting sans masque sur AIM-500 et remporte plus de 90% des préférences humaines pour la complétion conditionnée par les couches. Notre travail prouve qu'un modèle unifié multi-tâches peut apprendre une représentation partagée supérieure pour l'espace RVBA, ouvrant la voie à des systèmes génératifs plus puissants et conscients des couches.
Nous présentons ReDirector, une nouvelle méthode de génération de reprises vidéo contrôlée par caméra pour des vidéos de longueur variable capturées dynamiquement. En particulier, nous rectifions une utilisation erronée courante de RoPE dans les travaux antérieurs en alignant les positions spatiotemporelles de la vidéo d'entrée et de la reprise cible. De plus, nous introduisons le codage rotatif de caméra (RoCE), un déphasage RoPE conditionné par la caméra qui capture et intègre les relations multi-vues au sein et entre les vidéos d'entrée et cibles. En intégrant les conditions de caméra dans RoPE, notre méthode se généralise à des trajectoires de caméra et des longueurs de vidéo hors distribution, produisant une amélioration de la localisation dynamique des objets et de la préservation de l'arrière-plan statique. Des expériences approfondies démontrent en outre des améliorations significatives de la contrôlabilité de la caméra, de la cohérence géométrique et de la qualité vidéo sur diverses trajectoires et longueurs.
Si les modèles vision-langage (VLM) récents démontrent une solide compréhension d'image, leur capacité à « penser avec les images », c'est-à-dire à raisonner via des interactions visuelles multi-étapes, reste limitée. Nous présentons VISTA-Gym, un environnement d'entraînement évolutif conçu pour favoriser le développement de capacités de raisonnement visuel intégrant des outils chez les VLM. VISTA-Gym unifie diverses tâches de raisonnement multimodal du monde réel (7 tâches issues de 13 jeux de données au total) grâce à une interface standardisée pour les outils visuels (ex. : repérage, analyse syntaxique), des boucles d'interaction exécutables, des signaux de retour vérifiables et une journalisation efficace des trajectoires, permettant un apprentissage par renforcement agentique visuel à grande échelle. Bien que les VLM récents excellent en raisonnement purement textuel, les modèles propriétaires et open-source peinent encore avec la sélection, l'invocation et la coordination d'outils. Avec VISTA-Gym, nous entraînons VISTA-R1 à entrelacer l'utilisation d'outils avec un raisonnement agentique via un échantillonnage de trajectoires multi-tours et un apprentissage par renforcement de bout en bout. Des expériences approfondies sur 11 benchmarks publics exigeants en raisonnement (VQA) montrent que VISTA-R1-8B surpasse les meilleures méthodes de référence de tailles similaires de 9,51 % à 18,72 %, démontrant que VISTA-Gym constitue un terrain d'entraînement efficace pour libérer les capacités de raisonnement intégrant des outils des VLM.
La génération de villes 3D réalistes est fondamentale pour les modèles de monde, la réalité virtuelle et le développement de jeux, où une scène urbaine idéale doit satisfaire à la fois la diversité stylistique, la granularité fine et la contrôlabilité. Cependant, les méthodes existantes peinent à équilibrer la flexibilité créative offerte par la génération basée sur le texte avec l'éditabilité au niveau objet permise par les représentations structurelles explicites. Nous présentons MajutsuCity, un framework piloté par le langage naturel et esthétiquement adaptatif pour la synthèse de scènes urbaines 3D structurellement cohérentes et stylistiquement diverses. MajutsuCity représente une ville comme une composition de layouts, d'assets et de matériaux contrôlables, et fonctionne via un pipeline en quatre étapes. Pour étendre la contrôlabilité au-delà de la génération initiale, nous intégrons en outre MajutsuAgent, un agent d'édition interactif ancré dans le langage qui prend en charge cinq opérations au niveau objet. Pour soutenir la synthèse de scènes photoréalistes et personnalisables, nous construisons également MajutsuDataset, un jeu de données multimodal de haute qualité contenant des layouts sémantiques 2D et des height maps, des assets bâtiments 3D diversifiés, ainsi que des matériaux PBR et des skyboxes sélectionnés, chacun accompagné d'annotations détaillées. Parallèlement, nous développons un ensemble pratique de métriques d'évaluation, couvrant des dimensions clés telles que la cohérence structurelle, la complexité de la scène, la fidélité des matériaux et l'atmosphère lumineuse. Des expériences approfondies démontrent que MajutsuCity réduit le FID des layouts de 83,7 % par rapport à CityDreamer et de 20,1 % par rapport à CityCraft. Notre méthode se classe première sur tous les scores AQS et RDR, surpassant les méthodes existantes par une marge significative. Ces résultats confirment MajutsuCity comme un nouvel état de l'art en matière de fidélité géométrique, d'adaptabilité stylistique et de contrôlabilité sémantique pour la génération de villes 3D. Nous espérons que notre framework pourra inspirer de nouvelles avenues de recherche dans la génération de villes 3D. Notre jeu de données et notre code seront publiés à l'adresse https://github.com/LongHZ140516/MajutsuCity.
Les grands modèles de langage (LLM) résolvent des problèmes complexes mais échouent sur des variantes plus simples, suggérant qu'ils produisent des réponses correctes via des mécanismes fondamentalement différents du raisonnement humain. Pour comprendre cet écart, nous synthétisons la recherche en sciences cognitives en une taxonomie de 28 éléments cognitifs couvrant les invariants de raisonnement, les contrôles métacognitifs, les représentations pour organiser le raisonnement et les connaissances, et les opérations de transformation. Nous introduisons un cadre d'évaluation granulaire et réalisons la première analyse empirique à grande échelle de 192 000 traces provenant de 18 modèles across le texte, la vision et l'audio, complétées par 54 traces de verbalisation humaine que nous rendons publiques. Nous constatons que les modèles sous-utilisent les éléments cognitifs corrélés au succès, se limitant à un traitement séquentiel rigide sur des problèmes mal structurés où les représentations diversifiées et le monitoring métacognitif sont critiques. Les traces humaines montrent plus d'abstraction et de traitement conceptuel, tandis que les modèles privilégient l'énumération superficielle. Une méta-analyse de 1 600 articles sur le raisonnement des LLM révèle que la communauté scientifique se concentre sur les éléments facilement quantifiables (organisation séquentielle : 55%, décomposition : 60%) mais néglige les contrôles métacognitifs (conscience de soi : 16%) qui corrèlent avec le succès. Les modèles possèdent des répertoires comportementaux associés au succès mais ne les déploient pas spontanément. En exploitant ces patterns, nous développons un guidage du raisonnement en temps de test qui échafaude automatiquement des structures réussies, améliorant les performances jusqu'à 66,7% sur des problèmes complexes. En établissant un vocabulaire commun entre les sciences cognitives et la recherche sur les LLM, notre cadre permet un diagnostic systématique des échecs de raisonnement et un développement fondé de modèles raisonnant via des mécanismes cognitifs robustes plutôt que des raccourcis fallacieux, tout en fournissant des outils pour tester des théories de la cognition humaine à grande échelle.
Le raisonnement abstrait à partir d'exemples minimaux demeure un problème fondamental non résolu pour les modèles de fondation de pointe tels que GPT-5 et Grok 4. Ces modèles échouent encore à inférer des règles de transformation structurées à partir de quelques exemples, ce qui constitue une caractéristique essentielle de l'intelligence humaine. Le *Abstraction and Reasoning Corpus for Artificial General Intelligence* (ARC-AGI) fournit un banc d'essai rigoureux pour cette capacité, exigeant l'induction de règles conceptuelles et leur transfert à de nouvelles tâches. La plupart des méthodes existantes traitent l'ARC-AGI comme une tâche de raisonnement purement textuelle, négligeant le fait que les humains s'appuient fortement sur l'abstraction visuelle pour résoudre de tels puzzles. Cependant, nos expériences préliminaires révèlent un paradoxe : une représentation naïve des grilles ARC-AGI sous forme d'images dégrade les performances en raison d'une exécution imprécise des règles. Cela conduit à notre hypothèse centrale que la vision et le langage possèdent des forces complémentaires à travers différentes étapes du raisonnement : la vision soutient l'abstraction globale des motifs et la vérification, tandis que le langage excelle dans la formulation symbolique des règles et leur exécution précise. En nous appuyant sur cette intuition, nous introduisons deux stratégies synergiques : (1) le *Vision-Language Synergy Reasoning* (VLSR), qui décompose l'ARC-AGI en sous-tâches alignées sur les modalités ; et (2) l'*Modality-Switch Self-Correction* (MSSC), qui utilise la vision pour vérifier le raisonnement textuel afin d'assurer une correction intrinsèque des erreurs. Des expériences approfondies démontrent que notre approche permet une amélioration allant jusqu'à 4,33 % par rapport aux modèles de base uniquement textuels, et ce sur divers modèles phares et plusieurs tâches ARC-AGI. Nos résultats suggèrent qu'unifier l'abstraction visuelle avec le raisonnement linguistique est une étape cruciale pour parvenir à une intelligence généralisable, semblable à celle des humains, dans les futurs modèles de fondation. Le code source sera bientôt publié.
Les progrès des agents d'utilisation informatique (CUA) ont été limités par l'absence de jeux de données volumineux et de haute qualité décrivant les interactions humaines avec un ordinateur. Alors que les LLM se sont développés grâce à l'abondance des données textuelles, aucun corpus comparable n'existe pour les trajectoires des CUA. Pour combler ces lacunes, nous présentons FaraGen, un nouveau système de génération de données synthétiques pour les tâches web multi-étapes. FaraGen peut proposer des tâches variées à partir de sites web fréquemment utilisés, générer plusieurs tentatives de résolution et filtrer les trajectoires réussies à l'aide de multiples vérificateurs. Il atteint un haut débit, un rendement et une diversité pour les tâches web multi-étapes, produisant des trajectoires vérifiées à environ 1 $ chacune. Nous utilisons ces données pour entraîner Fara-7B, un modèle CUA natif qui perçoit l'ordinateur en utilisant uniquement des captures d'écran, exécute des actions via des coordonnées prédites et est suffisamment compact pour fonctionner sur appareil. Nous constatons que Fara-7B surpasse les autres modèles CUA de taille comparable sur des benchmarks comme WebVoyager, Online-Mind2Web et WebTailBench — notre nouveau benchmark qui capture mieux les tâches web sous-représentées dans les benchmarks existants. De plus, Fara-7B est compétitif avec des modèles frontaliers bien plus grands, illustrant les avantages clés des systèmes de génération de données évolutifs pour faire progresser les modèles agentiels petits et efficaces. Nous rendons Fara-7B open-weight sur Microsoft Foundry et HuggingFace, et nous publions WebTailBench.
Ce travail étudie la Question Visuelle-Réponse Visuelle (VQ-VA) : la génération d'une image, plutôt que d'un texte, en réponse à une question visuelle – une capacité récemment apparue dans des systèmes propriétaires tels que NanoBanana et GPT-Image. Pour doter également les modèles open-source de cette capacité, nous présentons VQ-VA World, un cadre axé sur les données construit autour d'un pipeline agentique pour la construction ciblée de données à grande échelle. Tirant parti d'un déploiement à l'échelle du web, ce pipeline collecte une quantité massive d'environ 1,8 million d'échantillons image-texte entrelacés de haute qualité pour l'entraînement des modèles. Pour l'évaluation, nous publions en outre IntelligentBench, un benchmark organisé manuellement qui évalue systématiquement la VQ-VA selon les aspects des connaissances générales, des connaissances en design et du raisonnement. L'entraînement avec les données de VQ-VA World produit des gains empiriques significatifs : il permet à LightFusion d'atteindre un score de 53,06 sur IntelligentBench, surpassant substantiellement les meilleurs modèles open-source antérieurs (à savoir, 7,78 pour LightFusion standard ; 1,94 pour UniWorld-V1), et réduisant considérablement l'écart avec les systèmes propriétaires leaders (par exemple, 81,67 pour NanoBanana ; 82,64 pour GPT-Image). En publiant l'ensemble complet des poids des modèles, des jeux de données et des pipelines, nous espérons stimuler les recherches futures sur la VQ-VA.
La planification de tâches est cruciale pour l'IA incarnée, permettant aux agents de suivre des instructions en langage naturel et d'exécuter des actions efficacement dans des mondes physiques 3D. Cependant, les ensembles de données existants simplifient souvent la planification en ignorant les connaissances en recherche opérationnelle (RO) et l'ancrage spatial 3D. Dans ce travail, nous proposons ORS3D, une nouvelle tâche qui nécessite la synergie entre la compréhension du langage, l'ancrage 3D et l'optimisation de l'efficacité. Contrairement aux cadres précédents, ORS3D exige que les agents minimisent le temps d'exécution total en exploitant des sous-tâches parallélisables, par exemple nettoyer l'évier pendant que le micro-ondes fonctionne. Pour faciliter la recherche sur ORS3D, nous construisons ORS3D-60K, un ensemble de données à grande échelle comprenant 60 000 tâches composites réparties sur 4 000 scènes du monde réel. De plus, nous proposons GRANT, un modèle de langage multimodal incarné équipé d'un mécanisme de jeton de planification simple mais efficace pour générer des ordonnancements de tâches optimisés et des actions ancrées. Des expériences approfondies sur ORS3D-60K valident l'efficacité de GRANT en compréhension du langage, ancrage 3D et optimisation temporelle. Le code est disponible à l'adresse https://github.com/H-EmbodVis/GRANT.
La génération réaliste de villes en 3D est fondamentale pour un large éventail d'applications, incluant la réalité virtuelle et les jumeaux numériques. Cependant, la plupart des méthodes existantes reposent sur l'entraînement d'un unique modèle de diffusion, ce qui limite leur capacité à générer des scènes à l'échelle d'une ville personnalisées et illimitées. Dans cet article, nous présentons Yo'City, une nouvelle architecture agentielle qui permet une génération de villes 3D personnalisable par l'utilisateur et infiniment extensible en exploitant les capacités de raisonnement et de composition de grands modèles disponibles sur étagère. Concrètement, Yo'City conceptualise d'abord la ville via une stratégie de planification descendante qui définit une structure hiérarchique « Ville-Quartier-Quadrillage ». Le Planificateur Global détermine la disposition d'ensemble et les quartiers fonctionnels potentiels, tandis que le Concepteur Local affine ensuite chaque quartier avec des descriptions détaillées au niveau du quadrillage. Par la suite, la génération 3D au niveau du quadrillage est réalisée via une boucle de synthèse d'images isométriques « produire-affiner-évaluer », suivie d'une génération image-à-3D. Pour simuler une évolution continue de la ville, Yo'City introduit en outre un mécanisme d'expansion guidé par les relations et interactif avec l'utilisateur, qui effectue une optimisation de la disposition prenant en compte les distances et la sémantique via des graphes de scène, garantissant ainsi une croissance urbaine spatialement cohérente. Pour évaluer notre méthode de manière exhaustive, nous avons constitué un jeu de données de référence diversifié et conçu six métriques multidimensionnelles qui évaluent la qualité de la génération sous les angles de la sémantique, de la géométrie, de la texture et de la disposition. Des expériences approfondies démontrent que Yo'City surpasse constamment les méthodes état de l'art existantes dans tous les aspects de l'évaluation.
La génération augmentée par récupération (RAG) améliore les grands modèles de langage (LLM) avec des connaissances externes, mais souffre encore de longs contextes et d'une optimisation disjointe entre récupération et génération. Dans ce travail, nous proposons CLaRa (Raisonnement Latent Continu), un cadre unifié réalisant une compression par plongement lexical et une optimisation conjointe dans un espace continu partagé. Pour obtenir des vecteurs compressés sémantiquement riches et récupérables, nous introduisons SCP, un cadre de synthèse de données préservant les clés, utilisant un supervision par questions-réponses et paraphrase. CLaRa entraîne ensuite le rerankeur et le générateur de bout en bout via une seule perte de modélisation du langage, avec des gradients circulant à travers les deux modules en utilisant un estimateur top-k différentiable. Théoriquement, cette optimisation unifiée aligne la pertinence de la récupération avec la qualité de la réponse. Les expériences sur plusieurs benchmarks de questions-réponses montrent que CLaRa atteint des performances de pointe en compression et reranking, surpassant souvent les lignes de base ajustées basées sur le texte.
Si les modèles récents de génération vidéo ont atteint une fidélité visuelle significative, ils souffrent souvent d'un manque de contrôlabilité physique explicite et de plausibilité. Pour remédier à cela, certaines études récentes ont tenté de guider la génération vidéo par le rendu basé sur la physique. Cependant, ces méthodes rencontrent des difficultés inhérentes pour modéliser avec précision les propriétés physiques complexes et contrôler efficacement le comportement physique résultant sur des séquences temporelles prolongées. Dans ce travail, nous présentons PhysChoreo, un nouveau cadre capable de générer des vidéos avec une contrôlabilité diversifiée et un réalisme physique à partir d'une seule image. Notre méthode se compose de deux étapes : premièrement, elle estime les propriétés physiques initiales statiques de tous les objets dans l'image par une reconstruction des propriétés physiques sensible aux parties. Ensuite, grâce à une simulation temporellement instruite et physiquement éditable, elle synthétise des vidéos de haute qualité avec des comportements dynamiques riches et un réalisme physique. Les résultats expérimentaux montrent que PhysChoreo peut générer des vidéos aux comportements riches et au réalisme physique, surpassant les méthodes de l'état de l'art sur plusieurs métriques d'évaluation.
L'édition par diffusion permet une modification réaliste de régions locales d'images, rendant les contenus générés par IA plus difficiles à détecter. Les benchmarks existants de détection AIGC se concentrent sur la classification d'images entières, négligeant la localisation des modifications basées sur la diffusion. Nous présentons DiffSeg30k, un jeu de données public de 30k images modifiées par diffusion avec annotations au niveau pixel, conçu pour supporter une détection fine. DiffSeg30k présente : 1) Des images en conditions réelles—nous collectons des images ou des prompts d'images depuis COCO pour refléter la diversité du contenu réel ; 2) Des modèles de diffusion diversifiés—modifications locales utilisant huit modèles de diffusion state-of-the-art ; 3) Édition multi-étapes—chaque image subit jusqu'à trois modifications séquentielles pour imiter l'édition séquentielle réelle ; et 4) Scénarios d'édition réalistes—un pipeline basé sur un modèle vision-langage (VLM) identifie automatiquement les régions significatives et génère des prompts conscients du contexte couvrant ajouts, suppressions et changements d'attributs. DiffSeg30k fait évoluer la détection AIGC de la classification binaire vers la segmentation sémantique, permettant la localisation simultanée des modifications et l'identification des modèles d'édition. Nous évaluons trois approches de segmentation de référence, révélant des défis significatifs dans les tâches de segmentation sémantique, particulièrement concernant la robustesse aux distorsions d'image. Les expériences révèlent aussi que les modèles de segmentation, bien qu'entraînés pour la localisation au niveau pixel, deviennent des classificateurs très fiables d'images entières pour les modifications par diffusion, surpassant les classificateurs de falsification établis tout en montrant un grand potentiel de généralisation cross-générateur. Nous croyons que DiffSeg30k fera progresser la recherche sur la localisation fine des contenus générés par IA en démontrant les promesses et limites des méthodes basées sur la segmentation. DiffSeg30k est disponible à : https://huggingface.co/datasets/Chaos2629/Diffseg30k
Les progrès récents des modèles de langage multimodaux (MLLM) et des systèmes d'agents vidéo ont considérablement amélioré la compréhension générale des vidéos. Cependant, lorsqu'il s'agit de les appliquer à la compréhension et à l'éducation scientifiques via la vidéo – un domaine qui exige l'intégration de connaissances professionnelles externes et un raisonnement rigoureux étape par étape – les approches existantes rencontrent souvent des difficultés. Pour combler cette lacune, nous proposons SciEducator, le premier système multi-agents à évolution itérative et autonome dédié à la compréhension et à l'éducation scientifiques par la vidéo. S'inspirant du cycle de Deming classique issu des sciences de gestion, notre conception reformule sa philosophie Planifier-Faire-Étudier-Agir en un mécanisme de raisonnement et de rétroaction à évolution autonome, qui facilite l'interprétation des activités scientifiques complexes présentes dans les vidéos. De plus, SciEducator peut produire un contenu éducatif multimodal adapté à des processus scientifiques spécifiques, incluant des instructions textuelles, des guides visuels, des narrations audio et des références interactives. Pour soutenir l'évaluation, nous avons constitué SciVBench, un benchmark comprenant 500 paires question-réponse scientifiques, vérifiées par des experts et fondées sur la littérature, réparties en cinq catégories couvrant des phénomènes physiques, chimiques et quotidiens. Des expériences approfondies démontrent que SciEducator surpasse substantiellement les MLLM propriétaires leaders (comme Gemini, GPT-4o) et les agents vidéo les plus avancés sur ce benchmark, établissant ainsi un nouveau paradigme pour la communauté.
Si les récents modèles de diffusion texte-vidéo (T2V) ont atteint une qualité et un alignement impressionnants avec les prompts, ils produisent souvent des résultats peu diversifiés lors de l'échantillonnage de plusieurs vidéos à partir d'une même instruction textuelle. Nous abordons ce défi en le formulant comme un problème d'optimisation de politique au niveau ensembliste, avec pour objectif d'entraîner une politique capable de couvrir l'éventail diversifié des résultats plausibles pour un prompt donné. Pour y parvenir, nous présentons DPP-GRPO, un nouveau cadre pour la génération de vidéos diversifiées qui combine les théories des Processus Ponctuels Déterministants (DPP) et de l'Optimisation Relative des Politiques par Groupe (GRPO) pour imposer une récompense explicite sur les générations diversifiées. Notre objectif transforme la diversité en un signal explicite en imposant des rendements décroissants sur les échantillons redondants (via DPP) tout en fournissant un retour d'évaluation par groupe sur des ensembles de candidats (via GRPO). Notre cadre est plug-and-play et agnostique au modèle, et encourage la diversité des générations sur l'apparence visuelle, les mouvements de caméra et la structure des scènes sans sacrifier la fidélité au prompt ou la qualité perceptuelle. Nous implémentons notre méthode sur WAN et CogVideoX, et montrons qu'elle améliore constamment la diversité vidéo sur des benchmarks de référence tels que VBench, VideoScore et des études de préférence humaine. De plus, nous publions notre code ainsi qu'un nouveau jeu de données de référence contenant 30 000 prompts diversifiés pour soutenir les recherches futures.
Les modèles génératifs pour la conception de médicaments basée sur la structure sont souvent limités à une modalité spécifique, restreignant ainsi leur applicabilité plus large. Pour relever ce défi, nous présentons FuncBind, un cadre basé sur la vision par ordinateur pour générer des molécules conditionnées par la cible, avec une résolution atomique complète, à travers différents systèmes atomiques. FuncBind utilise des champs neuronaux pour représenter les molécules sous forme de densités atomiques continues et emploie des modèles génératifs basés sur les scores avec des architectures modernes adaptées de la littérature en vision par ordinateur. Cette représentation agnostique des modalités permet d'entraîner un modèle unique unifié sur divers systèmes atomiques, des petites aux grandes molécules, et de gérer des nombres variables d'atomes/résidus, y compris des acides aminés non canoniques. FuncBind obtient des performances compétitives in silico pour la génération de petites molécules, de peptides macrocycliques et de boucles des régions déterminant la complémentarité des anticorps, conditionnées par les structures cibles. FuncBind a également généré in vitro de nouveaux ligands d'anticorps via la reconception de novo de la boucle H3 de la région déterminant la complémentarité de deux structures co-cristallisées choisies. En tant que contribution finale, nous présentons un nouveau jeu de données et un benchmark pour la génération de peptides macrocycliques conditionnée par la structure. Le code est disponible à l'adresse https://github.com/prescient-design/funcbind.
Les grands modèles de langage (LLM) démontrent une compétence prévisionnelle partielle dans les domaines sociaux, politiques et économiques. Cependant, leur capacité prédictive varie considérablement selon la structure du domaine et la formulation des invites. Nous étudions comment les performances prévisionnelles varient entre différentes familles de modèles sur des questions réelles concernant des événements survenus après la date de coupure des modèles. Nous analysons comment le contexte, le type de question et les connaissances externes affectent la précision et l'étalonnage, et comment l'ajout d'un contexte informationnel factuel modifie la formation des croyances et les modes d'échec. Nos résultats montrent que la capacité prévisionnelle est très variable car elle dépend de ce que nous demandons, et de la manière dont nous le demandons.
Sur quelles données un modèle vision-langage devrait-il être entraîné ? Pour répondre à cette question, de nombreux efforts de curation de données se concentrent sur la qualité d'un jeu de données. Cependant, la plupart de ces méthodes existantes sont (i) hors ligne, c'est-à-dire qu'elles produisent un jeu de données statique à partir d'un ensemble de critères de filtrage prédéfinis, et (ii) agnostiques au concept, c'est-à-dire qu'elles utilisent des filtres basés sur des modèles qui induisent des biais supplémentaires dans les données. Dans ce travail, nous dépassons ces méthodes hors ligne et agnostiques au concept et préconisons une curation en ligne basée sur les concepts, plus flexible et adaptative aux tâches. Notre première contribution est DataConcept, une collection de 128 millions de paires image-texte extraites du web, annotées avec des détails fins sur leur composition conceptuelle. En nous appuyant sur DataConcept, nous introduisons l'Échantillonnage par Lots Conscient des Concepts (Concept-Aware Batch Sampling - CABS), un cadre d'échantillonnage par lots simple mais efficace qui construit des lots de manière flexible à la volée en fonction de distributions cibles spécifiques. Nous proposons deux variantes : (i) la Maximisation de la Diversité (CABS-DM) pour constituer des lots couvrant largement les concepts disponibles, et (ii) la Maximisation de la Fréquence (CABS-FM) pour constituer deslots avec une forte multiplicité d'objets. Grâce à des évaluations approfondies sur 28 benchmarks, nous démontrons que notre méthode CABS profite significativement aux classes de modèles CLIP/SigLIP et produit des modèles très performants. Globalement, CABS représente une alternative open-source solide aux algorithmes propriétaires de curation de données en ligne, permettant aux praticiens de définir des distributions conceptuelles personnalisées qui optimisent les performances pour des tâches en aval spécifiques.
Obtenir la trajectoire 3D précise d'une balle de tennis de table à partir de vidéos monoculaires standard est un problème complexe. Les méthodes existantes, entraînées sur des données synthétiques, peinent à généraliser leur performance aux détections imparfaites et bruitées de la balle et de la table dans le monde réel. Ceci est principalement dû à l'absence inhérente de données de référence 3D ( *ground truth* ) pour les trajectoires et la rotation ( *spin* ) dans les vidéos réelles. Pour surmonter cette limitation, nous proposons une nouvelle approche en deux étapes qui divise le problème en une tâche de perception front-end et une tâche de conversion 2D-vers-3D back-end. Cette séparation nous permet d'entraîner les composants front-end avec une supervision 2D abondante provenant de notre nouveau jeu de données TTHQ, tandis que le réseau de conversion back-end est entraîné exclusivement sur des données synthétiques physiquement correctes. Nous avons spécifiquement repensé le modèle de conversion pour le rendre robuste aux artéfacts courants du monde réel, tels que les détections manquantes et les fréquences d'images variables. En intégrant un détecteur de balle et un détecteur de points-clés de la table, notre approche transforme une méthode de conversion de type preuve de concept en une application pratique, robuste et performante pour l'analyse complète en 3D des trajectoires et de la rotation de la balle de tennis de table.