papers.description
Nous présentons LongLive, un cadre autoregressif (AR) au niveau des trames pour la génération de vidéos longues en temps réel et interactive. La génération de vidéos longues pose des défis tant en termes d'efficacité que de qualité. Les modèles de diffusion et de Diffusion-Forcing peuvent produire des vidéos de haute qualité, mais souffrent d'une faible efficacité en raison de l'attention bidirectionnelle. Les modèles AR à attention causale prennent en charge la mise en cache KV pour une inférence plus rapide, mais voient souvent leur qualité se dégrader sur les vidéos longues en raison des défis de mémoire lors de l'entraînement sur de longues vidéos. De plus, au-delà de la génération basée sur des invites statiques, les capacités interactives, telles que les entrées d'invites en flux continu, sont essentielles pour la création de contenu dynamique, permettant aux utilisateurs de guider les récits en temps réel. Cette exigence interactive augmente considérablement la complexité, en particulier pour assurer la cohérence visuelle et sémantique lors des transitions d'invites. Pour relever ces défis, LongLive adopte une conception AR causale au niveau des trames qui intègre un mécanisme de remise à jour KV qui actualise les états mis en cache avec de nouvelles invites pour des transitions fluides et adhérentes ; un réglage long en flux continu pour permettre l'entraînement sur de longues vidéos et aligner l'entraînement et l'inférence (entraînement long-test long) ; et une attention à fenêtre courte couplée à un point d'attention au niveau des trames, raccourci en tant que point de trame, préservant la cohérence à long tout en permettant une génération plus rapide. Avec ces conceptions clés, LongLive affine un modèle de courtes séquences de 1,3 milliard de paramètres pour une génération de plusieurs minutes en seulement 32 jours GPU. À l'inférence, LongLive maintient 20,7 FPS sur un seul NVIDIA H100, atteint des performances solides sur VBench pour les vidéos courtes et longues. LongLive prend en charge des vidéos allant jusqu'à 240 secondes sur un seul GPU H100. LongLive prend également en charge l'inférence quantifiée en INT8 avec seulement une perte de qualité marginale.
L'entraînement d'agents LLM dans des environnements à tours multiples avec des récompenses éparses, où l'accomplissement d'une seule tâche nécessite plus de 30 interactions au sein d'un épisode, représente un défi fondamental pour l'apprentissage par renforcement. Nous identifions un mode d'échec critique spécifique à ce contexte : l'échec en cascade exploration-exploitation. Cette cascade commence par une convergence prématurée de la politique en phase initiale, où le retour d'information épars incite les agents à adopter des stratégies défectueuses et à faible entropie. Par la suite, les agents entrent dans une phase de collapse de la politique en phase tardive, où la régularisation conventionnelle de l'entropie devient contre-productive, favorisant une exploration chaotique qui déstabilise l'entraînement. Nous proposons l'Optimisation de Politique à Entropie Régularisée (EPO), un cadre général qui rompt ce cycle d'échec grâce à trois mécanismes synergiques : (1) l'adoption de la régularisation de l'entropie dans des contextes à tours multiples pour améliorer l'exploration, (2) un régulariseur de lissage de l'entropie qui limite l'entropie de la politique à des moyennes historiques pour prévenir les fluctuations abruptes, et (3) une pondération adaptative basée sur les phases qui équilibre exploration et exploitation tout au long de l'entraînement. Notre analyse justifie qu'EPO garantit une diminution monotone de la variance de l'entropie tout en maintenant la convergence. EPO permet une amélioration des performances allant jusqu'à 152 % sur ScienceWorld et jusqu'à 19,8 % sur ALFWorld. Notre travail démontre que les contextes à récompenses éparses et à tours multiples nécessitent un contrôle de l'entropie fondamentalement différent de celui de l'apprentissage par renforcement traditionnel, avec des implications larges pour l'entraînement des agents LLM.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) renforce le raisonnement des LLM, mais l'entraînement oscille souvent entre un {effondrement de l'entropie} et une {explosion de l'entropie}. Nous attribuons ces deux risques à la ligne de base moyenne utilisée dans le RL sans valeur (par exemple, GRPO et DAPO), qui pénalise de manière inappropriée les échantillons à avantage négatif en présence de valeurs aberrantes de récompense. Nous proposons l'{estimation d'avantage par quantile} (QAE), qui remplace la moyenne par une ligne de base groupée en K-quantiles. QAE introduit une porte à deux régimes au niveau de la réponse : pour les requêtes difficiles (p <= 1 - K), elle renforce les succès rares, tandis que pour les requêtes faciles (p > 1 - K), elle cible les échecs restants. Sous des mises à jour softmax de premier ordre, nous prouvons une {sécurité d'entropie bilatérale}, fournissant des bornes inférieures et supérieures sur le changement d'entropie en une étape, ce qui limite l'explosion et prévient l'effondrement. Empiriquement, cette modification minimale stabilise l'entropie, éparpille l'attribution de crédit (avec un K ajusté, environ 80 % des réponses reçoivent un avantage nul) et produit des gains soutenus en pass@1 sur Qwen3-8B/14B-Base à travers AIME 2024/2025 et AMC 2023. Ces résultats identifient la {conception de la ligne de base} — plutôt que les heuristiques au niveau des tokens — comme le mécanisme principal pour mettre à l'échelle le RLVR.
Nous présentons MinerU2.5, un modèle vision-langage de 1,2 milliard de paramètres pour l'analyse de documents, qui atteint une précision de reconnaissance de pointe tout en conservant une efficacité computationnelle exceptionnelle. Notre approche utilise une stratégie d'analyse en deux étapes, allant du global au local, qui dissocie l'analyse de la structure globale de la reconnaissance du contenu local. Dans la première étape, le modèle effectue une analyse de structure efficace sur des images sous-échantillonnées pour identifier les éléments structurels, évitant ainsi la surcharge computationnelle liée au traitement d'entrées haute résolution. Dans la deuxième étape, guidé par la structure globale, il réalise une reconnaissance ciblée du contenu sur des extraits en résolution native issus de l'image originale, préservant ainsi les détails fins dans les textes denses, les formules complexes et les tableaux. Pour soutenir cette stratégie, nous avons développé un moteur de données complet qui génère des corpus d'entraînement diversifiés et à grande échelle pour le pré-entraînement et le réglage fin. En fin de compte, MinerU2.5 démontre une forte capacité d'analyse de documents, obtenant des performances de pointe sur plusieurs benchmarks, surpassant à la fois les modèles généralistes et spécialisés dans diverses tâches de reconnaissance, tout en maintenant une surcharge computationnelle significativement plus faible.
Nous introduisons un cadre de raisonnement variationnel pour les modèles de langage qui traite les traces de pensée comme des variables latentes et les optimise par inférence variationnelle. En partant de la borne inférieure de l'évidence (ELBO), nous l'étendons à un objectif multi-traces pour des bornes plus serrées et proposons une formulation de divergence de Kullback-Leibler (KL) avant qui stabilise l'entraînement de la postérieure variationnelle. Nous montrons en outre que le réglage par échantillonnage de rejet et l'apprentissage par renforcement à récompense binaire, incluant GRPO, peuvent être interprétés comme des objectifs locaux de KL avant, où une pondération implicite par la précision du modèle émerge naturellement de la dérivation et révèle un biais précédemment non détecté en faveur des questions plus faciles. Nous validons empiriquement notre méthode sur les familles de modèles Qwen 2.5 et Qwen 3 à travers une large gamme de tâches de raisonnement. Globalement, notre travail offre une perspective probabiliste rigoureuse qui unifie l'inférence variationnelle avec des méthodes de style apprentissage par renforcement et produit des objectifs stables pour améliorer la capacité de raisonnement des modèles de langage. Notre code est disponible à l'adresse https://github.com/sail-sg/variational-reasoning.
L’évaluation par les pairs constitue l’épine dorsale de la recherche académique, mais dans la plupart des conférences sur l’IA, la qualité des évaluations se dégrade à mesure que le nombre de soumissions explose. Pour détecter de manière fiable les évaluations de faible qualité, nous définissons les points d’évaluation mal informés comme étant soit des « faiblesses » dans une évaluation contenant des prémisses incorrectes, soit des « questions » dans une évaluation auxquelles le papier répond déjà. Nous vérifions que 15,2 % des faiblesses et 26,4 % des questions sont mal informées et introduisons le ReviewScore pour indiquer si un point d’évaluation est mal informé. Pour évaluer la factualité de chaque prémisse des faiblesses, nous proposons un moteur automatisé qui reconstruit chaque prémisse explicite et implicite à partir d’une faiblesse. Nous construisons un ensemble de données ReviewScore annoté par des experts humains pour vérifier la capacité des LLM à automatiser l’évaluation du ReviewScore. Ensuite, nous mesurons les accords entre humains et modèles sur le ReviewScore en utilisant huit LLM actuels de pointe et constatons des accords modérés. Nous démontrons également que l’évaluation de la factualité au niveau des prémisses présente des accords significativement plus élevés que l’évaluation de la factualité au niveau des faiblesses. Une analyse approfondie des désaccords soutient en outre le potentiel d’une évaluation entièrement automatisée du ReviewScore.
Les LLM (modèles de langage de grande taille) sont souvent entraînés par apprentissage par renforcement (RL) à partir de retours humains ou d'IA. Cependant, ces méthodes compressent généralement les retours nuancés en récompenses scalaires, perdant ainsi une grande partie de leur richesse et induisant un déséquilibre d'échelle. Nous proposons de traiter les retours verbaux comme un signal de conditionnement. Inspirés par les a priori linguistiques dans la génération de texte à partir d'images, qui permettent des sorties novatrices à partir de prompts inédits, nous introduisons la politique conditionnée par les retours (FCP, Feedback-Conditional Policy). La FCP apprend directement à partir de paires réponse-retour, en approximant la distribution a posteriori conditionnée par les retours grâce à un entraînement par maximum de vraisemblance sur des données hors ligne. Nous développons en outre une étape de bootstrap en ligne où la politique génère sous des conditions positives et reçoit de nouveaux retours pour s'affiner. Cela reformule l'apprentissage basé sur les retours en tant que génération conditionnelle plutôt qu'optimisation de récompense, offrant une manière plus expressive pour les LLM d'apprendre directement à partir de retours verbaux. Notre code est disponible à l'adresse suivante : https://github.com/sail-sg/feedback-conditional-policy.
La génération de légendes d'images est une tâche fondamentale qui relie les domaines visuel et linguistique, jouant un rôle crucial dans le pré-entraînement des grands modèles vision-langage (LVLMs). Les modèles de légendage d'état de l'art sont généralement entraînés par réglage fin supervisé (SFT), un paradigme qui repose sur des données coûteuses et non extensibles annotées par des humains ou des modèles propriétaires. Cette approche conduit souvent à des modèles qui mémorisent des réponses spécifiques de référence, limitant ainsi leur généralité et leur capacité à générer des descriptions diversifiées et créatives. Pour surmonter les limites du SFT, nous proposons d'appliquer le paradigme d'apprentissage par renforcement avec récompenses vérifiables (RLVR) à la tâche ouverte de légendage d'images. Un défi majeur, cependant, est de concevoir une fonction de récompense objective pour la nature intrinsèquement subjective de ce qui constitue une "bonne" légende. Nous introduisons CapRL (Captioning Reinforcement Learning), un nouveau cadre d'entraînement qui redéfinit la qualité des légendes par leur utilité : une légende de haute qualité devrait permettre à un modèle de langage non visuel de répondre avec précision à des questions sur l'image correspondante. CapRL utilise un pipeline découplé en deux étapes où un LVLM génère une légende, et la récompense objective est dérivée de la précision d'un modèle de langage sans vision (LLM) répondant à des questions à choix multiples basées uniquement sur cette légende. En tant que première étude à appliquer le RLVR à la tâche subjective de légendage d'images, nous démontrons que CapRL améliore significativement plusieurs configurations. Le pré-entraînement sur le jeu de données CapRL-5M annoté par CapRL-3B entraîne des gains substantiels sur 12 benchmarks. De plus, dans le cadre d'évaluation de la qualité des légendes Prism, CapRL atteint des performances comparables à Qwen2.5-VL-72B, tout en dépassant la ligne de base par une marge moyenne de 8,4 %. Le code est disponible ici : https://github.com/InternLM/CapRL.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est un cadre puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes actuelles telles que GRPO se basent uniquement sur des problèmes où les réponses du modèle à la même entrée diffèrent en termes de justesse, tout en ignorant celles où toutes les réponses reçoivent la même récompense - les prompts dits à variance nulle. Dans ce travail, nous soutenons que ces prompts ne sont pas inutiles, mais peuvent en réalité fournir un retour d'information significatif pour l'optimisation des politiques. À cette fin, nous introduisons l'apprentissage par renforcement avec prompts à variance nulle (RL-ZVP), un nouvel algorithme qui extrait des signaux d'apprentissage à partir de prompts à variance nulle. RL-ZVP récompense directement la justesse et pénalise les erreurs même sans comparer les réponses, en modulant le retour d'information avec des caractéristiques au niveau des tokens pour préserver des signaux informatifs et nuancés. Sur six benchmarks de raisonnement mathématique, RL-ZVP obtient des améliorations significatives allant jusqu'à 8,61 points en précision et 7,77 points en taux de réussite par rapport à GRPO, tout en surpassant systématiquement d'autres méthodes de référence qui filtrent les prompts à variance nulle. Ces résultats mettent en lumière le potentiel inexploité de l'apprentissage à partir de prompts à variance nulle dans le cadre du RLVR.
Les grands modèles de langage (LLMs) évoluent de systèmes conversationnels vers des raisonneurs puissants pour des tâches telles que les mathématiques olympiques et la programmation compétitive. Bien que l'augmentation des paramètres et des calculs au moment du test ait stimulé les progrès, un goulot d'étranglement majeur est le manque de problèmes d'entraînement de haute qualité : les ensembles de données annotés par des humains sont coûteux et limités, tandis que les corpus synthétiques existants sont souvent trop faciles ou restreints. PromptCoT 1.0 a montré que l'injection de justifications dans la synthèse des prompts augmente la difficulté des problèmes. Sur cette base, nous présentons PromptCoT 2.0, un cadre scalable qui remplace les heuristiques manuelles par une boucle d'espérance-maximisation (EM), où les justifications sont itérativement affinées pour guider la construction des prompts. Cela produit des problèmes à la fois plus difficiles et plus diversifiés que les corpus précédents. Les prompts synthétiques supportent deux régimes post-entraînement : (1) le Self-Play, où des modèles forts s'améliorent de manière autonome via un retour vérifiable sans enseignants plus forts ; et (2) le Fine-Tuning Supervisé (SFT), où des modèles plus faibles apprennent à partir de traces distillées par un enseignant. Des expériences approfondies démontrent l'efficacité de cette approche. En Self-Play, l'application de PromptCoT 2.0 à Qwen3-30B-A3B-Thinking-2507 établit de nouveaux records à l'échelle 30B, avec des gains de +4,4, +4,8 et +5,3 sur AIME 24/25 et HMMT 25, +6,1 et +5,0 sur LiveCodeBench v5/v6, et +35 Elo sur Codeforces. En SFT, l'entraînement de Qwen2.5-7B-Instruct uniquement sur des prompts synthétiques augmente la précision à 73,1 (AIME 24), 65,6 (AIME 25) et 53,4 (LiveCodeBench v5), surpassant les modèles entraînés sur des données humaines ou hybrides. Les analyses confirment en outre que PromptCoT 2.0 produit des problèmes fondamentalement plus difficiles et distributionnellement distincts. Ces résultats établissent la synthèse de prompts comme un nouvel axe pour l'échelle du raisonnement et positionnent PromptCoT 2.0 comme une base scalable pour les futurs modèles open-source. L'implémentation est disponible à l'adresse https://github.com/inclusionAI/PromptCoT.
La capacité des robots à interpréter les instructions humaines et à exécuter des tâches de manipulation nécessite la disponibilité de scènes de table pertinentes pour l'entraînement. Cependant, les méthodes traditionnelles de création de ces scènes reposent sur une conception manuelle chronophage de la disposition ou sur des dispositions purement aléatoires, qui sont limitées en termes de plausibilité ou d'alignement avec les tâches. Dans cet article, nous formulons une nouvelle tâche, à savoir la génération de scènes de table orientées vers une tâche, qui pose des défis importants en raison de l'écart substantiel entre les instructions de tâche de haut niveau et les scènes de table. Pour soutenir la recherche sur une telle tâche complexe, nous introduisons MesaTask-10K, un ensemble de données à grande échelle comprenant environ 10 700 scènes de table synthétiques avec des dispositions manuellement conçues qui garantissent des dispositions réalistes et des relations inter-objets complexes. Pour combler l'écart entre les tâches et les scènes, nous proposons une Chaîne de Raisonnement Spatial qui décompose le processus de génération en inférence d'objets, raisonnement sur les interrelations spatiales et construction de graphes de scène pour la disposition 3D finale. Nous présentons MesaTask, un framework basé sur LLM qui utilise cette chaîne de raisonnement et est en outre amélioré avec des algorithmes DPO pour générer des scènes de table physiquement plausibles qui s'alignent bien avec les descriptions de tâches données. Des expériences exhaustives démontrent la performance supérieure de MesaTask par rapport aux méthodes de référence dans la génération de scènes de table conformes aux tâches avec des dispositions réalistes. La page du projet est disponible à l'adresse https://mesatask.github.io/.
Nous présentons LLaVA-OneVision-1.5, une nouvelle famille de modèles multimodaux de grande taille (LMM) qui atteignent des performances de pointe avec des coûts de calcul et financiers significativement réduits. Contrairement aux travaux existants, LLaVA-OneVision-1.5 propose un cadre ouvert, efficace et reproductible pour construire des modèles vision-langage de haute qualité entièrement à partir de zéro. La version LLaVA-OneVision-1.5 comprend trois composants principaux : (1) **Jeux de données à grande échelle et soigneusement sélectionnés** : Nous avons construit un jeu de données de pré-entraînement équilibré de 85 millions de concepts, LLaVA-OneVision-1.5-Mid-Training, ainsi qu'un jeu de données d'instructions méticuleusement sélectionné de 26 millions, LLaVA-OneVision-1.5-Instruct, englobant collectivement 64 milliards de tokens multimodaux compressés. (2) **Cadre d'entraînement efficace** : Nous avons développé un cadre d'entraînement complet et efficace de bout en bout, exploitant une stratégie de regroupement parallèle de données hors ligne pour faciliter l'entraînement de LLaVA-OneVision-1.5 avec un budget de 16 000 dollars. (3) **Performances de pointe** : Les résultats expérimentaux démontrent que LLaVA-OneVision-1.5 offre des performances exceptionnellement compétitives sur un large éventail de tâches en aval. Plus précisément, LLaVA-OneVision-1.5-8B surpasse Qwen2.5-VL-7B sur 18 des 27 benchmarks, et LLaVA-OneVision-1.5-4B dépasse Qwen2.5-VL-3B sur l'ensemble des 27 benchmarks. Nous prévoyons de publier prochainement LLaVA-OneVision-1.5-RL et encourageons la communauté à attendre les mises à jour ultérieures.
Les agents autonomes ont récemment réalisé des progrès remarquables dans divers domaines, mais la plupart des évaluations se concentrent sur des tâches à court terme et entièrement observables. En revanche, de nombreuses tâches critiques du monde réel, telles que le développement de logiciels à grande échelle, les investissements commerciaux et les découvertes scientifiques, se déroulent dans des scénarios à long terme et partiellement observables où le succès dépend d'un raisonnement soutenu, d'une planification, d'une gestion de la mémoire et de l'utilisation d'outils. Les benchmarks existants capturent rarement ces défis à long terme, laissant un vide dans l'évaluation systématique. Pour combler cette lacune, nous introduisons UltraHorizon, un nouveau benchmark qui mesure les capacités fondamentales essentielles pour relever les défis complexes du monde réel. Nous utilisons l'exploration comme tâche unificatrice à travers trois environnements distincts pour valider ces compétences clés. Les agents sont conçus pour des tâches de découverte à long terme où ils doivent découvrir de manière itérative des règles cachées grâce à un raisonnement soutenu, une planification, une gestion de la mémoire et des outils, ainsi qu'une interaction avec les environnements. Dans le cadre de l'échelle la plus lourde, les trajectoires atteignent en moyenne plus de 200 000 tokens et plus de 400 appels d'outils, tandis que dans les configurations standard, elles dépassent encore 35 000 tokens et impliquent en moyenne plus de 60 appels d'outils. Nos expériences approfondies révèlent que les agents basés sur des modèles de langage (LLM) sous-performent systématiquement dans ces contextes, alors que les participants humains obtiennent des scores plus élevés, soulignant un écart persistant dans les capacités à long terme des agents. Nous observons également qu'un simple passage à l'échelle échoue dans notre tâche. Pour mieux illustrer l'échec des agents, nous menons une analyse approfondie des trajectoires collectées. Nous identifions huit types d'erreurs et les attribuons à deux causes principales : le verrouillage en contexte et les lacunes fondamentales dans les capacités fonctionnelles. https://github.com/StarDewXXX/UltraHorizon{Notre code sera disponible ici.}
Nous présentons See, Point, Fly (SPF), un cadre de navigation aérienne vision-langage (AVLN) sans apprentissage, construit sur des modèles vision-langage (VLMs). SPF est capable de naviguer vers n'importe quel objectif en se basant sur tout type d'instructions libres dans n'importe quel environnement. Contrairement aux approches existantes basées sur les VLMs qui traitent la prédiction d'actions comme une tâche de génération de texte, notre idée clé est de considérer la prédiction d'actions pour l'AVLN comme une tâche d'ancrage spatial en 2D. SPF exploite les VLMs pour décomposer des instructions langagières vagues en annotations itératives de points de passage 2D sur l'image d'entrée. Avec la distance de déplacement prédite, SPF transforme les points de passage 2D prédits en vecteurs de déplacement 3D comme commandes d'action pour les drones. De plus, SPF ajuste également de manière adaptative la distance de déplacement pour faciliter une navigation plus efficace. Notamment, SPF effectue la navigation en mode de contrôle en boucle fermée, permettant aux drones de suivre des cibles dynamiques dans des environnements dynamiques. SPF établit un nouvel état de l'art sur le benchmark de simulation DRL, surpassant la meilleure méthode précédente avec une marge absolue de 63 %. Dans des évaluations approfondies en conditions réelles, SPF surpasse largement les bases de référence solides. Nous menons également des études d'ablation complètes pour mettre en évidence l'efficacité de nos choix de conception. Enfin, SPF montre une généralisation remarquable à différents VLMs. Page du projet : https://spf-web.pages.dev
La compression post-entraînement des grands modèles de langage (LLMs) repose largement sur l'approximation de poids de faible rang, qui représente chaque colonne d'une matrice de poids dans un sous-espace partagé de faible dimension. Bien que cette stratégie soit efficace sur le plan computationnel, la contrainte structurelle imposée est rigide et peut entraîner une baisse notable de la précision du modèle. Dans ce travail, nous proposons CoSpaDi (Compression via Sparse Dictionary Learning), un nouveau cadre de compression sans entraînement qui remplace la décomposition de faible rang par une factorisation structurée et parcimonieuse plus flexible, dans laquelle chaque matrice de poids est représentée par un dictionnaire dense et une matrice de coefficients parcimonieuse en colonnes. Cette formulation permet une représentation en union de sous-espaces : différentes colonnes de la matrice de poids originale sont approximées dans des sous-espaces distincts engendrés par des atomes de dictionnaire sélectionnés de manière adaptative, offrant ainsi une expressivité supérieure à celle d'une base invariante unique. De manière cruciale, CoSpaDi exploite un petit ensemble de données de calibration pour optimiser la factorisation de sorte que les activations de sortie des couches de projection compressées correspondent étroitement à celles des couches originales, minimisant ainsi l'erreur de reconstruction fonctionnelle plutôt que la simple approximation des poids. Cette stratégie basée sur les données préserve une meilleure fidélité du modèle sans aucun réglage fin, sous des taux de compression raisonnables. De plus, la parcimonie structurée résultante permet une multiplication matricielle parcimonieuse-dense efficace et est compatible avec la quantification post-entraînement pour des gains supplémentaires en mémoire et en latence. Nous évaluons CoSpaDi sur plusieurs modèles Llama et Qwen dans des configurations par couche et par groupe, avec des taux de compression de 20 à 50 %, démontrant une supériorité constante par rapport aux méthodes de faible rang basées sur les données les plus avancées, tant en précision qu'en perplexité. Nos résultats établissent l'apprentissage de dictionnaire parcimonieux structuré comme une alternative puissante aux approches conventionnelles de faible rang pour un déploiement efficace des LLMs.
Les capacités croissantes des grands modèles de langage et des systèmes multimodaux ont suscité un intérêt accru pour les assistants IA axés sur la voix. Cependant, les benchmarks existants sont insuffisants pour évaluer l'étendue complète des capacités de ces systèmes. Nous présentons VoiceAssistant-Eval, un benchmark complet conçu pour évaluer les assistants IA à travers l'écoute, la parole et la vision. VoiceAssistant-Eval comprend 10 497 exemples soigneusement sélectionnés, couvrant 13 catégories de tâches. Ces tâches incluent des sons naturels, de la musique et des dialogues parlés pour l'écoute ; des dialogues multi-tours, des imitations de rôles et divers scénarios pour la parole ; ainsi que des images hautement hétérogènes pour la vision. Pour démontrer son utilité, nous évaluons 21 modèles open-source ainsi que GPT-4o-Audio, en mesurant la qualité du contenu des réponses, de la parole et leur cohérence. Les résultats révèlent trois conclusions clés : (1) les modèles propriétaires ne surpassent pas universellement les modèles open-source ; (2) la plupart des modèles excellent dans les tâches de parole mais sont à la traîne dans la compréhension audio ; et (3) des modèles plus petits mais bien conçus peuvent rivaliser avec des modèles beaucoup plus grands. Notamment, le modèle de taille moyenne Step-Audio-2-mini (7B) atteint plus du double de la précision d'écoute de LLaMA-Omni2-32B-Bilingual. Cependant, des défis subsistent : les entrées multimodales (audio plus visuel) et les tâches d'imitation vocale de rôles sont difficiles pour les modèles actuels, et des lacunes importantes persistent en matière de robustesse et d'alignement de sécurité. VoiceAssistant-Eval identifie ces lacunes et établit un cadre rigoureux pour évaluer et guider le développement des assistants IA de nouvelle génération. Le code et les données seront disponibles à l'adresse https://mathllm.github.io/VoiceAssistantEval/.
Nous proposons une nouvelle approche pour dissocier les caractéristiques visuelles et sémantiques à partir des architectures de modèles de diffusion pré-entraînés, permettant une correspondance visuelle de manière analogue à la correspondance sémantique bien établie. Bien que les architectures des modèles de diffusion soient connues pour encoder des caractéristiques sémantiquement riches, elles doivent également contenir des caractéristiques visuelles pour soutenir leurs capacités de synthèse d’images. Cependant, isoler ces caractéristiques visuelles est un défi en raison de l’absence de jeux de données annotés. Pour résoudre ce problème, nous introduisons un pipeline automatisé qui construit des paires d’images avec des correspondances sémantiques et visuelles annotées à partir de jeux de données existants pour la génération d’images pilotée par sujet, et nous concevons une architecture contrastive pour séparer les deux types de caractéristiques. En exploitant les représentations dissociées, nous proposons une nouvelle métrique, le Visual Semantic Matching (VSM), qui quantifie les incohérences visuelles dans la génération d’images pilotée par sujet. Les résultats empiriques montrent que notre approche surpasse les métriques basées sur des caractéristiques globales telles que CLIP, DINO et les modèles vision--langage dans la quantification des incohérences visuelles, tout en permettant également la localisation spatiale des régions incohérentes. À notre connaissance, il s’agit de la première méthode qui prend en charge à la fois la quantification et la localisation des incohérences dans la génération pilotée par sujet, offrant ainsi un outil précieux pour faire progresser cette tâche. Page du projet : https://abdo-eldesokey.github.io/mind-the-glitch/
La restauration universelle d'images (UIR) vise à récupérer des images dégradées par des mélanges inconnus tout en préservant la sémantique -- des conditions dans lesquelles les restaurateurs discriminatifs et les priors de diffusion basés sur UNet ont souvent tendance à lisser excessivement, à halluciner ou à dériver. Nous présentons LucidFlux, un cadre UIR sans légende qui adapte un grand transformateur de diffusion (Flux.1) sans légendes d'images. LucidFlux introduit un conditionneur léger à double branche qui injecte des signaux provenant de l'entrée dégradée et d'un proxy légèrement restauré pour ancrer respectivement la géométrie et supprimer les artefacts. Ensuite, un plan de modulation adaptatif en fonction du pas de temps et de la couche est conçu pour acheminer ces indices à travers la hiérarchie du backbone, afin de produire des mises à jour allant du grossier au fin et conscientes du contexte, qui protègent la structure globale tout en restaurant la texture. Par la suite, pour éviter la latence et l'instabilité des invites textuelles ou des légendes MLLM, nous appliquons un alignement sémantique sans légende via des caractéristiques SigLIP extraites du proxy. Un pipeline de curation scalable filtre en outre des données à grande échelle pour une supervision riche en structure. Sur des benchmarks synthétiques et in-the-wild, LucidFlux surpasse systématiquement des bases de référence open-source et commerciales solides, et des études d'ablation vérifient la nécessité de chaque composant. LucidFlux montre que, pour les grands DiTs, quand, où et sur quoi conditionner -- plutôt que d'ajouter des paramètres ou de s'appuyer sur des invites textuelles -- est le levier principal pour une restauration universelle d'images robuste et sans légende dans des conditions réelles.
Le fine-tuning, une méthode fondamentale pour adapter les grands modèles de langage, a longtemps été considéré comme inefficace pour la modification de modèles. Ici, nous remettons en question cette croyance, en arguant que l'échec rapporté ne découle pas d'une limitation inhérente au fine-tuning lui-même, mais de son adaptation à la nature séquentielle de la tâche de modification, un pipeline en profondeur d'abord en une seule passe qui optimise chaque échantillon jusqu'à convergence avant de passer au suivant. Bien qu'intuitif, ce pipeline en profondeur d'abord couplé à une mise à jour échantillon par échantillon sur-optimise chaque modification et induit des interférences entre les modifications. Nos expériences contrôlées révèlent que le simple rétablissement du fine-tuning au pipeline standard en largeur d'abord (c'est-à-dire basé sur les époques) avec une optimisation par mini-lots améliore considérablement son efficacité pour la modification de modèles. De plus, le fine-tuning dans la modification souffre également de localisations sous-optimales des paramètres de réglage héritées des méthodes précédentes. À travers une analyse systématique des localisations de réglage, nous dérivons LocFT-BF, une méthode de modification localisée simple et efficace construite sur le cadre de fine-tuning rétabli. Des expériences approfondies sur divers modèles de langage et ensembles de données démontrent que LocFT-BF surpasse les méthodes de pointe par de larges marges. Notamment, à notre connaissance, c'est la première méthode à soutenir 100 000 modifications et des modèles de 72 milliards de paramètres, 10 fois au-delà des pratiques précédentes, sans sacrifier les capacités générales. En clarifiant une idée fausse de longue date et en introduisant une stratégie de réglage localisée fondée sur des principes, nous faisons progresser le fine-tuning d'une base sous-estimée à une méthode de premier plan pour la modification de modèles, établissant une base solide pour les recherches futures.
Les systèmes d'agents alimentés par des modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes dans les tâches de génération de code au niveau des dépôts. Cependant, pour des tâches telles que la génération de bases de code de sites web, qui dépendent fortement des effets visuels et des retours d'interaction utilisateur, les agents de code actuels s'appuient uniquement sur une exécution simple du code pour obtenir des retours et des vérifications. Cette approche ne parvient pas à capturer la qualité réelle du code généré. Dans cet article, nous proposons WebGen-Agent, un nouvel agent de génération de sites web qui exploite des retours visuels complets et multi-niveaux pour générer et affiner de manière itérative la base de code du site web. Des descriptions et suggestions textuelles détaillées et expressives concernant les captures d'écran et les tests d'agent GUI des sites web sont générées par un modèle de langage visuel (VLM), accompagnées de scores quantifiant leur qualité. Les scores des captures d'écran et de l'agent GUI sont ensuite intégrés avec un mécanisme de retour en arrière et de sélection du meilleur, améliorant ainsi les performances de l'agent. En utilisant les scores visuels précis inhérents au flux de travail de WebGen-Agent, nous introduisons également Step-GRPO avec Retours de Capture d'Écran et d'Agent GUI pour améliorer la capacité des LLMs à agir comme moteur de raisonnement de WebGen-Agent. En utilisant les scores de capture d'écran et d'agent GUI à chaque étape comme récompense dans Step-GRPO, nous fournissons un signal de supervision de processus dense et fiable, ce qui améliore efficacement la capacité du modèle à générer des sites web. Sur le jeu de données WebGen-Bench, WebGen-Agent augmente la précision de Claude-3.5-Sonnet de 26,4 % à 51,9 % et son score d'apparence de 3,0 à 3,9, surpassant le système d'agent précédent de pointe. De plus, notre approche d'entraînement Step-GRPO augmente la précision de Qwen2.5-Coder-7B-Instruct de 38,9 % à 45,4 % et élève le score d'apparence de 3,4 à 3,7.
Les modèles de langage de grande taille (LLMs) et les modèles vision-langage de grande taille (LVLMs) utilisent de plus en plus l'apprentissage par renforcement (RL) pour le post-prétraitement, comme le RL avec récompenses vérifiables (RLVR) pour les tâches objectives et le RL à partir de retours humains (RLHF) pour les tâches subjectives. Cependant, le RLHF entraîne des coûts élevés et un risque de décalage entre la politique et les récompenses en raison de sa dépendance aux préférences humaines, tandis que le RLVR gaspille encore la supervision en éliminant les déploiements et les signaux de correction après chaque mise à jour. Pour relever ces défis, nous introduisons le cadre Synergistic Policy And Reward Co-Evolving Framework (SPARK), une méthode efficace, sur-politique et stable qui s'appuie sur le RLVR. Au lieu de jeter les déploiements et les données de correction, SPARK recycle ces informations précieuses pour entraîner simultanément le modèle lui-même en tant que modèle de récompense génératif. Cet entraînement auxiliaire utilise un mélange d'objectifs, tels que le score de récompense ponctuel, la comparaison par paires et l'évaluation conditionnée sur des réponses de réflexion approfondie, pour enseigner au modèle à évaluer et à améliorer ses propres réponses. Notre processus élimine le besoin d'un modèle de récompense séparé et de données coûteuses de préférences humaines. SPARK crée une boucle de rétroaction positive en co-évolution : une meilleure précision des récompenses produit de meilleurs gradients de politique, qui à leur tour génèrent des déploiements de plus haute qualité qui affinent davantage le modèle de récompense. Notre cadre unifié prend en charge la mise à l'échelle au moment du test via l'auto-réflexion sans modèles de récompense externes et leurs coûts associés. Nous montrons que SPARK obtient des gains de performance significatifs sur plusieurs modèles LLM et LVLM, ainsi que sur plusieurs benchmarks de raisonnement, de récompense et généraux. Par exemple, SPARK-VL-7B réalise un gain moyen de 9,7 % sur 7 benchmarks de raisonnement, de 12,1 % sur 2 benchmarks de récompense et de 1,5 % sur 8 benchmarks généraux par rapport aux baselines, démontrant ainsi une robustesse et une généralisation étendue.
La Génération Augmentée par Récupération (RAG) et la RAG basée sur les graphes sont devenues un paradigme important pour améliorer les modèles de langage de grande taille (LLMs) avec des connaissances externes. Cependant, les approches existantes sont confrontées à un compromis fondamental. Alors que les méthodes basées sur les graphes dépendent intrinsèquement de structures de graphes de haute qualité, elles rencontrent des contraintes pratiques significatives : les graphes de connaissances construits manuellement sont prohibitifs à l'échelle, tandis que les graphes extraits automatiquement à partir de corpus sont limités par la performance des extracteurs de LLM sous-jacents, en particulier lors de l'utilisation de modèles plus petits et déployés localement. Cet article présente Think-on-Graph 3.0 (ToG-3), un nouveau cadre qui introduit un mécanisme d'Évolution et de Récupération de Contexte Multi-Agent (MACER) pour surmonter ces limitations. Notre innovation principale est la construction et le raffinement dynamiques d'un index de graphe hétérogène Chunk-Triplets-Community, qui intègre de manière pionnière un mécanisme de double évolution de Requête Évolutive et de Sous-Graphe Évolutif pour une récupération précise de preuves. Cette approche aborde une limitation critique des méthodes RAG basées sur les graphes précédentes, qui construisent généralement un index de graphe statique en une seule passe sans s'adapter à la requête réelle. Un système multi-agent, composé d'agents Constructeur, Récupérateur, Réflecteur et Répondeur, collabore dans un processus itératif de récupération de preuves, de génération de réponses, de réflexion sur la suffisance et, crucialement, d'évolution de la requête et du sous-graphe. Ce système multi-agent à double évolution permet à ToG-3 de construire de manière adaptative un index de graphe ciblé pendant le raisonnement, atténuant les inconvénients inhérents à la construction statique et ponctuelle de graphes et permettant un raisonnement profond et précis même avec des LLMs légers. Des expériences approfondies démontrent que ToG-3 surpasse les bases de référence sur des benchmarks de raisonnement profond et large, et des études d'ablation confirment l'efficacité des composants du cadre MACER.
L'estimation de la disposition et la détection d'objets 3D sont deux tâches fondamentales dans la compréhension des scènes intérieures. Lorsqu'elles sont combinées, elles permettent la création d'une représentation spatiale compacte mais sémantiquement riche d'une scène. Les approches existantes reposent généralement sur des nuages de points en entrée, ce qui pose une limitation majeure puisque la plupart des caméras grand public ne disposent pas de capteurs de profondeur, et les données visuelles seules restent bien plus courantes. Nous abordons ce problème avec TUN3D, la première méthode qui traite conjointement l'estimation de la disposition et la détection d'objets 3D dans des scans réels, en prenant des images multi-vues comme entrée, et sans nécessiter de poses de caméra annotées ou de supervision de profondeur. Notre approche s'appuie sur un réseau léger à convolution sparse et utilise deux têtes dédiées : une pour la détection d'objets 3D et une pour l'estimation de la disposition, en exploitant une nouvelle représentation paramétrique efficace des murs. Des expériences approfondies montrent que TUN3D atteint des performances de pointe sur trois benchmarks exigeants en compréhension de scènes : (i) en utilisant des nuages de points annotés, (ii) en utilisant des images avec poses, et (iii) en utilisant des images sans poses. Tout en rivalisant avec les méthodes spécialisées en détection d'objets 3D, TUN3D fait progresser significativement l'estimation de la disposition, établissant un nouveau standard dans la compréhension holistique des scènes intérieures. Le code est disponible à l'adresse https://github.com/col14m/tun3d.
Les grands modèles de langage, entraînés sur des corpus étendus, parviennent à unifier avec succès diverses tâches linguistiques dans un cadre génératif unique. Inspirés par cela, des travaux récents comme le Large Vision Model (LVM) étendent ce paradigme à la vision en organisant les tâches en séquences de phrases visuelles, où les invites visuelles servent de contexte pour guider les sorties. Cependant, une telle modélisation nécessite un pré-entraînement spécifique aux tâches à travers les modalités et les sources, ce qui est coûteux et limite l'évolutivité face à des tâches inédites. Étant donné que les modèles de génération de vidéos pré-entraînés capturent intrinsèquement les dépendances des séquences temporelles, nous explorons une alternative plus unifiée et évolutive : un modèle de génération de vidéos pré-entraîné peut-il s'adapter à diverses tâches d'images et de vidéos ? Pour répondre à cette question, nous proposons UniVid, un cadre qui affine un transformateur de diffusion vidéo pour gérer diverses tâches visuelles sans modifications spécifiques aux tâches. Les tâches sont représentées comme des phrases visuelles, où la séquence contextuelle définit à la fois la tâche et la modalité de sortie attendue. Nous évaluons la généralisation d'UniVid sous deux angles : (1) l'inférence cross-modale avec des contextes composés à la fois d'images et de vidéos, allant au-delà du cadre uni-modal du LVM ; (2) les tâches cross-sources allant des données naturelles aux données annotées, sans pré-entraînement multi-sources. Bien qu'entraîné uniquement sur des données vidéo naturelles, UniVid généralise bien dans les deux contextes. Notamment, les tâches de compréhension et de génération peuvent facilement être inversées en inversant simplement l'ordre des phrases visuelles dans ce paradigme. Ces résultats mettent en lumière le potentiel des modèles de génération de vidéos pré-entraînés à servir de fondation évolutive et unifiée pour la modélisation visuelle. Notre code sera disponible à l'adresse https://github.com/CUC-MIPG/UniVid.
Les agents d'interface graphique (GUI) visent à automatiser un large éventail de tâches humaines en imitant l'interaction utilisateur. Malgré des avancées rapides, les approches actuelles sont freinées par plusieurs défis critiques : le goulot d'étranglement des données dans l'apprentissage de bout en bout, le coût élevé de la détection tardive des erreurs et le risque de directives contradictoires. Inspiré par la boucle cognitive humaine de Pensée, Alignement et Réflexion, nous présentons D-Artemis — un nouveau cadre délibératif dans cet article. D-Artemis exploite un mécanisme de récupération de conseils spécifiques à l'application, à granularité fine, pour éclairer son processus de prise de décision. Il intègre également une étape proactive d'Alignement Pré-exécution, où le module de Vérification de la Cohérence Pensée-Action (TAC) et l'Agent de Correction d'Action (ACA) travaillent de concert pour atténuer le risque d'échecs d'exécution. Un Agent de Réflexion sur l'État (SRA) post-exécution complète la boucle cognitive, permettant un apprentissage stratégique à partir de l'expérience. De manière cruciale, D-Artemis améliore les capacités des modèles de langage multimodaux à grande échelle (MLLMs) pour les tâches GUI sans nécessiter d'entraînement sur des ensembles de données complexes de trajectoires, démontrant une forte généralisation. D-Artemis établit de nouveaux résultats de pointe (SOTA) sur les deux principaux benchmarks, atteignant un taux de réussite de 75,8 % sur AndroidWorld et de 96,8 % sur ScreenSpot-V2. Des études d'ablation approfondies démontrent en outre la contribution significative de chaque composant au cadre.
Le réglage fin par renforcement (RFT) souffre souvent d'une sur-optimisation des récompenses, où un modèle de politique exploite les signaux de récompense pour atteindre des scores élevés tout en produisant des résultats de faible qualité. Notre analyse théorique montre que la clé réside dans la mauvaise spécification des récompenses dans la queue haute des récompenses : l'incapacité à distinguer de manière fiable les réponses Excellentes de celles simplement Grandes. Cela nous motive à nous concentrer sur la région des récompenses élevées. Cependant, de tels exemples de queue sont rares sous le modèle de langage de base (LLM). Bien que les exemples hors politique (par exemple, provenant de modèles plus puissants ou de réécritures) soient plus faciles à obtenir, un entraînement naïf sur ceux-ci produit une récompense mal spécifiée pour la politique que nous cherchons à aligner. Pour résoudre ce problème, nous étudions les récompenses basées sur des grilles d'évaluation. Par conception, les grilles d'évaluation peuvent exploiter des exemples hors politique tout en restant insensibles à leurs artefacts. Pour obtenir des grilles d'évaluation qui capturent la queue haute des récompenses, nous soulignons l'importance de distinguer parmi des réponses grandes et diversifiées, et introduisons un workflow pour mettre en œuvre cette idée. Nous démontrons empiriquement que les récompenses basées sur des grilles d'évaluation atténuent considérablement la sur-optimisation des récompenses et apportent des améliorations efficaces en post-entraînement des LLM. Notre code est accessible à l'adresse suivante : https://github.com/Jun-Kai-Zhang/rubrics.git.
Les humains développent une compréhension de la physique intuitive grâce à une interaction active avec le monde. Cette approche contraste fortement avec les modèles vidéo actuels, tels que Sora, qui reposent sur une observation passive et peinent ainsi à saisir la causalité physique. Cette observation conduit à notre hypothèse centrale : une intuition physique authentique du modèle du monde doit être ancrée dans des interactions étendues et riches en causalité avec le monde réel. Pour tester cette hypothèse, nous présentons WoW, un modèle génératif du monde de 14 milliards de paramètres entraîné sur 2 millions de trajectoires d'interaction robotique. Nos résultats révèlent que la compréhension de la physique par le modèle est une distribution probabiliste de résultats plausibles, conduisant à des instabilités stochastiques et à des hallucinations physiques. De plus, nous démontrons que cette capacité émergente peut être activement contrainte vers un réalisme physique par SOPHIA, où des agents de modèle vision-langage évaluent la sortie générée par DiT et guident son raffinement en faisant évoluer itérativement les instructions langagières. Par ailleurs, un modèle de dynamique inverse co-entraîné traduit ces plans raffinés en actions robotiques exécutables, bouclant ainsi la boucle de l'imagination à l'action. Nous établissons WoWBench, un nouveau benchmark axé sur la cohérence physique et le raisonnement causal dans les vidéos, où WoW atteint des performances de pointe à la fois dans les évaluations humaines et autonomes, démontrant une forte capacité en causalité physique, dynamique des collisions et permanence des objets. Notre travail fournit des preuves systématiques qu'une interaction à grande échelle avec le monde réel est une pierre angulaire pour développer l'intuition physique dans l'IA. Les modèles, les données et les benchmarks seront rendus open-source.
L'apprentissage par renforcement (RL) constitue le paradigme dominant pour affiner les capacités d'utilisation stratégique d'outils des modèles de langage de grande taille (LLMs) dans des tâches d'agents à horizon long et à récompenses éparses. Cependant, il se heurte à un défi fondamental : l'arbitrage entre exploration et exploitation. Les études existantes stimulent l'exploration à travers la lentille de l'entropie de la politique, mais une telle maximisation mécanique de l'entropie est sujette à une instabilité de l'entraînement RL en raison des décalages de distribution multi-tours. Dans cet article, nous visons un équilibre progressif entre exploration et exploitation guidé par les expériences propres de l'agent, sans succomber ni à un effondrement de l'entropie ni à une divergence incontrôlée. Nous proposons SPEAR, une méthode d'apprentissage par auto-imitation (SIL) basée sur un curriculum pour entraîner des LLMs agentiques. Elle étend le cadre SIL classique, où un tampon de relecture stocke des trajectoires prometteuses auto-générées pour des mises à jour hors politique, en orientant progressivement l'évolution de la politique dans une plage bien équilibrée d'entropie à travers les étapes. Plus précisément, notre approche intègre un curriculum pour gérer le processus d'exploration, utilisant des récompenses intrinsèques pour favoriser l'exploration au niveau des compétences et facilitant l'exploration au niveau des actions via SIL. Initialement, la récompense auxiliaire pour l'appel d'outils joue un rôle crucial dans l'accumulation des compétences d'utilisation d'outils, permettant une exposition large aux distributions inconnues des retours d'environnement avec une tendance à l'augmentation de l'entropie. Au fur et à mesure de l'entraînement, l'auto-imitation se renforce pour exploiter les modèles réussis existants à partir des expériences rejouées, accélérant l'itération des solutions sans croissance illimitée de l'entropie. Pour stabiliser davantage l'entraînement, nous recalibrons les avantages des expériences dans le tampon de relecture pour adresser les dérives potentielles de la politique. Des régularisations, telles que l'écrêtage des tokens présentant une covariance élevée entre probabilité et avantage, sont introduites pour le contrôle de l'entropie au niveau des trajectoires afin de limiter la surconfiance.
Tirant parti de la simplicité et de l'efficacité de Dense O2O et de MAL, DEIM est devenu le cadre d'entraînement dominant pour les DETRs en temps réel, surpassant significativement la série YOLO. Dans ce travail, nous l'étendons avec les fonctionnalités de DINOv3, aboutissant à DEIMv2. DEIMv2 couvre huit tailles de modèles, de X à Atto, adaptées aux déploiements sur GPU, en périphérie et sur mobile. Pour les variantes X, L, M et S, nous adoptons des backbones pré-entraînés ou distillés avec DINOv3 et introduisons un Adaptateur de Réglage Spatial (STA), qui convertit efficacement la sortie monoscale de DINOv3 en caractéristiques multiscales et complète une sémantique forte avec des détails fins pour améliorer la détection. Pour les modèles ultra-légers (Nano, Pico, Femto et Atto), nous utilisons HGNetv2 avec élagage en profondeur et en largeur pour respecter des budgets de ressources stricts. Associé à un décodeur simplifié et une version améliorée de Dense O2O, cette conception unifiée permet à DEIMv2 d'atteindre un compromis performance-coût supérieur dans divers scénarios, établissant de nouveaux résultats de pointe. Notamment, notre plus grand modèle, DEIMv2-X, atteint 57,8 AP avec seulement 50,3 millions de paramètres, surpassant les modèles de taille X précédents qui nécessitent plus de 60 millions de paramètres pour seulement 56,5 AP. Du côté compact, DEIMv2-S est le premier modèle inférieur à 10 millions (9,71 millions) à dépasser le cap des 50 AP sur COCO, atteignant 50,9 AP. Même l'ultra-léger DEIMv2-Pico, avec seulement 1,5 million de paramètres, offre 38,5 AP, égalant YOLOv10-Nano (2,3 millions) avec environ 50 % de paramètres en moins. Notre code et nos modèles pré-entraînés sont disponibles sur https://github.com/Intellindust-AI-Lab/DEIMv2.
Nous présentons X-Streamer, un cadre de modélisation du monde humain multimodal de bout en bout pour la création d'agents humains numériques capables d'interactions infinies à travers le texte, la parole et la vidéo au sein d'une architecture unifiée. À partir d'un simple portrait, X-Streamer permet des appels vidéo en temps réel et ouverts, pilotés par des entrées multimodales en flux continu. Au cœur de ce système se trouve une architecture dual-transformer Thinker-Actor qui unifie la compréhension et la génération multimodales, transformant un portrait statique en interactions audiovisuelles persistantes et intelligentes. Le module Thinker perçoit et raisonne sur les entrées utilisateur en flux continu, tandis que ses états cachés sont traduits par l'Actor en flux multimodaux synchronisés en temps réel. Concrètement, le Thinker s'appuie sur un modèle de langage-parole pré-entraîné de grande envergure, tandis que l'Actor utilise un modèle de diffusion autoregressif par segments qui se concentre de manière croisée sur les états cachés du Thinker pour produire des réponses multimodales alignées dans le temps, avec des jetons discrets de texte et audio entrelacés et des latents vidéo continus. Pour garantir une stabilité à long terme, nous concevons des attentions inter et intra-segments avec des embeddings positionnels multimodaux alignés dans le temps pour un alignement intermodal fin et une rétention de contexte, renforcés par un forçage de diffusion par segments et une référence d'identité globale. X-Streamer fonctionne en temps réel sur deux GPU A100, soutenant des expériences de chat vidéo cohérentes pendant des heures à partir de portraits arbitraires et ouvrant la voie vers une modélisation unifiée du monde des humains numériques interactifs.
Le traitement efficace des images haute résolution est crucial pour les applications réelles de vision et langage. Cependant, les modèles de vision et langage à grande échelle (LVLMs) existants entraînent une surcharge computationnelle importante en raison du grand nombre de tokens visuels. Avec l'avènement des modèles "pensant avec des images", le raisonnement s'étend désormais au-delà du texte pour inclure le domaine visuel. Cette capacité motive notre pipeline de raisonnement en deux étapes "du grossier au fin" : d'abord, une image sous-échantillonnée est analysée pour identifier les régions pertinentes à la tâche ; ensuite, seules ces régions sont recadrées en pleine résolution et traitées dans une étape de raisonnement ultérieure. Cette approche réduit les coûts computationnels tout en préservant les détails visuels fins là où c'est nécessaire. Un défi majeur réside dans l'inférence des régions réellement pertinentes pour une requête donnée. Les méthodes récentes échouent souvent à la première étape après le sous-échantillonnage de l'image d'entrée, en raison d'un raisonnement basé sur la perception, où une information visuelle claire est nécessaire pour un raisonnement efficace. Pour résoudre ce problème, nous proposons ERGO (Efficient Reasoning & Guided Observation) qui effectue une perception pilotée par le raisonnement, en exploitant le contexte multimodal pour déterminer où se concentrer. Notre modèle peut prendre en compte l'incertitude perceptuelle, en élargissant la région recadrée pour couvrir les zones visuellement ambiguës afin de répondre aux questions. À cette fin, nous développons des composants de récompense simples mais efficaces dans un cadre d'apprentissage par renforcement pour une perception du grossier au fin. Sur plusieurs ensembles de données, notre approche offre une précision supérieure à celle du modèle original et des méthodes concurrentes, avec une plus grande efficacité. Par exemple, ERGO surpasse Qwen2.5-VL-7B sur le benchmark V* de 4,7 points tout en utilisant seulement 23 % des tokens visuels, atteignant une accélération de l'inférence par 3. Le code et les modèles peuvent être trouvés à : https://github.com/nota-github/ERGO.
La plupart des approches existantes en segmentation référentielle atteignent des performances élevées uniquement par le biais de finetuning ou en combinant plusieurs modèles pré-entraînés, souvent au prix d’un entraînement supplémentaire et de modifications architecturales. Par ailleurs, les modèles génératifs de diffusion à grande échelle encodent des informations sémantiques riches, ce qui les rend attractifs en tant qu’extracteurs de caractéristiques polyvalents. Dans ce travail, nous introduisons une nouvelle méthode qui exploite directement les caractéristiques, notamment les scores d’attention, issus de transformateurs de diffusion pour des tâches en aval, sans nécessiter de modifications architecturales ni d’entraînement supplémentaire. Pour évaluer systématiquement ces caractéristiques, nous étendons les benchmarks avec des tâches de référencement visuel-linguistique couvrant à la fois les images et les vidéos. Notre idée clé est que les mots vides agissent comme des aimants d’attention : ils accumulent un surplus d’attention et peuvent être filtrés pour réduire le bruit. De plus, nous identifions des puits d’attention globaux (GAS) émergeant dans les couches plus profondes et montrons qu’ils peuvent être supprimés ou redirigés vers des tokens auxiliaires en toute sécurité, conduisant à des cartes de référencement plus précises et plus nettes. Nous proposons également une stratégie de redistribution de l’attention, où des mots vides ajoutés partitionnent les activations de fond en clusters plus petits, produisant des cartes thermiques plus localisées et plus nettes. Sur la base de ces découvertes, nous développons RefAM, un cadre simple de référencement sans entraînement qui combine des cartes d’attention croisée, la gestion des GAS et la redistribution. Sur les benchmarks de segmentation référentielle d’images et de vidéos en zero-shot, notre approche surpasse systématiquement les méthodes précédentes, établissant un nouvel état de l’art sans finetuning ni composants supplémentaires.
L'édition d'images guidée par texte avec des modèles de diffusion a atteint une qualité remarquable, mais souffre d'une latence prohibitive, entravant les applications en temps réel. Nous présentons FlashEdit, un nouveau cadre conçu pour permettre une édition d'images en haute fidélité et en temps réel. Son efficacité découle de trois innovations clés : (1) un pipeline d'inversion-et-édition en une étape (OSIE) qui contourne les processus itératifs coûteux ; (2) une technique de Protection de l'Arrière-Plan (BG-Shield) qui garantit la préservation de l'arrière-plan en modifiant sélectivement les caractéristiques uniquement dans la région à éditer ; et (3) un mécanisme d'Attention Spatiale Croisée Sparsifiée (SSCA) qui assure des modifications précises et localisées en supprimant les fuites sémantiques vers l'arrière-plan. Des expériences approfondies démontrent que FlashEdit maintient une cohérence supérieure de l'arrière-plan et une intégrité structurelle, tout en effectuant des modifications en moins de 0,2 seconde, ce qui représente une accélération de plus de 150 fois par rapport aux méthodes multi-étapes précédentes. Notre code sera rendu public à l'adresse https://github.com/JunyiWuCode/FlashEdit.
Le développement de systèmes d’IA capables de fonctionner efficacement à travers les langues tout en restant ancrés culturellement constitue un défi de longue date, en particulier dans des contextes à faibles ressources. Les données synthétiques offrent une voie prometteuse, mais leur efficacité dans des contextes multilingues et multiculturels reste insuffisamment explorée. Nous étudions la création et l’impact de jeux de données synthétiques contextualisés culturellement pour les langues indiennes à travers une stratégie de génération ascendante qui incite de grands modèles de langage open-source (>= 235 milliards de paramètres) à ancrer la génération de données dans le contenu spécifique à chaque langue sur Wikipédia. Cette approche complète le paradigme dominant descendant de traduction de jeux de données synthétiques à partir de langues à ressources élevées, comme l’anglais. Nous présentons Updesh, un jeu de données synthétique de grande qualité et à grande échelle pour le suivi d’instructions, comprenant 9,5 millions de points de données couvrant 13 langues indiennes, incluant des tâches variées de raisonnement et de génération avec un accent sur les capacités de contexte long, de dialogues multi-tours et d’alignement avec les contextes culturels indiens. Une évaluation approfondie intégrant à la fois des métriques automatisées et des annotations humaines sur 10 000 échantillons indique que les données générées sont de haute qualité, bien que l’évaluation humaine mette en lumière des domaines nécessitant des améliorations supplémentaires. Par ailleurs, nous effectuons des évaluations en aval en affinant des modèles sur notre jeu de données et en évaluant leurs performances sur 15 jeux de données multilingues variés. Les modèles entraînés sur Updesh obtiennent systématiquement des gains significatifs sur les tâches de génération et restent compétitifs sur les tâches de compréhension du langage naturel de type QCM. Notamment, les améliorations relatives sont les plus marquées pour les langues à faibles et moyennes ressources, réduisant ainsi leur écart avec les langues à ressources élevées. Ces résultats fournissent des preuves empiriques qu’une IA multilingue efficace nécessite des stratégies de curation et de génération de données multidimensionnelles, intégrant des méthodologies conscientes du contexte et ancrées culturellement.
Les transformateurs autorégressifs (AR) sont apparus comme un paradigme puissant pour la génération visuelle, principalement en raison de leur évolutivité, de leur efficacité computationnelle et de leur architecture unifiée pour le langage et la vision. Parmi eux, la prédiction à l'échelle suivante dans la génération visuelle autorégressive (VAR) a récemment démontré des performances remarquables, surpassant même les modèles basés sur la diffusion. Dans ce travail, nous revisitons VAR et mettons en lumière une intuition théorique : lorsqu'il est équipé d'un masque d'attention markovien, VAR est mathématiquement équivalent à une diffusion discrète. Nous nommons cette réinterprétation « Raffinement Visuel Évolutif avec Diffusion Discrète » (SRDD), établissant ainsi un pont théorique entre les transformateurs AR et les modèles de diffusion. En exploitant cette nouvelle perspective, nous montrons comment il est possible d'importer directement les avantages de la diffusion, tels que le raffinement itératif, et de réduire les inefficacités architecturales dans VAR, conduisant à une convergence plus rapide, un coût d'inférence réduit et une reconstruction zéro-shot améliorée. Sur plusieurs jeux de données, nous démontrons que la perspective basée sur la diffusion de VAR entraîne des gains constants en efficacité et en génération.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables à aligner les entrées visuelles avec les sorties en langage naturel. Cependant, la mesure dans laquelle les tokens générés dépendent des modalités visuelles reste mal comprise, limitant l'interprétabilité et la fiabilité. Dans ce travail, nous présentons EAGLE, un cadre léger de type boîte noire pour expliquer la génération autoregressive de tokens dans les MLLMs. EAGLE attribue tout token sélectionné à des régions perceptuelles compactes tout en quantifiant l'influence relative des a priori linguistiques et des preuves perceptuelles. Le cadre introduit une fonction objective qui unifie la suffisance (score d'intuition) et l'indispensabilité (score de nécessité), optimisée via une recherche gloutonne sur des régions d'image éparses pour une attribution fidèle et efficace. Au-delà de l'attribution spatiale, EAGLE effectue une analyse sensible aux modalités qui démêle ce sur quoi les tokens s'appuient, fournissant une interprétabilité fine des décisions du modèle. Des expériences approfondies sur des MLLMs open-source montrent qu'EAGLE surpasse systématiquement les méthodes existantes en termes de fidélité, de localisation et de diagnostic d'hallucination, tout en nécessitant nettement moins de mémoire GPU. Ces résultats mettent en évidence son efficacité et sa praticité pour faire progresser l'interprétabilité des MLLMs. Le code est disponible à l'adresse https://github.com/RuoyuChen10/EAGLE.
Bien que les modèles de diffusion aient réalisé des progrès remarquables en génération d'images, leurs résultats peuvent encore paraître irréalistes et manquer de détails fins, en particulier lors de l'utilisation d'un nombre réduit d'évaluations de fonctions neuronales (NFEs) ou de facteurs de guidage plus faibles. Pour résoudre ce problème, nous proposons une nouvelle technique d'échantillonnage basée sur la dynamique, appelée échantillonnage guidé par l'historique (HiGS), qui améliore la qualité et l'efficacité de l'échantillonnage de diffusion en intégrant les prédictions récentes du modèle à chaque étape d'inférence. Plus précisément, HiGS exploite la différence entre la prédiction actuelle et une moyenne pondérée des prédictions passées pour orienter le processus d'échantillonnage vers des résultats plus réalistes, avec de meilleurs détails et une structure plus fine. Notre approche n'introduit pratiquement aucun calcul supplémentaire et s'intègre de manière transparente aux frameworks de diffusion existants, ne nécessitant ni entraînement supplémentaire ni réglage fin. Des expériences approfondies montrent que HiGS améliore systématiquement la qualité des images à travers divers modèles et architectures, et ce, sous différents budgets d'échantillonnage et facteurs de guidage. De plus, en utilisant un modèle SiT préentraîné, HiGS atteint un nouvel état de l'art avec un FID de 1,61 pour la génération non guidée d'ImageNet en 256x256 avec seulement 30 étapes d'échantillonnage (au lieu des 250 habituelles). Nous présentons ainsi HiGS comme une amélioration plug-and-play de l'échantillonnage de diffusion standard, permettant une génération plus rapide avec une fidélité accrue.
La reconnaissance précise des textes historiques peut grandement faire avancer l'étude et la préservation du patrimoine culturel. Cependant, les modèles vision-langage (VLMs) existants sont conçus pour des textes modernes et standardisés, et ne sont pas équipés pour lire la diversité des langues et des écritures, les mises en page irrégulières et les dégradations fréquentes présentes dans les documents historiques. Cet article présente CHURRO, un VLM open-weight de 3 milliards de paramètres spécialisé dans la reconnaissance de textes historiques. Le modèle est entraîné sur CHURRO-DS, le plus grand ensemble de données de reconnaissance de textes historiques à ce jour. CHURRO-DS unifie 155 corpus historiques comprenant 99 491 pages, couvrant 22 siècles de patrimoine textuel à travers 46 groupes linguistiques, incluant des variantes historiques et des langues mortes. Nous évaluons plusieurs VLMs open-weight et fermés ainsi que des systèmes de reconnaissance optique de caractères (OCR) sur CHURRO-DS et constatons que CHURRO surpasse tous les autres VLMs. Sur l'ensemble de test de CHURRO-DS, CHURRO atteint 82,3 % (imprimé) et 70,1 % (manuscrit) de similarité normalisée de Levenshtein, surpassant le deuxième meilleur modèle, Gemini 2.5 Pro, de 1,4 % et 6,5 % respectivement, tout en étant 15,5 fois plus rentable. En publiant le modèle et l'ensemble de données, nous visons à permettre une recherche communautaire pour améliorer la lisibilité des textes historiques et accélérer les travaux académiques.
Bien que les modèles basés sur les Transformers aient démontré des performances remarquables en modélisation du langage, leur complexité élevée entraîne des coûts importants lors du traitement de contextes longs. En revanche, les réseaux de neurones récurrents (RNNs) tels que l'attention linéaire et les modèles d'espace d'état ont gagné en popularité grâce à leur complexité constante par token. Cependant, ces modèles récurrents peinent à accomplir des tâches nécessitant un rappel précis des informations contextuelles provenant de contextes longs, car toutes les informations contextuelles sont compressées dans un état récurrent de taille constante. Les travaux précédents ont montré que la capacité de rappel est positivement corrélée à la taille de l'état récurrent, mais l'entraînement direct des RNNs avec des états récurrents plus grands entraîne des coûts d'entraînement élevés. Dans cet article, nous présentons StateX, un pipeline d'entraînement pour étendre efficacement les états des RNNs pré-entraînés via un post-entraînement. Pour deux classes populaires de RNNs, l'attention linéaire et les modèles d'espace d'état, nous concevons des modifications architecturales de post-entraînement pour augmenter la taille de l'état sans augmentation ou avec une augmentation négligeable des paramètres du modèle. Les expériences sur des modèles allant jusqu'à 1,3 milliard de paramètres démontrent que StateX améliore efficacement la capacité de rappel et d'apprentissage en contexte des RNNs sans engendrer de coûts élevés de post-entraînement ni compromettre d'autres capacités.
Les systèmes prédominants de recherche texte-vidéo utilisent principalement des modèles d'incorporation pour l'extraction de caractéristiques et calculent les similarités cosinus pour le classement. Cependant, cette conception présente deux limites. Les paires de données texte-vidéo de faible qualité pourraient compromettre la recherche, mais sont difficiles à identifier et à examiner. La similarité cosinus seule ne fournit aucune explication pour les résultats de classement, limitant ainsi l'interprétabilité. Nous nous demandons : pouvons-nous interpréter les résultats de classement afin d'évaluer les modèles de recherche et d'examiner les données texte-vidéo ? Ce travail propose X-CoT, un cadre de recherche explicable basé sur le raisonnement CoT (Chain-of-Thought) des LLM (Large Language Models) en remplacement du classement par similarité basé sur des modèles d'incorporation. Nous commençons par enrichir les benchmarks existants avec des annotations vidéo supplémentaires pour soutenir la compréhension sémantique et réduire les biais de données. Nous concevons également un CoT de recherche composé d'étapes de comparaison par paires, produisant un raisonnement détaillé et un classement complet. X-CoT améliore empiriquement les performances de recherche et génère des justifications détaillées. Il facilite également l'analyse du comportement du modèle et de la qualité des données. Le code et les données sont disponibles à l'adresse : https://github.com/PrasannaPulakurthi/X-CoT.
L’apprentissage par renforcement avec retour humain (RLHF) et l’apprentissage par renforcement avec récompenses vérifiables (RLVR) sont les principaux paradigmes de RL utilisés dans le post-entraînement des modèles de langage (LLM), chacun offrant des avantages distincts. Cependant, le RLHF rencontre des difficultés en matière d’interprétabilité et de manipulation des récompenses, car il repose sur des jugements humains qui manquent généralement de critères explicites, tandis que le RLVR est limité dans sa portée par son accent sur des vérificateurs basés sur la justesse. Nous proposons l’apprentissage par renforcement avec retour binaire flexible (RLBFF), qui combine la polyvalence des préférences pilotées par l’humain avec la précision de la vérification basée sur des règles, permettant aux modèles de récompense de capturer des aspects nuancés de la qualité des réponses au-delà de la simple justesse. Le RLBFF extrait des principes pouvant être évalués de manière binaire (par exemple, l’exactitude de l’information : oui, ou la lisibilité du code : non) à partir de retours en langage naturel. Ces principes peuvent ensuite être utilisés pour ancrer l’entraînement des modèles de récompense en tant que tâche d’inférence (la réponse satisfait ou ne satisfait pas un principe arbitraire). Nous montrons que les modèles de récompense entraînés de cette manière surpassent les modèles Bradley-Terry lorsque les données sont comparables et atteignent des performances de pointe sur RM-Bench (86,2 %) et JudgeBench (81,4 %, #1 au classement au 24 septembre 2025). De plus, les utilisateurs peuvent spécifier des principes d’intérêt au moment de l’inférence pour personnaliser l’orientation de nos modèles de récompense, contrairement aux modèles Bradley-Terry. Enfin, nous présentons une recette entièrement open source (incluant les données) pour aligner Qwen3-32B en utilisant le RLBFF et notre modèle de récompense, afin d’égaler ou de surpasser les performances d’o3-mini et de DeepSeek R1 sur les benchmarks généraux d’alignement de MT-Bench, WildBench et Arena Hard v2 (à moins de 5 % du coût d’inférence).
La Conception Assistée par Ordinateur (CAO) est un élément fondamental du prototypage industriel, où les modèles sont définis non pas par des coordonnées brutes, mais par des séquences de construction telles que des esquisses et des extrusions. Cette structure séquentielle permet à la fois une initialisation efficace des prototypes et une modification ultérieure. Le prototypage CAO guidé par texte, qui unifie la génération Texte-vers-CAO et l'édition CAO, a le potentiel de rationaliser l'ensemble du pipeline de conception. Cependant, les travaux antérieurs n'ont pas exploré ce contexte, principalement parce que les tokenizers standard des grands modèles de langage (LLM) décomposent les séquences CAO en morceaux de mots en langage naturel, ne parvenant pas à capturer la sémantique CAO au niveau des primitives et empêchant les modules d'attention de modéliser la structure géométrique. Nous conjecturons qu'une stratégie de tokenisation multimodale, alignée sur la nature primitive et structurelle de la CAO, peut fournir des représentations plus efficaces. À cette fin, nous proposons CAD-Tokenizer, un cadre qui représente les données CAO avec des tokens spécifiques à la modalité en utilisant un VQ-VAE basé sur des séquences avec regroupement au niveau des primitives et décodage contraint. Cette conception produit des représentations compactes et conscientes des primitives qui s'alignent sur la nature structurelle de la CAO. Appliqué au prototypage CAO guidé par texte unifié, CAD-Tokenizer améliore significativement le suivi des instructions et la qualité de génération, obtenant de meilleures performances quantitatives et qualitatives par rapport aux LLM généralistes et aux modèles spécifiques à la tâche.
La localisation d'objets 3D basée sur une séquence de mesures caméra est essentielle pour des tâches de surveillance critiques pour la sécurité, telles que la surveillance des feux de forêt par drone. La localisation d'objets détectés par une caméra peut généralement être résolue par une estimation dense de la profondeur ou une reconstruction 3D de la scène. Cependant, dans le contexte d'objets distants ou de tâches limitées par la quantité de ressources computationnelles disponibles, aucune de ces solutions n'est réalisable. Dans cet article, nous montrons que cette tâche peut être résolue en utilisant des filtres à particules pour des scénarios à cible unique ou multiples. La méthode a été étudiée à l'aide d'une simulation 3D et d'une séquence de segmentation d'images basée sur un drone avec des estimations de pose de caméra basées sur le système de navigation par satellite mondial (GNSS). Les résultats ont montré qu'un filtre à particules peut être utilisé pour résoudre des tâches pratiques de localisation basées sur les poses de caméra et les segments d'image dans ces situations où d'autres solutions échouent. Le filtre à particules est indépendant de la méthode de détection, ce qui le rend flexible pour de nouvelles tâches. L'étude démontre également que la surveillance des feux de forêt par drone peut être réalisée en utilisant la méthode proposée couplée à un modèle de segmentation d'images préexistant.
L'appel de fonction est une capacité fondamentale des grands modèles de langage, essentielle pour les agents d'IA. Les benchmarks existants, tels que le Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) et ACEBench (arXiv:2501.12851), évaluent la correction des arguments mais ne testent pas le respect des instructions de format intégrées dans les descriptions des paramètres, comme l'encadrement des valeurs entre guillemets doubles ou l'utilisation de formats de date ISO. Nous introduisons IFEval-FC, un benchmark inspiré d'IFEval (arXiv:2311.07911) qui évalue le suivi précis des instructions dans l'appel de fonction. IFEval-FC encode des formats vérifiables directement dans les descriptions de schéma JSON, par exemple en spécifiant qu'une valeur ne doit pas contenir de ponctuation. Il comprend 750 cas de test, chacun consistant en une fonction avec un format intégré pour l'un de ses paramètres d'entrée et une requête utilisateur correspondante. L'évaluation est entièrement algorithmique, garantissant objectivité, reproductibilité et évolutivité. Nos résultats montrent que même les modèles propriétaires les plus avancés, y compris GPT-5 et Claude 4.1 Opus, échouent fréquemment à suivre des règles de formatage de base, mettant en lumière une limitation pratique pour les systèmes d'agents en situation réelle. Le code source complet et les données sont disponibles publiquement à l'adresse suivante : https://github.com/Skripkon/IFEval-FC.