Articles de recherche en IA sélectionnés quotidiennement avec traductions
Avec la sortie du modèle o1 par OpenAI, des modèles de raisonnement adoptant des stratégies de pensée lente ont progressivement émergé. Comme les réponses générées par ces modèles incluent souvent un raisonnement complexe, des étapes intermédiaires et de l'auto-réflexion, les méthodes d'évaluation existantes se révèlent souvent inadéquates. Elles peinent à déterminer si la sortie du LLM est véritablement équivalente à la réponse de référence, et ont également des difficultés à identifier et extraire la réponse finale à partir de réponses longues et complexes. Pour résoudre ce problème, nous proposons xVerify, un vérificateur de réponses efficace pour l'évaluation des modèles de raisonnement. xVerify démontre une forte capacité en jugement d'équivalence, lui permettant de déterminer efficacement si les réponses produites par les modèles de raisonnement sont équivalentes aux réponses de référence pour divers types de questions objectives. Pour entraîner et évaluer xVerify, nous construisons le jeu de données VAR en collectant des paires question-réponse générées par plusieurs LLMs sur divers jeux de données, en exploitant plusieurs modèles de raisonnement et des ensembles d'évaluation conçus spécifiquement pour l'évaluation des modèles de raisonnement. Un processus d'annotation en plusieurs tours est employé pour garantir la précision des étiquettes. Sur la base du jeu de données VAR, nous entraînons plusieurs modèles xVerify de différentes tailles. Dans les expériences d'évaluation menées sur l'ensemble de test et l'ensemble de généralisation, tous les modèles xVerify atteignent des scores F1 et une précision globale dépassant 95\%. Notamment, la plus petite variante, xVerify-0.5B-I, surpasse toutes les méthodes d'évaluation à l'exception de GPT-4o, tandis que xVerify-3B-Ib dépasse GPT-4o en performance globale. Ces résultats valident l'efficacité et la généralisabilité de xVerify.
Nous présentons Seedream 3.0, un modèle de base bilingue chinois-anglais de génération d'images à haute performance. Nous avons développé plusieurs améliorations techniques pour résoudre les défis existants de Seedream 2.0, notamment l'alignement avec des prompts complexes, la génération de typographie fine, l'esthétique visuelle et la fidélité sous-optimales, ainsi que les résolutions d'images limitées. Plus précisément, les avancées de Seedream 3.0 découlent d'améliorations apportées à l'ensemble du pipeline, de la construction des données au déploiement du modèle. Au niveau des données, nous avons doublé le jeu de données en utilisant un paradigme d'entraînement conscient des défauts et un cadre de sampling collaboratif à double axe. De plus, nous avons adopté plusieurs techniques efficaces telles que l'entraînement à résolution mixte, le RoPE intermodal, la perte d'alignement des représentations et le sampling des pas de temps en fonction de la résolution lors de la phase de pré-entraînement. Durant l'étape de post-entraînement, nous utilisons des légendes esthétiques diversifiées dans le SFT, ainsi qu'un modèle de récompense basé sur un VLM avec mise à l'échelle, permettant ainsi d'obtenir des sorties bien alignées avec les préférences humaines. Par ailleurs, Seedream 3.0 innove avec un nouveau paradigme d'accélération. En employant une attente de bruit cohérente et un sampling des pas de temps sensible à l'importance, nous obtenons une accélération de 4 à 8 fois tout en maintenant la qualité des images. Seedream 3.0 démontre des améliorations significatives par rapport à Seedream 2.0 : il renforce les capacités globales, en particulier pour le rendu de texte en caractères chinois complexes, essentiel à la génération de typographie professionnelle. De plus, il offre une sortie native en haute résolution (jusqu'à 2K), permettant de générer des images de haute qualité visuelle.
L'amélioration des capacités de raisonnement des LLM (Large Language Models) a suscité un intérêt considérable. Cependant, les techniques actuelles de post-formation reposent fortement sur des signaux de supervision, tels que la supervision des résultats ou des modèles de récompense auxiliaires, qui se heurtent à des problèmes d'évolutivité et de coûts d'annotation élevés. Cela nous motive à améliorer le raisonnement des LLM sans recourir à une supervision externe. Nous introduisons un cadre d'auto-formation généralisable et entièrement non supervisé, nommé Genius. Sans assistance externe, Genius nécessite de rechercher la séquence de réponses optimale de manière progressive et d'optimiser le LLM. Pour explorer les étapes potentielles et exploiter les plus optimales, Genius introduit une stratégie de rééchantillonnage prospectif par étapes pour échantillonner et estimer la valeur de chaque étape en simulant les résultats futurs. De plus, nous reconnaissons que le cadre non supervisé induit inévitablement du bruit intrinsèque et de l'incertitude. Pour fournir une optimisation robuste, nous proposons une fonction de perte d'optimisation calibrée par avantage (ACO) pour atténuer les incohérences d'estimation. En combinant ces techniques, Genius offre une première étape avancée vers l'auto-amélioration du raisonnement des LLM avec des requêtes générales et sans supervision, révolutionnant les lois d'échelle du raisonnement compte tenu de la vaste disponibilité de requêtes générales. Le code sera publié à l'adresse https://github.com/xufangzhi/Genius.
Alors que le post-entraînement des grands modèles de langage (LLM) évolue de la simple exécution d'instructions vers des tâches de raisonnement complexe, la compréhension de l'impact des différentes données sur la dynamique de l'affinage reste largement inexplorée. Dans cet article, nous présentons une analyse spectrale des gradients couche par couche induits par des données d'instruction et de raisonnement de qualité faible/élevée pour le post-entraînement des LLM. Notre analyse révèle que les métriques largement étudiées pour l'évaluation des données, telles que IFD, InsTag, Difficulté et Récompense, peuvent être expliquées et unifiées par les propriétés spectrales calculées à partir de la décomposition en valeurs singulières (SVD) des gradients. Plus précisément, les données de qualité supérieure sont généralement associées à des normes nucléaires plus faibles et à des rangs effectifs plus élevés. Notamment, le rang effectif montre une meilleure robustesse et résolution que la norme nucléaire pour capturer des différences subtiles de qualité. Par exemple, les données de raisonnement atteignent des rangs effectifs nettement plus élevés que les données d'instruction, impliquant des structures de gradient plus riches sur des tâches plus complexes. Nos expériences soulignent également que les modèles d'une même famille partagent des motifs de gradient similaires, indépendamment de leur taille, alors que les différentes familles de modèles divergent significativement. Offrant une vision unifiée des effets de la qualité des données sur les données d'instruction et de raisonnement, ce travail éclaire l'interaction entre la qualité des données et la stabilité de l'entraînement, apportant de nouvelles perspectives pour développer de meilleures stratégies d'exploration des données pour le post-entraînement.
Un système d'IA ne peut créer et maintenir des connaissances que dans la mesure où il est capable de vérifier ces connaissances par lui-même. Les travaux récents sur le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) longue ont démontré le grand potentiel des modèles de langage (LLMs) pour résoudre des problèmes compétitifs, mais leur capacité de vérification reste faible et insuffisamment étudiée. Dans cet article, nous proposons Heimdall, un LLM de vérification de CoT longue capable de juger avec précision l'exactitude des solutions. Grâce à un apprentissage par renforcement pur, nous augmentons la précision de vérification de 62,5 % à 94,5 % sur des problèmes de mathématiques compétitifs. En utilisant un échantillonnage répété, la précision atteint 97,5 %. À travers une évaluation humaine, Heimdall démontre des capacités de généralisation impressionnantes, détectant avec succès la plupart des erreurs dans des preuves mathématiques complexes, un type de problème non inclus pendant l'entraînement. De plus, nous proposons la Vérification Pessimiste pour étendre les fonctionnalités de Heimdall à l'augmentation de la résolution de problèmes. Cette méthode utilise Heimdall pour juger les solutions d'un modèle de résolution et, en se basant sur le principe pessimiste, sélectionne la solution la plus probablement correcte avec le moins d'incertitude. En prenant DeepSeek-R1-Distill-Qwen-32B comme modèle de résolution, la Vérification Pessimiste améliore la précision des solutions sur AIME2025 de 54,2 % à 70,0 % avec un budget de calcul 16 fois supérieur, et à 83,3 % avec un budget de calcul encore plus important. Avec le modèle de résolution plus puissant Gemini 2.5 Pro, le score atteint 93,0 %. Enfin, nous proposons un prototype de système automatique de découverte de connaissances, un système ternaire où un composant pose des questions, un autre fournit des solutions, et le troisième vérifie ces solutions. En utilisant le travail de synthèse de données NuminaMath pour les deux premiers composants, Heimdall identifie efficacement les enregistrements problématiques dans le jeu de données et révèle que près de la moitié des données sont erronées, ce qui correspond de manière intéressante aux études d'ablation récentes de NuminaMath.
TextArena est une collection open-source de jeux compétitifs basés sur le texte, conçus pour l'entraînement et l'évaluation des comportements agentiques dans les modèles de langage à grande échelle (LLMs). Il englobe plus de 57 environnements uniques (incluant des configurations pour un joueur, deux joueurs et plusieurs joueurs) et permet une évaluation facile des capacités des modèles via un système de jeu en ligne (contre des humains et d'autres modèles soumis) avec des scores TrueSkill en temps réel. Les benchmarks traditionnels évaluent rarement des compétences sociales dynamiques telles que la négociation, la théorie de l'esprit et la tromperie, créant ainsi un vide que TextArena vient combler. Conçu avec la recherche, la communauté et l'extensibilité à l'esprit, TextArena met l'accent sur la facilité d'ajout de nouveaux jeux, l'adaptation du cadre, le test des modèles, le jeu contre les modèles et l'entraînement des modèles. Une documentation détaillée des environnements, des jeux, du classement et des exemples est disponible sur https://github.com/LeonGuertler/TextArena et https://www.textarena.ai/.
Les modèles de langage multimodaux de grande taille (MLLMs) atteignent des performances remarquables pour les tâches de compréhension fine au niveau des pixels. Cependant, toutes les approches reposent fortement sur des composants supplémentaires, tels qu'un encodeur visuel (CLIP) ou des experts en segmentation, ce qui entraîne une complexité système élevée et limite la mise à l'échelle des modèles. Dans ce travail, notre objectif est d'explorer un MLLM hautement simplifié sans introduire de composants supplémentaires. Notre démarche s'inspire des travaux récents sur la conception d'un unique transformateur comme modèle unifié vision-langage (SAIL), où ces travaux apprennent conjointement les tokens visuels et textuels dans les transformateurs. Nous présentons Pixel-SAIL, un transformateur unique pour les tâches MLLM au niveau des pixels. En particulier, nous proposons trois améliorations techniques par rapport à la base de référence. Premièrement, nous concevons un module d'upsampling apprenable pour affiner les caractéristiques des tokens visuels. Deuxièmement, nous proposons une nouvelle stratégie d'injection de prompts visuels pour permettre au transformateur unique de comprendre les entrées de prompts visuels et de bénéficier de la fusion précoce des embeddings de prompts visuels et des tokens visuels. Troisièmement, nous introduisons une stratégie de distillation d'expert visuel pour améliorer efficacement la capacité d'extraction de caractéristiques fines du transformateur unique. En outre, nous avons constitué un benchmark complet de compréhension des pixels (PerBench) en effectuant une vérification manuelle. Il comprend trois tâches : description détaillée d'objets, réponse à des questions basées sur des prompts visuels, et segmentation référentielle visuo-textuelle. Des expériences approfondies sur quatre benchmarks de segmentation référentielle, un benchmark de prompts visuels et notre PerBench montrent que notre Pixel-SAIL obtient des résultats comparables, voire supérieurs, avec un pipeline bien plus simple. Le code et le modèle seront disponibles à l'adresse https://github.com/magic-research/Sa2VA.
L'estimation des normales de surface constitue une pierre angulaire pour un large éventail d'applications en vision par ordinateur. Bien que de nombreux efforts aient été consacrés aux scénarios d'images statiques, assurer la cohérence temporelle dans l'estimation des normales basée sur des vidéos reste un défi de taille. Plutôt que de simplement enrichir les méthodes existantes avec des composantes temporelles, nous présentons NormalCrafter pour exploiter les a priori temporels inhérents aux modèles de diffusion vidéo. Pour garantir une estimation des normales de haute fidélité à travers les séquences, nous proposons la Régularisation des Caractéristiques Sémantiques (SFR), qui aligne les caractéristiques de diffusion avec les indices sémantiques, encourageant ainsi le modèle à se concentrer sur la sémantique intrinsèque de la scène. De plus, nous introduisons un protocole d'entraînement en deux étapes qui exploite à la fois l'apprentissage dans l'espace latent et dans l'espace pixel pour préserver la précision spatiale tout en maintenant un contexte temporel étendu. Des évaluations approfondies démontrent l'efficacité de notre méthode, mettant en évidence une performance supérieure dans la génération de séquences de normales temporellement cohérentes avec des détails complexes à partir de vidéos diverses.
L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu une approche prédominante pour le réglage fin des grands modèles de langage (Large Language Models, LLMs) sur des tâches de raisonnement complexes. Parmi les méthodes récentes, GRPO se distingue par son succès empirique dans l'entraînement de modèles tels que DeepSeek-R1, bien que les sources de son efficacité restent mal comprises. Dans ce travail, nous revisitons GRPO sous l'angle des algorithmes de type renforcement et analysons ses composants clés. Étonnamment, nous constatons qu'une base simple d'échantillonnage par rejet, RAFT, qui n'entraîne que sur des échantillons récompensés positivement, offre des performances compétitives par rapport à GRPO et PPO. Nos études d'ablation révèlent que le principal avantage de GRPO provient de l'élimination des prompts avec des réponses entièrement incorrectes, plutôt que de sa normalisation des récompenses. Motivés par cette observation, nous proposons Reinforce-Rej, une extension minimale du gradient de politique qui filtre à la fois les échantillons entièrement incorrects et entièrement corrects. Reinforce-Rej améliore l'efficacité KL et la stabilité, constituant une alternative légère mais efficace aux algorithmes RL plus complexes. Nous recommandons RAFT comme base robuste et interprétable, et suggérons que les avancées futures devraient se concentrer sur des conceptions plus rigoureuses pour intégrer les échantillons négatifs, plutôt que de les utiliser de manière indiscriminée. Nos résultats fournissent des orientations pour les travaux futurs sur le post-entraînement des LLMs basé sur les récompenses.
Les modèles de raisonnement ont démontré des progrès remarquables dans la résolution de tâches complexes et fortement logiques en générant des chaînes de pensée (Chain-of-Thoughts, CoTs) étendues avant d'arriver à une réponse finale. Cependant, l'émergence de ce paradigme de "pensée lente", avec de nombreux tokens générés en séquence, introduit inévitablement une surcharge computationnelle importante. Cela met en lumière un besoin urgent d'accélération efficace. Cette étude vise à fournir un aperçu complet des avancées récentes en matière de raisonnement efficace. Elle catégorise les travaux existants selon trois axes principaux : (1) plus court - compresser les CoTs longues en chaînes de raisonnement concises mais efficaces ; (2) plus petit - développer des modèles de langage compacts dotés de solides capacités de raisonnement grâce à des techniques telles que la distillation de connaissances, d'autres techniques de compression de modèles et l'apprentissage par renforcement ; et (3) plus rapide - concevoir des stratégies de décodage efficaces pour accélérer l'inférence. Une sélection de documents discutés dans cette étude est disponible dans notre dépôt GitHub.
Comme les grands modèles de langage sont coûteux à pré-entraîner sur différents ensembles de données, il est crucial d'utiliser des expériences à plus petite échelle pour décider des données afin de réduire les coûts. Quels benchmarks et méthodes de prise de décision basés sur les performances observées à petite échelle prédisent le plus précisément les ensembles de données qui produisent les meilleurs grands modèles ? Pour permettre une exploration ouverte de cette question, nous publions des modèles, des données et des évaluations dans DataDecide -- la suite ouverte la plus complète de modèles basés sur des différences de données et d'échelle. Nous menons des expériences de pré-entraînement contrôlées sur 25 corpus avec des sources, des déduplications et des filtrages différents, allant jusqu'à 100 milliards de tokens, des tailles de modèles allant jusqu'à 1 milliard de paramètres, et 3 graines aléatoires. Nous constatons que le classement des modèles à une seule petite taille (par exemple, 150 millions de paramètres) constitue une base solide pour prédire les meilleurs modèles à notre échelle cible plus grande (1 milliard) (~80% des comparaisons correctes). Aucune méthode de loi d'échelle parmi 8 baselines ne dépasse la frontière de décision en termes de calcul des prédictions à une seule échelle, mais DataDecide peut mesurer les améliorations futures des lois d'échelle. Nous identifions également que l'utilisation de métriques de vraisemblance continue comme proxies dans de petites expériences rend les benchmarks incluant MMLU, ARC, HellaSwag, MBPP et HumanEval prédictibles à plus de 80% à l'échelle cible de 1 milliard avec seulement 0,01% du calcul.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) améliore les performances des Modèles de Langue à Grande Échelle (Large Language Models, LLM) sur des tâches nécessitant une connaissance approfondie, mais dépend fortement de la qualité de la requête de recherche initiale. Les méthodes actuelles, utilisant souvent l'Apprentissage par Renforcement (Reinforcement Learning, RL), se concentrent généralement sur la formulation des requêtes ou le raisonnement sur les résultats, sans encourager explicitement la persévérance après une recherche infructueuse. Nous introduisons ReZero (Retry-Zero), un nouveau cadre RL qui récompense directement l'acte de réessayer une requête de recherche après une première tentative infructueuse. Cela incite le LLM à explorer des requêtes alternatives plutôt que de s'arrêter prématurément. ReZero démontre une amélioration significative, atteignant une précision de 46,88 % contre un taux de référence de 25 %. En récompensant la persévérance, ReZero renforce la robustesse des LLM dans des scénarios complexes de recherche d'information où les requêtes initiales peuvent s'avérer insuffisantes.
Cet article présente SAIL, un modèle de langage multimodal unifié (MLLM) basé sur un unique transformateur, qui intègre l'encodage de pixels bruts et le décodage de langage au sein d'une architecture singulière. Contrairement aux MLLM modulaires existants, qui s'appuient sur un transformateur de vision pré-entraîné (ViT), SAIL élimine le besoin d'un encodeur visuel séparé, offrant ainsi une conception architecturale plus minimaliste. Plutôt que d'introduire de nouveaux composants architecturaux, SAIL adapte des mécanismes d'attention mixte et des encodages positionnels multimodaux pour mieux s'aligner avec les caractéristiques distinctes des modalités visuelles et textuelles. Nous comparons systématiquement les propriétés de SAIL — incluant l'évolutivité, les schémas de flux d'information intermodaux et les capacités de représentation visuelle — avec celles des MLLM modulaires. En augmentant à la fois les données d'entraînement et la taille du modèle, SAIL atteint des performances comparables à celles des MLLM modulaires. Notamment, la suppression des composants ViT pré-entraînés améliore l'évolutivité de SAIL et entraîne des schémas de flux d'information intermodaux significativement différents. De plus, SAIL démontre de solides capacités de représentation visuelle, obtenant des résultats comparables à ceux de ViT-22B dans des tâches de vision telles que la segmentation sémantique. Le code et les modèles sont disponibles à l'adresse https://github.com/bytedance/SAIL.
Ce travail présente SimpleAR, un cadre de génération visuelle autorégressive simple sans modifications architecturales complexes. Grâce à une exploration minutieuse de l'optimisation de l'entraînement et de l'inférence, nous démontrons que : 1) avec seulement 0,5 milliard de paramètres, notre modèle peut générer des images en résolution 1024x1024 avec une haute fidélité, et obtenir des résultats compétitifs sur des benchmarks exigeants de génération texte-image, par exemple 0,59 sur GenEval et 79,66 sur DPG ; 2) le fine-tuning supervisé (SFT) et l'optimisation de politique relative par groupe (GRPO) peuvent tous deux conduire à des améliorations significatives en termes d'esthétique de génération et d'alignement avec les prompts ; et 3) lorsqu'il est optimisé avec des techniques d'accélération d'inférence comme vLLM, le temps nécessaire à SimpleAR pour générer une image 1024x1024 peut être réduit à environ 14 secondes. En partageant ces découvertes et en ouvrant le code source, nous espérons révéler le potentiel de la génération visuelle autorégressive et encourager une plus grande participation dans ce domaine de recherche. Le code est disponible à l'adresse https://github.com/wdrink/SimpleAR.
La capacité à effectuer des raisonnements mathématiques complexes constitue un critère essentiel pour l'intelligence artificielle. Bien que l'apprentissage par renforcement (RL) appliqué aux LLM montre des résultats prometteurs, les progrès sont considérablement entravés par le manque de données d'entraînement à grande échelle suffisamment difficiles, possédant des formats de réponse vérifiables adaptés au RL, et exemptes de contamination avec les benchmarks d'évaluation. Pour pallier ces limitations, nous introduisons DeepMath-103K, un nouveau jeu de données à grande échelle comprenant environ 103 000 problèmes mathématiques, spécifiquement conçu pour entraîner des modèles de raisonnement avancés via le RL. DeepMath-103K est élaboré grâce à un pipeline rigoureux incluant l'analyse des sources, une décontamination stricte par rapport à de nombreux benchmarks, et un filtrage pour une difficulté élevée (principalement niveaux 5 à 9), dépassant significativement les ressources ouvertes existantes en termes de défi. Chaque problème comprend une réponse finale vérifiable, permettant un RL basé sur des règles, ainsi que trois solutions distinctes générées par R1 adaptées à divers paradigmes d'entraînement comme le fine-tuning supervisé ou la distillation. Couvrant un large éventail de sujets mathématiques, DeepMath-103K favorise le développement d'un raisonnement généralisable. Nous démontrons que les modèles entraînés sur DeepMath-103K obtiennent des améliorations significatives sur des benchmarks mathématiques difficiles, validant ainsi son efficacité. Nous rendons DeepMath-103K public afin de faciliter les progrès de la communauté dans la construction de systèmes de raisonnement IA plus performants : https://github.com/zwhe99/DeepMath.
Les modèles de récompense de processus (PRM) fournissent une supervision au niveau des étapes pour les grands modèles de langage (LLM), mais l'augmentation de l'annotation des données d'entraînement reste un défi tant pour les humains que pour les LLM. Pour surmonter cette limitation, nous proposons une approche d'apprentissage actif, ActPRM, qui sélectionne de manière proactive les échantillons les plus incertains pour l'entraînement, réduisant ainsi considérablement les coûts d'étiquetage. Pendant l'entraînement, nous utilisons le PRM pour estimer l'incertitude après la passe avant, en conservant uniquement les données très incertaines. Un modèle de raisonnement performant mais coûteux étiquette ensuite ces données. Nous calculons ensuite la perte par rapport aux étiquettes et mettons à jour les poids du PRM. Nous comparons ActPRM à un réglage fin classique, dans un cadre d'apprentissage actif basé sur un pool de données, démontrant qu'ActPRM réduit de 50 % l'annotation tout en atteignant des performances comparables, voire supérieures. Au-delà de l'efficacité de l'annotation, nous améliorons davantage le PRM entraîné activement en filtrant plus de 1 million de trajectoires de raisonnement mathématique avec ActPRM, en conservant 60 % des données. Un entraînement ultérieur sur cet ensemble de données sélectionné permet d'obtenir un nouveau PRM de pointe (SOTA) sur ProcessBench (75,0 %) et PRMBench (65,5 %) par rapport à des modèles de même taille.
Les modèles de diffusion excellent dans la génération de données de haute dimension, mais ils sont moins performants en termes d'efficacité d'entraînement et de qualité de représentation par rapport aux méthodes auto-supervisées. Nous identifions un goulot d'étranglement clé : la sous-utilisation de représentations de haute qualité et riches en sémantique pendant l'entraînement ralentit considérablement la convergence. Notre analyse systématique révèle une région critique de traitement des représentations — principalement dans les premières couches — où l'apprentissage des motifs sémantiques et structurels a lieu avant que la génération ne puisse se produire. Pour remédier à cela, nous proposons l'Embedded Representation Warmup (ERW), un framework plug-and-play où, dans une première étape, le module ERW sert d'échauffement en initialisant les premières couches du modèle de diffusion avec des représentations pré-entraînées de haute qualité. Cet échauffement minimise la charge d'apprentissage des représentations à partir de zéro, accélérant ainsi la convergence et améliorant les performances. Notre analyse théorique démontre que l'efficacité de l'ERW dépend de son intégration précise dans des couches spécifiques du réseau neuronal — appelées la région de traitement des représentations — où le modèle traite et transforme principalement les représentations de caractéristiques pour la génération ultérieure. Nous établissons en outre que l'ERW accélère non seulement la convergence de l'entraînement, mais améliore également la qualité des représentations : empiriquement, notre méthode atteint une accélération de 40 fois la vitesse d'entraînement par rapport à REPA, les méthodes actuelles de pointe. Le code est disponible à l'adresse https://github.com/LINs-lab/ERW.
Les modèles de diffusion sont largement reconnus pour leur capacité à générer des images de haute fidélité. Malgré les excellentes performances et l'évolutivité de l'architecture Diffusion Transformer (DiT), celle-ci applique une compression fixe à travers différentes régions de l'image pendant le processus de diffusion, ignorant les densités d'information naturellement variables présentes dans ces régions. Cependant, une compression importante limite le réalisme local, tandis qu'une compression réduite augmente la complexité computationnelle et compromet la cohérence globale, affectant finalement la qualité des images générées. Pour surmonter ces limitations, nous proposons de compresser dynamiquement différentes régions de l'image en reconnaissant l'importance de ces régions, et introduisons un nouveau cadre en deux étapes conçu pour améliorer l'efficacité et l'efficience de la génération d'images : (1) Le Dynamic VAE (DVAE) à la première étape utilise un encodeur hiérarchique pour encoder différentes régions de l'image à différents taux de sous-échantillonnage, adaptés à leurs densités d'information spécifiques, fournissant ainsi des codes latents plus précis et naturels pour le processus de diffusion. (2) Le Dynamic Diffusion Transformer (D^2iT) à la deuxième étape génère des images en prédisant un bruit multi-granulaire, composé de bruit à grain grossier (moins de codes latents dans les régions lisses) et à grain fin (plus de codes latents dans les régions détaillées), grâce à une combinaison novatrice du Dynamic Grain Transformer et du Dynamic Content Transformer. La stratégie consistant à combiner une prédiction approximative du bruit avec une correction des régions détaillées permet d'atteindre une unification de la cohérence globale et du réalisme local. Des expériences approfondies sur diverses tâches de génération valident l'efficacité de notre approche. Le code sera disponible à l'adresse https://github.com/jiawn-creator/Dynamic-DiT.
Les benchmarks multimodaux actuels confondent souvent le raisonnement avec les connaissances spécifiques à un domaine, rendant difficile l'isolation et l'évaluation des capacités de raisonnement général dans des contextes non experts. Pour remédier à cela, nous introduisons VisualPuzzles, un benchmark qui cible le raisonnement visuel tout en minimisant délibérément la dépendance aux connaissances spécialisées. VisualPuzzles se compose de questions variées couvrant cinq catégories : raisonnement algorithmique, analogique, déductif, inductif et spatial. Une source majeure de nos questions provient de la traduction manuelle de questions de raisonnement logique issues de l'examen de la fonction publique chinoise. Les expériences montrent que VisualPuzzles nécessite significativement moins de connaissances spécifiques à un domaine et un raisonnement plus complexe par rapport à des benchmarks comme MMMU, nous permettant ainsi de mieux évaluer le raisonnement multimodal authentique. Les évaluations montrent que les modèles de langage multimodaux de pointe sont systématiquement en retard par rapport aux performances humaines sur VisualPuzzles, et qu'une performance élevée sur des benchmarks axés sur les connaissances ne se traduit pas nécessairement par un succès sur des tâches centrées sur le raisonnement et légères en connaissances. De plus, les améliorations de raisonnement telles que l'augmentation de la puissance de calcul pour l'inférence (avec des modes de "réflexion") produisent des gains incohérents selon les modèles et les types de tâches, et nous n'observons aucune corrélation claire entre la taille du modèle et la performance. Nous avons également constaté que les modèles présentent des schémas de raisonnement et de réponse différents sur VisualPuzzles par rapport à des benchmarks mettant davantage l'accent sur les connaissances. VisualPuzzles offre une perspective plus claire pour évaluer les capacités de raisonnement au-delà de la mémorisation de faits et des connaissances spécifiques à un domaine.
Le déploiement de modèles de langage dans des applications grand public introduit de nombreux risques. Bien que les recherches existantes sur les préjudices et les dangers de ces applications suivent des approches descendantes issues de cadres réglementaires et d'analyses théoriques, les preuves empiriques des modes de défaillance en situation réelle restent insuffisamment explorées. Dans ce travail, nous présentons RealHarm, un ensemble de données d'interactions problématiques annotées avec des agents d'IA, construit à partir d'une revue systématique d'incidents rapportés publiquement. En analysant les préjudices, les causes et les dangers spécifiquement du point de vue des déployeurs, nous constatons que les dommages à la réputation constituent le préjudice organisationnel prédominant, tandis que la désinformation émerge comme la catégorie de danger la plus courante. Nous évaluons empiriquement les systèmes de protection et de modération de contenu de pointe pour déterminer si de tels systèmes auraient pu prévenir les incidents, révélant ainsi un écart significatif dans la protection des applications d'IA.
Les architectures hybrides de grands modèles de langage (LLM) qui combinent les mécanismes d'Attention et les modèles d'espace d'état (SSM) atteignent des performances de pointe en termes de précision et de temps d'exécution. Des travaux récents ont montré que l'application de techniques de compression et de distillation aux modèles basés uniquement sur l'Attention permet d'obtenir des modèles plus petits et plus précis à une fraction du coût d'entraînement. Dans ce travail, nous explorons l'efficacité de la compression des architectures hybrides. Nous introduisons une nouvelle stratégie d'élagage sensible aux groupes qui préserve l'intégrité structurelle des blocs SSM et leurs capacités de modélisation de séquences. De plus, nous démontrons la nécessité d'un tel élagage des SSM pour obtenir une amélioration de la précision et de la vitesse d'inférence par rapport aux approches traditionnelles. Notre méthode de compression combine l'élagage des SSM, des couches FFN, des dimensions d'embedding et des couches, suivi d'un réentraînement basé sur la distillation de connaissances, similaire à la technique MINITRON. En utilisant cette approche, nous compressons le modèle hybride Nemotron-H 8B jusqu'à 4 milliards de paramètres avec jusqu'à 40 fois moins de tokens d'entraînement. Le modèle résultant surpasse la précision des modèles de taille similaire tout en atteignant une inférence 2 fois plus rapide, repoussant significativement la frontière de Pareto.
Nous présentons AI University (AI-U), un cadre flexible pour la diffusion de contenu de cours pilotée par l'IA qui s'adapte aux styles d'enseignement des instructeurs. Au cœur d'AI-U, un modèle de langage de grande taille (LLM) est affiné avec une génération augmentée par récupération (RAG) pour produire des réponses alignées sur l'instructeur à partir de vidéos de cours, de notes et de manuels. En utilisant un cours de niveau master sur la méthode des éléments finis (FEM) comme étude de cas, nous présentons un pipeline évolutif pour construire systématiquement des données d'entraînement, affiner un LLM open-source avec l'adaptation de bas rang (LoRA), et optimiser ses réponses grâce à une synthèse basée sur RAG. Notre évaluation - combinant la similarité cosinus, l'évaluation par LLM et l'examen par des experts - démontre un fort alignement avec les supports de cours. Nous avons également développé une application web prototype, disponible à l'adresse https://my-ai-university.com, qui améliore la traçabilité en liant les réponses générées par l'IA à des sections spécifiques du matériel de cours pertinent et à des instances horodatées des vidéos de cours en accès libre. Notre modèle expert présente une similarité cosinus plus élevée avec une référence dans 86 % des cas de test. Un juge LLM a également constaté que notre modèle expert surpasse le modèle de base Llama 3.2 environ quatre fois sur cinq. AI-U propose une approche évolutive pour l'éducation assistée par l'IA, ouvrant la voie à une adoption plus large dans l'enseignement supérieur. Ici, notre cadre a été présenté dans le contexte d'un cours sur la FEM - un sujet central dans la formation des doctorants et des étudiants de master en sciences de l'ingénieur. Cependant, ce contexte est une instance particulière d'un cadre plus large : l'affinement de LLMs pour le contenu de recherche en sciences.
Ce rapport offre un aperçu complet du 4e défi Pixel-level Video Understanding in the Wild (PVUW), organisé en parallèle de la conférence CVPR 2025. Il résume les résultats du défi, les méthodologies des participants et les orientations futures de la recherche. Le défi comprend deux pistes : MOSE, qui se concentre sur la segmentation d'objets vidéo dans des scènes complexes, et MeViS, qui vise la segmentation vidéo guidée par le mouvement et basée sur le langage. Les deux pistes introduisent de nouveaux ensembles de données plus exigeants, conçus pour mieux refléter les scénarios du monde réel. Grâce à une évaluation et une analyse détaillées, le défi fournit des insights précieux sur l'état de l'art actuel et les tendances émergentes dans le domaine de la segmentation vidéo complexe. Plus d'informations sont disponibles sur le site web de l'atelier : https://pvuw.github.io/.
L'application des modèles de diffusion à la complétion de scènes 3D LiDAR est limitée en raison de la lenteur d'échantillonnage de la diffusion. La distillation de score accélère l'échantillonnage de la diffusion, mais avec une dégradation des performances, tandis que l'optimisation directe de la politique (DPO) post-entraînement améliore les performances en utilisant des données de préférence. Cet article propose Distillation-DPO, un nouveau cadre de distillation de diffusion pour la complétion de scènes LiDAR avec alignement des préférences. Premièrement, le modèle étudiant génère des paires de scènes complétées avec différents bruits initiaux. Deuxièmement, en utilisant les métriques d'évaluation de scènes LiDAR comme préférence, nous construisons des paires d'échantillons gagnants et perdants. Une telle construction est raisonnable, car la plupart des métriques de scènes LiDAR sont informatives mais non différentiables pour être optimisées directement. Troisièmement, Distillation-DPO optimise le modèle étudiant en exploitant la différence des fonctions de score entre les modèles enseignant et étudiant sur les paires de scènes complétées. Cette procédure est répétée jusqu'à convergence. Des expériences approfondies démontrent que, par rapport aux modèles de diffusion de complétion de scènes LiDAR de pointe, Distillation-DPO réalise une complétion de scène de qualité supérieure tout en accélérant la vitesse de complétion de plus de 5 fois. À notre connaissance, notre méthode est la première à explorer l'adoption de l'apprentissage par préférence dans la distillation et à fournir des insights sur la distillation alignée sur les préférences. Notre code est disponible publiquement sur https://github.com/happyw1nd/DistillationDPO.
L'examen par les pairs est une pierre angulaire du contrôle qualité dans l'édition scientifique. Face à la charge de travail croissante, l'utilisation involontaire d'heuristiques « rapides », qualifiée de pensée paresseuse, est apparue comme un problème récurrent compromettant la qualité des évaluations. Les méthodes automatisées pour détecter de telles heuristiques peuvent contribuer à améliorer le processus d'examen par les pairs. Cependant, les recherches en traitement automatique du langage (NLP) sur ce sujet sont limitées, et aucun jeu de données réel n'existe pour soutenir le développement d'outils de détection. Ce travail présente LazyReview, un ensemble de données de phrases d'évaluation par les pairs annotées avec des catégories fines de pensée paresseuse. Notre analyse révèle que les modèles de langage de grande taille (LLMs) peinent à détecter ces instances dans un cadre zero-shot. Cependant, un ajustement fin basé sur des instructions avec notre jeu de données améliore significativement les performances de 10 à 20 points, soulignant l'importance de données d'entraînement de haute qualité. Par ailleurs, une expérience contrôlée démontre que les évaluations révisées avec un retour sur la pensée paresseuse sont plus complètes et exploitables que celles rédigées sans un tel retour. Nous mettrons à disposition notre jeu de données ainsi que les lignes directrices améliorées qui pourront être utilisées pour former les jeunes évaluateurs de la communauté. (Code disponible ici : https://github.com/UKPLab/arxiv2025-lazy-review)
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit à des percées significatives dans la compréhension vidéo. Cependant, les modèles existants rencontrent encore des difficultés avec le traitement de vidéos longues en raison de la contrainte de longueur de contexte des LLMs et de la quantité importante d'informations contenues dans la vidéo. Bien que certaines méthodes récentes soient conçues pour la compréhension de vidéos longues, elles perdent souvent des informations cruciales lors de la compression des tokens et peinent à intégrer des modalités supplémentaires comme l'audio. Dans ce travail, nous proposons une méthode d'encodage dynamique de vidéos longues exploitant la relation temporelle entre les images, nommée Contexte Temporel Dynamique (TDC). Tout d'abord, nous segmentons la vidéo en scènes sémantiquement cohérentes en fonction des similarités inter-images, puis encodons chaque image en tokens à l'aide d'encodeurs visuels-audio. Ensuite, nous proposons un compresseur de contexte temporel novateur pour réduire le nombre de tokens dans chaque segment. Plus précisément, nous utilisons un Transformer basé sur des requêtes pour agréger les tokens vidéo, audio et texte d'instruction en un ensemble limité de tokens de contexte temporel. Enfin, nous alimentons les tokens d'images statiques et les tokens de contexte temporel dans le LLM pour la compréhension vidéo. Par ailleurs, pour gérer des vidéos extrêmement longues, nous proposons une stratégie de chaîne de pensée sans apprentissage qui extrait progressivement des réponses à partir de multiples segments vidéo. Ces réponses intermédiaires servent de partie du processus de raisonnement et contribuent à la réponse finale. Nous menons des expériences approfondies sur des benchmarks de compréhension vidéo générale et de compréhension audio-vidéo, où notre méthode démontre de solides performances. Le code et les modèles sont disponibles à l'adresse https://github.com/Hoar012/TDC-Video.
Les modèles vision-langage (VLMs) peuvent traiter des informations visuelles et textuelles dans divers formats : textes, images, textes et images entrelacés, voire des vidéos de plusieurs heures. Dans ce travail, nous menons des analyses quantitatives et qualitatives détaillées de la synthèse automatique de présentations multimodales en utilisant des VLMs avec différentes représentations en entrée. À partir de ces expériences, nous proposons des stratégies rentables pour générer des résumés à partir de documents multimodaux riches en texte, sous différentes contraintes de longueur d'entrée, en utilisant des VLMs. Nous montrons que les diapositives extraites du flux vidéo peuvent être avantageusement utilisées en entrée par rapport à la vidéo brute, et qu'une représentation structurée à partir de diapositives et de transcriptions entrelacées offre les meilleures performances. Enfin, nous réfléchissons et commentons la nature des interactions intermodales dans les présentations multimodales, et partageons des suggestions pour améliorer les capacités des VLMs à comprendre des documents de cette nature.
Le Transformer à Oubli (FoX) récemment proposé intègre une porte d'oubli dans l'attention softmax et a démontré des performances systématiquement meilleures ou équivalentes par rapport au Transformer standard basé sur RoPE. De manière notable, de nombreuses têtes d'attention dans FoX ont tendance à oublier rapidement, ce qui fait que leur sortie à chaque pas de temps dépend principalement du contexte local. Sur la base de cette observation, nous proposons l'Élagage Adaptatif des Calculs (ACP) pour FoX, une méthode qui élimine dynamiquement les calculs impliquant des dépendances entrée-sortie fortement atténuées par la porte d'oubli. Cela est réalisé en utilisant un seuil d'élagage dynamiquement ajusté qui garantit que les poids d'attention élagués restent négligeables. Nous appliquons ACP à l'apprentissage préalable de modèles de langage avec FoX et montrons qu'il réduit systématiquement le nombre de FLOPs dans l'attention softmax d'environ 70% pour différentes tailles de modèles et longueurs de contexte, entraînant une amélioration du débit d'entraînement d'environ 10% à 35%. De plus, des longueurs de contexte plus longues génèrent des économies de calcul plus importantes. Toutes ces améliorations de vitesse sont obtenues sans aucune dégradation des performances. Nous effectuons également plusieurs analyses pour fournir une compréhension plus approfondie de notre méthode, comme l'examen des motifs d'élagage et l'analyse de la distribution des économies de FLOPs entre les différentes têtes d'attention. Notre code est disponible à l'adresse https://github.com/zhixuan-lin/arctic-fox.
Avec le succès de la génération d'images, les modèles de diffusion générative sont de plus en plus adoptés pour des tâches discriminatives, car la génération de pixels fournit une interface de perception unifiée. Cependant, le simple réemploi du processus génératif de débruitage pour des objectifs discriminatifs révèle des lacunes critiques rarement abordées auparavant. Les modèles génératifs tolèrent les erreurs d'échantillonnage intermédiaires si la distribution finale reste plausible, mais les tâches discriminatives nécessitent une précision rigoureuse tout au long du processus, comme en témoignent les tâches multimodales complexes telles que la segmentation d'images par référence. Motivés par cette lacune, nous analysons et améliorons l'alignement entre les processus de diffusion générative et les tâches de perception, en nous concentrant sur l'évolution de la qualité de perception pendant le débruitage. Nous constatons : (1) les étapes de débruitage initiales contribuent de manière disproportionnée à la qualité de perception, ce qui nous incite à proposer des objectifs d'apprentissage adaptés reflétant les contributions variables selon les pas de temps ; (2) les étapes de débruitage ultérieures montrent une dégradation inattendue de la perception, mettant en évidence la sensibilité aux décalages de distribution entre l'entraînement et le débruitage, que nous résolvons par une augmentation de données spécifique à la diffusion ; et (3) les processus génératifs permettent de manière unique l'interactivité, servant d'interfaces utilisateur contrôlables adaptables aux invites correctives dans les interactions multi-tours. Nos insights améliorent significativement les modèles de perception basés sur la diffusion sans modifications architecturales, atteignant des performances de pointe en estimation de profondeur, segmentation d'images par référence et tâches de perception généralistes. Le code est disponible à l'adresse https://github.com/ziqipang/ADDP.
Malgré leur utilisation fréquente pour la détection de changements, les réseaux convolutifs (ConvNets) et les Vision Transformers (ViT) présentent des limitations bien connues : les premiers peinent à modéliser les dépendances à longue portée, tandis que les seconds sont inefficaces sur le plan computationnel, ce qui les rend difficiles à entraîner sur des jeux de données à grande échelle. Vision Mamba, une architecture basée sur les modèles d'espace d'état, a émergé comme une alternative pour pallier ces lacunes et a déjà été appliquée à la détection de changements en télédétection, bien que principalement en tant que backbone d'extraction de caractéristiques. Dans cet article, le Change State Space Model (CSSM) est introduit, conçu spécifiquement pour la détection de changements en se concentrant sur les modifications pertinentes entre des images bi-temporelles, filtrant ainsi efficacement les informations non pertinentes. En se focalisant uniquement sur les caractéristiques modifiées, le nombre de paramètres du réseau est réduit, améliorant significativement l'efficacité computationnelle tout en maintenant une performance de détection élevée et une robustesse face à la dégradation des entrées. Le modèle proposé a été évalué sur trois jeux de données de référence, où il a surpassé les ConvNets, les ViT et les modèles basés sur Mamba, avec une fraction de leur complexité computationnelle. L'implémentation sera disponible à l'adresse https://github.com/Elman295/CSSM après acceptation.