papers.description
Les capacités de raisonnement des grands modèles de langage (LLMs) constituent depuis longtemps un axe central de la recherche. Des travaux récents ont encore amélioré ces capacités en utilisant l'apprentissage par renforcement (RL), avec de nombreuses nouvelles méthodes revendiquant des améliorations significatives avec une supervision externe minimale voire inexistante. Étonnamment, certaines études suggèrent même que des signaux de récompense aléatoires ou incorrects peuvent améliorer les performances de raisonnement. Cependant, ces avancées sont principalement rapportées sur la famille de modèles Qwen2.5 et évaluées sur des benchmarks bien connus tels que MATH-500, AMC et AIME, tout en échouant à obtenir des gains similaires sur d'autres modèles comme Llama, ce qui justifie des investigations plus poussées. Notre analyse montre que bien que Qwen2.5 atteigne de solides performances en raisonnement mathématique, son pré-entraînement sur des corpus web à grande échelle le rend vulnérable à la contamination des données dans les benchmarks populaires. Par conséquent, les résultats issus de ces benchmarks peuvent être peu fiables. Pour remédier à cela, nous introduisons un générateur produisant des problèmes arithmétiques entièrement synthétiques de longueur et difficulté arbitraires, créant ainsi un ensemble de données propre que nous appelons RandomCalculation. En utilisant ces ensembles de données exempts de fuites, nous montrons que seuls des signaux de récompense précis améliorent systématiquement les performances, tandis que des signaux bruités ou incorrects n'y parviennent pas. Nous préconisons d'évaluer les méthodes RL sur des benchmarks non contaminés et à travers diverses familles de modèles pour garantir des conclusions fiables.
La mise à l'échelle des modèles de langage débloque des capacités impressionnantes, mais les exigences computationnelles et en mémoire qui l'accompagnent rendent l'entraînement et le déploiement coûteux. Les efforts existants en matière d'efficacité ciblent généralement soit le partage de paramètres, soit le calcul adaptatif, laissant ouverte la question de savoir comment atteindre les deux simultanément. Nous introduisons Mixture-of-Recursions (MoR), un cadre unifié qui combine ces deux axes d'efficacité au sein d'un seul Transformer récursif. MoR réutilise une pile partagée de couches à travers les étapes de récursion pour atteindre l'efficacité des paramètres, tandis que des routeurs légers permettent une réflexion adaptative au niveau des tokens en assignant dynamiquement différentes profondeurs de récursion à des tokens individuels. Cela permet à MoR de concentrer le calcul d'attention quadratique uniquement parmi les tokens encore actifs à une profondeur de récursion donnée, améliorant ainsi l'efficacité d'accès à la mémoire en mettant en cache de manière sélective uniquement leurs paires clé-valeur. Au-delà de ces mécanismes de base, nous proposons également une variante de partage KV qui réutilise les paires KV de la première récursion, spécifiquement conçue pour réduire la latence de préremplissage et l'empreinte mémoire. À travers des échelles de modèles allant de 135M à 1,7B de paramètres, MoR forme une nouvelle frontière de Pareto : à égalité de FLOPs d'entraînement et avec des tailles de modèles plus petites, il réduit significativement la perplexité de validation et améliore la précision en few-shot, tout en offrant un débit plus élevé par rapport aux baselines récursives existantes et classiques. Ces gains démontrent que MoR est une voie efficace pour atteindre la qualité des grands modèles sans en supporter le coût.
Le développement rapide des modèles à grande échelle a catalysé des avancées significatives dans le domaine des humains numériques. Ces méthodologies avancées offrent des solutions haute fidélité pour le pilotage et le rendu d'avatars, incitant le monde académique à se concentrer sur le prochain défi majeur : les humains virtuels interactifs audio-visuels dyadiques. Pour faciliter la recherche dans ce domaine émergent, nous présentons le jeu de données SpeakerVid-5M, le premier ensemble de données à grande échelle et de haute qualité conçu pour la génération d'humains virtuels interactifs audio-visuels dyadiques. Totalisant plus de 8 743 heures, SpeakerVid-5M contient plus de 5,2 millions de clips vidéo de portraits humains. Il couvre une diversité d'échelles et de types d'interaction, incluant des monologues, des écoutes et des conversations dyadiques. De manière cruciale, le jeu de données est structuré selon deux dimensions clés : le type d'interaction et la qualité des données. Premièrement, il est catégorisé en quatre types (branche dialogue, branche unique, branche écoute et branche multi-tours) en fonction du scénario d'interaction. Deuxièmement, il est stratifié en un sous-ensemble de pré-entraînement à grande échelle et un sous-ensemble soigneusement sélectionné de haute qualité pour le réglage fin supervisé (SFT). Cette structure duale s'adapte à une large gamme de tâches d'humains virtuels 2D. En outre, nous fournissons une base de référence pour un chat vidéo basé sur un modèle autorégressif (AR) entraîné sur ces données, accompagnée d'un ensemble dédié de métriques et de données de test pour servir de référence VidChatBench pour les travaux futurs. Le jeu de données ainsi que le code de traitement des données correspondant seront rendus publics. Page du projet : https://dorniwang.github.io/SpeakerVid-5M/
Les modèles vision-langage (VLMs) récents ont démontré des performances impressionnantes dans des tâches passives et hors ligne de compréhension d'images et de vidéos. Cependant, leur efficacité dans des contextes incarnés, qui nécessitent une interaction en temps réel et une compréhension active de la scène, reste limitée. Dans de tels scénarios, un agent perçoit l'environnement selon une perspective à la première personne, chaque action modifiant dynamiquement les observations suivantes. Même les modèles de pointe tels que GPT-4o, Claude 3.5 Sonnet et Gemini 2.5 Pro rencontrent des difficultés dans les interactions en environnement ouvert, révélant des limites évidentes en matière de raisonnement spatial et de planification à long terme. Pour combler cette lacune, nous présentons EmRACE-3K, un ensemble de données comprenant plus de 3 000 tâches guidées par le langage, situées dans des environnements divers et photoréalistes construits à l'aide d'Unreal Engine et du framework UnrealCV-Zoo. Ces tâches englobent un large éventail de défis incarnés, incluant la navigation, la manipulation d'objets et l'exécution d'objectifs en plusieurs étapes. Chaque tâche se déroule comme une trajectoire en plusieurs étapes, associant des observations visuelles à la première personne à des instructions de haut niveau, des actions concrètes et des justifications en langage naturel exprimant l'intention de l'agent à chaque étape. En utilisant EmRACE-3K, nous établissons un benchmark pour évaluer les capacités de raisonnement incarné des VLMs selon trois dimensions clés : l'exploration, le raisonnement spatial-sémantique dynamique et l'exécution d'objectifs en plusieurs étapes. En configuration zero-shot, tous les modèles obtiennent des taux de réussite inférieurs à 20 %, soulignant la difficulté de notre benchmark et les limites actuelles des VLMs dans des environnements interactifs. Pour démontrer l'utilité d'EmRACE-3K, nous affinons ensuite Qwen2.5-VL-7B en utilisant un apprentissage supervisé suivi d'un apprentissage par renforcement. Cette approche entraîne des améliorations substantielles dans les trois catégories de défis, mettant en évidence l'efficacité du dataset pour le développement de capacités de raisonnement incarné.
Les modèles récents de raisonnement à grande échelle (LRMs) ont réalisé des progrès remarquables sur des benchmarks spécifiques à des tâches, mais leurs méthodes d'évaluation restent limitées par des paradigmes de résolution de problèmes isolés. Les benchmarks existants évaluent principalement le raisonnement sur une seule question à travers des tests séquentiels, ce qui entraîne des limitations critiques : (1) une vulnérabilité à la contamination des données et des défis moins exigeants (par exemple, DeepSeek-R1 atteint 97,0 % sur MATH500), forçant la création coûteuse et perpétuelle de nouvelles questions avec un effort humain important, (2) l'incapacité à évaluer les modèles sous pression multi-contexte, une exigence clé pour un déploiement en conditions réelles. Pour combler cette lacune, nous présentons REST (Évaluation du Raisonnement par Test Simultané), un cadre de test de stress qui expose simultanément les LRMs à plusieurs problèmes. Au-delà du raisonnement de base, REST évalue spécifiquement plusieurs capacités sous-testées : l'allocation prioritaire contextuelle, la résistance aux interférences inter-problèmes et la gestion dynamique de la charge cognitive. Notre évaluation révèle plusieurs résultats frappants : même les modèles de pointe (SOTA) comme DeepSeek-R1 montrent une dégradation substantielle de leurs performances sous test de stress. Crucialement, REST démontre un pouvoir discriminant plus fort que les benchmarks existants, révélant des différences de performances prononcées parmi les modèles qui affichent des performances similaires et quasi maximales sous évaluation à question unique. Plusieurs insights mécanistiques clés émergent de notre analyse : (1) le "piège de la sur-réflexion" est un facteur critique contribuant à la dégradation des performances ; (2) les modèles entraînés avec la technique "long2short" préservent davantage la précision de leurs performances à problème unique sous REST, surpassant leurs homologues entraînés de manière standard. Ces résultats établissent REST comme un paradigme d'évaluation rentable et pérenne qui reflète mieux les exigences de raisonnement en conditions réelles tout en réduisant la dépendance à l'annotation humaine continue.
Les grands modèles de langage (LLMs) excellent dans la compréhension et la génération du langage naturel, mais restent vulnérables aux erreurs factuelles, limitant ainsi leur fiabilité dans les tâches nécessitant une connaissance approfondie. Bien que les stratégies appliquées au moment du décodage offrent une solution efficace prometteuse sans nécessiter d'entraînement, les méthodes existantes traitent généralement les signaux au niveau des tokens et des couches de manière isolée, négligeant la dynamique conjointe entre eux. Dans ce travail, nous introduisons une méthode de décodage contrastif localisée par couche et consciente des tokens, qui aligne des types spécifiques de tokens avec leurs couches de transformateurs les plus influentes pour améliorer la génération factuelle. Grâce à une analyse empirique de l'attention, nous identifions deux motifs clés : les tokens de ponctuation reçoivent une attention dominante dans les couches précoces, tandis que les tokens conceptuels gouvernent le raisonnement sémantique dans les couches intermédiaires. En supprimant sélectivement l'attention accordée à ces types de tokens à leurs profondeurs respectives, nous induisons une dégradation factuelle contrôlée et dérivons des signaux contrastifs pour guider le décodage factuel final. Notre méthode ne nécessite aucun entraînement supplémentaire ni modification du modèle, et les expériences démontrent qu'elle améliore systématiquement la factualité sur plusieurs LLMs et divers benchmarks.
Nous présentons MoVieS, un nouveau modèle feed-forward qui synthétise des vues dynamiques 4D à partir de vidéos monoculaires en une seconde. MoVieS représente des scènes 3D dynamiques en utilisant des grilles alignées sur les pixels de primitives gaussiennes, supervisant explicitement leur mouvement variant dans le temps. Cela permet, pour la première fois, la modélisation unifiée de l'apparence, de la géométrie et du mouvement, et rend possible la synthèse de vues, la reconstruction et le suivi de points 3D dans un cadre d'apprentissage unique. En reliant la synthèse de nouvelles vues à la reconstruction de géométrie dynamique, MoVieS permet un entraînement à grande échelle sur des ensembles de données variés avec une dépendance minimale à la supervision spécifique à la tâche. Par conséquent, il supporte naturellement une large gamme d'applications en zero-shot, telles que l'estimation de flux de scène et la segmentation d'objets en mouvement. Des expériences approfondies valident l'efficacité et l'efficience de MoVieS sur plusieurs tâches, atteignant des performances compétitives tout en offrant des accélérations de plusieurs ordres de grandeur.
Récemment, le rôle des LLM en tant qu'évaluateurs (LLM-as-judge) pour juger les grands modèles de langage a gagné en importance. Cependant, les modèles évaluateurs actuels souffrent d'une spécialisation étroite et d'une robustesse limitée, ce qui compromet leur capacité à effectuer des évaluations complètes. Dans ce travail, nous présentons CompassJudger-2, un nouveau modèle évaluateur généraliste qui surmonte ces limitations grâce à une stratégie de curation de données multi-domaines axée sur les tâches. Au cœur de notre approche se trouve la supervision des tâches d'évaluation avec des récompenses vérifiables, guidant le raisonnement critique intrinsèque via un échantillonnage par rejet pour favoriser des capacités d'évaluation robustes et généralisables. Nous introduisons un objectif d'apprentissage raffiné avec une fonction de perte de gradient de politique à marge pour améliorer les performances. Empiriquement, CompassJudger-2 obtient des résultats supérieurs sur plusieurs benchmarks d'évaluation et de récompense, et notre modèle de 7 milliards de paramètres démontre une précision d'évaluation compétitive avec des modèles nettement plus grands comme DeepSeek-V3 et Qwen3-235B-A22B. De plus, nous proposons JudgerBenchV2, un benchmark complet évaluant la précision d'évaluation inter-domaines et la cohérence des classements pour standardiser l'évaluation des modèles évaluateurs. Ces contributions font progresser l'évaluation robuste et scalable des LLM et établissent de nouveaux standards de performance et d'évaluation.
Le développement des modèles de langage à grande échelle (LLMs) nécessite des benchmarks robustes qui englobent non seulement les domaines académiques, mais aussi les secteurs industriels, afin d'évaluer efficacement leur applicabilité dans des scénarios réels. Dans cet article, nous présentons deux benchmarks de niveau expert en coréen. KMMLU-Redux, reconstruit à partir du KMMLU existant, est composé de questions issues des examens de qualification technique nationale coréenne, avec des erreurs critiques supprimées pour améliorer la fiabilité. KMMLU-Pro est basé sur les examens de licence professionnelle nationale coréenne afin de refléter les connaissances professionnelles en Corée. Nos expériences démontrent que ces benchmarks représentent de manière exhaustive les connaissances industrielles en Corée. Nous rendons notre ensemble de données publiquement disponible.
La génération cohérente de sujets (SCG), qui vise à maintenir une identité de sujet cohérente à travers diverses scènes, reste un défi pour les modèles de texte-à-image (T2I). Les méthodes existantes de SCG sans apprentissage atteignent souvent la cohérence au détriment de la diversité des poses et des compositions, limitant ainsi la narration visuelle expressive. Pour pallier cette limitation, nous proposons un cadre T2I cohérent en termes de sujet et diversifié en termes de pose, nommé CoDi, qui permet une génération de sujet cohérente avec des poses et des compositions variées. Motivé par la nature progressive de la diffusion, où les structures grossières apparaissent tôt et les détails fins sont affinés plus tard, CoDi adopte une stratégie en deux étapes : Transport d'Identité (IT) et Raffinement d'Identité (IR). IT opère dans les premières étapes de débruitage, utilisant le transport optimal pour transférer les caractéristiques d'identité à chaque image cible de manière sensible à la pose. Cela favorise la cohérence du sujet tout en préservant la diversité des poses. IR est appliqué dans les étapes ultérieures de débruitage, sélectionnant les caractéristiques d'identité les plus saillantes pour affiner davantage les détails du sujet. Des résultats qualitatifs et quantitatifs approfondis sur la cohérence du sujet, la diversité des poses et la fidélité au texte démontrent que CoDi atteint à la fois une meilleure perception visuelle et des performances supérieures sur tous les indicateurs. Le code est disponible sur https://github.com/NJU-PCALab/CoDi.
Nous présentons DreamPoster, un cadre de génération de texte à image qui synthétise intelligemment des affiches de haute qualité à partir d'images fournies par l'utilisateur et de prompts textuels, tout en préservant la fidélité du contenu et en supportant des résolutions et des mises en page flexibles. Plus précisément, DreamPoster est construit sur notre modèle T2I, Seedream3.0, pour traiter de manière uniforme différents types de génération d'affiches. Pour la construction du jeu de données, nous proposons un pipeline systématique d'annotation de données qui annote avec précision le contenu textuel et les informations hiérarchiques typographiques dans les images d'affiches, tout en employant des méthodologies complètes pour construire des jeux de données appariés comprenant des matériaux sources (par exemple, des graphiques/textes bruts) et leurs sorties d'affiches finales correspondantes. De plus, nous mettons en œuvre une stratégie d'entraînement progressive qui permet au modèle d'acquérir hiérarchiquement des capacités de génération multi-tâches tout en maintenant une génération de haute qualité. Les évaluations sur nos benchmarks de test démontrent la supériorité de DreamPoster par rapport aux méthodes existantes, atteignant un taux d'utilisabilité élevé de 88,55\%, comparé à GPT-4o (47,56\%) et SeedEdit3.0 (25,96\%). DreamPoster sera en ligne sur Jimeng et d'autres applications Bytedance.
Améliorer le raisonnement mathématique des modèles de langage de grande taille (LLMs) constitue un défi crucial pour faire progresser les capacités de l'IA. Bien que le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL) soient les paradigmes d'entraînement dominants, une méthodologie systématique pour les combiner afin de maximiser à la fois la précision et l'efficacité reste largement inexplorée. Cet article présente une recette d'entraînement pratique et efficace qui intègre stratégiquement un SFT prolongé avec un RL basé sur l'inférence en ligne (GRPO). Nous postulons que ces méthodes jouent des rôles complémentaires, et non concurrents : une phase prolongée de SFT pousse d'abord la précision du modèle à ses limites, après quoi une phase de GRPO améliore considérablement l'efficacité des tokens tout en préservant cette performance maximale. Nos expériences révèlent qu'étendre le SFT jusqu'à 10 époques est crucial pour des percées en matière de performance, et que le rôle principal du GRPO dans ce cadre est d'optimiser la longueur des solutions. L'efficacité de notre recette est rigoureusement validée par des performances de premier plan sur des benchmarks exigeants, notamment un classement élevé parmi plus de 2 200 équipes dans l'Olympiade Mathématique d'IA (AIMO) strictement sans fuite. Ce travail fournit à la communauté un plan éprouvé pour développer des raisonneurs mathématiques de pointe à la fois exceptionnellement précis et pratiquement efficaces. Pour garantir une reproductibilité totale et favoriser les recherches futures, nous mettrons en open source l'intégralité de notre cadre, y compris tout le code, les points de contrôle des modèles et les configurations d'entraînement sur https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
Cet article présente une nouvelle méthode de stéganographie exécutable utilisant la couche de transparence alpha des fichiers image ICO pour intégrer et diffuser des charges utiles JavaScript auto-décompressantes dans les navigateurs web. En ciblant le bit de poids faible (LSB) des valeurs de la couche alpha non transparente, la méthode proposée parvient à dissimuler du code JavaScript compressé dans une image favicon sans affecter la fidélité visuelle. Le trafic web mondial charge quotidiennement 294 milliards de favicons et consomme 0,9 pétaoctets de bande passante réseau. Une implémentation de preuve de concept démontre qu'une image ICO de 64x64 peut intégrer jusqu'à 512 octets non compressés, ou 0,8 kilo-octet en utilisant une compression légère en deux étapes. Lors du chargement d'une page, un navigateur récupère la favicon dans le cadre de son comportement standard, permettant à un script de chargement intégré d'extraire et d'exécuter la charge utile entièrement en mémoire à l'aide des API JavaScript natives et de l'accès aux pixels du canvas. Cela crée un canal de communication furtif en deux étapes ne nécessitant aucune requête réseau ou utilisateur supplémentaire. Des tests sur plusieurs navigateurs dans des environnements de bureau et mobiles confirment l'exécution réussie et silencieuse du script intégré. Nous évaluons le modèle de menace, le mettons en relation avec les attaques de phishing polymorphes qui contournent la détection basée sur les favicons, et analysons le contournement des politiques de sécurité de contenu et des scanners antivirus. Nous cartographions neuf objectifs du cadre MITRE ATT&CK à une seule ligne de JavaScript pour exécuter arbitrairement dans les fichiers ICO. Les défenses existantes en stéganalyse et assainissement sont discutées, mettant en lumière les limites dans la détection ou la neutralisation des exploits de la couche alpha. Les résultats démontrent une surface d'attaque furtive et réutilisable qui brouille les frontières traditionnelles entre les images statiques et le contenu exécutable. Étant donné que les navigateurs modernes signalent des erreurs silencieuses lorsque les développeurs ne parviennent pas spécifiquement à charger des fichiers ICO, cette surface d'attaque offre un exemple intéressant de comportements web requis qui compromettent en retour la sécurité.
En tant qu'actifs numériques précieux, les réseaux de neurones profonds nécessitent une protection robuste de la propriété, positionnant le tatouage de réseaux de neurones (Neural Network Watermarking, NNW) comme une solution prometteuse. Parmi les diverses approches de NNW, les méthodes basées sur les poids sont privilégiées pour leur simplicité et leur praticité ; cependant, elles restent vulnérables aux attaques de falsification et de réécriture. Pour relever ces défis, nous proposons NeuralMark, une méthode robuste construite autour d'un filtre de tatouage haché. Plus précisément, nous utilisons une fonction de hachage pour générer un tatouage binaire irréversible à partir d'une clé secrète, qui est ensuite utilisé comme filtre pour sélectionner les paramètres du modèle à intégrer. Cette conception entrelace habilement les paramètres d'intégration avec le tatouage haché, offrant une défense robuste contre les attaques de falsification et de réécriture. Un pooling moyen est également incorporé pour résister aux attaques de réglage fin et d'élagage. De plus, il peut être intégré de manière transparente dans diverses architectures de réseaux de neurones, garantissant une applicabilité étendue. Théoriquement, nous analysons sa limite de sécurité. Empiriquement, nous vérifions son efficacité et sa robustesse sur 13 architectures distinctes de Convolutions et de Transformers, couvrant cinq tâches de classification d'images et une tâche de génération de texte. Les codes sources sont disponibles à l'adresse https://github.com/AIResearch-Group/NeuralMark.
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en compréhension et génération du langage naturel, mais ils présentent des problèmes de cohérence logique dans les sorties qu'ils produisent. Comment pouvons-nous exploiter la connaissance paramétrique à large couverture des LLMs dans le raisonnement formel malgré leur incohérence ? Nous présentons une méthode pour intégrer directement un LLM dans la fonction d'interprétation de la sémantique formelle d'une logique paraconsistante. Nous fournissons des preuves expérimentales de la faisabilité de la méthode en évaluant la fonction à l'aide de jeux de données créés à partir de plusieurs benchmarks de factualité à court terme. Contrairement aux travaux antérieurs, notre méthode propose un cadre théorique pour le raisonnement neuro-symbolique qui tire parti des connaissances d'un LLM tout en préservant les propriétés de validité et de complétude de la logique sous-jacente.