papers.description
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités impressionnantes dans diverses tâches, mais peinent encore avec le raisonnement mathématique complexe. Les recherches existantes se concentrent principalement sur la construction de jeux de données et l'optimisation des méthodes, négligeant souvent deux aspects critiques : une conception axée sur les connaissances et une modélisation centrée sur l'espace de données du modèle. Dans cet article, nous présentons We-Math 2.0, un système unifié qui intègre un système structuré de connaissances mathématiques, une modélisation centrée sur l'espace de données du modèle, et un paradigme d'entraînement basé sur l'apprentissage par renforcement (RL) pour améliorer de manière exhaustive les capacités de raisonnement mathématique des MLLMs. Les contributions clés de We-Math 2.0 sont quadruples : (1) Système de connaissances MathBook : Nous construisons un système hiérarchique à cinq niveaux englobant 491 points de connaissance et 1 819 principes fondamentaux. (2) MathBook-Standard & Pro : Nous développons MathBook-Standard, un jeu de données qui assure une couverture conceptuelle large et une flexibilité grâce à une double expansion. De plus, nous définissons un espace de difficulté tridimensionnel et générons 7 variantes progressives par problème pour construire MathBook-Pro, un jeu de données exigeant pour un entraînement robuste. (3) MathBook-RL : Nous proposons un cadre RL en deux étapes comprenant : (i) un Fine-tuning à froid, qui aligne le modèle sur un raisonnement en chaîne de pensée orienté par les connaissances ; et (ii) un RL d'alignement progressif, exploitant l'apprentissage par récompense moyenne et une planification dynamique des données pour atteindre un alignement progressif à travers les niveaux de difficulté. (4) MathBookEval : Nous introduisons un benchmark complet couvrant les 491 points de connaissance avec des distributions variées d'étapes de raisonnement. Les résultats expérimentaux montrent que MathBook-RL rivalise avec les baselines existantes sur quatre benchmarks largement utilisés et obtient des résultats solides sur MathBookEval, suggérant une généralisation prometteuse en raisonnement mathématique.
Les modèles autorégressifs (AR) dominants pour la génération d'images à partir de texte reposent soit sur des modèles de diffusion lourds et intensifs en calcul pour traiter des tokens d'image continus, soit sur une quantification vectorielle (VQ) pour obtenir des tokens discrets avec une perte de quantification. Dans cet article, nous faisons progresser le paradigme autorégressif avec NextStep-1, un modèle autorégressif de 14 milliards de paramètres couplé à une tête de correspondance de flux de 157 millions de paramètres, entraîné sur des tokens de texte discrets et des tokens d'image continus avec des objectifs de prédiction du token suivant. NextStep-1 atteint des performances de pointe pour les modèles autorégressifs dans les tâches de génération d'images à partir de texte, démontrant de solides capacités en synthèse d'images haute fidélité. De plus, notre méthode montre des performances remarquables en édition d'images, mettant en évidence la puissance et la polyvalence de notre approche unifiée. Pour favoriser la recherche ouverte, nous publierons notre code et nos modèles à la communauté.
Nous présentons PRELUDE, un benchmark pour évaluer la compréhension de contextes longs à travers la tâche consistant à déterminer si une préquelle concernant un personnage est cohérente avec le récit canonique du livre original. Notre tâche exige une compréhension globale et un raisonnement approfondi plus poussés que les benchmarks existants — puisque les préquelles ne font pas partie de l'histoire originale, évaluer leur plausibilité nécessite généralement de rechercher et d'intégrer des informations qui ne sont que indirectement liées. Empiriquement, 88 % des cas nécessitent des preuves provenant de multiples parties du récit. Les résultats expérimentaux mettent en lumière la difficulté de notre tâche : l'apprentissage en contexte, le RAG et l'entraînement en domaine avec des modèles de langage de pointe, ainsi que les services commerciaux DeepResearch, accusent un retard de plus de 15 % par rapport aux humains. Une étude humaine approfondie révèle que les modèles produisent souvent des réponses correctes avec un raisonnement erroné, ce qui entraîne un écart de plus de 30 % dans la précision du raisonnement par rapport aux humains. Ces résultats soulignent les progrès substantiels à réaliser dans la compréhension et le raisonnement de contextes longs.
La production traditionnelle de dessins animés et d'anime implique des étapes de création d'images clés, d'interpolation et de colorisation, qui nécessitent un effort manuel intensif. Malgré les récentes avancées en IA, les méthodes existantes traitent souvent ces étapes séparément, entraînant une accumulation d'erreurs et des artefacts. Par exemple, les approches d'interpolation peinent à gérer les mouvements amples, tandis que les méthodes de colorisation nécessitent des croquis denses par image. Pour remédier à cela, nous présentons ToonComposer, un modèle génératif qui unifie l'interpolation et la colorisation en une seule étape post-création d'images clés. ToonComposer utilise un mécanisme d'injection de croquis épars pour offrir un contrôle précis grâce aux croquis des images clés. De plus, il emploie une méthode d'adaptation au style cartoon avec un adaptateur spatial à faible rang pour adapter un modèle de fondation vidéo moderne au domaine du cartoon tout en préservant sa priorité temporelle. Nécessitant aussi peu qu'un seul croquis et une image de référence colorée, ToonComposer excelle avec des entrées éparses, tout en supportant plusieurs croquis à n'importe quel emplacement temporel pour un contrôle plus précis du mouvement. Cette double capacité réduit la charge de travail manuelle et améliore la flexibilité, offrant aux artistes un outil puissant dans des scénarios réels. Pour évaluer notre modèle, nous avons également créé PKBench, un benchmark comprenant des croquis dessinés à la main qui simulent des cas d'utilisation réels. Notre évaluation démontre que ToonComposer surpasse les méthodes existantes en termes de qualité visuelle, de cohérence du mouvement et d'efficacité de production, proposant une solution supérieure et plus flexible pour la production de cartoons assistée par l'IA.
Nous présentons UI-Venus, un agent d'interface utilisateur natif qui ne prend que des captures d'écran en entrée, basé sur un modèle de langage multimodal de grande taille. UI-Venus atteint des performances de pointe (SOTA) à la fois pour les tâches de localisation et de navigation dans les interfaces utilisateurs, en utilisant seulement plusieurs centaines de milliers d'échantillons d'entraînement de haute qualité grâce à un réglage fin par renforcement (RFT) basé sur Qwen2.5-VL. Plus précisément, les variantes 7B et 72B de UI-Venus obtiennent respectivement 94,1 % / 50,8 % et 95,3 % / 61,9 % sur les benchmarks standard de localisation, à savoir Screenspot-V2 / Pro, surpassant les précédents modèles de référence SOTA, y compris l'open-source GTA1 et le closed-source UI-TARS-1.5. Pour démontrer la capacité de synthèse et de planification de UI-Venus, nous l'évaluons également sur AndroidWorld, une arène de navigation en ligne dans les interfaces utilisateurs, où nos variantes 7B et 72B atteignent des taux de réussite de 49,1 % et 65,9 %, surpassant également les modèles existants. Pour y parvenir, nous introduisons des fonctions de récompense soigneusement conçues pour les tâches de localisation et de navigation dans les interfaces utilisateurs, ainsi que des stratégies efficaces de nettoyage des données correspondantes. Pour améliorer davantage les performances de navigation, nous proposons l'alignement auto-évolutif de l'historique des trajectoires et l'amélioration des actions rares, qui affinent les traces de raisonnement historiques et équilibrent la distribution des actions rares mais critiques, conduisant à une planification plus cohérente et à une meilleure généralisation dans les tâches complexes d'interfaces utilisateurs. Nos contributions incluent la publication d'agents d'interface utilisateur open-source SOTA, des protocoles complets de nettoyage des données et un nouveau cadre auto-évolutif pour améliorer les performances de navigation, encourageant ainsi la recherche et le développement dans la communauté. Le code est disponible à l'adresse https://github.com/antgroup/UI-Venus.
Les modèles de langage par diffusion (Diffusion Language Models, DLMs) émergent rapidement comme une alternative puissante et prometteuse au paradigme dominant des modèles autorégressifs (AR). En générant des tokens en parallèle via un processus itératif de débruitage, les DLMs présentent des avantages intrinsèques pour réduire la latence d'inférence et capturer un contexte bidirectionnel, permettant ainsi un contrôle fin du processus de génération. Tout en obtenant une accélération significative, les récentes avancées ont permis aux DLMs d'atteindre des performances comparables à celles des modèles autorégressifs, en faisant un choix attrayant pour diverses tâches de traitement du langage naturel. Dans cette étude, nous proposons une vue d'ensemble holistique du paysage actuel des DLMs. Nous retraçons leur évolution et leur relation avec d'autres paradigmes, tels que les modèles autorégressifs et les modèles de langage masqués, et couvrons à la fois les principes fondamentaux et les modèles de pointe. Notre travail offre une taxonomie actualisée et complète, ainsi qu'une analyse approfondie des techniques actuelles, des stratégies de pré-entraînement aux méthodes avancées de post-entraînement. Une autre contribution de cette étude est une revue exhaustive des stratégies et optimisations d'inférence des DLMs, incluant les améliorations en parallélisme de décodage, les mécanismes de mise en cache et la qualité de génération. Nous mettons également en lumière les dernières approches d'extensions multimodales des DLMs et décrivons leurs applications dans divers scénarios pratiques. Enfin, notre discussion aborde les limitations et défis des DLMs, notamment en termes d'efficacité, de gestion des longues séquences et de besoins en infrastructure, tout en esquissant des directions de recherche futures pour soutenir les progrès dans ce domaine en évolution rapide. Le projet GitHub est disponible à l'adresse suivante : https://github.com/VILA-Lab/Awesome-DLMs.
Les applications interactives modernes exigent de plus en plus de contenu 3D dynamique, mais la transformation de modèles 3D statiques en ressources animées constitue un goulot d'étranglement majeur dans les pipelines de création de contenu. Bien que les récentes avancées en IA générative aient révolutionné la création de modèles 3D statiques, le rigging et l'animation continuent de dépendre fortement de l'intervention d'experts. Nous présentons Puppeteer, un cadre complet qui aborde à la fois le rigging automatique et l'animation pour divers objets 3D. Notre système prédit d'abord des structures squelettiques plausibles via un transformateur auto-régressif qui introduit une stratégie de tokenisation basée sur les articulations pour une représentation compacte, ainsi qu'une méthodologie d'ordonnancement hiérarchique avec perturbation stochastique qui améliore les capacités d'apprentissage bidirectionnel. Il infère ensuite les poids de skinning via une architecture basée sur l'attention incorporant une attention conjointe consciente de la topologie, qui encode explicitement les relations inter-articulations basées sur les distances du graphe squelettique. Enfin, nous complétons ces avancées en rigging par un pipeline d'animation basé sur une optimisation différentiable, générant des animations stables et de haute fidélité tout en étant plus efficace sur le plan computationnel que les approches existantes. Des évaluations approfondies sur plusieurs benchmarks démontrent que notre méthode surpasse significativement les techniques de pointe en termes de précision de prédiction squelettique et de qualité de skinning. Le système traite de manière robuste divers contenus 3D, allant des ressources de jeu conçues par des professionnels aux formes générées par IA, produisant des animations temporellement cohérentes qui éliminent les problèmes de saccades courants dans les méthodes existantes.
Nous présentons STream3R, une nouvelle approche de reconstruction 3D qui reformule la prédiction de cartes de points comme un problème de Transformer à décodeur uniquement. Les méthodes actuelles de pointe pour la reconstruction multi-vues dépendent soit d'une optimisation globale coûteuse, soit de mécanismes de mémoire simplistes qui évoluent mal avec la longueur des séquences. En revanche, STream3R introduit un cadre de traitement en flux qui traite efficacement les séquences d'images en utilisant une attention causale, inspirée par les avancées récentes en modélisation du langage. En apprenant des préconnaissances géométriques à partir de vastes ensembles de données 3D, STream3R généralise bien à des scénarios divers et complexes, y compris des scènes dynamiques où les méthodes traditionnelles échouent souvent. Des expériences approfondies montrent que notre méthode surpasse systématiquement les travaux antérieurs sur des benchmarks de scènes statiques et dynamiques. De plus, STream3R est intrinsèquement compatible avec l'infrastructure d'entraînement de type LLM, permettant un pré-entraînement et un ajustement fin efficaces à grande échelle pour diverses tâches 3D en aval. Nos résultats soulignent le potentiel des modèles Transformer causaux pour la perception 3D en temps réel, ouvrant la voie à une compréhension 3D en flux continu. Plus de détails sont disponibles sur notre page de projet : https://nirvanalan.github.io/projects/stream3r.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui adopte généralement Pass@1 comme récompense, a rencontré des difficultés à équilibrer exploration et exploitation, conduisant les politiques à privilégier des actions conservatrices et à converger vers un optimum local. L'identification d'une métrique de récompense appropriée est donc cruciale. Concernant les travaux antérieurs, bien que Pass@k ait été utilisé pour l'évaluation, son lien avec la capacité d'exploration des modèles de langage (LLM) dans le cadre du RLVR reste largement négligé. Pour étudier cela, nous utilisons d'abord Pass@k comme récompense pour entraîner le modèle de politique (c'est-à-dire l'entraînement Pass@k), et observons l'amélioration de sa capacité d'exploration. Ensuite, nous dérivons une solution analytique pour l'avantage de l'entraînement Pass@k, conduisant à un processus efficace et performant. Sur cette base, notre analyse révèle que l'exploration et l'exploitation ne sont pas des objectifs intrinsèquement conflictuels, mais peuvent au contraire se renforcer mutuellement. De plus, l'entraînement Pass@k avec dérivation analytique implique essentiellement la conception directe de la fonction d'avantage. Inspirés par cela, nous explorons de manière préliminaire la conception de l'avantage pour le RLVR, montrant des résultats prometteurs et mettant en lumière une direction future potentielle.
Bien que les modèles de langage multimodaux de grande envergure (MLLMs) montrent un immense potentiel pour atteindre des interactions véritablement humaines, les progrès sont entravés par le manque de cadres d'évaluation granulaires pour les scénarios centrés sur l'humain, englobant à la fois la compréhension des intentions humaines complexes et la fourniture de réponses empathiques et contextuellement adaptées. Nous présentons ici HumanSense, un benchmark complet conçu pour évaluer les capacités de perception et d'interaction centrées sur l'humain des MLLMs, en mettant particulièrement l'accent sur la compréhension approfondie des contextes multimodaux étendus et la formulation de retours rationnels. Notre évaluation révèle que les MLLMs leaders ont encore une marge d'amélioration considérable, en particulier pour les tâches d'interaction avancées. L'ajout d'informations audio et textuelles aux entrées visuelles apporte des améliorations substantielles, et les modèles omni-modaux montrent des avantages sur ces tâches. De plus, nous soutenons qu'un retour approprié découle d'une analyse contextuelle des besoins et des émotions de l'interlocuteur, avec la capacité de raisonnement comme clé pour le débloquer. En conséquence, nous utilisons un apprentissage par renforcement progressif et multi-étapes pour améliorer les capacités de raisonnement d'un modèle omni, obtenant des gains substantiels sur les résultats d'évaluation. Par ailleurs, nous observons que les processus de raisonnement réussis présentent des schémas de pensée hautement cohérents. En concevant des invites correspondantes, nous améliorons également les performances des modèles non raisonnants de manière sans entraînement. Page du projet : brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Les travaux antérieurs ont analysé la robustesse des encodeurs visuels face aux transformations et corruptions d'images, en particulier dans les cas où de telles altérations ne sont pas rencontrées pendant l'entraînement. Lorsque cela se produit, elles introduisent une forme de décalage de distribution au moment du test, entraînant souvent une dégradation des performances. L'accent principal a été mis sur les corruptions sévères qui, lorsqu'elles sont appliquées de manière agressive, déforment les signaux utiles nécessaires pour des prédictions sémantiques précises. Nous adoptons une perspective différente en analysant les paramètres du processus d'acquisition d'images et les transformations qui peuvent être subtiles, voire imperceptibles à l'œil humain. Nous constatons que ces paramètres sont systématiquement encodés dans les représentations visuelles apprises et peuvent être facilement récupérés. Plus frappant encore, leur présence peut avoir un impact profond, soit positif, soit négatif, sur les prédictions sémantiques. Cet effet dépend de l'existence d'une forte corrélation ou anti-corrélation entre les étiquettes sémantiques et ces étiquettes basées sur l'acquisition ou le traitement. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/ryan-caesar-ramos/visual-encoder-traces
Les récents progrès en apprentissage automatique ont suscité un intérêt croissant pour l'évaluation automatisée de la qualité en interprétation. Cependant, les recherches existantes souffrent d'un examen insuffisant de la qualité de l'usage linguistique, d'une efficacité de modélisation insatisfaisante due à la rareté et au déséquilibre des données, et d'un manque d'efforts pour expliquer les prédictions des modèles. Pour combler ces lacunes, nous proposons un cadre de modélisation multidimensionnel qui intègre l'ingénierie des caractéristiques, l'augmentation des données et l'apprentissage automatique explicable. Cette approche privilégie l'explicabilité par rapport aux prédictions de type « boîte noire » en utilisant uniquement des caractéristiques transparentes et pertinentes pour la construction, et en réalisant une analyse des valeurs de Shapley (SHAP). Nos résultats démontrent une forte performance prédictive sur un nouveau jeu de données d'interprétation consécutive anglais-chinois, identifiant les scores BLEURT et CometKiwi comme les caractéristiques prédictives les plus fortes pour la fidélité, les caractéristiques liées aux pauses pour la fluidité, et les métriques de diversité phraséologique spécifiques au chinois pour l'usage linguistique. Globalement, en mettant un accent particulier sur l'explicabilité, nous présentons une alternative évolutive, fiable et transparente à l'évaluation humaine traditionnelle, facilitant la fourniture de retours diagnostiques détaillés pour les apprenants et soutenant les avantages de l'apprentissage autorégulé que les scores automatisés seuls ne peuvent offrir.
Dans l'étude du traitement du langage naturel (NLP) digne de confiance, plusieurs domaines de recherche importants ont émergé, notamment ceux de l'explicabilité et de la confidentialité. Bien que l'intérêt pour le NLP explicable et préservant la confidentialité ait considérablement augmenté ces dernières années, il manque encore des investigations à l'intersection des deux. Cela laisse un vide important dans la compréhension de la possibilité d'atteindre à la fois l'explicabilité et la confidentialité, ou si ces deux objectifs sont en conflit. Dans ce travail, nous menons une étude empirique sur le compromis entre confidentialité et explicabilité dans le contexte du NLP, guidés par les méthodes globales populaires de la confidentialité différentielle (DP) et de l'explicabilité post-hoc. Nos résultats incluent une vision de la relation complexe entre confidentialité et explicabilité, qui est influencée par plusieurs facteurs, notamment la nature de la tâche en aval et le choix de la méthode de privatisation du texte et d'explicabilité. Nous mettons en lumière le potentiel de coexistence entre confidentialité et explicabilité, et nous résumons nos conclusions dans un ensemble de recommandations pratiques pour les travaux futurs à cette intersection cruciale.