Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans la génération texte-image (T2I) ont produit des résultats impressionnants, mais les modèles existants peinent encore à traiter des prompts nécessitant une riche connaissance du monde et un raisonnement implicite : deux éléments essentiels pour produire des images sémantiquement précises, cohérentes et contextuellement adaptées dans des scénarios réels. Pour combler cette lacune, nous introduisons WorldGenBench, un benchmark conçu pour évaluer systématiquement l'ancrage des connaissances mondiales et les capacités inférentielles implicites des modèles T2I, couvrant à la fois les domaines des sciences humaines et de la nature. Nous proposons le Knowledge Checklist Score, une métrique structurée qui mesure dans quelle mesure les images générées satisfont les attentes sémantiques clés. Les expériences menées sur 21 modèles de pointe révèlent que si les modèles de diffusion dominent parmi les méthodes open-source, les modèles auto-régressifs propriétaires comme GPT-4o montrent une intégration des connaissances et un raisonnement significativement plus robustes. Nos résultats soulignent la nécessité de capacités de compréhension et d'inférence plus approfondies dans les systèmes T2I de nouvelle génération. Page du projet : https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Les Transformers ont obtenu un grand succès dans de nombreuses tâches de traitement du langage naturel (NLP), mais ils continuent de présenter des lacunes notables dans le raisonnement factuel multi-étapes, en particulier lorsque les connaissances du monde réel sont rares. Les avancées récentes dans le domaine du « grokking » ont démontré que les réseaux de neurones peuvent passer de la mémorisation à une généralisation parfaite une fois qu'ils détectent des schémas logiques sous-jacents - cependant, ces études ont principalement utilisé des tâches synthétiques de petite taille. Dans cet article, pour la première fois, nous étendons le grokking à des données factuelles du monde réel et abordons le défi de la rareté des données en enrichissant les graphes de connaissances existants avec des données synthétiques soigneusement conçues, afin d'augmenter le ratio phi_r des faits inférés par rapport aux faits atomiques au-delà du seuil requis pour le grokking. Étonnamment, nous constatons que même des données synthétiques factuellement incorrectes peuvent renforcer les circuits de raisonnement émergents plutôt que de dégrader la précision, car elles forcent le modèle à s'appuyer sur la structure relationnelle plutôt que sur la mémorisation. Lorsqu'elle est évaluée sur des benchmarks de raisonnement multi-étapes, notre approche atteint une précision allant jusqu'à 95-100 % sur 2WikiMultiHopQA - améliorant considérablement les performances par rapport aux bases de référence solides et égalant ou dépassant les résultats actuels de l'état de l'art. Nous fournissons également une analyse approfondie de la manière dont l'augmentation de phi_r favorise la formation de circuits de généralisation à l'intérieur des Transformers. Nos résultats suggèrent que l'augmentation de données basée sur le grokking peut débloquer des capacités implicites de raisonnement multi-étapes, ouvrant la voie à un raisonnement factuel plus robuste et interprétable dans les modèles de langage à grande échelle.
Un agent vocal IA qui s'intègre parfaitement à la vie quotidienne interagirait avec les humains de manière autonome, en temps réel et avec une expressivité émotionnelle. Plutôt que de se contenter de réagir à des commandes, il écouterait, raisonnerait et répondrait de manière proactive, favorisant des interactions fluides, dynamiques et émotionnellement résonantes. Nous présentons Voila, une famille de modèles de base vocaux-langagiers de grande envergure qui fait un pas vers cette vision. Voila dépasse les systèmes traditionnels en pipeline en adoptant une nouvelle architecture de bout en bout permettant des conversations en duplex intégral à faible latence, tout en préservant les nuances vocales riches telles que le ton, le rythme et l'émotion. Il atteint une latence de réponse de seulement 195 millisecondes, surpassant le temps de réponse humain moyen. Son Transformer hiérarchique multi-échelles intègre les capacités de raisonnement des grands modèles de langage (LLMs) avec une modélisation acoustique puissante, permettant une génération vocale naturelle et consciente de la persona — où les utilisateurs peuvent simplement écrire des instructions textuelles pour définir l'identité, le ton et d'autres caractéristiques du locuteur. De plus, Voila prend en charge plus d'un million de voix préconstruites et une personnalisation efficace de nouvelles voix à partir d'échantillons audio aussi courts que 10 secondes. Au-delà du dialogue parlé, Voila est conçu comme un modèle unifié pour une large gamme d'applications basées sur la voix, y compris la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et, avec une adaptation minimale, la traduction vocale multilingue. Voila est entièrement open-source pour soutenir la recherche ouverte et accélérer les progrès vers les interactions humain-machine de nouvelle génération.
La modélisation des récompenses est essentielle pour aligner les grands modèles de langage (LLMs) avec les préférences humaines, en particulier à travers l'apprentissage par renforcement à partir de retours humains (RLHF). Pour fournir des signaux de récompense précis, un modèle de récompense (RM) devrait stimuler une réflexion approfondie et mener un raisonnement interprétable avant d'attribuer un score ou un jugement. Cependant, les RM existants produisent soit des scores scalaires opaques, soit génèrent directement la prédiction d'une réponse préférée, ce qui les empêche d'intégrer des critiques en langage naturel et limite ainsi leur interprétabilité. Inspirés par les récents progrès des longues chaînes de raisonnement (CoT) sur des tâches exigeantes en raisonnement, nous émettons et validons l'hypothèse que l'intégration de capacités de raisonnement dans la modélisation des récompenses améliore significativement l'interprétabilité et les performances des RM. Dans ce travail, nous introduisons une nouvelle classe de modèles de récompense génératifs — les Reasoning Reward Models (ReasRMs) — qui formulent la modélisation des récompenses comme une tâche de raisonnement. Nous proposons un pipeline d'entraînement orienté vers le raisonnement et entraînons une famille de ReasRMs, RM-R1. L'entraînement se compose de deux étapes clés : (1) la distillation de chaînes de raisonnement de haute qualité et (2) l'apprentissage par renforcement avec des récompenses vérifiables. RM-R1 améliore les déploiements de LLM en générant automatiquement des traces de raisonnement ou des grilles d'évaluation spécifiques aux conversations, puis en évaluant les réponses candidates par rapport à celles-ci. Empiriquement, nos modèles atteignent des performances de pointe ou quasi de pointe parmi les RM génératifs sur plusieurs benchmarks complets de modèles de récompense, surpassant des modèles open-weight beaucoup plus grands (par exemple, Llama3.1-405B) et des modèles propriétaires (par exemple, GPT-4o) jusqu'à 13,8 %. Au-delà des performances finales, nous effectuons une analyse empirique approfondie pour comprendre les ingrédients clés d'un entraînement réussi des ReasRMs. Pour faciliter les recherches futures, nous publions six modèles ReasRM ainsi que le code et les données sur https://github.com/RM-R1-UIUC/RM-R1.
Nous démontrons que Muon, l'instanciation la plus simple d'un optimiseur du second ordre, élargit explicitement la frontière de Pareto par rapport à AdamW en termes de compromis entre temps de calcul et performance. Nous constatons que Muon est plus efficace qu'AdamW pour préserver l'efficacité des données avec des tailles de batch importantes, bien au-delà de la taille critique dite "critical batch size", tout en restant efficace sur le plan computationnel, permettant ainsi un entraînement plus économique. Nous étudions la combinaison de Muon avec la paramétrisation par mise à jour maximale (muP) pour un transfert efficace des hyperparamètres et présentons un algorithme de télescopage simple qui prend en compte toutes les sources d'erreur dans muP tout en introduisant seulement une surcharge modeste en ressources. Nous validons nos résultats par des expériences approfondies avec des modèles allant jusqu'à quatre milliards de paramètres et des ablations sur la distribution des données et l'architecture.
Les grands modèles de langage (LLM) sont largement utilisés dans les chatbots, les générateurs de code et les moteurs de recherche. Des charges de travail telles que le raisonnement en chaîne de pensée, le raisonnement complexe et les services d'agents augmentent considérablement les coûts d'inférence en invoquant le modèle de manière répétée. Des méthodes d'optimisation telles que le parallélisme, la compression et la mise en cache ont été adoptées pour réduire les coûts, mais la diversité des exigences de service rend difficile la sélection de la méthode appropriée. Récemment, des moteurs d'inférence spécialisés pour les LLM sont apparus comme un élément clé pour intégrer les méthodes d'optimisation dans des infrastructures orientées service. Cependant, une étude systématique sur les moteurs d'inférence fait encore défaut. Ce document propose une évaluation complète de 25 moteurs d'inférence open source et commerciaux. Nous examinons chaque moteur d'inférence en termes de facilité d'utilisation, de facilité de déploiement, de support polyvalent, d'évolutivité et d'adéquation aux calculs sensibles au débit et à la latence. De plus, nous explorons les objectifs de conception de chaque moteur d'inférence en étudiant les techniques d'optimisation qu'il prend en charge. Par ailleurs, nous évaluons la maturité de l'écosystème des moteurs d'inférence open source et traitons des politiques de performance et de coût des solutions commerciales. Nous esquissons des directions de recherche futures incluant le support pour les services complexes basés sur les LLM, le support de divers matériels et une sécurité renforcée, offrant ainsi des conseils pratiques aux chercheurs et développeurs pour sélectionner et concevoir des moteurs d'inférence LLM optimisés. Nous mettons également à disposition un dépôt public pour suivre continuellement les évolutions dans ce domaine en rapide mutation : https://github.com/sihyeong/Awesome-LLM-Inference-Engine
Les grands modèles de langage (LLM) ont réalisé des progrès remarquables dans les tâches de raisonnement complexe, mais ils restent fondamentalement limités par leur dépendance à des connaissances internes statiques et à un raisonnement basé uniquement sur le texte. La résolution de problèmes dans le monde réel exige souvent un raisonnement dynamique et multi-étapes, une prise de décision adaptative, ainsi que la capacité d'interagir avec des outils et des environnements externes. Dans ce travail, nous présentons ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), un cadre unifié qui intègre étroitement le raisonnement agentique, l'apprentissage par renforcement et l'utilisation d'outils pour les LLM. ARTIST permet aux modèles de décider de manière autonome quand, comment et quels outils invoquer au sein de chaînes de raisonnement multi-tours, en exploitant l'apprentissage par renforcement basé sur les résultats pour apprendre des stratégies robustes d'utilisation d'outils et d'interaction avec l'environnement sans nécessiter de supervision au niveau des étapes. Des expériences approfondies sur des benchmarks de raisonnement mathématique et d'appel de fonctions multi-tours montrent qu'ARTIST surpasse systématiquement les modèles de référence les plus avancés, avec une amélioration absolue allant jusqu'à 22 % par rapport aux modèles de base et des gains significatifs sur les tâches les plus difficiles. Des études détaillées et des analyses métriques révèlent que l'entraînement par apprentissage par renforcement agentique conduit à un raisonnement plus profond, une utilisation plus efficace des outils et des solutions de meilleure qualité. Nos résultats établissent l'apprentissage par renforcement agentique avec intégration d'outils comme une nouvelle frontière puissante pour une résolution de problèmes robuste, interprétable et généralisable dans les LLM.
Le raisonnement mathématique formel reste un défi majeur pour l'intelligence artificielle, entravé par les limites des benchmarks existants en termes de portée et d'échelle. Pour y remédier, nous présentons FormalMATH, un benchmark à grande échelle basé sur Lean4, comprenant 5 560 problèmes formellement vérifiés, allant des défis olympiques du lycée aux théorèmes de niveau universitaire couvrant divers domaines (par exemple, algèbre, mathématiques appliquées, calcul, théorie des nombres et mathématiques discrètes). Pour atténuer l'inefficacité de la formalisation manuelle, nous introduisons un nouveau pipeline d'autoformalisation en boucle humaine qui intègre : (1) des modèles de langage spécialisés (LLMs) pour l'autoformalisation des énoncés, (2) une vérification sémantique multi-LLM, et (3) des stratégies de filtrage par réfutation basées sur la négation utilisant des prouveurs LLM prêts à l'emploi. Cette approche réduit les coûts d'annotation experts en conservant 72,09 % des énoncés avant vérification manuelle tout en garantissant la fidélité aux problèmes originaux en langage naturel. Notre évaluation des prouveurs de théorèmes basés sur les LLM les plus avancés révèle des limitations significatives : même les modèles les plus performants n'atteignent qu'un taux de réussite de 16,46 % dans des budgets d'échantillonnage pratiques, montrant un biais de domaine prononcé (par exemple, excellant en algèbre mais échouant en calcul) et une dépendance excessive aux tactiques d'automatisation simplifiées. Notamment, nous identifions une relation inverse contre-intuitive entre les indications de solutions en langage naturel et le succès des preuves dans les scénarios de raisonnement en chaîne de pensée, suggérant que le raisonnement informel écrit par les humains introduit du bruit plutôt que de la clarté dans les contextes de raisonnement formel. Nous croyons que FormalMATH fournit un benchmark robuste pour évaluer le raisonnement mathématique formel.
Les Modèles de Récompense Multimodaux (MRMs) jouent un rôle crucial dans l'amélioration des performances des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Bien que les avancées récentes se soient principalement concentrées sur l'amélioration de la structure des modèles et des données d'entraînement des MRMs, il y a eu peu d'exploration concernant l'efficacité des capacités de raisonnement à long terme pour la modélisation des récompenses et sur la manière d'activer ces capacités dans les MRMs. Dans cet article, nous explorons comment l'Apprentissage par Renforcement (RL) peut être utilisé pour améliorer la modélisation des récompenses. Plus précisément, nous reformulons le problème de modélisation des récompenses en une tâche de RL basée sur des règles. Cependant, nous observons que l'application directe des algorithmes de RL existants, tels que Reinforce++, à la modélisation des récompenses entraîne souvent une instabilité de l'entraînement, voire un effondrement, en raison des limitations inhérentes à ces algorithmes. Pour résoudre ce problème, nous proposons l'algorithme StableReinforce, qui affine la fonction de perte d'entraînement, la stratégie d'estimation de l'avantage et la conception des récompenses des méthodes de RL existantes. Ces améliorations aboutissent à une dynamique d'entraînement plus stable et à des performances supérieures. Pour faciliter l'entraînement des MRMs, nous collectons 200K données de préférence provenant de divers ensembles de données. Notre modèle de récompense, R1-Reward, entraîné à l'aide de l'algorithme StableReinforce sur cet ensemble de données, améliore significativement les performances sur les benchmarks de modélisation des récompenses multimodales. Par rapport aux modèles SOTA précédents, R1-Reward obtient une amélioration de 8,4% sur le VL Reward-Bench et de 14,3% sur le Multimodal Reward Bench. De plus, avec davantage de ressources de calcul pour l'inférence, les performances de R1-Reward sont encore améliorées, mettant en évidence le potentiel des algorithmes de RL dans l'optimisation des MRMs.
Nous présentons ReplaceMe, une méthode généralisée d'élagage en profondeur sans entraînement qui remplace efficacement les blocs de transformateurs par une opération linéaire, tout en maintenant des performances élevées pour des taux de compression faibles. Contrairement aux approches d'élagage conventionnelles qui nécessitent un entraînement ou un ajustement supplémentaire, notre méthode ne requiert qu'un petit jeu de données de calibration utilisé pour estimer une transformation linéaire afin d'approximer les blocs élagués. Cette transformation linéaire estimée peut être intégrée de manière transparente avec les blocs de transformateurs restants, éliminant ainsi le besoin de paramètres réseau supplémentaires. Nos expériences montrent que ReplaceMe surpasse systématiquement les autres approches sans entraînement et reste très compétitive par rapport aux méthodes d'élagage de pointe qui impliquent un réentraînement/ajustement approfondi et des modifications architecturales. Appliqué à plusieurs grands modèles de langage (LLMs), ReplaceMe permet d'élaguer jusqu'à 25% des paramètres tout en conservant environ 90% des performances du modèle original sur des benchmarks ouverts - sans aucune étape d'entraînement ou de récupération, ce qui entraîne une surcharge computationnelle minimale (voir Fig.1). Nous fournissons une bibliothèque open-source implémentant ReplaceMe ainsi que plusieurs techniques d'élagage en profondeur de pointe, disponible dans ce dépôt.
Le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) dans les grands modèles de langage (LLMs) peut être formalisé comme un problème de variable latente, où le modèle doit générer des étapes de raisonnement intermédiaires. Bien que des approches antérieures telles que le fine-tuning itératif par récompense classée (RAFT) se soient appuyées sur de telles formulations, elles appliquent généralement des budgets d'inférence uniformes pour tous les prompts, ce qui ne tient pas compte de la variabilité de la difficulté et du comportement de convergence. Ce travail identifie le principal goulot d'étranglement dans l'entraînement CoT comme étant une estimation inefficace du gradient stochastique due à des stratégies d'échantillonnage statiques. Nous proposons GVM-RAFT, une stratégie dynamique d'allocation d'échantillons spécifique au prompt, conçue pour minimiser la variance du gradient stochastique sous une contrainte de budget computationnel. La méthode alloue dynamiquement les ressources computationnelles en surveillant les taux d'acceptation des prompts et les normes du gradient stochastique, garantissant ainsi que la variance résultante du gradient est minimisée. Notre analyse théorique montre que la stratégie d'échantillonnage dynamique proposée conduit à des garanties de convergence accélérées sous des conditions appropriées. Les expériences sur le raisonnement mathématique montrent que GVM-RAFT atteint une accélération de 2 à 4 fois et des améliorations considérables en précision par rapport à RAFT standard. La stratégie d'échantillonnage dynamique proposée est générale et peut être intégrée dans d'autres algorithmes d'apprentissage par renforcement, tels que GRPO, conduisant à des améliorations similaires en convergence et en précision de test. Notre code est disponible à l'adresse https://github.com/RLHFlow/GVM.
L'interaction vocale en temps réel, intelligente et naturelle constitue un élément essentiel de la nouvelle génération d'interactions homme-machine. Les avancées récentes ont démontré le potentiel de création de chatbots vocaux intelligents basés sur des modèles de langage de grande taille (LLMs). Dans cet article, nous présentons LLaMA-Omni 2, une série de modèles de langage vocal (SpeechLMs) allant de 0,5 à 14 milliards de paramètres, capables d'offrir une interaction vocale de haute qualité en temps réel. LLaMA-Omni 2 est construit sur les modèles de la série Qwen2.5, intégrant un encodeur vocal et un décodeur de flux vocal autoregressif. Bien qu'entraîné sur seulement 200 000 échantillons de dialogues vocaux multi-tours, LLaMA-Omni 2 affiche des performances solides sur plusieurs benchmarks de questions-réponses vocales et de suivi d'instructions vocales, surpassant les SpeechLMs précédents comme GLM-4-Voice, qui avait été entraîné sur des millions d'heures de données vocales.
La simulation efficace de l'intelligence sociale nécessite que les agents linguistiques ajustent dynamiquement la profondeur de raisonnement, une capacité notablement absente dans les approches actuelles. Alors que les méthodes existantes manquent soit de ce type de capacité de raisonnement, soit imposent un raisonnement uniforme en chaîne de pensée longue pour tous les scénarios, entraînant une utilisation excessive de tokens et une simulation sociale inappropriée. Dans cet article, nous proposons l'Apprentissage Adaptatif de Mode (Adaptive Mode Learning, AML) qui sélectionne stratégiquement parmi quatre modes de pensée (réaction intuitive → contemplation profonde) en fonction du contexte en temps réel. L'innovation centrale de notre cadre, l'algorithme d'Optimisation de Politique de Mode Adaptatif (Adaptive Mode Policy Optimization, AMPO), introduit trois avancées clés par rapport aux méthodes existantes : (1) Conception de modes de pensée multi-granulaires, (2) Commutation de mode sensible au contexte durant les interactions sociales, et (3) Raisonnement efficace en tokens via un traitement adaptatif en profondeur. Des expériences approfondies sur des tâches d'intelligence sociale confirment qu'AML atteint une performance de tâche 15,6 % supérieure aux méthodes de pointe. Notamment, notre méthode surpasse GRPO de 7,0 % avec des chaînes de raisonnement 32,8 % plus courtes. Ces résultats démontrent que la sélection de mode de pensée sensible au contexte, telle qu'implémentée dans AMPO, permet un raisonnement adaptatif plus proche de celui des humains que l'approche à profondeur fixe de GRPO.
Nous abordons un défi fondamental dans l'apprentissage par renforcement à partir de démonstrations d'interaction (RLID) : le bruit des démonstrations et les limitations de couverture. Bien que les approches existantes de collecte de données fournissent des démonstrations d'interaction précieuses, elles produisent souvent des trajectoires éparses, discontinues et bruitées qui ne capturent pas l'ensemble des variations et transitions possibles des compétences. Notre idée clé est que, malgré des démonstrations bruitées et éparses, il existe une infinité de trajectoires physiquement réalisables qui relient naturellement les compétences démontrées ou émergent de leurs états voisins, formant ainsi un espace continu de variations et transitions possibles des compétences. En nous appuyant sur cette intuition, nous présentons deux techniques d'augmentation de données : un Graphe de Trajectoires Cousues (STG) qui découvre les transitions potentielles entre les compétences démontrées, et un Champ de Transition d'État (STF) qui établit des connexions uniques pour des états arbitraires dans le voisinage des démonstrations. Pour permettre un RLID efficace avec des données augmentées, nous développons une stratégie d'Échantillonnage Adaptatif de Trajectoires (ATS) pour la génération dynamique de curriculums et un mécanisme d'encodage historique pour l'apprentissage de compétences dépendant de la mémoire. Notre approche permet une acquisition robuste de compétences qui généralise significativement au-delà des démonstrations de référence. Des expériences approfondies sur diverses tâches d'interaction démontrent des améliorations substantielles par rapport aux méthodes de pointe en termes de stabilité de convergence, de capacité de généralisation et de robustesse de récupération.
En raison des difficultés liées à la collecte manuelle de données d'édition précises, les ensembles de données existants sont généralement construits à l'aide de diverses méthodes automatisées, ce qui entraîne des signaux de supervision bruités dus à l'inadéquation entre les instructions d'édition et les paires d'images originales-modifiées. Les efforts récents tentent d'améliorer les modèles d'édition en générant des images modifiées de meilleure qualité, en effectuant un pré-entraînement sur des tâches de reconnaissance, ou en introduisant des modèles vision-langage (VLMs), mais échouent à résoudre ce problème fondamental. Dans cet article, nous proposons une solution novatrice en construisant des instructions d'édition plus efficaces pour des paires d'images données. Cela inclut la rectification des instructions d'édition pour mieux les aligner avec les paires d'images originales-modifiées et l'utilisation d'instructions d'édition contrastées pour en renforcer l'efficacité. Plus précisément, nous constatons que les modèles d'édition présentent des attributs de génération spécifiques à différentes étapes d'inférence, indépendamment du texte. Sur la base de ces attributs préalables, nous définissons un guide unifié pour les VLMs afin de rectifier les instructions d'édition. Cependant, certains scénarios d'édition complexes ne peuvent être résolus uniquement avec des instructions rectifiées. À cette fin, nous construisons en outre des signaux de supervision contrastés avec des instructions positives et négatives et les introduisons dans l'entraînement du modèle en utilisant la perte triplet, améliorant ainsi l'efficacité de la supervision. Notre méthode ne nécessite pas les modules VLM ou les tâches de pré-entraînement utilisés dans les travaux précédents, offrant une manière plus directe et efficace de fournir de meilleurs signaux de supervision, et proposant une solution novatrice, simple et efficace pour l'édition d'images basée sur des instructions. Les résultats sur plusieurs benchmarks montrent que notre méthode surpasse significativement les approches existantes. Par rapport au précédent SOTA SmartEdit, nous obtenons une amélioration de 9,19 % sur le benchmark Real-Edit avec 30 fois moins de données d'entraînement et une taille de modèle 13 fois plus petite.
Nous présentons Ming-Lite-Uni, un framework multimodal open-source doté d'un générateur visuel unifié nouvellement conçu et d'un modèle autoregressif multimodal natif spécialement adapté pour unifier la vision et le langage. Plus précisément, ce projet propose une implémentation open-source du framework intégré MetaQueries et M2-omni, tout en introduisant les nouveaux tokens apprenables multi-échelles et une stratégie d'alignement de représentations multi-échelles. En s'appuyant sur un MLLM fixe et un modèle de diffusion apprenable, Ming-Lite-Uni permet aux modèles AR multimodaux natifs d'exécuter à la fois des tâches de génération texte-à-image et d'édition d'images basée sur des instructions, élargissant ainsi leurs capacités au-delà de la simple compréhension visuelle. Nos résultats expérimentaux démontrent les performances solides de Ming-Lite-Uni et illustrent la nature fluide et impressionnante de son processus interactif. Tous les codes et poids des modèles sont open-source pour favoriser une exploration approfondie au sein de la communauté. Il est à noter que ce travail s'aligne sur les jalons récents de l'IA multimodale - tels que ChatGPT-4o avec la génération d'images native mise à jour le 25 mars 2025 - soulignant l'importance plus large des modèles unifiés comme Ming-Lite-Uni sur la voie vers l'AGI. Ming-Lite-Uni est en phase alpha et sera bientôt affiné davantage.
Les grands modèles de langage (LLMs) ont obtenu des performances impressionnantes dans divers domaines. Cependant, les importantes ressources matérielles nécessaires à leur entraînement constituent un obstacle majeur à l'efficacité et à l'évolutivité. Pour atténuer ce défi, les techniques d'entraînement en basse précision ont été largement adoptées, conduisant à des avancées notables en matière d'efficacité de l'entraînement. Malgré ces progrès, l'entraînement en basse précision implique plusieurs composants – tels que les poids, les activations et les gradients – chacun pouvant être représenté dans différents formats numériques. Cette diversité a créé un paysage fragmenté dans la recherche sur l'entraînement en basse précision, rendant difficile pour les chercheurs d'obtenir une vue d'ensemble unifiée du domaine. Cette étude propose une revue complète des méthodes existantes d'entraînement en basse précision. Pour organiser systématiquement ces approches, nous les catégorisons en trois groupes principaux basés sur leurs formats numériques sous-jacents, un facteur clé influençant la compatibilité matérielle, l'efficacité computationnelle et la facilité de référence pour les lecteurs. Les catégories sont : (1) les méthodes basées sur les nombres fixes et entiers, (2) les méthodes basées sur les nombres flottants, et (3) les méthodes basées sur des formats personnalisés. De plus, nous discutons des approches d'entraînement prenant en compte la quantification, qui partagent des similitudes clés avec l'entraînement en basse précision lors de la propagation avant. Enfin, nous mettons en lumière plusieurs directions de recherche prometteuses pour faire progresser ce domaine. Une collection des articles discutés dans cette étude est disponible sur https://github.com/Hao840/Awesome-Low-Precision-Training.
La compréhension des relations causales entre événements et l'ancrage temporel fin dans les vidéos restent des défis pour les modèles vision-langage. Les méthodes existantes compressent les tokens vidéo pour réduire la résolution temporelle ou traitent les vidéos comme des flux non segmentés, ce qui brouille les limites fines des événements et limite la modélisation des dépendances causales. Nous proposons TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), un cadre d'apprentissage en deux étapes qui améliore la compréhension temporelle des vidéos. TEMPURA applique d'abord un raisonnement de prédiction d'événements masqués pour reconstruire les événements manquants et générer des explications causales étape par étape à partir d'annotations d'événements denses, s'inspirant des techniques efficaces de remplissage. TEMPURA apprend ensuite à effectuer une segmentation vidéo et un sous-titrage dense pour décomposer les vidéos en événements non chevauchants avec des descriptions détaillées alignées sur les timestamps. Nous entraînons TEMPURA sur VER, un ensemble de données à grande échelle que nous avons constitué, comprenant 1 million d'instances d'entraînement et 500 000 vidéos avec des descriptions d'événements alignées temporellement et des étapes de raisonnement structurées. Les expériences sur des benchmarks d'ancrage temporel et de détection de moments forts montrent que TEMPURA surpasse les modèles de référence, confirmant que l'intégration du raisonnement causal avec une segmentation temporelle fine améliore la compréhension des vidéos.
Les approches actuelles de personnalisation multi-sujets rencontrent deux défis majeurs : la difficulté d'acquisition de données d'entraînement diversifiées pour plusieurs sujets, et l'enchevêtrement des attributs entre différents sujets. Pour combler ces lacunes, nous proposons MUSAR - un cadre simple mais efficace permettant d'atteindre une personnalisation multi-sujets robuste tout en nécessitant uniquement des données d'entraînement mono-sujet. Premièrement, pour surmonter la limitation des données, nous introduisons l'apprentissage diptyque débiaisé. Celui-ci construit des paires d'entraînement diptyques à partir d'images mono-sujet pour faciliter l'apprentissage multi-sujets, tout en corrigeant activement le biais de distribution introduit par la construction diptyque via un routage d'attention statique et un LoRA à double branche. Deuxièmement, pour éliminer l'enchevêtrement inter-sujets, nous introduisons un mécanisme de routage d'attention dynamique, qui établit de manière adaptative des correspondances bijectives entre les images générées et les sujets conditionnels. Cette conception permet non seulement de découpler les représentations multi-sujets, mais aussi de maintenir des performances de généralisation évolutives avec l'augmentation des sujets de référence. Des expériences approfondies démontrent que notre MUSAR surpasse les méthodes existantes - y compris celles entraînées sur des ensembles de données multi-sujets - en termes de qualité d'image, de cohérence des sujets et de naturel des interactions, tout en ne nécessitant qu'un ensemble de données mono-sujet.
Les mécanismes d'attention sont essentiels au succès des grands modèles de langage (LLMs), propulsant des avancées significatives dans de multiples domaines. Cependant, pour les données structurées en graphes, qui nécessitent une mise en avant des connexions topologiques, ils se révèlent moins performants que les mécanismes de passage de messages sur des liens fixes, comme ceux utilisés par les réseaux de neurones sur graphes (GNNs). Cela soulève une question : « L'attention échoue-t-elle pour les graphes dans des contextes de langage naturel ? » Motivés par ces observations, nous avons entrepris une étude empirique du point de vue des mécanismes d'attention pour explorer comment les LLMs traitent les données structurées en graphes. L'objectif est d'obtenir des insights plus profonds sur le comportement de l'attention des LLMs sur les structures de graphes. Nous avons découvert des phénomènes uniques concernant la manière dont les LLMs appliquent l'attention aux données structurées en graphes et avons analysé ces résultats pour améliorer la modélisation de telles données par les LLMs. Les principales conclusions de notre recherche sont : 1) Bien que les LLMs puissent reconnaître les données de graphes et capturer les interactions texte-nœud, ils peinent à modéliser les relations inter-nœuds au sein des structures de graphes en raison de contraintes architecturales inhérentes. 2) La distribution de l'attention des LLMs sur les nœuds de graphes ne correspond pas aux modèles structurels idéaux, indiquant un échec à s'adapter aux nuances de la topologie des graphes. 3) Ni l'attention entièrement connectée ni la connectivité fixe ne sont optimales ; chacune présente des limitations spécifiques dans ses scénarios d'application. En revanche, des fenêtres d'attention à état intermédiaire améliorent les performances d'entraînement des LLMs et permettent une transition fluide vers des fenêtres entièrement connectées lors de l'inférence. Code source : https://github.com/millioniron/LLM_exploration{LLM4Exploration}
Les méthodes récentes de NeRF pour les scènes à grande échelle ont souligné l'importance de la décomposition de scène pour des NeRF évolutifs. Bien qu'elles atteignent une évolutivité raisonnable, plusieurs problèmes critiques restent inexplorés, notamment la décomposition apprenable, la modélisation de l'hétérogénéité des scènes et l'efficacité de la modélisation. Dans cet article, nous présentons Switch-NeRF++, un réseau de Mélange Hétérogène d'Experts par Hachage (HMoHE) qui aborde ces défis dans un cadre unifié. Il s'agit d'un NeRF hautement évolutif qui apprend efficacement la décomposition hétérogène et les NeRF hétérogènes pour les scènes à grande échelle de manière end-to-end. Dans notre cadre, un réseau de gating apprend à décomposer les scènes et à allouer des points 3D à des experts NeRF spécialisés. Ce réseau de gating est co-optimisé avec les experts, grâce à notre cadre proposé de Mélange d'Experts à Gating Sparse (MoE) NeRF. Nous intégrons un réseau de gating basé sur le hachage et des experts hétérogènes distincts basés sur le hachage. Le gating basé sur le hachage apprend efficacement la décomposition de la scène à grande échelle. Les experts hétérogènes distincts basés sur le hachage consistent en des grilles de hachage de différentes plages de résolution, permettant un apprentissage efficace de la représentation hétérogène des différentes parties de la scène. Ces choix de conception font de notre cadre une solution NeRF end-to-end et hautement évolutive pour la modélisation de scènes à grande échelle dans le monde réel, atteignant à la fois qualité et efficacité. Nous évaluons notre précision et évolutivité sur des ensembles de données NeRF à grande échelle existants et un nouvel ensemble de données avec des scènes de très grande échelle (>6,5 km²) provenant d'UrbanBIS. Des expériences approfondies démontrent que notre approche peut être facilement étendue à diverses scènes à grande échelle et atteindre une précision de rendu de scène de pointe. De plus, notre méthode présente une efficacité significative, avec une accélération de 8x en entraînement et de 16x en rendu par rapport à Switch-NeRF. Les codes seront disponibles sur https://github.com/MiZhenxing/Switch-NeRF.
Les LLM (modèles de langage de grande taille) entraînés sur des ensembles de données massifs peuvent acquérir involontairement des informations sensibles telles que des détails personnels et des contenus potentiellement nuisibles. Ce risque est encore accru dans les LLM multimodaux, car ils intègrent des informations provenant de multiples modalités (image et texte). Les adversaires peuvent exploiter ces connaissances à travers des invites multimodales pour extraire des détails sensibles. Évaluer dans quelle mesure les MLLM (modèles de langage multimodaux) peuvent oublier de telles informations (désapprentissage ciblé) nécessite la création de paires image-texte de haute qualité et bien annotées. Alors que les travaux précédents sur le désapprentissage se sont concentrés sur le texte, le désapprentissage multimodal reste peu exploré. Pour combler cette lacune, nous introduisons d'abord un benchmark de désapprentissage multimodal, UnLOK-VQA (Unlearning Outside Knowledge VQA), ainsi qu'un cadre d'attaque et de défense pour évaluer les méthodes de suppression de connaissances multimodales spécifiques des MLLM. Nous étendons un ensemble de données de question-réponse visuelle en utilisant un pipeline automatisé qui génère des échantillons de proximité variable pour tester la généralisation et la spécificité, suivis d'un filtrage manuel pour maintenir une haute qualité. Nous évaluons ensuite six objectifs de défense contre sept attaques (quatre en boîte blanche, trois en boîte noire), y compris une nouvelle méthode en boîte blanche exploitant l'interprétabilité des états cachés. Nos résultats montrent que les attaques multimodales surpassent celles basées uniquement sur le texte ou l'image, et que la défense la plus efficace consiste à supprimer les informations de réponse des états internes du modèle. De plus, les modèles plus grands présentent une robustesse accrue après édition, suggérant que l'échelle améliore la sécurité. UnLOK-VQA fournit un benchmark rigoureux pour faire progresser le désapprentissage dans les MLLM.
Les caméras événementielles capturent la dynamique du mouvement, offrant une modalité unique avec un grand potentiel dans diverses tâches de vision par ordinateur. Cependant, la fusion RGB-Événement fait face à trois désalignements intrinsèques : (i) temporel, (ii) spatial, et (iii) modal. Les représentations existantes en grille voxel négligent les corrélations temporelles entre les fenêtres d'événements consécutives, et leur formulation par simple accumulation d'événements asynchrones et épars est incompatible avec la nature synchrone et dense de la modalité RGB. Pour relever ces défis, nous proposons une nouvelle représentation d'événements, le Tenseur d'Événements Amélioré par le Mouvement (MET), qui transforme les voxels d'événements épars en une forme dense et temporellement cohérente en exploitant les flux optiques denses et les caractéristiques temporelles des événements. De plus, nous introduisons un Module d'Agrégation de Flux Bidirectionnel Conscient de la Fréquence (BFAM) et un Module de Fusion Temporelle (TFM). Le BFAM exploite le domaine fréquentiel et le MET pour atténuer le désalignement modal, tandis que les mécanismes d'agrégation de flux bidirectionnel et de fusion temporelle résolvent le désalignement spatiotemporel. Les résultats expérimentaux sur deux ensembles de données à grande échelle démontrent que notre cadre surpasse significativement les approches de segmentation sémantique RGB-Événement de pointe. Notre code est disponible à l'adresse : https://github.com/zyaocoder/BRENet.