Articles de recherche en IA sélectionnés quotidiennement avec traductions
La stéréophotométrie universelle (PS) vise à reconstruire des normales de surface de haute qualité à partir d'objets sous des conditions d'éclairage arbitraires, sans s'appuyer sur des modèles d'illumination spécifiques. Malgré les avancées récentes telles que SDM-UniPS et Uni MS-PS, deux défis fondamentaux persistent : 1) le couplage profond entre les variations d'éclairage et les caractéristiques des normales de surface, où l'ambiguïté dans l'intensité observée rend difficile la détermination de savoir si les variations de luminosité proviennent de changements d'éclairage ou de l'orientation de la surface ; et 2) la préservation des détails géométriques haute fréquence dans les surfaces complexes, où les géométries complexes créent des auto-ombrages, des inter-réflexions et des variations subtiles des normales que les opérations conventionnelles de traitement des caractéristiques peinent à capturer avec précision.
Dans ce travail, nous présentons OmniGen2, un modèle génératif polyvalent et open-source conçu pour offrir une solution unifiée à diverses tâches de génération, incluant la génération texte-à-image, l'édition d'images et la génération en contexte. Contrairement à OmniGen v1, OmniGen2 intègre deux voies de décodage distinctes pour les modalités texte et image, utilisant des paramètres non partagés et un tokenizer d'images découplé. Cette conception permet à OmniGen2 de s'appuyer sur des modèles de compréhension multimodale existants sans nécessiter de réadapter les entrées VAE, préservant ainsi les capacités originales de génération de texte. Pour faciliter l'entraînement d'OmniGen2, nous avons développé des pipelines complets de construction de données, englobant l'édition d'images et la génération en contexte. De plus, nous introduisons un mécanisme de réflexion spécifiquement adapté aux tâches de génération d'images et constituons un ensemble de données de réflexion dédié basé sur OmniGen2. Malgré sa taille de paramètres relativement modeste, OmniGen2 obtient des résultats compétitifs sur plusieurs benchmarks de tâches, incluant la génération texte-à-image et l'édition d'images. Pour évaluer plus en détail la génération en contexte, également appelée tâches pilotées par sujet, nous introduisons un nouveau benchmark nommé OmniContext. OmniGen2 atteint des performances de pointe parmi les modèles open-source en termes de cohérence. Nous publierons nos modèles, le code d'entraînement, les ensembles de données et le pipeline de construction de données pour soutenir les recherches futures dans ce domaine. Page du projet : https://vectorspacelab.github.io/OmniGen2 ; Lien GitHub : https://github.com/VectorSpaceLab/OmniGen2
La génération ultra-longue par les grands modèles de langage (LLMs) est un scénario largement demandé, mais elle reste un défi majeur en raison de leur limite maximale de longueur de génération et de la dégradation globale de la qualité à mesure que la longueur de la séquence augmente. Les approches précédentes, illustrées par LongWriter, reposent généralement sur un « enseignement », qui implique un ajustement fin supervisé (SFT) sur des sorties synthétiques de longue durée. Cependant, cette stratégie dépend fortement de données SFT synthétiques, qui sont difficiles et coûteuses à construire, manquent souvent de cohérence et de consistance, et ont tendance à être trop artificielles et structurellement monotones. Dans ce travail, nous proposons une approche basée sur l'incitation qui, en partant entièrement de zéro et sans s'appuyer sur aucune donnée annotée ou synthétique, exploite l'apprentissage par renforcement (RL) pour favoriser l'émergence de capacités de génération de texte ultra-long et de haute qualité dans les LLMs. Nous effectuons un entraînement RL à partir d'un modèle de base, similaire à R1-Zero, en le guidant à s'engager dans un raisonnement qui facilite la planification et l'affinement pendant le processus d'écriture. Pour soutenir cela, nous utilisons des modèles de récompense spécialisés qui orientent le LLM vers un meilleur contrôle de la longueur, une qualité d'écriture améliorée et un formatage structurel. Les évaluations expérimentales montrent que notre modèle LongWriter-Zero, entraîné à partir de Qwen2.5-32B, surpasse systématiquement les méthodes SFT traditionnelles dans les tâches d'écriture de longue durée, obtenant des résultats de pointe sur toutes les métriques de WritingBench et Arena-Write, et surpassant même des modèles de 100B+ tels que DeepSeek R1 et Qwen3-235B. Nous mettons à disposition nos données et points de contrôle de modèle sous https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) démontre un potentiel prometteur pour améliorer les capacités de raisonnement des LLM (Large Language Models). Cependant, son succès reste largement confiné aux domaines mathématiques et de programmation. Cette limitation principale découle de la forte dépendance à des vérificateurs spécifiques à un domaine, ce qui entraîne une complexité prohibitive et une scalabilité limitée. Pour relever ce défi, notre observation clé est que la probabilité intrinsèque d'un LLM de générer une réponse correcte en texte libre indique directement sa propre évaluation de la récompense de raisonnement (c'est-à-dire dans quelle mesure le processus de raisonnement conduit à la bonne réponse). En nous appuyant sur cette intuition, nous proposons RLPR, un cadre simple sans vérificateur qui étend RLVR à des domaines généraux plus larges. RLPR utilise les scores de probabilité des tokens du LLM pour les réponses de référence comme signal de récompense et maximise la récompense attendue pendant l'entraînement. Nous constatons qu'il est crucial de traiter la forte variance de cette récompense probabiliste bruitée pour la rendre efficace, et nous proposons des méthodes de conversion probabilité-récompense et de stabilisation pour assurer une récompense précise et stable à partir des probabilités intrinsèques du LLM. Des expériences approfondies sur quatre benchmarks de domaines généraux et trois benchmarks mathématiques montrent que RLPR améliore systématiquement les capacités de raisonnement dans les deux domaines pour les modèles basés sur Gemma, Llama et Qwen. Notamment, RLPR surpasse VeriFree de 7,6 points sur TheoremQA et de 7,5 points sur Minerva, et dépasse même les approches dépendantes de modèles vérificateurs comme General-Reasoner de 1,6 point en moyenne sur sept benchmarks.
La synthèse dynamique de nouvelles vues vise à générer des vues photoréalistes de sujets en mouvement à partir de points de vue arbitraires. Cette tâche est particulièrement difficile lorsqu'elle repose sur une vidéo monoculaire, où la séparation de la structure et du mouvement est mal posée et la supervision est limitée. Nous introduisons ViDAR (Video Diffusion-Aware Reconstruction), un nouveau cadre de reconstruction 4D qui exploite des modèles de diffusion personnalisés pour synthétiser un signal de supervision pseudo multi-vues afin d'entraîner une représentation par splatting gaussien. En se conditionnant sur des caractéristiques spécifiques à la scène, ViDAR récupère des détails d'apparence fins tout en atténuant les artefacts introduits par l'ambiguïté monoculaire. Pour résoudre l'incohérence spatio-temporelle de la supervision basée sur la diffusion, nous proposons une fonction de loss adaptée à la diffusion et une stratégie d'optimisation de la pose de la caméra qui aligne les vues synthétiques avec la géométrie sous-jacente de la scène. Les expériences sur DyCheck, un benchmark exigeant avec des variations extrêmes de point de vue, montrent que ViDAR surpasse tous les modèles de référence en termes de qualité visuelle et de cohérence géométrique. Nous mettons également en avant l'amélioration significative de ViDAR par rapport aux modèles de référence sur les régions dynamiques et proposons un nouveau benchmark pour comparer les performances dans la reconstruction des parties riches en mouvement de la scène. Page du projet : https://vidar-4d.github.io
Récemment, l'IA agentique est devenue un domaine de recherche de plus en plus populaire. Cependant, nous soutenons que les pratiques actuelles de recherche sur les agents manquent de standardisation et de rigueur scientifique, rendant difficile la réalisation de comparaisons équitables entre les méthodes. Par conséquent, il reste encore incertain comment les différents choix de conception dans les frameworks d’agents influencent leur efficacité, et mesurer leurs progrès demeure un défi. Dans ce travail, nous menons une étude empirique systématique sur les benchmarks GAIA et BrowseComp afin d’examiner, de manière équitable et rigoureuse, l’impact des choix de conception populaires dans les composants clés des agents. Nous constatons que l’absence d’un protocole d’évaluation standard rend les travaux précédents, même ceux open-source, non reproductibles, avec une variance significative entre les exécutions aléatoires. Ainsi, nous introduisons un protocole d’évaluation plus robuste pour stabiliser les comparaisons. Notre étude révèle quels composants et conceptions sont cruciaux pour des agents efficaces, tandis que d’autres sont redondants, bien qu’ils semblent logiques. Sur la base de nos résultats, nous construisons et ouvrons OAgents, un nouveau framework d’agent de base qui atteint des performances de pointe parmi les projets open-source. OAgents propose une conception modulaire pour divers composants d’agents, favorisant ainsi les recherches futures en IA agentique.
Les modèles de récompense de processus (PRM) ont récemment émergé comme un cadre puissant pour superviser les étapes de raisonnement intermédiaires dans les grands modèles de langage (LLM). Les PRM précédents sont principalement entraînés sur les réponses finales des modèles et peinent à évaluer de manière robuste les trajectoires de pensée intermédiaires, en particulier dans le contexte émergent des sorties de type trajectoire-réponse générées par des modèles de raisonnement de pointe comme Deepseek-R1. Dans ce travail, nous présentons ReasonFlux-PRM, un PRM novateur conscient des trajectoires, explicitement conçu pour évaluer les traces de raisonnement de type trajectoire-réponse. ReasonFlux-PRM intègre une supervision à la fois au niveau des étapes et des trajectoires, permettant une attribution fine des récompenses alignée sur des données structurées de chaîne de pensée. Nous adaptons ReasonFlux-PRM pour supporter la supervision des récompenses dans des contextes hors ligne et en ligne, incluant (i) la sélection de données de haute qualité pour la distillation de modèles en vue d'un réglage fin supervisé de modèles plus petits, (ii) la fourniture de récompenses denses au niveau du processus pour l'optimisation des politiques lors de l'apprentissage par renforcement, et (iii) l'activation d'une mise à l'échelle guidée par récompense au moment du test (Best-of-N). Les résultats empiriques sur des benchmarks exigeants tels que AIME, MATH500 et GPQA-Diamond montrent que ReasonFlux-PRM-7B sélectionne des données de qualité supérieure par rapport à des PRM puissants (par exemple, Qwen2.5-Math-PRM-72B) et à des bases de référence établies par des humains. De plus, notre ReasonFlux-PRM-7B dérivé apporte des améliorations de performance constantes, avec des gains moyens de 12,1 % en réglage fin supervisé, 4,5 % en apprentissage par renforcement et 6,3 % en mise à l'échelle au moment du test. Nous publions également notre ReasonFlux-PRM-1.5B efficace pour les applications à ressources limitées et le déploiement en périphérie. Projets : https://github.com/Gen-Verse/ReasonFlux
La génération sujet-vidéo a connu des progrès substantiels ces dernières années. Cependant, les modèles existants continuent de faire face à des défis importants pour suivre fidèlement les instructions textuelles. Cette limitation, communément appelée problème de copier-coller, découle du paradigme d'apprentissage par paires largement utilisé. Cette approche entrelace intrinsèquement l'identité du sujet avec les attributs de fond et contextuels en échantillonnant des images de référence provenant de la même scène que la vidéo cible. Pour résoudre ce problème, nous introduisons Phantom-Data, le premier ensemble de données généraliste de cohérence sujet-vidéo inter-paires, contenant environ un million de paires à identité cohérente couvrant diverses catégories. Notre ensemble de données est construit via un pipeline en trois étapes : (1) un module de détection de sujet général et aligné sur l'entrée, (2) une récupération de sujet à grande échelle dans plus de 53 millions de vidéos et 3 milliards d'images, et (3) une vérification d'identité guidée par des priorités pour assurer la cohérence visuelle malgré les variations contextuelles. Des expériences approfondies montrent que l'entraînement avec Phantom-Data améliore significativement l'alignement sur les instructions et la qualité visuelle tout en préservant la cohérence d'identité au même niveau que les approches par paires de référence.
Cet article présente un cadre multimodal qui tente d'unifier la compréhension et la génération visuelles au sein d'une représentation sémantique discrète partagée. Au cœur de ce système se trouve le Tokenizer Aligné sur le Texte (TA-Tok), qui convertit les images en tokens discrets en utilisant un codebook aligné sur le texte, projeté à partir du vocabulaire d'un grand modèle de langage (LLM). En intégrant la vision et le texte dans un espace unifié avec un vocabulaire étendu, notre LLM multimodal, Tar, permet des entrées et sorties intermodales via une interface partagée, sans nécessiter de conceptions spécifiques à chaque modalité. De plus, nous proposons un encodage et un décodage adaptatifs à l'échelle pour équilibrer efficacité et détails visuels, ainsi qu'un dé-tokenizer génératif pour produire des sorties visuelles de haute fidélité. Pour répondre à divers besoins de décodage, nous utilisons deux dé-tokenizers complémentaires : un modèle autorégressif rapide et un modèle basé sur la diffusion. Pour améliorer la fusion des modalités, nous explorons des tâches de pré-entraînement avancées, démontrant des améliorations à la fois dans la compréhension et la génération visuelles. Les expériences menées sur divers benchmarks montrent que Tar égale ou dépasse les méthodes existantes de LLM multimodaux, atteignant une convergence plus rapide et une efficacité d'entraînement accrue. Le code, les modèles et les données sont disponibles à l'adresse https://tar.csuhan.com.
Nous proposons un nouveau mécanisme de mémoire pour construire des générateurs vidéo capables d'explorer des environnements de manière interactive. Des résultats similaires ont été obtenus précédemment en extrapolant des vues 2D de la scène tout en reconstruisant progressivement sa géométrie 3D, ce qui accumule rapidement des erreurs, ou par des générateurs vidéo avec une fenêtre de contexte courte, qui peinent à maintenir la cohérence de la scène sur le long terme. Pour surmonter ces limitations, nous introduisons la Mémoire de Vues Indexée par Surfel (VMem), un mécanisme qui mémorise les vues passées en les indexant géométriquement en fonction des éléments de surface 3D (surfels) qu'elles ont observés. VMem permet la récupération efficace des vues passées les plus pertinentes lors de la génération de nouvelles vues. En se concentrant uniquement sur ces vues pertinentes, notre méthode produit des explorations cohérentes d'environnements imaginés à une fraction du coût computationnel requis pour utiliser toutes les vues passées comme contexte. Nous évaluons notre approche sur des benchmarks exigeants de synthèse de scènes à long terme et démontrons une performance supérieure par rapport aux méthodes existantes en termes de maintien de la cohérence de la scène et de contrôle de la caméra.
Nous présentons DIP, une nouvelle méthode non supervisée de post-entraînement conçue pour améliorer les représentations denses d'images dans les encodeurs de vision pré-entraînés à grande échelle pour la compréhension contextuelle de scènes. Contrairement aux approches antérieures qui reposent sur des architectures complexes d'auto-distillation, notre méthode entraîne l'encodeur de vision en utilisant des pseudo-tâches qui simulent explicitement des scénarios contextuels en aval, inspirés par les principes du méta-apprentissage. Pour permettre un post-entraînement sur des données non étiquetées, nous proposons un mécanisme automatique de génération de tâches contextuelles qui combine un modèle de diffusion pré-entraîné et l'encodeur de vision lui-même. DIP est simple, non supervisé et efficace sur le plan computationnel, nécessitant moins de 9 heures sur un seul GPU A100. En apprenant des représentations denses à travers des pseudo-tâches contextuelles, il obtient de solides performances sur une grande variété de tâches contextuelles de compréhension de scènes en aval dans le monde réel. Il surpasse à la fois l'encodeur de vision initial et les méthodes antérieures, offrant une solution pratique et efficace pour améliorer les représentations denses. Le code est disponible ici : https://github.com/sirkosophia/DIP
Nous présentons RealPlay, un moteur de jeu basé sur des réseaux de neurones qui permet la génération interactive de vidéos à partir de signaux de contrôle utilisateur. Contrairement aux travaux antérieurs axés sur des visuels de type jeu vidéo, RealPlay vise à produire des séquences vidéo photoréalistes et temporellement cohérentes, ressemblant à des séquences du monde réel. Il fonctionne selon une boucle interactive : les utilisateurs observent une scène générée, émettent une commande de contrôle et reçoivent en réponse un court segment vidéo. Pour permettre une génération aussi réaliste et réactive, nous abordons des défis clés, notamment la prédiction itérative segment par segment pour un retour à faible latence, la cohérence temporelle entre les itérations et une réponse précise aux commandes de contrôle. RealPlay est entraîné sur une combinaison de données de jeu étiquetées et de vidéos du monde réel non étiquetées, sans nécessiter d’annotations d’actions réelles. Nous observons notamment deux formes de généralisation : (1) le transfert de contrôle—RealPeut mapper efficacement les signaux de contrôle des scénarios virtuels vers des scénarios réels ; et (2) le transfert d’entités—bien que les étiquettes d’entraînement proviennent uniquement d’un jeu de course automobile, RealPlay généralise le contrôle à diverses entités du monde réel, y compris des vélos et des piétons, au-delà des véhicules. La page du projet est disponible à l’adresse : https://wenqsun.github.io/RealPlay/
Le profilage des utilisateurs est essentiel pour les systèmes de recommandation, car il transforme les données brutes d'interaction utilisateur en représentations concises et structurées qui alimentent les recommandations personnalisées. Alors que les profils traditionnels basés sur des embeddings manquent d'interprétabilité et d'adaptabilité, les récentes avancées des grands modèles de langage (LLMs) permettent des profils textuels plus riches sémantiquement et plus transparents. Cependant, les méthodes existantes adhèrent souvent à des formats fixes qui limitent leur capacité à capturer toute la diversité des comportements des utilisateurs. Dans cet article, nous présentons LettinGo, un nouveau cadre pour générer des profils utilisateurs diversifiés et adaptatifs. En exploitant la puissance expressive des LLMs et en intégrant des retours directs des tâches de recommandation en aval, notre approche évite les contraintes rigides imposées par le fine-tuning supervisé (SFT). À la place, nous utilisons l'Optimisation Directe des Préférences (DPO) pour aligner le générateur de profils sur la performance spécifique à la tâche, garantissant que les profils restent adaptatifs et efficaces. LettinGo fonctionne en trois étapes : (1) explorer des profils utilisateurs diversifiés via plusieurs LLMs, (2) évaluer la qualité des profils en fonction de leur impact dans les systèmes de recommandation, et (3) aligner la génération de profils grâce à des données de préférences par paires dérivées de la performance des tâches. Les résultats expérimentaux montrent que notre cadre améliore significativement la précision, la flexibilité et la conscience contextuelle des recommandations. Ce travail renouvelle la génération de profils en tant qu'innovation clé pour les systèmes de recommandation de nouvelle génération.
Les modèles de langage multimodaux de grande taille (MLLMs) commencent à démontrer des capacités de raisonnement robustes sur des tâches générales, mais leur application dans le domaine médical en est encore à ses débuts. La construction de données d'entraînement en chaîne de pensée (CoT) est essentielle pour renforcer les capacités de raisonnement des MLLMs médicaux. Cependant, les approches existantes présentent une lacune en ne proposant pas un cadre complet pour rechercher et évaluer des chemins de raisonnement efficaces vers un diagnostic critique. Pour relever ce défi, nous proposons Mentor-Intern Collaborative Search (MICS), un nouveau schéma de recherche de chemins de raisonnement pour générer des données CoT médicales rigoureuses et efficaces. MICS exploite d'abord des modèles mentors pour initialiser le raisonnement, étape par étape, puis incite chaque modèle interne à poursuivre la réflexion le long de ces chemins initiés, et enfin sélectionne le chemin de raisonnement optimal en fonction de la performance globale de raisonnement de plusieurs modèles internes. La performance de raisonnement est déterminée par un MICS-Score, qui évalue la qualité des chemins de raisonnement générés. Finalement, nous construisons MMRP, un ensemble de données de raisonnement médical multi-tâches avec un niveau de difficulté classé, et Chiron-o1, un nouveau MLLM médical conçu via une stratégie d'apprentissage curriculaire, doté de capacités robustes de réponse visuelle à des questions et de raisonnement généralisable. Des expériences approfondies démontrent que Chiron-o1, entraîné sur notre ensemble de données CoT construit en utilisant MICS, atteint des performances de pointe sur une liste de benchmarks de réponse visuelle à des questions et de raisonnement médical. Les codes sont disponibles sur GitHub - manglu097/Chiron-o1 : Amélioration du raisonnement médical étape par étape et vérifiable dans les MLLMs.
Nous proposons le premier cadre capable de calculer une grille spatio-temporelle 4D d’images vidéo et de particules gaussiennes 3D pour chaque pas de temps en utilisant une architecture à propagation avant. Notre architecture comporte deux composants principaux : un modèle vidéo 4D et un modèle de reconstruction 4D. Dans la première partie, nous analysons les architectures actuelles de diffusion vidéo 4D qui effectuent l’attention spatiale et temporelle soit séquentiellement, soit en parallèle dans un design à deux flux. Nous mettons en évidence les limitations des approches existantes et introduisons une nouvelle architecture fusionnée qui effectue l’attention spatiale et temporelle au sein d’une seule couche. La clé de notre méthode réside dans un motif d’attention parcimonieux, où les tokens s’attachent à d’autres dans la même image, au même instant, ou depuis le même point de vue. Dans la deuxième partie, nous étendons les algorithmes de reconstruction 3D existants en introduisant une tête gaussienne, un algorithme de remplacement de token de caméra, ainsi que des couches dynamiques supplémentaires et un entraînement adapté. Globalement, nous établissons un nouvel état de l’art pour la génération 4D, améliorant à la fois la qualité visuelle et la capacité de reconstruction.
L'évaluation des modèles génératifs 3D reste un défi en raison du désalignement entre les métriques automatisées et la perception humaine de la qualité. Les benchmarks actuels s'appuient sur des métriques basées sur l'image qui ignorent la structure 3D ou sur des mesures géométriques qui ne parviennent pas à capturer l'attrait perceptuel et l'utilité dans le monde réel. Pour combler cette lacune, nous présentons 3D Arena, une plateforme ouverte pour l'évaluation des modèles de génération d'images en 3D grâce à la collecte à grande échelle de préférences humaines via des comparaisons par paires. Depuis son lancement en juin 2024, la plateforme a recueilli 123 243 votes de 8 096 utilisateurs pour 19 modèles de pointe, établissant ainsi la plus grande évaluation des préférences humaines pour la génération 3D. Nous contribuons avec le jeu de données iso3d de 100 prompts d'évaluation et démontrons un contrôle de qualité atteignant 99,75 % d'authenticité des utilisateurs grâce à une détection statistique de fraude. Notre système de classement basé sur ELO fournit une évaluation fiable des modèles, faisant de la plateforme une ressource d'évaluation établie. À travers l'analyse de ces données de préférence, nous présentons des insights sur les modèles de préférence humaine. Nos résultats révèlent des préférences pour des caractéristiques de présentation visuelle, avec les sorties de splats gaussiens obtenant un avantage ELO de 16,6 par rapport aux maillages, et les modèles texturés bénéficiant d'un avantage ELO de 144,1 par rapport aux modèles non texturés. Nous proposons des recommandations pour améliorer les méthodes d'évaluation, incluant une évaluation multicritère, une évaluation orientée tâche et une comparaison prenant en compte le format. L'engagement de la communauté autour de la plateforme établit 3D Arena comme un benchmark pour le domaine tout en faisant progresser la compréhension de l'évaluation centrée sur l'humain dans la génération 3D.
L'architecture Mixture of Experts (MoE) s'est imposée comme un paradigme puissant pour l'extension des grands modèles de langage (LLMs) tout en maintenant l'efficacité de l'inférence. Cependant, leurs énormes besoins en mémoire les rendent prohibitivement coûteux à affiner ou à déployer dans des environnements aux ressources limitées. Pour relever ce défi, nous introduisons SlimMoE, un cadre de compression multi-étapes permettant de transformer de grands modèles MoE en des variantes beaucoup plus petites et efficaces sans engendrer les coûts prohibitifs d'un entraînement à partir de zéro. Notre méthode réduit systématiquement le nombre de paramètres en affinant les experts et en transférant les connaissances à travers des étapes intermédiaires, atténuant ainsi efficacement la dégradation des performances commune aux approches d'élagage en une seule étape. En utilisant ce cadre, nous compressons Phi 3.5-MoE (41,9B paramètres totaux/6,6B paramètres activés) pour créer Phi-mini-MoE (7,6B paramètres totaux/2,4B paramètres activés) et Phi-tiny-MoE (3,8B paramètres totaux/1,1B paramètres activés) en utilisant seulement 400B tokens—moins de 10 % des données d'entraînement du modèle original. Ces modèles compressés peuvent être affinés sur un seul GPU (A100 pour Phi-mini-MoE, A6000 pour Phi-tiny-MoE), les rendant très adaptés aux contextes académiques et aux environnements aux ressources limitées. Nos expériences montrent que ces modèles compressés surpassent d'autres modèles de taille similaire et restent compétitifs avec des modèles plus grands. Par exemple, Phi-mini-MoE atteint des performances similaires ou meilleures à celles de Phi-3-mini en utilisant seulement 2/3 des paramètres activés et obtient des scores MMLU comparables à ceux de Llama 3.1 8B malgré une latence significativement plus faible. Nos résultats démontrent que l'élagage structuré combiné à une distillation par étapes offre une voie efficace pour créer des modèles MoE compacts et de haute qualité, ouvrant la voie à une adoption plus large des architectures MoE. Nous rendons nos modèles publics sur https://huggingface.co/microsoft/Phi-mini-MoE-instruct et https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
Cet article présente FinCoT, une approche structurée de prompting en chaîne de pensée (CoT) qui intègre des insights issus du raisonnement expert spécifique au domaine financier pour guider les traces de raisonnement des grands modèles de langage. Nous constatons qu'il existe trois principaux styles de prompting dans FinNLP : (1) le prompting standard—zero-shot prompting ; (2) le CoT non structuré—CoT prompting sans structure de raisonnement explicite, comme l'utilisation de balises ; et (3) le CoT structuré—CoT prompting avec des instructions ou des exemples explicites définissant des étapes de raisonnement structurées. Jusqu'à présent, FinNLP s'est principalement concentré sur l'ingénierie de prompts avec soit le prompting standard, soit le CoT non structuré. Cependant, le CoT structuré a reçu une attention limitée dans les travaux antérieurs. De plus, la conception des structures de raisonnement dans le CoT structuré est souvent basée sur des heuristiques provenant de non-experts du domaine. Dans cette étude, nous examinons chaque approche de prompting dans FinNLP. Nous évaluons les trois principaux styles de prompting ainsi que FinCoT sur des questions de type CFA couvrant dix domaines financiers. Nous observons que FinCoT améliore les performances de 63,2 % à 80,5 % et celles de Qwen-2.5-7B-Instruct de 69,7 % à 74,2 %, tout en réduisant les tokens générés par un facteur de huit par rapport au CoT structuré. Nos résultats montrent que les prompts structurés alignés sur le domaine améliorent non seulement les performances et réduisent les coûts d'inférence, mais produisent également des traces de raisonnement plus interprétables et alignées sur l'expertise.
L'édition de l'éclairage dans les vidéos longues avec des dynamiques complexes présente une valeur significative pour diverses tâches en aval, notamment la création et la manipulation de contenu visuel, ainsi que l'augmentation des données pour l'IA incarnée via les transferts sim2real et real2real. Néanmoins, les techniques existantes de rééclairage vidéo sont principalement limitées aux vidéos de portraits ou se heurtent à des problèmes de cohérence temporelle et d'efficacité computationnelle. Dans cet article, nous proposons TC-Light, un nouveau paradigme caractérisé par un mécanisme d'optimisation postérieure en deux étapes. Partant d'une vidéo préalablement rééclairée par un modèle de rééclairage vidéo gonflé, il optimise l'incorporation d'apparence dans la première étape pour aligner l'éclairage global. Ensuite, il optimise la représentation vidéo canonique proposée, c'est-à-dire le Tenseur Vidéo Unique (UVT), pour aligner la texture et l'éclairage à un niveau granulaire dans la deuxième étape. Pour évaluer de manière exhaustive les performances, nous établissons également un benchmark de vidéos longues et hautement dynamiques. Des expériences approfondies montrent que notre méthode permet d'obtenir des résultats de rééclairage physiquement plausibles avec une cohérence temporelle supérieure et un faible coût computationnel. Le code et les démonstrations vidéo sont disponibles à l'adresse https://dekuliutesla.github.io/tclight/.
DeepSeek-R1 a réussi à améliorer les capacités de raisonnement des modèles de langage de grande taille (LLM) grâce à son système de récompense basé sur des règles. Bien qu'il s'agisse d'un système de récompense « parfait » qui atténue efficacement le piratage des récompenses, de telles fonctions de récompense sont souvent discrètes. Nos observations expérimentales suggèrent que les récompenses discrètes peuvent entraîner des anomalies de gradient, une optimisation instable et une convergence lente. Pour résoudre ce problème, nous proposons ReDit (Reward Dithering), une méthode qui brouille le signal de récompense discret en ajoutant un simple bruit aléatoire. Avec cette récompense perturbée, des gradients exploratoires sont continuellement fournis tout au long du processus d'apprentissage, permettant des mises à jour de gradient plus fluides et accélérant la convergence. Le bruit injecté introduit également une stochasticité dans les régions de récompense plates, encourageant le modèle à explorer de nouvelles politiques et à échapper aux optima locaux. Des expériences sur diverses tâches démontrent l'efficacité et l'efficience de ReDit. En moyenne, ReDit atteint des performances comparables à celles de GRPO classique avec seulement environ 10 % des étapes d'entraînement, et montre en outre une amélioration de 4 % par rapport à GRPO classique lorsqu'il est entraîné pendant une durée similaire. Les visualisations confirment une atténuation significative des problèmes de gradient avec ReDit. De plus, des analyses théoriques sont fournies pour valider davantage ces avantages.
Le récent déplacement des applications d'IA générative (GenAI) des environnements exclusivement cloud vers les appareils des utilisateurs finaux introduit de nouveaux défis en matière de gestion des ressources, d'efficacité système et d'expérience utilisateur. Cet article présente ConsumerBench, un cadre de benchmarking complet conçu pour évaluer l'efficacité système et le temps de réponse des modèles GenAI exécutés sur les appareils des utilisateurs finaux. Contrairement aux benchmarks existants qui supposent un accès exclusif aux modèles sur des GPU dédiés, ConsumerBench simule des scénarios réalistes d'applications multiples exécutées simultanément sur du matériel contraint. De plus, ConsumerBench prend en charge des workflows personnalisables qui simulent des tâches complexes nécessitant la coordination entre plusieurs applications. ConsumerBench capture à la fois des métriques au niveau de l'application, incluant la latence et l'atteinte des objectifs de niveau de service (SLO), et des métriques au niveau du système, comme l'utilisation du CPU/GPU et la bande passante mémoire. À travers des expériences approfondies, ConsumerBench révèle des inefficacités dans le partage des ressources, des inégalités de planification sous allocation gourmande, et les pièges de performance des configurations statiques de serveurs de modèles. L'article fournit également des insights pratiques pour les développeurs de modèles et les concepteurs de systèmes, mettant en avant les avantages des noyaux personnalisés adaptés aux architectures GPU grand public et la valeur de la mise en œuvre de stratégies de planification conscientes des SLO.
Les modèles de récompense (RMs) sont fondamentaux pour aligner les grands modèles de langage (LLMs) via le feedback humain, mais ils souffrent souvent de "reward hacking". Ils ont tendance à se focaliser sur des attributs superficiels ou fallacieux, tels que la longueur de la réponse ou le formatage, confondant ces indices appris à partir de corrélations dans les données d'entraînement avec les véritables facteurs causaux de qualité (par exemple, la factualité, la pertinence). Cela se produit parce que les objectifs d'entraînement standards peinent à démêler ces facteurs, conduisant à des RMs fragiles et à des politiques mal alignées. Nous introduisons Crome (Causally Robust Reward Modeling), un nouveau cadre fondé sur un modèle causal explicite conçu pour atténuer le reward hacking. Crome utilise les augmentations synthétiques ciblées suivantes pendant l'entraînement : (1) les Augmentations Causales, qui sont des paires différant selon des attributs causaux spécifiques, pour renforcer la sensibilité à chaque attribut causal individuellement, et (2) les Augmentations Neutres, qui sont des paires à étiquette égale variant principalement selon des attributs fallacieux, pour renforcer l'invariance par rapport à ces attributs. Notamment, nos augmentations sont produites sans aucune connaissance des facteurs fallacieux, via des interventions uniquement sur les rubriques causales, identifiées en interrogeant un LLM oracle. Empiriquement, Crome surpasse significativement les bases de référence standards sur RewardBench, améliorant la précision moyenne jusqu'à 5,4 % et obtenant des gains allant jusqu'à 13,2 % et 7,2 % dans des catégories spécifiques. La robustesse de Crome est en outre attestée par les gains constants obtenus dans un cadre d'inférence Best-of-N pour des N croissants, à travers divers benchmarks, notamment le populaire RewardBench (couvrant les tâches de chat, chat-hard, sécurité et raisonnement), le WildGuardTest axé sur la sécurité, et le GSM8k spécifique au raisonnement.
Ce travail examine si l'activation de sous-espaces latents dans les modèles de langage (LLMs) peut orienter la génération de code scientifique vers un langage de programmation spécifique. Cinq LLMs causaux ont d'abord été évalués sur des prompts de codage scientifique pour quantifier leur biais de base parmi quatre langages de programmation. Une méthode statique d'attribution neuronale, perturbant le poids MLP le plus activé pour un token C++ ou CPP, s'est avérée fragile et a montré une généralisation limitée à travers les styles de prompts et les échelles de modèles. Pour surmonter ces limitations, un cadre d'activation adaptative raffiné par gradient (G-ACT) a été développé : les différences d'activation par prompt sont regroupées en un petit ensemble de directions d'orientation, et des sondes légères par couche sont entraînées et affinées en ligne pour sélectionner le vecteur d'orientation approprié. Dans LLaMA-3.2 3B, cette approche oriente de manière fiable la génération vers le langage CPP en augmentant la précision moyenne de classification des sondes de 15 % et en améliorant la précision de classification des sondes des premières couches (0-6) de 61,5 % par rapport au cadre ACT standard. Pour LLaMA-3.3 70B, où les signaux des têtes d'attention deviennent plus diffus, des injections ciblées aux couches clés améliorent encore la sélection du langage. Bien que le sondage par couche introduise une surcharge d'inférence modeste, il reste pratique en orientant seulement un sous-ensemble de couches et permet un comportement reproductible du modèle. Ces résultats démontrent un mécanisme scalable, interprétable et efficace pour le contrôle au niveau conceptuel des systèmes agentiques pratiques.
La génération d'images multi-vues à partir d'instructions humaines est essentielle pour la création de contenu 3D. Les principaux défis consistent à maintenir la cohérence entre plusieurs vues et à synthétiser efficacement les formes et les textures dans des conditions variées. Dans cet article, nous proposons la méthode Multi-View Auto-Regressive (MV-AR), qui exploite un modèle auto-régressif pour générer progressivement des images multi-vues cohérentes à partir de prompts arbitraires. Premièrement, la capacité de prédiction de token suivant du modèle AR améliore significativement son efficacité dans la synthèse progressive multi-vues. Lors de la génération de vues largement séparées, MV-AR peut utiliser toutes ses vues précédentes pour extraire des informations de référence efficaces. Ensuite, nous proposons un modèle unifié qui s'adapte à divers prompts grâce à la conception de l'architecture et aux stratégies d'entraînement. Pour gérer plusieurs conditions, nous introduisons des modules d'injection de conditions pour le texte, la pose de la caméra, l'image et la forme. Pour gérer simultanément des conditions multi-modales, une stratégie d'entraînement progressive est employée. Cette stratégie adopte initialement le modèle texte-à-multi-vues (t2mv) comme base pour améliorer le développement d'un modèle complet X-à-multi-vues (X2mv) via l'abandon et la combinaison aléatoires des conditions. Enfin, pour atténuer le problème de sur-apprentissage causé par des données de haute qualité limitées, nous proposons la technique d'augmentation de données "Shuffle View", augmentant ainsi significativement les données d'entraînement de plusieurs ordres de grandeur. Les expériences démontrent la performance et la polyvalence de notre MV-AR, qui génère de manière cohérente des images multi-vues dans une gamme de conditions et rivalise avec les modèles de génération d'images multi-vues basés sur la diffusion. Le code et les modèles seront disponibles à l'adresse https://github.com/MILab-PKU/MVAR.
Les autoencodeurs parcimonieux (SAE) se sont imposés comme une solution prometteuse pour décomposer les représentations des grands modèles de langage en caractéristiques interprétables. Cependant, Paulo et Belrose (2025) ont mis en évidence une instabilité liée aux différentes initialisations aléatoires, tandis que Heap et al. (2025) ont souligné que les SAE pourraient ne pas capturer les caractéristiques internes des modèles. Ces problèmes découlent probablement de l'entraînement des SAE sur des ensembles de données externes – collectés sur le Web ou générés par un autre modèle – qui peuvent contenir des données hors distribution (OOD) dépassant les capacités de généralisation du modèle. Cela peut entraîner la création de caractéristiques hallucinées par les SAE, que nous qualifions de « Fake Features », qui déforment les activations internes du modèle. Pour résoudre ces problèmes, nous proposons FaithfulSAE, une méthode qui entraîne les SAE sur un ensemble de données synthétiques généré par le modèle lui-même. En utilisant FaithfulSAE, nous démontrons que l'entraînement des SAE sur des ensembles de données d'instructions moins OOD améliore leur stabilité face aux différentes initialisations. De manière notable, les FaithfulSAE surpassent les SAE entraînés sur des ensembles de données basés sur le Web dans la tâche de sondage des SAE et présentent un ratio de Fake Features plus faible pour 5 des 7 modèles testés. Globalement, notre approche élimine la dépendance aux ensembles de données externes, améliorant l'interprétabilité en capturant mieux les caractéristiques internes des modèles, tout en mettant en lumière l'importance souvent négligée des ensembles de données d'entraînement des SAE.
Les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans des applications nécessitant des contextes longs, mais le cache clé-valeur (KV) devient souvent un goulot d'étranglement mémoire sur les GPU à mesure que le contexte s'allonge. Pour résoudre ce problème, nous proposons la Quantisation Vectorielle Commutative (CommVQ) afin de réduire significativement l'utilisation de la mémoire pour l'inférence des LLMs à contexte long. Nous introduisons d'abord une quantification additive avec un encodeur léger et un codebook pour compresser le cache KV, qui peut être décodé via une simple multiplication matricielle. Pour réduire davantage les coûts de calcul lors du décodage, nous concevons le codebook pour qu'il soit commutatif avec l'Embedding de Position Rotatif (RoPE) et l'entraînons à l'aide d'un algorithme d'Espérance-Maximisation (EM). Cela permet une intégration efficace du décodage dans le mécanisme d'auto-attention. Notre approche atteint une haute précision avec la quantification additive et un faible surcoût grâce au codebook commutatif avec RoPE. Les expériences sur des benchmarks à contexte long et GSM8K montrent que notre méthode réduit la taille du cache KV FP16 de 87,5 % avec une quantification à 2 bits, tout en surpassant les méthodes de quantification de cache KV les plus avancées. Notamment, elle permet une quantification à 1 bit du cache KV avec une perte de précision minimale, permettant à un modèle LLaMA-3.1 8B de fonctionner avec une longueur de contexte de 128K sur un seul GPU RTX 4090. Le code source est disponible à l'adresse suivante : https://github.com/UMass-Embodied-AGI/CommVQ.
Malgré leurs capacités impressionnantes, les grands modèles de langage alignés (LLMs) produisent souvent des sorties qui manquent de diversité. Qu'est-ce qui explique cette stabilité dans la génération ? Nous étudions ce phénomène à travers le prisme de la concentration de probabilité dans la distribution des sorties du modèle. Pour quantifier cette concentration, nous introduisons le Facteur de Branchement (FB) — une mesure invariante par token du nombre effectif d'étapes plausibles suivantes lors de la génération. Notre analyse empirique révèle deux résultats clés : (1) Le FB diminue souvent au fur et à mesure que la génération progresse, suggérant que les LLMs deviennent plus prévisibles au cours de la génération. (2) L'alignement affine considérablement la distribution des sorties du modèle dès le départ, réduisant le FB de près d'un ordre de grandeur (par exemple, de 12 à 1,2) par rapport aux modèles de base. Cette réduction marquée explique pourquoi les modèles alignés semblent souvent moins sensibles aux stratégies de décodage. En nous appuyant sur cette observation, nous constatons que cette stabilité a des implications surprenantes pour le raisonnement complexe. Les modèles alignés de Chaîne de Pensée (CoT) (par exemple, les modèles distillés DeepSeek), par exemple, tirent parti de cet effet ; en générant des chaînes de raisonnement plus longues, ils poussent la génération vers des étapes ultérieures, plus déterministes (FB plus faible), ce qui aboutit à des sorties plus stables. Nous émettons l'hypothèse que l'alignement ne modifie pas fondamentalement le comportement d'un modèle, mais l'oriente plutôt vers des tokens stylistiques (par exemple, "Bien sûr") qui débloquent des trajectoires à faible entropie déjà présentes dans le modèle de base. Cette perspective est étayée par des expériences de nudging, qui montrent qu'inciter les modèles de base avec de tels tokens peut réduire de manière similaire le FB. Ensemble, nos résultats établissent le FB comme un outil diagnostique puissant pour comprendre et contrôler les sorties des LLMs — clarifiant comment l'alignement réduit la variabilité, comment la CoT favorise des générations stables, et comment les modèles de base peuvent être orientés loin de la diversité.
La détection de code généré par IA, de deepfakes et d'autres contenus synthétiques constitue un défi de recherche émergent. Alors que le code produit par les modèles de langage de grande taille (LLM) devient plus courant, l'identification du modèle spécifique derrière chaque échantillon prend de plus en plus d'importance. Cet article présente la première étude systématique sur l'attribution d'auteur pour les programmes en C générés par des LLM. Nous avons publié CodeT5-Authorship, un nouveau modèle qui utilise uniquement les couches encodeurs de l'architecture encodeur-décodeur originale de CodeT5, en abandonnant le décodeur pour se concentrer sur la classification. La sortie de l'encodeur de notre modèle (premier token) est passée à travers une tête de classification à deux couches avec activation GELU et dropout, produisant une distribution de probabilité sur les auteurs possibles. Pour évaluer notre approche, nous introduisons LLM-AuthorBench, un benchmark de 32 000 programmes C compilables générés par huit LLM de pointe sur diverses tâches. Nous comparons notre modèle à sept classificateurs ML traditionnels et huit modèles transformeurs fine-tunés, incluant BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer et Qwen2-1.5B fine-tuné avec LoRA. En classification binaire, notre modèle atteint une précision de 97,56 % pour distinguer les programmes C générés par des modèles étroitement liés tels que GPT-4.1 et GPT-4o, et une précision de 95,40 % pour l'attribution multi-classes parmi cinq LLM leaders (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 et DeepSeek-V3). Pour soutenir la science ouverte, nous publions l'architecture de CodeT5-Authorship, le benchmark LLM-AuthorBench et tous les scripts Google Colab pertinents sur GitHub : https://github.com/LLMauthorbench/.
Les modèles de langage multimodaux de grande envergure (MLLMs) récents excellent dans les tâches de référence en vision et langage, mais on en sait peu sur la manière dont la qualité visuelle des entrées influence leurs réponses. Une meilleure qualité perceptuelle des images se traduit-elle déjà par une meilleure compréhension des MLLMs ? Nous menons la première étude systématique couvrant les principaux MLLMs et une série de benchmarks en vision et langage, en appliquant des dégradations contrôlées et des variations stylistiques à chaque image. Étonnamment, nous découvrons un paradoxe de la qualité visuelle : les performances du modèle, de la tâche, et même des instances individuelles peuvent s’améliorer lorsque les images s’écartent de la fidélité perçue par l’humain. Les pipelines de restauration prêts à l’emploi ne parviennent pas à concilier ces préférences idiosyncrasiques. Pour combler cet écart, nous introduisons le réglage en temps de test de la qualité visuelle (VQ-TTT) – un module d’adaptation léger qui : (1) insère un noyau apprenable de faible rang avant l’encodeur visuel figé pour moduler le contenu fréquentiel ; et (2) affine uniquement les couches superficielles de l’encodeur visuel via LoRA. VQ-TTT ajuste dynamiquement chaque image d’entrée en une seule passe avant, l’alignant sur les préférences spécifiques au modèle et à la tâche. Sur l’ensemble des MLLMs évalués et tous les jeux de données, VQ-TTT améliore significativement la précision moyenne, sans recours à des modèles externes, des caractéristiques mises en cache ou des données d’entraînement supplémentaires. Ces résultats redéfinissent ce que sont des entrées visuelles « meilleures » pour les MLLMs et soulignent la nécessité d’images adaptatives, plutôt que universellement « propres », dans cette nouvelle ère où l’IA devient le principal consommateur de données.
Pouvons-nous mettre à l'échelle un pré-entraînement 4D pour apprendre des représentations spatio-temporelles générales capables de reconstruire un objet à partir de quelques vues à certains moments, pour n'importe quelle vue à n'importe quel moment ? Nous apportons une réponse affirmative avec 4D-LRM, le premier modèle de reconstruction 4D à grande échelle qui prend en entrée des vues et des timestamps non contraints et rend des combinaisons arbitraires de nouvelles vues et temps. Contrairement aux approches 4D précédentes, par exemple basées sur l'optimisation, la géométrie ou la génération, qui peinent avec l'efficacité, la généralisation ou la fidélité, 4D-LRM apprend une représentation spatio-temporelle unifiée et prédit directement des primitives gaussiennes 4D par pixel à partir de tokens d'images posées dans le temps, permettant un rendu rapide et de haute qualité, en principe, à un taux de trame infini. Nos résultats démontrent que la mise à l'échelle du pré-entraînement spatio-temporel permet une reconstruction 4D précise et efficace. Nous montrons que 4D-LRM généralise à de nouveaux objets, interpole dans le temps et gère des configurations de caméra diverses. Il reconstruit des séquences de 24 trames en une seule passe avant en moins de 1,5 seconde sur une seule GPU A100.
La réponse visuelle à des questions médicales vise à soutenir la prise de décision clinique en permettant aux modèles de répondre à des questions en langage naturel basées sur des images médicales. Bien que les récents progrès en apprentissage multimodal aient considérablement amélioré les performances, les méthodes actuelles souffrent encore d'une fiabilité limitée des réponses et d'une faible interprétabilité, ce qui entrave la capacité des cliniciens et des patients à comprendre et à faire confiance aux réponses générées par les modèles. Pour remédier à cela, ce travail propose d'abord un ensemble de données intitulé *Thinking with Visual Grounding* (ThinkVG), dans lequel la génération de réponses est décomposée en étapes de raisonnement intermédiaires qui ancrent explicitement les régions visuelles pertinentes de l'image médicale, offrant ainsi une explication fine et détaillée. En outre, nous introduisons un nouveau mécanisme de récompense vérifiable pour l'apprentissage par renforcement afin de guider l'après-entraînement, améliorant ainsi l'alignement entre le processus de raisonnement du modèle et sa réponse finale. De manière remarquable, notre méthode atteint des performances comparables en utilisant seulement un huitième des données d'entraînement, démontrant l'efficacité et l'efficience de la proposition. L'ensemble de données est disponible à l'adresse suivante : https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
Les récentes avancées dans les modèles de base pour la musique ont amélioré l'apprentissage des représentations audio, mais leur efficacité reste limitée face à la diversité des traditions musicales. Nous présentons CultureMERT-95M, un modèle de base adapté à plusieurs cultures, conçu pour renforcer l'apprentissage et la compréhension des représentations musicales interculturelles. Pour y parvenir, nous proposons une stratégie de pré-entraînement continu en deux étapes intégrant un réchauffement et un redécroissance du taux d'apprentissage, permettant une adaptation stable même avec des ressources computationnelles limitées. L'entraînement sur un mélange de données multiculturelles de 650 heures, comprenant des traditions musicales grecques, turques et indiennes, entraîne une amélioration moyenne de 4,9 % en ROC-AUC et AP pour diverses tâches d'auto-étiquetage de musiques non occidentales, surpassant les précédents modèles de pointe, avec un oubli minimal sur les benchmarks centrés sur la musique occidentale. Nous explorons également l'arithmétique des tâches, une approche alternative d'adaptation multiculturelle qui fusionne des modèles adaptés à une seule culture dans l'espace des poids. L'arithmétique des tâches performe aussi bien que notre modèle entraîné de manière multiculturelle sur les tâches d'auto-étiquetage non occidentales et ne montre aucune régression sur les ensembles de données occidentaux. L'évaluation interculturelle révèle que les modèles monoculturels se transfèrent avec une efficacité variable selon les traditions musicales, tandis que le modèle adapté multiculturel obtient les meilleures performances globales. Pour soutenir la recherche sur l'apprentissage des représentations musicales mondiales, nous rendons publics CultureMERT-95M et CultureMERT-TA-95M, favorisant ainsi le développement de modèles de base pour la musique plus conscients des aspects culturels.
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès remarquables, mais leur déploiement a révélé des vulnérabilités critiques, notamment face aux attaques de jailbreak qui contournent les mécanismes de sécurité. Les garde-fous—des mécanismes de défense externes qui surveillent et contrôlent les interactions avec les LLMs—se sont imposés comme une solution prometteuse. Cependant, le paysage actuel des garde-fous pour LLMs est fragmenté, manquant d'une taxonomie unifiée et d'un cadre d'évaluation complet. Dans cet article de systématisation des connaissances (SoK), nous présentons la première analyse holistique des garde-fous contre les jailbreaks pour les LLMs. Nous proposons une taxonomie novatrice et multidimensionnelle qui catégorise les garde-fous selon six dimensions clés, et introduisons un cadre d'évaluation Sécurité-Efficacité-Utilité pour mesurer leur efficacité pratique. À travers une analyse approfondie et des expériences, nous identifions les forces et les limites des approches existantes de garde-fous, explorons leur universalité face à différents types d'attaques, et fournissons des insights pour optimiser les combinaisons de défenses. Notre travail offre une base structurée pour les recherches et développements futurs, visant à guider l'avancement et le déploiement principié de garde-fous robustes pour les LLMs. Le code est disponible à l'adresse suivante : https://github.com/xunguangwang/SoK4JailbreakGuardrails.
La visualisation d'histoires est devenue une tâche populaire où des scènes visuelles sont générées pour représenter une narration à travers plusieurs panneaux. Un défi central dans ce contexte est de maintenir une cohérence visuelle, en particulier dans la manière dont les personnages et les objets persistent et évoluent tout au long de l'histoire. Malgré les récents progrès des modèles de diffusion, les approches actuelles échouent souvent à préserver les attributs clés des personnages, conduisant à des narrations incohérentes. Dans ce travail, nous proposons un cadre multi-agent collaboratif qui identifie, corrige et affine de manière autonome les incohérences dans les visualisations d'histoires multi-panneaux. Les agents opèrent dans une boucle itérative, permettant des mises à jour fines au niveau des panneaux sans avoir à régénérer des séquences entières. Notre cadre est agnostique aux modèles et s'intègre de manière flexible à une variété de modèles de diffusion, y compris les transformateurs de flux rectifiés tels que Flux et les modèles de diffusion latente tels que Stable Diffusion. Les expériences quantitatives et qualitatives montrent que notre méthode surpasse les approches antérieures en termes de cohérence multi-panneaux.
Les modèles de langage multi-modaux (MLLMs) récents éprouvent souvent des difficultés à générer des légendes d'images personnalisées, même lorsqu'ils sont entraînés sur des légendes de haute qualité. Dans ce travail, nous observons que ces limitations persistent dans les méthodes existantes de personnalisation des MLLMs basées sur l'après-entraînement. Plus précisément, bien que ces modèles soient ajustés a posteriori avec des données de légendes à grande échelle via un affinage supervisé (SFT), ils échouent fréquemment à produire des descriptions fidèles dans des scénarios réels, tels que la légende d'images multi-concepts. Cependant, l'acquisition de légendes à grande échelle et de haute qualité pour de tels contextes complexes est à la fois coûteuse et difficile. Pour répondre à la nature centrée sur les données du SFT, nous proposons un cadre d'après-entraînement basé sur l'apprentissage par renforcement (RL). À notre connaissance, il s'agit de la première approche basée sur le RL pour l'après-entraînement des MLLMs en vue de la génération de légendes d'images personnalisées. Notre méthode améliore significativement à la fois les capacités de reconnaissance visuelle et de génération personnalisée des MLLMs, et surpasse systématiquement les approches de référence basées sur le SFT, en particulier dans la tâche difficile de légende d'images multi-concepts.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit à des progrès remarquables dans le traitement du langage naturel, mais leurs exigences en termes de calcul et de mémoire restent un défi majeur, en particulier pour l'inférence en contexte long. Nous présentons TPTT (Transforming Pretrained Transformer into Titans), un nouveau cadre pour améliorer les modèles Transformer pré-entraînés avec des mécanismes d'attention linéarisée efficaces et une gestion avancée de la mémoire. TPTT utilise des techniques telles que Memory as Gate (MaG) et l'attention linéarisée mixte (LiZA). Il est entièrement compatible avec la bibliothèque Hugging Face Transformers, permettant une adaptation transparente de tout LLM causal par un réglage efficace des paramètres (LoRA) sans réentraînement complet. Nous démontrons l'efficacité de TPTT sur le benchmark MMLU avec des modèles d'environ 1 milliard de paramètres, observant des améliorations substantielles à la fois en efficacité et en précision. Par exemple, Titans-Llama-3.2-1B atteint une augmentation de 20 % en Exact Match (EM) par rapport à sa ligne de base. Les analyses statistiques et les comparaisons avec les méthodes récentes de pointe confirment l'évolutivité pratique et la robustesse de TPTT. Le code est disponible à l'adresse https://github.com/fabienfrfr/tptt. Le package Python est disponible à l'adresse https://pypi.org/project/tptt/.
La mortalité néonatale reste une réalité préoccupante pour les pays sous-développés et même certains pays développés. Les données mondiales indiquent que 26,693 bébés sur 1 000 naissances décèdent, selon Macro Trades. Pour réduire ce nombre, la prédiction précoce des bébés en danger est cruciale. Une telle prédiction permet de prendre soin de l'enfant et de la mère de manière adéquate afin d'éviter une mort précoce de l'enfant. Dans ce contexte, l'apprentissage automatique a été utilisé pour déterminer si un nouveau-né est à risque. Pour entraîner le modèle prédictif, des données historiques de 1,4 million de nouveau-nés ont été utilisées. Des techniques d'apprentissage automatique et d'apprentissage profond telles que la régression logistique, les k-plus proches voisins, le classifieur de forêt aléatoire, l'extreme gradient boosting (XGBoost), les réseaux de neurones convolutifs et la mémoire à long terme (LSTM) ont été mises en œuvre à l'aide de cet ensemble de données pour identifier le modèle le plus précis pour prédire la mortalité néonatale. Parmi les algorithmes d'apprentissage automatique, XGBoost et le classifieur de forêt aléatoire ont obtenu la meilleure précision avec 94 %, tandis que parmi les modèles d'apprentissage profond, LSTM a atteint la plus haute précision avec 99 %. Par conséquent, l'utilisation de LSTM semble être l'approche la plus adaptée pour prédire si des mesures préventives pour un enfant sont nécessaires.
Malgré les progrès récents dans la génération de code RTL matériel avec des LLM, les solutions existantes souffrent encore d'un écart substantiel entre les scénarios d'application pratiques et les exigences du développement réel de code RTL. Les approches antérieures se concentrent soit sur des descriptions matérielles excessivement simplifiées, soit dépendent d'une guidance humaine extensive pour traiter des spécifications complexes, limitant ainsi leur potentiel de scalabilité et d'automatisation. Dans cet article, nous comblons cet écart en proposant un système d'agents LLM, appelé Spec2RTL-Agent, conçu pour traiter directement la documentation de spécifications complexes et générer les implémentations de code RTL correspondantes, faisant ainsi progresser la génération de code RTL basée sur les LLM vers des contextes d'application plus réalistes. Pour atteindre cet objectif, Spec2RTL-Agent introduit un cadre de collaboration multi-agents novateur qui intègre trois facilitateurs clés : (1) un module de raisonnement et de compréhension qui traduit les spécifications en plans d'implémentation structurés et étape par étape ; (2) un module de codage progressif et d'optimisation des prompts qui affine itérativement le code à travers plusieurs représentations pour améliorer la correction et la synthétisabilité pour la conversion RTL ; et (3) un module de réflexion adaptative qui identifie et retrace la source des erreurs pendant la génération, assurant un flux de génération de code plus robuste. Au lieu de générer directement du RTL à partir du langage naturel, notre système génère stratégiquement du code C++ synthétisable, qui est ensuite optimisé pour la synthèse de haut niveau (HLS). Ce raffinement piloté par des agents garantit une plus grande correction et compatibilité par rapport aux approches naïves de génération directe de RTL. Nous évaluons Spec2RTL-Agent sur trois documents de spécifications, montrant qu'il génère un code RTL précis avec jusqu'à 75 % d'interventions humaines en moins que les méthodes existantes. Cela souligne son rôle en tant que premier système multi-agents entièrement automatisé pour la génération de RTL à partir de spécifications non structurées, réduisant ainsi la dépendance à l'effort humain dans la conception matérielle.