Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Phi-4-Mini et Phi-4-Multimodal, des modèles de langage et multimodaux compacts mais hautement performants. Phi-4-Mini est un modèle de langage de 3,8 milliards de paramètres entraîné sur des données web de haute qualité et des données synthétiques, surpassant significativement les modèles open-source récents de taille similaire et égalant les performances de modèles deux fois plus grands sur des tâches de mathématiques et de codage nécessitant un raisonnement complexe. Cette performance est rendue possible grâce à une recette de données synthétiques soigneusement élaborée, mettant l'accent sur des ensembles de données de haute qualité en mathématiques et en codage. Par rapport à son prédécesseur, Phi-3.5-Mini, Phi-4-Mini dispose d'une taille de vocabulaire étendue à 200 000 tokens pour mieux supporter les applications multilingues, ainsi que d'une attention par groupe de requêtes (group query attention) pour une génération de séquences longues plus efficace. Phi-4-Multimodal est un modèle multimodal qui intègre les modalités de texte, vision et parole/audio dans un seul modèle. Son approche novatrice d'extension de modalités exploite des adaptateurs LoRA et des routeurs spécifiques à chaque modalité pour permettre plusieurs modes d'inférence combinant diverses modalités sans interférence. Par exemple, il occupe désormais la première place du classement OpenASR à ce jour, bien que le composant LoRA de la modalité parole/audio ne compte que 460 millions de paramètres. Phi-4-Multimodal prend en charge des scénarios impliquant des entrées (vision + langage), (vision + parole) et (parole/audio), surpassant des modèles vision-langage et parole-langage plus grands sur une large gamme de tâches. De plus, nous expérimentons un entraînement supplémentaire de Phi-4-Mini pour améliorer ses capacités de raisonnement. Malgré sa taille compacte de 3,8 milliards de paramètres, cette version expérimentale atteint des performances de raisonnement comparables ou supérieures à des modèles nettement plus grands, notamment DeepSeek-R1-Distill-Qwen-7B et DeepSeek-R1-Distill-Llama-8B.
Le Fine-Tuning par Renforcement (Reinforcement Fine-Tuning, RFT) dans les modèles de raisonnement à grande échelle comme OpenAI o1 apprend à partir de retours sur ses réponses, ce qui est particulièrement utile dans des applications où les données de fine-tuning sont rares. Les travaux récents en open source, comme DeepSeek-R1, montrent que l'apprentissage par renforcement avec des récompenses vérifiables est une direction clé pour reproduire o1. Bien que le modèle de style R1 ait démontré son succès dans les modèles de langage, son application dans les domaines multi-modaux reste peu explorée. Ce travail introduit le Fine-Tuning par Renforcement Visuel (Visual-RFT), qui étend davantage les domaines d'application du RFT aux tâches visuelles. Concrètement, Visual-RFT utilise d'abord des modèles de vision-langage à grande échelle (Large Vision-Language Models, LVLMs) pour générer plusieurs réponses contenant des tokens de raisonnement et des réponses finales pour chaque entrée, puis utilise nos fonctions de récompense vérifiables basées sur la perception visuelle pour mettre à jour le modèle via un algorithme d'optimisation de politique tel que l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO). Nous concevons différentes fonctions de récompense vérifiables pour différentes tâches de perception, comme la récompense basée sur l'Intersection sur Union (IoU) pour la détection d'objets. Les résultats expérimentaux sur la classification d'images fine, la détection d'objets en few-shot, l'ancrage de raisonnement, ainsi que les benchmarks de détection d'objets en vocabulaire ouvert montrent la performance compétitive et la capacité de généralisation avancée de Visual-RFT par rapport au Fine-Tuning Supervisé (Supervised Fine-Tuning, SFT). Par exemple, Visual-RFT améliore la précision de 24,3 % par rapport à la ligne de base dans la classification d'images fine en one-shot avec environ 100 échantillons. Dans la détection d'objets en few-shot, Visual-RFT dépasse également la ligne de base de 21,9 sur le réglage two-shot de COCO et de 15,4 sur LVIS. Notre Visual-RFT représente un changement de paradigme dans le fine-tuning des LVLMs, offrant une approche économe en données et pilotée par les récompenses qui améliore le raisonnement et l'adaptabilité pour des tâches spécifiques à un domaine.
Les champs de radiance neuronaux (NeRF) et le placage de gaussiennes 3D (3DGS) ont révolutionné les tâches de reconstruction 3D et de synthèse de nouvelles vues. Cependant, obtenir un rendu photoréaliste à partir de points de vue extrêmement nouveaux reste un défi, car des artefacts persistent à travers les représentations. Dans ce travail, nous présentons Difix3D+, une nouvelle pipeline conçue pour améliorer la reconstruction 3D et la synthèse de nouvelles vues grâce à des modèles de diffusion en une seule étape. Au cœur de notre approche se trouve Difix, un modèle de diffusion d'images en une seule étape entraîné pour améliorer et supprimer les artefacts dans les vues nouvelles rendues, causés par les régions sous-contraintes de la représentation 3D. Difix joue deux rôles critiques dans notre pipeline. Premièrement, il est utilisé pendant la phase de reconstruction pour nettoyer les vues pseudo-d'entraînement qui sont rendues à partir de la reconstruction puis distillées à nouveau en 3D. Cela améliore considérablement les régions sous-contraintes et améliore la qualité globale de la représentation 3D. Plus important encore, Difix agit également comme un amplificateur neuronal pendant l'inférence, supprimant efficacement les artefacts résiduels résultant d'une supervision 3D imparfaite et de la capacité limitée des modèles de reconstruction actuels. Difix3D+ est une solution générale, un modèle unique compatible avec les représentations NeRF et 3DGS, et il permet une amélioration moyenne de 2 fois du score FID par rapport aux bases de référence tout en maintenant la cohérence 3D.
L'inférence au moment du test est apparue comme un paradigme puissant permettant aux modèles de langage de « réfléchir » plus longtemps et plus attentivement à des défis complexes, à l'instar d'experts humains qualifiés. Bien que l'apprentissage par renforcement (RL) puisse favoriser l'auto-amélioration des modèles de langage sur des tâches vérifiables, certains modèles montrent des gains substantiels tandis que d'autres atteignent rapidement un plateau. Par exemple, nous constatons que Qwen-2.5-3B surpasse largement Llama-3.2-3B sous un entraînement RL identique pour le jeu de Countdown. Cette divergence soulève une question cruciale : quelles propriétés intrinsèques permettent une auto-amélioration efficace ? Nous introduisons un cadre pour explorer cette question en analysant quatre comportements cognitifs clés — vérification, retour en arrière, définition de sous-objectifs et chaînage arrière — que les résolveurs de problèmes humains experts et les modèles de langage performants utilisent. Notre étude révèle que Qwen manifeste naturellement ces comportements de raisonnement, tandis que Llama en manque initialement. Dans des expérimentations systématiques avec des ensembles de données comportementales contrôlées, nous constatons que l'amorçage de Llama avec des exemples contenant ces comportements de raisonnement permet des améliorations substantielles pendant le RL, égalant ou dépassant les performances de Qwen. Fait important, la présence de comportements de raisonnement, plutôt que la justesse des réponses, s'avère être le facteur critique — les modèles amorcés avec des solutions incorrectes mais contenant des schémas de raisonnement appropriés atteignent des performances comparables à ceux entraînés sur des solutions correctes. Enfin, en exploitant un pré-entraînement continu avec les données d'OpenWebMath, filtrées pour amplifier les comportements de raisonnement, le modèle Llama parvient à égaler la trajectoire d'auto-amélioration de Qwen. Nos résultats établissent une relation fondamentale entre les comportements de raisonnement initiaux et la capacité d'amélioration, expliquant pourquoi certains modèles de langage utilisent efficacement des ressources de calcul supplémentaires tandis que d'autres atteignent un plateau.
La génération de séquences ultra-longues avec des modèles de langage de grande taille (LLMs) est devenue de plus en plus cruciale, mais reste une tâche extrêmement chronophage, en particulier pour des séquences allant jusqu'à 100 000 tokens. Bien que des méthodes traditionnelles de décodage spéculatif existent, le simple fait d'étendre leurs limites de génération ne permet pas d'accélérer le processus et peut même s'avérer contre-productif. À travers une analyse approfondie, nous identifions trois défis majeurs entravant une génération efficace : le rechargement fréquent du modèle, la gestion dynamique des clés-valeurs (KV) et la génération répétitive. Pour résoudre ces problèmes, nous introduisons TOKENSWIFT, un nouveau cadre conçu pour accélérer considérablement le processus de génération de séquences ultra-longues tout en préservant la qualité intrinsèque du modèle cible. Les résultats expérimentaux démontrent que TOKENSWIFT permet une accélération de plus de 3 fois sur des modèles de différentes échelles (1,5B, 7B, 8B, 14B) et architectures (MHA, GQA). Cette accélération se traduit par des économies de temps de plusieurs heures pour la génération de séquences ultra-longues, établissant TOKENSWIFT comme une solution scalable et efficace à des longueurs sans précédent. Le code est disponible à l'adresse suivante : https://github.com/bigai-nlco/TokenSwift.
Les récents progrès dans la génération musicale ont suscité un intérêt considérable, mais les approches existantes présentent des limitations critiques. Certains modèles génératifs actuels ne peuvent synthétiser que la piste vocale ou la piste d'accompagnement. Bien que certains modèles puissent générer des combinaisons vocales et instrumentales, ils reposent généralement sur des architectures en cascade multi-étapes méticuleusement conçues et des pipelines de données complexes, ce qui entrave leur évolutivité. De plus, la plupart des systèmes sont limités à la génération de segments musicaux courts plutôt que de chansons complètes. Par ailleurs, les méthodes largement utilisées basées sur des modèles de langage souffrent de vitesses d'inférence lentes. Pour relever ces défis, nous proposons DiffRhythm, le premier modèle de génération de chansons basé sur la diffusion latente capable de synthétiser des chansons complètes avec à la fois des voix et un accompagnement pour des durées allant jusqu'à 4 minutes 45 secondes en seulement dix secondes, tout en maintenant une musicalité et une intelligibilité élevées. Malgré ses capacités remarquables, DiffRhythm est conçu pour être simple et élégant : il élimine le besoin de préparation de données complexes, utilise une structure de modèle directe et ne nécessite que des paroles et une indication de style lors de l'inférence. De plus, sa structure non autorégressive garantit des vitesses d'inférence rapides. Cette simplicité assure l'évolutivité de DiffRhythm. Par ailleurs, nous publions le code complet d'entraînement ainsi que le modèle pré-entraîné sur des données à grande échelle pour promouvoir la reproductibilité et encourager des recherches ultérieures.
Récemment, les systèmes de recommandation basés sur la génération et la récupération ont émergé comme un paradigme prometteur. Cependant, la plupart des systèmes de recommandation modernes adoptent une stratégie de récupération et classement, où le modèle génératif ne fonctionne que comme un sélecteur lors de l'étape de récupération. Dans cet article, nous proposons OneRec, qui remplace le cadre d'apprentissage en cascade par un modèle génératif unifié. À notre connaissance, il s'agit du premier modèle génératif de bout en bout qui surpasse significativement les systèmes de recommandation complexes et bien conçus actuels dans des scénarios réels. Plus précisément, OneRec comprend : 1) une structure encodeur-décodeur, qui encode les séquences de comportement historique de l'utilisateur et décode progressivement les vidéos susceptibles d'intéresser l'utilisateur. Nous adoptons un modèle sparse Mixture-of-Experts (MoE) pour augmenter la capacité du modèle sans augmenter proportionnellement les FLOPs de calcul. 2) une approche de génération par session. Contrairement à la prédiction traditionnelle de l'élément suivant, nous proposons une génération par session, qui est plus élégante et cohérente contextuellement que la génération point par point qui repose sur des règles artisanales pour combiner correctement les résultats générés. 3) un module d'Alignement Itératif des Préférences combiné avec l'Optimisation Directe des Préférences (DPO) pour améliorer la qualité des résultats générés. Contrairement au DPO en NLP, un système de recommandation a généralement une seule opportunité d'afficher des résultats pour chaque requête de navigation de l'utilisateur, rendant impossible l'obtention simultanée d'échantillons positifs et négatifs. Pour résoudre cette limitation, nous concevons un modèle de récompense pour simuler la génération utilisateur et personnaliser la stratégie d'échantillonnage. Des expériences approfondies ont démontré qu'un nombre limité d'échantillons DPO peut aligner les préférences d'intérêt des utilisateurs et améliorer significativement la qualité des résultats générés. Nous avons déployé OneRec dans la scène principale de Kuaishou, obtenant une augmentation de 1,6 % du temps de visionnage, ce qui représente une amélioration substantielle.
L'estimation de l'incertitude est cruciale pour évaluer les modèles de langage de grande taille (LLMs), en particulier dans des domaines à enjeux élevés où des réponses incorrectes entraînent des conséquences significatives. De nombreuses approches abordent ce problème tout en se concentrant sur un type spécifique d'incertitude, en ignorant les autres. Nous étudions quelles estimations, notamment l'entropie par token et le modèle-comme-juge (MASJ), seraient efficaces pour des tâches de questions à choix multiples portant sur différents sujets. Nos expériences considèrent trois LLMs : Phi-4, Mistral et Qwen, de tailles variées allant de 1,5B à 72B, ainsi que 14 sujets. Alors que le MASJ performe de manière similaire à un prédicteur d'erreur aléatoire, l'entropie des réponses prédit l'erreur du modèle dans les domaines dépendants des connaissances et sert d'indicateur efficace de la difficulté des questions : pour la biologie, l'AUC ROC est de 0,73. Cette corrélation disparaît pour le domaine dépendant du raisonnement : pour les questions de mathématiques, l'AUC ROC est de 0,55. Plus fondamentalement, nous avons découvert que la mesure d'entropie nécessitait une certaine quantité de raisonnement. Ainsi, l'entropie liée à l'incertitude des données devrait être intégrée dans les cadres d'estimation de l'incertitude, tandis que le MASJ nécessite des améliorations. De plus, les échantillons existants de MMLU-Pro sont biaisés et devraient équilibrer la quantité de raisonnement requise pour différents sous-domaines afin de fournir une évaluation plus équitable de la performance des LLMs.
Les Transformers avec modélisation récurrente linéaire offrent un entraînement en temps linéaire et une inférence à mémoire constante. Malgré leur efficacité et leurs performances démontrées, le pré-entraînement de telles architectures non standard à partir de zéro reste coûteux et risqué. La linéarisation des grands modèles de langage (LLMs) transforme les modèles standard pré-entraînés en structures récurrentes linéaires, permettant un déploiement plus efficace. Cependant, les méthodes de linéarisation actuelles introduisent généralement des modules de cartographie de caractéristiques supplémentaires qui nécessitent un réglage fin approfondi et négligent les mécanismes de gating utilisés dans les modèles récurrents linéaires de pointe. Pour résoudre ces problèmes, cet article présente Liger, abréviation de Linearizing LLMs to gated recurrent structures. Liger est une approche novatrice pour convertir des LLMs pré-entraînés en modèles récurrents linéaires à gating sans ajouter de paramètres supplémentaires. Il réutilise les poids de la matrice clé pré-entraînée pour construire divers mécanismes de gating, facilitant la formation de différentes structures récurrentes à gating tout en évitant la nécessité d'entraîner des composants supplémentaires à partir de zéro. En utilisant un réglage fin léger avec l'Adaptation à Bas Rang (LoRA), Liger rétablit les performances des modèles récurrents linéaires à gating pour qu'elles correspondent à celles des LLMs originaux. De plus, nous introduisons Liger Attention, un mécanisme d'attention hybride intra-couche, qui récupère significativement 93\% du LLM basé sur Transformer avec 0.02\% des tokens de pré-entraînement pendant le processus de linéarisation, obtenant des résultats compétitifs sur plusieurs benchmarks, comme validé sur des modèles allant de 1B à 8B paramètres. Le code est disponible à l'adresse https://github.com/OpenSparseLLMs/Linearization.
Les modèles de diffusion ont obtenu un grand succès dans la génération d'images 2D. Cependant, la qualité et la généralisabilité de la génération de contenu 3D restent limitées. Les méthodes de pointe nécessitent souvent des ressources 3D à grande échelle pour l'entraînement, qui sont difficiles à collecter. Dans ce travail, nous présentons Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), un cadre efficace pour générer, éditer et améliorer des objets 3D en réutilisant un modèle de diffusion d'images 2D bien entraîné pour la génération 3D. Plus précisément, nous affinons un modèle de diffusion pour générer une « Image Bundle 3D », une représentation en mosaïque composée d'images multi-vues et de leurs cartes normales correspondantes. Les cartes normales sont ensuite utilisées pour reconstruire un maillage 3D, et les images multi-vues fournissent le mappage de texture, aboutissant à un modèle 3D complet. Cette méthode simple transforme efficacement le problème de génération 3D en une tâche de génération d'images 2D, maximisant l'utilisation des connaissances des modèles de diffusion pré-entraînés. De plus, nous démontrons que notre modèle Kiss3DGen est compatible avec diverses techniques de modèles de diffusion, permettant des fonctionnalités avancées telles que l'édition 3D, l'amélioration des maillages et des textures, etc. À travers des expériences approfondies, nous démontrons l'efficacité de notre approche, mettant en évidence sa capacité à produire des modèles 3D de haute qualité de manière efficace.
L'augmentation du calcul au moment du test est une approche directe pour améliorer la qualité des réponses des modèles de langage à grande échelle (LLMs). Bien que l'échantillonnage Best-of-N et la cohérence interne avec vote majoritaire soient simples et efficaces, ils nécessitent un nombre fixe de réponses échantillonnées pour chaque requête, indépendamment de sa complexité. Cela peut entraîner un gaspillage de calcul pour des questions plus simples et une exploration insuffisante pour des questions plus difficiles. Dans ce travail, nous soutenons que la confiance du modèle dans ses réponses peut être utilisée pour améliorer l'efficacité de la mise à l'échelle au moment du test. Malheureusement, les LLMs sont connus pour être trop confiants et fournir des estimations de confiance peu fiables. Pour remédier à cette limitation, nous introduisons l'auto-étalonnage en distillant la confiance dérivée de la cohérence interne dans le modèle lui-même. Cela permet une estimation fiable de la confiance au moment du test avec une seule passe avant. Nous concevons ensuite des méthodes de mise à l'échelle efficaces basées sur la confiance pour gérer des requêtes de difficulté variée, telles que l'arrêt précoce pour Best-of-N et la cohérence interne avec une confiance étalonnée. Les expériences sur trois LLMs à travers six ensembles de données démontrent l'efficacité de notre approche. Plus précisément, l'application de l'arrêt précoce basé sur la confiance à Best-of-N améliore la précision de MathQA de 81,0 à 83,6 avec un budget d'échantillonnage de 16 réponses, indiquant l'efficacité de la stratégie d'échantillonnage basée sur la confiance au moment de l'inférence.
Les grands modèles de langage (LLMs) démontrent des performances exceptionnelles sur un large éventail de tâches ; cependant, leur processus de génération autoregressive token par token ralentit considérablement la vitesse d'inférence. Le décodage spéculatif propose un cadre prometteur de brouillon puis vérification, réduisant la latence de génération tout en préservant la fidélité de la distribution des sorties. Néanmoins, le modèle de brouillon introduit une surcharge computationnelle supplémentaire, devenant un goulot d'étranglement de performance et augmentant le temps jusqu'au premier token (TTFT). Les approches précédentes pour atténuer la surcharge du modèle de brouillon reposaient principalement sur des heuristiques et échouaient généralement à égaler la qualité des modèles de langage de brouillon. Pour relever ces défis, nous proposons DuoDecoding, une approche novatrice qui déploie stratégiquement les modèles de brouillon et cible respectivement sur le CPU et le GPU, permettant un décodage parallèle tout en préservant la qualité du brouillon. Notre méthode intègre un budget de brouillon optimal adapté au matériel pour minimiser les temps d'inactivité et utilise un brouillonage dynamique multi-séquences pour améliorer la qualité du brouillon. Des expériences approfondies sur sept tâches montrent que DuoDecoding atteint jusqu'à 2,61x d'accélération de la latence de génération, tout en réduisant le TTFT à 83% de celui du décodage spéculatif conventionnel. Le code est disponible à l'adresse https://github.com/KaiLv69/DuoDecoding.
L'analyse de grands ensembles de données nécessite une exécution rapide des requêtes, mais l'exécution de requêtes SQL sur des jeux de données massifs peut être lente. Cet article explore si l'exécution des requêtes peut commencer avant même que l'utilisateur ait terminé de taper, permettant ainsi aux résultats d'apparaître presque instantanément. Nous proposons SpeQL, un système qui exploite les modèles de langage à grande échelle (LLMs) pour prédire les requêtes probables en fonction du schéma de la base de données, des requêtes passées de l'utilisateur et de sa requête incomplète. Comme la prédiction exacte des requêtes est impossible, SpeQL spécule sur les requêtes partielles de deux manières : 1) il prédit la structure de la requête pour compiler et planifier les requêtes à l'avance, et 2) il précalcule des tables temporaires plus petites, bien moins volumineuses que la base de données d'origine, mais qui sont prédites pour contenir toutes les informations nécessaires pour répondre à la requête finale de l'utilisateur. De plus, SpeQL affiche en temps réel les résultats des requêtes et sous-requêtes spéculées, facilitant ainsi l'analyse exploratoire. Une étude d'utilité/utilisation a montré que SpeQL réduisait le temps de réalisation des tâches, et les participants ont rapporté que l'affichage spéculatif des résultats les aidait à découvrir des motifs dans les données plus rapidement. Dans l'étude, SpeQL a amélioré la latence des requêtes des utilisateurs jusqu'à 289 fois tout en maintenant une surcharge raisonnable, à 4$ par heure.
La sélection de données d'entraînement de haute qualité à partir d'un ensemble plus large est une étape cruciale lors du réglage par instruction des modèles de langage, car des ensembles de données soigneusement sélectionnés produisent souvent des modèles qui surpassent ceux entraînés sur des ensembles de données beaucoup plus vastes et bruyants. Les approches automatisées de sélection de données pour le réglage par instruction sont généralement testées en sélectionnant de petits ensembles de données (environ 10 000 échantillons) à partir de pools réduits (100 000 à 200 000 échantillons). Cependant, les modèles populaires déployés réglés par instruction s'entraînent souvent sur des centaines de milliers à des millions d'échantillons, sous-échantillonnés à partir de pools de données encore plus vastes. Nous présentons une étude systématique de la manière dont les méthodes de sélection de données s'adaptent à ces configurations, en sélectionnant jusqu'à 2,5 millions d'échantillons à partir de pools allant jusqu'à 5,8 millions d'échantillons et en évaluant sur 7 tâches diverses. Nous montrons que de nombreuses méthodes récemment proposées ne parviennent pas à surpasser la sélection aléatoire dans ce contexte (tout en utilisant plus de ressources de calcul), et voient même leurs performances diminuer lorsqu'elles ont accès à des pools de données plus vastes pour effectuer leur sélection. Cependant, nous constatons qu'une variante de la sélection de données basée sur la représentation (RDS+), qui utilise un regroupement pondéré des états cachés d'un modèle de langage pré-entraîné, surpasse systématiquement des méthodes plus complexes dans tous les contextes testés — tout en étant plus efficace en termes de calcul. Nos résultats soulignent que les propriétés de mise à l'échelle des méthodes de sélection automatisées proposées devraient être examinées de plus près. Nous publions notre code, nos données et nos modèles à l'adresse https://github.com/hamishivi/automated-instruction-selection.
Les communautés de contenu généré par les utilisateurs (UGC), en particulier celles mettant en avant du contenu multimodal, améliorent l'expérience utilisateur en intégrant des informations visuelles et textuelles dans les résultats (ou éléments). Le défi d'améliorer l'expérience utilisateur dans des systèmes complexes avec des services de recherche et de recommandation (S&R) a suscité une attention significative de la part des milieux académiques et industriels ces dernières années. Cependant, le manque de jeux de données de haute qualité a limité les progrès de la recherche sur les S&R multimodaux. Pour répondre au besoin croissant de développer de meilleurs services S&R, nous présentons dans cet article un nouveau jeu de données de recherche d'information multimodale, nommé Qilin. Ce jeu de données est collecté à partir de Xiaohongshu, une plateforme sociale populaire comptant plus de 300 millions d'utilisateurs actifs mensuels et un taux de pénétration de recherche moyen de plus de 70 %. Contrairement aux jeux de données existants, Qilin offre une collection complète de sessions utilisateur avec des résultats hétérogènes tels que des notes image-texte, des notes vidéo, des notes commerciales et des réponses directes, facilitant le développement de modèles de recherche neuronale multimodale avancés dans divers contextes de tâches. Pour mieux modéliser la satisfaction des utilisateurs et soutenir l'analyse des comportements utilisateur hétérogènes, nous collectons également des signaux contextuels étendus au niveau de l'application et des retours authentiques des utilisateurs. Notamment, Qilin contient des réponses privilégiées par les utilisateurs et leurs résultats référencés pour les requêtes de recherche déclenchant le module de Réponse Profonde aux Requêtes (DQA). Cela permet non seulement l'entraînement et l'évaluation d'un pipeline de Génération Augmentée par la Recherche (RAG), mais aussi l'exploration de la manière dont un tel module affecte le comportement de recherche des utilisateurs. À travers des analyses et expériences approfondies, nous fournissons des découvertes et des insights intéressants pour améliorer davantage les systèmes S&R. Nous espérons que Qilin contribuera significativement à l'avancement des plateformes de contenu multimodal avec services S&R à l'avenir.
Les méthodes existantes de mélange de données pour le pré-entraînement des grands modèles de langage (LLM) suivent généralement une approche par domaine, un processus descendant qui détermine d'abord les pondérations des domaines puis effectue un échantillonnage uniforme des données dans chaque domaine. Cependant, ces approches négligent les chevauchements et les points communs significatifs entre les domaines, ne parvenant pas à contrôler la diversité globale de l'ensemble de données d'entraînement construit. De plus, l'échantillonnage uniforme au sein des domaines ignore les caractéristiques spécifiques à chaque échantillon à un niveau granulaire, ce qui peut conduire à une distribution sous-optimale des données. Pour remédier à ces lacunes, nous proposons une nouvelle approche de mélange de données basée sur un paradigme ascendant, échantillon par échantillon. Cette méthode effectue un échantillonnage global inter-domaines en évaluant systématiquement la qualité et la diversité de chaque échantillon, déterminant ainsi dynamiquement la distribution optimale des domaines. Des expériences approfondies sur plusieurs tâches en aval et des évaluations de perplexité démontrent que SampleMix surpasse les méthodes existantes basées sur les domaines. Par ailleurs, SampleMix nécessite entre 1,4 et 2,1 fois plus d'étapes d'entraînement pour atteindre les performances de référence, mettant en évidence le potentiel considérable de SampleMix pour optimiser les données de pré-entraînement.
Les modèles génératifs texte-vidéo transforment des invites textuelles en contenu visuel dynamique, offrant des applications variées dans la production cinématographique, les jeux vidéo et l'éducation. Cependant, leurs performances dans des scénarios réels ne répondent souvent pas aux attentes des utilisateurs. Une raison clé est que ces modèles n'ont pas été entraînés sur des vidéos liées à certains sujets que les utilisateurs souhaitent créer. Dans cet article, nous proposons VideoUFO, le premier ensemble de données vidéo spécifiquement conçu pour s'aligner sur les centres d'intérêt des utilisateurs dans des scénarios réels. En outre, notre VideoUFO présente deux caractéristiques majeures : (1) un chevauchement minimal (0,29 %) avec les ensembles de données vidéo existants, et (2) des vidéos recherchées exclusivement via l'API officielle de YouTube sous licence Creative Commons. Ces deux attributs offrent aux futurs chercheurs une plus grande liberté pour élargir leurs sources d'entraînement. VideoUFO comprend plus de 1,09 million de clips vidéo, chacun accompagné d'une légende courte et d'une description détaillée. Plus précisément, grâce au clustering, nous identifions d'abord 1 291 sujets centrés sur les utilisateurs à partir de l'ensemble de données VidProM, qui contient des millions d'invites texte-vidéo réelles. Ensuite, nous utilisons ces sujets pour récupérer des vidéos sur YouTube, découper les vidéos récupérées en clips, et générer des légendes courtes et détaillées pour chaque clip. Après avoir vérifié les clips par rapport aux sujets spécifiés, nous obtenons environ 1,09 million de clips vidéo. Nos expériences révèlent que (1) les 16 modèles texte-vidéo actuels ne parviennent pas à obtenir des performances cohérentes sur tous les sujets centrés sur les utilisateurs ; et (2) un modèle simple entraîné sur VideoUFO surpasse les autres sur les sujets les moins performants. L'ensemble de données est disponible publiquement à l'adresse https://huggingface.co/datasets/WenhaoWang/VideoUFO sous licence CC BY 4.0.
Les modèles de langage de grande taille (LLMs) ont transformé la génération de code en combinant leur compréhension exceptionnelle du langage naturel et de la syntaxe de programmation, augmentant ainsi considérablement la productivité des développeurs. Ces avancées ont suscité de nombreux efforts pour évaluer quantitativement leurs capacités en matière de codage. Cependant, des défis persistants, tels que la fuite de benchmarks, la dissipation des données et l'accessibilité limitée des systèmes, continuent d'entraver une évaluation rapide et précise. Pour répondre à ces limitations, nous présentons CodeArena, un cadre d'évaluation en ligne conçu pour la génération de code par les LLMs. L'innovation clé réside dans un mécanisme d'évaluation collective, qui recalibre dynamiquement les scores individuels des modèles en fonction de la performance globale de tous les modèles participants, atténuant ainsi les biais de score causés par la fuite généralisée des benchmarks. De plus, CodeArena garantit un accès ouvert à toutes les solutions soumises et aux cas de test, et fournit des API adaptées à l'automatisation pour simplifier le flux de travail d'évaluation du code. Nos principales contributions sont : (1) un système d'évaluation collective pour une évaluation impartiale, (2) un référentiel public de solutions et de cas de test, et (3) des API prêtes pour l'automatisation pour une intégration transparente.
Les méthodes existantes de génération automatique de contenu audio peinent à produire efficacement des programmes audio de type podcast. Les principaux défis résident dans la génération de contenu approfondi et la production vocale appropriée et expressive. Cet article propose PodAgent, un cadre complet pour la création de programmes audio. PodAgent 1) génère un contenu de discussion thématique informatif grâce à un système de collaboration multi-agent Hôte-Invité-Rédacteur, 2) constitue un pool de voix pour un appariement rôle-voix adéquat, et 3) utilise une méthode de synthèse vocale améliorée par LLM pour produire un discours conversationnel expressif. Face à l'absence de critères d'évaluation standardisés pour la génération de contenu audio de type podcast, nous avons développé des lignes directrices d'évaluation complètes pour mesurer efficacement les performances du modèle. Les résultats expérimentaux démontrent l'efficacité de PodAgent, surpassant significativement la génération directe par GPT-4 en termes de contenu de dialogue thématique, atteignant une précision de 87,4 % dans l'appariement des voix, et produisant un discours plus expressif grâce à la synthèse guidée par LLM. Page de démonstration : https://podcast-agent.github.io/demo/. Code source : https://github.com/yujxx/PodAgent.
Cet article explore le potentiel des grands modèles de langage (LLM) à développer des langages tonaux privés pour la communication machine-à-machine (M2M). Inspirés par la cryptophasie observée chez les jumeaux humains (touchant jusqu'à 50 % des naissances gémellaires) et par les langues tonales naturelles comme le mandarin et le vietnamien, nous mettons en œuvre un système précis de correspondance caractère-fréquence qui encode l'ensemble complet des caractères ASCII (32-126) en utilisant des demi-tons musicaux. Chaque caractère se voit attribuer une fréquence unique, créant une progression logarithmique commençant par l'espace (220 Hz) et se terminant par le tilde (50 175,42 Hz). Cela couvre environ 7,9 octaves, les caractères supérieurs étant délibérément mappés à des fréquences ultrasoniques dépassant la perception humaine (>20 kHz). Notre prototype logiciel implémenté démontre cet encodage à travers la visualisation, la lecture auditive et la notation musicale ABC, permettant d'analyser la densité d'information et la vitesse de transmission. Les tests révèlent que l'encodage tonal peut atteindre des taux d'information dépassant la parole humaine tout en opérant partiellement en dehors des limites perceptuelles humaines. Ce travail répond directement aux préoccupations concernant le développement catastrophique de langages privés par les systèmes d'IA dans les cinq prochaines années, en fournissant un exemple concret de prototype logiciel montrant comment une telle communication pourrait fonctionner, ainsi que les fondements techniques nécessaires à son émergence, sa détection et sa gouvernance.
Les modèles de langage à grande échelle (LLMs) ont démontré une utilité impressionnante dans le monde réel, incarnant ce qu'on pourrait appeler une intelligence artificielle utile (AUI). Cependant, leur capacité à raisonner de manière adaptative et robuste — les caractéristiques essentielles de l'intelligence artificielle générale (AGI) — reste fragile. Bien que les LLMs semblent réussir dans le raisonnement de bon sens, la programmation et les mathématiques, ils peinent à généraliser la compréhension algorithmique à des contextes nouveaux. Nos expériences avec des tâches algorithmiques dans des langages de programmation ésotériques révèlent que le raisonnement des LLMs est surajusté aux données d'entraînement et présente une transférabilité limitée. Nous émettons l'hypothèse que le problème fondamental sous-jacent à cette transférabilité limitée est le couplage entre raisonnement et connaissance dans les LLMs. Pour passer de l'AUI à l'AGI, nous proposons de dissocier la connaissance et le raisonnement selon trois axes principaux : (1) pré-entraîner à raisonner en utilisant l'apprentissage par renforcement (RL) à partir de zéro, comme alternative à la prédiction de token suivant largement utilisée dans le pré-entraînement, (2) utiliser un curriculum de tâches synthétiques pour faciliter l'apprentissage d'un a priori de raisonnement pour le RL, qui peut ensuite être transféré à des tâches en langage naturel, et (3) apprendre des fonctions de raisonnement plus généralisables en utilisant une petite fenêtre contextuelle pour réduire l'exploitation de corrélations fallacieuses entre les tokens. Un tel système de raisonnement, couplé à un système de récupération entraîné et à une grande banque de mémoire externe comme stockage de connaissances, pourrait surmonter plusieurs limitations des architectures existantes dans l'apprentissage du raisonnement dans des scénarios nouveaux.
Alors que les grands modèles de langage s'étendent au-delà du langage naturel à des domaines tels que les mathématiques, la compréhension multimodale et les agents incarnés, les tokens reflètent de plus en plus des relations métriques plutôt qu'un sens purement linguistique. Nous introduisons DIST2Loss, un cadre prenant en compte les distances, conçu pour entraîner des modèles discrets autorégressifs en exploitant les relations de distance prédéfinies entre les tokens de sortie. Au cœur de DIST2Loss se trouve la transformation des distributions continues de la famille exponentielle, dérivées des métriques de distance inhérentes, en cibles d'optimisation discrètes et catégorielles compatibles avec les architectures des modèles. Cette approche permet aux modèles d'apprendre et de préserver des relations de distance significatives lors de la génération de tokens tout en restant compatibles avec les architectures existantes. Les évaluations empiriques montrent des gains de performance constants dans diverses applications multimodales, notamment l'ancrage visuel, la manipulation robotique, la modélisation de récompenses génératives et la génération d'images à l'aide de caractéristiques quantifiées vectoriellement. Ces améliorations sont particulièrement marquées dans les cas de données d'entraînement limitées, soulignant l'efficacité de DIST2Loss dans des contextes à ressources contraintes.
Les lecteurs humains peuvent comprendre efficacement des mots mélangés, un phénomène connu sous le nom de Typoglycémie, principalement en s'appuyant sur la forme des mots ; si la forme des mots seule est insuffisante, ils utilisent ensuite des indices contextuels pour l'interprétation. Bien que les modèles de langage avancés (LLMs) présentent des capacités similaires, les mécanismes sous-jacents restent flous. Pour étudier cela, nous menons des expériences contrôlées pour analyser les rôles de la forme des mots et des informations contextuelles dans la reconstruction sémantique et examinons les modèles d'attention des LLMs. Plus précisément, nous proposons d'abord SemRecScore, une métrique fiable pour quantifier le degré de reconstruction sémantique, et validons son efficacité. En utilisant cette métrique, nous étudions comment la forme des mots et les informations contextuelles influencent la capacité de reconstruction sémantique des LLMs, identifiant la forme des mots comme le facteur central dans ce processus. De plus, nous analysons comment les LLMs utilisent la forme des mots et constatons qu'ils s'appuient sur des têtes d'attention spécialisées pour extraire et traiter les informations sur la forme des mots, ce mécanisme restant stable à différents niveaux de mélange des mots. Cette distinction entre les modèles d'attention fixes des LLMs principalement axés sur la forme des mots et la stratégie adaptative des lecteurs humains pour équilibrer la forme des mots et les informations contextuelles fournit des insights pour améliorer les performances des LLMs en intégrant des mécanismes conscients du contexte, similaires à ceux des humains.
Bien que les modèles génératifs basés sur la vraisemblance, en particulier les modèles de diffusion et autoregressifs, aient atteint une fidélité remarquable en génération visuelle, l'objectif d'estimation du maximum de vraisemblance (MLE) souffre intrinsèquement d'une tendance à couvrir les modes qui limite la qualité de génération sous une capacité de modèle restreinte. Dans ce travail, nous proposons l'Optimisation Discriminative Directe (DDO) comme un cadre unifié qui relie l'entraînement génératif basé sur la vraisemblance et l'objectif des GAN pour contourner cette contrainte fondamentale. Notre idée clé est de paramétrer un discriminateur implicitement en utilisant le rapport de vraisemblance entre un modèle cible apprenable et un modèle de référence fixe, établissant un parallèle avec la philosophie de l'Optimisation Directe des Préférences (DPO). Contrairement aux GAN, cette paramétrisation élimine le besoin d'un entraînement conjoint des réseaux générateur et discriminateur, permettant un réglage fin direct, efficace et performant d'un modèle bien entraîné pour exploiter pleinement son potentiel au-delà des limites du MLE. DDO peut être effectué de manière itérative dans un cadre d'auto-joueur pour un raffinement progressif du modèle, chaque round nécessitant moins de 1% des époques de pré-entraînement. Nos expériences démontrent l'efficacité de DDO en améliorant significativement le modèle de diffusion EDM précédemment SOTA, réduisant les scores FID de 1,79/1,58 à de nouveaux records de 1,30/0,97 sur les ensembles de données CIFAR-10/ImageNet-64, et en améliorant de manière constante les FID sans guidance et améliorés par CFG des modèles autoregressifs visuels sur ImageNet 256x256.
Les modèles de langage à grande échelle (LLMs) démontrent des capacités remarquables dans la décomposition hiérarchique de tâches complexes grâce au raisonnement sémantique. Cependant, leur application dans les systèmes incarnés rencontre des difficultés pour garantir l'exécution fiable de séquences de sous-tâches et atteindre une réussite en une seule tentative dans l'accomplissement de tâches à long terme. Pour surmonter ces limitations dans des environnements dynamiques, nous proposons l'Agent Incarné en Boucle Fermée (CLEA) -- une architecture novatrice intégrant quatre LLMs open-source spécialisés avec un découplage fonctionnel pour la gestion de tâches en boucle fermée. Le cadre présente deux innovations principales : (1) Un planificateur de tâches interactif qui génère dynamiquement des sous-tâches exécutables basées sur la mémoire environnementale, et (2) Un critique d'exécution multimodal utilisant un cadre d'évaluation pour effectuer une évaluation probabiliste de la faisabilité des actions, déclenchant des mécanismes de re-planification hiérarchique lorsque les perturbations environnementales dépassent des seuils prédéfinis. Pour valider l'efficacité de CLEA, nous menons des expériences dans un environnement réel avec des objets manipulables, en utilisant deux robots hétérogènes pour des tâches de recherche d'objets, de manipulation et d'intégration recherche-manipulation. Sur 12 essais de tâches, CLEA surpasse le modèle de référence, obtenant une amélioration de 67,3% du taux de réussite et une augmentation de 52,8% du taux d'accomplissement des tâches. Ces résultats démontrent que CLEA améliore significativement la robustesse de la planification et de l'exécution des tâches dans des environnements dynamiques.
Les récentes avancées dans les agents d'IA web ont démontré des capacités remarquables pour résoudre des tâches complexes de navigation sur le web. Cependant, des recherches émergentes montrent que ces agents présentent une vulnérabilité accrue par rapport aux modèles de langage de grande taille (LLMs) autonomes, bien que les deux soient construits sur des modèles alignés en termes de sécurité. Cette divergence est particulièrement préoccupante étant donné la plus grande flexibilité des agents d'IA web par rapport aux LLMs autonomes, ce qui peut les exposer à une gamme plus large d'entrées utilisateur adverses. Pour établir un cadre qui aborde ces préoccupations, cette étude examine les facteurs sous-jacents qui contribuent à la vulnérabilité accrue des agents d'IA web. Notamment, cette disparité découle des différences multifacettes entre les agents d'IA web et les LLMs autonomes, ainsi que des signaux complexes - des nuances que des métriques d'évaluation simples, comme le taux de réussite, échouent souvent à capturer. Pour relever ces défis, nous proposons une analyse au niveau des composants et un cadre d'évaluation plus granulaire et systématique. Grâce à cette investigation fine, nous identifions trois facteurs critiques qui amplifient la vulnérabilité des agents d'IA web : (1) l'intégration des objectifs de l'utilisateur dans l'invite système, (2) la génération d'actions en plusieurs étapes, et (3) les capacités d'observation. Nos résultats mettent en lumière le besoin pressant d'améliorer la sécurité et la robustesse dans la conception des agents d'IA et fournissent des insights actionnables pour des stratégies de défense ciblées.
L'estimation de la disposition des pièces à partir d'images multi-perspectives est peu explorée en raison des complexités liées à la géométrie multi-vues, qui nécessite des solutions en plusieurs étapes telles que l'estimation des paramètres intrinsèques et extrinsèques de la caméra, l'appariement d'images et la triangulation. Cependant, dans le domaine de la reconstruction 3D, les avancées récentes des modèles de fondation 3D comme DUSt3R ont bouleversé le paradigme, passant du processus traditionnel de structure-from-motion en plusieurs étapes à une approche end-to-end en une seule étape. Dans cette optique, nous présentons Plane-DUSt3R, une méthode novatrice pour l'estimation de la disposition des pièces en multi-vues, s'appuyant sur le modèle de fondation 3D DUSt3R. Plane-DUSt3R intègre le cadre de DUSt3R et est affiné sur un ensemble de données de disposition de pièces (Structure3D) avec un objectif modifié pour estimer les plans structurels. En générant des résultats uniformes et parcimonieux, Plane-DUSt3R permet l'estimation de la disposition des pièces avec seulement une étape de post-traitement et des résultats de détection 2D. Contrairement aux méthodes précédentes qui reposent sur des images à perspective unique ou panoramiques, Plane-DUSt3R étend le cadre pour gérer des images multi-perspectives. De plus, il propose une solution rationalisée et end-to-end qui simplifie le processus et réduit l'accumulation d'erreurs. Les résultats expérimentaux montrent que Plane-DUSt3R surpasse non seulement les méthodes de pointe sur le jeu de données synthétique, mais se révèle également robuste et efficace sur des données réelles avec différents styles d'images, comme le dessin animé. Notre code est disponible à l'adresse : https://github.com/justacar/Plane-DUSt3R
La quantification couche par couche est une technique clé pour compresser efficacement les grands modèles sans recourir à un réentraînement coûteux. Les méthodes précédentes quantifient généralement les poids de chaque couche en optimisant "uniformément" la perte de reconstruction de la couche sur tous les tokens de sortie. Cependant, dans cet article, nous démontrons que des modèles mieux quantifiés peuvent être obtenus en priorisant l'apprentissage à partir des tokens importants (par exemple, ceux ayant des scores d'attention élevés). Sur la base de cette observation, nous proposons RSQ (Rotate, Scale, then Quantize), qui (1) applique des rotations (transformation orthogonale) au modèle pour atténuer les valeurs aberrantes (celles ayant une magnitude exceptionnellement grande), (2) met à l'échelle les caractéristiques des tokens en fonction de leur importance, et (3) quantifie le modèle en utilisant le cadre GPTQ avec les statistiques du second ordre calculées par les tokens mis à l'échelle. Pour calculer l'importance des tokens, nous explorons à la fois des stratégies heuristiques et dynamiques. Sur la base d'une analyse approfondie de toutes les approches, nous adoptons la concentration d'attention, qui utilise les scores d'attention de chaque token comme mesure de son importance, comme la meilleure approche. Nous démontrons que RSQ surpasse systématiquement les méthodes de référence sur plusieurs tâches en aval et trois familles de modèles : LLaMA3, Mistral et Qwen2.5. De plus, les modèles quantifiés avec RSQ obtiennent des performances supérieures sur les tâches à contexte long, soulignant davantage son efficacité. Enfin, RSQ démontre une généralisabilité dans divers contextes, incluant différentes tailles de modèles, jeux de données d'étalonnage, précisions en bits et méthodes de quantification.