Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré les progrès récents considérables, les modèles génératifs de vidéos peinent encore à capturer le mouvement, la dynamique et la physique du monde réel. Nous montrons que cette limitation découle de l'objectif conventionnel de reconstruction des pixels, qui oriente les modèles vers la fidélité de l'apparence au détriment de la cohérence du mouvement. Pour remédier à cela, nous introduisons VideoJAM, un nouveau cadre qui insuffle une contrainte de mouvement efficace aux générateurs de vidéos, en encourageant le modèle à apprendre une représentation conjointe apparence-mouvement. VideoJAM est composé de deux unités complémentaires. Pendant l'entraînement, nous étendons l'objectif pour prédire à la fois les pixels générés et leur mouvement correspondant à partir d'une seule représentation apprise. Lors de l'inférence, nous introduisons Inner-Guidance, un mécanisme qui guide la génération vers un mouvement cohérent en exploitant la prédiction de mouvement évolutive du modèle comme signal de guidage dynamique. Notamment, notre cadre peut être appliqué à tout modèle vidéo avec des adaptations minimales, ne nécessitant aucune modification des données d'entraînement ou mise à l'échelle du modèle. VideoJAM atteint des performances de pointe en matière de cohérence du mouvement, dépassant des modèles propriétaires hautement compétitifs tout en améliorant la qualité visuelle perçue des générations. Ces résultats soulignent que l'apparence et le mouvement peuvent être complémentaires et, lorsqu'ils sont intégrés de manière efficace, améliorent à la fois la qualité visuelle et la cohérence de la génération de vidéos. Site web du projet : https://hila-chefer.github.io/videojam-paper.github.io/
La plupart des progrès récents dans les modèles de codeurs ont été stimulés par le fine-tuning supervisé (SFT), tandis que le potentiel de l'apprentissage par renforcement (RL) reste largement inexploré, principalement en raison du manque de données/modèles de récompense fiables dans le domaine du code. Dans cet article, nous relevons ce défi en exploitant la synthèse automatisée à grande échelle de cas de test pour améliorer la formation des modèles de code. Plus précisément, nous concevons un pipeline qui génère des paires (question, cas de test) étendues à partir de données de code existantes. En utilisant ces cas de test, nous construisons des paires de préférence basées sur les taux de réussite sur des programmes échantillonnés pour former des modèles de récompense avec une perte de Bradley-Terry. Cela montre une amélioration moyenne de 10 points pour Llama-3.1-8B-Ins et de 5 points pour Qwen2.5-Coder-7B-Ins grâce à un échantillonnage de type meilleur parmi 32, plaçant le modèle 7B au niveau du DeepSeek-V2.5 236B. De plus, nous menons un apprentissage par renforcement avec les deux modèles de récompense et les récompenses de réussite des cas de test, entraînant des améliorations constantes à travers HumanEval, MBPP, BigCodeBench et LiveCodeBench (V4). Notamment, nous suivons l'entraînement de style R1 pour partir directement de Qwen2.5-Coder-base et montrons que notre entraînement RL peut améliorer le modèle sur HumanEval-plus de plus de 25\% et MBPP-plus de 6\% en seulement 80 étapes d'optimisation. Nous pensons que nos résultats mettent en lumière le grand potentiel de l'apprentissage par renforcement dans les modèles de codeurs.
Apprendre à modéliser les ponts de diffusion est facile ; les rendre rapides et pratiques relève de l'art. Les modèles de pont de diffusion (DBM) sont une extension prometteuse des modèles de diffusion pour des applications de traduction d'images à images. Cependant, comme de nombreux modèles de diffusion et de flux modernes, les DBM souffrent du problème d'inférence lente. Pour y remédier, nous proposons une nouvelle technique de distillation basée sur la formulation de correspondance de pont inverse et dérivons l'objectif traitable pour le résoudre en pratique. Contrairement aux techniques de distillation DBM développées précédemment, la méthode proposée peut distiller à la fois des types de DBM conditionnels et inconditionnels, distiller des modèles dans un générateur en une étape, et n'utiliser que les images corrompues pour l'entraînement. Nous évaluons notre approche pour les types de correspondance de pont conditionnels et inconditionnels sur un large ensemble de configurations, y compris la super-résolution, la restauration JPEG, le croquis à l'image, et d'autres tâches, et montrons que notre technique de distillation nous permet d'accélérer l'inférence des DBM de 4x à 100x et même de fournir une meilleure qualité de génération que le modèle enseignant utilisé en fonction de la configuration particulière.
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables dans divers domaines. Des études récentes ont montré que l'augmentation du temps de calcul lors des tests améliore les capacités de raisonnement des LLM. Cela implique généralement un échantillonnage approfondi au moment de l'inférence guidé par un vérificateur LLM externe, aboutissant à un système à deux joueurs. Malgré l'orientation externe, l'efficacité de ce système démontre le potentiel d'un seul LLM à aborder des tâches complexes. Ainsi, nous posons un nouveau problème de recherche : pouvons-nous internaliser les capacités de recherche pour améliorer fondamentalement les capacités de raisonnement d'un seul LLM ? Ce travail explore une direction orthogonale en se concentrant sur les LLM post-entraînement pour la recherche autorégressive (c'est-à-dire, un processus de raisonnement étendu avec auto-réflexion et auto-exploration de nouvelles stratégies). Pour y parvenir, nous proposons le raisonnement en Chaîne d'Action-Pensée (COAT) et un paradigme d'entraînement en deux étapes : 1) une étape de réglage de format à petite échelle pour internaliser le format de raisonnement COAT et 2) une étape d'auto-amélioration à grande échelle exploitant l'apprentissage par renforcement. Notre approche aboutit à Satori, un LLM de 7B entraîné sur des modèles et des données open-source. Des évaluations empiriques approfondies démontrent que Satori atteint des performances de pointe sur des bancs d'essai de raisonnement mathématique tout en présentant une forte capacité de généralisation à des tâches hors domaine. Le code, les données et les modèles seront entièrement open-source.
Les agents linguistiques sont devenus une solution prometteuse pour les tâches interactives complexes. L'un des éléments clés du succès des agents linguistiques est le modèle de récompense sur la trajectoire du flux de travail de l'agent, qui fournit des orientations précieuses pendant l'entraînement ou l'inférence. Cependant, en raison du manque d'annotations des interactions intermédiaires, la plupart des travaux existants utilisent un modèle de récompense de résultat pour optimiser les politiques sur l'ensemble des trajectoires. Cela peut conduire à des politiques sous-optimales et entraver les performances globales. Pour remédier à cela, nous proposons QLASS (Recherche par étapes guidée par Q pour les agents linguistiques), pour générer automatiquement des annotations en estimant les valeurs Q de manière progressive pour les agents linguistiques en langage naturel. En introduisant un arbre de raisonnement et en effectuant une modélisation de récompense de processus, QLASS fournit des orientations intermédiaires efficaces pour chaque étape. Avec ces orientations progressives, nous proposons une stratégie de génération guidée par Q pour permettre aux agents linguistiques de mieux s'adapter à la valeur à long terme, ce qui se traduit par une amélioration significative des performances lors de l'inférence du modèle sur des tâches d'agents interactifs complexes. Notamment, même avec presque la moitié des données annotées, QLASS conserve de solides performances, démontrant son efficacité dans la gestion de la supervision limitée. Nous démontrons également empiriquement que QLASS peut conduire à une prise de décision plus efficace grâce à une analyse qualitative. Nous rendrons notre code et nos données publics.
Cet article examine un défi peu exploré dans les grands modèles de langage (LLMs) : l'impact des méthodes de compression de cache KV sur les capacités fondamentales des LLMs. Alors que les méthodes existantes atteignent des taux de compression impressionnants sur des bancs d'essai à contexte long, leurs effets sur les capacités centrales du modèle restent peu étudiés. Nous présentons une étude empirique complète évaluant des méthodes de compression de cache KV de premier plan sur des tâches diverses, couvrant les connaissances mondiales, le raisonnement de bon sens, le raisonnement arithmétique, la génération de code, la sécurité, ainsi que la compréhension et la génération de contexte long. Notre analyse révèle que les méthodes de compression de cache KV présentent une dégradation des performances spécifique à la tâche. Les tâches de raisonnement arithmétique se révèlent particulièrement sensibles à une compression agressive, avec des baisses de performances allant de 17,4 % à 43,3 % selon les méthodes. Notamment, le modèle DeepSeek R1 Distill montre une tolérance à la compression plus robuste par rapport aux modèles ajustés aux instructions, n'affichant qu'une dégradation de performances de 9,67 % à 25,53 %. Sur la base de notre analyse des schémas d'attention et des performances de compression inter-tâches, nous proposons ShotKV, une nouvelle approche de compression qui gère distinctement les phases de préremplissage et de décodage tout en maintenant une cohérence sémantique au niveau des "shots". Les résultats empiriques montrent que ShotKV obtient des améliorations de performances de 9 % à 18 % sur les tâches de génération de contexte long avec des taux de compression agressifs.
L'agrégation des sorties de sources diverses est une approche simple mais efficace pour améliorer les performances. Mixture-of-Agents (MoA) est une méthode d'ensemble populaire qui agrège les sorties de plusieurs Modèles de Langage Large (LLM) différents. Ce document soulève la question dans le contexte des modèles de langage : mélanger différents LLM est-il vraiment bénéfique ? Nous proposons Self-MoA - une méthode d'ensemble qui agrège les sorties uniquement du LLM le plus performant. Nos expériences approfondies révèlent que, de manière surprenante, Self-MoA surpasse MoA standard qui mélange différents LLM dans un grand nombre de scénarios : Self-MoA obtient une amélioration de 6,6 % par rapport à MoA sur le benchmark AlpacaEval 2.0, et une amélioration moyenne de 3,8 % sur divers benchmarks, y compris MMLU, CRUX et MATH. En appliquant Self-MoA à l'un des modèles les mieux classés dans AlpacaEval 2.0, nous obtenons directement de nouvelles performances de pointe sur le tableau de classement. Pour comprendre l'efficacité de Self-MoA, nous examinons systématiquement le compromis entre la diversité et la qualité des sorties dans différents paramètres MoA. Nous confirmons que la performance de MoA est assez sensible à la qualité, et que le mélange de différents LLM diminue souvent la qualité moyenne des modèles. Pour compléter l'étude, nous identifions les scénarios où le mélange de différents LLM pourrait être utile. Ce document introduit également une version séquentielle de Self-MoA, capable d'agréger un grand nombre de sorties de LLM en temps réel sur plusieurs tours, et aussi efficace qu'agréger toutes les sorties en une seule fois.
Malgré les progrès remarquables réalisés dans les modèles génératifs de texte vers image, ils sont sujets aux attaques adverses et génèrent involontairement du contenu non sécurisé et non éthique. Les approches existantes reposent souvent sur le réglage fin des modèles pour éliminer des concepts spécifiques, ce qui est coûteux en termes de calcul, manque de scalabilité et/ou compromet la qualité de la génération. Dans ce travail, nous proposons un nouveau cadre exploitant des autoencodeurs k-épars (k-SAEs) pour permettre une manipulation efficace et interprétable des concepts dans les modèles de diffusion. Plus précisément, nous identifions d'abord des concepts monosémantiques interprétables dans l'espace latent des plongements de texte et les utilisons pour orienter précisément la génération loin ou vers un concept donné (par exemple, la nudité) ou pour introduire un nouveau concept (par exemple, le style photographique). À travers des expériences approfondies, nous démontrons que notre approche est très simple, ne nécessite pas de retravailler le modèle de base ni d'adaptateurs LoRA, ne compromet pas la qualité de la génération et est robuste aux manipulations adverses des instructions. Notre méthode entraîne une amélioration de 20,01 % dans l'élimination des concepts non sécurisés, est efficace dans la manipulation de style et est 5 fois plus rapide que l'état de l'art actuel.
La recherche basée sur l'échantillonnage, un paradigme simple pour utiliser la puissance de calcul au moment du test, implique de générer plusieurs réponses candidates et de sélectionner la meilleure - généralement en vérifiant chaque réponse pour sa justesse. Dans cet article, nous étudions les tendances d'évolution qui régissent la recherche basée sur l'échantillonnage. Parmi nos découvertes, il ressort que simplement augmenter une implémentation minimaliste qui utilise uniquement l'échantillonnage aléatoire et la vérification directe de soi-même entraîne des améliorations de performances durables qui, par exemple, élèvent les capacités de raisonnement du modèle Gemini v1.5 Pro au-delà de celles de o1-Preview sur des bancs d'essai populaires. Nous attribuons en partie la scalabilité de la recherche basée sur l'échantillonnage à un phénomène de scalabilité implicite, où l'échantillonnage d'un plus grand nombre de réponses améliore à son tour la précision de la vérification. Nous identifions en outre deux principes utiles pour améliorer les capacités d'auto-vérification avec la puissance de calcul au moment du test : (1) comparer les réponses fournit des signaux utiles sur les emplacements des erreurs et des hallucinations, et (2) différents styles de sortie du modèle sont utiles pour différents contextes - les chaînes de pensées sont utiles pour le raisonnement mais plus difficiles à vérifier. Nous constatons également que, bien que la vérification précise puisse être obtenue, les modèles de pointe présentent des capacités de vérification hors de la boîte remarquablement faibles et introduisent un banc d'essai pour mesurer les progrès sur ces lacunes.
Cet article présente l'ensemble de données COCONut-PanCap, créé pour améliorer la segmentation panoptique et la génération de légendes d'images ancrées. En s'appuyant sur l'ensemble de données COCO avec des masques panoptiques avancés COCONut, cet ensemble de données vise à surmonter les limitations des ensembles de données image-texte existants qui manquent souvent de descriptions détaillées et globales de la scène. L'ensemble de données COCONut-PanCap intègre des légendes au niveau des régions, fines et ancrées dans des masques de segmentation panoptique, garantissant ainsi la cohérence et améliorant le niveau de détail des légendes générées. Grâce à des descriptions éditées par des humains et annotées de manière dense, COCONut-PanCap favorise l'amélioration de l'entraînement des modèles vision-langage (VLM) pour la compréhension des images et des modèles génératifs pour les tâches texte-vers-image. Les résultats expérimentaux démontrent que COCONut-PanCap améliore significativement les performances dans les tâches de compréhension et de génération, offrant des avantages complémentaires aux ensembles de données à grande échelle. Cet ensemble de données établit une nouvelle référence pour l'évaluation des modèles sur des tâches conjointes de segmentation panoptique et de légendage ancré, répondant au besoin d'annotations image-texte détaillées et de haute qualité dans l'apprentissage multimodal.
La création de modèles de Conception Assistée par Ordinateur (CAO) nécessite une expertise et un effort significatifs. La conversion de texte en CAO, qui transforme les descriptions textuelles en séquences paramétriques de CAO, est cruciale pour rationaliser ce processus. Des études récentes ont utilisé des séquences paramétriques de vérité terrain, appelées signaux séquentiels, comme supervision pour atteindre cet objectif. Cependant, les modèles de CAO sont intrinsèquement multimodaux, comprenant des séquences paramétriques et des objets visuels rendus correspondants. De plus, le processus de rendu des séquences paramétriques en objets visuels est de type nombreux-à-un. Par conséquent, à la fois les signaux séquentiels et visuels sont cruciaux pour un entraînement efficace. Dans ce travail, nous présentons CADFusion, un cadre qui utilise de grands modèles de langage (LLM) comme base et alterne entre deux étapes d'entraînement : l'étape d'apprentissage séquentiel (SL) et l'étape de retour visuel (VF). Dans l'étape SL, nous entraînons les LLM en utilisant des séquences paramétriques de vérité terrain, permettant la génération de séquences paramétriques logiquement cohérentes. Dans l'étape VF, nous récompensons les séquences paramétriques qui se transforment en objets visuels préférés et pénalisons celles qui ne le font pas, permettant aux LLM d'apprendre comment les objets visuels rendus sont perçus et évalués. Ces deux étapes alternent tout au long de l'entraînement, garantissant un apprentissage équilibré et préservant les avantages des deux signaux. Les expériences démontrent que CADFusion améliore significativement les performances, tant qualitativement que quantitativement.
La personnalisation des modèles texte-image permet aux utilisateurs d'insérer des concepts personnalisés et de générer ces concepts dans des environnements non vus. Les méthodes existantes reposent soit sur une optimisation coûteuse au moment du test, soit sur la formation des encodeurs sur des ensembles de données d'entraînement à une seule image sans supervision multi-image, ce qui entraîne une qualité d'image inférieure. Nous proposons une approche simple qui aborde ces deux limitations. Nous exploitons d'abord les modèles texte-image existants et les ensembles de données 3D pour créer un ensemble de données de personnalisation synthétique de haute qualité (SynCD) composé de plusieurs images du même objet dans des éclairages, des arrière-plans et des poses différents. Ensuite, nous proposons une nouvelle architecture d'encodeur basée sur des mécanismes d'attention partagée qui intègrent mieux les détails visuels fins des images d'entrée. Enfin, nous proposons une nouvelle technique d'inférence qui atténue les problèmes de surexposition lors de l'inférence en normalisant les vecteurs de guidage texte et image. À travers des expériences approfondies, nous montrons que notre modèle, formé sur l'ensemble de données synthétique avec l'encodeur et l'algorithme d'inférence proposés, surpasse les méthodes existantes sans réglage sur les référentiels de personnalisation standard.
L'ajustement fin des grands modèles de langage (GML) sur les appareils suscite un intérêt croissant. Des travaux récents ont fusionné des techniques d'adaptation à faible rang (Low-rank adaptation - LoRA) avec un affinage fédéré pour atténuer les défis liés aux tailles de modèle des appareils et à la rareté des données. Cependant, l'hétérogénéité des ressources computationnelles reste un goulot d'étranglement critique : bien que les modules de rang supérieur améliorent généralement les performances, les capacités variables des appareils limitent la plage de rangs réalisables de LoRA. Les approches existantes visant à résoudre ce problème manquent soit de justification analytique, soit imposent des surcharges computationnelles supplémentaires, laissant ainsi un large espace pour une solution efficace et théoriquement fondée. Pour relever ces défis, nous proposons LoRA par esquisses fédérées (FSLoRA), qui exploite un mécanisme d'esquisses pour permettre aux appareils de mettre à jour sélectivement des sous-matrices des modules LoRA globaux entretenus par le serveur. En ajustant les ratios d'esquisses, qui déterminent les rangs des sous-matrices sur les appareils, FSLoRA s'adapte de manière flexible aux contraintes de communication et computation spécifiques aux appareils. Nous fournissons une analyse de convergence rigoureuse de FSLoRA qui caractérise comment les ratios d'esquisses affectent le taux de convergence. À travers des expériences approfondies sur plusieurs ensembles de données et modèles de GML, nous démontrons la performance supérieure de FSLoRA par rapport à diverses références.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans divers domaines. En parallèle de l'évolution de leurs capacités et de l'expansion des scénarios de déploiement des LLM, les défis de déploiement augmentent en raison de leur échelle impressionnante et des conceptions d'activation avancées mais complexes présentes dans des séries de modèles notables telles que Llama, Gemma et Mistral. Ces défis sont devenus particulièrement marqués dans des scénarios de déploiement aux ressources limitées, où atténuer les goulots d'étranglement de l'efficacité de l'inférence est impératif. Parmi les divers efforts récents, l'approximation d'activation a émergé comme une voie prometteuse pour améliorer l'efficacité de l'inférence, parfois considérée comme indispensable dans des applications telles que l'inférence privée. Malgré l'obtention de gains de vitesse substantiels avec un impact minimal sur l'utilité, paraissant même fiable et pratique pour un déploiement réel, les implications en termes de sécurité des approximations d'activation restent floues. Dans ce travail, nous comblons cette lacune critique en matière de sécurité des LLM en menant la première évaluation systématique de la sécurité des approximations d'activation. Notre évaluation de sécurité couvre sept techniques de pointe réparties dans trois catégories populaires, révélant une dégradation de la sécurité constante à travers dix LLM alignés sur la sécurité.