Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le dimensionnement à l'échelle du temps de test (TTS) est une méthode importante pour améliorer les performances des Grands Modèles de Langage (LLM) en utilisant des calculs supplémentaires pendant la phase d'inférence. Cependant, les études actuelles n'analysent pas systématiquement comment les modèles de politique, les Modèles de Récompense de Processus (PRM) et la difficulté des problèmes influencent le TTS. Ce manque d'analyse limite la compréhension et l'utilisation pratique des méthodes TTS. Dans cet article, nous nous concentrons sur deux questions fondamentales : (1) Quelle est l'approche optimale pour dimensionner les calculs de temps de test à travers différents modèles de politique, PRM et niveaux de difficulté des problèmes ? (2) Dans quelle mesure des calculs étendus peuvent-ils améliorer les performances des LLM sur des tâches complexes, et des modèles de langage plus petits peuvent-ils surpasser les plus grands grâce à cette approche ? À travers des expériences approfondies sur MATH-500 et les tâches AIME24 difficiles, nous avons les observations suivantes : (1) La stratégie TTS optimale en termes de calcul dépend fortement du choix du modèle de politique, du PRM et de la difficulté du problème. (2) Avec notre stratégie TTS optimale en termes de calcul, des modèles de politique extrêmement petits peuvent surpasser des modèles plus grands. Par exemple, un LLM de 1B peut dépasser un LLM de 405B sur MATH-500. De plus, sur MATH-500 et AIME24, un LLM de 0,5B surpasse GPT-4o, un LLM de 3B dépasse un LLM de 405B, et un LLM de 7B bat o1 et DeepSeek-R1, tout en offrant une efficacité d'inférence supérieure. Ces résultats montrent l'importance d'adapter les stratégies TTS aux caractéristiques spécifiques de chaque tâche et modèle, et indiquent que le TTS est une approche prometteuse pour améliorer les capacités de raisonnement des LLM.
Les approches existantes pour la détoxification de texte multilingue sont entravées par la rareté des ensembles de données multilingues parallèles. Dans ce travail, nous présentons un pipeline pour la génération de données de détoxification de texte multilingue parallèle. Nous introduisons également SynthDetoxM, un ensemble de données de détoxification de texte multilingue parallèle collecté manuellement et généré de manière synthétique, comprenant 16 000 paires de phrases de détoxification de haute qualité en allemand, français, espagnol et russe. Les données ont été extraites de différents ensembles de données d'évaluation de toxicité, puis réécrites avec neuf LLM open source modernes en configuration few-shot. Nos expériences démontrent que les modèles entraînés sur les ensembles de données synthétiques produits ont des performances supérieures à ceux entraînés sur l'ensemble de données MultiParaDetox annoté par l'homme, même en cas de données limitées. Les modèles entraînés sur SynthDetoxM surpassent tous les LLM évalués en configuration few-shot. Nous mettons à disposition notre ensemble de données et notre code pour aider à la recherche ultérieure en détoxification de texte multilingue.
Les capacités de raisonnement, en particulier pour résoudre des problèmes mathématiques complexes, sont des composantes cruciales de l'intelligence générale. Les récents progrès réalisés par des entreprises privées, tels que les modèles de la série o d'OpenAI, ont fait des avancées remarquables dans les tâches de raisonnement. Cependant, les détails techniques complets restent non révélés, et les techniques censées être adoptées sont uniquement le renforcement par apprentissage (RL) et la longue chaîne de pensées. Cet article propose un nouveau cadre RL, appelé OREAL, pour atteindre la limite de performance pouvant être atteinte grâce à l'apprentissage par renforcement basé sur les résultats pour les tâches de raisonnement mathématique, où seuls des récompenses binaires sont facilement accessibles. Nous prouvons théoriquement que le clonage de comportement sur des trajectoires positives issues de l'échantillonnage best-of-N (BoN) est suffisant pour apprendre la politique optimale régularisée par KL dans des environnements de rétroaction binaire. Cette formulation implique en outre que les récompenses des échantillons négatifs doivent être remodelées pour assurer la cohérence du gradient entre les échantillons positifs et négatifs. Pour atténuer les difficultés persistantes causées par les récompenses clairsemées en RL, qui sont même exacerbées par la correction partielle de la longue chaîne de pensées pour les tâches de raisonnement, nous appliquons en outre un modèle de récompense au niveau des jetons pour échantillonner les jetons importants dans les trajectoires de raisonnement pour l'apprentissage. Avec OREAL, pour la première fois, un modèle 7B peut obtenir une précision de 94,0 pass@1 sur MATH-500 grâce au RL, étant à égalité avec les modèles 32B. OREAL-32B dépasse également les modèles 32B précédents entraînés par distillation avec une précision de 95,0 pass@1 sur MATH-500. Notre étude indique également l'importance des modèles de politique initiaux et des requêtes d'entraînement pour le RL. Le code, les modèles et les données seront publiés pour bénéficier des futures recherches sur https://github.com/InternLM/OREAL.
Dans cet article, nous introduisons le Concept de la Malédiction de la Profondeur, qui met en lumière, explique et aborde l'observation récente dans les Modèles de Langage Géants Modernes (MLGM) où près de la moitié des couches sont moins efficaces que prévu. Nous confirmons d'abord la large existence de ce phénomène à travers les familles les plus populaires de MLGM telles que Llama, Mistral, DeepSeek et Qwen. Notre analyse, à la fois théorique et empirique, identifie que la raison sous-jacente de l'inefficacité des couches profondes dans les MLGM est l'utilisation généralisée de la Normalisation de Couche Préalable (Pre-LN). Alors que la Pre-LN stabilise l'entraînement des MLGM Transformer, sa variance de sortie croît de manière exponentielle avec la profondeur du modèle, ce qui entraîne de manière indésirable la dérivée des blocs Transformer profonds à être une matrice identité, et donc à contribuer à peine à l'entraînement. Pour résoudre cette faille d'entraînement, nous proposons la Mise à l'échelle de la Normalisation de Couche, qui ajuste la variance de la sortie de la normalisation de couche de manière inverse par la racine carrée de sa profondeur. Cette modification simple atténue l'explosion de la variance de sortie des couches Transformer plus profondes, améliorant ainsi leur contribution. Nos résultats expérimentaux, couvrant des tailles de modèle de 130M à 1B, démontrent que la Mise à l'échelle de la Normalisation de Couche améliore significativement les performances de pré-entraînement des MLGM par rapport à la Pre-LN. De plus, cette amélioration se transpose de manière transparente au fine-tuning supervisé. Tous ces gains peuvent être attribués au fait que la Mise à l'échelle de la Normalisation de Couche permet aux couches plus profondes de contribuer de manière plus efficace pendant l'entraînement.
La communication en langage naturel est un outil puissant dans les environnements multi-agents, car elle permet aux agents indépendants de partager des informations dans des environnements partiellement observables et autorise une coordination sans entraînement préalable avec les humains. Cependant, la plupart des travaux antérieurs sont limités car ils reposent soit sur un entraînement avec de grandes quantités de démonstrations humaines, soit ils manquent de la capacité à générer des stratégies de communication naturelles et utiles. Dans ce travail, nous entraînons des modèles de langage à avoir des discussions productives sur leur environnement en langage naturel sans aucune démonstration humaine. Nous décomposons le problème de communication en écoute et en expression. Notre idée clé est d'exploiter l'objectif de l'agent pour prédire des informations utiles sur le monde en tant que signal de récompense dense qui guide la communication. Plus précisément, nous améliorons les compétences d'écoute d'un modèle en les entraînant à prédire des informations sur l'environnement en se basant sur les discussions, et nous améliorons simultanément les compétences d'expression d'un modèle avec un apprentissage par renforcement multi-agent en récompensant les messages en fonction de leur influence sur les autres agents. Pour étudier le rôle et la nécessité de la communication dans des environnements sociaux complexes, nous étudions un jeu de déduction sociale incarné basé sur Among Us, où la question clé à répondre est l'identité d'un imposteur adversaire. Nous analysons les comportements émergents dus à notre technique, tels que l'accusation de suspects et la fourniture de preuves, et constatons qu'elle permet des discussions solides, doublant les taux de victoire par rapport à l'apprentissage par renforcement standard. Nous mettons à disposition notre code et nos modèles sur https://socialdeductionllm.github.io/
La quantification des poids du modèle est essentielle pour réduire les coûts de communication et d'inférence des grands modèles. Cependant, quantifier les modèles - surtout à des précisions faibles comme int4 ou int2 - nécessite un compromis en termes de qualité du modèle ; int2, en particulier, est connu pour dégrader considérablement la qualité du modèle. Par conséquent, les praticiens se voient souvent contraints de maintenir plusieurs modèles avec différents niveaux de quantification ou de servir un seul modèle qui satisfait au mieux le compromis qualité-latence. D'autre part, les types de données entiers, tels que int8, possèdent intrinsèquement une structure imbriquée (Matryoshka) où des entiers de plus faible largeur de bits, comme int4 ou int2, sont imbriqués dans les bits les plus significatifs. Cet article propose la Quantification Matryoshka (MatQuant), une nouvelle technique de quantification multi-échelle qui répond au défi de nécessiter plusieurs modèles quantifiés. Elle permet de former et de maintenir un seul modèle, qui peut ensuite être utilisé à différents niveaux de précision. De plus, grâce à la régularisation de co-formation et de co-distillation fournie par MatQuant, les modèles de précision int2 extraits par MatQuant peuvent être jusqu'à 10% plus précis que la quantification int2 standard (en utilisant des techniques comme QAT ou OmniQuant). Cela représente un progrès significatif en matière de quantification de modèles, comme en témoigne le fait qu'avec la même recette, un modèle Gemma-2 9B FFN-quantifié en int2 est plus précis qu'un modèle Gemma-2 2B FFN-quantifié en int8.
Cet article présente le Modèle de Grande Mémoire (LM2), une architecture Transformer à décodeur uniquement, améliorée avec un module mémoire auxiliaire qui vise à résoudre les limitations des Transformers standard dans le raisonnement multi-étapes, l'argumentation relationnelle et la synthèse d'informations réparties sur de longs contextes. Le LM2 proposé intègre un module mémoire agissant comme un dépôt de représentations contextuelles, interagissant avec les jetons d'entrée via une attention croisée et se mettant à jour à travers des mécanismes de filtrage. Pour préserver les capacités générales des Transformers, le LM2 maintient le flux d'informations d'origine tout en intégrant un chemin mémoire complémentaire. Les résultats expérimentaux sur le banc d'essai BABILong démontrent que le modèle LM2 surpasse à la fois le modèle RMT augmenté de mémoire de 37,1% et le modèle de base Llama-3.2 de 86,3% en moyenne sur l'ensemble des tâches. Le LM2 présente des capacités exceptionnelles en inférence multi-sauts, raisonnement numérique et question-réponse sur de grands contextes. Sur l'ensemble de données MMLU, il obtient une amélioration de 5,0% par rapport à un modèle vanille pré-entraîné, démontrant que son module mémoire ne dégrade pas les performances sur des tâches générales. De plus, dans notre analyse, nous explorons l'interprétabilité de la mémoire, l'efficacité des modules mémoire et le comportement au moment des tests. Nos résultats soulignent l'importance de la mémoire explicite dans l'amélioration des architectures Transformer.
Les grands modèles de langage (LLMs) ont réalisé des avancées significatives dans la génération de code et la résolution de problèmes. Les approches actuelles utilisent des débogueurs itératifs basés sur des outils externes qui se servent des retours d'exécution du compilateur ou d'autres outils pour affiner les programmes grossiers générés par diverses méthodes. Cependant, l'efficacité de ces approches dépend fortement de la qualité de la génération initiale de code, ce qui reste un défi ouvert. Dans cet article, nous présentons CodeSim, un nouveau cadre de génération de code multi-agent qui aborde de manière exhaustive les étapes de la synthèse de programmes - planification, codage et débogage - à travers une approche de perception semblable à celle des humains. Comme les humains vérifient leur compréhension de tout algorithme par simulation visuelle, CodeSim présente de manière unique une méthode de vérification de plan et de débogage interne à travers la simulation pas à pas des entrées/sorties. Des expériences approfondies sur sept benchmarks compétitifs difficiles de résolution de problèmes et de synthèse de programmes démontrent les remarquables capacités de génération de code de CodeSim. Notre cadre atteint de nouveaux résultats de pointe (pass@1) - (HumanEval 95,1 %, MBPP 90,7 %, APPS 22 % et CodeContests 29,1 %). De plus, notre méthode montre un potentiel d'amélioration encore plus grand lorsqu'elle est combinée avec des débogueurs externes. Pour faciliter davantage la recherche et le développement dans ce domaine, nous avons rendu notre cadre open source disponible à ce lien (https://kagnlp.github.io/codesim.github.io/).
Il y a eu un intérêt croissant en recherche pour la construction de modèles unifiés de compréhension et de génération multimodale, parmi lesquels Show-o se distingue comme un représentant notable, démontrant un grand potentiel pour la génération de texte vers image et d'image vers texte. L'inférence de Show-o implique progressivement le débruitage des jetons d'image et le décodage de manière autorégressive des jetons de texte, et donc, malheureusement, souffre de problèmes d'inefficacité des deux côtés. Cet article présente Show-o Turbo pour combler l'écart. Nous identifions d'abord une perspective unifiée de débruitage pour la génération d'images et de texte dans Show-o basée sur le décodage parallèle des jetons de texte. Nous proposons ensuite d'étendre la distillation de cohérence (CD), une approche qualifiée pour raccourcir le processus de débruitage des modèles de diffusion, aux trajectoires de débruitage multimodal de Show-o. Nous introduisons une stratégie de segmentation de trajectoire et une procédure d'apprentissage par curriculum pour améliorer la convergence de l'entraînement. Empiriquement, dans la génération de texte vers image, Show-o Turbo affiche un score GenEval de 0,625 en 4 étapes d'échantillonnage sans utiliser de guidage sans classificateur (CFG), surpassant celui du Show-o original avec 8 étapes et CFG ; dans la génération d'image vers texte, Show-o Turbo présente une accélération de 1,5x sans sacrifier significativement les performances. Le code est disponible sur https://github.com/zhijie-group/Show-o-Turbo.
Nous présentons que le raisonnement hiérarchique LLM via l'échelle des modèles de pensée peut optimiser efficacement l'espace de recherche du raisonnement et surpasser les capacités de raisonnement mathématique des puissants LLM comme OpenAI o1-preview et DeepSeek V3. Nous entraînons notre modèle ReasonFlux-32B avec seulement 8 GPU et introduisons trois innovations : (i) une bibliothèque de modèles de pensée structurée et générique, contenant environ 500 modèles de pensée de haut niveau capables de généraliser à des problèmes de raisonnement similaires ou pertinents ; (ii) réaliser un apprentissage par renforcement hiérarchique sur une séquence de modèles de pensée au lieu de longs CoTs, optimisant un LLM de base pour planifier une trajectoire de modèle optimale pour gérer progressivement des problèmes complexes ; (iii) un tout nouveau système de mise à l'échelle de l'inférence qui permet un raisonnement hiérarchique LLM en adaptant l'échelle des modèles de pensée au moment de l'inférence. Avec une trajectoire de modèle contenant des modèles de pensée séquentiels, notre ReasonFlux-32B fait progresser de manière significative les capacités de raisonnement mathématique à des niveaux de pointe. Notamment, sur le banc d'essai MATH, il atteint une précision de 91,2 % et dépasse o1-preview de 6,7 %. Sur le banc d'essai de l'Olympiade Américaine de Mathématiques (AIME), ReasonFlux-32B résout en moyenne 56,7 % des problèmes, surpassant o1-preview et DeepSeek-V3 de 27 % et 45 % respectivement. Code : https://github.com/Gen-Verse/ReasonFlux
Accélérer l'inférence dans les Grands Modèles de Langage (GML) est crucial pour les interactions en temps réel, car ils ont été largement intégrés dans des services du monde réel. Le décodage spéculatif, une solution entièrement algorithmique, a attiré l'attention pour améliorer la vitesse d'inférence en rédigeant et en vérifiant des jetons, générant ainsi plusieurs jetons en une seule passe avant. Cependant, les stratégies de rédaction actuelles nécessitent généralement un ajustement significatif ou présentent des performances incohérentes selon les tâches. Pour relever ces défis, nous proposons la Rédaction Hiérarchique (HD), une nouvelle approche de rédaction sans perte qui organise diverses sources de jetons en plusieurs bases de données dans un cadre hiérarchique basé sur la localité temporelle. Dans l'étape de rédaction, HD accède séquentiellement à plusieurs bases de données pour obtenir des jetons de brouillon de la localité la plus élevée à la plus basse, garantissant une accélération cohérente sur diverses tâches et minimisant la latence de rédaction. Nos expériences sur Spec-Bench en utilisant des GML avec 7 et 13 milliards de paramètres démontrent que HD surpasse les méthodes de rédaction de base de données existantes, réalisant des améliorations robustes de la vitesse d'inférence pour différentes tailles de modèles, tâches et températures.
Les Agents de Modèle de Langage Large (LLM) ont démontré des capacités remarquables dans l'automatisation des tâches et la prise de décisions intelligentes, ce qui a conduit à une adoption généralisée des cadres de développement d'agents tels que LangChain et AutoGen. Cependant, ces cadres servent principalement les développeurs ayant une expertise technique approfondie - une limitation significative étant donné que seulement 0,03 % de la population mondiale possède les compétences en programmation nécessaires. Ce fossé d'accessibilité flagrant soulève une question fondamentale : pouvons-nous permettre à tout le monde, quel que soit son niveau technique, de construire ses propres agents LLM en utilisant uniquement le langage naturel ? Pour relever ce défi, nous présentons MetaChain - un cadre entièrement automatisé et hautement auto-développé qui permet aux utilisateurs de créer et déployer des agents LLM en utilisant uniquement le langage naturel. Fonctionnant comme un Système d'Exploitation d'Agent autonome, MetaChain comprend quatre composants clés : i) Utilitaires du Système Agentic, ii) Moteur d'Action LLM, iii) Système de Fichiers Auto-Gérant, et iv) Module de Personnalisation d'Agent Auto-Jeu. Ce système léger mais puissant permet la création et la modification efficaces et dynamiques d'outils, d'agents et de flux de travail sans exigences de codage ni intervention manuelle. Au-delà de ses capacités de développement d'agents sans code, MetaChain sert également de système multi-agent polyvalent pour les Assistants IA Généraux. Des évaluations approfondies sur le banc d'essai GAIA démontrent l'efficacité de MetaChain dans les tâches multi-agents généralistes, surpassant les méthodes de pointe existantes. De plus, les capacités liées à la Génération Augmentée par Récupération (RAG) de MetaChain ont montré des performances constamment supérieures par rapport à de nombreuses solutions alternatives basées sur LLM.
Les récents progrès ont établi les Transformateurs de Diffusion (DiTs) comme un cadre dominant en modélisation générative. S'appuyant sur ce succès, Lumina-Next atteint des performances exceptionnelles dans la génération d'images photoréalistes avec Next-DiT. Cependant, son potentiel pour la génération de vidéos reste largement inexploité, avec des défis significatifs dans la modélisation de la complexité spatiotemporelle inhérente aux données vidéo. Pour y remédier, nous présentons Lumina-Video, un cadre qui exploite les forces de Next-DiT tout en introduisant des solutions adaptées à la synthèse vidéo. Lumina-Video intègre une architecture Multi-échelle Next-DiT, qui apprend conjointement plusieurs patchifications pour améliorer à la fois l'efficacité et la flexibilité. En incorporant le score de mouvement comme condition explicite, Lumina-Video permet également un contrôle direct du degré de dynamisme des vidéos générées. Associé à un schéma d'entraînement progressif avec une résolution et un FPS de plus en plus élevés, et un schéma d'entraînement multi-source avec des données naturelles et synthétiques mixtes, Lumina-Video atteint une qualité esthétique remarquable et une fluidité de mouvement à une efficacité d'entraînement et d'inférence élevée. Nous proposons également Lumina-V2A, un modèle vidéo-son basé sur Next-DiT, pour créer des sons synchronisés pour les vidéos générées. Les codes sont disponibles sur https://www.github.com/Alpha-VLLM/Lumina-Video.
Les modèles vision-langage sans encodeur existants (VLM) réduisent rapidement l'écart de performance avec leurs homologues basés sur un encodeur, mettant en avant le potentiel prometteur des systèmes multimodaux unifiés avec une simplicité structurelle et un déploiement efficace. Nous clarifions systématiquement l'écart de performance entre les VLM utilisant des encodeurs vision pré-entraînés, des tokeniseurs discrets et des couches visuelles minimalistes à partir de zéro, explorant en profondeur les caractéristiques peu étudiées des VLM sans encodeur. Nous développons des stratégies efficaces pour les VLM sans encodeur qui rivalisent avec les modèles basés sur un encodeur classiques. Après une enquête approfondie, nous lançons EVEv2.0, une nouvelle et améliorée famille de VLM sans encodeur. Nous montrons que : (i) La décomposition adéquate et l'association hiérarchique de la vision et du langage au sein d'un modèle unifié réduisent les interférences entre les modalités. (ii) Une stratégie d'entraînement bien conçue permet une optimisation efficace des VLM sans encodeur. À travers une évaluation approfondie, notre EVEv2.0 représente une étude approfondie pour le développement d'une architecture uniquement basée sur un décodeur à travers les modalités, démontrant une efficacité de données supérieure et une forte capacité de raisonnement visuel. Le code est publiquement disponible sur : https://github.com/baaivision/EVE.
Le Guidage sans classificateur (CFG) est une technique clé pour améliorer la génération conditionnelle dans les modèles de diffusion, permettant un contrôle plus précis tout en améliorant la qualité des échantillons. Il est naturel d'étendre cette technique à la diffusion vidéo, qui génère des vidéos conditionnées par un nombre variable de trames de contexte, collectivement appelées historique. Cependant, nous identifions deux défis clés pour le guidage avec un historique de longueur variable : les architectures qui ne prennent en charge que des conditionnements de taille fixe, et l'observation empirique selon laquelle l'abandon d'historique de style CFG est peu performant. Pour résoudre cela, nous proposons le Transformateur Forçant la Diffusion (DFoT), une architecture de diffusion vidéo et un objectif d'entraînement théoriquement fondé qui permettent conjointement de conditionner un nombre flexible de trames d'historique. Nous introduisons ensuite le Guidage Historique, une famille de méthodes de guidage rendues possibles de manière unique par le DFoT. Nous montrons que sa forme la plus simple, le guidage historique vanille, améliore déjà significativement la qualité de génération vidéo et la cohérence temporelle. Une méthode plus avancée, le guidage historique à travers le temps et la fréquence, améliore encore davantage la dynamique du mouvement, permet une généralisation compositionnelle à un historique hors distribution, et peut dérouler de manière stable des vidéos extrêmement longues. Site Web : https://boyuan.space/history-guidance
Les grands modèles Vision-Language (LVLMs) peuvent raisonner efficacement sur des entrées textuelles et visuelles, mais ils ont tendance à halluciner des contenus syntaxiquement cohérents mais non ancrés visuellement. Dans cet article, nous étudions la dynamique interne de l'hallucination en examinant le classement des logits des jetons tout au long du processus de génération, révélant trois motifs clés dans la façon dont les LVLMs traitent l'information : (1) perte progressive d'information visuelle - les jetons ancrés visuellement deviennent progressivement moins favorisés tout au long de la génération, et (2) excitation précoce - les jetons sémantiquement significatifs atteignent leur pic d'activation dans les couches plus tôt que dans la couche finale. (3) information authentique cachée - les jetons ancrés visuellement, bien qu'ils ne soient pas finalement choisis, conservent néanmoins des classements relativement élevés lors de l'inférence. Sur la base de ces observations, nous proposons VISTA (Visual Information Steering with Token-logit Augmentation), un cadre d'intervention à l'heure de l'inférence sans entraînement qui réduit l'hallucination tout en favorisant l'information authentique. VISTA fonctionne en combinant deux approches complémentaires : renforcer l'information visuelle dans l'espace d'activation et exploiter les activations des couches précoces pour favoriser un décodage sémantiquement significatif. Comparé aux méthodes existantes, VISTA ne nécessite aucune supervision externe et est applicable à diverses stratégies de décodage. Des expériences approfondies montrent que VISTA réduit en moyenne l'hallucination d'environ 40 % sur une tâche de génération ouverte évaluée, et qu'il surpasse de manière constante les méthodes existantes sur quatre benchmarks à travers quatre architectures sous trois stratégies de décodage.
La génération personnalisée a réalisé des progrès significatifs dans la synthèse d'images, mais la génération de vidéos personnalisées reste un défi en raison des incohérences temporelles et de la dégradation de la qualité. Dans cet article, nous présentons CustomVideoX, un cadre innovant exploitant le transformateur de diffusion vidéo pour la génération de vidéos personnalisées à partir d'une image de référence. CustomVideoX tire parti des réseaux vidéo pré-entraînés en ne formant exclusivement que les paramètres LoRA pour extraire les caractéristiques de référence, garantissant à la fois efficacité et adaptabilité. Pour faciliter l'interaction transparente entre l'image de référence et le contenu vidéo, nous proposons l'Attention de Référence 3D, qui permet l'engagement direct et simultané des caractéristiques de l'image de référence avec tous les cadres vidéo à travers les dimensions spatiales et temporelles. Pour atténuer l'influence excessive des caractéristiques de l'image de référence et des indications textuelles sur le contenu vidéo généré lors de l'inférence, nous mettons en œuvre la stratégie de Biais d'Attention de Référence Sensible au Temps (TAB), modulant dynamiquement le biais de référence sur différents pas de temps. De plus, nous introduisons le module d'Amélioration Sensible à la Région de l'Entité (ERAE), alignant les régions fortement activées des jetons d'entité clés avec l'injection de caractéristiques de référence en ajustant le biais d'attention. Pour évaluer en profondeur la génération de vidéos personnalisées, nous établissons un nouveau banc d'essai, VideoBench, comprenant plus de 50 objets et 100 instructions pour une évaluation approfondie. Les résultats expérimentaux montrent que CustomVideoX surpasse significativement les méthodes existantes en termes de cohérence et de qualité vidéo.
Malgré la promesse de synthétiser des vidéos haute fidélité, les Transformateurs de Diffusion (DiTs) avec attention complète en 3D souffrent d'une inférence coûteuse en raison de la complexité du calcul de l'attention et des nombreuses étapes d'échantillonnage. Par exemple, le modèle Open-Sora-Plan populaire prend plus de 9 minutes pour générer une seule vidéo de 29 images. Ce document aborde le problème d'inefficacité sous deux aspects : 1) Élaguer l'attention complète en 3D en se basant sur la redondance des données vidéo ; Nous identifions un motif répétitif de style tuile prédominant dans les cartes d'attention en 3D pour les données vidéo, et préconisons une nouvelle famille d'attention 3D clairsemée qui présente une complexité linéaire par rapport au nombre d'images vidéo. 2) Réduire le processus d'échantillonnage en adoptant une distillation de cohérence multi-étapes existante ; Nous divisons la trajectoire d'échantillonnage entière en plusieurs segments et effectuons une distillation de cohérence au sein de chacun pour activer des capacités de génération en quelques étapes. Nous concevons en outre un pipeline d'entraînement en trois étapes pour combiner l'attention à faible complexité et les capacités de génération en quelques étapes. Notamment, avec 0,1 % de données de pré-entraînement, nous transformons le modèle Open-Sora-Plan-1.2 en un modèle efficace qui est 7,4x -7,8x plus rapide pour la génération de vidéos de 29 et 93 images en 720p avec un compromis de performance marginal dans VBench. De plus, nous démontrons que notre approche est adaptable à l'inférence distribuée, atteignant une accélération supplémentaire de 3,91x lorsqu'elle est exécutée sur 4 GPU avec un parallélisme de séquence.
L'approche prédominante pour entraîner des agents de navigation web consiste à rassembler des démonstrations humaines pour un ensemble de sites web populaires et des tâches écrites à la main, mais il devient évident que les données humaines sont une ressource inefficace. Nous développons un pipeline pour faciliter l'entraînement à l'échelle d'Internet pour les agents sans annotations humaines laborieuses. Dans la première étape, un LLM génère des tâches pour 150 000 sites web divers. Dans l'étape suivante, les agents LLM complètent les tâches et produisent des trajectoires. Dans la dernière étape, un LLM examine les trajectoires et juge leur succès. Les modèles de langage sont compétitifs avec les annotateurs humains, détectant et filtrant le contenu nocif avec une précision de 97 %, générant des tâches réalisables avec un taux de 89 %, et jugeant les trajectoires réussies avec une précision de 82,6 %. En mettant à l'échelle le pipeline, les agents basés sur Llama 3.1 70B résolvent 16,7 % des tâches pour 150 000 sites. L'entraînement sur les données générées par notre pipeline est compétitif avec l'entraînement sur les démonstrations humaines. Dans des environnements limités en données dérivées de Mind2Web et WebLINX, nous améliorons la Précision des Étapes jusqu'à +89,5 % et +122,1 % respectivement pour les agents entraînés sur des mélanges de données de notre pipeline et de données humaines. Lors de l'entraînement des agents avec toutes les données humaines disponibles de ces références, les agents échouent à se généraliser à des sites réels divers, et l'ajout de nos données améliore leur généralisation de +149,0 % pour WebLINX et +156,3 % pour Mind2Web. Le code sera disponible sur : data-for-agents.github.io.
Les récentes avancées dans l'optimisation des préférences humaines, initialement développées pour les Grands Modèles de Langage (GML), ont montré un potentiel significatif pour améliorer les modèles de diffusion texte-image. Ces méthodes visent à apprendre la distribution des échantillons préférés tout en les distinguant des moins préférés. Cependant, les ensembles de données de préférences existants présentent souvent un chevauchement entre ces distributions, entraînant une distribution conflictuelle. De plus, nous avons identifié que les instructions d'entrée contiennent des informations non pertinentes pour les images moins préférées, limitant la capacité du réseau de débruitage à prédire avec précision le bruit dans les méthodes d'optimisation des préférences, connu sous le nom de problème des instructions non pertinentes. Pour relever ces défis, nous proposons l'Optimisation des Préférences à Double Légende (DCPO), une approche novatrice qui utilise deux légendes distinctes pour atténuer les instructions non pertinentes. Pour aborder la distribution conflictuelle, nous introduisons l'ensemble de données Pick-Double Légende, une version modifiée de Pick-a-Pic v2 avec des légendes distinctes pour les images préférées et moins préférées. Nous proposons en outre trois stratégies différentes pour générer des légendes distinctes : légendage, perturbation et méthodes hybrides. Nos expériences montrent que le DCPO améliore significativement la qualité et la pertinence des images par rapport à des instructions, surpassant Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO et MaPO selon plusieurs mesures, y compris Pickscore, HPSv2.1, GenEval, CLIPscore et ImageReward, affiné sur SD 2.1 comme base.
La génération de texte en 3D automatise la création de contenu 3D à partir de descriptions textuelles, offrant un potentiel transformateur dans divers domaines. Cependant, les méthodes existantes ont souvent du mal à aligner le contenu généré avec les préférences humaines, limitant ainsi leur applicabilité et leur flexibilité. Pour remédier à ces limitations, dans cet article, nous proposons DreamDPO, un cadre basé sur l'optimisation qui intègre les préférences humaines dans le processus de génération 3D, à travers une optimisation directe des préférences. Concrètement, DreamDPO construit d'abord des exemples par paires, puis compare leur alignement avec les préférences humaines en utilisant une récompense ou de grands modèles multimodaux, et enfin optimise la représentation 3D avec une fonction de perte basée sur les préférences. En exploitant la comparaison par paires pour refléter les préférences, DreamDPO réduit la dépendance aux évaluations de qualité ponctuelles précises tout en permettant une contrôlabilité fine à travers une optimisation guidée par les préférences. Les expériences démontrent que DreamDPO atteint des résultats compétitifs, et fournit un contenu 3D de meilleure qualité et plus contrôlable par rapport aux méthodes existantes. Le code et les modèles seront mis à disposition en open source.
Les techniques de génération augmentée par contexte (CAG), telles que RAG et ICL, nécessitent une combinaison efficace de plusieurs contextes pour générer des réponses aux requêtes des utilisateurs. Entrer directement ces contextes sous forme de séquence introduit une charge computationnelle considérable en réencodant la sélection combinée de contextes pour chaque demande. Pour remédier à cela, nous explorons le potentiel prometteur du codage parallèle pour précalculer et mettre en cache de manière indépendante les états KV de chaque contexte. Cette approche permet le chargement direct des états mis en cache pendant l'inférence tout en permettant d'accueillir davantage de contextes grâce à la réutilisation de positions à travers les contextes. Cependant, en raison de désalignements dans la distribution de l'attention, l'application directe du codage parallèle entraîne une baisse significative des performances. Pour permettre une CAG efficace et efficiente, nous proposons le Codage Parallèle Adaptatif (APE), qui introduit un préfixe partagé, une température d'attention et un facteur d'échelle pour aligner la distribution du codage parallèle avec le codage séquentiel. Les résultats sur les tâches RAG et ICL démontrent que l'APE peut préserver 98 % et 93 % des performances de codage séquentiel en utilisant les mêmes entrées tout en surpassant le codage parallèle de 3,6 % et 7,9 % respectivement. Il est également adapté à la génération de CAG à plusieurs prises, permettant d'encoder efficacement des centaines de contextes en parallèle. L'évaluation de l'efficacité montre que l'APE peut obtenir un gain de vitesse de 4,5 fois en réduisant de 28 fois le temps de préremplissage pour un contexte de 128 000 caractères.
Steel-LLM est un modèle linguistique centré sur le chinois développé à partir de zéro dans le but de créer un modèle open source de haute qualité malgré des ressources computationnelles limitées. Lancé en mars 2024, le projet visait à entraîner un modèle de 1 milliard de paramètres sur un ensemble de données à grande échelle, en privilégiant la transparence et le partage d'informations pratiques pour aider les autres membres de la communauté. Le processus d'entraînement s'est principalement concentré sur des données chinoises, avec une petite proportion de données en anglais, comblant ainsi les lacunes des modèles linguistiques de grande taille existants en fournissant un compte rendu plus détaillé et pratique du processus de construction du modèle. Steel-LLM a démontré des performances compétitives sur des référentiels tels que CEVAL et CMMLU, surpassant les premiers modèles provenant de grandes institutions. Cet article propose un résumé complet des principales contributions du projet, y compris la collecte de données, la conception du modèle, les méthodologies d'entraînement et les défis rencontrés en cours de route, offrant ainsi une ressource précieuse pour les chercheurs et les praticiens souhaitant développer leurs propres modèles linguistiques. Les points de contrôle du modèle et le script d'entraînement sont disponibles sur https://github.com/zhanshijinwat/Steel-LLM.
Le décodage spéculatif (SD) accélère l'inférence des grands modèles de langage en utilisant un modèle initial plus petit pour prédire plusieurs jetons, qui sont ensuite vérifiés en parallèle par le modèle cible plus grand. Cependant, la capacité limitée du modèle initial nécessite souvent un échantillonnage basé sur les arbres pour améliorer la précision des prédictions, où plusieurs candidats sont générés à chaque étape. Nous identifions une limitation clé dans cette approche : les candidats à la même étape sont dérivés de la même représentation, limitant la diversité et réduisant l'efficacité globale. Pour y remédier, nous proposons Jakiro, en tirant parti du Mélange d'Experts (MoE), où des experts indépendants génèrent des prédictions diverses, dissociant efficacement les corrélations entre les candidats. De plus, nous introduisons une stratégie hybride d'inférence, combinant le décodage autorégressif pour les jetons initiaux avec un décodage parallèle pour les étapes suivantes, et améliorons ce dernier avec un mécanisme contrastif dans les caractéristiques pour améliorer la précision. Notre méthode améliore significativement la précision des prédictions et atteint des accélérations d'inférence plus élevées. Des expériences approfondies sur divers modèles valident l'efficacité et la robustesse de notre approche, établissant un nouveau record en matière de décodage spéculatif. Nos codes sont disponibles sur https://github.com/haiduo/Jakiro.
Les modèles de robot conditionnés par le langage ont le potentiel de permettre aux robots d'effectuer une large gamme de tâches basées sur des instructions en langage naturel. Cependant, évaluer leur sécurité et leur efficacité reste difficile car il est compliqué de tester toutes les différentes manières dont une tâche peut être formulée. Les benchmarks actuels présentent deux limitations majeures : ils s'appuient sur un ensemble limité d'instructions générées par des humains, en laissant de côté de nombreux cas complexes, et se concentrent uniquement sur la performance de la tâche sans évaluer la sécurité, telle que l'évitement de dommages. Pour combler ces lacunes, nous introduisons Embodied Red Teaming (ERT), une nouvelle méthode d'évaluation qui génère des instructions diverses et complexes pour tester ces modèles. ERT utilise des techniques automatisées de red teaming avec des Modèles Vision Langage (VLM) pour créer des instructions difficiles ancrées contextuellement. Les résultats expérimentaux montrent que les modèles de robot conditionnés par le langage de pointe échouent ou se comportent de manière non sécurisée sur les instructions générées par ERT, soulignant les lacunes des benchmarks actuels dans l'évaluation des performances et de la sécurité réelles. Le code et les vidéos sont disponibles sur : https://s-karnik.github.io/embodied-red-team-project-page.
Le développement de benchmarks de sécurité robustes pour les grands modèles de langage nécessite des ensembles de données ouverts et reproductibles qui peuvent mesurer à la fois le refus approprié de contenu nuisible et le potentiel de sur-restriction du discours scientifique légitime. Nous présentons un ensemble de données open-source et un cadre de test pour évaluer les mécanismes de sécurité des GPT (grands modèles de langage) principalement à travers des requêtes sur des substances contrôlées, en analysant les réponses de quatre modèles majeurs à des prompts variés de manière systématique. Nos résultats révèlent des profils de sécurité distincts : Claude-3.5-sonnet a démontré l'approche la plus conservatrice avec 73 % de refus et 27 % d'autorisations, tandis que Mistral a tenté de répondre à 100 % des requêtes. GPT-3.5-turbo a montré une restriction modérée avec 10 % de refus et 90 % d'autorisations, et Grok-2 a enregistré 20 % de refus et 80 % d'autorisations. Les stratégies de variation des prompts de test ont révélé une diminution de la cohérence des réponses, passant de 85 % avec un prompt unique à 65 % avec cinq variations. Ce benchmark disponible publiquement permet une évaluation systématique de l'équilibre critique entre les restrictions de sécurité nécessaires et le potentiel de sur-censure de l'enquête scientifique légitime, tout en fournissant une base pour mesurer les progrès dans la mise en œuvre de la sécurité en IA. L'analyse de la chaîne de pensée révèle des vulnérabilités potentielles dans les mécanismes de sécurité, mettant en lumière la complexité de la mise en place de garanties robustes sans restreindre indûment le discours scientifique souhaitable et valide.