Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous introduisons une nouvelle approche pour cartographier systématiquement les caractéristiques découvertes par un autoencodeur parcimonieux à travers des couches consécutives de grands modèles de langage, étendant les travaux antérieurs qui ont examiné les liens entre les caractéristiques inter-couches. En utilisant une technique de similarité cosinus sans données, nous suivons comment des caractéristiques spécifiques persistent, se transforment ou apparaissent pour la première fois à chaque étape. Cette méthode produit des graphiques de flux granulaires de l'évolution des caractéristiques, permettant une interprétabilité fine et des aperçus mécanistes des calculs du modèle. De manière cruciale, nous démontrons comment ces cartes de caractéristiques entre les couches facilitent la direction directe du comportement du modèle en amplifiant ou en supprimant des caractéristiques choisies, atteignant un contrôle thématique ciblé dans la génération de texte. Ensemble, nos résultats mettent en lumière l'utilité d'un cadre d'interprétabilité causal entre les couches qui non seulement clarifie comment les caractéristiques se développent à travers les passes en avant, mais fournit également de nouveaux moyens pour la manipulation transparente de grands modèles de langage.
Nous présentons AlphaGeometry2, une version considérablement améliorée d'AlphaGeometry introduite dans Trinh et al. (2024), qui a désormais dépassé un médaillé d'or moyen dans la résolution de problèmes de géométrie olympique. Pour y parvenir, nous avons d'abord étendu le langage original d'AlphaGeometry pour aborder des problèmes plus difficiles impliquant les mouvements d'objets, et des problèmes contenant des équations linéaires d'angles, de rapports et de distances. Cela, combiné à d'autres ajouts, a nettement amélioré le taux de couverture du langage AlphaGeometry sur les problèmes de géométrie des Olympiades Internationales de Mathématiques (IMO) de 2000 à 2024, passant de 66% à 88%. Le processus de recherche d'AlphaGeometry2 a également été grandement amélioré grâce à l'utilisation de l'architecture Gemini pour un meilleur modélisation du langage, et un mécanisme novateur de partage des connaissances qui combine plusieurs arbres de recherche. En plus des améliorations apportées au moteur symbolique et à la génération de données synthétiques, nous avons considérablement augmenté le taux de résolution global d'AlphaGeometry2 à 84% pour tous les problèmes de géométrie au cours des 25 dernières années, contre 54% précédemment. AlphaGeometry2 faisait également partie du système qui a atteint le standard de la médaille d'argent aux IMO 2024 https://dpmd.ai/imo-silver. Enfin, nous signalons des progrès vers l'utilisation d'AlphaGeometry2 comme partie d'un système entièrement automatisé qui résout de manière fiable les problèmes de géométrie directement à partir d'une entrée en langage naturel.
Les représentations riches des transformateurs de diffusion multimodaux (DiTs) présentent-elles des propriétés uniques qui améliorent leur interprétabilité ? Nous introduisons ConceptAttention, une méthode novatrice qui exploite la puissance expressive des couches d'attention DiT pour générer des cartes de saillance de haute qualité localisant précisément les concepts textuels dans les images. Sans nécessiter de formation supplémentaire, ConceptAttention réutilise les paramètres des couches d'attention DiT pour produire des plongements de concepts hautement contextualisés, apportant la découverte majeure que la réalisation de projections linéaires dans l'espace de sortie des couches d'attention DiT produit des cartes de saillance nettement plus précises par rapport aux mécanismes d'attention croisée couramment utilisés. Remarquablement, ConceptAttention atteint même des performances de pointe sur des bancs d'essai de segmentation d'images à zéro-shot, surpassant 11 autres méthodes d'interprétabilité à zéro-shot sur l'ensemble de données ImageNet-Segmentation et sur un sous-ensemble à classe unique de PascalVOC. Notre travail apporte la première preuve que les représentations des modèles multimodaux DiT tels que Flux sont hautement transférables aux tâches de vision telles que la segmentation, surpassant même les modèles fondamentaux multimodaux comme CLIP.
À mesure que les capacités des Modèles de Langage (LM) progressent, évaluer et superviser ces derniers à grande échelle devient de plus en plus difficile pour les humains. Il y a de l'espoir que d'autres modèles de langage puissent automatiser ces deux tâches, que nous appelons "Surveillance de l'IA". Nous étudions comment la similarité des modèles affecte ces deux aspects de la surveillance de l'IA en proposant une mesure probabiliste de similarité des LM basée sur le chevauchement des erreurs des modèles. En utilisant cette mesure, nous montrons d'abord que les scores du LM-en-tant-que-juge favorisent les modèles similaires au juge, généralisant ainsi les résultats récents d'auto-préférence. Ensuite, nous étudions l'entraînement sur des annotations LM et constatons que la connaissance complémentaire entre le superviseur faible et le modèle étudiant fort joue un rôle crucial dans les gains de "généralisation de faible à fort". À mesure que les capacités des modèles augmentent, il devient plus difficile de trouver leurs erreurs, et nous pourrions alors nous en remettre davantage à la surveillance de l'IA. Cependant, nous observons une tendance préoccupante - les erreurs des modèles deviennent de plus en plus similaires avec l'augmentation des capacités, ce qui soulève des risques de défaillances corrélées. Notre travail souligne l'importance de rendre compte et de corriger la similarité des modèles, notamment dans le paradigme émergent de la surveillance de l'IA.
Les récentes avancées dans les grands modèles de langage, en particulier suite à GPT-4o, ont suscité un intérêt croissant pour le développement de modèles omni-modaux capables de comprendre davantage de modalités. Bien que certaines alternatives open-source aient émergé, il existe encore un notable retard par rapport aux modèles spécialisés à une seule modalité en termes de performance. Dans cet article, nous présentons Ola, un modèle de langage omni-modal qui atteint des performances compétitives en matière de compréhension d'images, de vidéos et de sons par rapport à ses homologues spécialisés. La conception centrale d'Ola réside dans sa stratégie progressive d'alignement des modalités qui étend progressivement la modalité de support du modèle de langage. Notre pipeline d'entraînement commence avec les modalités les plus distinctes : l'image et le texte, puis étend progressivement les compétences du modèle en utilisant des données vocales qui relient le langage et la connaissance audio, et des données vidéo qui relient toutes les modalités. Le pipeline d'apprentissage progressif nous permet également de maintenir une taille relativement petite des données d'alignement croisé des modalités, facilitant ainsi le développement de modèles omni-modaux à partir de modèles existants vision-langage de manière simple et moins coûteuse. De plus, pour débloquer une expérience interactive avancée comme GPT-4o, nous concevons une solution de décodage par phrase pour la génération de discours en continu. Des expériences approfondies démontrent qu'Ola surpasse les LLMs omni-modaux ouverts existants sur toutes les modalités tout en atteignant des performances hautement compétitives par rapport aux modèles spécialisés de pointe de tailles similaires. Notre objectif est de faire d'Ola une solution de compréhension omni-modale entièrement ouverte pour faire avancer la recherche future dans ce domaine émergent. Les poids du modèle, le code et les données sont disponibles en open source sur https://github.com/Ola-Omni/Ola.
Nous présentons une méthode pour augmenter des vidéos du monde réel avec du contenu dynamique nouvellement généré. Étant donné une vidéo d'entrée et un texte d'instruction simple fourni par l'utilisateur décrivant le contenu souhaité, notre méthode synthétise des objets dynamiques ou des effets de scène complexes qui interagissent naturellement avec la scène existante au fil du temps. La position, l'apparence et le mouvement du nouveau contenu sont intégrés de manière transparente dans les images originales en tenant compte du mouvement de la caméra, des occlusions et des interactions avec d'autres objets dynamiques dans la scène, ce qui donne une vidéo de sortie cohérente et réaliste. Nous réalisons cela via un cadre sans entraînement, appelé "zero-shot", qui exploite un transformateur de diffusion texte-vidéo pré-entraîné pour synthétiser le nouveau contenu et un modèle de vision langage pré-entraîné pour visualiser en détail la scène augmentée. Plus précisément, nous introduisons une nouvelle méthode basée sur l'inférence qui manipule les caractéristiques au sein du mécanisme d'attention, permettant une localisation précise et une intégration transparente du nouveau contenu tout en préservant l'intégrité de la scène originale. Notre méthode est entièrement automatisée, ne nécessitant qu'une simple instruction de l'utilisateur. Nous démontrons son efficacité sur une large gamme de modifications appliquées à des vidéos du monde réel, englobant des objets divers et des scénarios impliquant à la fois le mouvement de la caméra et des objets.
Les récentes avancées dans les modèles de langage à grande échelle (LLM) basés sur du texte, en particulier dans la série GPT et le modèle o1, ont démontré l'efficacité de l'augmentation à la fois du calcul au moment de l'entraînement et du calcul au moment de l'inférence. Cependant, les systèmes TTS de pointe exploitant les LLM sont souvent multi-étapes, nécessitant des modèles séparés (par exemple, des modèles de diffusion après les LLM), ce qui complique la décision de savoir s'il faut augmenter un modèle particulier pendant l'entraînement ou les tests. Ce travail apporte les contributions suivantes : Tout d'abord, nous explorons l'augmentation du calcul au moment de l'entraînement et de l'inférence pour la synthèse vocale. Deuxièmement, nous proposons un cadre simple, Llasa, pour la synthèse vocale qui utilise un codec de quantification vectorielle (VQ) à une seule couche et une seule architecture Transformer pour s'aligner pleinement avec les LLM standard tels que Llama. Nos expériences révèlent que l'augmentation du calcul au moment de l'entraînement pour Llasa améliore de manière constante la naturellesse de la parole synthétisée et permet la génération de motifs prosodiques plus complexes et précis. En outre, d'un point de vue de l'augmentation du calcul au moment de l'inférence, nous utilisons des modèles de compréhension de la parole en tant que vérificateurs lors de la recherche, constatant que l'augmentation du calcul au moment de l'inférence déplace les modes d'échantillonnage vers les préférences de vérificateurs spécifiques, améliorant ainsi l'expressivité émotionnelle, la cohérence du timbre et la précision du contenu. De plus, nous avons rendu public le point de contrôle et le code d'entraînement pour notre modèle TTS (1B, 3B, 8B) et le modèle de codec.
La capacité des grands modèles de langage modernes (LLMs) à suivre des instructions a fait d'eux des assistants utiles. Cependant, apprivoiser les LLMs sur des instructions complexes reste un mystère, car il existe d'énormes écarts entre les modèles entraînés par la communauté open source et ceux entraînés par les grandes entreprises. Pour combler cet écart, nous proposons une approche simple et évolutive, UltraIF, pour construire des LLMs capables de suivre des instructions complexes avec des données open source. UltraIF décompose d'abord les demandes d'utilisateurs du monde réel en requêtes plus simples, contraintes et questions d'évaluation correspondantes pour les contraintes. Ensuite, nous entraînons un UltraComposer à composer des demandes associées aux contraintes avec des questions d'évaluation. Ce compositeur de demandes nous permet de synthétiser des instructions compliquées ainsi que de filtrer les réponses avec des questions d'évaluation. Dans notre expérience, pour la première fois, nous avons réussi à aligner LLaMA-3.1-8B-Base sur sa version instructive sur 5 bancs d'essai de suivi d'instructions sans aucune information de référence, en n'utilisant que le modèle 8B comme générateur de réponses et évaluateur. Le modèle aligné a également obtenu des scores compétitifs sur d'autres bancs d'essai. De plus, nous montrons également qu'UltraIF pourrait améliorer davantage LLaMA-3.1-8B-Instruct grâce à l'auto-alignement, ce qui encourage des cas d'utilisation plus larges pour la méthode. Notre code sera disponible sur https://github.com/kkk-an/UltraIF.
Les grands modèles de langage (GML), tels que o1 d'OpenAI, ont démontré des capacités de raisonnement remarquables. o1 génère une longue chaîne de pensées (LongCoT) avant de répondre à une question. Le LongCoT permet aux GML d'analyser les problèmes, de concevoir des plans, de réfléchir et de revenir en arrière de manière efficace. Ces actions permettent aux GML de résoudre des problèmes complexes. Après la sortie de o1, de nombreuses équipes ont tenté de reproduire son LongCoT et ses capacités de raisonnement. En termes de méthodes, elles s'appuient principalement sur la distillation des connaissances avec des données provenant de modèles existants ayant des capacités LongCoT (par exemple, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), laissant des incertitudes significatives sur le développement systématique de telles capacités de raisonnement. En termes de domaines de données, ces travaux se concentrent étroitement sur les mathématiques tandis que quelques-uns incluent la programmation, limitant leur généralisabilité. Cet article présente une nouvelle approche pour permettre la capacité LongCoT des GML sans distillation à partir de modèles similaires à o1 ou d'annotations humaines coûteuses, où nous initialisons LongCoT (BOLT) à partir d'un modèle instruct standard. BOLT comprend trois étapes : 1) l'amorçage des données LongCoT avec un apprentissage en contexte sur un modèle instruct standard ; 2) le fine-tuning supervisé de LongCoT ; 3) l'entraînement en ligne pour affiner davantage les capacités LongCoT. Dans BOLT, seuls quelques exemples en contexte doivent être construits lors de l'étape d'amorçage ; dans nos expériences, nous avons créé 10 exemples, démontrant la faisabilité de cette approche. Nous utilisons Llama-3.1-70B-Instruct pour initialiser LongCoT et appliquons notre méthode à diverses échelles de modèles (7B, 8B, 70B). Nous obtenons des performances impressionnantes sur une variété de références, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, qui évaluent des capacités diverses de résolution de tâches et de raisonnement.
L'objectif des modèles génératifs de diffusion est d'aligner la distribution apprise avec la distribution des données réelles grâce à l'appariement de gradient de score. Cependant, les limitations inhérentes dans la qualité des données d'entraînement, les stratégies de modélisation et la conception architecturale entraînent un écart inévitable entre les sorties générées et les données réelles. Pour réduire cet écart, nous proposons la Diffusion de Faible à Forte (W2SD), un nouveau cadre qui utilise la différence estimée entre les modèles faibles et forts existants (c'est-à-dire, la différence de faible à forte) pour approximer l'écart entre un modèle idéal et un modèle fort. En employant une opération réfléchie qui alterne entre le débruitage et l'inversion avec la différence de faible à forte, nous comprenons théoriquement que W2SD guide les variables latentes le long des trajectoires d'échantillonnage vers les régions de la distribution des données réelles. W2SD est hautement flexible et largement applicable, permettant des améliorations diverses grâce à la sélection stratégique de paires de modèles de faible à fort (par exemple, DreamShaper vs. SD1.5, bons experts vs. mauvais experts dans MoE). Des expériences approfondies démontrent que W2SD améliore significativement la préférence humaine, la qualité esthétique et l'adhérence à la demande, atteignant des performances de pointe dans diverses modalités (par exemple, image, vidéo), architectures (par exemple, basées sur UNet, DiT, MoE) et benchmarks. Par exemple, Juggernaut-XL avec W2SD peut améliorer le taux de réussite de HPSv2 jusqu'à 90% par rapport aux résultats originaux. De plus, les gains de performance obtenus par W2SD surpassent nettement ses coûts computationnels supplémentaires, tandis que les améliorations cumulatives provenant des différentes différences de faible à fort renforcent davantage son utilité pratique et son déploiement.
Malgré les capacités remarquables des grands modèles de langage dans diverses tâches, leur expansion continue est confrontée à un défi critique : la rareté de données de pré-entraînement de haute qualité. Alors que les architectures de modèles continuent d'évoluer, les données en langage naturel peinent à s'étendre. Pour résoudre ce goulot d'étranglement, nous proposons la méthode de reformulation MAssive Genre-Audience (MAGA), qui synthétise de manière systématique des données de pré-entraînement diverses et riches en contexte à partir de corpus existants. Ce travail apporte trois contributions principales : (1) Nous proposons la méthode de reformulation MAGA, une approche légère et évolutive pour l'expansion des corpus de pré-entraînement, et construisons un corpus MAGACorpus de 770 milliards de jetons. (2) Nous évaluons le corpus MAGACorpus avec différentes stratégies de mise à l'échelle du budget de données, démontrant des améliorations constantes à travers diverses tailles de modèles (134M-13B), établissant la nécessité de modèles de langage pré-entraînement synthétiques à grande échelle de nouvelle génération. (3) À travers une analyse approfondie, nous étudions l'impact de l'ingénierie de l'invite sur l'effondrement de l'entraînement synthétique et révélons les limites des métriques conventionnelles de détection de l'effondrement en utilisant des pertes de validation. Notre travail montre que MAGA peut considérablement étendre les ensembles de données d'entraînement tout en maintenant la qualité, offrant ainsi une voie fiable pour mettre à l'échelle les modèles au-delà des limitations de données.
Des recherches récentes ont exploité de grands systèmes multi-agents de modèles de langage pour la résolution de problèmes complexes tout en cherchant à réduire l'effort manuel nécessaire pour les construire, ce qui a conduit au développement de méthodes d'optimisation automatisée des flux de travail des agents. Cependant, les méthodes existantes restent rigides en raison de limitations de représentation, d'un manque d'adaptabilité et d'une faible évolutivité lorsqu'elles reposent sur des techniques d'optimisation discrètes. Nous relevons ces défis avec ScoreFlow, un cadre simple mais performant qui exploite une optimisation efficace basée sur des gradients dans un espace continu. ScoreFlow intègre Score-DPO, une nouvelle variante de la méthode d'optimisation des préférences directes qui prend en compte les retours quantitatifs. À travers six benchmarks couvrant la réponse aux questions, la programmation et le raisonnement mathématique, ScoreFlow obtient une amélioration de 8,2% par rapport aux baselines existantes. De plus, il permet à des modèles plus petits de surpasser des modèles plus grands avec des coûts d'inférence plus faibles. Projet : https://github.com/Gen-Verse/ScoreFlow
Cet article présente une méthode qui permet aux utilisateurs de concevoir des plans vidéo cinématographiques dans le contexte de la génération d'images en vidéo. La conception de plans, un aspect critique de la réalisation cinématographique, implique de planifier méticuleusement à la fois les mouvements de caméra et les mouvements d'objets dans une scène. Cependant, permettre une conception de plans intuitive dans les systèmes modernes de génération d'images en vidéo présente deux principaux défis : premièrement, capturer efficacement les intentions de l'utilisateur sur la conception des mouvements, où à la fois les mouvements de caméra et les mouvements d'objets dans l'espace scénique doivent être spécifiés conjointement ; et deuxièmement, représenter des informations de mouvement qui peuvent être efficacement utilisées par un modèle de diffusion vidéo pour synthétiser les animations d'images. Pour relever ces défis, nous présentons MotionCanvas, une méthode qui intègre des contrôles pilotés par l'utilisateur dans les modèles de génération d'images en vidéo, permettant aux utilisateurs de contrôler à la fois les mouvements d'objets et de caméra de manière consciente de la scène. En connectant les connaissances de la graphique informatique classique et des techniques contemporaines de génération vidéo, nous démontrons la capacité à réaliser un contrôle de mouvement conscient en 3D dans la synthèse d'images en vidéo sans nécessiter de données d'entraînement coûteuses en 3D. MotionCanvas permet aux utilisateurs de représenter intuitivement les intentions de mouvement dans l'espace scénique, et de les traduire en signaux de conditionnement de mouvement spatiotemporel pour les modèles de diffusion vidéo. Nous démontrons l'efficacité de notre méthode sur une large gamme de contenus d'images du monde réel et de scénarios de conception de plans, mettant en avant son potentiel pour améliorer les flux de travail créatifs dans la création de contenu numérique et s'adapter à diverses applications de montage d'images et de vidéos.
La génération et l'édition des mouvements humains sont des composantes essentielles des graphiques par ordinateur et de la vision. Cependant, les approches actuelles dans ce domaine ont tendance à offrir des solutions isolées adaptées à des tâches spécifiques, ce qui peut être inefficace et peu pratique pour les applications du monde réel. Alors que certains efforts ont visé à unifier les tâches liées au mouvement, ces méthodes utilisent simplement différentes modalités comme conditions pour guider la génération de mouvement. Par conséquent, elles manquent de capacités d'édition, de contrôle fin et ne facilitent pas le partage des connaissances entre les tâches. Pour répondre à ces limitations et fournir un cadre polyvalent et unifié capable de gérer à la fois la génération et l'édition des mouvements humains, nous introduisons un nouveau paradigme : Motion-Condition-Motion, qui permet la formulation unifiée de diverses tâches avec trois concepts : mouvement source, condition et mouvement cible. Sur la base de ce paradigme, nous proposons un cadre unifié, MotionLab, qui intègre des flux rectifiés pour apprendre la correspondance du mouvement source au mouvement cible, guidé par les conditions spécifiées. Dans MotionLab, nous introduisons : 1) le Transformateur de Flux de Mouvement pour améliorer la génération conditionnelle et l'édition sans modules spécifiques à la tâche ; 2) le Codage de Position Rotationnel Aligné pour garantir la synchronisation temporelle entre le mouvement source et le mouvement cible ; 3) la Modulation d'Instruction Spécifique à la Tâche ; et 4) l'Apprentissage de Programme de Mouvement pour un apprentissage multi-tâches efficace et un partage des connaissances entre les tâches. Notamment, notre MotionLab démontre des capacités de généralisation prometteuses et une efficacité d'inférence sur plusieurs référentiels pour le mouvement humain. Notre code et des résultats vidéo supplémentaires sont disponibles sur : https://diouo.github.io/motionlab.github.io/.
Les grands modèles de langage (LLM) ont montré une capacité significative dans diverses tâches, leur efficacité réelle étant souvent déterminée par la conception de l'invite. Alors que les recherches récentes se sont concentrées sur l'optimisation du contenu de l'invite, le rôle de la mise en forme de l'invite, une dimension critique mais souvent négligée, a fait l'objet d'investigations systématiques limitées. Dans cet article, nous présentons l'Optimisation Intégrée de Contenu et de Format d'Invite (CFPO), une méthodologie innovante qui optimise conjointement à la fois le contenu et la mise en forme de l'invite à travers un processus de raffinement itératif. CFPO exploite les mutations de langage naturel pour explorer les variations de contenu et utilise une stratégie d'exploration de format dynamique qui évalue systématiquement diverses options de format. Nos évaluations approfondies sur plusieurs tâches et LLM open-source démontrent que CFPO présente des améliorations de performance mesurables par rapport aux méthodes d'optimisation basées uniquement sur le contenu. Cela souligne l'importance de l'optimisation intégrée du contenu et du format et propose une approche pratique et indépendante du modèle pour améliorer les performances des LLM. Le code sera disponible sur https://github.com/HenryLau7/CFPO.
À mesure que les grands modèles de langage alimentent de plus en plus d'applications réelles, les aligner avec les valeurs humaines devient primordial. L'apprentissage par renforcement à partir des retours humains (RLHF) est apparu comme une technique clé, traduisant les données de préférence en modèles de récompense lorsque les valeurs humaines de l'oracle restent inaccessibles. En pratique, le RLHF repose principalement sur des modèles de récompense approximatifs, qui peuvent ne pas guider de manière cohérente la politique vers la maximisation des valeurs humaines sous-jacentes. Nous proposons l'apprentissage interpolé de politique pour les retours alignés (PILAF), une nouvelle stratégie d'échantillonnage de réponse pour l'étiquetage des préférences qui aligne explicitement l'apprentissage des préférences avec la maximisation de la récompense de l'oracle sous-jacente. PILAF est théoriquement fondé, démontrant l'optimalité à la fois d'un point de vue d'optimisation et statistique. La méthode est simple à mettre en œuvre et montre de bonnes performances dans les paramètres RLHF itératifs et en ligne où la curation des retours est cruciale.
Nous présentons un nouveau cadre de génération de vidéos qui intègre la géométrie tridimensionnelle et la conscience dynamique. Pour y parvenir, nous enrichissons les vidéos 2D avec des trajectoires de points 3D et les alignons dans l'espace des pixels. Le jeu de données vidéo 3D-aware résultant, PointVid, est ensuite utilisé pour affiner un modèle de diffusion latent, lui permettant de suivre des objets 2D avec des coordonnées cartésiennes 3D. En s'appuyant sur cela, nous régularisons la forme et le mouvement des objets dans la vidéo pour éliminer les artefacts indésirables, tels que les déformations non physiques. Par conséquent, nous améliorons la qualité des vidéos RVB générées et atténuons les problèmes courants tels que la morphing des objets, qui sont fréquents dans les modèles vidéo actuels en raison d'un manque de conscience de la forme. Grâce à notre augmentation et régularisation 3D, notre modèle est capable de gérer des scénarios riches en contacts tels que les vidéos orientées tâches. Ces vidéos impliquent des interactions complexes de solides, où l'information 3D est essentielle pour percevoir la déformation et le contact. De plus, notre modèle améliore la qualité globale de la génération de vidéos en favorisant la cohérence 3D des objets en mouvement et en réduisant les changements brusques de forme et de mouvement.
Les grands modèles de langage (LLM) peuvent effectuer des tâches de question-réponse sur des graphiques, mais génèrent souvent des réponses hallucinées non vérifiées. Les méthodes d'attribution de réponse existantes ont du mal à ancrer les réponses dans les graphiques sources en raison d'un contexte visuel-sémantique limité, d'exigences complexes d'alignement visuel-texte et de difficultés de prédiction de boîte englobante à travers des mises en page complexes. Nous présentons ChartCitor, un cadre multi-agent qui fournit des citations de boîtes englobantes fines en identifiant des preuves à l'intérieur des images de graphiques. Le système orchestre des agents LLM pour effectuer l'extraction de graphique vers tableau, la reformulation de réponse, l'augmentation de tableau, la récupération de preuves par pré-filtrage et re-classement, et la cartographie de tableau vers graphique. ChartCitor surpasse les baselines existantes pour différents types de graphiques. Des études utilisateur qualitatives montrent que ChartCitor aide à accroître la confiance des utilisateurs dans l'IA générative en fournissant une explicabilité améliorée pour la question-réponse assistée par LLM sur les graphiques et permet aux professionnels d'être plus productifs.
Nous proposons l'Autorégression Masquée Hétérogène (HMA) pour modéliser la dynamique des vidéos d'action afin de générer des données de haute qualité et d'évaluer le développement de l'apprentissage robotique à grande échelle. La construction de modèles et de politiques interactifs de monde vidéo pour la robotique est difficile en raison du défi de gérer des environnements divers tout en maintenant une efficacité computationnelle pour fonctionner en temps réel. HMA utilise un pré-entraînement hétérogène à partir d'observations et de séquences d'actions à travers différents incarnations robotiques, domaines et tâches. HMA utilise l'autorégression masquée pour générer des jetons quantifiés ou doux pour les prédictions vidéo. Notre approche atteint une meilleure fidélité visuelle et une meilleure contrôlabilité que les modèles précédents de génération de vidéos robotiques, avec une vitesse 15 fois plus rapide dans le monde réel. Après le post-entraînement, ce modèle peut être utilisé comme simulateur vidéo à partir d'entrées d'actions de bas niveau pour évaluer les politiques et générer des données synthétiques. Consultez ce lien https://liruiw.github.io/hma pour plus d'informations.
La visualisation des données scientifiques est cruciale pour transformer les données brutes en représentations visuelles compréhensibles, permettant la reconnaissance de motifs, la prévision et la présentation d'informations basées sur les données. Cependant, les utilisateurs novices rencontrent souvent des difficultés en raison de la complexité du choix des outils appropriés et de la maîtrise des techniques de visualisation. Les grands modèles de langage (GML) ont récemment démontré un potentiel dans l'assistance à la génération de code, bien qu'ils rencontrent des difficultés en termes de précision et nécessitent un débogage itératif. Dans cet article, nous proposons PlotGen, un nouveau cadre multi-agent visant à automatiser la création de visualisations scientifiques précises. PlotGen orchestre plusieurs agents basés sur des GML, comprenant un Agent de Planification de Requêtes qui décompose les demandes complexes des utilisateurs en étapes exécutables, un Agent de Génération de Code qui convertit le pseudocode en code Python exécutable, et trois agents de rétroaction de récupération - un Agent de Rétroaction Numérique, un Agent de Rétroaction Lexicale et un Agent de Rétroaction Visuelle - qui exploitent des GML multimodaux pour affiner de manière itérative l'exactitude des données, les étiquettes textuelles et la correction visuelle des graphiques générés via l'autoréflexion. Des expériences approfondies montrent que PlotGen surpasse des bases solides, atteignant une amélioration de 4 à 6 pour cent sur l'ensemble de données MatPlotBench, ce qui renforce la confiance des utilisateurs dans les visualisations générées par les GML et améliore la productivité des novices en réduisant le temps de débogage nécessaire pour les erreurs de graphique.
L'avènement des Grands Modèles de Langage (GML) a considérablement fait progresser le domaine de la génération automatique de code. Les GML s'appuient sur des ensembles de données vastes et diversifiés pour apprendre la syntaxe, la sémantique et les schémas d'utilisation des langages de programmation. Pour les langues à faibles ressources (c'est-à-dire, des langages de programmation de niche caractérisés par la rareté des données d'entraînement), la disponibilité limitée de telles données entrave la capacité des modèles à généraliser efficacement, ce qui se traduit par des performances de génération de code moins bonnes par rapport aux langues à ressources élevées. Pour cette raison, il existe une quête de techniques capables de combler cet écart de performance. Nous présentons une étude empirique examinant l'efficacité de plusieurs approches pour améliorer les performances des GML sur les langues à faibles ressources, à savoir : (i) un réglage fin classique, limité en taille par la rareté des données d'entraînement ; (ii) trois variantes d'apprentissage en contexte, avec des invitations conçues pour fournir au GML des informations supplémentaires sur la langue à faibles ressources (par exemple, des exemples à quelques tirs mettant en valeur les caractéristiques de la langue ciblée) ; et (iii) un objectif de pré-entraînement enseignant au modèle comment traduire entre les langues à ressources élevées et à faibles ressources. Le cadre de notre étude concerne deux langues à faibles ressources (R et Racket) et six GML ayant des architectures et des tailles différentes. Nos résultats révèlent qu'un réglage fin est généralement le meilleur choix pour les GML plus petits, probablement en raison du fait qu'un petit ensemble de données est suffisant pour entraîner leur nombre limité de paramètres. Avec l'augmentation de la taille des modèles, l'apprentissage en contexte devient de plus en plus efficace, représentant un choix sûr et économique (c'est-à-dire, cela aide toujours, mais avec des magnitudes différentes). En revanche, les GML très grands peuvent voir leurs performances se détériorer sur les langues à faibles ressources lorsqu'un réglage fin est effectué, probablement en raison du manque de données nécessaires pour mettre à jour efficacement leurs poids.
Malgré les efforts considérables de sécurisation, les grands modèles de langage (GML) restent vulnérables aux attaques de jailbreak qui provoquent des comportements nuisibles. Alors que les études existantes se concentrent principalement sur les méthodes d'attaque nécessitant une expertise technique, deux questions cruciales restent peu explorées : (1) Les réponses jailbreak sont-elles réellement utiles pour permettre aux utilisateurs moyens d'effectuer des actions nuisibles ? (2) Existe-t-il des vulnérabilités de sécurité dans les interactions plus courantes et simples entre les humains et les GML ? Dans cet article, nous démontrons que les réponses des GML facilitent le plus efficacement les actions nuisibles lorsqu'elles sont à la fois actionnables et informatives - deux attributs facilement obtenus dans des interactions multilingues et multi-étapes. En utilisant cette observation, nous proposons HarmScore, une métrique de jailbreak mesurant l'efficacité d'une réponse de GML à faciliter des actions nuisibles, et Speak Easy, un cadre d'attaque multilingue et multi-étapes simple. Notamment, en incorporant Speak Easy dans les références de demande directe et de jailbreak, nous observons une augmentation absolue moyenne de 0,319 du taux de réussite de l'attaque et de 0,426 du HarmScore dans les GML open-source et propriétaires à travers quatre critères de sécurité. Notre travail révèle une vulnérabilité critique mais souvent négligée : les utilisateurs malveillants peuvent facilement exploiter des schémas d'interaction courants à des fins nuisibles.