Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents modèles de diffusion à grande échelle génèrent des images de haute qualité mais rencontrent des difficultés pour apprendre de nouveaux styles artistiques personnalisés, ce qui limite la création de modèles de style uniques. Le réglage fin avec des images de référence est l'approche la plus prometteuse, mais elle utilise souvent de manière aveugle les objectifs et les distributions de niveaux de bruit utilisés pour l'entraînement préalable, ce qui conduit à un alignement de style sous-optimal. Nous proposons l'échantillonneur Style-friendly SNR, qui déplace de manière agressive la distribution du rapport signal sur bruit (SNR) vers des niveaux de bruit plus élevés lors du réglage fin pour se concentrer sur les niveaux de bruit où les caractéristiques stylistiques émergent. Cela permet aux modèles de mieux capturer des styles uniques et de générer des images avec un alignement de style plus élevé. Notre méthode permet aux modèles de diffusion d'apprendre et de partager de nouveaux "modèles de style", améliorant la création de contenu personnalisé. Nous démontrons la capacité à générer des styles tels que des peintures aquarelles personnelles, des dessins animés plats minimalistes, des rendus 3D, des images multi-panneaux et des mèmes avec du texte, élargissant ainsi la portée de la génération basée sur le style.
Le post-entraînement des modèles de langage est appliqué pour affiner les comportements et débloquer de nouvelles compétences à travers un large éventail de modèles de langage récents, mais les recettes ouvertes pour appliquer ces techniques sont en retard par rapport aux recettes propriétaires. Les données d'entraînement sous-jacentes et les recettes pour le post-entraînement sont simultanément les pièces les plus importantes du puzzle et la partie la moins transparente. Pour combler cet écart, nous présentons TÜLU 3, une famille de modèles post-entraînés de pointe entièrement ouverts, accompagnée de ses données, de son code et de ses recettes d'entraînement, servant de guide complet pour les techniques modernes de post-entraînement. TÜLU 3, qui s'appuie sur les modèles de base Llama 3.1, obtient des résultats dépassant les versions instruct de Llama 3.1, Qwen 2.5, Mistral, et même des modèles fermés tels que GPT-4o-mini et Claude 3.5-Haiku. Les algorithmes d'entraînement pour nos modèles comprennent le fine-tuning supervisé (SFT), l'optimisation directe des préférences (DPO), et une nouvelle méthode que nous appelons l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). Avec TÜLU 3, nous introduisons un schéma d'évaluation multi-tâches pour les recettes de post-entraînement avec des évaluations de développement et non vues, des implémentations de référence standard, et une décontamination substantielle des ensembles de données ouverts existants sur lesdits bancs d'essai. Nous concluons par une analyse et une discussion des méthodes d'entraînement qui n'ont pas amélioré de manière fiable les performances. En plus des poids et de la démonstration du modèle TÜLU 3, nous publions la recette complète, y compris les ensembles de données pour des compétences de base diverses, une boîte à outils robuste pour la curation et l'évaluation des données, le code d'entraînement et l'infrastructure, et, surtout, un rapport détaillé pour reproduire et adapter davantage l'approche TÜLU 3 à d'autres domaines.
Dans cet article, nous présentons OminiControl, un cadre hautement polyvalent et efficace en termes de paramètres qui intègre des conditions d'image dans des modèles de Transformer de Diffusion pré-entraînés (DiT). Au cœur de OminiControl se trouve un mécanisme de réutilisation de paramètres, permettant au DiT d'encoder les conditions d'image en utilisant lui-même comme une colonne vertébrale puissante et de les traiter avec ses processeurs d'attention multi-modaux flexibles. Contrairement aux méthodes existantes, qui s'appuient fortement sur des modules d'encodeur supplémentaires avec des architectures complexes, OminiControl (1) intègre de manière efficace et efficiente des conditions d'image injectées avec seulement ~0,1% de paramètres supplémentaires, et (2) aborde une large gamme de tâches de conditionnement d'image de manière unifiée, y compris la génération pilotée par le sujet et des conditions alignées spatialement telles que les contours, la profondeur, et plus encore. Remarquablement, ces capacités sont obtenues en formant sur des images générées par le DiT lui-même, ce qui est particulièrement bénéfique pour la génération pilotée par le sujet. Des évaluations approfondies démontrent que OminiControl surpasse les modèles existants basés sur UNet et adaptés au DiT à la fois dans la génération conditionnelle pilotée par le sujet et alignée spatialement. De plus, nous mettons à disposition notre ensemble de données d'entraînement, Subjects200K, une collection diversifiée de plus de 200 000 images cohérentes en termes d'identité, ainsi qu'un pipeline efficace de synthèse de données pour faire progresser la recherche en génération cohérente par sujet.
Le vieillissement facial est un processus complexe, fortement dépendant de multiples facteurs tels que le genre, l'ethnie, le mode de vie, etc., ce qui rend extrêmement difficile d'apprendre un vieillissement global pour prédire le vieillissement de manière précise pour un individu quelconque. Les techniques existantes produisent souvent des résultats de vieillissement réalistes et plausibles, mais les images rajeunies ne ressemblent souvent pas à l'apparence de la personne à l'âge cible et nécessitent donc une personnalisation. Dans de nombreuses applications pratiques de vieillissement virtuel, par exemple dans les effets visuels (VFX) des films et des émissions de télévision, un accès à une collection de photos personnelles de l'utilisateur représentant le vieillissement sur un petit intervalle de temps (20 à 40 ans) est souvent disponible. Cependant, les tentatives naïves de personnaliser les techniques de vieillissement global sur des collections de photos personnelles échouent souvent. Ainsi, nous proposons MyTimeMachine (MyTM), qui combine un vieillissement global préalable avec une collection de photos personnelles (en utilisant aussi peu que 50 images) pour apprendre une transformation d'âge personnalisée. Nous introduisons un nouveau Réseau Adaptateur qui combine des caractéristiques de vieillissement personnalisées avec des caractéristiques de vieillissement global et génère une image rajeunie avec StyleGAN2. Nous introduisons également trois fonctions de perte pour personnaliser le Réseau Adaptateur avec une perte de vieillissement personnalisée, une régularisation d'extrapolation et une régularisation adaptative de la norme w. Notre approche peut également être étendue aux vidéos, atteignant des effets de vieillissement de haute qualité, préservant l'identité et temporellement cohérents qui ressemblent aux apparences réelles aux âges cibles, démontrant sa supériorité par rapport aux approches de pointe.
Les grands modèles de langage sont sujets à des utilisations hors-sujet, où les utilisateurs peuvent inciter ces modèles à effectuer des tâches dépassant leur champ d'application prévu. Les garde-fous actuels, qui reposent souvent sur des exemples sélectionnés ou des classificateurs personnalisés, souffrent de taux élevés de faux positifs, d'une adaptabilité limitée et de l'impraticabilité de nécessiter des données du monde réel qui ne sont pas disponibles en pré-production. Dans cet article, nous introduisons une méthodologie de développement de garde-fous flexible et sans données qui répond à ces défis. En définissant de manière approfondie l'espace du problème qualitativement et en transmettant cela à un LLM pour générer des prompts variés, nous construisons un ensemble de données synthétique pour évaluer et entraîner des garde-fous hors-sujet qui surpassent les approches heuristiques. De plus, en encadrant la tâche comme classifiant si la sollicitation de l'utilisateur est pertinente par rapport à la sollicitation du système, nos garde-fous généralisent efficacement à d'autres catégories de mauvaise utilisation, y compris les sollicitations de jailbreak et nuisibles. Enfin, nous contribuons davantage au domaine en mettant en open source à la fois l'ensemble de données synthétique et les modèles de garde-fous hors-sujet, fournissant des ressources précieuses pour le développement de garde-fous dans des environnements de pré-production et soutenant la recherche et le développement futurs sur la sécurité des LLM.
Les grands modèles de langage (LLMs) et les modèles de langage vision (VLMs) possèdent une connaissance étendue et présentent des capacités de raisonnement prometteuses ; cependant, ils peinent encore à bien performer dans des environnements complexes et dynamiques. Les tâches du monde réel nécessitent de gérer des interactions complexes, un raisonnement spatial avancé, une planification à long terme et une exploration continue de nouvelles stratégies - des domaines pour lesquels nous manquons de méthodologies efficaces pour évaluer de manière exhaustive ces capacités. Pour combler cette lacune, nous introduisons BALROG, un nouveau banc d'essai conçu pour évaluer les capacités agentiques des LLMs et VLMs à travers une diversité de jeux stimulants. Notre banc d'essai intègre une gamme d'environnements d'apprentissage par renforcement existants avec des niveaux de difficulté variables, comprenant des tâches résolubles par des humains non experts en quelques secondes à des tâches extrêmement difficiles qui peuvent prendre des années à maîtriser (par exemple, l'Environnement d'Apprentissage NetHack). Nous concevons des métriques fines pour mesurer les performances et réalisons une évaluation approfondie de plusieurs LLMs et VLMs populaires en open source et en source fermée. Nos résultats indiquent que tandis que les modèles actuels réussissent partiellement dans les jeux plus faciles, ils rencontrent des difficultés significatives avec les tâches plus complexes. Notamment, nous observons des lacunes sévères dans la prise de décision basée sur la vision, les modèles ayant de moins bonnes performances lorsque des représentations visuelles des environnements sont fournies. Nous publions BALROG en tant que banc d'essai ouvert et convivial pour faciliter la recherche et le développement futurs au sein de la communauté agentique.
Les récentes avancées dans les Grands Modèles Multimodaux (GMM) ont conduit à des percées significatives tant dans le milieu universitaire que dans l'industrie. Une question qui se pose est de savoir comment nous, en tant qu'humains, pouvons comprendre les représentations neuronales internes de ces modèles. Cet article franchit une première étape vers la résolution de cette question en présentant un cadre polyvalent pour identifier et interpréter les sémantiques au sein des GMM. Plus précisément, 1) nous appliquons d'abord un Autoencodeur Épars (SAE) pour démêler les représentations en caractéristiques compréhensibles par les humains. 2) Nous présentons ensuite un cadre d'interprétation automatique pour interpréter les caractéristiques sémantiques ouvertes apprises dans le SAE par les GMM eux-mêmes. Nous utilisons ce cadre pour analyser le modèle LLaVA-NeXT-8B en utilisant le modèle LLaVA-OV-72B, démontrant que ces caractéristiques peuvent efficacement orienter le comportement du modèle. Nos résultats contribuent à une compréhension plus approfondie des raisons pour lesquelles les GMM excellent dans des tâches spécifiques, y compris les tests d'EQ, et éclairent la nature de leurs erreurs ainsi que les stratégies potentielles pour les rectifier. Ces découvertes offrent de nouvelles perspectives sur les mécanismes internes des GMM et suggèrent des parallèles avec les processus cognitifs du cerveau humain.
L'avancée des Modèles de Langage de Vision à Grande Échelle (LVLMs) a considérablement amélioré la compréhension multimodale, cependant des défis persistent dans les tâches de raisonnement vidéo en raison de la rareté des ensembles de données à grande échelle de haute qualité. Les ensembles de données de question-réponse vidéo (VideoQA) existants s'appuient souvent sur des annotations manuelles coûteuses avec une granularité insuffisante ou des méthodes de construction automatique avec une analyse redondante image par image, limitant leur extensibilité et leur efficacité pour un raisonnement complexe. Pour relever ces défis, nous présentons VideoEspresso, un nouvel ensemble de données qui propose des paires VideoQA préservant des détails spatiaux essentiels et une cohérence temporelle, ainsi que des annotations multimodales des étapes de raisonnement intermédiaires. Notre pipeline de construction utilise une méthode consciente de la sémantique pour réduire la redondance, suivi de la génération de paires de questions-réponses en utilisant GPT-4o. Nous développons en outre des annotations vidéo Chain-of-Thought (CoT) pour enrichir les processus de raisonnement, guidant GPT-4o dans l'extraction des relations logiques à partir des paires de questions-réponses et du contenu vidéo. Pour exploiter le potentiel des paires VideoQA de haute qualité, nous proposons un cadre de Collaboration Hybride de LVLMs, comprenant un Sélecteur de Cadre et un LVLM de raisonnement fine-tuné en deux étapes. Ce cadre sélectionne de manière adaptative les images clés et effectue un raisonnement CoT en utilisant des preuves multimodales. Évaluée sur notre banc d'essai proposé avec 14 tâches contre 9 LVLMs populaires, notre méthode surpasse les références existantes sur la plupart des tâches, démontrant des capacités de raisonnement vidéo supérieures. Notre code et notre ensemble de données seront publiés sur : https://github.com/hshjerry/VideoEspresso
La tokenisation efficace des vidéos reste un défi dans la formation de modèles de vision capables de traiter de longues vidéos. Une direction prometteuse consiste à développer un tokeniseur capable d'encoder de longs clips vidéo, car cela permettrait au tokeniseur de mieux exploiter la cohérence temporelle des vidéos pour la tokenisation. Cependant, l'entraînement des tokeniseurs existants sur de longues vidéos entraîne souvent un coût d'entraînement élevé car ils sont formés pour reconstruire tous les cadres en une seule fois. Dans cet article, nous présentons CoordTok, un tokeniseur vidéo qui apprend un mapping à partir de représentations basées sur les coordonnées vers les patchs correspondants des vidéos d'entrée, inspiré par les récents progrès dans les modèles génératifs 3D. En particulier, CoordTok code une vidéo en représentations triplanes factorisées et reconstruit des patchs correspondant à des coordonnées (x, y, t) échantillonnées de manière aléatoire. Cela permet d'entraîner de grands modèles de tokeniseur directement sur de longues vidéos sans nécessiter de ressources d'entraînement excessives. Nos expériences montrent que CoordTok peut réduire de manière drastique le nombre de jetons pour encoder de longs clips vidéo. Par exemple, CoordTok peut encoder une vidéo de 128 images avec une résolution de 128x128 en 1280 jetons, tandis que les références nécessitent 6144 ou 8192 jetons pour obtenir une qualité de reconstruction similaire. Nous montrons en outre que cette tokenisation efficace des vidéos permet un entraînement efficace en mémoire d'un transformateur de diffusion capable de générer 128 images en une seule fois.
Le domaine de la synthèse de nouvelles vues a fait des progrès significatifs grâce au développement des méthodes de champ de radiance. Cependant, la plupart des techniques de champ de radiance sont bien meilleures pour l'interpolation de nouvelles vues que pour l'extrapolation de nouvelles vues où les vues synthétisées sont bien au-delà des vues d'entraînement observées. Nous concevons ViewExtrapolator, une approche de synthèse de nouvelles vues qui exploite les prédictions génératives de la Diffusion Vidéo Stable (SVD) pour une extrapolation réaliste de nouvelles vues. En retravaillant le processus de débruitage SVD, ViewExtrapolator affine les vues sujettes aux artefacts rendues par les champs de radiance, améliorant considérablement la clarté et le réalisme des nouvelles vues synthétisées. ViewExtrapolator est un extrapolateur de nouvelles vues générique qui peut fonctionner avec différents types de rendus 3D tels que des vues rendues à partir de nuages de points lorsque seule une vue ou une vidéo monoculaire est disponible. De plus, ViewExtrapolator ne nécessite aucun réglage fin de la SVD, le rendant à la fois efficace en termes de données et de calcul. Des expériences approfondies démontrent la supériorité de ViewExtrapolator en matière d'extrapolation de nouvelles vues. Page du projet : https://kunhao-liu.github.io/ViewExtrapolator/.
Les modèles récents de diffusion texte-vidéo (T2V) ont démontré des capacités de génération impressionnantes dans divers domaines. Cependant, ces modèles génèrent souvent des vidéos avec des désalignements par rapport aux instructions textuelles, notamment lorsque les instructions décrivent des scènes complexes avec plusieurs objets et attributs. Pour remédier à cela, nous présentons VideoRepair, un nouveau cadre de raffinement vidéo indépendant du modèle et sans entraînement, qui identifie automatiquement les désalignements fins entre texte et vidéo et génère des retours spatiaux et textuels explicites, permettant à un modèle de diffusion T2V d'effectuer des raffinements ciblés et localisés. VideoRepair se compose de quatre étapes : (1) évaluation vidéo, où nous détectons les désalignements en générant des questions d'évaluation fines et en y répondant avec MLLM. (2) planification du raffinement, où nous identifions les objets générés avec précision, puis créons des instructions localisées pour raffiner d'autres zones de la vidéo. Ensuite, (3) décomposition de la région, où nous segmentons la zone correctement générée à l'aide d'un module de mise en correspondance combiné. Nous régénérons la vidéo en ajustant les régions désalignées tout en préservant les régions correctes dans (4) le raffinement localisé. Sur deux bancs d'essai populaires de génération vidéo (EvalCrafter et T2V-CompBench), VideoRepair surpasse largement les références récentes en termes de diverses mesures d'alignement texte-vidéo. Nous fournissons une analyse complète des composants de VideoRepair et des exemples qualitatifs.
La manipulation mobile "dans la nature" vise à déployer des robots dans divers environnements réels, ce qui nécessite que le robot (1) possède des compétences qui se généralisent à travers différentes configurations d'objets ; (2) soit capable d'exécuter des tâches à longue portée dans des environnements variés ; et (3) effectue des manipulations complexes allant au-delà de la simple prise et dépose. Les robots quadrupèdes avec manipulateurs offrent la possibilité d'étendre l'espace de travail et de permettre une locomotion robuste, mais les résultats existants n'investiguent pas une telle capacité. Cet article propose WildLMa avec trois composants pour aborder ces problèmes : (1) adaptation d'un contrôleur bas niveau appris pour la téléopération en réalité virtuelle et la franchissabilité ; (2) WildLMa-Skill - une bibliothèque de compétences visuomotrices généralisables acquises par apprentissage par imitation ou heuristiques ; et (3) WildLMa-Planner - une interface de compétences apprises permettant aux planificateurs LLM de coordonner les compétences pour des tâches à longue portée. Nous démontrons l'importance de données d'entraînement de haute qualité en atteignant un taux de réussite de préhension plus élevé par rapport aux bases de référence RL existantes en n'utilisant que quelques démonstrations. WildLMa exploite CLIP pour l'apprentissage par imitation conditionné au langage qui se généralise empiriquement à des objets non vus dans les démonstrations d'entraînement. En plus d'une évaluation quantitative approfondie, nous démontrons qualitativement des applications robotiques pratiques, telles que le nettoyage des déchets dans les couloirs universitaires ou les terrains extérieurs, le fonctionnement d'objets articulés et le réarrangement d'objets sur une étagère.
La segmentation des nuages est un défi critique dans l'interprétation d'images de télédétection, car sa précision a un impact direct sur l'efficacité du traitement et de l'analyse des données subséquentes. Récemment, les modèles de base de vision (VFM) ont démontré de puissantes capacités de généralisation à travers diverses tâches visuelles. Dans cet article, nous présentons une approche adaptative à faible nombre de paramètres, appelée Cloud-Adapter, conçue pour améliorer la précision et la robustesse de la segmentation des nuages. Notre méthode exploite un VFM pré-entraîné sur des données de domaine général, qui reste figé, éliminant ainsi le besoin d'un entraînement supplémentaire. Cloud-Adapter intègre un module de perception spatiale léger qui utilise initialement un réseau de neurones convolutionnel (ConvNet) pour extraire des représentations spatiales denses. Ces caractéristiques multi-échelles sont ensuite agrégées et servent de données contextuelles à un module d'adaptation, qui module les couches de transformateur figées au sein du VFM. Les résultats expérimentaux montrent que l'approche Cloud-Adapter, n'utilisant que 0,6 % des paramètres entraînables de l'épine dorsale figée, permet d'obtenir des gains de performances substantiels. Cloud-Adapter atteint de manière cohérente des performances de pointe (SOTA) sur une grande variété d'ensembles de données de segmentation des nuages provenant de multiples sources satellitaires, séries de capteurs, niveaux de traitement des données, scénarios de couverture terrestre et granularités d'annotation. Nous avons publié le code source et les modèles pré-entraînés sur https://github.com/XavierJiezou/Cloud-Adapter pour soutenir de futures recherches.
Ces dernières années, la recherche dans le domaine de l'interaction homme-robot s'est concentrée sur le développement de robots capables de comprendre des instructions humaines complexes et d'accomplir des tâches dans des environnements dynamiques et diversifiés. Ces systèmes ont une large gamme d'applications, de l'assistance personnelle à la robotique industrielle, mettant en avant l'importance des robots interagissant de manière flexible, naturelle et sécurisée avec les humains. Cet article présente une architecture avancée pour la planification d'actions robotiques qui intègre la communication, la perception et la planification avec de grands modèles de langage (LLMs). Notre système est conçu pour traduire des commandes exprimées en langage naturel en actions robotiques exécutables, en incorporant des informations environnementales et en mettant à jour dynamiquement les plans en fonction des retours en temps réel. Le module de planification est le cœur du système où les LLMs intégrés dans un cadre ReAct modifié sont utilisés pour interpréter et exécuter les commandes des utilisateurs. En exploitant leur vaste connaissance pré-entraînée, les LLMs peuvent traiter efficacement les demandes des utilisateurs sans avoir besoin d'introduire de nouvelles connaissances sur l'environnement changeant. Le cadre ReAct modifié améliore davantage l'espace d'exécution en fournissant une perception environnementale en temps réel et les résultats des actions physiques. En combinant des représentations de cartes sémantiques robustes et dynamiques sous forme de graphes avec des composants de contrôle et des explications d'échec, cette architecture améliore l'adaptabilité du robot, l'exécution des tâches et la collaboration fluide avec les utilisateurs humains dans des environnements partagés et dynamiques. Grâce à l'intégration de boucles de rétroaction continues avec l'environnement, le système peut ajuster dynamiquement le plan pour accommoder des changements inattendus, optimisant la capacité du robot à effectuer des tâches. En utilisant un ensemble de données d'expériences antérieures, il est possible de fournir des retours détaillés sur l'échec. En mettant à jour le contexte des LLMs pour la prochaine itération avec des suggestions sur la façon de surmonter le problème.