papers.description
Le développement de politiques visuomotrices robustes et corrigibles pour la manipulation robotique est un défi en raison du manque de mécanismes d'auto-récupération des échecs et des limitations des instructions simples en langage pour guider les actions du robot. Pour résoudre ces problèmes, nous proposons un pipeline de génération de données évolutif qui augmente automatiquement les démonstrations d'experts avec des trajectoires de récupération d'échec et des annotations de langage détaillées pour l'entraînement. Nous introduisons ensuite RACER (Rich languAge-guided failure reCovERy), un cadre superviseur-acteur qui combine les données de récupération d'échec avec des descriptions de langage riches pour améliorer le contrôle du robot. RACER comprend un modèle vision-langage (VLM) agissant comme superviseur en ligne, fournissant des orientations linguistiques détaillées pour la correction des erreurs et l'exécution des tâches, ainsi qu'une politique visuomotrice conditionnée par le langage en tant qu'acteur pour prédire les prochaines actions. Nos résultats expérimentaux montrent que RACER surpasse le Robotic View Transformer (RVT) de pointe sur RLbench dans divers contextes d'évaluation, y compris des tâches standard à longue horizon, des tâches de changement dynamique d'objectif et des tâches inédites en zéro-shot, atteignant des performances supérieures dans des environnements simulés et réels. Des vidéos et du code sont disponibles sur : https://rich-language-failure-recovery.github.io.
Les grands modèles de langage (LLM) ont montré des capacités remarquables dans divers domaines et tâches, repoussant les limites de nos connaissances en matière d'apprentissage et de cognition. Le dernier modèle, o1 d'OpenAI, se distingue en tant que premier LLM utilisant une technique de chaîne de pensée internalisée grâce à des stratégies d'apprentissage par renforcement. Bien qu'il ait démontré des capacités étonnamment solides dans diverses tâches linguistiques générales, ses performances dans des domaines spécialisés tels que la médecine restent inconnues. Ainsi, ce rapport propose une exploration approfondie de o1 dans différents scénarios médicaux, examinant 3 aspects clés : la compréhension, le raisonnement et la multilinguisme. Plus précisément, notre évaluation englobe 6 tâches utilisant des données provenant de 37 ensembles de données médicales, comprenant deux tâches de questions-réponses (QR) plus difficiles et nouvellement créées basées sur des quiz médicaux professionnels du New England Journal of Medicine (NEJM) et de The Lancet. Ces ensembles de données offrent une plus grande pertinence clinique par rapport aux référentiels de QR médicale standard tels que MedQA, se traduisant plus efficacement en utilité clinique réelle. Notre analyse de o1 suggère que la capacité de raisonnement améliorée des LLM pourrait bénéficier (significativement) de leur capacité à comprendre diverses instructions médicales et à raisonner à travers des scénarios cliniques complexes. Notamment, o1 surpasse le précédent GPT-4 en précision de 6,2 % en moyenne et de 6,6 % à travers 19 ensembles de données et deux scénarios de QR complexes nouvellement créés. Cependant, nous identifions plusieurs faiblesses tant dans la capacité du modèle que dans les protocoles d'évaluation existants, notamment l'hallucination, la capacité multilingue incohérente et les métriques divergentes pour l'évaluation. Nous mettons à disposition nos données brutes et les résultats du modèle sur https://ucsc-vlaa.github.io/o1_medicine/ pour de futures recherches.
Le succès de l'ajustement des instructions visuelles a accéléré le développement de grands modèles de langage et de vision (LLVM). Suivant les lois d'échelle des grands modèles de langage ajustés aux instructions (LLMs), les LLVM ont encore augmenté leur taille, atteignant 26 milliards, 34 milliards, voire 80 milliards de paramètres. Alors que cette augmentation de la taille du modèle a entraîné des gains de performance significatifs, elle exige beaucoup plus de ressources matérielles pour l'entraînement et l'inférence. Par conséquent, il existe naturellement un fort besoin de LLVM efficaces qui atteignent les performances de modèles plus grands tout en étant plus petits en taille. Pour répondre à ce besoin, nous présentons une nouvelle famille efficace de LLVM avec des tailles de modèle de 0,5 milliard, 1,8 milliard, 3,8 milliards et 7 milliards de paramètres, Phantom, qui améliore significativement les capacités d'apprentissage au sein de structures limitées. En augmentant temporairement la dimension cachée latente lors de l'auto-attention multi-têtes (MHSA), nous permettons aux LLVM de se préparer à explorer et comprendre beaucoup plus de connaissances vision-langage sur le latent, sans augmenter de manière substantielle les tailles de modèle physiques. Pour maximiser son avantage, nous introduisons l'Optimisation Phantom (PO) en utilisant à la fois un réglage fin supervisé autoregressif (SFT) et un concept similaire à l'optimisation des préférences directes (DPO), qui suit efficacement les réponses correctes tout en éliminant les réponses incorrectes et ambiguës. Phantom surpasse de nombreux LLVMs plus grands en open source et en source fermée, se positionnant comme une solution de premier plan dans le paysage des LLVM efficaces.
Cet article présente un assistant visuel d'image à image polyvalent, PixWizard, conçu pour la génération, la manipulation et la traduction d'images basées sur des instructions en langage naturel. À cette fin, nous abordons une variété de tâches de vision dans un cadre unifié de génération d'image-texte-à-image et créons un ensemble de données d'accord d'instructions Omni Pixel-to-Pixel. En construisant des modèles d'instructions détaillés en langage naturel, nous incluons de manière exhaustive un large ensemble de tâches de vision diverses telles que la génération texte-vers-image, la restauration d'image, l'ancrage d'image, la prédiction d'image dense, l'édition d'image, la génération contrôlable, l'inpainting/outpainting, et plus encore. De plus, nous adoptons les Transformateurs de Diffusion (DiT) comme modèle de base et étendons ses capacités avec un mécanisme de résolution flexible, permettant au modèle de traiter dynamiquement les images en fonction du rapport hauteur/largeur de l'entrée, s'alignant étroitement sur les processus perceptifs humains. Le modèle intègre également des orientations conscientes de la structure et du sens pour faciliter la fusion efficace des informations de l'image d'entrée. Nos expériences démontrent que PixWizard montre non seulement des capacités impressionnantes de génération et de compréhension pour des images de résolutions diverses, mais présente également des capacités de généralisation prometteuses avec des tâches inédites et des instructions humaines. Le code et les ressources associées sont disponibles sur https://github.com/AFeng-x/PixWizard
Les grands modèles de langage (LLMs) ont démontré un potentiel significatif dans la transformation des applications cliniques. Dans cette étude, nous examinons l'efficacité de quatre techniques pour adapter les LLMs aux cas d'utilisation clinique : le pré-entraînement continu, le fine-tuning instructif, NEFTune et l'ingénierie de consignes. Nous appliquons ces méthodes sur les modèles Mistral 7B et Mixtral 8x7B, en exploitant un ensemble de données de pré-entraînement clinique à grande échelle de 50 milliards de tokens et un ensemble de données de fine-tuning instructif de 500 millions de tokens. Notre évaluation sur diverses tâches cliniques révèle l'impact de chaque technique. Alors que le pré-entraînement continu au-delà de 250 milliards de tokens apporte des améliorations marginales par lui-même, il établit une base solide pour le fine-tuning instructif. Notamment, NEFTune, conçu principalement pour améliorer la qualité de génération, démontre de manière surprenante des gains supplémentaires sur notre référentiel. Les méthodes complexes d'ingénierie de consignes améliorent encore les performances. Ces résultats montrent l'importance d'adapter les stratégies de fine-tuning et d'explorer des techniques innovantes pour optimiser les performances des LLMs dans le domaine clinique.
Nous abordons le problème de générer des réflexions de miroir hautement réalistes et plausibles en utilisant des modèles génératifs basés sur la diffusion. Nous formulons ce problème comme une tâche de complétion d'image, permettant un contrôle accru de l'utilisateur sur le placement des miroirs pendant le processus de génération. Pour cela, nous créons SynMirror, un ensemble de données à grande échelle de scènes synthétiques diverses avec des objets placés devant des miroirs. SynMirror contient environ 198 000 échantillons rendus à partir de 66 000 objets 3D uniques, ainsi que leurs cartes de profondeur associées, cartes normales et masques de segmentation par instance, pour capturer les propriétés géométriques pertinentes de la scène. En utilisant cet ensemble de données, nous proposons une nouvelle méthode de complétion conditionnée par la profondeur appelée MirrorFusion, qui génère des réflexions de miroir géométriquement cohérentes et photoréalistes de haute qualité à partir d'une image d'entrée et d'un masque représentant la région du miroir. MirrorFusion surpasse les méthodes de pointe sur SynMirror, comme le démontrent des analyses quantitatives et qualitatives approfondies. À notre connaissance, nous sommes les premiers à aborder avec succès le problème difficile de générer des réflexions de miroir contrôlées et fidèles d'un objet dans une scène en utilisant des modèles basés sur la diffusion. SynMirror et MirrorFusion ouvrent de nouvelles perspectives pour l'édition d'images et les applications de réalité augmentée à la fois pour les praticiens et les chercheurs.
Les travaux récents en rendu inverse ont montré des promesses dans l'utilisation d'images multi-vues d'un objet pour récupérer sa forme, son albedo et ses matériaux. Cependant, les composants récupérés échouent souvent à rendre avec précision sous de nouvelles conditions d'éclairage en raison du défi intrinsèque de démêler l'albedo et les propriétés des matériaux à partir des images d'entrée. Pour relever ce défi, nous introduisons MaterialFusion, un pipeline de rendu inverse 3D amélioré qui intègre une priorité 2D sur la texture et les propriétés des matériaux. Nous présentons StableMaterial, un modèle de diffusion 2D préalable qui affine les données multi-éclairées pour estimer l'albedo et les matériaux les plus probables à partir des apparences d'entrée données. Ce modèle est entraîné sur des données d'albedo, de matériaux et d'images re-éclairées dérivées d'un ensemble de données sélectionné d'environ ~12K objets synthétiques conçus par des artistes appelé BlenderVault. Nous incorporons cette priorité de diffusion avec un cadre de rendu inverse où nous utilisons l'échantillonnage de distillation de score (SDS) pour guider l'optimisation de l'albedo et des matériaux, améliorant les performances de re-éclairage par rapport aux travaux précédents. Nous validons les performances de re-éclairage de MaterialFusion sur 4 ensembles de données d'objets synthétiques et réels sous diverses conditions d'éclairage, montrant que notre approche assistée par diffusion améliore significativement l'apparence des objets reconstruits sous de nouvelles conditions d'éclairage. Nous avons l'intention de publier publiquement notre ensemble de données BlenderVault pour soutenir davantage la recherche dans ce domaine.
La sortie de ChatGPT en novembre 2022 a suscité un engouement pour le post-entraînement et une avalanche de nouvelles méthodes d'optimisation des préférences (PO). Ces méthodes revendiquent une meilleure alignement grâce à une meilleure correspondance avec les préférences humaines par paires, souvent mesurées par des juges LLM. Dans ce travail, nous tentons de répondre à la question suivante : les préférences des juges LLM se traduisent-elles par des progrès sur d'autres métriques plus concrètes d'alignement, et si ce n'est pas le cas, pourquoi ? Nous définissons une métrique concrète pour l'alignement, et présentons SOS-Bench, le plus grand méta-benchmark LLM standardisé et reproductible à ce jour. Nous constatons que (1) les jugements LLM ne sont pas corrélés avec des mesures concrètes de sécurité, de connaissance du monde et de suivi des instructions ; (2) les juges LLM ont de puissants biais implicites, privilégiant le style à la factualité et à la sécurité ; et (3) l'étape de fine-tuning supervisée (SFT) du post-entraînement, et non l'étape PO, a le plus grand impact sur l'alignement, avec la mise à l'échelle des données et la diversité des prompts comme facteurs déterminants. Notre base de code et nos résultats complets sont disponibles sur https://github.com/penfever/sos-bench.
Dans cet article, nous présentons un module de transfert vocal (VT) à zéro-shot qui peut être intégré de manière transparente dans un système de synthèse vocale multilingue pour transférer la voix d'un individu entre différentes langues. Notre module VT proposé comprend un encodeur de locuteur qui traite la parole de référence, une couche de bottleneck et des adaptateurs résiduels, connectés aux couches de synthèse vocale existantes. Nous comparons les performances de diverses configurations de ces composants et rapportons le Score d'Opinion Moyen (MOS) et la Similarité de Locuteur entre les langues. En utilisant une seule parole de référence en anglais par locuteur, nous obtenons un score moyen de similarité de transfert vocal de 73% sur neuf langues cibles. Les caractéristiques vocales contribuent de manière significative à la construction et à la perception de l'identité individuelle. La perte de sa voix, en raison de conditions physiques ou neurologiques, peut entraîner un profond sentiment de perte, impactant l'identité fondamentale d'une personne. À titre d'étude de cas, nous démontrons que notre approche peut non seulement transférer une parole typique, mais également restaurer les voix des individus atteints de dysarthrie, même lorsque seuls des échantillons de parole atypique sont disponibles - une utilité précieuse pour ceux qui n'ont jamais eu de parole typique ou enregistré leur voix. Des échantillons audio typiques cross-lingues, ainsi que des vidéos démontrant la restauration vocale pour les locuteurs dysarthriques, sont disponibles ici (google.github.io/tacotron/publications/zero_shot_voice_transfer).
La création d'un contrôleur unique et polyvalent basé sur la physique, capable de donner vie à des personnages interactifs dans une large gamme de scénarios, représente une frontière passionnante dans l'animation de personnages. Un contrôleur idéal devrait prendre en charge diverses modalités de contrôle, telles que des keyframes cibles éparses, des instructions textuelles et des informations de scène. Alors que des travaux antérieurs ont proposé des modèles de contrôle physiquement simulés et conscients de la scène, ces systèmes se sont principalement concentrés sur le développement de contrôleurs spécialisés dans un ensemble restreint de tâches et de modalités de contrôle. Ce travail présente MaskedMimic, une approche novatrice qui formule le contrôle de personnages basé sur la physique comme un problème général d'inpainting de mouvement. Notre insight clé est de former un modèle unifié unique pour synthétiser des mouvements à partir de descriptions de mouvement partielles (masquées), telles que des keyframes masqués, des objets, des descriptions textuelles, ou toute combinaison de ceux-ci. Cela est réalisé en exploitant les données de suivi de mouvement et en concevant une méthode d'entraînement évolutive qui peut utiliser efficacement diverses descriptions de mouvement pour produire des animations cohérentes. Grâce à ce processus, notre approche apprend un contrôleur basé sur la physique qui offre une interface de contrôle intuitive sans nécessiter d'ingénierie de récompense fastidieuse pour tous les comportements d'intérêt. Le contrôleur résultant prend en charge une large gamme de modalités de contrôle et permet des transitions fluides entre des tâches disparates. En unifiant le contrôle des personnages par l'inpainting de mouvement, MaskedMimic crée des personnages virtuels polyvalents. Ces personnages peuvent s'adapter dynamiquement à des scènes complexes et composer des mouvements divers à la demande, permettant des expériences interactives et immersives plus riches.
Le diabète est une maladie chronique qui représente un fardeau important pour la santé mondiale, et l'optimisation de la gestion du diabète nécessite une collaboration entre plusieurs parties prenantes. Les grands modèles de langage (LLM) ont montré des promesses dans divers scénarios de soins de santé, mais leur efficacité dans une gamme variée de tâches liées au diabète reste à prouver. Dans cette étude, nous avons introduit un cadre pour former et valider des LLM spécifiques au diabète. Nous avons d'abord développé un pipeline complet de traitement des données comprenant la collecte, le filtrage, l'augmentation et le raffinement des données. Cette approche contribue à la création d'un ensemble de données spécifique au diabète de haute qualité, ainsi que de plusieurs référentiels d'évaluation entièrement à partir de zéro. En utilisant l'ensemble de données d'entraînement collecté, nous avons affiné une famille de LLM spécifiques au diabète qui a démontré une compétence de pointe dans la compréhension et le traitement de diverses tâches liées au diabète par rapport à d'autres LLM. De plus, des études cliniques ont montré les applications potentielles de nos modèles dans les soins du diabète, notamment en fournissant des soins de santé personnalisés, en aidant à l'éducation médicale et en rationalisant les tâches cliniques. En conclusion, notre étude a introduit un cadre pour développer et évaluer une famille de LLM spécifiques au diabète, et a souligné son potentiel pour améliorer la pratique clinique et fournir un soutien personnalisé et basé sur les données pour le diabète face à différents utilisateurs finaux. Le code est disponible sur GitHub à l'adresse https://github.com/waltonfuture/Diabetica.
Il y a un intérêt croissant à utiliser l'IA générative pour créer des espaces 3D pour les applications de Réalité Virtuelle (RV). Cependant, les modèles actuels produisent des environnements artificiels, ne parvenant pas à soutenir les tâches collaboratives qui bénéficient de l'intégration du contexte physique de l'utilisateur. Pour générer des environnements qui soutiennent la téléprésence en RV, nous présentons SpaceBlender, un nouveau processus qui utilise des techniques d'IA générative pour mélanger les environnements physiques des utilisateurs dans des espaces virtuels unifiés. Ce processus transforme des images 2D fournies par l'utilisateur en environnements 3D riches en contexte à travers un processus itératif comprenant l'estimation de la profondeur, l'alignement des maillages et l'achèvement de l'espace basé sur la diffusion guidée par des prédictions géométriques et des invitations textuelles adaptatives. Dans une étude préliminaire en intra-sujets, où 20 participants ont réalisé une tâche collaborative de diagramme d'affinité en RV en binômes, nous avons comparé SpaceBlender avec un environnement virtuel générique et un cadre de génération de scène de pointe, évaluant sa capacité à créer des espaces virtuels adaptés à la collaboration. Les participants ont apprécié la familiarité améliorée et le contexte fourni par SpaceBlender, mais ont également noté des complexités dans les environnements génératifs qui pourraient détourner l'attention de la tâche. En nous appuyant sur les retours des participants, nous proposons des pistes d'amélioration du processus et discutons de la valeur et de la conception des espaces mixtes pour différents scénarios.
Cet article présente une étude de cas sur des tâches de codage réalisées par les derniers modèles de raisonnement d'OpenAI, à savoir o1-preview et o1-mini, en comparaison avec d'autres modèles de pointe. Les modèles o1 fournissent des résultats de pointe pour WebApp1K, un banc d'essai à tâche unique. À cette fin, nous introduisons WebApp1K-Duo, un banc d'essai plus difficile doublant le nombre de tâches et de cas de test. Le nouveau banc d'essai entraîne une baisse significative des performances des modèles o1, les plaçant derrière Claude 3.5. De plus, ils échouent de manière constante lorsqu'ils sont confrontés à des cas de test atypiques mais corrects, un piège que les modèles non-rationnels évitent parfois. Nous émettons l'hypothèse que la variabilité des performances est due à la compréhension des instructions. Plus précisément, le mécanisme de raisonnement améliore les performances lorsque toutes les attentes sont capturées, tout en exacerbant les erreurs lorsque des attentes clés sont manquantes, potentiellement impactées par les longueurs d'entrée. En tant que tel, nous soutenons que le succès du codage des modèles de raisonnement dépend du modèle de base de premier ordre et de la transformation structurée de texte (SFT) pour garantir un respect méticuleux des instructions.
Les sons de la parole transmettent une grande quantité d'informations sur les scènes, entraînant une variété d'effets allant de la réverbération aux sons ambiants supplémentaires. Dans cet article, nous manipulons la parole d'entrée pour qu'elle semble avoir été enregistrée dans une scène différente, en utilisant un exemple conditionnel audio-visuel enregistré à partir de cette scène. Notre modèle apprend par auto-supervision, tirant parti du fait que la vidéo naturelle contient des événements sonores et des textures récurrents. Nous extrayons un extrait audio d'une vidéo et appliquons une amélioration de la parole. Ensuite, nous entraînons un modèle de diffusion latent pour récupérer la parole originale, en utilisant un autre extrait audio-visuel pris ailleurs dans la vidéo comme indice conditionnel. À travers ce processus, le modèle apprend à transférer les propriétés sonores de l'exemple conditionnel à la parole d'entrée. Nous montrons que notre modèle peut être entraîné avec succès en utilisant des vidéos non étiquetées dans des environnements naturels, et qu'un signal visuel supplémentaire peut améliorer ses capacités de prédiction sonore. Veuillez consulter notre page web du projet pour les résultats vidéo : https://tinglok.netlify.app/files/avsoundscape/