Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles multimodaux les plus avancés d'aujourd'hui restent propriétaires. Les modèles ouverts les plus performants reposent largement sur des données synthétiques provenant de VLM propriétaires pour obtenir de bonnes performances, en distillant efficacement ces modèles fermés en modèles ouverts. En conséquence, la communauté manque toujours de connaissances fondamentales sur la manière de construire des VLM performants à partir de zéro. Nous présentons Molmo, une nouvelle famille de VLM qui sont à la pointe de leur classe en termes d'ouverture. Notre innovation clé est un ensemble de données de légendes d'images novateur et très détaillé, collecté entièrement par des annotateurs humains à l'aide de descriptions basées sur la parole. Pour permettre une large gamme d'interactions utilisateur, nous introduisons également un mélange diversifié d'ensembles de données pour le fine-tuning qui inclut des questions-réponses en conditions réelles et des données de pointage 2D innovantes. Le succès de notre approche repose sur des choix soigneux pour les détails de l'architecture du modèle, un pipeline d'entraînement bien réglé et, surtout, la qualité de nos ensembles de données nouvellement collectés, qui seront tous publiés. Le modèle 72B de pointe au sein de la famille Molmo surpasse non seulement les autres dans la classe des modèles ouverts en termes de poids et de données, mais se compare également favorablement aux systèmes propriétaires tels que GPT-4o, Claude 3.5 et Gemini 1.5 à la fois sur des benchmarks académiques et des évaluations humaines. Nous publierons bientôt tous nos poids de modèle, nos données de légendage et de fine-tuning, ainsi que notre code source. Certains poids de modèle, du code d'inférence et une démo sont disponibles sur https://molmo.allenai.org.
La préformation de grands modèles de langage s'est traditionnellement appuyée sur des experts humains pour élaborer des heuristiques visant à améliorer la qualité des corpus, ce qui a conduit au développement de nombreuses règles à ce jour. Cependant, ces règles manquent de flexibilité pour traiter efficacement les caractéristiques uniques de chaque exemple. Parallèlement, l'application de règles personnalisées à chaque exemple est impraticable pour les experts humains. Dans cet article, nous démontrons que même de petits modèles de langage, avec aussi peu que 0,3 milliard de paramètres, peuvent présenter des capacités substantielles de raffinement des données comparables à celles des experts humains. Nous introduisons Programming Every Example (ProX), un nouveau cadre qui considère le raffinement des données comme une tâche de programmation, permettant aux modèles d'affiner les corpus en générant et en exécutant des opérations fines, telles que la normalisation de chaînes, pour chaque exemple individuel à grande échelle. Les résultats expérimentaux montrent que les modèles pré-entraînés sur des données ProX surclassent les données originales ou les données filtrées par d'autres méthodes de sélection de plus de 2% sur diverses évaluations ultérieures. Son efficacité s'étend à diverses tailles de modèles et corpus de préformation, y compris C4, RedPajama-V2 et FineWeb. De plus, ProX présente un potentiel significatif dans la préformation continue spécifique au domaine : sans conception spécifique au domaine, les modèles entraînés sur OpenWebMath affinés par ProX surpassent les méthodes basées sur des règles élaborées par des humains, améliorant la précision moyenne de 7,6% par rapport à Mistral-7B, de 14,6% pour Llama-2-7B et de 20,3% pour CodeLlama-7B, le tout dans le cadre de 10 milliards de jetons pour être comparables à des modèles comme Llemma-7B entraînés sur 200 milliards de jetons. Une analyse plus approfondie met en évidence que ProX permet d'économiser de manière significative les FLOPs d'entraînement, offrant ainsi une voie prometteuse pour une préformation efficace des LLM. Nous mettons ProX en open source avec un corpus de plus de 100 milliards, des modèles, et partageons tous les détails de l'entraînement et de l'implémentation pour une recherche reproductible et une future innovation. Code : https://github.com/GAIR-NLP/ProX
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en traitement du langage naturel, et pourtant, leurs inexactitudes factuelles et leurs hallucinations limitent leur application, notamment dans des domaines critiques tels que la santé. Les méthodes de récupération de contexte, en introduisant des informations pertinentes en tant qu'entrée, se sont imposées comme une approche cruciale pour améliorer la fiabilité et la véracité des LLM. Cette étude explore les limites des méthodes de récupération de contexte dans le domaine de la santé, en optimisant leurs composants et en évaluant leurs performances par rapport à des alternatives ouvertes et fermées. Nos résultats révèlent comment les LLM ouverts, lorsqu'ils sont augmentés d'un système de récupération optimisé, peuvent atteindre des performances comparables aux plus grandes solutions privées sur des références établies en santé (réponses à des questions à choix multiples). Reconnaissant le manque de réalisme d'inclure les réponses possibles dans la question (une configuration uniquement présente dans les examens médicaux), et après avoir constaté une forte dégradation des performances des LLM en l'absence de ces options, nous étendons le système de récupération de contexte dans cette direction. En particulier, nous proposons OpenMedPrompt, un pipeline qui améliore la génération de réponses ouvertes plus fiables, rapprochant ainsi cette technologie d'une application pratique.
En exploitant des modèles de diffusion 2D pré-entraînés et l'échantillonnage de distillation de score (SDS), des méthodes récentes ont montré des résultats prometteurs pour la génération d'avatars 3D à partir de texte. Cependant, générer des avatars 3D de haute qualité capables d'animation expressive reste un défi. Dans ce travail, nous présentons DreamWaltz-G, un nouveau cadre d'apprentissage pour la génération d'avatars 3D animables à partir de texte. Le cœur de ce cadre réside dans la distillation de score guidée par un squelette et la représentation hybride d'avatars 3D gaussiens. Plus précisément, la distillation de score guidée par un squelette proposée intègre des contrôles de squelette à partir de modèles humains 3D dans des modèles de diffusion 2D, améliorant la cohérence de la supervision SDS en termes de vue et de posture humaine. Cela facilite la génération d'avatars de haute qualité, atténuant les problèmes tels que les visages multiples, les membres supplémentaires et le flou. La représentation hybride d'avatar 3D gaussien proposée s'appuie sur des gaussiennes 3D efficaces, combinant des champs implicites neuronaux et des maillages 3D paramétrés pour permettre un rendu en temps réel, une optimisation SDS stable et une animation expressive. Des expériences approfondies démontrent que DreamWaltz-G est très efficace pour générer et animer des avatars 3D, surpassant les méthodes existantes à la fois en termes de qualité visuelle et d'expressivité de l'animation. Notre cadre prend en charge diverses applications, y compris la réinterprétation vidéo humaine et la composition de scènes multi-sujets.
Les récents développements en rendu différentiable et rendu neuronal ont permis des avancées impressionnantes dans diverses tâches en 2D et 3D, telles que la synthèse de nouvelles vues et la reconstruction 3D. En général, le rendu différentiable repose sur une couverture dense des points de vue de la scène, de sorte que la géométrie puisse être distinguée uniquement à partir des observations d'apparence. Plusieurs défis surviennent lorsque seules quelques vues d'entrée sont disponibles, souvent désignées sous le terme de rendu neuronal clairsemé ou à faible nombre d'exemples. Comme il s'agit d'un problème sous-contraint, la plupart des approches existantes introduisent l'utilisation de régularisation, associée à une diversité de connaissances a priori apprises ou conçues manuellement. Un problème récurrent dans la littérature sur le rendu clairsemé est le manque d'un ensemble de données homogène et à jour, ainsi que d'un protocole d'évaluation. Alors que les ensembles de données haute résolution sont courants dans la littérature sur la reconstruction dense, les méthodes de rendu clairsemé évaluent souvent avec des images de basse résolution. De plus, les répartitions des données sont incohérentes entre les différents manuscrits, et les images de test véritables sont souvent disponibles publiquement, ce qui peut conduire à un surajustement. Dans ce travail, nous proposons l'ensemble de données et le banc d'essai Sparse Rendering (SpaRe). Nous introduisons un nouvel ensemble de données qui suit la configuration de l'ensemble de données DTU MVS. L'ensemble de données est composé de 97 nouvelles scènes basées sur des ressources synthétiques de haute qualité. Chaque scène comporte jusqu'à 64 points de vue de caméra et 7 configurations d'éclairage, rendus en résolution 1600x1200. Nous mettons à disposition un ensemble d'entraînement de 82 scènes pour favoriser des approches généralisables, et proposons une plateforme d'évaluation en ligne pour les ensembles de validation et de test, dont les images véritables restent cachées. Nous proposons deux configurations clairsemées différentes (respectivement 3 et 9 images d'entrée). Cela fournit un outil puissant et pratique pour une évaluation reproductible, et permet aux chercheurs d'accéder facilement à un classement public avec les scores de performance de pointe. Disponible sur : https://sparebenchmark.github.io/
Les méthodes de super-résolution d'images basées sur la diffusion ont connu un succès remarquable en exploitant de grands modèles de diffusion pré-entraînés texte-image comme des préférences. Cependant, ces méthodes sont confrontées à deux défis : l'exigence de dizaines d'étapes d'échantillonnage pour obtenir des résultats satisfaisants, ce qui limite l'efficacité dans des scénarios réels, et la négligence des modèles de dégradation, qui sont des informations auxiliaires cruciales pour résoudre le problème de super-résolution. Dans ce travail, nous avons introduit un nouveau modèle de super-résolution en une étape, qui aborde significativement le problème d'efficacité des méthodes de super-résolution basées sur la diffusion. Contrairement aux stratégies de fine-tuning existantes, nous avons conçu un module d'Adaptation à Faible Rang (LoRA) guidé par la dégradation spécifiquement pour la super-résolution, qui corrige les paramètres du modèle en se basant sur les informations de dégradation pré-estimées à partir des images à basse résolution. Ce module facilite non seulement un modèle de super-résolution puissant dépendant des données ou de la dégradation, mais préserve également autant que possible la préférence générative du modèle de diffusion pré-entraîné. De plus, nous avons adapté un nouveau pipeline d'entraînement en introduisant une stratégie de génération d'échantillons négatifs en ligne. Associée à la stratégie de guidage sans classifieur lors de l'inférence, elle améliore largement la qualité perceptuelle des résultats de super-résolution. Des expériences approfondies ont démontré l'efficacité et l'efficacité supérieures du modèle proposé par rapport aux méthodes récentes de pointe.
Nous présentons une approche novatrice pour synthétiser des mouvements habiles pour des mains simulées physiquement dans des tâches nécessitant une coordination entre le contrôle de deux mains avec une haute précision temporelle. Au lieu d'apprendre directement une politique conjointe pour contrôler les deux mains, notre approche effectue un contrôle bimanuel à travers un apprentissage coopératif où chaque main est traitée comme un agent individuel. Les politiques individuelles pour chaque main sont d'abord entraînées séparément, puis synchronisées à travers une manipulation de l'espace latent dans un environnement centralisé pour servir de politique conjointe pour le contrôle des deux mains. En agissant ainsi, nous évitons d'effectuer directement l'apprentissage de politique dans l'espace état-action conjoint des deux mains avec des dimensions plus élevées, améliorant considérablement l'efficacité globale de l'entraînement. Nous démontrons l'efficacité de notre approche proposée dans la tâche exigeante de jouer de la guitare. Le guitariste virtuel formé par notre approche peut synthétiser des mouvements à partir de données de référence non structurées de mouvements de pratique générale de jeu de guitare, et jouer avec précision des rythmes divers avec des motifs complexes de pression d'accord et de pincement de corde basés sur les tablatures de guitare en entrée qui n'existent pas dans les références. Avec cet article, nous fournissons les données de capture de mouvement que nous avons collectées comme référence pour l'entraînement de la politique. Le code est disponible sur : https://pei-xu.github.io/guitar.
Les grands modèles de langage (LLM) ont révolutionné le génie logiciel (SE), démontrant des capacités remarquables dans diverses tâches de codage. Alors que des efforts récents ont donné lieu à des agents logiciels autonomes basés sur les LLM pour des tâches de développement de bout en bout, ces systèmes sont généralement conçus pour des tâches SE spécifiques. Nous présentons HyperAgent, un nouveau système multi-agent généraliste conçu pour aborder un large spectre de tâches SE dans différentes langues de programmation en imitant les flux de travail des développeurs humains. Composé de quatre agents spécialisés - Planificateur, Navigateur, Éditeur de code et Exécuteur - HyperAgent gère le cycle de vie complet des tâches SE, de la conception initiale à la vérification finale. À travers des évaluations approfondies, HyperAgent atteint des performances de pointe dans diverses tâches SE : il obtient un taux de réussite de 25,01 % sur SWE-Bench-Lite et de 31,40 % sur SWE-Bench-Verified pour la résolution des problèmes GitHub, dépassant les méthodes existantes. De plus, HyperAgent démontre des performances de pointe dans la génération de code au niveau du référentiel (RepoExec), ainsi que dans la localisation des défauts et la réparation de programmes (Defects4J), surpassant souvent les systèmes spécialisés. Ce travail représente une avancée significative vers des agents autonomes polyvalents capables de gérer des tâches SE complexes et multi-étapes dans divers domaines et langues, transformant potentiellement les pratiques de développement logiciel assisté par l'IA.
La vidéo est devenue une forme de média populaire pour le partage et la consommation d'informations. Cependant, prendre des notes tout en regardant une vidéo nécessite un temps et un effort considérables. Pour remédier à cela, nous proposons un nouveau système interactif, NoTeeline, pour prendre des notes en temps réel et personnalisées. NoTeeline permet aux utilisateurs de noter rapidement des points clés (micronotes), qui sont automatiquement développés en notes complètes qui capturent le contenu des micronotes de l'utilisateur et sont cohérents avec le style d'écriture de l'utilisateur. Dans une étude en intra-sujets (N=12), nous avons constaté que NoTeeline aide les utilisateurs à créer des notes de haute qualité qui capturent l'essence de leurs micronotes avec une plus grande exactitude factuelle (93,2 %) tout en reflétant précisément leur style d'écriture. L'utilisation de NoTeeline a entraîné une réduction significative de l'effort mental pour les participants, qui ont obtenu des notes satisfaisantes tout en écrivant 47 % de texte en moins, et ont terminé la prise de notes 43,9 % plus rapidement par rapport à une prise de notes manuelle de référence.
La technologie de géolocalisation basée sur la vision pour les UAV, servant de source secondaire d'informations GPS en plus des systèmes mondiaux de navigation par satellite (GNSS), peut encore fonctionner de manière indépendante dans un environnement sans GPS. Les méthodes récentes basées sur l'apprentissage profond attribuent cette tâche à la correspondance et à la recherche d'images. En récupérant des images de vue de drone dans une base de données d'images satellites géo-étiquetées, des informations de localisation approximatives peuvent être obtenues. Cependant, en raison des coûts élevés et des préoccupations en matière de confidentialité, il est généralement difficile d'obtenir de grandes quantités d'images de vue de drone d'une zone continue. Les ensembles de données de vue de drone existants sont principalement composés de photographies aériennes à petite échelle avec une forte hypothèse selon laquelle il existe une image de référence parfaitement alignée pour toute requête, laissant un écart significatif par rapport au scénario de localisation pratique. Dans ce travail, nous construisons un ensemble de données de géolocalisation UAV à grande portée et contiguë nommé GTA-UAV, présentant plusieurs altitudes de vol, attitudes, scènes et cibles en utilisant des jeux vidéo modernes. Sur la base de cet ensemble de données, nous introduisons une tâche de géolocalisation UAV plus pratique comprenant des correspondances partielles de données appariées entre vues croisées, et étendons la recherche au niveau de l'image à la localisation réelle en termes de distance (mètres). Pour la construction de paires de vues de drone et de vues satellites, nous adoptons une approche d'apprentissage contrastif basé sur le poids, qui permet un apprentissage efficace tout en évitant des étapes supplémentaires de correspondance post-traitement. Les expériences démontrent l'efficacité de nos données et de notre méthode d'entraînement pour la géolocalisation UAV, ainsi que les capacités de généralisation aux scénarios du monde réel.
Nous introduisons un nouveau cadre qui apprend un champ de radiance neurale dynamique (NeRF) pour des humains parlants en entier à partir de vidéos monoculaires. Les travaux antérieurs ne représentent que la posture du corps ou le visage. Cependant, les humains communiquent avec tout leur corps, combinant la posture du corps, les gestes des mains, ainsi que les expressions faciales. Dans ce travail, nous proposons TalkinNeRF, un réseau unifié basé sur NeRF qui représente le mouvement humain 4D holistique. Étant donné une vidéo monoculaire d'un sujet, nous apprenons des modules correspondants pour le corps, le visage et les mains, qui sont combinés pour générer le résultat final. Pour capturer l'articulation complexe des doigts, nous apprenons un champ de déformation supplémentaire pour les mains. Notre représentation multi-identités permet un entraînement simultané pour plusieurs sujets, ainsi qu'une animation robuste sous des postures complètement inédites. Elle peut également se généraliser à de nouvelles identités, en ne recevant qu'une courte vidéo en entrée. Nous démontrons des performances de pointe pour l'animation d'humains parlants en entier, avec une articulation fine des mains et des expressions faciales.
Nous présentons une approche simple et auto-supervisée pour résoudre le problème du suivi de n'importe quel point (TAP). Nous entraînons un transformateur de correspondance globale à trouver des pistes cohérentes à travers une vidéo en utilisant des marches aléatoires contrastives, en se basant sur la correspondance globale du transformateur pour définir les matrices de transition pour une marche aléatoire sur un graphe espace-temps. La capacité à effectuer des comparaisons "toutes paires" entre les points permet au modèle d'obtenir une haute précision spatiale et un fort signal d'apprentissage contrastif, tout en évitant bon nombre des complexités des approches récentes (telles que la correspondance grossière à fine). Pour ce faire, nous proposons un certain nombre de décisions de conception qui permettent aux architectures de correspondance globale d'être entraînées par auto-supervision en utilisant la cohérence cyclique. Par exemple, nous identifions que les méthodes basées sur les transformateurs sont sensibles aux solutions de raccourci, et proposons un schéma d'augmentation des données pour y remédier. Notre méthode atteint de solides performances sur les benchmarks TapVid, surpassant les méthodes de suivi auto-supervisées précédentes, telles que DIFT, et est compétitive avec plusieurs méthodes supervisées.