Articles de recherche en IA sélectionnés quotidiennement avec traductions
La Vision par Ordinateur (Computer Vision - CV) n'a pas encore pleinement atteint la généralisation des tâches sans entraînement observée dans le Traitement du Langage Naturel (Natural Language Processing - NLP), malgré le suivi de nombreuses étapes établies dans le NLP, telles que les grands modèles de transformer, l'entraînement préalable approfondi et le paradigme d'auto-régression, entre autres. Dans cet article, nous explorons l'idée selon laquelle la CV adopte des définitions de tâches discrètes et terminologiques (par exemple, "segmentation d'image"), qui pourraient constituer un obstacle clé à la généralisation des tâches sans entraînement. Notre hypothèse est que sans une véritable compréhension des tâches précédemment rencontrées - en raison de ces définitions terminologiques - les modèles profonds ont du mal à généraliser à de nouvelles tâches. Pour vérifier cela, nous introduisons des Instructions Explicatives, qui fournissent une manière intuitive de définir les objectifs des tâches de CV à travers des transformations linguistiques détaillées des images d'entrée vers les sorties. Nous créons un ensemble de données à grande échelle comprenant 12 millions de triplets "entrée d'image vers instruction explicative vers sortie", et entraînons un modèle vision-langage basé sur l'auto-régression (AR-based VLM) qui prend à la fois les images et les instructions explicatives en entrée. En apprenant à suivre ces instructions, l'AR-based VLM atteint des capacités de généralisation sans entraînement au niveau de l'instruction pour les tâches précédemment rencontrées et démontre une forte généralisation sans entraînement pour les tâches de CV non vues. Le code et l'ensemble de données seront disponibles publiquement sur notre dépôt GitHub.
Les grands modèles de langage multimodaux (MLLM) détiennent un potentiel significatif dans le domaine médical, mais leurs capacités sont souvent limitées par un manque de données dans certains domaines médicaux, soulignant ainsi la nécessité de comprendre quels types d'images peuvent être utilisés par les MLLM pour la généralisation. Les recherches actuelles suggèrent que l'entraînement multi-tâches surpasse l'entraînement mono-tâche car différentes tâches peuvent se bénéficier mutuellement, mais elles négligent souvent les relations internes au sein de ces tâches, offrant ainsi des orientations limitées sur la sélection des ensembles de données pour améliorer des tâches spécifiques. Pour analyser ce phénomène, nous avons tenté d'utiliser la généralisation compositionnelle (CG) - la capacité des modèles à comprendre des combinaisons nouvelles en recombinant des éléments appris - comme cadre directeur. Étant donné que les images médicales peuvent être précisément définies par la Modalité, la Région anatomique et la Tâche, offrant naturellement un environnement pour explorer la CG. Par conséquent, nous avons assemblé 106 ensembles de données médicales pour créer Med-MAT pour des expérimentations complètes. Les expériences ont confirmé que les MLLM peuvent utiliser la CG pour comprendre des images médicales inédites et ont identifié la CG comme l'un des principaux moteurs de la généralisation observée dans l'entraînement multi-tâches. De plus, des études supplémentaires ont démontré que la CG soutient efficacement les ensembles de données avec des données limitées et offre des performances cohérentes sur différentes architectures, soulignant ainsi sa polyvalence et sa large applicabilité. Med-MAT est publiquement disponible sur https://github.com/FreedomIntelligence/Med-MAT.
La performance remarquable des modèles tels que l'OpenAI o1 peut être attribuée à leur capacité à émuler une réflexion à long terme semblable à celle des humains lors de l'inférence. Ces modèles utilisent des processus de chaîne de pensée étendue (CoT), explorant plusieurs stratégies pour améliorer les capacités de résolution de problèmes. Cependant, une question cruciale demeure : comment mettre à l'échelle de manière intelligente et efficace les ressources computationnelles lors des tests. Cet article présente la première étude complète sur le problème prévalent de la surréflexion dans ces modèles, où des ressources computationnelles excessives sont allouées pour des problèmes simples avec un bénéfice minimal. Nous introduisons de nouvelles mesures d'efficacité des deux perspectives, résultat et processus, pour évaluer l'utilisation rationnelle des ressources computationnelles par des modèles similaires à o1. En utilisant un paradigme d'auto-apprentissage, nous proposons des stratégies pour atténuer la surréflexion, rationalisant les processus de raisonnement sans compromettre la précision. Les résultats expérimentaux montrent que notre approche réduit avec succès la surcharge computationnelle tout en préservant la performance du modèle sur une gamme de jeux de tests avec des niveaux de difficulté variables, tels que GSM8K, MATH500, GPQA et AIME.
Les récents progrès en modélisation générative permettent désormais la création de contenu 4D (objets 3D en mouvement) contrôlé par des instructions textuelles. La génération 4D présente un grand potentiel dans des applications telles que les mondes virtuels, les médias et les jeux, mais les méthodes existantes offrent un contrôle limité sur l'apparence et la géométrie du contenu généré. Dans ce travail, nous introduisons une méthode pour animer des objets 3D fournis par l'utilisateur en conditionnant sur des instructions textuelles pour guider la génération 4D, permettant des animations personnalisées tout en préservant l'identité de l'objet d'origine. Nous convertissons d'abord un maillage 3D en un champ de radiance neurale 4D "statique" (NeRF) qui préserve les attributs visuels de l'objet d'entrée. Ensuite, nous animons l'objet en utilisant un modèle de diffusion d'image-vidéo piloté par du texte. Pour améliorer le réalisme du mouvement, nous introduisons un protocole incrémental de sélection de points de vue pour échantillonner des perspectives afin de favoriser un mouvement réaliste et une perte de distillation de score masquée (SDS), qui exploite des cartes d'attention pour concentrer l'optimisation sur les régions pertinentes. Nous évaluons notre modèle en termes de cohérence temporelle, d'adhérence aux instructions et de fidélité visuelle et constatons que notre méthode surpasse les références basées sur d'autres approches, atteignant jusqu'à trois fois d'améliorations dans la préservation de l'identité mesurée à l'aide des scores LPIPS, et équilibrant efficacement la qualité visuelle avec le contenu dynamique.
La rapide évolution des grands modèles de langage (GML) a débloqué leurs capacités dans des tâches de raisonnement avancées telles que la résolution de problèmes mathématiques, la génération de code et l'analyse juridique. Au cœur de ce progrès se trouvent les algorithmes de raisonnement en temps d'inférence, qui affinent les sorties en explorant plusieurs chemins de solution, au prix d'une augmentation des demandes de calcul et des latences de réponse. Les systèmes de service existants échouent à s'adapter aux comportements d'échelle de ces algorithmes ou à la difficulté variable des requêtes, ce qui entraîne une utilisation inefficace des ressources et des objectifs de latence non atteints. Nous présentons Dynasor, un système qui optimise le calcul en temps d'inférence pour les requêtes de raisonnement des GML. Contrairement aux moteurs traditionnels, Dynasor suit et planifie les requêtes au sein des requêtes de raisonnement et utilise Certaindex, un proxy qui mesure les progrès du raisonnement statistique basé sur la certitude du modèle, pour guider dynamiquement l'allocation de calcul. Dynasor co-adapte la planification avec les progrès du raisonnement : il alloue plus de calcul aux requêtes difficiles, réduit le calcul pour les plus simples, et met fin prématurément aux requêtes peu prometteuses, équilibrant précision, latence et coût. Sur des ensembles de données et des algorithmes divers, Dynasor réduit le calcul jusqu'à 50 % en traitement par lots et maintient des taux de requêtes 3,3 fois plus élevés ou des objectifs de latence 4,7 fois plus serrés en service en ligne.
Nous présentons SWE-Gym, le premier environnement pour l'entraînement d'agents d'ingénierie logicielle (SWE) du monde réel. SWE-Gym contient 2 438 instances de tâches Python du monde réel, chacune comprenant une base de code avec un environnement d'exécution exécutable, des tests unitaires et une tâche spécifiée en langage naturel. Nous utilisons SWE-Gym pour entraîner des agents SWE basés sur des modèles de langage, obtenant jusqu'à 19% de gains absolus dans le taux de résolution sur les ensembles de tests populaires SWE-Bench Verified et Lite. Nous expérimentons également avec la mise à l'échelle au moment de l'inférence à travers des vérificateurs entraînés sur les trajectoires des agents échantillonnées à partir de SWE-Gym. Lorsqu'ils sont combinés avec nos agents SWE affinés, nous atteignons 32,0% et 26,0% sur SWE-Bench Verified et Lite, respectivement, reflétant un nouvel état de l'art pour les agents SWE à poids ouvert. Pour faciliter davantage la recherche, nous publions publiquement SWE-Gym, les modèles et les trajectoires des agents.
Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficace avec 515 millions de paramètres, capable de générer jusqu'à 30 secondes de son à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Un défi clé dans l'alignement des modèles TTA réside dans la difficulté de créer des paires de préférences, car le TTA ne dispose pas de mécanismes structurés tels que des récompenses vérifiables ou des réponses de référence disponibles pour les Grands Modèles de Langage (LLM). Pour y remédier, nous proposons l'Optimisation de Préférence Classée par CLAP (CRPO), un cadre novateur qui génère et optimise de manière itérative des données de préférence pour améliorer l'alignement du TTA. Nous démontrons que l'ensemble de données de préférences audio généré à l'aide de CRPO surpasse les alternatives existantes. Avec ce cadre, TangoFlux atteint des performances de pointe à la fois sur des critères objectifs et subjectifs. Nous mettons tout le code et les modèles en open source pour soutenir de futures recherches dans la génération TTA.
En tant que besoin vérifié, l'édition cohérente à travers des images prises dans la nature reste un défi technique découlant de divers facteurs ingérables, tels que les poses d'objets, les conditions d'éclairage et les environnements de photographie. Edicho intervient avec une solution sans entraînement basée sur des modèles de diffusion, mettant en avant un principe de conception fondamental utilisant une correspondance d'image explicite pour orienter l'édition. Plus précisément, les composants clés comprennent un module de manipulation de l'attention et une stratégie de débruitage sans classificateur (CFG) soigneusement affinée, tous deux prenant en compte la correspondance pré-estimée. Un tel algorithme à l'heure de l'inférence bénéficie d'une nature plug-and-play et est compatible avec la plupart des méthodes d'édition basées sur la diffusion, telles que ControlNet et BrushNet. Des résultats approfondis démontrent l'efficacité d'Edicho dans l'édition cohérente entre images dans des paramètres divers. Nous publierons le code pour faciliter les études futures.
Nous présentons PERSE, une méthode pour construire un avatar génératif personnalisé et animable à partir d'un portrait de référence. Notre modèle d'avatar permet la modification des attributs faciaux dans un espace latent continu et désentrelacé pour contrôler chaque attribut facial, tout en préservant l'identité de l'individu. Pour ce faire, notre méthode commence par la synthèse de vastes ensembles de données vidéo 2D synthétiques, où chaque vidéo contient des changements cohérents dans l'expression faciale et le point de vue, combinés à une variation d'un attribut facial spécifique de l'entrée d'origine. Nous proposons un nouveau processus pour produire des vidéos 2D photoréalistes de haute qualité avec modification des attributs faciaux. En exploitant cet ensemble de données d'attributs synthétiques, nous présentons une méthode de création d'avatar personnalisé basée sur le Gaussian Splatting en 3D, apprenant un espace latent continu et désentrelacé pour une manipulation intuitive des attributs faciaux. Pour garantir des transitions fluides dans cet espace latent, nous introduisons une technique de régularisation de l'espace latent en utilisant des visages 2D interpolés comme supervision. Comparé aux approches précédentes, nous démontrons que PERSE génère des avatars de haute qualité avec des attributs interpolés tout en préservant l'identité de la personne de référence.
Les avancées rapides des technologies de grands modèles de langage (GML) ont conduit à l'introduction de puissants GML open-source ajustés aux instructions qui présentent la même qualité de génération de texte que les modèles de pointe tels que GPT-4. Alors que l'émergence de tels modèles accélère l'adoption des technologies de GML dans des environnements d'informations sensibles, les auteurs de ces modèles ne divulguent pas les données d'entraînement nécessaires pour la reproduction des résultats, rendant ainsi les réalisations exclusives au modèle. Étant donné que ces modèles open-source sont également multilingues, cela réduit à son tour les avantages de l'entraînement de GML spécifiques à une langue, car une efficacité améliorée de calcul d'inférence devient le seul avantage garanti de cette procédure coûteuse. Des options plus rentables telles que l'extension du vocabulaire et la poursuite ultérieure de la pré-formation sont également entravées par le manque d'accès à des données d'ajustement d'instructions de haute qualité, car c'est le principal facteur derrière les capacités de résolution de tâches des GML résultants. Pour remédier aux limitations et réduire les coûts du pipeline d'adaptation linguistique, nous proposons la Propagation d'Incorporation Apprise (LEP). Contrairement aux approches existantes, notre méthode nécessite une taille de données d'entraînement plus faible en raison de l'impact minimal sur les connaissances existantes des GML, que nous renforçons à l'aide d'une procédure novatrice de propagation d'incorporation ad hoc qui permet de sauter l'étape d'ajustement des instructions et d'implanter directement les nouvelles connaissances linguistiques dans n'importe quelle variante ajustée aux instructions existante. Nous avons évalué quatre adaptations de vocabulaire russe pour LLaMa-3-8B et Mistral-7B, montrant que LEP est compétitif avec les méthodes d'ajustement d'instructions traditionnelles, atteignant des performances comparables à OpenChat 3.5 et LLaMa-3-8B-Instruct, avec des améliorations supplémentaires via l'auto-étalonnage et le réglage continu améliorant les capacités de résolution de tâches.
Nous présentons OneKE, un système d'extraction de connaissances guidé par schéma dockerisé, capable d'extraire des connaissances du Web et de livres PDF bruts, et prenant en charge divers domaines (science, actualités, etc.). Plus précisément, nous concevons OneKE avec plusieurs agents et une base de connaissances configurée. Différents agents remplissent leurs rôles respectifs, permettant de prendre en charge divers scénarios d'extraction. La base de connaissances configurée facilite la configuration du schéma, le débogage des cas d'erreur et la correction, améliorant ainsi les performances. Des évaluations empiriques sur des ensembles de données de référence démontrent l'efficacité de OneKE, tandis que des études de cas éclairent davantage son adaptabilité à diverses tâches dans de multiples domaines, soulignant son potentiel pour des applications étendues. Nous avons rendu le code source disponible sur https://github.com/zjunlp/OneKE et publié une vidéo sur http://oneke.openkg.cn/demo.mp4.
Récemment, "visual o1" a commencé à entrer dans le champ de vision des gens, avec l'espoir que cette conception de pensée lente puisse résoudre des tâches de raisonnement visuel, en particulier des problèmes de mathématiques géométriques. Cependant, la réalité est que les LVLM actuels (Large Vision Language Models) ont du mal à reproduire avec précision une figure géométrique, sans même parler de comprendre véritablement la logique complexe inhérente et les relations spatiales au sein des formes géométriques. Nous pensons que la reproduction précise (perception forte) est la première étape de visual o1. En conséquence, nous introduisons le concept de "perception lente" (SP), qui guide le modèle pour percevoir progressivement les combinaisons de points-lignes de base, tout comme nos humains reconstruisent progressivement des structures géométriques complexes. Il y a deux étapes dans SP : a) décomposition de la perception. La perception n'est pas instantanée. À cette étape, les figures géométriques complexes sont décomposées en unités simples de base pour uniformiser la représentation géométrique. b) flux de perception, qui reconnaît que retracer précisément une ligne n'est pas une tâche facile. Cette étape vise à éviter les "longs sauts visuels" en régressant les segments de ligne en utilisant une "règle perceptuelle" proposée pour tracer chaque ligne trait par trait. De manière surprenante, une telle manière de perception semblable à celle des humains bénéficie d'une loi d'échelle du temps d'inférence - plus c'est lent, mieux c'est. Les chercheurs ont cherché à accélérer la perception du modèle par le passé, mais nous la ralentissons à nouveau, permettant ainsi au modèle de lire l'image étape par étape et avec soin.
Nous introduisons la génération de code auto-invoquant, une nouvelle tâche conçue pour évaluer les capacités progressives de raisonnement et de résolution de problèmes des LLM. Dans cette tâche, les modèles se voient présenter un problème de base et un problème plus complexe associé. Ils doivent résoudre le problème de base puis utiliser sa solution pour aborder le problème plus complexe. Ce travail présente trois contributions clés. Tout d'abord, nous proposons une recette générale pour générer des versions plus difficiles des benchmarks existants, ce qui a abouti à trois nouveaux benchmarks : HumanEval Pro, MBPP Pro et BigCodeBench-Lite Pro, spécifiquement conçus pour évaluer les LLMs sur la génération de code auto-invoquant. Deuxièmement, à partir de l'analyse des résultats expérimentaux sur vingt LLMs sur nos benchmarks, nous avons deux observations importantes : (i) La plupart des LLMs excellent dans les benchmarks traditionnels de génération de code comme HumanEval et MBPP, mais leurs performances diminuent sur les tâches d'auto-invoquation. Par exemple, o1-mini atteint 96,2 % de réussite@1 sur HumanEval mais seulement 76,2 % sur HumanEval Pro. (ii) Sur la tâche de génération de code auto-invoquant, les modèles ajustés aux instructions ne montrent que des améliorations marginales par rapport aux modèles de base. Troisièmement, nous révélons les types de modes de défaillance présents dans nos résultats d'évaluation. Tous ces résultats soulignent la nécessité de progrès supplémentaires dans les tâches de génération de code auto-invoquant et ouvrent une nouvelle voie pour la recherche future sur l'amélioration des capacités de raisonnement en code des LLMs.