Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'Apprentissage par Renforcement (RL) formule mathématiquement la prise de décision avec le Processus de Décision Markovien (MDP). Avec les MDP, les chercheurs ont réalisé des percées remarquables dans divers domaines, y compris les jeux, la robotique et les modèles de langage. Cet article explore une nouvelle possibilité, l'Apprentissage par Renforcement en Langage Naturel (NLRL), en étendant le MDP traditionnel à un espace de représentation basé sur le langage naturel. Plus précisément, le NLRL redéfinit de manière innovante les principes de l'RL, y compris les objectifs de la tâche, la politique, la fonction de valeur, l'équation de Bellman et l'itération de politique, en leurs équivalents linguistiques. Avec les récents progrès des grands modèles de langage (LLMs), le NLRL peut être mis en œuvre de manière pratique pour atteindre une amélioration de la politique et de la valeur à la manière de l'RL, soit par simple incitation, soit par un entraînement basé sur les gradients. Des expériences menées sur des jeux de labyrinthe, de Breakthrough et de Morpion démontrent l'efficacité, l'efficience et l'interprétabilité du cadre NLRL parmi divers cas d'utilisation. Notre code sera publié sur https://github.com/waterhorse1/Apprentissage-par-Renforcement-en-Langage-Naturel.
Les modèles de langage multimodaux larges open-source (MLLMs) existants suivent généralement un processus d'entraînement impliquant la pré-formation et le fine-tuning supervisé. Cependant, ces modèles souffrent de décalages de distribution, ce qui limite leur raisonnement multimodal, en particulier dans les performances de Chaîne de Pensée (CoT). Pour remédier à cela, nous introduisons un processus d'optimisation de préférences (PO) pour améliorer les capacités de raisonnement multimodal des MLLMs. Plus précisément, (1) du côté des données, nous concevons un pipeline de construction de données de préférences automatisé pour créer MMPR, un ensemble de données de préférences de raisonnement multimodal de haute qualité et à grande échelle, et (2) du côté du modèle, nous explorons l'intégration de PO avec les MLLMs, en développant une méthode simple mais efficace, appelée Optimisation de Préférences Mixtes (MPO), qui améliore les performances multimodales de CoT. Notre approche démontre des performances améliorées sur plusieurs benchmarks, en particulier dans les tâches de raisonnement multimodal. Notamment, notre modèle, InternVL2-8B-MPO, atteint une précision de 67,0 sur MathVista, surpassant InternVL2-8B de 8,7 points et atteignant des performances comparables à celles d'InternVL2-76B, qui est 10 fois plus grand. Nous espérons que cette étude pourra inspirer de nouvelles avancées dans les MLLMs. Le code, les données et le modèle seront publiés publiquement.
Actuellement, OpenAI o1 a suscité un regain d'intérêt pour l'étude des grands modèles de raisonnement (GMR). S'appuyant sur cette dynamique, Marco-o1 se concentre non seulement sur des disciplines avec des réponses standard, telles que les mathématiques, la physique et la programmation - qui se prêtent bien à l'apprentissage par renforcement (RL) - mais accorde également une plus grande importance aux résolutions ouvertes. Nous visons à répondre à la question : "Le modèle o1 peut-il généraliser efficacement à des domaines plus vastes où les normes claires font défaut et où les récompenses sont difficiles à quantifier ?" Marco-o1 est alimenté par un affinage Chain-of-Thought (CoT), la recherche arborescente Monte Carlo (MCTS), des mécanismes de réflexion et des stratégies de raisonnement innovantes - optimisées pour des tâches complexes de résolution de problèmes du monde réel.
Nous introduisons une nouvelle méthode pour la pré-entraînement des codeurs de vision à grande échelle. En nous appuyant sur les récents progrès dans la pré-entraînement autorégressif des modèles de vision, nous étendons ce cadre à un environnement multimodal, c'est-à-dire, des images et du texte. Dans cet article, nous présentons AIMV2, une famille de codeurs de vision généralistes caractérisée par un processus de pré-entraînement simple, une extensibilité et des performances remarquables sur une gamme de tâches ultérieures. Cela est réalisé en associant le codeur de vision à un décodeur multimodal qui génère de manière autorégressive des fragments d'image bruts et des jetons de texte. Nos codeurs excellent non seulement dans les évaluations multimodales mais aussi dans les référentiels de vision tels que la localisation, l'ancrage et la classification. Notamment, notre codeur AIMV2-3B atteint une précision de 89,5% sur ImageNet-1k avec un tronc figé. De plus, AIMV2 surpasse systématiquement les modèles de contraste de pointe (par exemple, CLIP, SigLIP) dans la compréhension multimodale de l'image dans des contextes divers.
Nous proposons Hymba, une famille de petits modèles de langage présentant une architecture parallèle à tête hybride qui intègre des mécanismes d'attention de transformateur avec des modèles d'espace d'état (SSM) pour une efficacité accrue. Les têtes d'attention fournissent un rappel haute résolution, tandis que les têtes SSM permettent une synthèse efficace du contexte. De plus, nous introduisons des jetons méta apprenables qui sont préfixés aux invites, stockant des informations critiques et soulageant le fardeau de "devoir assister" associé aux mécanismes d'attention. Ce modèle est en outre optimisé en incorporant le partage de clés-valeurs (KV) entre les couches et une attention à fenêtre coulissante partielle, ce qui se traduit par une taille de cache compacte. Au cours du développement, nous avons mené une étude contrôlée comparant diverses architectures dans des paramètres identiques et avons observé des avantages significatifs de notre architecture proposée. Notamment, Hymba atteint des résultats de pointe pour les petits modèles de langage : Notre modèle Hymba-1.5B-Base surpasse tous les modèles publics de moins de 2B en performances et surpasse même Llama-3.2-3B avec une précision moyenne supérieure de 1,32 %, une réduction de la taille du cache de 11,67 fois et un débit supérieur de 3,49 fois.
Le progrès scientifique dépend de la capacité des chercheurs à synthétiser le corpus croissant de la littérature. Les grands modèles de langage (LM) peuvent-ils aider les scientifiques dans cette tâche ? Nous présentons OpenScholar, un LM à récupération augmentée spécialisé qui répond aux requêtes scientifiques en identifiant des passages pertinents parmi 45 millions d'articles en libre accès et en synthétisant des réponses appuyées par des citations. Pour évaluer OpenScholar, nous développons ScholarQABench, le premier banc d'essai multi-domaines à grande échelle pour la recherche documentaire, comprenant 2 967 requêtes rédigées par des experts et 208 réponses détaillées dans les domaines de l'informatique, de la physique, des neurosciences et de la biomédecine. Sur ScholarQABench, OpenScholar-8B surpasse GPT-4o de 5 % et PaperQA2 de 7 % en termes de justesse, malgré sa taille plus réduite en tant que modèle ouvert. Alors que GPT-4o hallucine des citations de 78 à 90 % du temps, OpenScholar atteint une précision des citations comparable à celle des experts humains. La base de données, le récupérateur et la boucle d'inférence à auto-rétroaction d'OpenScholar améliorent également les LM prêts à l'emploi : par exemple, OpenScholar-GPT4o améliore la justesse de GPT-4o de 12 %. Dans les évaluations humaines, les experts ont préféré les réponses d'OpenScholar-8B et d'OpenScholar-GPT4o aux réponses rédigées par des experts 51 % et 70 % du temps, respectivement, par rapport aux 32 % de GPT4o. Nous mettons en open source l'ensemble de notre code, des modèles, de la base de données, des données et une démonstration publique.
Les grands modèles de langage (LLM) démontrent des capacités améliorées et une fiabilité accrue en raison d'un raisonnement plus poussé, passant de simples incitations en chaîne à des solutions de niveau produit telles que l'OpenAI o1. Malgré divers efforts pour améliorer le raisonnement des LLM, les données de raisonnement à longue chaîne de haute qualité et les pipelines d'entraînement optimisés restent encore insuffisamment explorés dans les tâches vision-langage. Dans cet article, nous présentons Insight-V, une première tentative visant à 1) produire de manière évolutive des données de raisonnement longues et robustes pour des tâches multimodales complexes, et 2) un pipeline d'entraînement efficace pour améliorer les capacités de raisonnement des grands modèles de langage multimodaux (MLLM). Plus précisément, pour créer des données de raisonnement longues et structurées sans recourir au travail humain, nous concevons un pipeline en deux étapes avec une stratégie progressive pour générer des chemins de raisonnement suffisamment longs et diversifiés, ainsi qu'une méthode d'évaluation multi-granulaire pour garantir la qualité des données. Nous constatons que superviser directement les MLLM avec de telles données de raisonnement longues et complexes ne permettra pas d'obtenir une capacité de raisonnement idéale. Pour résoudre ce problème, nous concevons un système multi-agent composé d'un agent de raisonnement dédié à la réalisation de raisonnements en chaîne longs et d'un agent de synthèse formé pour évaluer et résumer les résultats du raisonnement. Nous incorporons en outre un algorithme DPO itératif pour améliorer la stabilité et la qualité de génération de l'agent de raisonnement. En nous basant sur le modèle populaire LLaVA-NeXT et notre MLLM de base plus performant, nous démontrons des gains de performance significatifs sur des benchmarks multimodaux exigeant un raisonnement visuel complexe. Grâce à notre système multi-agent, Insight-V peut également facilement maintenir ou améliorer les performances sur des tâches multimodales axées sur la perception.
Il est largement reconnu que les performances des modèles Transformer sont exponentiellement liées à leur nombre de paramètres et à leur complexité computationnelle. Alors que des approches telles que le Mélange d'Experts (MoE) séparent le nombre de paramètres de la complexité computationnelle, elles rencontrent toujours des défis en termes d'inférence en raison des coûts élevés d'accès à la mémoire. Ce travail présente UltraMem, qui intègre une couche de mémoire ultra-éparse à grande échelle pour répondre à ces limitations. Notre approche réduit significativement la latence d'inférence tout en maintenant les performances du modèle. Nous étudions également les lois d'échelle de cette nouvelle architecture, démontrant qu'elle présente non seulement des propriétés d'échelle favorables mais surpasse également les modèles traditionnels. Dans nos expériences, nous entraînons des réseaux avec jusqu'à 20 millions de emplacements mémoire. Les résultats montrent que notre méthode atteint une vitesse d'inférence et des performances du modèle de pointe dans le cadre d'un budget computationnel donné.
Les modèles de diffusion ont révolutionné le domaine de la synthèse et de l'édition de contenu. Les modèles récents ont remplacé l'architecture UNet traditionnelle par le Transformateur de Diffusion (DiT) et ont utilisé l'appariement de flux pour améliorer l'entraînement et l'échantillonnage. Cependant, ils présentent une diversité de génération limitée. Dans ce travail, nous exploitons cette limitation pour effectuer des éditions d'images cohérentes via l'injection sélective de caractéristiques d'attention. Le principal défi est que, contrairement aux modèles basés sur UNet, DiT ne possède pas de structure de synthèse de grossier à fin, ce qui rend incertaines les couches dans lesquelles effectuer l'injection. Par conséquent, nous proposons une méthode automatique pour identifier les "couches vitales" au sein de DiT, cruciales pour la formation de l'image, et démontrons comment ces couches facilitent une gamme d'éditions stables contrôlées, allant de modifications non rigides à l'ajout d'objets, en utilisant le même mécanisme. Ensuite, pour permettre l'édition d'images réelles, nous introduisons une méthode d'inversion d'image améliorée pour les modèles de flux. Enfin, nous évaluons notre approche à travers des comparaisons qualitatives et quantitatives, ainsi qu'une étude utilisateur, et démontrons son efficacité dans de multiples applications. La page du projet est disponible sur https://omriavrahami.com/stable-flow.
Dans cet article, nous présentons DINO-X, un modèle de vision centré sur les objets unifié développé par IDEA Research avec les meilleures performances à ce jour en matière de détection d'objets en environnement ouvert. DINO-X utilise la même architecture encodeur-décodeur basée sur les Transformers que Grounding DINO 1.5 pour rechercher une représentation au niveau des objets en vue de la compréhension des objets en environnement ouvert. Pour faciliter la détection d'objets à longue queue, DINO-X étend ses options d'entrée pour prendre en charge des instructions textuelles, visuelles et personnalisées. Grâce à ces options d'instructions flexibles, nous développons une instruction universelle sur les objets pour prendre en charge la détection en environnement ouvert sans instruction préalable, permettant ainsi de détecter n'importe quoi dans une image sans que les utilisateurs fournissent d'instructions. Pour renforcer la capacité de base du modèle à ancrer les objets, nous avons constitué un ensemble de données à grande échelle avec plus de 100 millions d'échantillons d'ancrage de haute qualité, appelé Grounding-100M, pour améliorer les performances de détection à vocabulaire ouvert du modèle. La pré-formation sur un tel ensemble de données d'ancrage à grande échelle conduit à une représentation au niveau des objets fondamentale, ce qui permet à DINO-X d'intégrer plusieurs têtes de perception pour prendre en charge simultanément plusieurs tâches de perception et de compréhension des objets, notamment la détection, la segmentation, l'estimation de la pose, la légende d'objets, les questions-réponses basées sur les objets, etc. Les résultats expérimentaux démontrent les performances supérieures de DINO-X. Plus précisément, le modèle DINO-X Pro atteint 56,0 AP, 59,8 AP et 52,4 AP sur les référentiels de détection d'objets en zéro-shot COCO, LVIS-minival et LVIS-val, respectivement. Notamment, il obtient 63,3 AP et 56,5 AP sur les classes rares des référentiels LVIS-minival et LVIS-val, améliorant ainsi les performances précédentes de l'état de l'art de 5,8 AP. Un tel résultat souligne considérablement sa capacité améliorée à reconnaître les objets à longue queue.
Les hallucinations dans les grands modèles de langage sont un problème répandu, cependant, les mécanismes déterminant si les modèles vont halluciner sont mal compris, limitant notre capacité à résoudre ce problème. En utilisant des autoencodeurs parcimonieux comme outil d'interprétabilité, nous découvrons qu'une partie clé de ces mécanismes est la reconnaissance des entités, où le modèle détecte si une entité est une dont il peut se rappeler des faits. Les autoencodeurs parcimonieux révèlent des directions significatives dans l'espace de représentation, qui permettent de détecter si le modèle reconnaît une entité, par exemple en détectant s'il ne connaît pas un athlète ou un film. Cela suggère que les modèles peuvent avoir une connaissance de soi : des représentations internes sur leurs propres capacités. Ces directions sont causalement pertinentes : capables de guider le modèle pour refuser de répondre à des questions sur des entités connues, ou pour halluciner des attributs d'entités inconnues quand il refuserait sinon. Nous démontrons que malgré les autoencodeurs parcimonieux étant entraînés sur le modèle de base, ces directions ont un effet causal sur le comportement de refus du modèle de chat, suggérant que le fine-tuning du chat a réutilisé ce mécanisme existant. De plus, nous effectuons une exploration initiale du rôle mécaniste de ces directions dans le modèle, constatant qu'elles perturbent l'attention des têtes aval qui déplacent généralement les attributs d'entités vers le jeton final.
Le rapide progrès des modèles de diffusion a grandement amélioré la synthèse vidéo, notamment dans la génération de vidéos contrôlables, essentielle pour des applications telles que la conduite autonome. Cependant, les méthodes existantes sont limitées en termes de scalabilité et d'intégration des conditions de contrôle, ne parvenant pas à répondre aux besoins en vidéos haute résolution et longues pour les applications de conduite autonome. Dans cet article, nous présentons MagicDriveDiT, une nouvelle approche basée sur l'architecture DiT, et relevons ces défis. Notre méthode améliore la scalabilité grâce à la correspondance des flux et utilise une stratégie d'entraînement progressive pour gérer des scénarios complexes. En incorporant un encodage conditionnel spatial-temporel, MagicDriveDiT permet un contrôle précis des latents spatiaux-temporels. Des expériences approfondies montrent ses performances supérieures dans la génération de vidéos de scènes de rue réalistes avec une résolution plus élevée et davantage d'images. MagicDriveDiT améliore significativement la qualité de génération vidéo et les contrôles spatiaux-temporels, élargissant ses applications potentielles à diverses tâches en conduite autonome.
Les méthodes existantes de conversion d'images en 3D à propagation avant reposent principalement sur des modèles de diffusion multi-vues en 2D qui ne peuvent garantir la cohérence en 3D. Ces méthodes s'effondrent facilement lors du changement de la direction de la vue initiale et traitent principalement des images centrées sur l'objet. Dans cet article, nous proposons un nouveau modèle de diffusion 3D en une seule étape, DiffusionGS, pour la génération d'objets et de scènes à partir d'une seule vue. DiffusionGS produit directement des nuages de points gaussiens en 3D à chaque pas de temps pour imposer la cohérence de la vue et permettre au modèle de générer de manière robuste des vues initiales de toutes directions, au-delà des entrées centrées sur l'objet. De plus, pour améliorer la capacité et la capacité de généralisation de DiffusionGS, nous augmentons les données d'entraînement en 3D en développant une stratégie d'entraînement mixte scène-objet. Les expériences montrent que notre méthode offre une meilleure qualité de génération (2,20 dB de plus en PSNR et 23,25 de moins en FID) et une vitesse plus de 5 fois plus rapide (~6s sur un GPU A100) que les méthodes de pointe. L'étude utilisateur et les applications de texte en 3D révèlent également les valeurs pratiques de notre méthode. Notre page de projet sur https://caiyuanhao1998.github.io/project/DiffusionGS/ montre la vidéo et les résultats de génération interactifs.
Les grands modèles de langage (LLM) sous-performent sur les langues à faibles ressources en raison de données d'entraînement limitées. Nous présentons une méthode pour collecter efficacement des données textuelles pour les langues à faibles ressources à partir de l'ensemble du corpus Common Crawl. Notre approche, UnifiedCrawl, filtre et extrait Common Crawl en utilisant des ressources informatiques minimales, produisant des ensembles de données monolingues beaucoup plus importants que les sources précédemment disponibles. Nous démontrons que l'exploitation de ces données pour affiner les LLM multilingues via des méthodes d'adaptation efficaces (QLoRA) améliore significativement les performances sur la langue à faibles ressources, tout en minimisant l'utilisation de la VRAM. Nos expériences montrent de grandes améliorations en termes de perplexité de modélisation linguistique et une augmentation des scores de déclenchement en quelques exemples. Notre travail et le code source publié offrent une approche abordable pour améliorer les LLM pour les langues à faibles ressources en utilisant du matériel grand public. Notre code source est disponible ici : https://github.com/bethelmelesse/unifiedcrawl.
Les récents progrès dans le domaine des grands modèles de langage, en particulier grâce à l'approche Chain of Thought (CoT), ont démontré des améliorations significatives dans la résolution de problèmes complexes. Cependant, les modèles existants ont tendance soit à sacrifier un raisonnement détaillé pour la concision en raison des préférences des utilisateurs, soit à nécessiter des données d'entraînement étendues et coûteuses pour apprendre une capacité de raisonnement complexe, limitant ainsi leur potentiel dans la résolution de tâches complexes. Pour combler ce fossé, en suivant le concept de mise à l'échelle au moment du test, nous proposons une méthode simple en encourageant les modèles à adopter un style de raisonnement plus patient sans avoir besoin d'introduire de nouvelles connaissances ou compétences. Pour mettre en œuvre une approche d'optimisation des préférences, nous générons des processus de raisonnement détaillés en tant qu'exemples positifs et des réponses simples en tant qu'exemples négatifs, formant ainsi le modèle à privilégier la minutie dans ses réponses. Nos résultats montrent une augmentation des performances allant jusqu'à 6,7 % sur GSM8k en s'entraînant uniquement sur un jeu de données léger.