Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons BitNet b1.58 2B4T, le premier modèle de langage à grande échelle (LLM) natif en 1-bit open-source à l'échelle de 2 milliards de paramètres. Entraîné sur un corpus de 4 000 milliards de tokens, le modèle a été rigoureusement évalué sur des benchmarks couvrant la compréhension du langage, le raisonnement mathématique, la maîtrise du codage et les capacités conversationnelles. Nos résultats démontrent que BitNet b1.58 2B4T atteint des performances comparables à celles des meilleurs LLM open-weight en précision totale de taille similaire, tout en offrant des avantages significatifs en termes d'efficacité computationnelle, notamment une empreinte mémoire, une consommation d'énergie et une latence de décodage considérablement réduites. Pour faciliter la recherche et l'adoption ultérieures, les poids du modèle sont publiés via Hugging Face, accompagnés d'implémentations open-source d'inférence pour les architectures GPU et CPU.
Alors que les modèles de raisonnement (par exemple, DeepSeek R1) entraînés par apprentissage par renforcement (RL) excellent dans le raisonnement textuel, ils peinent dans les scénarios nécessitant une résolution de problèmes structurée, tels que le raisonnement géométrique, les calculs concis ou la résolution d'équations complexes - des domaines où les outils informatiques comme les interpréteurs de code (CI) démontrent des avantages distincts. Pour combler cette lacune, nous proposons ReTool, qui améliore le raisonnement long format grâce à un apprentissage intégrant des outils, avec deux fonctionnalités clés : (1) l'intercalage dynamique de l'exécution de code en temps réel dans les processus de raisonnement en langage naturel, et (2) un paradigme RL automatisé permettant des déploiements de politiques avec une exécution de code multi-tours en temps réel, enseignant au modèle quand et comment invoquer des outils en fonction des retours d'expérience. ReTool utilise un cadre d'entraînement systématique, commençant par la génération de données synthétiques de démarrage à froid pour produire des traces de raisonnement long format augmentées de code, afin d'affiner les modèles de base. L'entraînement RL ultérieur exploite les résultats des tâches comme récompenses pour affiner itérativement la stratégie d'utilisation des outils du modèle, permettant la découverte autonome de modèles optimaux d'invocation d'outils sans a priori humains. Les expériences sur le benchmark exigeant des Olympiades de mathématiques AIME démontrent la supériorité de ReTool : Notre modèle 32B atteint 67% de précision avec 400 étapes d'entraînement, surpassant la baseline RL basée sur le texte (40% de précision, 1080 étapes) en efficacité et performance. Remarquablement, ReTool-32B atteint 72,5% de précision dans des configurations étendues, surpassant OpenAI's o1-preview de 27,9%. Une analyse plus approfondie révèle des comportements émergents tels que l'auto-correction de code, signalant un "moment eurêka" où le modèle maîtrise de manière autonome l'utilisation adaptative des outils. Ces résultats mettent en lumière le potentiel de l'intégration d'outils pilotée par les résultats pour faire progresser le raisonnement mathématique complexe et offrent de nouvelles perspectives sur les systèmes hybrides neuro-symboliques.
La couleur joue un rôle important dans la perception humaine et fournit généralement des indices critiques pour le raisonnement visuel. Cependant, il n'est pas clair si et comment les modèles vision-langage (VLMs) peuvent percevoir, comprendre et exploiter la couleur comme les humains. Cet article présente ColorBench, un benchmark innovant soigneusement conçu pour évaluer les capacités des VLMs dans la compréhension de la couleur, incluant la perception des couleurs, le raisonnement et la robustesse. En élaborant une série de scénarios de test variés, ancrés dans des applications réelles, ColorBench évalue comment ces modèles perçoivent les couleurs, infèrent des significations à partir d'indices basés sur la couleur et maintiennent des performances constantes sous diverses transformations de couleur. À travers une évaluation approfondie de 32 VLMs avec différents modèles de langage et encodeurs visuels, notre article révèle des découvertes inédites : (i) La loi d'échelle (les modèles plus grands sont meilleurs) reste valable sur ColorBench, bien que le modèle de langage joue un rôle plus important que l'encodeur visuel. (ii) Cependant, les écarts de performance entre les modèles sont relativement faibles, indiquant que la compréhension de la couleur a été largement négligée par les VLMs existants. (iii) Le raisonnement CoT améliore la précision et la robustesse de la compréhension des couleurs, bien que ces tâches soient centrées sur la vision. (iv) Les indices de couleur sont effectivement exploités par les VLMs sur ColorBench, mais ils peuvent également induire en erreur les modèles dans certaines tâches. Ces résultats mettent en lumière les limitations critiques des VLMs actuels et soulignent la nécessité d'améliorer la compréhension des couleurs. Notre ColorBench peut servir d'outil fondamental pour faire progresser l'étude de la compréhension des couleurs au niveau humain dans l'IA multimodale.
L'industrie de production de bandes dessinées nécessite une colorisation de dessins au trait basée sur des références, avec une grande précision, efficacité, cohérence contextuelle et un contrôle flexible. Une page de bande dessinée implique souvent des personnages, objets et arrière-plans variés, ce qui complexifie le processus de colorisation. Malgré les avancées des modèles de diffusion pour la génération d'images, leur application dans la colorisation de dessins au trait reste limitée, confrontée à des défis liés à la gestion d'un grand nombre d'images de référence, à des temps d'inférence longs et à un contrôle flexible. Nous étudions la nécessité d'une guidance contextuelle étendue sur la qualité de la colorisation de dessins au trait. Pour relever ces défis, nous introduisons Cobra, une méthode efficace et polyvalente qui prend en charge des indices de couleur et utilise plus de 200 images de référence tout en maintenant une faible latence. Au cœur de Cobra se trouve une architecture Causal Sparse DiT, qui exploite des encodages positionnels spécialement conçus, une attention causale éparse et un cache clé-valeur pour gérer efficacement les références contextuelles longues et assurer la cohérence de l'identité des couleurs. Les résultats démontrent que Cobra réalise une colorisation précise des dessins au trait grâce à une référence contextuelle étendue, améliorant significativement la vitesse d'inférence et l'interactivité, répondant ainsi aux exigences critiques de l'industrie. Nous publions nos codes et modèles sur notre page de projet : https://zhuang2002.github.io/Cobra/.
Ce travail revisite le paradigme dominant d'affinage supervisé (SFT) suivi d'apprentissage par renforcement (RL) pour l'entraînement des grands modèles vision-langage (LVLMs), et révèle une découverte clé : le SFT peut considérablement compromettre le RL ultérieur en induisant des « pseudo-chemins de raisonnement » imités à partir de modèles experts. Bien que ces chemins puissent ressembler aux chemins de raisonnement natifs des modèles RL, ils impliquent souvent des étapes prolongées, hésitantes, moins informatives et un raisonnement incorrect. Pour étudier systématiquement cet effet, nous introduisons VLAA-Thinking, un nouveau jeu de données multimodal conçu pour soutenir le raisonnement dans les LVLMs. Construit via un pipeline en six étapes incluant la génération de légendes, la distillation de raisonnement, la réécriture de réponses et la vérification, VLAA-Thinking comprend des traces de raisonnement visuel de haute qualité étape par étape pour le SFT, ainsi qu'une division RL plus exigeante provenant de la même source de données. En utilisant ce jeu de données, nous menons des expériences approfondies comparant le SFT, le RL et leurs combinaisons. Les résultats montrent que si le SFT aide les modèles à apprendre les formats de raisonnement, il enferme souvent les modèles alignés dans des modes de raisonnement imitatifs et rigides qui entravent l'apprentissage ultérieur. En revanche, en s'appuyant sur l'optimisation de politique relative de groupe (GRPO) avec un nouveau module de récompense mixte intégrant à la fois des signaux de perception et de cognition, notre approche RL favorise un comportement de raisonnement plus authentique et adaptatif. Notamment, notre modèle VLAA-Thinker, basé sur Qwen2.5VL 3B, atteint la première place sur le classement Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) parmi les LVLMs de 4B, surpassant l'état de l'art précédent de 1,8 %. Nous espérons que nos résultats fourniront des insights précieux pour le développement de LVLMs capables de raisonnement et pourront éclairer les recherches futures dans ce domaine.
AlayaDB est un système de base de données vectorielle de pointe, conçu nativement pour une inférence efficace et performante en contexte étendu pour les modèles de langage de grande taille (LLMs) chez AlayaDB AI. Plus précisément, il découple le cache KV et le calcul d'attention des systèmes d'inférence des LLMs, et les encapsule dans un nouveau système de base de données vectorielle. Pour les fournisseurs de Modèle en tant que Service (MaaS), AlayaDB consomme moins de ressources matérielles et offre une meilleure qualité de génération pour diverses charges de travail avec différents types d'Objectifs de Niveau de Service (SLOs), par rapport aux solutions alternatives existantes (par exemple, la dissociation du cache KV, l'attention parcimonieuse basée sur la récupération). L'essence d'AlayaDB réside dans le fait qu'il abstrait le calcul d'attention et la gestion du cache pour l'inférence des LLMs en une procédure de traitement de requêtes, et optimise les performances via un optimiseur de requêtes natif. Dans ce travail, nous démontrons l'efficacité d'AlayaDB à travers (i) trois cas d'utilisation de nos partenaires industriels, et (ii) des résultats expérimentaux approfondis sur des benchmarks d'inférence de LLMs.
Dans cet article, nous abordons une question fondamentale : "Pouvons-nous entraîner des modèles de diffusion latente conjointement avec le tokeniseur de l'auto-encodeur variationnel (VAE) de manière end-to-end ?" La sagesse traditionnelle en apprentissage profond suggère que l'entraînement end-to-end est souvent préférable lorsque cela est possible. Cependant, pour les transformateurs de diffusion latente, il est observé que l'entraînement end-to-end du VAE et du modèle de diffusion en utilisant la perte de diffusion standard est inefficace, voire entraîne une dégradation des performances finales. Nous montrons que bien que la perte de diffusion soit inefficace, l'entraînement end-to-end peut être rendu possible grâce à la perte d'alignement des représentations (REPA) — permettant ainsi de régler conjointement le VAE et le modèle de diffusion pendant le processus d'entraînement. Malgré sa simplicité, la méthode d'entraînement proposée (REPA-E) montre des performances remarquables ; accélérant l'entraînement du modèle de diffusion de plus de 17x et 45x par rapport aux méthodes REPA et classiques, respectivement. Fait intéressant, nous observons que le réglage end-to-end avec REPA-E améliore également le VAE lui-même ; conduisant à une meilleure structure de l'espace latent et à de meilleures performances de génération en aval. En termes de performances finales, notre approche établit un nouvel état de l'art ; atteignant un FID de 1,26 et 1,83 avec et sans guidage sans classifieur sur ImageNet 256 x 256. Le code est disponible à l'adresse https://end2end-diffusion.github.io.
L'évaluation existante des agents de modèles de langage à grande échelle (LLM) dans le domaine de la découverte scientifique manque de références objectives et de métriques pour juger de la viabilité de leurs méthodes proposées. Pour résoudre ce problème, nous introduisons MLRC-Bench, un benchmark conçu pour quantifier l'efficacité avec laquelle les agents de langage peuvent relever des défis complexes dans le cadre de compétitions de recherche en apprentissage automatique (ML). Notre benchmark met en lumière des problèmes de recherche ouverts qui nécessitent des méthodologies novatrices, contrairement à des benchmarks récents tels que MLE-Bench d'OpenAI (Chan et al., 2024) et RE-Bench de METR (Wijk et al., 2024), qui se concentrent sur des tâches de recherche bien établies et largement résolubles grâce à un effort d'ingénierie suffisant. Contrairement aux travaux antérieurs, par exemple AI Scientist (Lu et al., 2024b), qui évaluent le pipeline agentique de bout en bout en utilisant un LLM comme juge, MLRC-Bench mesure les étapes clés de proposition et de mise en œuvre de nouvelles méthodes de recherche et les évalue à l'aide d'un protocole rigoureux et de métriques objectives nouvellement proposés. Notre ensemble de 7 tâches de compétition révèle des défis significatifs pour les agents LLM. Même l'agent le plus performant testé (gemini-exp-1206 sous MLAB (Huang et al., 2024a)) ne comble que 9,3 % de l'écart entre les scores de référence et ceux des meilleurs participants humains. De plus, notre analyse révèle un décalage entre l'innovation jugée par les LLM et leur performance réelle sur des problèmes de recherche de pointe en ML. MLRC-Bench est un benchmark dynamique, conçu pour évoluer continuellement avec de nouvelles compétitions ML afin d'encourager des évaluations rigoureuses et objectives des capacités de recherche de l'IA.
Nous présentons SIFT (Speech Instruction Fine-Tuning), un ensemble de données de 50 millions d'exemples conçu pour le fine-tuning d'instructions et le pré-entraînement de grands modèles de langage (LLMs) combinant parole et texte. SIFT-50M est construit à partir de corpus vocaux disponibles publiquement, qui contiennent collectivement 14 000 heures de parole, et exploite des LLMs ainsi que des modèles experts prêts à l'emploi. L'ensemble de données couvre cinq langues, englobant une diversité de compréhension de la parole ainsi que des instructions de génération de parole contrôlable. En utilisant SIFT-50M, nous entraînons SIFT-LLM, qui surpasse les LLMs parole-texte existants sur des benchmarks de suivi d'instructions tout en atteignant des performances compétitives sur des tâches fondamentales de traitement de la parole. Pour soutenir la recherche future, nous introduisons également EvalSIFT, un ensemble de données de référence spécialement conçu pour évaluer les capacités de suivi d'instructions des LLMs parole-texte.
Un système de détection idéal pour le contenu généré par machine devrait fonctionner efficacement avec tout générateur, d'autant plus que des modèles de langage (LLM) plus avancés apparaissent chaque jour. Les systèmes existants peinent souvent à identifier avec précision le contenu généré par l'IA, en particulier pour les textes courts. De plus, tous les textes ne sont pas entièrement rédigés par un humain ou un LLM, c'est pourquoi nous nous sommes concentrés sur les cas partiels, c'est-à-dire les textes co-écrits par des humains et des LLM. Notre article présente un ensemble de modèles conçus pour la tâche de classification de tokens, entraînés sur une vaste collection de textes co-écrits par des humains et des machines, qui ont obtenu de bons résultats sur des textes de domaines inconnus, des générateurs inédits, des textes de locuteurs non natifs et ceux comportant des entrées adverses. Nous introduisons également un nouveau jeu de données de plus de 2,4 millions de textes, majoritairement co-écrits par plusieurs LLM propriétaires populaires dans 23 langues. Nous présentons également les résultats de la performance de nos modèles sur les textes de chaque domaine et générateur. Les résultats supplémentaires incluent une comparaison des performances contre chaque méthode adverse, la longueur des textes d'entrée et les caractéristiques des textes générés par rapport aux textes originaux rédigés par des humains.
Nous proposons CAL (Complete Anything in Lidar) pour la complétion de formes basée sur Lidar en conditions réelles. Cette approche est étroitement liée à la complétion sémantique/panoptique de scènes basée sur Lidar. Cependant, les méthodes contemporaines ne peuvent compléter et reconnaître que des objets appartenant à un vocabulaire fermé étiqueté dans les jeux de données Lidar existants. Contrairement à cela, notre approche zero-shot exploite le contexte temporel issu de séquences de capteurs multi-modaux pour extraire les formes d'objets et les caractéristiques sémantiques des objets observés. Ces informations sont ensuite distillées dans un modèle de complétion et de reconnaissance au niveau des instances, fonctionnant uniquement avec des données Lidar. Bien que nous n'extrayions que des complétions partielles de formes, nous constatons que notre modèle distillé apprend à inférer des formes d'objets complètes à partir de multiples observations partielles à travers le jeu de données. Nous démontrons que notre modèle peut être sollicité sur des benchmarks standards pour la Complétion Sémantique et Panoptique de Scènes, localiser des objets sous forme de boîtes englobantes 3D (amodales), et reconnaître des objets au-delà des vocabulaires de classes prédéfinis. Notre page de projet est disponible à l'adresse suivante : https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
La reconstruction de scènes dynamiques 4D à partir de vidéos monoculaires capturées de manière informelle est précieuse mais extrêmement difficile, car chaque instant est observé depuis un seul point de vue. Nous présentons Vivid4D, une approche novatrice qui améliore la synthèse de vidéos monoculaires 4D en augmentant les vues d'observation - en synthétisant des vidéos multi-vues à partir d'une entrée monoculaire. Contrairement aux méthodes existantes qui exploitent uniquement des préconceptions géométriques pour la supervision ou utilisent des préconceptions génératives tout en négligeant la géométrie, nous intégrons les deux. Cela reformule l'augmentation des vues comme une tâche de remplissage vidéo, où les vues observées sont projetées dans de nouveaux points de vue en fonction des préconceptions de profondeur monoculaire. Pour y parvenir, nous entraînons un modèle de remplissage vidéo sur des vidéos web non positionnées avec des masques générés de manière synthétique qui imitent les occlusions de projection, assurant une complétion spatialement et temporellement cohérente des régions manquantes. Pour atténuer davantage les inexactitudes dans les préconceptions de profondeur monoculaire, nous introduisons une stratégie d'augmentation de vue itérative et une fonction de reconstruction robuste. Les expériences démontrent que notre méthode améliore efficacement la reconstruction et la complétion de scènes monoculaires 4D.
Le prompt Chain-of-Thought (CoT) améliore le raisonnement des grands modèles de langage (LLMs) en décomposant les problèmes en étapes séquentielles, imitant la logique humaine et réduisant les erreurs. Cependant, les tâches complexes avec des espaces de solutions vastes et des contraintes floues dépassent souvent la capacité d'une seule chaîne de raisonnement. Inspiré par la Résolution Libre Minimale (MFR) en algèbre commutative et géométrie algébrique, nous proposons Syzygy of Thoughts (SoT) - un nouveau cadre qui étend le CoT en introduisant des chemins de raisonnement auxiliaires et interreliés. SoT capture des dépendances logiques plus profondes, permettant une résolution de problèmes plus robuste et structurée. La MFR décompose un module en une séquence de modules libres de rang minimal, offrant une approche analytique structurée pour les systèmes complexes. Cette méthode introduit les concepts de "Module", "Nombres de Betti", "Liberté", "Application", "Exactitude" et "Minimalité", permettant la décomposition systématique du problème complexe original en sous-problèmes minimaux logiquement complets tout en préservant les caractéristiques clés du problème et en réduisant la longueur du raisonnement. Nous avons testé SoT sur divers ensembles de données (par exemple, GSM8K, MATH) et modèles (par exemple, GPT-4o-mini, Qwen2.5), atteignant une précision d'inférence qui correspond ou dépasse les standards CoT dominants. De plus, en alignant le processus d'échantillonnage sur les contraintes algébriques, notre approche améliore l'évolutivité du temps d'inférence dans les LLMs, garantissant à la fois un raisonnement transparent et des performances élevées. Notre code sera disponible publiquement à l'adresse https://github.com/dlMARiA/Syzygy-of-thoughts.
Les récents progrès dans le domaine du 3D Gaussian Splatting (3DGS) ont démontré un potentiel remarquable pour les tâches de synthèse de nouvelles vues. Le paradigme de division pour mieux régner a permis la reconstruction de scènes à grande échelle, mais des défis importants subsistent dans les processus de partitionnement, d'optimisation et de fusion des scènes. Cet article présente BlockGaussian, un nouveau cadre intégrant une stratégie de partitionnement de scène basée sur le contenu et une optimisation par blocs prenant en compte la visibilité, afin d'atteindre une reconstruction de scène à grande échelle à la fois efficace et de haute qualité. Plus précisément, notre approche prend en compte la variation de complexité du contenu dans différentes régions et équilibre la charge de calcul lors du partitionnement de la scène, permettant ainsi une reconstruction efficace. Pour résoudre le problème de désalignement de supervision lors de l'optimisation indépendante des blocs, nous introduisons des points auxiliaires pendant l'optimisation individuelle des blocs pour aligner la supervision de référence, ce qui améliore la qualité de la reconstruction. De plus, nous proposons une contrainte géométrique de pseudo-vue qui atténue efficacement la dégradation du rendu causée par les artefacts flottants dans l'espace aérien lors de la fusion des blocs. Des expériences approfondies sur des scènes à grande échelle montrent que notre approche atteint des performances de pointe à la fois en efficacité de reconstruction et en qualité de rendu, avec une accélération de l'optimisation par un facteur de 5 et une amélioration moyenne du PSNR de 1,21 dB sur plusieurs benchmarks. Notamment, BlockGaussian réduit considérablement les besoins en calcul, permettant la reconstruction de scènes à grande échelle sur un seul appareil doté de 24 Go de VRAM. La page du projet est disponible à l'adresse suivante : https://github.com/SunshineWYC/BlockGaussian.
Nous présentons FreshStack, un cadre réutilisable pour la construction automatique de benchmarks d'évaluation en recherche d'information (IR) à partir de questions et réponses posées par la communauté. FreshStack effectue les étapes suivantes : (1) collecte automatique de corpus à partir de code et de documentation technique, (2) génération de fragments d'information (nuggets) à partir de questions et réponses communautaires, et (3) support au niveau des fragments, en récupérant des documents à l'aide d'une fusion de techniques de recherche et d'architectures hybrides. Nous utilisons FreshStack pour construire cinq jeux de données sur des sujets récents, en pleine expansion et de niche, afin de garantir que les tâches soient suffisamment complexes. Sur FreshStack, les modèles de recherche existants, lorsqu'ils sont appliqués tels quels, sous-performent significativement les approches oracles sur les cinq sujets, indiquant un potentiel d'amélioration important de la qualité de l'IR. De plus, nous identifions des cas où les réordonnanceurs (rerankers) n'améliorent pas clairement la précision de la recherche en première étape (deux sujets sur cinq). Nous espérons que FreshStack facilitera les travaux futurs visant à construire des benchmarks d'évaluation réalistes, évolutifs et non contaminés pour l'IR et le RAG. Les jeux de données FreshStack sont disponibles à l'adresse : https://fresh-stack.github.io.
Les récentes avancées dans les technologies de génération de parole artificielle (IA) et de clonage vocal ont permis de produire des discours naturalistes et des réplications vocales précises, mais leur influence sur les systèmes sociotechniques à travers divers accents et traits linguistiques n'est pas encore pleinement comprise. Cette étude évalue deux services vocaux synthétiques basés sur l'IA (Speechify et ElevenLabs) à travers une approche mixte utilisant des enquêtes et des entretiens pour évaluer les performances techniques et explorer comment les expériences vécues des utilisateurs influencent leurs perceptions des variations d'accents dans ces technologies de parole. Nos résultats révèlent des disparités de performance technique à travers cinq accents régionaux de langue anglaise et montrent comment les technologies actuelles de génération de parole peuvent renforcer involontairement les privilèges linguistiques et les discriminations basées sur l'accent, créant potentiellement de nouvelles formes d'exclusion numérique. Globalement, notre étude souligne la nécessité d'une conception inclusive et d'une régulation en fournissant des insights actionnables pour les développeurs, les décideurs politiques et les organisations afin d'assurer des technologies de parole IA équitables et socialement responsables.