Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le redimensionnement au moment du test est une nouvelle approche prometteuse de modélisation linguistique qui utilise une puissance de calcul supplémentaire au moment du test pour améliorer les performances. Récemment, le modèle o1 d'OpenAI a montré cette capacité mais n'a pas partagé publiquement sa méthodologie, ce qui a conduit à de nombreux efforts de réplication. Nous recherchons l'approche la plus simple pour atteindre le redimensionnement au moment du test et de fortes performances en matière de raisonnement. Tout d'abord, nous constituons un petit ensemble de données s1K de 1 000 questions associées à des traces de raisonnement reposant sur trois critères que nous validons par des ablations : la difficulté, la diversité et la qualité. Ensuite, nous développons le forçage budgétaire pour contrôler la puissance de calcul au moment du test en mettant fin de force au processus de réflexion du modèle ou en le prolongeant en ajoutant plusieurs fois "Wait" à la génération du modèle lorsqu'il essaie de se terminer. Cela peut amener le modèle à vérifier sa réponse, corrigeant souvent des étapes de raisonnement incorrectes. Après un affinage supervisé du modèle linguistique Qwen2.5-32B-Instruct sur s1K et en l'équipant de forçage budgétaire, notre modèle s1 dépasse o1-preview sur des questions de mathématiques de compétition jusqu'à 27 % (MATH et AIME24). De plus, le redimensionnement de s1 avec le forçage budgétaire permet d'extrapoler au-delà de ses performances sans intervention au moment du test : de 50 % à 57 % sur AIME24. Notre modèle, nos données et notre code sont open-source sur https://github.com/simplescaling/s1.
Nous introduisons le Décodage Spéculatif Guidé par la Récompense (RSD), un nouveau cadre visant à améliorer l'efficacité de l'inférence dans les grands modèles de langage (LLMs). RSD combine de manière synergique un modèle de brouillon léger avec un modèle cible plus puissant, incorporant un biais contrôlé pour prioriser les sorties à haute récompense, contrairement aux méthodes de décodage spéculatif existantes qui imposent une impartialité stricte. RSD utilise un modèle de récompense de processus pour évaluer les étapes de décodage intermédiaires et décider dynamiquement s'il faut invoquer le modèle cible, optimisant le compromis entre le coût computationnel et la qualité de la sortie. Nous démontrons théoriquement qu'une stratégie de mélange basée sur un seuil atteint un équilibre optimal entre l'utilisation des ressources et les performances. Des évaluations approfondies sur des benchmarks de raisonnement difficiles, y compris des tâches de niveau olympique, montrent que RSD offre des gains d'efficacité significatifs par rapport au décodage avec le seul modèle cible (jusqu'à 4,4 fois moins de FLOPs), tout en obtenant une précision significativement meilleure que la méthode de décodage parallèle en moyenne (jusqu'à +3,5). Ces résultats soulignent RSD comme une approche robuste et rentable pour le déploiement de LLMs dans des scénarios intensifs en ressources.
Les méthodes de détourage vidéo humain sans auxiliaire, qui reposent uniquement sur les images d'entrée, ont souvent du mal avec des arrière-plans complexes ou ambigus. Pour remédier à cela, nous proposons MatAnyone, un cadre robuste conçu pour le détourage vidéo assigné à une cible. Plus précisément, en s'appuyant sur un paradigme basé sur la mémoire, nous introduisons un module de propagation de mémoire cohérent via une fusion de mémoire adaptative par région, qui intègre de manière adaptative la mémoire de l'image précédente. Cela garantit une stabilité sémantique dans les régions centrales tout en préservant les détails fins le long des frontières des objets. Pour un entraînement robuste, nous présentons un ensemble de données plus grand, de haute qualité et diversifié pour le détourage vidéo. De plus, nous incorporons une nouvelle stratégie d'entraînement qui exploite efficacement des données de segmentation à grande échelle, renforçant la stabilité du détourage. Avec ce nouveau design de réseau, cet ensemble de données et cette stratégie d'entraînement, MatAnyone produit des résultats de détourage vidéo robustes et précis dans divers scénarios du monde réel, surpassant les méthodes existantes.
En raison de la présence de l'écart naturel entre les structures des Graphes de Connaissances (KG) et le langage naturel, l'intégration efficace des informations structurelles holistiques des KG avec les Grands Modèles de Langage (LLMs) est devenue une question significative. À cette fin, nous proposons un cadre en deux étapes pour apprendre et appliquer des codes quantifiés pour chaque entité, visant l'intégration transparente des KG avec les LLMs. Tout d'abord, une méthode de représentation quantifiée auto-supervisée (SSQR) est proposée pour compresser à la fois la connaissance structurelle et sémantique des KG en codes discrets (c'est-à-dire, des jetons) qui s'alignent sur le format des phrases en langage naturel. Nous concevons ensuite des données d'instructions de suivi des KG en considérant ces codes appris comme des caractéristiques à entrer directement dans les LLMs, permettant ainsi une intégration transparente. Les résultats des expériences montrent que SSQR surpasse les méthodes quantifiées non supervisées existantes, produisant des codes plus distinguables. De plus, les modèles LLaMA2 et LLaMA3.1 affinés ont également des performances supérieures dans la prédiction de liens des KG et les tâches de classification de triplets, en n'utilisant que 16 jetons par entité au lieu de milliers dans les méthodes de questionnement conventionnelles.
L'élément maximal du vecteur produit par la fonction Softmax tend vers zéro à mesure que la taille du vecteur d'entrée augmente. Les modèles de langage basés sur les Transformers s'appuient sur le Softmax pour calculer les scores d'attention, ce qui entraîne une distribution d'attention qui s'aplatit à mesure que la taille du contexte augmente. Cela réduit la capacité du modèle à prioriser efficacement les informations clés et limite potentiellement sa capacité de généralisation de longueur. Pour résoudre ce problème, nous proposons Scalable-Softmax (SSMax), qui remplace le Softmax dans les scénarios où la taille du vecteur d'entrée varie. SSMax peut être intégré de manière transparente dans les architectures existantes basées sur les Transformers. Les résultats expérimentaux en modélisation de langage montrent que les modèles utilisant SSMax permettent non seulement d'obtenir une réduction plus rapide de la perte lors de la pré-entraînement, mais améliorent également de manière significative les performances dans les contextes longs et la récupération des informations clés. De plus, une analyse des scores d'attention révèle que SSMax permet au modèle de se concentrer sur les informations clés même dans les contextes longs. De plus, bien que les modèles utilisant SSMax dès le début de la pré-entraînement obtiennent une meilleure généralisation de longueur, ceux qui ont déjà commencé la pré-entraînement peuvent encore acquérir cette capacité en remplaçant le Softmax dans les couches d'attention par SSMax, soit pendant, soit après la pré-entraînement.
Les modèles de base existants traitent généralement les entrées visuelles sous forme de pixels et les entrées textuelles sous forme de jetons, un paradigme qui contraste avec la perception humaine, où les deux modalités sont traitées de manière unifiée. Avec l'avènement de l'IA incarnée et agente, où les entrées proviennent principalement de pixels de caméra, la nécessité d'un cadre de perception unifié devient de plus en plus évidente. Dans cet article, nous proposons de unifier toutes les modalités (texte, tableaux, code, diagrammes, images, etc.) en tant qu'entrées de pixels, c'est-à-dire "Percevoir Tout comme des Pixels" (PEAP). Nous introduisons PixelWorld, une nouvelle suite d'évaluation qui unifie toutes les modalités mentionnées dans l'espace des pixels pour évaluer les performances des modèles existants. Nos résultats montrent que (1) PEAP surpasse la ligne de base avec une entrée basée sur des jetons dans les ensembles de données multimodaux, bénéficiant d'une entrée unifiée pour une meilleure désambiguïsation, (2) des baisses significatives des capacités de raisonnement et de codage sur tous les modèles lors du traitement d'une entrée basée sur des pixels, soulignant la nécessité d'améliorer les capacités perceptuelles des modèles de base, (3) les modèles plus grands peuvent maintenir de bonnes performances sur des tâches non liées au raisonnement sous PEAP, tandis que des modèles plus petits comme Phi-3.5-V subissent une dégradation significative des performances, (4) le schéma d'attention de PEAP est fortement aligné avec l'entrée de jetons de texte, (5) PEAP peut être considérablement accéléré en exploitant la sparsité spatiale. Nous concluons que les modèles de pointe existants sont compétents en matière de perception des pixels, cependant, il reste encore de la marge pour l'amélioration. Notre code, ensemble de données sera publié une fois accepté.
La capacité de prédire les résultats futurs en fonction des actions de contrôle est fondamentale pour le raisonnement physique. Cependant, de tels modèles prédictifs, souvent appelés modèles du monde, se sont avérés difficiles à apprendre et sont généralement développés pour des solutions spécifiques à des tâches avec un apprentissage de politique en ligne. Nous soutenons que le véritable potentiel des modèles du monde réside dans leur capacité à raisonner et planifier à travers des problèmes divers en n'utilisant que des données passives. Concrètement, nous exigeons que les modèles du monde aient les trois propriétés suivantes : 1) être entraînables sur des trajectoires hors ligne pré-collectées, 2) soutenir l'optimisation du comportement au moment des tests, et 3) faciliter le raisonnement agnostique à la tâche. Pour réaliser cela, nous présentons DINO World Model (DINO-WM), une nouvelle méthode pour modéliser la dynamique visuelle sans reconstruire le monde visuel. DINO-WM exploite les caractéristiques spatiales des patchs pré-entraînées avec DINOv2, lui permettant d'apprendre à partir de trajectoires comportementales hors ligne en prédisant les caractéristiques des patchs futurs. Cette conception permet à DINO-WM d'atteindre des objectifs d'observation grâce à l'optimisation de séquences d'actions, facilitant la planification de comportements agnostiques à la tâche en traitant les caractéristiques des patchs d'objectif souhaitées comme cibles de prédiction. Nous évaluons DINO-WM dans divers domaines, notamment la navigation dans des labyrinthes, le poussage sur table et la manipulation de particules. Nos expériences démontrent que DINO-WM peut générer des solutions comportementales sans apprentissage à test sans faire appel à des démonstrations d'experts, à la modélisation des récompenses ou à des modèles inverses pré-appris. Notamment, DINO-WM présente de solides capacités de généralisation par rapport aux travaux précédents de pointe, s'adaptant à des familles de tâches diverses telles que des labyrinthes configurés de manière arbitraire, la manipulation de poussée avec des formes d'objets variées et des scénarios multi-particules.
Les grands modèles de langage (LLMs) sont vulnérables aux jailbreaks universels, des stratégies qui contournent systématiquement les protections des modèles et permettent aux utilisateurs d'effectuer des processus nuisibles nécessitant de nombreuses interactions avec le modèle, comme la fabrication à grande échelle de substances illégales. Pour se défendre contre ces attaques, nous introduisons des Classifieurs Constitutionnels : des protections entraînées sur des données synthétiques, générées en soumettant les LLMs à des règles de langage naturel (c'est-à-dire une constitution) spécifiant le contenu autorisé et restreint. Sur plus de 3 000 heures estimées de tests d'intrusion, aucun testeur n'a trouvé de jailbreak universel capable d'extraire des informations d'un LLM protégé par un classifieur précoce avec un niveau de détail similaire à celui d'un modèle non protégé pour la plupart des requêtes ciblées. Lors d'évaluations automatisées, les classifieurs améliorés ont démontré une défense robuste contre les jailbreaks spécifiques à un domaine non divulgué. Ces classifieurs maintiennent également leur viabilité en déploiement, avec une augmentation absolue de 0,38 % des refus de trafic de production et un surcoût d'inférence de 23,7 %. Notre travail montre qu'il est possible de se défendre contre les jailbreaks universels tout en maintenant une viabilité pratique en déploiement.
Les modèles de diffusion, bien que puissants, peuvent involontairement générer du contenu nuisible ou indésirable, soulevant d'importantes préoccupations éthiques et de sécurité. Les récentes approches de désapprentissage automatique offrent des solutions potentielles mais manquent souvent de transparence, rendant difficile la compréhension des modifications qu'elles introduisent dans le modèle de base. Dans ce travail, nous présentons SAeUron, une méthode novatrice exploitant les caractéristiques apprises par des autoencodeurs parcimonieux (SAEs) pour éliminer les concepts indésirables dans les modèles de diffusion texte-image. Tout d'abord, nous démontrons que les SAEs, formés de manière non supervisée sur les activations de plusieurs étapes de débruitage du modèle de diffusion, capturent des caractéristiques parcimonieuses et interprétables correspondant à des concepts spécifiques. En nous appuyant sur cela, nous proposons une méthode de sélection de caractéristiques qui permet des interventions précises sur les activations du modèle pour bloquer le contenu ciblé tout en préservant les performances globales. L'évaluation avec le benchmark compétitif UnlearnCanvas sur le désapprentissage d'objets et de styles met en évidence les performances de pointe de SAeUron. De plus, nous montrons qu'avec un seul SAE, nous pouvons éliminer plusieurs concepts simultanément et qu'en contraste avec d'autres méthodes, SAeUron atténue la possibilité de générer du contenu indésirable, même en cas d'attaque adversaire. Le code et les points de contrôle sont disponibles sur : https://github.com/cywinski/SAeUron.
Nous montrons que les programmes de taux d'apprentissage pour l'entraînement de grands modèles se comportent de manière surprenamment similaire à une limite de performance de la théorie de l'optimisation convexe non lisse. Nous fournissons une limite pour le programme constant avec refroidissement linéaire ; en particulier, le bénéfice pratique du refroidissement se reflète dans la limite en raison de l'absence de termes logarithmiques. De plus, nous montrons que cette correspondance étonnamment proche entre la théorie de l'optimisation et la pratique peut être exploitée pour l'ajustement du taux d'apprentissage : nous obtenons des améliorations notables pour l'entraînement de modèles de type Llama de 124M et 210M en (i) étendant le programme pour un entraînement continu avec un taux d'apprentissage optimal, et (ii) en transférant le taux d'apprentissage optimal entre les programmes.
Les méthodes actuelles de reconstruction de scènes 3D à partir d'images posées clairsemées utilisent des représentations 3D intermédiaires telles que les champs neuronaux, les grilles de voxels ou les Gaussiennes 3D, pour obtenir une apparence et une géométrie de scène cohérentes multi-vues. Dans cet article, nous introduisons MVGD, une architecture basée sur la diffusion capable de générer directement au niveau des pixels des images et des cartes de profondeur à partir de points de vue nouveaux, en utilisant un nombre arbitraire de vues d'entrée. Notre méthode utilise le conditionnement de la carte de rayons à la fois pour augmenter les caractéristiques visuelles avec des informations spatiales provenant de différents points de vue, et pour guider la génération d'images et de cartes de profondeur à partir de vues nouvelles. Un aspect clé de notre approche est la génération multi-tâches d'images et de cartes de profondeur, en utilisant des plongements de tâches apprenants pour guider le processus de diffusion vers des modalités spécifiques. Nous entraînons ce modèle sur une collection de plus de 60 millions d'échantillons multi-vues provenant de jeux de données disponibles publiquement, et proposons des techniques pour permettre un apprentissage efficace et cohérent dans de telles conditions diverses. Nous proposons également une stratégie novatrice qui permet l'entraînement efficace de modèles plus grands en affinant progressivement des modèles plus petits, avec un comportement de mise à l'échelle prometteur. À travers des expériences approfondies, nous rapportons des résultats de pointe dans plusieurs bancs d'essai de synthèse de vues nouvelles, ainsi que dans la stéréo multi-vues et l'estimation de profondeur vidéo.
Nous menons des expériences sur l'impact de l'augmentation du calcul au moment de l'inférence dans les modèles de raisonnement (en particulier OpenAI o1-preview et o1-mini) sur leur résistance aux attaques adverses. Nous constatons qu'à travers diverses attaques, une augmentation du calcul au moment de l'inférence conduit à une amélioration de la robustesse. Dans de nombreux cas (avec des exceptions importantes), la proportion d'échantillons de modèle où l'attaque réussit tend vers zéro à mesure que la quantité de calcul au moment du test augmente. Nous n'effectuons pas d'entraînement adversaire pour les tâches que nous étudions, et nous augmentons le calcul au moment de l'inférence en permettant simplement aux modèles de consacrer plus de calcul au raisonnement, indépendamment de la forme de l'attaque. Nos résultats suggèrent que le calcul au moment de l'inférence a le potentiel d'améliorer la robustesse aux attaques adverses pour les Grands Modèles de Langage. Nous explorons également de nouvelles attaques dirigées contre les modèles de raisonnement, ainsi que des configurations où le calcul au moment de l'inférence ne renforce pas la fiabilité, et nous spéculons sur les raisons de ces résultats ainsi que sur les moyens de les aborder.
Étant donné l'introduction récente de plusieurs modèles de langage et la demande croissante d'amélioration des tâches de traitement du langage naturel, en particulier la résumé, ce travail propose une évaluation complète de 20 modèles de langage récents, en mettant l'accent sur les plus petits pour la tâche de résumé de nouvelles. Dans ce travail, nous testons systématiquement les capacités et l'efficacité de ces modèles pour résumer des textes d'articles de presse rédigés dans différents styles et présentés dans trois ensembles de données distincts. Plus précisément, nous nous concentrons dans cette étude sur les paramètres d'apprentissage à zéro tir et à quelques tirs, et nous appliquons une méthodologie d'évaluation robuste qui combine différents concepts d'évaluation, y compris des mesures automatiques, une évaluation humaine et LLM-comme-juge. De manière intéressante, l'inclusion d'exemples de démonstration dans le paramètre d'apprentissage à quelques tirs n'a pas amélioré les performances des modèles et, dans certains cas, a même conduit à une qualité inférieure des résumés générés. Ce problème découle principalement de la mauvaise qualité des résumés de référence en or qui ont été utilisés, ce qui impacte négativement les performances des modèles. De plus, les résultats de notre étude mettent en avant les performances exceptionnelles de GPT-3.5-Turbo et GPT-4, qui dominent généralement en raison de leurs capacités avancées. Cependant, parmi les modèles publics évalués, certains modèles tels que Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B et Zephyr-7B-Beta ont montré des résultats prometteurs. Ces modèles ont démontré un potentiel significatif, les positionnant comme des alternatives compétitives aux grands modèles pour la tâche de résumé de nouvelles.
Cet article aborde le défi de longue date de la reconstruction de structures 3D à partir de vidéos avec un contenu dynamique. Les approches actuelles de ce problème n'ont pas été conçues pour fonctionner sur des vidéos ordinaires enregistrées par des caméras standard ou nécessitent un long temps d'optimisation. Dans le but d'améliorer significativement l'efficacité des approches précédentes, nous présentons TracksTo4D, une approche basée sur l'apprentissage qui permet d'inférer la structure 3D et les positions des caméras à partir de contenus dynamiques provenant de vidéos ordinaires en utilisant une seule passe feed-forward efficace. Pour y parvenir, nous proposons de travailler directement sur des pistes de points 2D en entrée et de concevoir une architecture adaptée au traitement des pistes de points 2D. Notre architecture proposée est conçue en tenant compte de deux principes clés : (1) elle prend en compte les symétries inhérentes présentes dans les données des pistes de points en entrée, et (2) elle suppose que les motifs de mouvement peuvent être efficacement représentés en utilisant une approximation de bas rang. TracksTo4D est entraîné de manière non supervisée sur un ensemble de données de vidéos ordinaires en utilisant uniquement les pistes de points 2D extraites des vidéos, sans aucune supervision 3D. Nos expériences montrent que TracksTo4D peut reconstruire un nuage de points temporels et les positions des caméras de la vidéo sous-jacente avec une précision comparable aux méthodes de pointe, tout en réduisant considérablement le temps d'exécution jusqu'à 95%. Nous montrons en outre que TracksTo4D généralise bien à des vidéos inconnues de catégories sémantiques inconnues au moment de l'inférence.
La segmentation d'image promptable générique de tâche vise à réaliser la segmentation d'échantillons divers sous une seule description de tâche en utilisant uniquement un prompt générique de tâche. Les méthodes actuelles exploitent les capacités de généralisation des Modèles Vision-Language (VLM) pour déduire des prompts spécifiques à chaque instance à partir de ces prompts génériques de tâche afin de guider le processus de segmentation. Cependant, lorsque les VLM ont du mal à généraliser à certaines instances d'image, la prédiction de prompts spécifiques à chaque instance devient médiocre. Pour résoudre ce problème, nous introduisons le Minage Négatif Spécifique à l'Instance pour la Segmentation Promptable Générique de Tâche (INT). L'idée clé de l'INT est de réduire de manière adaptative l'influence des connaissances préalables non pertinentes (négatives) tout en augmentant l'utilisation des connaissances préalables les plus plausibles, sélectionnées par le minage négatif avec un contraste plus élevé, afin d'optimiser la génération de prompts spécifiques à chaque instance. Plus précisément, l'INT se compose de deux composants : (1) la génération de prompts spécifiques à chaque instance, qui filtre progressivement les informations incorrectes dans la génération de prompts ; (2) la génération de masque sémantique, qui garantit que la segmentation de chaque instance d'image correspond correctement à la sémantique des prompts spécifiques à chaque instance. L'INT est validé sur six ensembles de données, comprenant des objets camouflés et des images médicales, démontrant son efficacité, sa robustesse et sa scalabilité.
Pour réduire les coûts de mémoire dans l'inférence à long contexte avec les Modèles de Langage de Grande Taille (LLM), de nombreux travaux récents se concentrent sur la compression du cache clé-valeur (KV) de différents jetons. Cependant, nous identifions que les méthodes de compression de cache KV précédentes mesurent l'importance des jetons individuellement, en négligeant la dépendance entre différents jetons dans les caractéristiques linguistiques du monde réel. Dans ce contexte, nous introduisons ChunkKV, regroupant les jetons dans un bloc comme unité de compression de base, et conservant les blocs sémantiques les plus informatifs tout en rejetant les moins importants. De plus, en observant que ChunkKV présente une similarité plus élevée dans les indices conservés à travers différentes couches, nous proposons une réutilisation des indices par couche pour réduire davantage les coûts de calcul. Nous avons évalué ChunkKV sur des référentiels de long contexte de pointe, notamment LongBench et Needle-In-A-HayStack, ainsi que sur le référentiel d'apprentissage en contexte GSM8K et JailbreakV. Nos expériences avec l'optimisation des instructions et les LLM de raisonnement multi-étapes (O1 et R1) ont permis d'atteindre jusqu'à 10\% d'amélioration des performances avec des taux de compression agressifs par rapport aux méthodes existantes.