Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les feuilles de calcul, avec leurs vastes grilles bidimensionnelles, leurs multiples mises en page et leurs diverses options de formatage, posent des défis notables pour les grands modèles de langage (LLMs). En réponse, nous introduisons SpreadsheetLLM, pionnier d'une méthode d'encodage efficace conçue pour libérer et optimiser la puissante capacité de compréhension et de raisonnement des LLMs sur les feuilles de calcul. Initialement, nous proposons une approche de sérialisation classique qui intègre les adresses de cellules, les valeurs et les formats. Cependant, cette approche était limitée par les contraintes de tokens des LLMs, la rendant peu pratique pour la plupart des applications. Pour relever ce défi, nous développons SheetCompressor, un cadre d'encodage innovant qui compresse efficacement les feuilles de calcul pour les LLMs. Il comprend trois modules : la compression basée sur des ancres structurelles, la traduction d'index inversé et l'agrégation prenant en compte les formats de données. Il améliore significativement les performances dans la tâche de détection de tableaux de feuilles de calcul, surpassant l'approche classique de 25,6% dans le cadre d'apprentissage contextuel de GPT4. De plus, un LLM affiné avec SheetCompressor atteint un taux de compression moyen de 25 fois, mais obtient un score F1 de pointe de 78,9%, surpassant les meilleurs modèles existants de 12,3%. Enfin, nous proposons Chain of Spreadsheet pour les tâches en aval de compréhension des feuilles de calcul et validons dans une nouvelle et exigeante tâche de question-réponse sur les feuilles de calcul. Nous exploitons méthodiquement la disposition et la structure inhérentes des feuilles de calcul, démontrant que SpreadsheetLLM est hautement efficace pour une variété de tâches sur les feuilles de calcul.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables, mais peinent encore à traiter des contextes étendus, limitant leur aptitude à maintenir cohérence et précision sur de longues séquences. En revanche, le cerveau humain excelle dans l'organisation et la récupération d'expériences épisodiques à travers des échelles temporelles vastes, couvrant une vie entière. Dans ce travail, nous présentons EM-LLM, une approche novatrice qui intègre des aspects clés de la mémoire épisodique humaine et de la cognition événementielle dans les LLM, leur permettant de gérer efficacement des contextes de longueur pratiquement infinie tout en maintenant une efficacité computationnelle. EM-LLM organise les séquences de tokens en événements épisodiques cohérents en utilisant une combinaison de surprise bayésienne et de raffinement de frontières basé sur la théorie des graphes, de manière en ligne. Lorsque nécessaire, ces événements sont récupérés via un processus de mémoire en deux étapes, combinant une récupération basée sur la similarité et une récupération temporellement contiguë pour un accès efficace et humainement pertinent à l'information. Les expériences sur le jeu de données LongBench démontrent la performance supérieure d'EM-LLM, surpassant le modèle InfLLM de pointe avec une amélioration relative globale de 4,3% sur diverses tâches, incluant une amélioration de 33% sur la tâche de PassageRetrieval. De plus, notre analyse révèle de fortes corrélations entre la segmentation d'événements d'EM-LLM et les événements perçus par les humains, suggérant un pont entre ce système artificiel et son homologue biologique. Ce travail non seulement fait progresser les capacités des LLM dans le traitement de contextes étendus, mais fournit également un cadre computationnel pour explorer les mécanismes de la mémoire humaine, ouvrant de nouvelles voies pour la recherche interdisciplinaire en IA et en sciences cognitives.
Ce rapport technique présente le Time Series Optimized Transformer for Observability (Toto), un nouveau modèle de base de pointe pour la prévision de séries temporelles développé par Datadog. En plus de repousser les limites de l'état de l'art sur des benchmarks généralisés de séries temporelles dans des domaines tels que l'électricité et la météorologie, ce modèle est le premier modèle de base polyvalent de prévision de séries temporelles spécifiquement optimisé pour les métriques d'observabilité. Toto a été entraîné sur un ensemble de données d'un billion de points de séries temporelles, le plus grand parmi tous les modèles de base de séries temporelles actuellement publiés. En plus des ensembles de données de séries temporelles disponibles publiquement, 75 % des données utilisées pour entraîner Toto proviennent de points de métriques numériques entièrement anonymisés de la plateforme Datadog. Dans nos expériences, Toto surpasse les modèles de base existants pour les séries temporelles sur les données d'observabilité. Il y parvient tout en excellant également dans les tâches de prévision polyvalentes, atteignant des performances de pointe en zero-shot sur plusieurs ensembles de données de référence ouverts.
Les grands modèles de langage (LLMs) sont fréquemment mis à jour en raison de modifications des données ou de l'architecture afin d'améliorer leurs performances. Lors de la mise à jour des modèles, les développeurs se concentrent souvent sur l'amélioration des métriques de performance globales, en accordant moins d'importance à la compatibilité avec les versions précédentes du modèle. Cependant, les utilisateurs construisent souvent un modèle mental des fonctionnalités et des capacités d'un modèle d'apprentissage automatique particulier avec lequel ils interagissent. Ils doivent adapter ce modèle mental à chaque mise à jour — une tâche épuisante qui peut entraîner une insatisfaction des utilisateurs. En pratique, les adaptateurs de tâches en aval affinés reposent sur des modèles de base LLM pré-entraînés. Lorsque ces modèles de base sont mis à jour, ces modèles de tâches en aval utilisés par les utilisateurs subissent une régression d'instances ou des inversions négatives — des instances précédemment correctes sont maintenant prédites de manière incorrecte. Cela se produit même lorsque les procédures d'entraînement des tâches en aval restent identiques. Notre travail vise à fournir des mises à jour de modèles transparentes pour l'utilisateur de deux manières. Premièrement, nous proposons des métriques d'évaluation pour une notion de compatibilité avec les versions précédentes du modèle, spécifiquement pour les tâches génératives mais également applicables aux tâches discriminatives. Nous observons des régressions et des incohérences entre différentes versions de modèles sur un ensemble diversifié de tâches et de mises à jour de modèles. Deuxièmement, nous proposons une stratégie d'entraînement pour minimiser le nombre d'incohérences lors des mises à jour de modèles, impliquant l'entraînement d'un modèle de compatibilité qui peut améliorer les modèles de langage affinés pour des tâches spécifiques. Nous réduisons les inversions négatives — les instances où une version précédente du modèle était correcte, mais une nouvelle version incorrecte — jusqu'à 40 % entre Llama 1 et Llama 2.
Les grands modèles de langage (LLM) ont démontré un potentiel considérable en tant qu'assistants généralistes, révélant une compréhension puissante des tâches et des capacités de résolution de problèmes. Pour déployer les LLM en tant qu'assistants IA, il est crucial que ces modèles présentent des traits comportementaux souhaitables, tels que la non-toxicité et la résilience face aux tentatives de contournement (jailbreaking). Les méthodes actuelles de détoxification ou de prévention du jailbreaking impliquent généralement un ajustement fin supervisé (SFT) ou un apprentissage par renforcement à partir de retours humains (RLHF), ce qui nécessite l'ajustement fin de milliards de paramètres via la descente de gradient avec un coût de calcul substantiel. De plus, les modèles modifiés par SFT et RLHF peuvent s'écarter des modèles pré-entraînés, entraînant potentiellement une dégradation des capacités fondamentales des LLM. Dans cet article, nous observons que, de manière surprenante, la modification directe d'un petit sous-ensemble de paramètres peut efficacement moduler des comportements spécifiques des LLM, tels que la détoxification et la résistance au jailbreaking. Plus précisément, pour un comportement que nous souhaitons éviter, nous utilisons un classifieur linéaire, que nous appelons la sonde comportementale, pour classer des étiquettes comportementales binaires dans l'espace des états cachés du LLM. En utilisant cette sonde, nous introduisons un algorithme pour identifier un sous-ensemble critique de paramètres du LLM qui influencent significativement ce comportement ciblé. Ensuite, nous modifions directement ces paramètres sélectionnés en les déplaçant vers la sonde comportementale. Une telle méthode de modification directe des paramètres ne nécessite que des ressources de calcul au niveau de l'inférence. Les expériences démontrent que dans la tâche représentative de détoxification, notre approche permet de réduire jusqu'à 90,0 % la toxicité sur le jeu de données RealToxicityPrompts et 49,2 % sur ToxiGen, tout en conservant les capacités générales du LLM dans des domaines tels que le bon sens, la réponse aux questions et les mathématiques. Notre code est disponible à l'adresse https://github.com/lucywang720/model-surgery.
Nous présentons H2O-Danube3, une série de petits modèles de langage comprenant H2O-Danube3-4B, entraîné sur 6 000 milliards de tokens, et H2O-Danube3-500M, entraîné sur 4 000 milliards de tokens. Nos modèles sont pré-entraînés sur des données Web de haute qualité, composées principalement de tokens en anglais, en trois étapes avec différents mélanges de données avant un réglage supervisé final pour la version de chat. Les modèles affichent des métriques très compétitives sur une multitude de benchmarks académiques, de chat et de fine-tuning. Grâce à son architecture compacte, H2O-Danube3 peut être exécuté efficacement sur un smartphone moderne, permettant une inférence locale et des capacités de traitement rapide même sur des appareils mobiles. Nous rendons tous les modèles librement disponibles sous licence Apache 2.0, contribuant ainsi à démocratiser les LLM pour un public plus large de manière économique.
La génération automatique de jeux nouveaux et intéressants est une tâche complexe. Les défis incluent la représentation des règles de jeu sous une forme exploitable par ordinateur, l'exploration de l'espace vaste des jeux potentiels dans la plupart de ces représentations, et l'évaluation précise de l'originalité et de la qualité des jeux inédits. Les travaux antérieurs sur la génération automatique de jeux se sont largement concentrés sur des représentations de règles relativement restreintes et ont reposé sur des heuristiques spécifiques au domaine. Dans ce travail, nous explorons la génération de jeux novateurs dans le langage de description de jeux Ludii, relativement étendu, qui encode les règles de plus de 1000 jeux de société dans une variété de styles et de modes de jeu. Nous nous inspirons des avancées récentes en modèles de langage de grande taille et en calcul évolutif afin d'entraîner un modèle qui mute et recombine intelligemment des jeux et des mécaniques exprimés sous forme de code. Nous démontrons à la fois quantitativement et qualitativement que notre approche est capable de générer de nouveaux jeux intéressants, y compris dans des régions de l'espace des règles potentielles non couvertes par les jeux existants dans le jeu de données Ludii. Un échantillon des jeux générés est disponible en ligne via le portail Ludii.
Malgré leur adoption quasi universelle pour les grands modèles de langage, le fonctionnement interne des transformateurs reste mal compris. Notre objectif est de mieux comprendre l'impact de la suppression ou de la réorganisation de l'information à travers les couches d'un transformeur pré-entraîné. Une telle compréhension pourrait à la fois permettre une meilleure utilisation des modèles existants et conduire à des améliorations architecturales pour produire de nouvelles variantes. Nous présentons une série d'études empiriques sur des modèles figés qui montrent que les couches inférieures et finales des transformeurs pré-entraînés diffèrent des couches intermédiaires, mais que ces dernières présentent un degré surprenant d'uniformité. Nous démontrons en outre que certaines classes de problèmes présentent une robustesse au saut de couches, à l'exécution des couches dans un ordre différent de celui utilisé lors de l'entraînement, ou à l'exécution parallèle des couches. Nos observations suggèrent que même les modèles pré-entraînés figés peuvent échanger avec élégance la précision contre la latence en sautant des couches ou en exécutant des couches en parallèle.
Les récents progrès dans les champs de radiance ont ouvert de nouvelles voies pour la création d'actifs et de scènes 3D de haute qualité. Le transfert de style peut enrichir ces actifs 3D avec divers styles artistiques, transformant ainsi l'expression créative. Cependant, les techniques existantes sont souvent lentes ou incapables de localiser le transfert de style sur des objets spécifiques. Nous présentons StyleSplat, une méthode légère pour styliser des objets 3D dans des scènes représentées par des Gaussiennes 3D à partir d'images de style de référence. Notre approche apprend d'abord une représentation photoréaliste de la scène en utilisant le splatting de Gaussiennes 3D tout en segmentant simultanément les objets 3D individuels. Nous utilisons ensuite une perte de correspondance de caractéristiques par plus proche voisin pour affiner les Gaussiennes des objets sélectionnés, alignant leurs coefficients harmoniques sphériques avec l'image de style pour assurer la cohérence et l'attrait visuel. StyleSplat permet un transfert de style rapide et personnalisable ainsi qu'une stylisation localisée de plusieurs objets dans une scène, chacun avec un style différent. Nous démontrons son efficacité à travers diverses scènes 3D et styles, mettant en avant un contrôle et une personnalisation accrus dans la création 3D.
La recherche de réponses à des questions dans de longs articles de recherche scientifique constitue un domaine d'étude crucial qui aide les lecteurs à répondre rapidement à leurs interrogations. Cependant, les ensembles de données existants pour les systèmes de question-réponse (QA) basés sur des articles scientifiques sont limités en taille et se concentrent uniquement sur le contenu textuel. Pour remédier à cette limitation, nous introduisons SPIQA (Scientific Paper Image Question Answering), le premier ensemble de données QA à grande échelle spécifiquement conçu pour interpréter des figures et tableaux complexes dans le contexte d'articles de recherche scientifique couvrant divers domaines de l'informatique. En exploitant l'expertise étendue et la capacité des modèles de langage multimodaux (MLLMs) à comprendre les figures, nous utilisons une curation automatique et manuelle pour créer cet ensemble de données. Nous concevons une tâche de recherche d'information impliquant plusieurs images qui couvrent une grande variété de graphiques, tableaux, diagrammes schématiques et visualisations de résultats. SPIQA comprend 270K questions réparties en ensembles d'entraînement, de validation et trois divisions d'évaluation distinctes. À travers des expériences approfondies avec 12 modèles fondamentaux de premier plan, nous évaluons la capacité des systèmes multimodaux actuels à comprendre les aspects nuancés des articles de recherche. De plus, nous proposons une stratégie d'évaluation en chaîne de raisonnement (Chain-of-Thought, CoT) avec récupération contextuelle, permettant une évaluation fine et étape par étape, tout en améliorant les performances des modèles. Nous explorons également les limites supérieures d'amélioration des performances avec des informations textuelles supplémentaires, mettant en lumière leur potentiel prometteur pour les recherches futures et l'impact de cet ensemble de données sur la révolution de notre interaction avec la littérature scientifique.
Les grands modèles de langage ont traditionnellement reposé sur une forme d'apprentissage par renforcement avec retour humain (RLHF) pour mieux aligner les réponses du modèle avec les préférences humaines. Cependant, en raison des instabilités fréquemment observées lors de la mise en œuvre de ces pipelines RLHF, diverses techniques de reparamétrisation ont récemment été introduites pour contourner la nécessité d'apprendre séparément un modèle de récompense RL. Au lieu de cela, l'ajustement fin direct pour les préférences humaines est réalisé via la minimisation d'un objectif d'entraînement unique et fermé, un processus initialement appelé optimisation directe des préférences (DPO) et suivi par plusieurs descendants notables. Bien qu'efficaces dans certains contextes réels, nous introduisons de nouveaux critères d'évaluation qui mettent en lumière des lacunes non résolues dans la capacité des méthodes DPO existantes à interpoler entre un modèle de référence pré-entraîné et des mesures empiriques des préférences humaines, ainsi que des compromis inévitables dans la manière dont les réponses de faible et haute qualité sont régularisées et les contraintes gérées. Nos observations motivent alors une alternative de perte de type DPO qui atténue de manière prouvée ces limitations. Les résultats empiriques viennent corroborer des aspects notables de nos analyses.
L'inférence sur des contextes longs présente des défis à la fois au niveau système, avec des besoins accrus en calcul et en mémoire, et du point de vue de la précision, dans la capacité à raisonner sur des contextes étendus. Récemment, plusieurs méthodes ont été proposées pour compresser l'invite afin de réduire la longueur du contexte. Cependant, peu de travaux ont comparé les différentes méthodes proposées à travers une analyse standardisée sur diverses tâches. Cela a conduit à des résultats contradictoires. Pour remédier à cela, nous réalisons ici une caractérisation et une évaluation complètes des différentes méthodes de compression d'invite. En particulier, nous analysons la compression extractive, la compression abstraite basée sur la synthèse, et les méthodes d'élagage de tokens. Étonnamment, nous constatons que la compression extractive surpasse souvent toutes les autres approches, permettant une compression jusqu'à 10x avec une dégradation minimale de la précision. Fait intéressant, nous observons également que, malgré plusieurs affirmations récentes, les méthodes d'élagage de tokens sont souvent moins performantes que la compression extractive. Nous n'avons trouvé que des améliorations marginales sur les tâches de synthèse.
Il est trop tôt pour conclure que Mamba constitue une meilleure alternative aux transformers pour la parole avant de comparer Mamba avec les transformers en termes de performance et d'efficacité dans plusieurs tâches liées à la parole. Pour parvenir à cette conclusion, nous proposons et évaluons trois modèles pour trois tâches : Mamba-TasNet pour la séparation de la parole, ConMamba pour la reconnaissance de la parole, et VALL-M pour la synthèse de la parole. Nous les comparons avec des transformers de tailles similaires en termes de performance, de mémoire et de vitesse. Nos modèles Mamba ou hybrides Mamba-transformer montrent des performances comparables ou supérieures à leurs homologues transformers : Sepformer, Conformer et VALL-E. Ils sont plus efficaces que les transformers en mémoire et en vitesse pour des segments de parole dépassant une durée seuil, inversement liée à la résolution d'un token de parole. Mamba pour la séparation est le plus efficace, tandis que Mamba pour la reconnaissance est le moins. De plus, nous montrons que Mamba n'est pas plus efficace que le transformer pour des segments de parole plus courts que la durée seuil et obtient de moins bons résultats dans les modèles nécessitant une modélisation conjointe du texte et de la parole, comme l'attention croisée ou masquée de deux entrées. Par conséquent, nous soutenons que la supériorité de Mamba ou du transformer dépend des problèmes et des modèles spécifiques. Le code est disponible à l'adresse https://github.com/xi-j/Mamba-TasNet et https://github.com/xi-j/Mamba-ASR.
Les modèles de diffusion pour l'animation d'images humaines pilotée par la pose ont démontré des capacités remarquables dans la synthèse réaliste de vidéos humaines. Malgré les résultats prometteurs obtenus par les approches précédentes, des défis persistent pour parvenir à une animation temporellement cohérente et garantir la robustesse avec des détecteurs de pose prêts à l'emploi. Dans cet article, nous présentons TCAN, une méthode d'animation d'images humaines pilotée par la pose qui est robuste aux poses erronées et cohérente dans le temps. Contrairement aux méthodes précédentes, nous utilisons le ControlNet pré-entraîné sans ajustement fin pour tirer parti de ses connaissances étendues acquises à partir de nombreuses paires pose-image-légende. Pour maintenir le ControlNet figé, nous adaptons LoRA aux couches de l'UNet, permettant au réseau d'aligner l'espace latent entre les caractéristiques de pose et d'apparence. De plus, en introduisant une couche temporelle supplémentaire au ControlNet, nous améliorons la robustesse contre les valeurs aberrantes du détecteur de pose. Grâce à l'analyse des cartes d'attention sur l'axe temporel, nous avons également conçu une nouvelle carte de température exploitant les informations de pose, permettant un arrière-plan plus statique. Des expériences approfondies démontrent que la méthode proposée peut obtenir des résultats prometteurs dans les tâches de synthèse vidéo englobant diverses poses, comme le style chibi. Page du projet : https://eccv2024tcan.github.io/
Les récents progrès des modèles de génération de légendes d'images assistés par recherche mettent en lumière les avantages de la récupération de légendes connexes pour des modèles efficaces, légers et dotés de solides capacités de transfert de domaine. Bien que ces modèles démontrent le succès de l'augmentation par recherche, les modèles de recherche restent loin d'être parfaits en pratique : les informations récupérées peuvent parfois induire le modèle en erreur, entraînant une génération incorrecte et une performance dégradée. Dans cet article, nous analysons la robustesse d'un modèle de génération de légendes assisté par recherche, SmallCap. Notre analyse montre que le modèle est sensible aux tokens qui apparaissent dans la majorité des légendes récupérées, et l'attribution des entrées indique que ces tokens sont susceptibles d'être copiés dans la sortie générée. Compte tenu de ces observations, nous proposons d'entraîner le modèle en échantillonnant des légendes récupérées à partir d'ensembles plus diversifiés. Cela réduit la probabilité que le modèle apprenne à copier les tokens majoritaires et améliore à la fois les performances en domaine et en transfert de domaine.
Cette étude aborde une lacune critique dans les pratiques de réglage de la sécurité pour les modèles de langage à grande échelle (LLMs) en identifiant et en traitant un biais de position de refus dans les données de réglage de la sécurité, ce qui compromet la capacité des modèles à refuser de manière appropriée la génération de contenu dangereux. Nous introduisons une nouvelle approche, l'Entraînement Découplé au Refus (DeRTa), conçue pour permettre aux LLMs de refuser de se conformer à des prompts nocifs à n'importe quelle position de réponse, améliorant ainsi significativement leurs capacités de sécurité. DeRTa intègre deux composants novateurs : (1) l'Estimation du Maximum de Vraisemblance (MLE) avec Préfixe de Réponse Nocive, qui entraîne les modèles à reconnaître et à éviter le contenu dangereux en ajoutant un segment de réponse nocive au début d'une réponse sûre, et (2) l'Optimisation de Transition Renforcée (RTO), qui dote les modèles de la capacité à passer de la potentialité de danger à un refus de sécurité de manière cohérente tout au long de la séquence de réponse nocive. Notre évaluation empirique, menée en utilisant les familles de modèles LLaMA3 et Mistral sur six scénarios d'attaque, démontre que notre méthode améliore non seulement la sécurité des modèles sans compromettre leurs performances, mais surpasse également des modèles bien connus comme GPT-4 dans la défense contre les attaques. Fait important, notre approche défend avec succès des méthodes d'attaque avancées récentes (par exemple, CodeAttack) qui ont réussi à contourner les protections de GPT-4 et LLaMA3-70B-Instruct. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/RobustNLP/DeRTa.
La synthèse de NeRFs sous un éclairage arbitraire est devenue un problème fondamental au cours des dernières années. Les travaux récents abordent ce problème via l'extraction de paramètres physiquement plausibles qui peuvent ensuite être rendus sous un éclairage arbitraire, mais ils sont limités dans la gamme de scènes qu'ils peuvent traiter, échouant généralement sur les scènes brillantes. Nous proposons RRM, une méthode capable d'extraire les matériaux, la géométrie et l'éclairage environnemental d'une scène, même en présence d'objets hautement réfléchissants. Notre méthode repose sur une représentation de champ de radiance physiquement informée qui guide les paramètres physiquement plausibles, ainsi que sur une structure expressive d'éclairage environnemental basée sur une pyramide laplacienne. Nous démontrons que nos contributions surpassent l'état de l'art dans les tâches de récupération de paramètres, permettant une relocalisation haute fidélité et une synthèse de nouvelles vues sur des scènes surfaciques.