Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les connaissances scientifiques sont principalement stockées dans des livres et des revues scientifiques, souvent sous forme de fichiers PDF. Cependant, le format PDF entraîne une perte d'information sémantique, en particulier pour les expressions mathématiques. Nous proposons Nougat (Neural Optical Understanding for Academic Documents), un modèle de type Visual Transformer qui effectue une tâche de Reconnaissance Optique de Caractères (OCR) pour traiter les documents scientifiques en un langage de balisage, et démontrons l'efficacité de notre modèle sur un nouvel ensemble de données de documents scientifiques. L'approche proposée offre une solution prometteuse pour améliorer l'accessibilité des connaissances scientifiques à l'ère numérique, en comblant le fossé entre les documents lisibles par l'homme et le texte lisible par machine. Nous mettons à disposition les modèles et le code pour accélérer les travaux futurs sur la reconnaissance de texte scientifique.
Les grands modèles de langage (LLMs) ont révolutionné les tâches de traitement du langage naturel. Cependant, leur déploiement pratique est entravé par leurs énormes besoins en mémoire et en calcul. Bien que les méthodes récentes de quantification post-entraînement (PTQ) soient efficaces pour réduire l'empreinte mémoire et améliorer l'efficacité computationnelle des LLMs, elles définissent manuellement les paramètres de quantification, ce qui entraîne de faibles performances et échoue face à la quantification en très faible précision. Pour résoudre ce problème, nous introduisons une technique de quantification omnidirectionnellement calibrée (OmniQuant) pour les LLMs, qui atteint de bonnes performances dans divers réglages de quantification tout en maintenant l'efficacité computationnelle de la PTQ en optimisant efficacement divers paramètres de quantification. OmniQuant comprend deux composants innovants : le rognage des poids apprenable (LWC) et la transformation équivalente apprenable (LET). Le LWC module les valeurs extrêmes des poids en optimisant le seuil de rognage. Parallèlement, le LET s'attaque aux valeurs aberrantes des activations en déplaçant le défi de la quantification des activations vers les poids via une transformation équivalente apprenable. Fonctionnant dans un cadre différentiable en utilisant une minimisation d'erreur par blocs, OmniQuant peut optimiser efficacement le processus de quantification pour la quantification des poids uniquement et pour la quantification poids-activations. Par exemple, la famille de modèles LLaMA-2 de taille 7-70B peut être traitée avec OmniQuant sur un seul GPU A100-40G en 1 à 16 heures en utilisant 128 échantillons. Des expériences approfondies valident la performance supérieure d'OmniQuant dans diverses configurations de quantification telles que W4A4, W6A6, W4A16, W3A16 et W2A16. De plus, OmniQuant démontre son efficacité dans les modèles ajustés par instruction et apporte des améliorations notables en vitesse d'inférence et réduction de mémoire sur des appareils réels. Les codes et modèles sont disponibles à l'adresse https://github.com/OpenGVLab/OmniQuant.
Le développement logiciel joue un rôle crucial dans la stimulation de l'innovation et de l'efficacité au sein des sociétés modernes. Pour répondre aux exigences de ce domaine dynamique, il existe un besoin croissant d'un assistant de développement logiciel efficace. Cependant, les modèles de langage de grande envergure existants, représentés par ChatGPT, souffrent d'une accessibilité limitée, notamment en ce qui concerne les données d'entraînement et les poids des modèles. Bien que d'autres modèles open source de grande envergure comme LLaMA aient montré des résultats prometteurs, ils peinent encore à comprendre l'intention humaine. Dans cet article, nous présentons SoTaNa, un assistant de développement logiciel open source. SoTaNa utilise ChatGPT pour générer des données de haute qualité basées sur des instructions dans le domaine de l'ingénierie logicielle et emploie une approche de fine-tuning efficace en termes de paramètres pour améliorer le modèle de base open source, LLaMA. Nous évaluons l'efficacité de SoTaNa à répondre aux questions de Stack Overflow et démontrons ses capacités. De plus, nous discutons de ses aptitudes en matière de résumé et de génération de code, ainsi que de l'impact de la variation du volume de données générées sur la performance du modèle. Notamment, SoTaNa peut fonctionner sur un seul GPU, le rendant accessible à un plus large éventail de chercheurs. Notre code, les poids des modèles et les données sont publics à l'adresse suivante : https://github.com/DeepSoftwareAnalytics/SoTaNa.
Les Vision Transformers atteignent une précision impressionnante sur une variété de tâches de reconnaissance visuelle. Malheureusement, cette précision s'accompagne souvent de coûts computationnels élevés. Ceci pose un problème particulier dans la reconnaissance vidéo, où les modèles sont souvent appliqués de manière répétée sur des images ou des segments temporels. Dans ce travail, nous exploitons la redondance temporelle entre les entrées successives pour réduire le coût des Transformers dans le traitement vidéo. Nous décrivons une méthode pour identifier et retraiter uniquement les tokens qui ont subi des changements significatifs au fil du temps. Notre famille de modèles proposée, les Eventful Transformers, peut être convertie à partir de Transformers existants (souvent sans aucun réentraînement) et offre un contrôle adaptatif sur le coût computationnel en temps réel. Nous évaluons notre méthode sur des ensembles de données à grande échelle pour la détection d'objets vidéo (ImageNet VID) et la reconnaissance d'actions (EPIC-Kitchens 100). Notre approche permet des économies computationnelles significatives (de l'ordre de 2 à 4 fois) avec seulement des réductions mineures de la précision.
Cet article présente une nouvelle représentation neurale implicite de la radiance pour le rééclairage à partir de points de vue libres, à partir d'un petit ensemble de photographies non structurées d'un objet éclairé par une source lumineuse ponctuelle en mouvement, distincte de la position de vue. Nous exprimons la forme comme une fonction de distance signée modélisée par un perceptron multicouche. Contrairement aux représentations neurales implicites rééclairables précédentes, nous ne dissocions pas les différents composants de réflectance, mais modélisons à la fois la réflectance locale et globale en chaque point par un second perceptron multicouche qui, en plus des caractéristiques de densité, de la position actuelle, de la normale (issue de la fonction de distance signée), de la direction de vue et de la position de la lumière, prend également en compte des indices d'ombre et de reflet pour aider le réseau à modéliser les effets de transport de lumière à haute fréquence correspondants. Ces indices sont fournis comme suggestion, et nous laissons au réseau le soin de décider comment les intégrer dans le résultat final de rééclairage. Nous démontrons et validons notre représentation neurale implicite sur des scènes synthétiques et réelles présentant une grande variété de formes, de propriétés matérielles et de transport de lumière en illumination globale.