Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage augmentés par recherche peuvent mieux s'adapter aux changements de l'état du monde et intégrer des connaissances de longue traîne. Cependant, la plupart des méthodes existantes ne récupèrent que de courts segments contigus à partir d'un corpus de recherche, limitant ainsi la compréhension holistique du contexte global du document. Nous introduisons une approche novatrice consistant à encoder de manière récursive, à regrouper et à résumer des segments de texte, construisant ainsi un arbre avec différents niveaux de résumé de bas en haut. Au moment de l'inférence, notre modèle RAPTOR effectue des recherches dans cet arbre, intégrant des informations à travers des documents longs à différents niveaux d'abstraction. Des expériences contrôlées montrent que la recherche avec des résumés récursifs offre des améliorations significatives par rapport aux modèles de langage traditionnels augmentés par recherche sur plusieurs tâches. Sur des tâches de question-réponse impliquant un raisonnement complexe et multi-étapes, nous obtenons des résultats de pointe ; par exemple, en couplant la recherche RAPTOR avec l'utilisation de GPT-4, nous pouvons améliorer la meilleure performance sur le benchmark QuALITY de 20 % en précision absolue.
Les modèles de langage à n-grammes sont-ils encore pertinents à l'ère des grands modèles de langage neuronaux (LLMs) ? Notre réponse est oui, et nous démontrons leur utilité à la fois dans l'analyse de texte et dans l'amélioration des LLMs neuronaux. Cependant, cela nécessite de moderniser les modèles à n-grammes sous deux aspects. Premièrement, nous les entraînons à la même échelle de données que les LLMs neuronaux — 1,4 trillion de tokens. Il s'agit du plus grand modèle à n-grammes jamais construit. Deuxièmement, les modèles à n-grammes existants utilisent un petit n, ce qui limite leurs performances ; nous permettons plutôt à n d'être arbitrairement grand, en introduisant un nouveau modèle de langage infty-gram avec backoff. Au lieu de pré-calculer les tables de comptage de n-grammes (ce qui serait très coûteux), nous développons un moteur nommé infini-gram — alimenté par des tableaux de suffixes — capable de calculer les probabilités infty-gram (ainsi que n-grammes avec n arbitraire) avec une latence de l'ordre de la milliseconde. Le cadre infty-gram et le moteur infini-gram nous permettent de mener de nombreuses analyses novatrices et intéressantes sur les textes écrits par l'homme et générés par machine : nous constatons que le modèle infty-gram présente une précision assez élevée pour la prédiction du token suivant (47 %), et peut compléter les LLMs neuronaux pour réduire considérablement leurs perplexités en modélisation du langage. Lors de l'analyse de textes générés par machine, nous observons également des irrégularités dans le niveau d'accord entre la machine et infty-gram par rapport à la longueur du suffixe, ce qui indique des lacunes dans le pré-entraînement des LLMs neuronaux et dans les embeddings positionnels des Transformers. Nous mettons en open source notre moteur infini-gram dans l'espoir de permettre davantage d'études sur la meilleure façon d'utiliser les informations textuelles extraites de grands corpus de texte.
Les robots à pattes naviguant dans des environnements encombrés doivent être à la fois agiles pour une exécution efficace des tâches et sûrs pour éviter les collisions avec des obstacles ou des humains. Les études existantes développent soit des contrôleurs conservateurs (< 1,0 m/s) pour garantir la sécurité, soit se concentrent sur l'agilité sans tenir compte des collisions potentiellement fatales. Cet article présente Agile But Safe (ABS), un cadre de contrôle basé sur l'apprentissage qui permet une locomotion agile et sans collision pour les robots quadrupèdes. ABS comprend une politique agile pour exécuter des compétences motrices agiles parmi les obstacles et une politique de récupération pour prévenir les échecs, collaborant ainsi à une navigation à haute vitesse et sans collision. Le passage d'une politique à l'autre dans ABS est gouverné par un réseau de valeur d'atteinte-évitement basé sur la théorie du contrôle, qui guide également la politique de récupération en tant que fonction objectif, protégeant ainsi le robot en boucle fermée. Le processus d'entraînement implique l'apprentissage de la politique agile, du réseau de valeur d'atteinte-évitement, de la politique de récupération et d'un réseau de représentation extéroceptive, le tout en simulation. Ces modules entraînés peuvent être directement déployés dans le monde réel avec une perception et un calcul embarqués, permettant une navigation à haute vitesse et sans collision dans des espaces confinés, intérieurs et extérieurs, avec des obstacles statiques et dynamiques.
Les modèles de diffusion vidéo ont suscité un intérêt croissant pour leur capacité à produire des vidéos à la fois cohérentes et de haute fidélité. Cependant, le processus itératif de débruitage les rend intensifs en calcul et chronophages, limitant ainsi leurs applications. Inspirés par le modèle de cohérence (Consistency Model, CM) qui distille des modèles de diffusion d'images pré-entraînés pour accélérer l'échantillonnage avec un nombre minimal d'étapes, ainsi que par son extension réussie, le modèle de cohérence latente (Latent Consistency Model, LCM) pour la génération d'images conditionnelles, nous proposons AnimateLCM, permettant une génération vidéo de haute fidélité en un nombre minimal d'étapes. Au lieu de mener directement un apprentissage de cohérence sur un ensemble de données vidéo brutes, nous proposons une stratégie d'apprentissage de cohérence découplée qui dissocie la distillation des connaissances préalables en génération d'images et en génération de mouvement, améliorant ainsi l'efficacité de l'entraînement et la qualité visuelle de la génération. De plus, pour permettre l'intégration d'adaptateurs plug-and-play de la communauté Stable Diffusion afin d'atteindre diverses fonctionnalités (par exemple, ControlNet pour une génération contrôlée), nous proposons une stratégie efficace pour adapter les adaptateurs existants à notre modèle de cohérence vidéo conditionné par le texte distillé, ou pour entraîner des adaptateurs à partir de zéro sans compromettre la vitesse d'échantillonnage. Nous validons la stratégie proposée dans la génération vidéo conditionnée par des images et la génération vidéo conditionnée par des mises en page, obtenant des résultats parmi les meilleurs. Les résultats expérimentaux confirment l'efficacité de notre méthode. Le code et les poids seront rendus publics. Plus de détails sont disponibles à l'adresse https://github.com/G-U-N/AnimateLCM.
L'extension des grands modèles de langage pour gérer efficacement des contextes longs nécessite un ajustement fin par instruction sur des séquences d'entrée de longueur similaire. Pour répondre à ce besoin, nous présentons LongAlign -- une méthode englobant les données d'instruction, l'entraînement et l'évaluation pour l'alignement des contextes longs. Premièrement, nous construisons un ensemble de données d'instruction longue en utilisant Self-Instruct. Pour garantir la diversité des données, celui-ci couvre un large éventail de tâches provenant de diverses sources de contextes longs. Deuxièmement, nous adoptons des stratégies de regroupement et de tri par lots pour accélérer l'ajustement supervisé sur des données présentant des distributions de longueur variées. De plus, nous développons une méthode de pondération des pertes pour équilibrer la contribution à la perte entre différentes séquences lors de l'entraînement par regroupement. Troisièmement, nous introduisons le benchmark LongBench-Chat pour évaluer les capacités de suivi d'instructions sur des requêtes de 10k à 100k de longueur. Les expériences montrent que LongAlign surpasse les méthodes existantes pour les LLM dans les tâches de contexte long jusqu'à 30\%, tout en maintenant leur compétence dans la gestion de tâches courtes et génériques. Le code, les données et les modèles alignés sur les contextes longs sont open-source à l'adresse https://github.com/THUDM/LongAlign.
Pour parvenir à un raisonnement fidèle qui corresponde aux attentes humaines, les grands modèles de langage (LLMs) doivent ancrer leur raisonnement dans des connaissances du monde réel (par exemple, des faits issus du web, des règles mathématiques et physiques). Les outils aident les LLMs à accéder à ces connaissances externes, mais des défis subsistent pour affiner les agents LLMs (par exemple, Toolformer) afin qu'ils invoquent des outils dans des problèmes de raisonnement à étapes multiples, où des appels d'outils interconnectés nécessitent une planification holistique et efficace de l'utilisation des outils. Dans ce travail, nous proposons une nouvelle méthode permettant aux LLMs de mieux exploiter les outils dans le raisonnement à étapes multiples. Notre méthode, appelée Chaîne d'Abstraction (CoA), entraîne les LLMs à décoder d'abord des chaînes de raisonnement avec des espaces réservés abstraits, puis à appeler des outils de domaine pour concrétiser chaque chaîne de raisonnement en y intégrant des connaissances spécifiques. Cette planification avec des chaînes abstraites permet aux LLMs d'apprendre des stratégies de raisonnement plus générales, qui sont robustes aux variations des connaissances de domaine (par exemple, les résultats mathématiques) pertinentes pour différentes questions de raisonnement. Elle permet également aux LLMs d'effectuer le décodage et l'appel d'outils externes en parallèle, évitant ainsi le délai d'inférence causé par l'attente des réponses des outils. Dans les domaines du raisonnement mathématique et des questions-réponses sur Wiki, nous montrons que notre méthode surpasse systématiquement les approches précédentes basées sur la chaîne de pensée et les LLMs augmentés d'outils, tant sur des ensembles de tests en distribution qu'en dehors de la distribution, avec une amélioration moyenne de ~6 % en précision absolue des réponses. Les agents LLMs entraînés avec notre méthode montrent également une utilisation plus efficace des outils, avec une vitesse d'inférence en moyenne ~1,4 fois plus rapide que les LLMs augmentés d'outils de référence.
La génération de modèles 3D est au cœur de l'informatique graphique et a fait l'objet de décennies de recherche. Avec l'émergence de représentations neuronales avancées et de modèles génératifs, le domaine de la génération de contenu 3D se développe rapidement, permettant la création de modèles 3D de plus en plus diversifiés et de haute qualité. La croissance rapide de ce domaine rend difficile le suivi de toutes les avancées récentes. Dans cette étude, nous visons à introduire les méthodologies fondamentales des méthodes de génération 3D et à établir une feuille de route structurée, englobant la représentation 3D, les méthodes de génération, les jeux de données et les applications correspondantes. Plus précisément, nous présentons les représentations 3D qui servent de fondement à la génération 3D. En outre, nous fournissons un aperçu complet de la littérature en pleine expansion sur les méthodes de génération, classées par type de paradigmes algorithmiques, incluant la génération directe (feedforward), la génération basée sur l'optimisation, la génération procédurale et la synthèse de nouvelles vues génératives. Enfin, nous discutons des jeux de données disponibles, des applications et des défis ouverts. Nous espérons que cette étude aidera les lecteurs à explorer ce sujet passionnant et à favoriser de nouvelles avancées dans le domaine de la génération de contenu 3D.
L'évolution rapide des modèles de langage à grande échelle (LLMs), incarnée par des architectures comme GPT-4, a redéfini le paysage du traitement du langage naturel. Cet article présente une approche novatrice pour répondre aux préoccupations d'efficacité liées au pré-entraînement des LLMs, en proposant l'utilisation de la distillation de connaissances pour un transfert inter-architectures. Tirant parti des insights du mécanisme efficace Hyena, notre méthode remplace les têtes d'attention dans les modèles transformateurs par Hyena, offrant une alternative économique au pré-entraînement traditionnel tout en relevant le défi du traitement des informations contextuelles longues, inhérent aux mécanismes d'attention quadratiques. Contrairement aux méthodes conventionnelles axées sur la compression, notre technique améliore non seulement la vitesse d'inférence, mais dépasse également le pré-entraînement en termes de précision et d'efficacité. À l'ère des LLMs en évolution, notre travail contribue à la quête de solutions d'IA durables, en trouvant un équilibre entre puissance de calcul et impact environnemental.
La simulation vidéo réaliste a démontré un potentiel significatif dans diverses applications, allant de la réalité virtuelle à la production cinématographique. Cela est particulièrement vrai pour les scénarios où la capture de vidéos dans des environnements réels est soit impraticable, soit coûteuse. Les approches existantes en simulation vidéo échouent souvent à modéliser avec précision l'environnement lumineux, à représenter la géométrie des objets ou à atteindre un haut niveau de photoréalisme. Dans cet article, nous proposons Anything in Any Scene, un cadre novateur et générique pour la simulation vidéo réaliste qui intègre de manière fluide tout objet dans une vidéo dynamique existante, en mettant l'accent sur le réalisme physique. Notre cadre général proposé englobe trois processus clés : 1) l'intégration d'un objet réaliste dans une vidéo de scène donnée avec un placement approprié pour assurer un réalisme géométrique ; 2) l'estimation de la distribution lumineuse du ciel et de l'environnement, ainsi que la simulation d'ombres réalistes pour renforcer le réalisme lumineux ; 3) l'utilisation d'un réseau de transfert de style qui affine la vidéo finale pour maximiser le photoréalisme. Nous démontrons expérimentalement que le cadre Anything in Any Scene produit des vidéos simulées d'un grand réalisme géométrique, lumineux et photoréaliste. En atténuant de manière significative les défis associés à la génération de données vidéo, notre cadre offre une solution efficace et économique pour acquérir des vidéos de haute qualité. De plus, ses applications s'étendent bien au-delà de l'augmentation de données vidéo, montrant un potentiel prometteur dans la réalité virtuelle, le montage vidéo et diverses autres applications centrées sur la vidéo. Veuillez consulter notre site web de projet https://anythinginanyscene.github.io pour accéder à notre code de projet et à davantage de résultats vidéo en haute résolution.
Nous présentons le modèle ReplaceAnything3D (RAM3D), une nouvelle méthode d'édition de scènes 3D guidée par texte qui permet le remplacement d'objets spécifiques dans une scène. À partir d'images multi-vues d'une scène, d'une invite textuelle décrivant l'objet à remplacer et d'une invite textuelle décrivant le nouvel objet, notre approche « Effacer-et-Remplacer » permet d'échanger efficacement les objets de la scène avec un nouveau contenu généré, tout en maintenant une cohérence 3D à travers plusieurs points de vue. Nous démontrons la polyvalence de ReplaceAnything3D en l'appliquant à diverses scènes 3D réalistes, en présentant des résultats où les objets modifiés en premier plan s'intègrent harmonieusement avec le reste de la scène sans compromettre son intégrité globale.
Nous proposons CARFF : Conditional Auto-encoded Radiance Field pour la prévision de scènes 3D, une méthode permettant de prédire des scènes 3D futures à partir d'observations passées, telles que des images 2D égocentriques. Notre méthode associe une image à une distribution sur des configurations latentes plausibles de scènes 3D à l'aide d'un encodeur probabiliste, et prédit l'évolution des scènes hypothétiques au fil du temps. Notre représentation latente de la scène conditionne un Neural Radiance Field (NeRF) global pour modéliser une scène 3D, ce qui permet des prédictions explicables et des applications en aval directes. Cette approche va au-delà des travaux précédents en rendu neuronal en prenant en compte des scénarios complexes d'incertitude dans les états et la dynamique de l'environnement. Nous utilisons un entraînement en deux étapes d'un Pose-Conditional-VAE et d'un NeRF pour apprendre des représentations 3D. De plus, nous prédisons de manière auto-régressive les représentations latentes des scènes comme un processus de décision markovien partiellement observable, en exploitant un réseau de densité mixte. Nous démontrons l'utilité de notre méthode dans des scénarios réalistes à l'aide du simulateur de conduite CARLA, où CARFF peut être utilisé pour permettre une planification efficace des trajectoires et des contingences dans des scénarios complexes de conduite autonome multi-agents impliquant des occlusions visuelles.