Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le raisonnement est crucial pour que les grands modèles de langage (LLM) excellent dans une grande variété de tâches. Alors que des méthodes telles que le raisonnement en chaîne de pensée (CoT) améliorent les performances des LLM en décomposant les problèmes en étapes intermédiaires, elles entraînent également une surcharge significative en termes d'utilisation de jetons, ce qui se traduit par des coûts accrus. Nous constatons que le processus de raisonnement des LLM actuels est inutilement long et peut être compressé en incluant un budget de jetons raisonnable dans la requête, mais le choix du budget de jetons joue un rôle crucial dans l'efficacité réelle de la compression. Nous proposons ensuite un cadre de raisonnement LLM conscient du budget de jetons, qui estime dynamiquement les budgets de jetons pour différents problèmes en fonction de la complexité du raisonnement et utilise les budgets de jetons estimés pour guider le processus de raisonnement. Les expériences montrent que notre méthode réduit efficacement les coûts en jetons dans le raisonnement CoT avec seulement une légère réduction des performances, offrant ainsi une solution pratique pour équilibrer l'efficacité et la précision dans le raisonnement LLM. Code : https://github.com/GeniusHTX/TALE.
Dans ce travail, notre objectif est de développer un MLLM capable de comprendre et de résoudre des questions en apprenant à créer chaque étape intermédiaire du raisonnement jusqu'à la réponse finale. À cette fin, nous proposons la Recherche d'Arbre de Monte Carlo Collective (CoMCTS), une nouvelle méthode d'apprentissage du raisonnement pour les MLLMs, qui introduit le concept d'apprentissage collectif dans la "recherche d'arbre" pour une recherche et un apprentissage efficaces et efficients des chemins de raisonnement. L'idée centrale de CoMCTS est d'exploiter les connaissances collectives de plusieurs modèles pour conjecturer, rechercher et identifier de manière collaborative des chemins de raisonnement efficaces menant aux bonnes réponses via quatre opérations itératives comprenant l'Expansion, la Simulation et le Positionnement de l'Erreur, la Rétropropagation et la Sélection. En utilisant CoMCTS, nous construisons Mulberry-260k, un ensemble de données multimodal avec un arbre de nœuds de raisonnement riches, explicites et bien définis pour chaque question. Avec Mulberry-260k, nous effectuons une SFT collective pour entraîner notre modèle, Mulberry, une série de MLLMs avec des capacités de Raisonnement et de Réflexion étape par étape similaires à o1. Des expériences approfondies démontrent la supériorité de nos méthodes proposées sur divers benchmarks. Le code sera disponible sur https://github.com/HJYao00/Mulberry.
Nous présentons une approche efficace sans encodeur pour la compréhension vidéo-langage qui atteint des performances compétitives tout en réduisant significativement la charge computationnelle. Les modèles actuels de vidéo-langage s'appuient généralement sur des encodeurs d'images lourds (300M-1.1B paramètres) ou des encodeurs vidéo (1B-1.4B paramètres), créant un fardeau computationnel substantiel lors du traitement de vidéos multi-images. Notre méthode introduit un nouveau Bloc d'Alignement Spatio-Temporel (STAB) qui traite directement les entrées vidéo sans nécessiter d'encodeurs pré-entraînés tout en n'utilisant que 45M paramètres pour le traitement visuel - au moins une réduction de 6,5 fois par rapport aux approches traditionnelles. L'architecture STAB combine un Encodage Spatio-Temporel Local pour l'extraction de caractéristiques fines, un sous-échantillonnage spatial efficace grâce à une attention apprise et des mécanismes séparés pour modéliser les relations au niveau des images et des vidéos. Notre modèle atteint des performances comparables ou supérieures aux approches basées sur des encodeurs pour la réponse à des questions vidéo ouvertes sur des benchmarks standard. L'évaluation fine de la réponse à des questions vidéo démontre l'efficacité de notre modèle, surpassant les approches basées sur des encodeurs Video-ChatGPT et Video-LLaVA dans des aspects clés comme la justesse et la compréhension temporelle. Des études d'ablation approfondies valident nos choix architecturaux et démontrent l'efficacité de notre approche de modélisation spatio-temporelle tout en atteignant des vitesses de traitement 3 à 4 fois plus rapides que les méthodes précédentes. Le code est disponible sur https://github.com/jh-yi/Video-Panda.
La radio reste un médium omniprésent pour la diffusion d'informations à grande échelle, les stations AM/FM touchant plus d'Américains que les réseaux sociaux basés sur les smartphones ou la télévision en direct. De plus en plus, les émissions radio sont également diffusées en streaming en ligne et consultées sur Internet. Nous présentons WavePulse, un cadre qui enregistre, documente et analyse le contenu radio en temps réel. Bien que notre cadre soit généralement applicable, nous mettons en avant l'efficacité de WavePulse dans le cadre d'un projet collaboratif avec une équipe de politologues se concentrant sur les Élections Présidentielles de 2024. Nous utilisons WavePulse pour surveiller les diffusions en direct de 396 stations de radio d'actualités sur une période de trois mois, traitant près de 500 000 heures de flux audio. Ces flux ont été convertis en transcriptions diarisées avec horodatage et analysés pour suivre des questions clés de science politique au niveau national et étatique. Notre analyse a révélé comment les problématiques locales interagissaient avec les tendances nationales, offrant des perspectives sur la circulation de l'information. Nos résultats démontrent l'efficacité de WavePulse dans la capture et l'analyse du contenu des diffusions en direct de la radio provenant du Web. Le code et l'ensemble de données sont accessibles sur https://wave-pulse.io.
La traduction simultanée de la parole en texte (SimulST) traduit la parole dans la langue source en texte dans la langue cible de manière concomitante avec la parole de l'orateur, garantissant une faible latence pour une meilleure compréhension de l'utilisateur. Malgré son application prévue à la parole non bornée, la plupart des recherches se sont concentrées sur la parole pré-segmentée par l'humain, simplifiant la tâche et négligeant des défis significatifs. Cette focalisation étroite, associée à des incohérences terminologiques répandues, limite l'applicabilité des résultats de recherche aux applications réelles, entravant ainsi le progrès dans le domaine. Notre vaste revue de littérature de 110 articles révèle non seulement ces problèmes critiques dans la recherche actuelle, mais sert également de base à nos contributions clés. Nous 1) définissons les étapes et les composants essentiels d'un système SimulST, en proposant une terminologie normalisée et une taxonomie ; 2) effectuons une analyse approfondie des tendances de la communauté, et 3) formulons des recommandations concrètes et des orientations futures pour combler les lacunes dans la littérature existante, des cadres d'évaluation aux architectures de système, afin de faire progresser le domaine vers des solutions SimulST plus réalistes et efficaces.
Les thérapeutiques peptidiques, une classe majeure de médicaments, ont connu un succès remarquable dans le traitement de maladies telles que le diabète et le cancer, avec des exemples emblématiques tels que les agonistes du récepteur GLP-1 révolutionnant le traitement du diabète de type 2 et de l'obésité. Malgré leur succès, la conception de peptides répondant à des objectifs multiples et conflictuels, tels que l'affinité de liaison à la cible, la solubilité et la perméabilité membranaire, reste un défi majeur. Le développement de médicaments classique et la conception basée sur la structure sont inefficaces pour de telles tâches, car ils ne parviennent pas à optimiser les propriétés fonctionnelles globales critiques pour l'efficacité thérapeutique. Les cadres génératifs existants sont largement limités aux espaces continus, aux sorties non conditionnées ou à un guidage à objectif unique, ce qui les rend inadaptés à l'optimisation de séquences discrètes sur plusieurs propriétés. Pour remédier à cela, nous présentons PepTune, un modèle de diffusion discret multi-objectif pour la génération et l'optimisation simultanées de SMILES de peptides thérapeutiques. Basé sur le cadre du Modèle de Langage Discret Masqué (MDLM), PepTune garantit des structures peptidiques valides avec des calendriers de masquage dépendants de l'état et des objectifs basés sur des pénalités. Pour guider le processus de diffusion, nous proposons une stratégie basée sur la Recherche d'Arbre de Monte Carlo (MCTS) qui équilibre l'exploration et l'exploitation pour affiner de manière itérative les séquences de Pareto-optimal. MCTS intègre des récompenses basées sur des classificateurs avec l'expansion de l'arbre de recherche, surmontant ainsi les défis d'estimation du gradient et la rareté des données inhérents aux espaces discrets. En utilisant PepTune, nous générons des peptides diversifiés et chimiquement modifiés optimisés pour de multiples propriétés thérapeutiques, notamment l'affinité de liaison à la cible, la perméabilité membranaire, la solubilité, l'hémolyse et les caractéristiques de non-fouling sur diverses cibles pertinentes pour les maladies. Dans l'ensemble, nos résultats démontrent que la diffusion discrète guidée par MCTS est une approche puissante et modulaire pour la conception de séquences multi-objectifs dans des espaces d'états discrets.