Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement (RL) s'est imposé comme une approche prometteuse pour améliorer le raisonnement des grands modèles de langage (LLM). Cependant, la plupart des efforts ouverts se concentrent de manière étroite sur les mathématiques et le code, limitant ainsi notre compréhension de son applicabilité plus large au raisonnement général. Un défi majeur réside dans le manque de signaux de récompense RL fiables et évolutifs à travers divers domaines de raisonnement. Nous présentons Guru, un corpus de raisonnement RL soigneusement constitué de 92 000 exemples vérifiables couvrant six domaines de raisonnement—Mathématiques, Code, Science, Logique, Simulation et Tabulaire—chacun construit grâce à une conception de récompense spécifique au domaine, une déduplication et un filtrage pour garantir la fiabilité et l'efficacité pour l'entraînement RL. Sur la base de Guru, nous revisitons systématiquement les conclusions établies en RL pour le raisonnement des LLM et observons des variations significatives entre les domaines. Par exemple, alors que les travaux antérieurs suggèrent que le RL mobilise principalement les connaissances existantes des modèles pré-entraînés, nos résultats révèlent un schéma plus nuancé : les domaines fréquemment rencontrés lors du pré-entraînement (Mathématiques, Code, Science) bénéficient facilement d'un entraînement RL interdomaine, tandis que les domaines avec une exposition limitée au pré-entraînement (Logique, Simulation et Tabulaire) nécessitent un entraînement intra-domaine pour obtenir des gains de performance significatifs, suggérant que le RL est susceptible de faciliter une véritable acquisition de compétences. Enfin, nous présentons Guru-7B et Guru-32B, deux modèles qui atteignent des performances de pointe parmi les modèles ouverts entraînés par RL avec des données publiquement disponibles, surpassant les meilleures bases de référence de 7,9 % et 6,7 % sur notre suite d'évaluation de 17 tâches couvrant six domaines de raisonnement. Nous montrons également que nos modèles améliorent efficacement la performance Pass@k de leurs modèles de base, en particulier sur les tâches complexes moins susceptibles d'apparaître dans les données de pré-entraînement. Nous publions les données, les modèles, ainsi que les codes d'entraînement et d'évaluation pour faciliter le raisonnement à usage général à l'adresse suivante : https://github.com/LLM360/Reasoning360.
Cet article présente des modèles multimodaux unifiés natifs améliorés, à savoir Show-o2, qui exploitent la modélisation autorégressive et l'appariement de flux. Construits sur un espace d'autoencodeur variationnel causal 3D, des représentations visuelles unifiées sont élaborées via un chemin double de fusion spatiale (-temporelle), permettant une extensibilité à travers les modalités d'images et de vidéos tout en assurant une compréhension et une génération multimodales efficaces. Basé sur un modèle de langage, la modélisation autorégressive et l'appariement de flux sont appliqués de manière native respectivement à la tête de langage et à la tête de flux, afin de faciliter la prédiction de tokens textuels et la génération d'images/vidéos. Une recette d'entraînement en deux étapes est conçue pour apprendre efficacement et s'adapter à des modèles plus grands. Les modèles Show-o2 résultants démontrent une polyvalence dans la gestion d'une large gamme de tâches de compréhension et de génération multimodales à travers diverses modalités, incluant le texte, les images et les vidéos. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/showlab/Show-o.
Les progrès des modèles de synthèse vocale et de génération audio nécessitent des benchmarks robustes pour évaluer les capacités de compréhension émotionnelle des systèmes d’intelligence artificielle. Les ensembles de données actuels pour la reconnaissance des émotions dans la parole (Speech Emotion Recognition, SER) présentent souvent des limitations en termes de granularité émotionnelle, de préoccupations liées à la confidentialité ou de dépendance à des interprétations jouées. Cet article présente EmoNet-Voice, une nouvelle ressource pour la détection des émotions dans la parole, comprenant EmoNet-Voice Big, un ensemble de données de pré-entraînement à grande échelle (comprenant plus de 4 500 heures de parole réparties sur 11 voix, 40 émotions et 4 langues), et EmoNet-Voice Bench, un nouvel ensemble de données de référence annoté par des experts humains. EmoNet-Voice est conçu pour évaluer les modèles SER sur un spectre finement granulaire de 40 catégories d’émotions avec différents niveaux d’intensité. En exploitant les technologies de pointe en génération vocale, nous avons sélectionné des extraits audio synthétiques simulant des acteurs interprétant des scènes conçues pour susciter des émotions spécifiques. De manière cruciale, nous avons mené une validation rigoureuse par des experts en psychologie qui ont attribué des étiquettes d’intensité perçue. Cette approche synthétique et respectueuse de la confidentialité permet d’inclure des états émotionnels sensibles souvent absents des ensembles de données existants. Enfin, nous présentons les modèles Empathic Insight Voice, qui établissent une nouvelle référence en matière de reconnaissance des émotions dans la parole avec un accord élevé avec les experts humains. Nos évaluations à travers le paysage actuel des modèles révèlent des résultats précieux, tels que la détection plus aisée des émotions à forte activation comme la colère par rapport aux états à faible activation comme la concentration.
Récemment, les modèles de langage multimodal de grande envergure (MLLMs) ont suscité un intérêt croissant en raison de leurs puissantes capacités de compréhension visuelle. Bien qu'ils aient obtenu des résultats impressionnants sur diverses tâches visuelles, leurs performances en matière de génération de code à partir de graphiques restent sous-optimales. Cette tâche nécessite que les MLLMs génèrent un code exécutable capable de reproduire un graphique donné, exigeant non seulement une compréhension visuelle précise, mais aussi une traduction exacte des éléments visuels en code structuré. Le fait de demander directement aux MLLMs d'accomplir cette tâche complexe donne souvent des résultats insatisfaisants. Pour relever ce défi, nous proposons {ChartIR}, une méthode de raffinement itératif basée sur des instructions structurées. Tout d'abord, nous distinguons deux tâches : la compréhension visuelle et la traduction en code. Pour accomplir la composante de compréhension visuelle, nous concevons deux types d'instructions structurées : la description et la différence. L'instruction de description capture les éléments visuels du graphique de référence, tandis que l'instruction de différence caractérise les écarts entre le graphique de référence et le graphique généré. Ces instructions transforment efficacement les caractéristiques visuelles en représentations linguistiques, facilitant ainsi le processus de traduction en code. Ensuite, nous décomposons le pipeline global de génération de graphiques en deux étapes : la génération initiale de code et le raffinement itératif, permettant une amélioration progressive du résultat final. Les résultats expérimentaux montrent que, par rapport à d'autres méthodes, notre méthode obtient des performances supérieures à la fois sur le modèle open-source Qwen2-VL et sur le modèle propriétaire GPT-4o.
Les légendes détaillées qui reflètent avec précision les caractéristiques d'un morceau de musique peuvent enrichir les bases de données musicales et faire progresser la recherche en intelligence artificielle musicale. Cet article présente un modèle de légendage musical multitâche, SonicVerse, qui intègre la génération de légendes avec des tâches auxiliaires de détection de caractéristiques musicales telles que la détection de tonalité, la détection de voix, et plus encore, afin de capturer directement à la fois les détails acoustiques de bas niveau et les attributs musicaux de haut niveau. La contribution principale est une architecture basée sur la projection qui transforme l'entrée audio en tokens linguistiques, tout en détectant simultanément les caractéristiques musicales grâce à des têtes auxiliaires dédiées. Les sorties de ces têtes sont également projetées en tokens linguistiques, afin d'améliorer l'entrée de légendage. Ce cadre produit non seulement des légendes riches et descriptives pour des fragments musicaux courts, mais permet également directement la génération de descriptions détaillées et temporellement informées pour des morceaux de musique plus longs, en enchaînant les sorties à l'aide d'un modèle de langage de grande envergure. Pour entraîner le modèle, nous avons étendu le jeu de données MusicBench en l'annotant avec des caractéristiques musicales à l'aide de MIRFLEX, un extracteur de caractéristiques musicales modulaire, aboutissant à des données audio, de légendes et de caractéristiques musicales appariées. Les résultats expérimentaux montrent que l'incorporation de caractéristiques de cette manière améliore la qualité et le détail des légendes générées.
Les récents modèles de langage à grande échelle (LLMs) ont rapporté une grande précision sur les benchmarks de raisonnement. Cependant, il reste incertain si les résultats observés découlent d'un véritable raisonnement ou d'une récupération statistique de l'ensemble d'entraînement. Inspiré par l'échelle de causalité (Pearl, 2009) et ses trois niveaux (associations, interventions et contre-factuels), cet article présente RE-IMAGINE, un cadre pour caractériser une hiérarchie des capacités de raisonnement dans les LLMs, ainsi qu'un pipeline automatisé pour générer des variations de problèmes à différents niveaux de cette hiérarchie. En modifiant les problèmes dans une représentation symbolique intermédiaire, RE-IMAGINE génère un nombre arbitraire de problèmes qui ne peuvent être résolus par la simple mémorisation. De plus, le cadre est général et peut fonctionner dans divers domaines de raisonnement, y compris les mathématiques, le code et la logique. Nous démontrons notre cadre sur quatre benchmarks largement utilisés pour évaluer plusieurs familles de LLMs, et observons une réduction des performances lorsque les modèles sont interrogés avec des variations de problèmes. Ces évaluations indiquent un certain degré de dépendance à la récupération statistique pour les performances passées, et ouvrent la voie à des recherches supplémentaires visant les compétences à travers la hiérarchie de raisonnement.