Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons une approche pour modéliser un a priori dans l'espace image sur la dynamique des scènes. Notre a priori est appris à partir d'une collection de trajectoires de mouvement extraites de séquences vidéo réelles contenant des mouvements naturels oscillants, tels que des arbres, des fleurs, des bougies et des vêtements flottant au vent. Étant donné une seule image, notre modèle entraîné utilise un processus d'échantillonnage par diffusion coordonné en fréquence pour prédire une représentation de mouvement à long terme par pixel dans le domaine de Fourier, que nous appelons une texture de mouvement stochastique neuronale. Cette représentation peut être convertie en trajectoires de mouvement denses qui couvrent une vidéo entière. Avec un module de rendu basé sur l'image, ces trajectoires peuvent être utilisées pour plusieurs applications en aval, comme transformer des images fixes en vidéos dynamiques en boucle fluide, ou permettre aux utilisateurs d'interagir de manière réaliste avec des objets dans des images réelles.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) permettent aux chercheurs et aux développeurs de créer des agents linguistiques autonomes capables de résoudre automatiquement diverses tâches et d'interagir avec des environnements, des humains et d'autres agents via des interfaces en langage naturel. Nous considérons les agents linguistiques comme une direction prometteuse vers l'intelligence artificielle générale et publions Agents, une bibliothèque open-source visant à rendre ces avancées accessibles à un public non spécialiste plus large. Agents est soigneusement conçu pour prendre en charge des fonctionnalités importantes telles que la planification, la mémoire, l'utilisation d'outils, la communication multi-agents et le contrôle symbolique granulaire. Agents est convivial, permettant aux non-spécialistes de construire, personnaliser, tester, ajuster et déployer des agents linguistiques autonomes de pointe sans nécessiter beaucoup de codage. La bibliothèque est également adaptée à la recherche, car sa conception modulaire la rend facilement extensible pour les chercheurs. Agents est disponible à l'adresse https://github.com/aiwaves-cn/agents.
La super-résolution audio est une tâche fondamentale qui consiste à prédire les composantes haute fréquence pour des signaux audio de basse résolution, améliorant ainsi la qualité audio dans les applications numériques. Les méthodes précédentes présentent des limitations, notamment en termes de types d'audio pris en charge (par exemple, musique, parole) et de plages de bande passante spécifiques qu'elles peuvent traiter (par exemple, de 4 kHz à 8 kHz). Dans cet article, nous présentons AudioSR, un modèle génératif basé sur la diffusion, capable de réaliser une super-résolution audio robuste sur une variété de types audio, incluant les effets sonores, la musique et la parole. Plus précisément, AudioSR peut suréchantillonner tout signal audio d'entrée dans la plage de bande passante de 2 kHz à 16 kHz pour obtenir un signal audio haute résolution à 24 kHz de bande passante avec un taux d'échantillonnage de 48 kHz. Une évaluation objective approfondie sur divers benchmarks de super-résolution audio démontre les résultats solides obtenus par le modèle proposé. De plus, notre évaluation subjective montre qu'AudioSR peut fonctionner comme un module plug-and-play pour améliorer la qualité de génération d'un large éventail de modèles génératifs audio, notamment AudioLDM, Fastspeech2 et MusicGen. Notre code et une démonstration sont disponibles à l'adresse https://audioldm.github.io/audiosr.
Le tri et la synthèse des informations clés à partir de vastes quantités de données textuelles représentent une charge importante pour la gestion du temps des cliniciens. Bien que les grands modèles de langage (LLMs) aient montré un immense potentiel dans les tâches de traitement du langage naturel (NLP), leur efficacité dans diverses tâches de synthèse clinique n'a pas encore été rigoureusement examinée. Dans ce travail, nous appliquons des méthodes d'adaptation de domaine à huit LLMs, couvrant six ensembles de données et quatre tâches de synthèse distinctes : les rapports de radiologie, les questions des patients, les notes d'évolution et les dialogues médecin-patient. Notre évaluation quantitative approfondie révèle des compromis entre les modèles et les méthodes d'adaptation, ainsi que des cas où les avancées récentes des LLMs ne conduisent pas nécessairement à de meilleurs résultats. De plus, dans une étude de lecture clinique impliquant six médecins, nous montrons que les synthèses produites par le LLM le mieux adapté sont préférables aux synthèses humaines en termes d'exhaustivité et de précision. Notre analyse qualitative subséquente met en lumière les défis communs rencontrés à la fois par les LLMs et les experts humains. Enfin, nous corrélons les métriques quantitatives traditionnelles du NLP avec les scores de l'étude de lecture pour mieux comprendre comment ces métriques s'alignent sur les préférences des médecins. Notre recherche constitue la première preuve que les LLMs surpassent les experts humains dans la synthèse de textes cliniques sur plusieurs tâches. Cela suggère que l'intégration des LLMs dans les flux de travail cliniques pourrait alléger la charge documentaire, permettant aux cliniciens de se concentrer davantage sur les soins personnalisés aux patients et sur d'autres aspects irremplaçables de la médecine.
Le matting vidéo trouve des applications variées, allant de l'ajout d'effets visuels intéressants à des films capturés de manière informelle à l'assistance des professionnels de la production vidéo. Le matting avec des effets associés tels que les ombres et les réflexions a également suscité un intérêt croissant dans la recherche, et des méthodes comme Omnimatte ont été proposées pour séparer les objets dynamiques d'intérêt au premier plan en couches distinctes. Cependant, les travaux antérieurs représentent les arrière-plans vidéo sous forme de couches d'images 2D, limitant ainsi leur capacité à exprimer des scènes plus complexes, ce qui entrave leur application à des vidéos du monde réel. Dans cet article, nous proposons une nouvelle méthode de matting vidéo, OmnimatteRF, qui combine des couches dynamiques 2D au premier plan et un modèle d'arrière-plan 3D. Les couches 2D préservent les détails des sujets, tandis que l'arrière-plan 3D reconstruit de manière robuste les scènes dans les vidéos du monde réel. Des expériences approfondies démontrent que notre méthode reconstruit les scènes avec une meilleure qualité sur diverses vidéos.
L'apprentissage en contexte (ICL), c'est-à-dire le fait de montrer aux modèles de langage de grande taille (LLM) seulement quelques démonstrations spécifiques à une tâche, a conduit à des gains en aval sans nécessiter de réglage fin spécifique à la tâche. Cependant, les LLM sont sensibles au choix des invites, et donc une question de recherche cruciale est de savoir comment sélectionner de bonnes démonstrations pour l'ICL. Une stratégie efficace consiste à exploiter la similarité sémantique entre les démonstrations ICL et les entrées de test en utilisant un récupérateur de texte, ce qui est cependant sous-optimal car cela ne prend pas en compte les connaissances existantes du LLM sur cette tâche. D'après des travaux antérieurs (Min et al., 2022), nous savons déjà que les étiquettes associées aux démonstrations biaisent les prédictions du modèle. Cela nous amène à notre hypothèse selon laquelle la prise en compte des connaissances existantes du LLM sur la tâche, en particulier en ce qui concerne l'espace des étiquettes de sortie, peut contribuer à une meilleure stratégie de sélection des démonstrations. À travers des expérimentations approfondies sur trois tâches de classification de texte, nous constatons qu'il est bénéfique non seulement de choisir des démonstrations ICL sémantiquement similaires, mais aussi de choisir celles qui aident à résoudre l'ambiguïté inhérente des étiquettes entourant l'exemple de test. Fait intéressant, nous constatons que l'inclusion de démonstrations que le LLM a précédemment mal classées et qui se situent également sur la frontière de décision de l'exemple de test, apporte le plus grand gain de performance.
Les modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes dans les tâches de traitement du langage naturel (NLP), telles que la réponse à des questions, la synthétisation et la classification. L'utilisation des LLMs en tant qu'évaluateurs, capables de classer ou de noter la sortie d'autres modèles (généralement des LLMs), est devenue de plus en plus populaire, en raison des limitations des techniques d'évaluation actuelles, notamment le manque de benchmarks appropriés, de métriques, de coûts et d'accès à des annotateurs humains. Bien que les LLMs soient capables de gérer environ 100 langues, la majorité des langues au-delà des 20 premières manquent d'évaluation systématique à travers diverses tâches, métriques et benchmarks. Cela crée un besoin urgent de renforcer l'évaluation multilingue pour garantir une compréhension précise des performances des LLMs dans des langues diverses. Les évaluateurs basés sur les LLMs semblent être la solution idéale à ce problème, car ils ne nécessitent pas d'annotateurs humains, de références créées par l'homme ou de benchmarks, et peuvent théoriquement être utilisés pour évaluer n'importe quelle langue couverte par le LLM. Dans cet article, nous examinons si les évaluateurs basés sur les LLMs peuvent contribuer à renforcer l'évaluation multilingue. Plus précisément, nous calibrons l'évaluation basée sur les LLMs par rapport à 20 000 jugements humains sur cinq métriques à travers trois tâches de génération de texte dans huit langues. Nos résultats indiquent que les évaluateurs basés sur les LLMs peuvent présenter un biais en faveur de scores plus élevés et devraient être utilisés avec prudence, et devraient toujours être calibrés avec un ensemble de données de jugements de locuteurs natifs, en particulier dans les langues à faibles ressources et les langues utilisant des scripts non latins.