papers.description
Nous explorons une stratégie de recherche évolutive pour optimiser le temps d'inférence des calculs dans les grands modèles de langage. L'approche proposée, Évolution Mentale, utilise un modèle de langage pour générer, recombiner et affiner les réponses candidates. Cette approche évite la nécessité de formaliser le problème d'inférence sous-jacent chaque fois qu'un évaluateur de solution est disponible. En contrôlant le coût de l'inférence, nous constatons que l'Évolution Mentale surpasse significativement d'autres stratégies d'inférence telles que Meilleur-de-N et Révision Séquentielle dans les tâches de planification en langage naturel. Dans les benchmarks TravelPlanner et Natural Plan, l'Évolution Mentale résout plus de 98 % des instances de problème en utilisant Gemini 1.5 Pro sans recourir à un solveur formel.
Nous présentons PaSa, un agent de recherche avancé alimenté par de grands modèles de langage. PaSa peut prendre autonomement une série de décisions, y compris invoquer des outils de recherche, lire des articles et sélectionner des références pertinentes, pour finalement obtenir des résultats complets et précis pour des requêtes académiques complexes. Nous optimisons PaSa en utilisant l'apprentissage par renforcement avec un ensemble de données synthétique, AutoScholarQuery, qui comprend 35 000 requêtes académiques détaillées et les articles correspondants provenant de publications de conférences en IA de premier plan. De plus, nous développons RealScholarQuery, une référence regroupant des requêtes académiques du monde réel pour évaluer les performances de PaSa dans des scénarios plus réalistes. Malgré son entraînement sur des données synthétiques, PaSa surpasse significativement les baselines existantes sur RealScholarQuery, y compris Google, Google Scholar, Google avec GPT-4 pour les requêtes paraphrasées, chatGPT (GPT-4o activé pour la recherche), GPT-4o et PaSa-GPT-4o (PaSa implémenté en interagissant avec GPT-4o). Notamment, PaSa-7B dépasse la meilleure baseline basée sur Google, Google avec GPT-4o, de 37,78 % en rappel@20 et de 39,90 % en rappel@50. Il dépasse également PaSa-GPT-4o de 30,36 % en rappel et de 4,25 % en précision. Le modèle, les ensembles de données et le code sont disponibles sur https://github.com/bytedance/pasa.
L'une des méthodes les plus largement utilisées pour évaluer les LLM sont les tests à choix multiples (TCM). Les référentiels de TCM permettent de tester les connaissances des LLM sur presque n'importe quel sujet à grande échelle car les résultats peuvent être traités automatiquement. Pour aider le LLM à répondre, quelques exemples appelés "quelques exemples" peuvent être inclus dans la consigne. De plus, on peut demander au LLM de répondre directement avec l'option sélectionnée ou de fournir d'abord le raisonnement puis la réponse sélectionnée, ce qui est connu sous le nom de "chaîne de pensée". En plus de vérifier si la réponse sélectionnée est correcte, l'évaluation peut examiner la probabilité estimée par le LLM de sa réponse comme indication de la confiance du LLM dans la réponse. Dans cet article, nous étudions comment la confiance du LLM dans sa réponse dépend du fait que le modèle ait été invité à répondre directement ou à fournir le raisonnement avant de répondre. Les résultats de l'évaluation des questions sur un large éventail de sujets dans sept modèles différents montrent que les LLM sont plus confiants dans leurs réponses lorsqu'ils fournissent un raisonnement avant la réponse. Cela se produit indépendamment de la correction de la réponse sélectionnée. Notre hypothèse est que ce comportement est dû au raisonnement qui modifie la probabilité de la réponse sélectionnée, car le LLM prédit la réponse en fonction de la question d'entrée et du raisonnement qui soutient la sélection effectuée. Par conséquent, il semble que les probabilités estimées par les LLM présentent des limitations intrinsèques qui doivent être comprises pour les utiliser dans les procédures d'évaluation. Fait intéressant, le même comportement a été observé chez les humains, pour qui expliquer une réponse augmente la confiance en sa correction.
Le style de dessin animé en 2D est une forme d'art prédominante dans la création de personnages numériques, particulièrement populaire auprès des jeunes publics. Alors que les avancées dans la technologie numérique humaine ont suscité une recherche approfondie sur les humains numériques photoréalistes et les personnages en 3D, les personnages de dessins animés interactifs en 2D ont reçu comparativement moins d'attention. Contrairement à leurs homologues en 3D, qui nécessitent une construction sophistiquée et un rendu intensif en ressources, Live2D, un format largement utilisé pour les personnages de dessins animés en 2D, offre une alternative plus efficace, permettant d'animer des personnages en 2D de manière à simuler un mouvement en 3D sans la nécessité de construire un modèle 3D complet. De plus, Live2D utilise un rendu HTML5 (H5) léger, améliorant à la fois l'accessibilité et l'efficacité. Dans ce rapport technique, nous présentons Textoon, une méthode innovante pour générer divers personnages de dessins animés en 2D dans le format Live2D basée sur des descriptions textuelles. Le Textoon exploite des modèles linguistiques et de vision de pointe pour comprendre les intentions textuelles et générer une apparence en 2D, capable de créer une grande variété de personnages de dessins animés interactifs et époustouflants en 2D en une minute. La page d'accueil du projet est https://human3daigc.github.io/Textoon_webpage/.
L'amélioration des grands modèles de langage (LLMs) avec des API en temps réel peut aider à générer des réponses plus précises et actualisées. Cependant, l'évaluation des capacités d'appel de fonction des LLMs dans des scénarios du monde réel reste peu explorée en raison de la complexité de la collecte et de l'évaluation des données. Dans ce travail, nous introduisons ComplexFuncBench, un banc d'essai pour l'appel de fonctions complexes à travers cinq scénarios du monde réel. Comparé aux bancs d'essai existants, ComplexFuncBench englobe des appels de fonctions multi-étapes et contraints, nécessitant un remplissage de longs paramètres, un raisonnement sur les valeurs des paramètres et un contexte long de 128k. De plus, nous proposons un cadre automatique, ComplexEval, pour évaluer quantitativement les tâches d'appel de fonctions complexes. À travers des expériences approfondies, nous démontrons les lacunes des LLMs de pointe dans l'appel de fonctions et suggérons des orientations futures pour optimiser ces capacités. Les données et le code sont disponibles sur https://github.com/THUDM/ComplexFuncBench.
Nous présentons X-Dyna, un nouveau pipeline à base de diffusion zéro-shot pour animer une seule image humaine en utilisant des expressions faciales et des mouvements corporels dérivés d'une vidéo de référence, qui génère des dynamiques réalistes et contextuellement adaptées à la fois pour le sujet et l'environnement environnant. S'appuyant sur des approches antérieures centrées sur le contrôle de la pose humaine, X-Dyna aborde les lacunes clés entraînant la perte de détails dynamiques, améliorant ainsi les qualités réalistes des animations vidéo humaines. Au cœur de notre approche se trouve le Dynamics-Adapter, un module léger qui intègre efficacement le contexte d'apparence de référence dans les attentions spatiales de l'épine dorsale de diffusion tout en préservant la capacité des modules de mouvement à synthétiser des détails dynamiques fluides et complexes. Au-delà du contrôle de la pose du corps, nous relions un module de contrôle local à notre modèle pour capturer des expressions faciales désenchevêtrées de l'identité, facilitant le transfert précis des expressions pour une réalisme accru dans les scènes animées. Ensemble, ces composants forment un cadre unifié capable d'apprendre le mouvement humain physique et les dynamiques naturelles de scène à partir d'un mélange diversifié de vidéos humaines et de scène. Des évaluations qualitatives et quantitatives exhaustives démontrent que X-Dyna surpasse les méthodes de pointe, créant des animations hautement réalistes et expressives. Le code est disponible sur https://github.com/bytedance/X-Dyna.
Cet article examine les défis liés au développement de grands modèles de langage (LLM) compétents à la fois dans la compréhension multilingue et les connaissances médicales. Nous démontrons que la simple traduction des données médicales ne garantit pas des performances solides dans les tâches cliniques dans la langue cible. Nos expériences révèlent que le mélange optimal de langues dans les données d'entraînement varie considérablement selon les différentes tâches médicales. Nous constatons que des modèles plus grands avec des ratios de langues soigneusement calibrés obtiennent des performances supérieures dans les tâches cliniques en langue maternelle. De plus, nos résultats suggèrent que se fier uniquement au fine-tuning pourrait ne pas être l'approche la plus efficace pour intégrer de nouvelles connaissances linguistiques dans les LLM. Au lieu de cela, des méthodes d'entraînement préalable intensives en données et en calcul peuvent encore être nécessaires pour atteindre des performances optimales dans des contextes médicaux multilingues. Ces conclusions offrent des orientations précieuses pour la construction de systèmes d'IA médicale efficaces et inclusifs pour des communautés linguistiques diverses.
L'application des réseaux génératifs antagonistes (GAN) a récemment fait progresser la super-résolution de la parole basée sur des représentations intermédiaires telles que les mélo-spectrogrammes. Cependant, les méthodes de super-résolution existantes qui reposent généralement sur des réseaux entraînés de manière indépendante et concaténés peuvent conduire à des représentations incohérentes et une mauvaise qualité de la parole, en particulier dans des scénarios hors domaine. Dans ce travail, nous proposons HiFi-SR, un réseau unifié qui exploite l'entraînement antagoniste de bout en bout pour atteindre une super-résolution de la parole haute fidélité. Notre modèle présente un générateur transformateur-convolutif unifié conçu pour gérer de manière transparente à la fois la prédiction des représentations latentes et leur conversion en formes d'onde dans le domaine temporel. Le réseau transformateur agit en tant qu'encodeur puissant, convertissant les mélo-spectrogrammes basse résolution en représentations d'espace latent, tandis que le réseau convolutif met à l'échelle ces représentations en formes d'onde haute résolution. Pour améliorer la fidélité des hautes fréquences, nous incorporons un discriminateur multi-bande, multi-échelle temps-fréquence, ainsi qu'une perte de reconstruction mélo multi-échelle dans le processus d'entraînement antagoniste. HiFi-SR est polyvalent, capable d'augmenter le taux d'échantillonnage de toute signal vocal d'entrée entre 4 kHz et 32 kHz à 48 kHz. Les résultats expérimentaux démontrent que HiFi-SR surpasse significativement les méthodes existantes de super-résolution de la parole à la fois en termes de mesures objectives et de tests de préférence ABX, pour les scénarios à la fois dans le domaine et hors domaine (https://github.com/modelscope/ClearerVoice-Studio).
Nous présentons GaussianAvatar-Editor, un cadre novateur pour l'édition basée sur le texte d'avatars de tête gaussiens animables qui peuvent être entièrement contrôlés en expression, pose et point de vue. Contrairement à l'édition gaussienne 3D statique, l'édition d'avatars gaussiens animables en 4D présente des défis liés à l'occlusion de mouvement et à l'incohérence spatiale-temporelle. Pour résoudre ces problèmes, nous proposons l'Équation de Mélange Alpha Pondéré (WABE). Cette fonction renforce le poids de mélange des Gaussiennes visibles tout en supprimant l'influence sur les Gaussiennes non visibles, gérant efficacement l'occlusion de mouvement lors de l'édition. De plus, pour améliorer la qualité de l'édition et garantir la cohérence en 4D, nous intégrons l'apprentissage adversarial conditionnel dans le processus d'édition. Cette stratégie aide à affiner les résultats édités et à maintenir la cohérence tout au long de l'animation. En intégrant ces méthodes, notre GaussianAvatar-Editor obtient des résultats photoréalistes et cohérents dans l'édition gaussienne animable en 4D. Nous menons des expériences approfondies sur divers sujets pour valider l'efficacité de nos techniques proposées, démontrant la supériorité de notre approche par rapport aux méthodes existantes. Plus de résultats et de code sont disponibles sur : [Lien du Projet](https://xiangyueliu.github.io/GaussianAvatar-Editor/).