papers.description
Les récents progrès en modélisation générative permettent désormais la création de contenu 4D (objets 3D en mouvement) contrôlé par des instructions textuelles. La génération 4D présente un grand potentiel dans des applications telles que les mondes virtuels, les médias et les jeux, mais les méthodes existantes offrent un contrôle limité sur l'apparence et la géométrie du contenu généré. Dans ce travail, nous introduisons une méthode pour animer des objets 3D fournis par l'utilisateur en conditionnant sur des instructions textuelles pour guider la génération 4D, permettant des animations personnalisées tout en préservant l'identité de l'objet d'origine. Nous convertissons d'abord un maillage 3D en un champ de radiance neurale 4D "statique" (NeRF) qui préserve les attributs visuels de l'objet d'entrée. Ensuite, nous animons l'objet en utilisant un modèle de diffusion d'image-vidéo piloté par du texte. Pour améliorer le réalisme du mouvement, nous introduisons un protocole incrémental de sélection de points de vue pour échantillonner des perspectives afin de favoriser un mouvement réaliste et une perte de distillation de score masquée (SDS), qui exploite des cartes d'attention pour concentrer l'optimisation sur les régions pertinentes. Nous évaluons notre modèle en termes de cohérence temporelle, d'adhérence aux instructions et de fidélité visuelle et constatons que notre méthode surpasse les références basées sur d'autres approches, atteignant jusqu'à trois fois d'améliorations dans la préservation de l'identité mesurée à l'aide des scores LPIPS, et équilibrant efficacement la qualité visuelle avec le contenu dynamique.
La performance remarquable des modèles tels que l'OpenAI o1 peut être attribuée à leur capacité à émuler une réflexion à long terme semblable à celle des humains lors de l'inférence. Ces modèles utilisent des processus de chaîne de pensée étendue (CoT), explorant plusieurs stratégies pour améliorer les capacités de résolution de problèmes. Cependant, une question cruciale demeure : comment mettre à l'échelle de manière intelligente et efficace les ressources computationnelles lors des tests. Cet article présente la première étude complète sur le problème prévalent de la surréflexion dans ces modèles, où des ressources computationnelles excessives sont allouées pour des problèmes simples avec un bénéfice minimal. Nous introduisons de nouvelles mesures d'efficacité des deux perspectives, résultat et processus, pour évaluer l'utilisation rationnelle des ressources computationnelles par des modèles similaires à o1. En utilisant un paradigme d'auto-apprentissage, nous proposons des stratégies pour atténuer la surréflexion, rationalisant les processus de raisonnement sans compromettre la précision. Les résultats expérimentaux montrent que notre approche réduit avec succès la surcharge computationnelle tout en préservant la performance du modèle sur une gamme de jeux de tests avec des niveaux de difficulté variables, tels que GSM8K, MATH500, GPQA et AIME.
Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficace avec 515 millions de paramètres, capable de générer jusqu'à 30 secondes de son à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Un défi clé dans l'alignement des modèles TTA réside dans la difficulté de créer des paires de préférences, car le TTA ne dispose pas de mécanismes structurés tels que des récompenses vérifiables ou des réponses de référence disponibles pour les Grands Modèles de Langage (LLM). Pour y remédier, nous proposons l'Optimisation de Préférence Classée par CLAP (CRPO), un cadre novateur qui génère et optimise de manière itérative des données de préférence pour améliorer l'alignement du TTA. Nous démontrons que l'ensemble de données de préférences audio généré à l'aide de CRPO surpasse les alternatives existantes. Avec ce cadre, TangoFlux atteint des performances de pointe à la fois sur des critères objectifs et subjectifs. Nous mettons tout le code et les modèles en open source pour soutenir de futures recherches dans la génération TTA.
Nous présentons SWE-Gym, le premier environnement pour l'entraînement d'agents d'ingénierie logicielle (SWE) du monde réel. SWE-Gym contient 2 438 instances de tâches Python du monde réel, chacune comprenant une base de code avec un environnement d'exécution exécutable, des tests unitaires et une tâche spécifiée en langage naturel. Nous utilisons SWE-Gym pour entraîner des agents SWE basés sur des modèles de langage, obtenant jusqu'à 19% de gains absolus dans le taux de résolution sur les ensembles de tests populaires SWE-Bench Verified et Lite. Nous expérimentons également avec la mise à l'échelle au moment de l'inférence à travers des vérificateurs entraînés sur les trajectoires des agents échantillonnées à partir de SWE-Gym. Lorsqu'ils sont combinés avec nos agents SWE affinés, nous atteignons 32,0% et 26,0% sur SWE-Bench Verified et Lite, respectivement, reflétant un nouvel état de l'art pour les agents SWE à poids ouvert. Pour faciliter davantage la recherche, nous publions publiquement SWE-Gym, les modèles et les trajectoires des agents.