ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

TangoFlux : Génération de texte en audio super rapide et fidèle avec appariement de flux et optimisation des préférences classées par applaudissements
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30
ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
24
4

Nous présentons TangoFlux, un modèle génératif Texte-vers-Audio (TTA) efficace avec 515 millions de paramètres, capable de générer jusqu'à 30 secondes de son à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Un défi clé dans l'alignement des modèles TTA réside dans la difficulté de créer des paires de préférences, car le TTA ne dispose pas de mécanismes structurés tels que des récompenses vérifiables ou des réponses de référence disponibles pour les Grands Modèles de Langage (LLM). Pour y remédier, nous proposons l'Optimisation de Préférence Classée par CLAP (CRPO), un cadre novateur qui génère et optimise de manière itérative des données de préférence pour améliorer l'alignement du TTA. Nous démontrons que l'ensemble de données de préférences audio généré à l'aide de CRPO surpasse les alternatives existantes. Avec ce cadre, TangoFlux atteint des performances de pointe à la fois sur des critères objectifs et subjectifs. Nous mettons tout le code et les modèles en open source pour soutenir de futures recherches dans la génération TTA.

2

Former des agents et des vérificateurs en génie logiciel avec SWE-Gym.
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30
ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
24
2

Nous présentons SWE-Gym, le premier environnement pour l'entraînement d'agents d'ingénierie logicielle (SWE) du monde réel. SWE-Gym contient 2 438 instances de tâches Python du monde réel, chacune comprenant une base de code avec un environnement d'exécution exécutable, des tests unitaires et une tâche spécifiée en langage naturel. Nous utilisons SWE-Gym pour entraîner des agents SWE basés sur des modèles de langage, obtenant jusqu'à 19% de gains absolus dans le taux de résolution sur les ensembles de tests populaires SWE-Bench Verified et Lite. Nous expérimentons également avec la mise à l'échelle au moment de l'inférence à travers des vérificateurs entraînés sur les trajectoires des agents échantillonnées à partir de SWE-Gym. Lorsqu'ils sont combinés avec nos agents SWE affinés, nous atteignons 32,0% et 26,0% sur SWE-Bench Verified et Lite, respectivement, reflétant un nouvel état de l'art pour les agents SWE à poids ouvert. Pour faciliter davantage la recherche, nous publions publiquement SWE-Gym, les modèles et les trajectoires des agents.

Dec 31
Jan 1
Jan 2