ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Оживление объектов: генерация 4D из 3D объектов
Bringing Objects to Life: 4D generation from 3D objects

Dec 29
ByOhad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
40
2

Недавние достижения в области генеративного моделирования теперь позволяют создавать контент в 4D (движущиеся 3D объекты), управляемый текстовыми подсказками. Генерация в 4D имеет большой потенциал в приложениях, таких как виртуальные миры, медиа и игры, однако существующие методы обладают ограниченным контролем над внешним видом и геометрией созданного контента. В данной работе мы представляем метод анимации предоставленных пользователем 3D объектов путем условной генерации в 4D с использованием текстовых подсказок для управления процессом, обеспечивая создание индивидуальных анимаций при сохранении исходной идентичности объекта. Сначала мы преобразуем 3D сетку в "статическое" 4D нейронное поле излучения (NeRF), сохраняющее визуальные характеристики входного объекта. Затем мы анимируем объект с помощью модели диффузии изображения в видео, управляемой текстом. Для улучшения реалистичности движения мы представляем протокол пошагового выбора точек зрения для выборки перспектив с целью стимулирования естественного движения, а также потерю выборки сжатия оценки (SDS), которая использует карты внимания для фокусировки оптимизации на значимых областях. Мы оцениваем нашу модель с точки зрения временной согласованности, соблюдения подсказок и визуальной достоверности, и обнаруживаем, что наш метод превосходит базовые варианты, основанные на других подходах, достигая улучшений в сохранении идентичности вплоть до трехкратного увеличения по мере использования оценок LPIPS, а также эффективно сбалансировав качество изображения с динамичным контентом.

2

Не думайте слишком много о 2+3=? Об излишнем анализе o1-подобных LLM-моделей.
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30
ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
40
2

Замечательная производительность моделей, таких как OpenAI o1, можно объяснить их способностью эмулировать человекоподобное мышление на длительные сроки во время вывода. Эти модели используют расширенные процессы цепочки мыслей (CoT), исследуя несколько стратегий для улучшения способностей к решению проблем. Однако остается критический вопрос: как интеллектуально и эффективно масштабировать вычислительные ресурсы во время тестирования. В данной статье представлено первое всестороннее исследование распространенной проблемы излишнего мышления в этих моделях, когда избыточные вычислительные ресурсы выделяются на простые задачи с минимальной пользой. Мы представляем новые метрики эффективности с точки зрения как результата, так и процесса, чтобы оценить рациональное использование вычислительных ресурсов моделями подобными o1. Используя парадигму самообучения, мы предлагаем стратегии для смягчения излишнего мышления, оптимизируя процессы рассуждения без ущерба точности. Экспериментальные результаты показывают, что наш подход успешно снижает вычислительные издержки, сохраняя производительность модели на различных наборах тестов с разными уровнями сложности, таких как GSM8K, MATH500, GPQA и AIME.

3

TangoFlux: очень быстрое и точное преобразование текста в аудио с использованием сопоставления потоков и оптимизации предпочтений с ранжированием по аплодам.
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30
ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
24
4

Мы представляем TangoFlux, эффективную генеративную модель текста в аудио (TTA) с 515 миллионами параметров, способную генерировать до 30 секунд аудио с частотой 44,1 кГц всего за 3,7 секунды на одном графическом процессоре A40. Одной из ключевых проблем в выравнивании моделей TTA является сложность создания пар предпочтения, так как у TTA отсутствуют структурированные механизмы, такие как проверяемые вознаграждения или золотые стандартные ответы, доступные для больших языковых моделей (LLM). Для решения этой проблемы мы предлагаем CLAP-Ranked Preference Optimization (CRPO), новую структуру, которая итеративно генерирует и оптимизирует данные предпочтения для улучшения выравнивания TTA. Мы демонстрируем, что набор данных предпочтений аудио, сгенерированный с использованием CRPO, превосходит существующие альтернативы. С помощью этой структуры TangoFlux достигает передовой производительности как по объективным, так и по субъективным показателям. Мы открываем исходный код и модели для поддержки дальнейших исследований в области генерации TTA.

4

Обучение агентов и верификаторов программного обеспечения с использованием SWE-Gym.
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30
ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
24
2

Мы представляем SWE-Gym, первую среду для обучения агентов по реальным задачам в инженерии программного обеспечения (SWE). SWE-Gym содержит 2 438 реальных задач на Python, каждая из которых включает кодовую базу с исполняемой средой, модульными тестами и задачу, описанную на естественном языке. Мы используем SWE-Gym для обучения агентов SWE на основе языковой модели, достигая до 19% абсолютного прироста в проценте успешного выполнения на популярных наборах тестов SWE-Bench Verified и Lite. Мы также экспериментируем с масштабированием на этапе вывода с помощью верификаторов, обученных на траекториях агентов, сэмплированных из SWE-Gym. При комбинировании с нашими настроенными агентами SWE мы достигаем результатов 32,0% и 26,0% на наборах тестов SWE-Bench Verified и Lite соответственно, что отражает новейшие достижения в области агентов SWE с открытым весом. Для облегчения дальнейших исследований мы публично выпускаем SWE-Gym, модели и траектории агентов.

Dec 31
Jan 1
Jan 2