Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в области генеративного моделирования теперь позволяют создавать контент в 4D (движущиеся 3D объекты), управляемый текстовыми подсказками. Генерация в 4D имеет большой потенциал в приложениях, таких как виртуальные миры, медиа и игры, однако существующие методы обладают ограниченным контролем над внешним видом и геометрией созданного контента. В данной работе мы представляем метод анимации предоставленных пользователем 3D объектов путем условной генерации в 4D с использованием текстовых подсказок для управления процессом, обеспечивая создание индивидуальных анимаций при сохранении исходной идентичности объекта. Сначала мы преобразуем 3D сетку в "статическое" 4D нейронное поле излучения (NeRF), сохраняющее визуальные характеристики входного объекта. Затем мы анимируем объект с помощью модели диффузии изображения в видео, управляемой текстом. Для улучшения реалистичности движения мы представляем протокол пошагового выбора точек зрения для выборки перспектив с целью стимулирования естественного движения, а также потерю выборки сжатия оценки (SDS), которая использует карты внимания для фокусировки оптимизации на значимых областях. Мы оцениваем нашу модель с точки зрения временной согласованности, соблюдения подсказок и визуальной достоверности, и обнаруживаем, что наш метод превосходит базовые варианты, основанные на других подходах, достигая улучшений в сохранении идентичности вплоть до трехкратного увеличения по мере использования оценок LPIPS, а также эффективно сбалансировав качество изображения с динамичным контентом.
Замечательная производительность моделей, таких как OpenAI o1, можно объяснить их способностью эмулировать человекоподобное мышление на длительные сроки во время вывода. Эти модели используют расширенные процессы цепочки мыслей (CoT), исследуя несколько стратегий для улучшения способностей к решению проблем. Однако остается критический вопрос: как интеллектуально и эффективно масштабировать вычислительные ресурсы во время тестирования. В данной статье представлено первое всестороннее исследование распространенной проблемы излишнего мышления в этих моделях, когда избыточные вычислительные ресурсы выделяются на простые задачи с минимальной пользой. Мы представляем новые метрики эффективности с точки зрения как результата, так и процесса, чтобы оценить рациональное использование вычислительных ресурсов моделями подобными o1. Используя парадигму самообучения, мы предлагаем стратегии для смягчения излишнего мышления, оптимизируя процессы рассуждения без ущерба точности. Экспериментальные результаты показывают, что наш подход успешно снижает вычислительные издержки, сохраняя производительность модели на различных наборах тестов с разными уровнями сложности, таких как GSM8K, MATH500, GPQA и AIME.
Мы представляем TangoFlux, эффективную генеративную модель текста в аудио (TTA) с 515 миллионами параметров, способную генерировать до 30 секунд аудио с частотой 44,1 кГц всего за 3,7 секунды на одном графическом процессоре A40. Одной из ключевых проблем в выравнивании моделей TTA является сложность создания пар предпочтения, так как у TTA отсутствуют структурированные механизмы, такие как проверяемые вознаграждения или золотые стандартные ответы, доступные для больших языковых моделей (LLM). Для решения этой проблемы мы предлагаем CLAP-Ranked Preference Optimization (CRPO), новую структуру, которая итеративно генерирует и оптимизирует данные предпочтения для улучшения выравнивания TTA. Мы демонстрируем, что набор данных предпочтений аудио, сгенерированный с использованием CRPO, превосходит существующие альтернативы. С помощью этой структуры TangoFlux достигает передовой производительности как по объективным, так и по субъективным показателям. Мы открываем исходный код и модели для поддержки дальнейших исследований в области генерации TTA.
Мы представляем SWE-Gym, первую среду для обучения агентов по реальным задачам в инженерии программного обеспечения (SWE). SWE-Gym содержит 2 438 реальных задач на Python, каждая из которых включает кодовую базу с исполняемой средой, модульными тестами и задачу, описанную на естественном языке. Мы используем SWE-Gym для обучения агентов SWE на основе языковой модели, достигая до 19% абсолютного прироста в проценте успешного выполнения на популярных наборах тестов SWE-Bench Verified и Lite. Мы также экспериментируем с масштабированием на этапе вывода с помощью верификаторов, обученных на траекториях агентов, сэмплированных из SWE-Gym. При комбинировании с нашими настроенными агентами SWE мы достигаем результатов 32,0% и 26,0% на наборах тестов SWE-Bench Verified и Lite соответственно, что отражает новейшие достижения в области агентов SWE с открытым весом. Для облегчения дальнейших исследований мы публично выпускаем SWE-Gym, модели и траектории агентов.