ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Loopy: Укрощение портретного аватара, управляемого аудио с долгосрочной зависимостью движения
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4
ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
97
13

С появлением техник генерации видео на основе диффузии, аудио-условная генерация видео с участием людей недавно достигла значительных прорывов как в натуральности движения, так и в синтезе деталей портрета. Из-за ограниченного контроля над аудиосигналами в управлении движением человека существующие методы часто добавляют вспомогательные пространственные сигналы для стабилизации движений, что может негативно сказываться на натуральности и свободе движения. В данной статье мы предлагаем модель диффузии видео, условную только аудио, от начала до конца, названную Loopy. Конкретно, мы разработали модуль времени внутри и между клипами и модуль аудио-к латентам, позволяющие модели использовать информацию о долгосрочных движениях из данных для изучения естественных шаблонов движения и улучшения корреляции движения аудио-портрета. Этот метод устраняет необходимость вручную задавать пространственные шаблоны движения, используемые в существующих методах, для ограничения движения во время вывода. Обширные эксперименты показывают, что Loopy превосходит недавние модели диффузии портретов, управляемые аудио, обеспечивая более реалистичные и качественные результаты в различных сценариях.

2

LongLLaVA: Масштабирование мультимодальных LLM до 1000 изображений эффективно с помощью гибридной архитектуры
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4
ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
54
2

Расширение возможностей долгосрочного контекста много-модальных крупных языковых моделей (MLLM) критично для понимания видео, понимания изображений высокого разрешения и много-модальных агентов. Это включает в себя ряд систематических оптимизаций, включая архитектуру модели, конструирование данных и стратегию обучения, особенно решая проблемы, такие как ухудшение производительности с увеличением числа изображений и высокие вычислительные затраты. В данной статье мы адаптируем архитектуру модели к гибриду блоков Mamba и Трансформера, подходим к конструированию данных с учетом как временных, так и пространственных зависимостей между несколькими изображениями и используем прогрессивную стратегию обучения. Выпущенная модель LongLLaVA (Долгосрочный Контекст Большой Языковой и Визуальной Помощницы) является первым гибридным MLLM, который достиг лучшего баланса между эффективностью и эффективностью. LongLLaVA не только достигает конкурентоспособных результатов на различных показателях, но также сохраняет высокую производительность и низкое потребление памяти. Особенно важно, что она может обрабатывать почти тысячу изображений на одном графическом процессоре A100 80 ГБ, что показывает многообещающие перспективы применения для широкого спектра задач.

3

LongCite: Обеспечение возможности LLMs генерировать детализированные цитаты в долгосрочном контексте QA
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

Sep 4
Byjiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
47
3

Хотя текущие модели языка с длинным контекстом (LLM) продемонстрировали впечатляющие возможности в ответах на вопросы пользователей на основе обширного текста, отсутствие цитирования в их ответах затрудняет проверку пользователем, вызывая опасения относительно их надежности из-за потенциальных галлюцинаций. В данной работе мы стремимся обеспечить возможность длинным моделям с контекстом генерировать ответы с детализированными цитатами на уровне предложения, улучшая их достоверность и проверяемость. Сначала мы представляем LongBench-Cite, автоматизированный бенчмарк для оценки производительности текущих LLM в долгосрочном вопросно-ответном контексте с цитатами (LQAC), выявляя значительный потенциал для улучшения. Для этого мы предлагаем CoF (Coarse to Fine), новый конвейер, который использует готовые LLM для автоматической генерации примеров долгосрочного вопросно-ответного контекста с точными цитатами на уровне предложения, и используем этот конвейер для создания LongCite-45k, крупного SFT набора данных для LQAC. Наконец, мы обучаем LongCite-8B и LongCite-9B, используя набор данных LongCite-45k, успешно обеспечивая их способность генерировать точные ответы и детализированные цитаты на уровне предложения в одном выводе. Результаты оценки на LongBench-Cite показывают, что наши обученные модели достигают качества цитирования на уровне передовых собственных моделей, включая GPT-4o.

4

MMMU-Pro: более надежный многодисциплинарный мультимодальный бенчмарк понимания
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Sep 4
ByXiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
31
3

Данная статья представляет MMMU-Pro, устойчивую версию бенчмарка Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro строго оценивает истинные способности понимания и рассуждения мультимодельных моделей через трехэтапный процесс, основанный на MMMU: (1) фильтрация вопросов, на которые можно ответить только текстовыми моделями, (2) дополнение вариантов ответов и (3) введение настройки только с визуальным входом, где вопросы встраиваются в изображения. Эта настройка ставит перед искусственным интеллектом задачу одновременного "видения" и "чтения", проверяя фундаментальное когнитивное умение человека безупречно интегрировать визуальную и текстовую информацию. Результаты показывают, что производительность модели на MMMU-Pro существенно ниже, чем на MMMU, варьируя от 16,8% до 26,9% в различных моделях. Мы исследуем влияние OCR подсказок и цепочечного рассуждения (CoT), обнаруживая, что OCR подсказки имеют минимальный эффект, в то время как CoT в целом улучшает производительность. MMMU-Pro предоставляет более строгий инструмент оценки, тесно имитирующий реальные сценарии и предлагающий ценные направления для будущих исследований в области мультимодального искусственного интеллекта.

5

Робототехника на основе возможностей с сопоставлением потока.
Affordance-based Robot Manipulation with Flow Matching

Sep 2
ByFan Zhang, Michael Gienger
20
2

Мы представляем фреймворк для помощи в манипулировании роботами, который фокусируется на двух основных вызовах: эффективной адаптации масштабных моделей к задачам понимания возможностей сцены на практике, особенно в повседневных сценариях, где сбор мультитасковых данных, включающих в себя людей, требует значительных усилий; второй вызов заключается в эффективном обучении траекторий робота на основе визуальной модели возможностей. Мы решаем первую проблему, используя метод эффективной настройки подсказок, который добавляет обучаемые текстовые подсказки к замороженной модели зрения для предсказания возможностей манипуляции в мультитасковых сценариях. Затем мы предлагаем обучать траектории робота, направляемые возможностями, с помощью метода сопоставления потоков. Сопоставление потоков представляет политику робота визуомоторного управления как условный процесс направления случайных точек маршрута к желаемым траекториям робота. Наконец, мы представляем набор данных из реального мира с 10 задачами по ежедневным действиям для тестирования нашего фреймворка. Наше обширное оценивание показывает, что предложенный метод настройки подсказок для обучения возможностей манипуляции с использованием текстовых подсказок достигает конкурентоспособной производительности и даже превосходит другие протоколы донастройки на различных масштабах данных, сохраняя при этом параметрическую эффективность. Обучение мультитасковых траекторий робота с помощью единой политики сопоставления потоков также приводит к последовательно лучшей производительности по сравнению с альтернативными методами клонирования поведения, особенно учитывая мультимодальные распределения действий робота. Наш фреймворк плавно объединяет обучение модели возможностей и генерацию траекторий с помощью сопоставления потоков для манипуляции роботом.

6

Arctic-SnowCoder: Расшифровка высококачественных данных в предварительном обучении кода
Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

Sep 3
ByYuxiang Wei, Hojae Han, Rajhans Samdani
19
2

Последние исследования все чаще демонстрируют, что высококачественные данные играют решающую роль в эффективном предварительном обучении языковых моделей. Однако точное определение "высокого качества" остается малоизученным. Сосредотачиваясь на области кода, мы представляем Arctic-SnowCoder-1.3B, базовую модель кода, обученную на 555 млрд токенов через три этапа постепенно улучшенных данных: (1) общее предварительное обучение с 500 млрд стандартных токенов кода, предварительно обработанных через базовую фильтрацию, удаление дубликатов и очистку от загрязнений, (2) продолжение предварительного обучения с 50 млрд токенов высокого качества, отобранных из фазы один с помощью аннотатора качества в стиле BERT, обученного различать хороший код от случайных данных, используя положительные примеры из файлов высококачественного кода, а также инструкционные данные от Magicoder и StarCoder2-Instruct, и (3) улучшенное предварительное обучение с 5 млрд синтетических данных, созданных Llama-3.1-70B с использованием данных фазы два в качестве исходных, адаптируя подход Magicoder для предварительного обучения. Несмотря на обучение на ограниченном наборе данных, Arctic-SnowCoder достигает передовых результатов на BigCodeBench, бенчмарке по программированию, сосредоточенном на практических и сложных задачах, по сравнению с моделями схожего размера, обученными не более чем на 1 трлн токенов, превосходя Phi-1.5-1.3B на 36%. На всех оцениваемых бенчмарках Arctic-SnowCoder-1.3B обгоняет StarCoderBase-3B, предварительно обученную на 1 трлн токенов. Кроме того, он соответствует результатам ведущих небольших базовых моделей кода, обученных на триллионах токенов. Например, Arctic-SnowCoder-1.3B превосходит StarCoder2-3B, предварительно обученную на более чем 3.3 трлн токенов, на HumanEval+, бенчмарке, оценивающем генерацию кода на уровне функций, и остается конкурентоспособным на BigCodeBench. Наша оценка представляет собой всесторонний анализ, обосновывающий различные проектные решения для Arctic-SnowCoder. Наиболее важным является то, что ключом к высококачественным данным является их соответствие распределению прикладных задач.

7

Политический ДЕБАТ: Эффективные классификаторы с нулевым и малым количеством обучающих примеров для политического текста
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

Sep 3
ByMichael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
11
3

Социальные ученые быстро приняли к использованию большие языковые модели из-за их способности размечать документы без надзорного обучения, способности, известной как обучение с нулевым примером. Однако из-за требований к вычислительным мощностям, стоимости и часто собственнического характера эти модели часто не соответствуют стандартам репликации и открытой науки. В данной статье представлены языковые модели Political DEBATE (DeBERTa Algorithm for Textual Entailment) для классификации политических документов с нулевым и малым количеством примеров. Эти модели не только такие же хорошие, или даже лучше, чем передовые большие языковые модели при классификации с нулевым и малым количеством примеров, но и на порядки более эффективны и полностью открытого исходного кода. Обучив модели на простой случайной выборке из 10-25 документов, они могут превзойти надзорные классификаторы, обученные на сотнях или тысячах документов, а также передовые генеративные модели с сложными, настроенными подсказками. Кроме того, мы предоставляем набор данных PolNLI, использованный для обучения этих моделей - корпус из более чем 200 000 политических документов с высокоточными метками по более чем 800 задачам классификации.

8

FastVoiceGrad: Одношаговая градиентная диффузия для конвертации голоса с использованием условной диффузии соперничества.
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3
ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
10
2

Техники голосовой конверсии (VC) на основе диффузии, такие как VoiceGrad, привлекли внимание благодаря высокой производительности VC в терминах качества речи и сходства дикторов. Однако значительным ограничением является медленное выводимость, вызванное многоэтапной обратной диффузией. Поэтому мы предлагаем FastVoiceGrad, новую одноэтапную технику голосовой конверсии на основе диффузии, которая сокращает количество итераций с десятков до одной, сохраняя высокую производительность VC многоэтапной диффузионной техники. Модель получена с использованием метода дистилляции диффузии с условиями адверсарной (ACDD), используя возможности генеративных адверсариальных сетей и моделей диффузии, переосмысливая начальные состояния при выборке. Оценки однократной VC любого к любому показывают, что FastVoiceGrad достигает производительности VC, превосходящей или сравнимой с предыдущей многоэтапной диффузионной VC, улучшая скорость вывода. Аудиообразцы доступны по ссылке https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.

Sep 4
Sep 5
Sep 6