Ежедневно отобранные исследовательские статьи по ИИ с переводами
С появлением техник генерации видео на основе диффузии, аудио-условная генерация видео с участием людей недавно достигла значительных прорывов как в натуральности движения, так и в синтезе деталей портрета. Из-за ограниченного контроля над аудиосигналами в управлении движением человека существующие методы часто добавляют вспомогательные пространственные сигналы для стабилизации движений, что может негативно сказываться на натуральности и свободе движения. В данной статье мы предлагаем модель диффузии видео, условную только аудио, от начала до конца, названную Loopy. Конкретно, мы разработали модуль времени внутри и между клипами и модуль аудио-к латентам, позволяющие модели использовать информацию о долгосрочных движениях из данных для изучения естественных шаблонов движения и улучшения корреляции движения аудио-портрета. Этот метод устраняет необходимость вручную задавать пространственные шаблоны движения, используемые в существующих методах, для ограничения движения во время вывода. Обширные эксперименты показывают, что Loopy превосходит недавние модели диффузии портретов, управляемые аудио, обеспечивая более реалистичные и качественные результаты в различных сценариях.
Расширение возможностей долгосрочного контекста много-модальных крупных языковых моделей (MLLM) критично для понимания видео, понимания изображений высокого разрешения и много-модальных агентов. Это включает в себя ряд систематических оптимизаций, включая архитектуру модели, конструирование данных и стратегию обучения, особенно решая проблемы, такие как ухудшение производительности с увеличением числа изображений и высокие вычислительные затраты. В данной статье мы адаптируем архитектуру модели к гибриду блоков Mamba и Трансформера, подходим к конструированию данных с учетом как временных, так и пространственных зависимостей между несколькими изображениями и используем прогрессивную стратегию обучения. Выпущенная модель LongLLaVA (Долгосрочный Контекст Большой Языковой и Визуальной Помощницы) является первым гибридным MLLM, который достиг лучшего баланса между эффективностью и эффективностью. LongLLaVA не только достигает конкурентоспособных результатов на различных показателях, но также сохраняет высокую производительность и низкое потребление памяти. Особенно важно, что она может обрабатывать почти тысячу изображений на одном графическом процессоре A100 80 ГБ, что показывает многообещающие перспективы применения для широкого спектра задач.
Хотя текущие модели языка с длинным контекстом (LLM) продемонстрировали впечатляющие возможности в ответах на вопросы пользователей на основе обширного текста, отсутствие цитирования в их ответах затрудняет проверку пользователем, вызывая опасения относительно их надежности из-за потенциальных галлюцинаций. В данной работе мы стремимся обеспечить возможность длинным моделям с контекстом генерировать ответы с детализированными цитатами на уровне предложения, улучшая их достоверность и проверяемость. Сначала мы представляем LongBench-Cite, автоматизированный бенчмарк для оценки производительности текущих LLM в долгосрочном вопросно-ответном контексте с цитатами (LQAC), выявляя значительный потенциал для улучшения. Для этого мы предлагаем CoF (Coarse to Fine), новый конвейер, который использует готовые LLM для автоматической генерации примеров долгосрочного вопросно-ответного контекста с точными цитатами на уровне предложения, и используем этот конвейер для создания LongCite-45k, крупного SFT набора данных для LQAC. Наконец, мы обучаем LongCite-8B и LongCite-9B, используя набор данных LongCite-45k, успешно обеспечивая их способность генерировать точные ответы и детализированные цитаты на уровне предложения в одном выводе. Результаты оценки на LongBench-Cite показывают, что наши обученные модели достигают качества цитирования на уровне передовых собственных моделей, включая GPT-4o.
Данная статья представляет MMMU-Pro, устойчивую версию бенчмарка Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro строго оценивает истинные способности понимания и рассуждения мультимодельных моделей через трехэтапный процесс, основанный на MMMU: (1) фильтрация вопросов, на которые можно ответить только текстовыми моделями, (2) дополнение вариантов ответов и (3) введение настройки только с визуальным входом, где вопросы встраиваются в изображения. Эта настройка ставит перед искусственным интеллектом задачу одновременного "видения" и "чтения", проверяя фундаментальное когнитивное умение человека безупречно интегрировать визуальную и текстовую информацию. Результаты показывают, что производительность модели на MMMU-Pro существенно ниже, чем на MMMU, варьируя от 16,8% до 26,9% в различных моделях. Мы исследуем влияние OCR подсказок и цепочечного рассуждения (CoT), обнаруживая, что OCR подсказки имеют минимальный эффект, в то время как CoT в целом улучшает производительность. MMMU-Pro предоставляет более строгий инструмент оценки, тесно имитирующий реальные сценарии и предлагающий ценные направления для будущих исследований в области мультимодального искусственного интеллекта.
Последние исследования все чаще демонстрируют, что высококачественные данные играют решающую роль в эффективном предварительном обучении языковых моделей. Однако точное определение "высокого качества" остается малоизученным. Сосредотачиваясь на области кода, мы представляем Arctic-SnowCoder-1.3B, базовую модель кода, обученную на 555 млрд токенов через три этапа постепенно улучшенных данных: (1) общее предварительное обучение с 500 млрд стандартных токенов кода, предварительно обработанных через базовую фильтрацию, удаление дубликатов и очистку от загрязнений, (2) продолжение предварительного обучения с 50 млрд токенов высокого качества, отобранных из фазы один с помощью аннотатора качества в стиле BERT, обученного различать хороший код от случайных данных, используя положительные примеры из файлов высококачественного кода, а также инструкционные данные от Magicoder и StarCoder2-Instruct, и (3) улучшенное предварительное обучение с 5 млрд синтетических данных, созданных Llama-3.1-70B с использованием данных фазы два в качестве исходных, адаптируя подход Magicoder для предварительного обучения. Несмотря на обучение на ограниченном наборе данных, Arctic-SnowCoder достигает передовых результатов на BigCodeBench, бенчмарке по программированию, сосредоточенном на практических и сложных задачах, по сравнению с моделями схожего размера, обученными не более чем на 1 трлн токенов, превосходя Phi-1.5-1.3B на 36%. На всех оцениваемых бенчмарках Arctic-SnowCoder-1.3B обгоняет StarCoderBase-3B, предварительно обученную на 1 трлн токенов. Кроме того, он соответствует результатам ведущих небольших базовых моделей кода, обученных на триллионах токенов. Например, Arctic-SnowCoder-1.3B превосходит StarCoder2-3B, предварительно обученную на более чем 3.3 трлн токенов, на HumanEval+, бенчмарке, оценивающем генерацию кода на уровне функций, и остается конкурентоспособным на BigCodeBench. Наша оценка представляет собой всесторонний анализ, обосновывающий различные проектные решения для Arctic-SnowCoder. Наиболее важным является то, что ключом к высококачественным данным является их соответствие распределению прикладных задач.
Мы представляем фреймворк для помощи в манипулировании роботами, который фокусируется на двух основных вызовах: эффективной адаптации масштабных моделей к задачам понимания возможностей сцены на практике, особенно в повседневных сценариях, где сбор мультитасковых данных, включающих в себя людей, требует значительных усилий; второй вызов заключается в эффективном обучении траекторий робота на основе визуальной модели возможностей. Мы решаем первую проблему, используя метод эффективной настройки подсказок, который добавляет обучаемые текстовые подсказки к замороженной модели зрения для предсказания возможностей манипуляции в мультитасковых сценариях. Затем мы предлагаем обучать траектории робота, направляемые возможностями, с помощью метода сопоставления потоков. Сопоставление потоков представляет политику робота визуомоторного управления как условный процесс направления случайных точек маршрута к желаемым траекториям робота. Наконец, мы представляем набор данных из реального мира с 10 задачами по ежедневным действиям для тестирования нашего фреймворка. Наше обширное оценивание показывает, что предложенный метод настройки подсказок для обучения возможностей манипуляции с использованием текстовых подсказок достигает конкурентоспособной производительности и даже превосходит другие протоколы донастройки на различных масштабах данных, сохраняя при этом параметрическую эффективность. Обучение мультитасковых траекторий робота с помощью единой политики сопоставления потоков также приводит к последовательно лучшей производительности по сравнению с альтернативными методами клонирования поведения, особенно учитывая мультимодальные распределения действий робота. Наш фреймворк плавно объединяет обучение модели возможностей и генерацию траекторий с помощью сопоставления потоков для манипуляции роботом.
Социальные ученые быстро приняли к использованию большие языковые модели из-за их способности размечать документы без надзорного обучения, способности, известной как обучение с нулевым примером. Однако из-за требований к вычислительным мощностям, стоимости и часто собственнического характера эти модели часто не соответствуют стандартам репликации и открытой науки. В данной статье представлены языковые модели Political DEBATE (DeBERTa Algorithm for Textual Entailment) для классификации политических документов с нулевым и малым количеством примеров. Эти модели не только такие же хорошие, или даже лучше, чем передовые большие языковые модели при классификации с нулевым и малым количеством примеров, но и на порядки более эффективны и полностью открытого исходного кода. Обучив модели на простой случайной выборке из 10-25 документов, они могут превзойти надзорные классификаторы, обученные на сотнях или тысячах документов, а также передовые генеративные модели с сложными, настроенными подсказками. Кроме того, мы предоставляем набор данных PolNLI, использованный для обучения этих моделей - корпус из более чем 200 000 политических документов с высокоточными метками по более чем 800 задачам классификации.
Техники голосовой конверсии (VC) на основе диффузии, такие как VoiceGrad, привлекли внимание благодаря высокой производительности VC в терминах качества речи и сходства дикторов. Однако значительным ограничением является медленное выводимость, вызванное многоэтапной обратной диффузией. Поэтому мы предлагаем FastVoiceGrad, новую одноэтапную технику голосовой конверсии на основе диффузии, которая сокращает количество итераций с десятков до одной, сохраняя высокую производительность VC многоэтапной диффузионной техники. Модель получена с использованием метода дистилляции диффузии с условиями адверсарной (ACDD), используя возможности генеративных адверсариальных сетей и моделей диффузии, переосмысливая начальные состояния при выборке. Оценки однократной VC любого к любому показывают, что FastVoiceGrad достигает производительности VC, превосходящей или сравнимой с предыдущей многоэтапной диффузионной VC, улучшая скорость вывода. Аудиообразцы доступны по ссылке https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.