Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Phi-4-Mini и Phi-4-Multimodal — компактные, но высокопроизводительные языковые и мультимодальные модели. Phi-4-Mini — это языковая модель с 3,8 миллиардами параметров, обученная на высококачественных веб-данных и синтетических данных, которая значительно превосходит недавние модели с открытым исходным кодом аналогичного размера и соответствует производительности моделей вдвое большего размера в задачах, требующих сложных рассуждений, таких как математика и программирование. Этот результат достигнут благодаря тщательно подобранному рецепту синтетических данных с акцентом на высококачественные наборы данных по математике и программированию. По сравнению с предшественником, Phi-3.5-Mini, Phi-4-Mini имеет увеличенный размер словаря до 200 тысяч токенов для лучшей поддержки многоязычных приложений, а также групповое внимание запросов для более эффективной генерации длинных последовательностей. Phi-4-Multimodal — это мультимодальная модель, которая объединяет текстовые, визуальные и речевые/аудиовходные модальности в единую модель. Ее новаторский подход к расширению модальностей использует адаптеры LoRA и маршрутизаторы, специфичные для каждой модальности, что позволяет комбинировать различные модальности в нескольких режимах вывода без взаимного влияния. Например, она занимает первое место в рейтинге OpenASR на сегодняшний день, несмотря на то, что компонент LoRA для речевой/аудиомодальности имеет всего 460 миллионов параметров. Phi-4-Multimodal поддерживает сценарии, включающие (визуальные + языковые), (визуальные + речевые) и (речевые/аудио) входные данные, превосходя более крупные модели, работающие с визуальными и речевыми данными, в широком спектре задач. Кроме того, мы экспериментируем с дальнейшим обучением Phi-4-Mini для улучшения ее способностей к рассуждению. Несмотря на компактный размер в 3,8 миллиарда параметров, эта экспериментальная версия демонстрирует результаты рассуждений, сопоставимые или превосходящие значительно более крупные модели, включая DeepSeek-R1-Distill-Qwen-7B и DeepSeek-R1-Distill-Llama-8B.
Тонкая настройка с подкреплением (Reinforcement Fine-Tuning, RFT) в крупных моделях рассуждений, таких как OpenAI o1, обучается на основе обратной связи по своим ответам, что особенно полезно в приложениях, где данные для тонкой настройки ограничены. Недавние работы с открытым исходным кодом, такие как DeepSeek-R1, демонстрируют, что обучение с подкреплением с проверяемыми наградами является ключевым направлением в воспроизведении o1. Хотя модель в стиле R1 показала успехи в языковых моделях, её применение в мультимодальных областях остается недостаточно изученным. Данная работа представляет Visual Reinforcement Fine-Tuning (Visual-RFT), который расширяет области применения RFT на визуальные задачи. В частности, Visual-RFT сначала использует крупные визуально-языковые модели (Large Vision-Language Models, LVLMs) для генерации нескольких ответов, содержащих токены рассуждений и итоговые ответы для каждого входного данных, а затем применяет предложенные функции проверяемых наград на основе визуального восприятия для обновления модели с помощью алгоритма оптимизации политики, такого как Group Relative Policy Optimization (GRPO). Мы разрабатываем различные проверяемые функции наград для различных задач восприятия, например, награду Intersection over Union (IoU) для обнаружения объектов. Экспериментальные результаты на задачах тонкой классификации изображений, обнаружения объектов с малым количеством примеров, обоснования рассуждений, а также на бенчмарках обнаружения объектов с открытым словарем демонстрируют конкурентоспособную производительность и улучшенную способность к обобщению Visual-RFT по сравнению с Supervised Fine-tuning (SFT). Например, Visual-RFT повышает точность на 24,3% по сравнению с базовым уровнем в задаче однократной тонкой классификации изображений с использованием около 100 образцов. В задаче обнаружения объектов с малым количеством примеров Visual-RFT также превосходит базовый уровень на 21,9 в настройке COCO с двумя примерами и на 15,4 в LVIS. Наш Visual-RFT представляет собой смену парадигмы в тонкой настройке LVLMs, предлагая эффективный по данным, управляемый наградами подход, который улучшает рассуждения и адаптируемость для задач, специфичных для конкретных областей.
Нейронные поля излучения (NeRF) и 3D-гауссовское размытие (3D Gaussian Splatting) произвели революцию в задачах 3D-реконструкции и синтеза новых ракурсов. Однако достижение фотореалистичного рендеринга с экстремальных новых точек зрения остается сложной задачей, так как артефакты сохраняются в различных представлениях. В данной работе мы представляем Difix3D+, новый подход, предназначенный для улучшения 3D-реконструкции и синтеза новых ракурсов с использованием одношаговых диффузионных моделей. В основе нашего метода лежит Difix — одношаговая диффузионная модель изображений, обученная улучшать и удалять артефакты в рендеринге новых ракурсов, вызванные недостаточно ограниченными областями 3D-представления. Difix выполняет две ключевые функции в нашем подходе. Во-первых, он используется на этапе реконструкции для очистки псевдо-обучающих ракурсов, которые рендерятся из реконструкции и затем дистиллируются обратно в 3D. Это значительно улучшает недостаточно ограниченные области и повышает общее качество 3D-представления. Что еще важнее, Difix также выступает в роли нейронного усилителя на этапе вывода, эффективно устраняя остаточные артефакты, возникающие из-за несовершенного 3D-надзора и ограниченных возможностей современных моделей реконструкции. Difix3D+ является универсальным решением — одной моделью, совместимой как с NeRF, так и с 3DGS представлениями, и обеспечивает в среднем двукратное улучшение показателя FID по сравнению с базовыми методами, сохраняя при этом 3D-согласованность.
Вывод на этапе тестирования стал мощной парадигмой, позволяющей языковым моделям «думать» дольше и тщательнее о сложных задачах, подобно опытным экспертам-людям. Хотя обучение с подкреплением (RL) может способствовать самосовершенствованию языковых моделей в задачах с проверяемыми результатами, некоторые модели демонстрируют значительный прогресс, тогда как другие быстро достигают плато. Например, мы обнаружили, что Qwen-2.5-3B значительно превосходит Llama-3.2-3B при одинаковом обучении с подкреплением в игре Countdown. Это расхождение поднимает важный вопрос: какие внутренние свойства обеспечивают эффективное самосовершенствование? Мы представляем фреймворк для изучения этого вопроса, анализируя четыре ключевых когнитивных поведения — проверку, возврат к предыдущим шагам, постановку подцелей и обратный вывод, — которые используют как эксперты-люди, так и успешные языковые модели. Наше исследование показывает, что Qwen естественным образом демонстрирует эти рассуждения, тогда как Llama изначально их лишена. В систематических экспериментах с контролируемыми наборами данных мы обнаружили, что предварительное обучение Llama на примерах, содержащих эти рассуждения, позволяет добиться значительного улучшения в ходе RL, сопоставимого или превосходящего результаты Qwen. Важно отметить, что наличие рассуждений, а не правильность ответов, оказывается критическим фактором — модели, обученные на неправильных решениях, содержащих правильные шаблоны рассуждений, достигают сопоставимой производительности с моделями, обученными на правильных решениях. Наконец, использование продолженного предобучения на данных OpenWebMath, отфильтрованных для усиления рассуждений, позволяет модели Llama соответствовать траектории самосовершенствования Qwen. Наши результаты устанавливают фундаментальную связь между начальными рассуждениями и способностью к улучшению, объясняя, почему одни языковые модели эффективно используют дополнительные вычисления, тогда как другие достигают плато.
Генерация сверхдлинных последовательностей с использованием больших языковых моделей (LLM) становится все более важной, но остается крайне трудоемкой задачей, особенно для последовательностей длиной до 100 тысяч токенов. Хотя традиционные методы спекулятивного декодирования существуют, простое расширение их пределов генерации не ускоряет процесс и может быть вредным. В ходе детального анализа мы выявили три основные проблемы, препятствующие эффективной генерации: частую перезагрузку модели, динамическое управление ключевыми значениями (KV) и повторяющуюся генерацию. Для решения этих проблем мы представляем TOKENSWIFT — новый фреймворк, разработанный для существенного ускорения процесса генерации сверхдлинных последовательностей при сохранении исходного качества целевой модели. Экспериментальные результаты показывают, что TOKENSWIFT обеспечивает ускорение более чем в 3 раза для моделей различных масштабов (1.5B, 7B, 8B, 14B) и архитектур (MHA, GQA). Это ускорение позволяет сэкономить часы времени при генерации сверхдлинных последовательностей, что делает TOKENSWIFT масштабируемым и эффективным решением для беспрецедентных длин. Код доступен по адресу https://github.com/bigai-nlco/TokenSwift.
Последние достижения в области генерации музыки привлекли значительное внимание, однако существующие подходы сталкиваются с серьезными ограничениями. Некоторые современные генеративные модели способны синтезировать либо вокальную дорожку, либо аккомпанемент. Хотя некоторые модели могут генерировать комбинацию вокала и аккомпанемента, они обычно полагаются на тщательно разработанные многоступенчатые каскадные архитектуры и сложные конвейеры обработки данных, что затрудняет масштабируемость. Кроме того, большинство систем ограничены генерацией коротких музыкальных фрагментов, а не полноценных песен. Широко используемые методы, основанные на языковых моделях, также страдают от медленной скорости вывода. Для решения этих проблем мы предлагаем DiffRhythm — первую модель генерации песен на основе латентной диффузии, способную синтезировать полные песни с вокалом и аккомпанементом продолжительностью до 4 минут 45 секунд всего за десять секунд, сохраняя высокую музыкальность и разборчивость. Несмотря на впечатляющие возможности, DiffRhythm отличается простотой и элегантностью: она устраняет необходимость в сложной подготовке данных, использует прямолинейную структуру модели и требует только текста песни и стилевого запроса на этапе вывода. Кроме того, её неавторегрессивная структура обеспечивает высокую скорость вывода. Эта простота гарантирует масштабируемость DiffRhythm. Мы также публикуем полный код для обучения вместе с предварительно обученной моделью на крупномасштабных данных, чтобы способствовать воспроизводимости и дальнейшим исследованиям.
В последнее время генеративные рекомендательные системы, основанные на поиске, стали перспективной парадигмой. Однако большинство современных рекомендательных систем используют стратегию "извлечение и ранжирование", где генеративная модель выступает лишь в роли селектора на этапе извлечения. В данной статье мы предлагаем OneRec, который заменяет каскадную структуру обучения на единую генеративную модель. Насколько нам известно, это первая end-to-end генеративная модель, которая значительно превосходит современные сложные и тщательно разработанные рекомендательные системы в реальных сценариях. В частности, OneRec включает: 1) структуру "кодировщик-декодировщик", которая кодирует последовательности исторического поведения пользователя и постепенно декодирует видео, которые могут заинтересовать пользователя. Мы используем разреженную смесь экспертов (MoE) для масштабирования емкости модели без пропорционального увеличения вычислительных затрат. 2) подход к генерации на уровне сессии. В отличие от традиционного предсказания следующего элемента, мы предлагаем генерацию на уровне сессии, которая является более элегантной и контекстуально согласованной по сравнению с пошаговой генерацией, зависящей от ручных правил для корректного объединения результатов. 3) модуль итеративного согласования предпочтений в сочетании с оптимизацией прямых предпочтений (DPO) для повышения качества генерируемых результатов. В отличие от DPO в NLP, рекомендательная система обычно имеет только одну возможность отобразить результаты для каждого запроса пользователя, что делает невозможным одновременное получение положительных и отрицательных образцов. Для решения этой проблемы мы разработали модель вознаграждения для имитации генерации пользователя и настройки стратегии выборки. Многочисленные эксперименты показали, что ограниченное количество образцов DPO может согласовать предпочтения пользователя и значительно улучшить качество генерируемых результатов. Мы внедрили OneRec в основной сценарий Kuaishou, достигнув увеличения времени просмотра на 1,6%, что является существенным улучшением.
Оценка неопределенности имеет решающее значение для анализа работы крупных языковых моделей (LLM), особенно в высокорисковых областях, где неправильные ответы могут привести к серьезным последствиям. Многочисленные подходы рассматривают эту проблему, сосредотачиваясь на конкретном типе неопределенности и игнорируя другие. Мы исследуем, какие оценки, в частности энтропия на уровне токенов и подход "модель как судья" (MASJ), будут эффективны для задач с множественным выбором в различных тематических областях. Наши эксперименты охватывают три LLM: Phi-4, Mistral и Qwen разных размеров — от 1,5 млрд до 72 млрд параметров — и 14 тематик. В то время как MASJ демонстрирует результаты, сопоставимые с случайным предсказателем ошибок, энтропия ответов предсказывает ошибки модели в областях, зависящих от знаний, и служит эффективным индикатором сложности вопросов: для биологии ROC AUC составляет 0,73. Эта корреляция исчезает в областях, зависящих от логического мышления: для математических вопросов ROC-AUC равен 0,55. Более принципиально, мы выяснили, что мера энтропии требует определенного уровня рассуждений. Таким образом, энтропия, связанная с неопределенностью данных, должна быть интегрирована в рамки оценки неопределенности, в то время как MASJ требует доработки. Кроме того, существующие выборки MMLU-Pro смещены и должны быть сбалансированы по требуемому уровню рассуждений для различных поддоменов, чтобы обеспечить более справедливую оценку производительности LLM.
Трансформеры с линейным рекуррентным моделированием обеспечивают обучение за линейное время и вывод с постоянным использованием памяти. Несмотря на продемонстрированную эффективность и производительность, предварительное обучение таких нестандартных архитектур с нуля остается затратным и рискованным. Линеаризация больших языковых моделей (LLM) преобразует предварительно обученные стандартные модели в линейные рекуррентные структуры, что позволяет более эффективно их развертывать. Однако современные методы линеаризации обычно вводят дополнительные модули карт признаков, которые требуют обширной тонкой настройки, и игнорируют механизмы гейтинга, используемые в передовых линейных рекуррентных моделях. Для решения этих проблем в данной статье представлен Liger, сокращение от Linearizing LLMs to gated recurrent structures. Liger — это новый подход для преобразования предварительно обученных LLM в линейные рекуррентные модели с гейтингом без добавления дополнительных параметров. Он перепрофилирует веса предварительно обученной матрицы ключей для создания разнообразных механизмов гейтинга, что способствует формированию различных рекуррентных структур с гейтингом, избегая необходимости обучения дополнительных компонентов с нуля. Используя легковесную тонкую настройку с помощью Low-Rank Adaptation (LoRA), Liger восстанавливает производительность линеаризованных рекуррентных моделей с гейтингом до уровня исходных LLM. Кроме того, мы представляем Liger Attention, внутрислойный гибридный механизм внимания, который значительно восстанавливает 93% производительности LLM на основе трансформеров при использовании 0,02% токенов предварительного обучения в процессе линеаризации, достигая конкурентоспособных результатов на множестве бенчмарков, что подтверждено на моделях с параметрами от 1B до 8B. Код доступен по адресу https://github.com/OpenSparseLLMs/Linearization.
Диффузионные модели достигли значительных успехов в генерации 2D-изображений. Однако качество и обобщаемость генерации 3D-контента остаются ограниченными. Современные методы часто требуют крупномасштабных 3D-активов для обучения, которые сложно собрать. В данной работе мы представляем Kiss3DGen (Keep It Simple and Straightforward in 3D Generation) — эффективный фреймворк для генерации, редактирования и улучшения 3D-объектов, перепрофилируя хорошо обученную диффузионную модель для 2D-изображений в целях 3D-генерации. В частности, мы дообучаем диффузионную модель для генерации «3D Bundle Image» — мозаичного представления, состоящего из многовидовых изображений и соответствующих им карт нормалей. Карты нормалей затем используются для реконструкции 3D-сетки, а многовидовые изображения обеспечивают текстурирование, что приводит к созданию полной 3D-модели. Этот простой метод эффективно преобразует задачу 3D-генерации в задачу генерации 2D-изображений, максимально используя знания, заложенные в предобученных диффузионных моделях. Кроме того, мы показываем, что наша модель Kiss3DGen совместима с различными техниками диффузионных моделей, что позволяет реализовать такие продвинутые функции, как редактирование 3D-объектов, улучшение сетки и текстуры и т.д. В ходе обширных экспериментов мы демонстрируем эффективность нашего подхода, показывая его способность эффективно создавать высококачественные 3D-модели.
Увеличение вычислительных ресурсов на этапе тестирования — это простой подход к повышению качества ответов в больших языковых моделях (LLM). Хотя методы Best-of-N и Self-Consistency с мажоритарным голосованием просты и эффективны, они требуют фиксированного числа сэмплированных ответов для каждого запроса, независимо от его сложности. Это может привести к избыточным вычислениям для простых вопросов и недостаточному исследованию для более сложных. В данной работе мы утверждаем, что уверенность модели в ответах может быть использована для повышения эффективности масштабирования на этапе тестирования. К сожалению, LLM известны своей излишней уверенностью и предоставляют ненадежные оценки достоверности. Чтобы устранить это ограничение, мы предлагаем метод Self-Calibration, который заключается в дистилляции уверенности, полученной с помощью Self-Consistency, в саму модель. Это позволяет получать надежные оценки достоверности на этапе тестирования за один прямой проход. Затем мы разрабатываем методы эффективного масштабирования на основе уверенности для обработки запросов различной сложности, такие как Early-Stopping для Best-of-N и Self-Consistency с калиброванной уверенностью. Эксперименты на трех LLM и шести наборах данных демонстрируют эффективность нашего подхода. В частности, применение Early Stopping на основе уверенности к Best-of-N повышает точность на MathQA с 81.0 до 83.6 при бюджете в 16 ответов, что подтверждает эффективность стратегии сэмплирования на основе уверенности на этапе вывода.
Крупные языковые модели (LLMs) демонстрируют выдающуюся производительность в широком спектре задач; однако их процесс авторегрессивного генерации по токенам значительно замедляет скорость вывода. Спекулятивное декодирование предлагает перспективную структуру "черновик-затем-проверка", которая сокращает задержку генерации, сохраняя при этом точность распределения выходных данных. Тем не менее, модель черновика вносит дополнительные вычислительные затраты, становясь узким местом в производительности и увеличивая время до первого токена (TTFT). Предыдущие подходы для снижения нагрузки модели черновика в основном полагались на эвристики и, как правило, не могли соответствовать качеству языковых моделей черновика. Для решения этих проблем мы предлагаем DuoDecoding — новый подход, который стратегически распределяет модели черновика и целевой модели на CPU и GPU соответственно, обеспечивая параллельное декодирование при сохранении качества черновика. Наш метод включает аппаратно-оптимизированный бюджет черновика для минимизации времени простоя и использует динамическое многопоследовательное создание черновиков для повышения их качества. Эксперименты на семи задачах показывают, что DuoDecoding достигает ускорения задержки генерации до 2.61x, сокращая TTFT до 83% по сравнению с традиционным спекулятивным декодированием. Код доступен по адресу https://github.com/KaiLv69/DuoDecoding.
Анализ больших наборов данных требует оперативного выполнения запросов, однако выполнение SQL-запросов на огромных объемах данных может быть медленным. В данной статье исследуется возможность начала выполнения запроса еще до того, как пользователь завершит его ввод, что позволит результатам появляться практически мгновенно. Мы предлагаем систему SpeQL, которая использует большие языковые модели (LLM) для прогнозирования вероятных запросов на основе схемы базы данных, предыдущих запросов пользователя и его незавершенного запроса. Поскольку точное предсказание запроса невозможно, SpeQL спекулирует частичные запросы двумя способами: 1) предсказывает структуру запроса для предварительной компиляции и планирования запросов и 2) предварительно вычисляет временные таблицы меньшего размера, которые значительно меньше исходной базы данных, но, как предполагается, содержат всю необходимую информацию для ответа на окончательный запрос пользователя. Кроме того, SpeQL непрерывно отображает результаты для спекулятивных запросов и подзапросов в реальном времени, что способствует исследовательскому анализу. Проведенное исследование с участием пользователей показало, что SpeQL сокращает время выполнения задач, а участники отметили, что спекулятивное отображение результатов помогло им быстрее выявлять закономерности в данных. В ходе исследования SpeQL сократила задержку выполнения запросов пользователей до 289 раз, сохраняя при этом разумные накладные расходы в размере 4 доллара в час.
Выбор высококачественных данных для обучения из более крупного набора является важным шагом при тонкой настройке языковых моделей на инструкциях, так как тщательно отобранные наборы данных часто приводят к созданию моделей, превосходящих те, что обучены на значительно больших, но более зашумленных наборах. Автоматизированные подходы к выбору данных для тонкой настройки на инструкциях обычно тестируются путем отбора небольших наборов данных (примерно 10 тыс. образцов) из небольших пулов (100–200 тыс. образцов). Однако популярные развернутые модели, настроенные на инструкциях, часто обучаются на сотнях тысяч или миллионах образцов, выбранных из еще более крупных пулов данных. Мы представляем систематическое исследование того, насколько хорошо методы выбора данных масштабируются в таких условиях, отбирая до 2,5 млн образцов из пулов объемом до 5,8 млн образцов и оценивая их на 7 разнообразных задачах. Мы показываем, что многие недавно предложенные методы уступают случайному выбору в этих условиях (при этом требуя больше вычислительных ресурсов), а некоторые даже демонстрируют снижение производительности при увеличении доступного пула данных для выбора. Однако мы обнаружили, что вариант метода выбора данных на основе представлений (RDS+), который использует взвешенное усреднение скрытых состояний предобученной языковой модели, стабильно превосходит более сложные методы во всех протестированных условиях — при этом оставаясь более вычислительно эффективным. Наши результаты подчеркивают, что свойства масштабируемости предлагаемых автоматизированных методов выбора данных требуют более тщательного изучения. Мы публикуем наш код, данные и модели по адресу https://github.com/hamishivi/automated-instruction-selection.
Сообщества, создающие пользовательский контент (UGC), особенно те, которые включают мультимодальный контент, улучшают пользовательский опыт за счет интеграции визуальной и текстовой информации в результаты (или элементы). Задача улучшения пользовательского опыта в сложных системах с услугами поиска и рекомендаций (S&R) привлекает значительное внимание как академических кругов, так и индустрии в последние годы. Однако отсутствие высококачественных наборов данных ограничивает прогресс исследований в области мультимодального S&R. Чтобы удовлетворить растущую потребность в разработке более совершенных услуг S&R, мы представляем новый набор данных для мультимодального поиска информации, названный Qilin. Этот набор данных собран с платформы Xiaohongshu, популярной социальной сети с более чем 300 миллионами активных пользователей в месяц и средним уровнем проникновения поиска свыше 70%. В отличие от существующих наборов данных, Qilin предлагает всеобъемлющую коллекцию пользовательских сессий с разнородными результатами, такими как заметки с изображениями и текстом, видеозаметки, коммерческие заметки и прямые ответы, что способствует разработке передовых мультимодальных нейронных моделей поиска в различных условиях задач. Чтобы лучше моделировать удовлетворенность пользователей и поддерживать анализ разнородного поведения пользователей, мы также собираем обширные контекстные сигналы на уровне приложения и подлинные отзывы пользователей. Примечательно, что Qilin содержит предпочитаемые пользователями ответы и связанные с ними результаты для поисковых запросов, активирующих модуль Deep Query Answering (DQA). Это позволяет не только обучать и оценивать конвейер Retrieval-augmented Generation (RAG), но и исследовать, как такой модуль влияет на поведение пользователей при поиске. Благодаря всестороннему анализу и экспериментам мы предоставляем интересные выводы и идеи для дальнейшего улучшения систем S&R. Мы надеемся, что Qilin внесет значительный вклад в развитие мультимодальных платформ с услугами S&R в будущем.
Существующие методы смешивания данных для предварительного обучения крупных языковых моделей (LLM) обычно следуют доменно-ориентированному подходу, представляющему собой процесс "сверху вниз", при котором сначала определяются веса доменов, а затем выполняется равномерная выборка данных в каждом домене. Однако такие подходы игнорируют значительные пересечения и общие черты между доменами, не обеспечивая контроля над глобальным разнообразием формируемого набора данных для обучения. Кроме того, равномерная выборка внутри доменов не учитывает тонкие, специфичные для каждого образца особенности, что может привести к субоптимальному распределению данных. Для устранения этих недостатков мы предлагаем новый подход к смешиванию данных на уровне отдельных образцов, основанный на парадигме "снизу вверх". Этот метод выполняет глобальную кросс-доменную выборку, систематически оценивая качество и разнообразие каждого образца, тем самым динамически определяя оптимальное распределение доменов. Комплексные эксперименты на множестве задач и оценка перплексии демонстрируют, что SampleMix превосходит существующие доменно-ориентированные методы. При этом SampleMix требует от 1,4 до 2,1 раза больше шагов обучения для достижения производительности базовых методов, что подчеркивает значительный потенциал SampleMix для оптимизации данных предварительного обучения.
Генеративные модели для преобразования текста в видео превращают текстовые запросы в динамический визуальный контент, предлагая широкий спектр применений в кинопроизводстве, игровой индустрии и образовании. Однако их реальная производительность часто не оправдывает ожидания пользователей. Одной из ключевых причин является то, что эти модели не обучались на видео, связанных с некоторыми темами, которые пользователи хотят создавать. В данной статье мы представляем VideoUFO — первый видеодатасет, специально созданный для соответствия фокусу пользователей в реальных сценариях. Помимо этого, наш VideoUFO также обладает следующими особенностями: (1) минимальное (0,29%) пересечение с существующими видеодатасетами и (2) видео, найденные исключительно через официальный API YouTube под лицензией Creative Commons. Эти два атрибута предоставляют будущим исследователям большую свободу для расширения источников обучения. VideoUFO включает более 1,09 миллиона видеоклипов, каждый из которых сопровождается как кратким, так и подробным описанием. В частности, с помощью кластеризации мы сначала выделили 1 291 тему, ориентированную на пользователей, из миллионного набора данных реальных текстовых запросов для создания видео, VidProM. Затем мы использовали эти темы для поиска видео на YouTube, разделили найденные видео на клипы и создали как краткие, так и подробные описания для каждого клипа. После проверки клипов на соответствие указанным темам у нас осталось около 1,09 миллиона видеоклипов. Наши эксперименты показывают, что (1) текущие 16 моделей для преобразования текста в видео не демонстрируют стабильной производительности по всем темам, ориентированным на пользователей; и (2) простая модель, обученная на VideoUFO, превосходит другие модели по темам с наихудшей производительностью. Датасет доступен публично по адресу https://huggingface.co/datasets/WenhaoWang/VideoUFO под лицензией CC BY 4.0.
Крупные языковые модели (LLM) трансформировали процесс генерации кода, объединив их выдающееся понимание естественного языка и синтаксиса программирования, что существенно повысило производительность разработчиков. Эти достижения стимулировали многочисленные усилия по количественной оценке их способностей в написании кода. Однако сохраняющиеся проблемы, такие как утечка данных в бенчмарках, рассеивание данных и ограниченная доступность систем, продолжают препятствовать своевременной и точной оценке. Для устранения этих ограничений мы представляем CodeArena — онлайн-фреймворк для оценки генерации кода LLM. Ключевым нововведением является коллективный механизм оценки, который динамически перекалибрует индивидуальные оценки моделей на основе общего результата всех участвующих моделей, смягчая смещения оценок, вызванные широко распространённой утечкой данных в бенчмарках. Кроме того, CodeArena обеспечивает открытый доступ ко всем представленным решениям и тестовым случаям, а также предоставляет API, удобные для автоматизации, чтобы упростить процесс оценки кода. Наши основные вклады: (1) коллективная система оценки для объективного анализа, (2) публичный репозиторий решений и тестовых случаев и (3) API, готовые к автоматизации, для бесшовной интеграции.
Существующие методы автоматической генерации аудио сталкиваются с трудностями при создании подкастоподобных аудиопрограмм. Основные проблемы заключаются в глубокой генерации контента, а также в создании подходящего и выразительного голосового сопровождения. В данной статье представлен PodAgent — комплексный фреймворк для создания аудиопрограмм. PodAgent 1) генерирует информативный контент для обсуждения тем, используя систему многозадачного взаимодействия Host-Guest-Writer, 2) создает пул голосов для подходящего распределения ролей и 3) применяет метод синтеза речи, усиленный LLM, для генерации выразительной разговорной речи. Учитывая отсутствие стандартизированных критериев оценки для генерации подкастоподобного аудио, мы разработали комплексные руководства по оценке для эффективного анализа производительности модели. Результаты экспериментов демонстрируют эффективность PodAgent, значительно превосходящего прямое генерирование GPT-4 в создании диалогов для обсуждения тем, достигая точности соответствия голосов в 87,4% и создавая более выразительную речь с помощью LLM-управляемого синтеза. Демо-страница: https://podcast-agent.github.io/demo/. Исходный код: https://github.com/yujxx/PodAgent.
В данной статье исследуется возможность разработки крупными языковыми моделями (LLM) частных тональных языков для машинного взаимодействия (M2M). Вдохновленные криптофазией у человеческих близнецов (встречающейся у 50% близнецов) и естественными тональными языками, такими как китайский и вьетнамский, мы реализовали систему точного отображения символов в частоты, которая кодирует полный набор символов ASCII (32-126) с использованием музыкальных полутонов. Каждому символу присваивается уникальная частота, создавая логарифмическую прогрессию, начинающуюся с пробела (220 Гц) и заканчивающуюся тильдой (50 175,42 Гц). Это охватывает примерно 7,9 октав, причем символы с более высокими значениями намеренно отображаются на ультразвуковые частоты, выходящие за пределы человеческого восприятия (>20 кГц). Наш программный прототип демонстрирует это кодирование через визуализацию, аудиовоспроизведение и музыкальную нотацию ABC, позволяя анализировать плотность информации и скорость передачи. Тестирование показывает, что тональное кодирование может достигать скоростей передачи информации, превышающих человеческую речь, при этом частично выходя за пределы человеческого восприятия. Эта работа напрямую отвечает на опасения по поводу катастрофического развития частных языков в системах ИИ в ближайшие пять лет, предоставляя конкретный пример программного прототипа, демонстрирующего, как может функционировать такое взаимодействие, а также техническую основу для его возникновения, обнаружения и регулирования.
Крупные языковые модели (LLM) продемонстрировали впечатляющую практическую полезность, воплощая искусственный полезный интеллект (AUI). Однако их способность к адаптивному и устойчивому рассуждению — ключевым характеристикам искусственного общего интеллекта (AGI) — остается ограниченной. Хотя LLM, казалось бы, успешно справляются с задачами здравого смысла, программирования и математики, они испытывают трудности с обобщением алгоритмического понимания в новых контекстах. Наши эксперименты с алгоритмическими задачами на эзотерических языках программирования показывают, что рассуждения LLM переобучаются на тренировочных данных и обладают ограниченной переносимостью. Мы предполагаем, что основная проблема, лежащая в основе такой ограниченной переносимости, заключается в тесной связи рассуждений и знаний в LLM. Для перехода от AUI к AGI мы предлагаем разделить знания и рассуждения через три ключевых направления: (1) предварительное обучение рассуждениям с использованием обучения с подкреплением (RL) с нуля как альтернативу широко используемому предобучению на предсказании следующего токена, (2) использование учебного плана из синтетических задач для облегчения изучения априорного распределения рассуждений для RL, которое затем может быть перенесено на задачи обработки естественного языка, и (3) обучение более обобщаемым функциям рассуждений с использованием небольшого контекстного окна для снижения эксплуатации ложных корреляций между токенами. Такая система рассуждений, объединенная с обученной системой извлечения информации и большой внешней памятью в качестве хранилища знаний, может преодолеть ряд ограничений существующих архитектур в обучении рассуждениям в новых сценариях.
По мере того как крупные языковые модели выходят за рамки обработки естественного языка и охватывают такие области, как математика, мультимодальное понимание и воплощенные агенты, токены всё чаще отражают метрические отношения, а не чисто лингвистический смысл. Мы представляем DIST2Loss — дистанционно-ориентированную структуру, предназначенную для обучения авторегрессивных дискретных моделей с использованием предопределенных дистанционных отношений между выходными токенами. В основе DIST2Loss лежит преобразование непрерывных распределений экспоненциального семейства, полученных из встроенных метрик расстояния, в дискретные категориальные цели оптимизации, совместимые с архитектурами моделей. Этот подход позволяет моделям изучать и сохранять значимые дистанционные отношения в процессе генерации токенов, оставаясь совместимыми с существующими архитектурами. Эмпирические оценки демонстрируют устойчивое улучшение производительности в различных мультимодальных приложениях, включая визуальное заземление, роботизированное манипулирование, генеративное моделирование вознаграждений и генерацию изображений с использованием векторно-квантованных признаков. Эти улучшения особенно заметны в условиях ограниченного объема обучающих данных, что подчеркивает эффективность DIST2Loss в условиях ограниченных ресурсов.
Читатели-люди способны эффективно понимать переставленные буквы в словах, явление, известное как типоглицемия, в основном полагаясь на форму слова; если одной формы слова недостаточно, они дополнительно используют контекстные подсказки для интерпретации. Хотя современные крупные языковые модели (LLM) демонстрируют схожие способности, лежащие в их основе механизмы остаются неясными. Чтобы исследовать это, мы проводим контролируемые эксперименты для анализа роли формы слова и контекстной информации в семантической реконструкции и изучаем паттерны внимания LLM. В частности, мы сначала предлагаем SemRecScore, надежную метрику для количественной оценки степени семантической реконструкции, и подтверждаем её эффективность. Используя эту метрику, мы изучаем, как форма слова и контекстная информация влияют на способность LLM к семантической реконструкции, идентифицируя форму слова как ключевой фактор в этом процессе. Кроме того, мы анализируем, как LLM используют форму слова, и обнаруживаем, что они полагаются на специализированные головы внимания для извлечения и обработки информации о форме слова, причем этот механизм остается стабильным при различных уровнях перестановки букв. Это различие между фиксированными паттернами внимания LLM, в основном сосредоточенными на форме слова, и адаптивной стратегией читателей-людей, балансирующей между формой слова и контекстной информацией, предоставляет идеи для улучшения производительности LLM путем внедрения человеко-подобных, контекстно-зависимых механизмов.
Хотя правдоподобие-ориентированные генеративные модели, в частности диффузионные и авторегрессионные модели, достигли впечатляющей точности в визуальной генерации, цель максимального правдоподобия (MLE) изначально страдает от склонности к покрытию мод, что ограничивает качество генерации при ограниченной емкости модели. В данной работе мы предлагаем Direct Discriminative Optimization (DDO) как унифицированную структуру, которая объединяет обучение генеративных моделей на основе правдоподобия с целью GAN, чтобы обойти это фундаментальное ограничение. Наше ключевое наблюдение заключается в параметризации дискриминатора неявно с использованием отношения правдоподобия между обучаемой целевой моделью и фиксированной эталонной моделью, проводя параллели с философией Direct Preference Optimization (DPO). В отличие от GAN, такая параметризация устраняет необходимость совместного обучения генератора и дискриминатора, позволяя проводить прямое, эффективное и результативное тонкое настраивание хорошо обученной модели для раскрытия ее полного потенциала за пределами ограничений MLE. DDO может выполняться итеративно в режиме самообучения для постепенного улучшения модели, причем каждый раунд требует менее 1% эпох предварительного обучения. Наши эксперименты демонстрируют эффективность DDO, значительно улучшая предыдущую SOTA диффузионную модель EDM, снижая показатели FID с 1.79/1.58 до новых рекордов 1.30/0.97 на наборах данных CIFAR-10/ImageNet-64, а также последовательно улучшая как FID без управления, так и FID с усилением CFG для визуальных авторегрессионных моделей на ImageNet 256×256.
Крупные языковые модели (LLM) демонстрируют выдающиеся способности в иерархической декомпозиции сложных задач посредством семантического рассуждения. Однако их применение в воплощённых системах сталкивается с трудностями в обеспечении надёжного выполнения последовательностей подзадач и достижении успеха с первой попытки в долгосрочном выполнении задач. Для преодоления этих ограничений в динамических средах мы предлагаем архитектуру Closed-Loop Embodied Agent (CLEA) — новую систему, включающую четыре специализированные открытые LLM с функциональной декомпозицией для замкнутого управления задачами. Фреймворк включает два ключевых нововведения: (1) Интерактивный планировщик задач, который динамически генерирует исполняемые подзадачи на основе памяти о среде, и (2) Мультимодальный критик выполнения, использующий оценочную систему для вероятностной оценки выполнимости действий, запускающий механизмы иерархического перепланирования, когда возмущения среды превышают заданные пороги. Для проверки эффективности CLEA мы проводим эксперименты в реальной среде с манипулируемыми объектами, используя двух разнородных роботов для задач поиска, манипуляции и интеграции поиска с манипуляцией. В 12 испытаниях CLEA превосходит базовую модель, демонстрируя улучшение успешности на 67,3% и увеличение коэффициента завершения задач на 52,8%. Эти результаты показывают, что CLEA значительно повышает устойчивость планирования и выполнения задач в динамических средах.
Последние достижения в области веб-агентов с искусственным интеллектом продемонстрировали впечатляющие способности в решении сложных задач веб-навигации. Однако новые исследования показывают, что эти агенты проявляют большую уязвимость по сравнению с автономными большими языковыми моделями (LLM), несмотря на то, что и те, и другие построены на основе моделей, ориентированных на безопасность. Это расхождение вызывает особую обеспокоенность, учитывая большую гибкость веб-агентов ИИ по сравнению с автономными LLM, что может подвергать их более широкому спектру враждебных пользовательских воздействий. Для создания структуры, которая учитывает эти проблемы, данное исследование изучает основные факторы, способствующие повышенной уязвимости веб-агентов ИИ. В частности, это различие обусловлено многогранными различиями между веб-агентами ИИ и автономными LLM, а также сложными сигналами — нюансами, которые часто упускаются при использовании простых метрик оценки, таких как процент успешности. Для решения этих задач мы предлагаем анализ на уровне компонентов и более детальную, систематическую структуру оценки. Благодаря этому углубленному исследованию мы выявили три ключевых фактора, которые усиливают уязвимость веб-агентов ИИ: (1) встраивание целей пользователя в системный промпт, (2) генерация многошаговых действий и (3) наблюдательные способности. Наши результаты подчеркивают настоятельную необходимость повышения безопасности и устойчивости в проектировании агентов ИИ и предоставляют практические рекомендации для разработки целевых стратегий защиты.
Оценка планировки помещения на основе изображений с нескольких точек зрения остается малоизученной областью из-за сложностей, возникающих в многовидовой геометрии, которая требует многоэтапных решений, таких как оценка внутренних и внешних параметров камеры, сопоставление изображений и триангуляция. Однако в области 3D-реконструкции прогресс в современных базовых моделях, таких как DUSt3R, сместил парадигму от традиционного многоэтапного процесса структуры из движения к сквозному одноэтапному подходу. В связи с этим мы представляем Plane-DUSt3R — новый метод оценки планировки помещения на основе нескольких видов, использующий базовую 3D-модель DUSt3R. Plane-DUSt3R интегрирует фреймворк DUSt3R и дообучается на наборе данных для планировки помещений (Structure3D) с модифицированной целью оценки структурных плоскостей. Генерируя однородные и лаконичные результаты, Plane-DUSt3R позволяет оценивать планировку помещения всего за один этап постобработки и с использованием результатов 2D-детекции. В отличие от предыдущих методов, которые полагаются на изображения с одной точки зрения или панорамные изображения, Plane-DUSt3R расширяет настройку для обработки изображений с нескольких точек зрения. Более того, он предлагает упрощенное сквозное решение, которое упрощает процесс и снижает накопление ошибок. Экспериментальные результаты показывают, что Plane-DUSt3R не только превосходит современные методы на синтетических данных, но также демонстрирует устойчивость и эффективность на реальных данных с различными стилями изображений, такими как мультфильмы. Наш код доступен по адресу: https://github.com/justacar/Plane-DUSt3R.
Послойное квантование является ключевой техникой для эффективного сжатия больших моделей без дорогостоящего переобучения. Традиционные методы обычно квантуют веса каждого слоя, "равномерно" оптимизируя потерю реконструкции слоя для всех выходных токенов. Однако в данной работе мы показываем, что более качественно квантованные модели могут быть получены путем приоритизации обучения на важных токенах (например, тех, которые имеют высокие оценки внимания). Основываясь на этом наблюдении, мы предлагаем метод RSQ (Rotate, Scale, then Quantize), который (1) применяет вращения (ортогональные преобразования) к модели для смягчения выбросов (элементов с исключительно большой величиной), (2) масштабирует признаки токенов в зависимости от их важности и (3) квантует модель с использованием фреймворка GPTQ с вычислением статистики второго порядка на основе масштабированных токенов. Для вычисления важности токенов мы исследуем как эвристические, так и динамические стратегии. На основе тщательного анализа всех подходов мы выбираем концентрацию внимания, которая использует оценки внимания каждого токена в качестве его важности, как наилучший метод. Мы демонстрируем, что RSQ стабильно превосходит базовые методы в различных задачах и для трех семейств моделей: LLaMA3, Mistral и Qwen2.5. Кроме того, модели, квантованные с помощью RSQ, показывают превосходную производительность в задачах с длинным контекстом, что дополнительно подчеркивает его эффективность. Наконец, RSQ демонстрирует универсальность в различных настройках, включая разные размеры моделей, калибровочные наборы данных, битовые точности и методы квантования.