Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем BitNet b1.58 2B4T — первую открытую, нативную 1-битную крупную языковую модель (LLM) с масштабом в 2 миллиарда параметров. Обученная на корпусе из 4 триллионов токенов, модель была тщательно протестирована на наборах данных, охватывающих понимание языка, математические рассуждения, навыки программирования и способность к диалогу. Наши результаты показывают, что BitNet b1.58 2B4T демонстрирует производительность, сопоставимую с ведущими открытыми полноточными LLM аналогичного размера, при этом предлагая значительные преимущества в вычислительной эффективности, включая существенно уменьшенный объем памяти, энергопотребление и задержку декодирования. Для содействия дальнейшим исследованиям и внедрению, веса модели опубликованы на платформе Hugging Face вместе с открытыми реализациями вывода для архитектур GPU и CPU.
Хотя модели рассуждений (например, DeepSeek R1), обученные с использованием обучения с подкреплением (RL), преуспевают в текстовых рассуждениях, они сталкиваются с трудностями в сценариях, требующих структурированного решения задач, таких как геометрические рассуждения, краткие вычисления или решение сложных уравнений — областях, где вычислительные инструменты, такие как интерпретаторы кода (CI), демонстрируют явные преимущества. Чтобы устранить этот разрыв, мы предлагаем ReTool, который улучшает длинные рассуждения за счет интеграции инструментов, включая две ключевые особенности: (1) динамическое чередование выполнения кода в реальном времени в рамках процессов рассуждений на естественном языке и (2) автоматизированная парадигма RL, которая позволяет выполнять политики с многошаговым выполнением кода в реальном времени и обучает модель тому, когда и как использовать инструменты на основе обратной связи по результатам. ReTool использует систематическую структуру обучения, начиная с генерации синтетических данных для холодного старта, чтобы создать расширенные кодом трассы длинных рассуждений для тонкой настройки базовых моделей. Последующее обучение RL использует результаты задач в качестве вознаграждений для итеративного улучшения стратегии использования инструментов моделью, что позволяет автономно находить оптимальные шаблоны вызова инструментов без предварительных знаний человека. Эксперименты на сложном эталоне MATH Olympiad AIME демонстрируют превосходство ReTool: наша 32B модель достигает 67% точности за 400 шагов обучения, превосходя текстовый RL-базис (40% точности, 1080 шагов) по эффективности и производительности. Примечательно, что ReTool-32B достигает 72,5% точности в расширенных настройках, превосходя OpenAI o1-preview на 27,9%. Дополнительный анализ выявляет возникающие поведенческие паттерны, такие как самокоррекция кода, сигнализирующие о «моменте озарения», когда модель автономно осваивает адаптивное использование инструментов. Эти результаты подчеркивают перспективность интеграции инструментов, управляемой результатами, для продвижения сложных математических рассуждений и предлагают новые инсайты в гибридные нейро-символические системы.
Цвет играет важную роль в человеческом восприятии и обычно предоставляет ключевые подсказки в визуальном мышлении. Однако остается неясным, способны ли модели, объединяющие зрение и язык (VLMs), воспринимать, понимать и использовать цвет так же, как люди. В данной статье представлен ColorBench — инновационный бенчмарк, тщательно разработанный для оценки способностей VLMs в понимании цвета, включая восприятие цвета, логическое мышление и устойчивость. Путем создания набора разнообразных тестовых сценариев, основанных на реальных приложениях, ColorBench оценивает, как эти модели воспринимают цвета, делают выводы на основе цветовых подсказок и сохраняют стабильную производительность при различных цветовых преобразованиях. В результате масштабной оценки 32 VLMs с различными языковыми моделями и визуальными кодировщиками, наша работа выявила несколько ранее неизвестных фактов: (i) Закон масштабирования (более крупные модели работают лучше) по-прежнему применим к ColorBench, при этом языковая модель играет более важную роль, чем визуальный кодировщик. (ii) Однако разрыв в производительности между моделями относительно невелик, что указывает на то, что понимание цвета в значительной степени игнорируется существующими VLMs. (iii) Логическое мышление с использованием цепочки рассуждений (CoT) улучшает точность и устойчивость в понимании цвета, несмотря на то, что это задачи, ориентированные на зрение. (iv) Цветовые подсказки действительно используются VLMs в ColorBench, но они также могут вводить модели в заблуждение в некоторых задачах. Эти выводы подчеркивают ключевые ограничения современных VLMs и необходимость улучшения понимания цвета. Наш ColorBench может служить основополагающим инструментом для продвижения исследований в области понимания цвета на уровне человека в мультимодальном искусственном интеллекте.
Индустрия производства комиксов требует высокоточного, эффективного, контекстно-согласованного и гибко управляемого раскрашивания линейных рисунков на основе референсов. Страница комикса часто включает разнообразных персонажей, объекты и фоны, что усложняет процесс раскрашивания. Несмотря на прогресс в диффузионных моделях для генерации изображений, их применение в раскрашивании линейных рисунков остается ограниченным, сталкиваясь с проблемами обработки большого количества референсных изображений, длительного времени вывода и гибкого управления. Мы исследуем необходимость обширного контекстного руководства изображениями для качества раскрашивания линейных рисунков. Для решения этих задач мы представляем Cobra — эффективный и универсальный метод, который поддерживает цветовые подсказки и использует более 200 референсных изображений, сохраняя низкую задержку. Основой Cobra является архитектура Causal Sparse DiT, которая использует специально разработанные позиционные кодировки, причинно-следственное разреженное внимание и Key-Value Cache для эффективного управления длинными контекстными референсами и обеспечения согласованности цветовой идентичности. Результаты показывают, что Cobra достигает точного раскрашивания линейных рисунков благодаря обширному контекстному референсу, значительно повышая скорость вывода и интерактивность, что отвечает критическим требованиям индустрии. Мы публикуем наши коды и модели на странице проекта: https://zhuang2002.github.io/Cobra/.
В данной работе пересматривается доминирующая парадигма обучения крупных визуально-языковых моделей (LVLMs), которая включает сначала тонкую настройку с учителем (SFT), а затем обучение с подкреплением (RL). В ходе исследования выявлен ключевой вывод: SFT может существенно ослабить последующее RL, вызывая «псевдо-пути рассуждений», имитируемые экспертных моделей. Хотя эти пути могут напоминать естественные пути рассуждений моделей RL, они часто включают длительные, неуверенные, менее информативные шаги и ошибочные рассуждения. Для систематического изучения этого эффекта мы представляем VLAA-Thinking — новый мультимодальный набор данных, разработанный для поддержки рассуждений в LVLMs. Созданный с помощью шестиэтапного процесса, включающего создание подписей, дистилляцию рассуждений, переписывание ответов и проверку, VLAA-Thinking содержит высококачественные пошаговые визуальные траектории рассуждений для SFT, а также более сложный раздел RL из того же источника данных. Используя этот набор данных, мы проводим обширные эксперименты, сравнивая SFT, RL и их комбинации. Результаты показывают, что хотя SFT помогает моделям изучать форматы рассуждений, она часто фиксирует выровненные модели в имитационных, жестких режимах рассуждений, которые препятствуют дальнейшему обучению. В отличие от этого, наша методика RL, основанная на оптимизации групповой относительной политики (GRPO) с новым модулем смешанного вознаграждения, интегрирующим как перцептивные, так и когнитивные сигналы, способствует более подлинному, адаптивному поведению рассуждений. Примечательно, что наша модель VLAA-Thinker, основанная на Qwen2.5VL 3B, достигает наивысшей производительности на Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) среди LVLMs масштаба 4B, превосходя предыдущее состояние искусства на 1,8%. Мы надеемся, что наши выводы предоставят ценные инсайты для разработки LVLMs, способных к рассуждениям, и смогут информировать будущие исследования в этой области.
AlayaDB — это передовая система векторной базы данных, изначально разработанная для эффективного и производительного выполнения выводов с длинным контекстом для крупных языковых моделей (LLM) в AlayaDB AI. В частности, она отделяет кэш ключ-значение (KV) и вычисления внимания от систем вывода LLM, инкапсулируя их в новую систему векторной базы данных. Для поставщиков моделей как услуги (MaaS) AlayaDB потребляет меньше аппаратных ресурсов и обеспечивает более высокое качество генерации для различных рабочих нагрузок с различными целями уровня обслуживания (SLO) по сравнению с существующими альтернативными решениями (например, разделение кэша KV, разреженное внимание на основе извлечения). Ключевая идея AlayaDB заключается в том, что она абстрагирует вычисления внимания и управление кэшем для вывода LLM в процедуру обработки запросов и оптимизирует производительность с помощью встроенного оптимизатора запросов. В данной работе мы демонстрируем эффективность AlayaDB через (i) три примера использования от наших индустриальных партнеров и (ii) обширные экспериментальные результаты на бенчмарках вывода LLM.
В данной работе мы рассматриваем фундаментальный вопрос: "Можно ли обучать латентные диффузионные модели совместно с токенизатором на основе вариационного автокодировщика (VAE) в сквозном режиме?" Традиционная мудрость глубокого обучения гласит, что сквозное обучение предпочтительно, когда это возможно. Однако для латентных диффузионных трансформеров наблюдается, что сквозное обучение как VAE, так и диффузионной модели с использованием стандартной диффузионной функции потерь неэффективно и даже приводит к ухудшению итоговой производительности. Мы показываем, что хотя диффузионная функция потерь неэффективна, сквозное обучение становится возможным благодаря функции потерь выравнивания представлений (REPA) — это позволяет совместно настраивать как VAE, так и диффузионную модель в процессе обучения. Несмотря на свою простоту, предложенный метод обучения (REPA-E) демонстрирует впечатляющую производительность; ускоряя обучение диффузионной модели более чем в 17 и 45 раз по сравнению с методами REPA и стандартного обучения соответственно. Интересно, что мы наблюдаем, что сквозная настройка с использованием REPA-E также улучшает сам VAE; это приводит к улучшению структуры латентного пространства и повышению производительности генерации. С точки зрения итоговой производительности наш подход устанавливает новый эталон; достигая FID 1.26 и 1.83 с использованием и без использования классификатор-независимого руководства на данных ImageNet 256 x 256. Код доступен по адресу https://end2end-diffusion.github.io.
Существующие подходы к оценке агентов на основе больших языковых моделей (LLM) в области научных открытий страдают от отсутствия объективных базовых показателей и метрик для оценки жизнеспособности предлагаемых методов. Чтобы решить эту проблему, мы представляем MLRC-Bench — эталонный тест, предназначенный для количественной оценки того, насколько эффективно языковые агенты могут справляться со сложными соревнованиями в области машинного обучения (ML). Наш эталонный тест акцентирует внимание на открытых исследовательских проблемах, требующих новых методологий, в отличие от недавних тестов, таких как MLE-Bench от OpenAI (Chan et al., 2024) и RE-Bench от METR (Wijk et al., 2024), которые сосредоточены на хорошо изученных задачах, в основном решаемых за счет инженерных усилий. В отличие от предыдущих работ, например, AI Scientist (Lu et al., 2024b), которые оценивают сквозной агентский конвейер с использованием LLM в качестве судьи, MLRC-Bench измеряет ключевые этапы предложения и реализации новых исследовательских методов и оценивает их с помощью нового строгого протокола и объективных метрик. Наш тщательно отобранный набор из 7 соревновательных задач выявляет значительные трудности для агентов на основе LLM. Даже лучший из протестированных агентов (gemini-exp-1206 под MLAB (Huang et al., 2024a)) закрывает лишь 9,3% разрыва между базовыми показателями и результатами лучших участников-людей. Более того, наш анализ выявляет несоответствие между инновационностью, оцененной LLM, и их фактической производительностью на передовых задачах ML-исследований. MLRC-Bench — это динамический эталонный тест, который разработан для постоянного расширения за счет новых соревнований в области ML, чтобы стимулировать строгую и объективную оценку исследовательских возможностей ИИ.
Мы представляем SIFT (Speech Instruction Fine-Tuning) — набор данных из 50 миллионов примеров, предназначенный для тонкой настройки и предварительного обучения крупных языковых моделей (LLM), работающих с речью и текстом. SIFT-50M создан на основе общедоступных речевых корпусов, которые в совокупности содержат 14 тысяч часов речи, и использует LLM вместе с готовыми экспертными моделями. Набор данных охватывает пять языков и включает разнообразные инструкции для понимания речи и управляемой генерации речи. С использованием SIFT-50M мы обучаем модель SIFT-LLM, которая превосходит существующие речево-текстовые LLM на тестах по выполнению инструкций, одновременно демонстрируя конкурентоспособные результаты на базовых задачах обработки речи. Для поддержки дальнейших исследований мы также представляем EvalSIFT — эталонный набор данных, специально разработанный для оценки способности речево-текстовых LLM следовать инструкциям.
Идеальная система обнаружения машинно-сгенерированного контента должна эффективно работать с любыми генераторами, учитывая, что более продвинутые языковые модели (LLM) появляются с каждым днем. Существующие системы часто испытывают трудности с точным определением контента, созданного ИИ, особенно в случае коротких текстов. Более того, не все тексты могут быть полностью написаны человеком или LLM, поэтому мы сосредоточились на частичных случаях, то есть текстах, созданных в соавторстве человеком и LLM. В нашей статье представлен набор моделей, разработанных для задачи классификации токенов, которые были обучены на обширной коллекции текстов, созданных в соавторстве человеком и машиной. Эти модели показали хорошие результаты на текстах из неизвестных доменов, созданных неизвестными генераторами, текстах, написанных не носителями языка, а также на текстах с враждебными входами. Мы также представляем новый набор данных, содержащий более 2,4 млн таких текстов, в основном созданных в соавторстве несколькими популярными проприетарными LLM на 23 языках. В статье также приводятся результаты оценки производительности наших моделей на текстах каждого домена и генератора. Дополнительные результаты включают сравнение производительности для каждого метода враждебного воздействия, длины входных текстов и характеристик сгенерированных текстов по сравнению с оригинальными текстами, написанными человеком.
Мы представляем CAL (Complete Anything in Lidar) для завершения форм на основе данных лидара в реальных условиях. Этот подход тесно связан с семантическим/паноптическим завершением сцен на основе лидара. Однако современные методы способны завершать и распознавать объекты только из закрытого набора классов, представленного в существующих наборах данных лидара. В отличие от них, наш метод с нулевым обучением использует временной контекст из мультимодальных последовательностей сенсоров для извлечения форм объектов и их семантических характеристик. Эти данные затем преобразуются в модель завершения и распознавания на уровне экземпляров, работающую исключительно с лидаром. Хотя мы извлекаем только частичные завершения форм, наша модель учится выводить полные формы объектов на основе множества таких частичных наблюдений по всему набору данных. Мы демонстрируем, что нашу модель можно применять на стандартных тестах для семантического и паноптического завершения сцен, локализовать объекты в виде (амодальных) 3D ограничивающих рамок и распознавать объекты за пределами фиксированных наборов классов. Страница проекта доступна по адресу: https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
Реконструкция 4D динамических сцен из случайно снятых монохромных видео представляет большую ценность, но является крайне сложной задачей, так как каждый момент времени наблюдается с одной точки зрения. Мы представляем Vivid4D — новый подход, который улучшает синтез 4D монохромных видео за счет расширения наблюдаемых ракурсов, синтезируя многовидовые видео из монохромного входа. В отличие от существующих методов, которые либо полагаются исключительно на геометрические априорные данные для контроля, либо используют генеративные априорные данные, игнорируя геометрию, мы интегрируем оба подхода. Это переформулирует задачу расширения ракурсов как задачу восстановления видео, где наблюдаемые ракурсы преобразуются в новые точки зрения на основе априорных данных о глубине монохромного изображения. Для достижения этого мы обучаем модель восстановления видео на неаннотированных веб-видео с синтетически сгенерированными масками, имитирующими окклюзии при преобразовании, обеспечивая пространственно и временно согласованное заполнение отсутствующих областей. Чтобы дополнительно снизить неточности в априорных данных о глубине монохромного изображения, мы вводим итеративную стратегию расширения ракурсов и устойчивую функцию потерь для реконструкции. Эксперименты показывают, что наш метод эффективно улучшает реконструкцию и завершение 4D сцен из монохромных видео.
Метод Chain-of-Thought (CoT) улучшает рассуждения больших языковых моделей (LLM), разбивая задачи на последовательные шаги, имитируя человеческую логику и снижая количество ошибок. Однако сложные задачи с обширными пространствами решений и нечеткими ограничениями часто выходят за пределы возможностей одной цепочки рассуждений. Вдохновленные концепцией Минимальной Свободной Резольвенты (MFR) в коммутативной алгебре и алгебраической геометрии, мы предлагаем Syzygy of Thoughts (SoT) — новый фреймворк, который расширяет CoT за счет введения вспомогательных, взаимосвязанных путей рассуждений. SoT фиксирует более глубокие логические зависимости, обеспечивая более устойчивое и структурированное решение задач. MFR разлагает модуль на последовательность свободных модулей с минимальным рангом, предоставляя структурированный аналитический подход к сложным системам. Этот метод вводит понятия "Модуль", "Числа Бетти", "Свободность", "Отображение", "Точность" и "Минимальность", позволяя систематически разлагать исходную сложную задачу на логически завершенные минимальные подзадачи, сохраняя ключевые особенности задачи и сокращая длину рассуждений. Мы протестировали SoT на различных наборах данных (например, GSM8K, MATH) и моделях (например, GPT-4o-mini, Qwen2.5), достигнув точности вывода, которая соответствует или превосходит стандарты основных CoT. Кроме того, за счет согласования процесса выборки с алгебраическими ограничениями наш подход повышает масштабируемость времени вывода в LLM, обеспечивая как прозрачность рассуждений, так и высокую производительность. Наш код будет доступен публично по адресу https://github.com/dlMARiA/Syzygy-of-thoughts.
Последние достижения в области 3D Gaussian Splatting (3DGS) продемонстрировали значительный потенциал в задачах синтеза новых видов. Парадигма "разделяй и властвуй" позволила осуществить реконструкцию крупномасштабных сцен, однако остаются серьезные вызовы в процессах разделения сцены, оптимизации и слияния. В данной статье представлен BlockGaussian — новый фреймворк, включающий стратегию разделения сцены с учетом контента и оптимизацию блоков с учетом видимости для достижения эффективной и качественной реконструкции крупномасштабных сцен. В частности, наш подход учитывает вариации сложности контента в различных областях и балансирует вычислительную нагрузку при разделении сцены, что обеспечивает эффективную реконструкцию. Для решения проблемы несоответствия контроля при независимой оптимизации блоков мы вводим вспомогательные точки в процессе оптимизации отдельных блоков, чтобы согласовать контроль с эталонными данными, что повышает качество реконструкции. Кроме того, мы предлагаем ограничение на геометрию псевдо-видов, которое эффективно устраняет ухудшение рендеринга, вызванное "плавающими объектами" в воздушном пространстве при слиянии блоков. Многочисленные эксперименты на крупномасштабных сценах показывают, что наш подход достигает наилучших результатов как по эффективности реконструкции, так и по качеству рендеринга, с ускорением оптимизации в 5 раз и улучшением среднего PSNR на 1.21 дБ на нескольких тестовых наборах. Важно отметить, что BlockGaussian значительно снижает вычислительные требования, что делает возможной реконструкцию крупномасштабных сцен на устройстве с 24 ГБ видеопамяти. Страница проекта доступна по адресу https://github.com/SunshineWYC/BlockGaussian.
Мы представляем FreshStack — многоразовую платформу для автоматического создания эталонных наборов данных (бенчмарков) для оценки систем информационного поиска (IR) на основе вопросов и ответов, заданных сообществом. FreshStack выполняет следующие шаги: (1) автоматический сбор корпуса данных из кода и технической документации, (2) генерация информационных фрагментов (nuggets) из вопросов и ответов сообщества и (3) поддержка на уровне фрагментов, включающая поиск документов с использованием комбинации методов поиска и гибридных архитектур. Мы используем FreshStack для создания пяти наборов данных по быстро развивающимся, новым и узкоспециализированным темам, чтобы обеспечить достаточную сложность задач. На FreshStack существующие модели поиска, применяемые "из коробки", значительно уступают эталонным подходам по всем пяти темам, что указывает на значительный потенциал для улучшения качества IR. Кроме того, мы выявили случаи, когда реранкеры не приводят к явному улучшению точности поиска на первом этапе (в двух из пяти тем). Мы надеемся, что FreshStack будет способствовать дальнейшей работе по созданию реалистичных, масштабируемых и незагрязнённых бенчмарков для оценки IR и RAG. Наборы данных FreshStack доступны по адресу: https://fresh-stack.github.io.
Последние достижения в области искусственного интеллекта (ИИ) в генерации речи и технологиях клонирования голоса позволили создавать естественно звучащую речь и точное воспроизведение голоса. Однако их влияние на социотехнические системы в контексте различных акцентов и лингвистических особенностей до конца не изучено. В данном исследовании оцениваются два синтетических сервиса генерации голоса на основе ИИ (Speechify и ElevenLabs) с использованием смешанного метода, включающего опросы и интервью, чтобы оценить техническую производительность и выяснить, как личный опыт пользователей влияет на их восприятие акцентных вариаций в этих речевых технологиях. Наши результаты выявили различия в технической производительности для пяти региональных акцентов английского языка и показали, как современные технологии генерации речи могут непреднамеренно усиливать лингвистические привилегии и дискриминацию на основе акцента, потенциально создавая новые формы цифрового исключения. В целом, наше исследование подчеркивает необходимость инклюзивного дизайна и регулирования, предоставляя практические рекомендации для разработчиков, политиков и организаций, чтобы обеспечить справедливые и социально ответственные технологии ИИ в области речи.