Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавний релиз DeepSeek-R1 продемонстрировал огромный потенциал обучения с подкреплением (RL) в улучшении общих способностей рассуждения крупных языковых моделей (LLM). В то время как DeepSeek-R1 и другие последующие работы в основном сосредотачиваются на применении RL к соревновательному программированию и математическим задачам, настоящая статья представляет SWE-RL, первый подход к масштабированию рассуждения на основе RL для реальной инженерии программного обеспечения. Используя легковесную правило-основанную систему вознаграждения (например, оценку сходства между истинными и LLM-сгенерированными решениями), SWE-RL позволяет LLM автономно восстанавливать процессы рассуждения разработчика и решения, изучая обширные данные по эволюции программного обеспечения с открытым исходным кодом - историю жизненного цикла программного обеспечения, включая его снимки кода, изменения кода и события, такие как задачи и запросы на включение изменений. Обученная поверх Llama 3, наша полученная модель рассуждения, Llama3-SWE-RL-70B, достигает показателя решения 41,0% на SWE-bench Verified - коллекции реальных проблем GitHub, подтвержденных людьми. На наш взгляд, это лучший показатель производительности, сообщенный до настоящего времени для среднего размера (<100B) LLM, даже сравнимый с ведущими собственными LLM, такими как GPT-4o. Удивительно, несмотря на то что обучение RL происходит исключительно на данных эволюции программного обеспечения, Llama3-SWE-RL даже приобрела обобщенные навыки рассуждения. Например, она показывает улучшенные результаты на пяти задачах вне области, а именно, программирование функций, использование библиотек, рассуждение о коде, математика и общее понимание языка, в то время как базовая линия с обучением с учителем даже приводит к снижению производительности в среднем. В целом, SWE-RL открывает новое направление для улучшения способностей рассуждения LLM через обучение с подкреплением на обширных данных по инженерии программного обеспечения.
Недавние достижения в области мульти-модальных моделей больших языков с открытым исходным кодом (MLLMs) в основном сосредоточены на улучшении основных возможностей, оставляя значительный разрыв в выравнивании с предпочтениями человека. В данной статье представлен OmniAlign-V, обширный набор данных из 200 тыс. высококачественных обучающих примеров, включающий разнообразные изображения, сложные вопросы и разнообразные форматы ответов для улучшения выравнивания MLLMs с предпочтениями человека. Мы также представляем MM-AlignBench, человеком аннотированный бенчмарк, специально разработанный для оценки соответствия MLLMs человеческим ценностям. Экспериментальные результаты показывают, что донастройка MLLMs с использованием OmniAlign-V, с применением надзорного донастройки (SFT) или прямой оптимизации предпочтений (DPO), значительно улучшает соответствие предпочтений человека, сохраняя или улучшая производительность на стандартных бенчмарках VQA, сохраняя их фундаментальные возможности. Наши наборы данных, бенчмарк, код и контрольные точки были опубликованы на https://github.com/PhoenixZ810/OmniAlign-V.
Эффективная реализация внимания является важной для крупных моделей из-за квадратичной сложности по времени. К счастью, внимание обычно проявляет разреженность, т.е. многие значения в карте внимания близки к нулю, что позволяет опустить соответствующие вычисления. Многие исследования использовали разреженный шаблон для ускорения внимания. Однако большинство существующих работ сосредотачиваются на оптимизации внимания в пределах конкретных моделей, эксплуатируя определенные разреженные шаблоны карты внимания. Универсальное разреженное внимание, которое гарантирует как ускорение, так и конечную производительность различных моделей, остается недостижимым. В данной статье мы предлагаем SpargeAttn, универсальное разреженное и квантованное внимание для любой модели. Наш метод использует двухэтапный онлайн-фильтр: на первом этапе мы быстро и точно предсказываем карту внимания, что позволяет пропустить некоторые умножения матриц во время внимания. На втором этапе мы разрабатываем онлайн-фильтр, осведомленный о софтмаксе, который не влечет за собой дополнительных накладных расходов и дополнительно пропускает некоторые умножения матриц. Эксперименты показывают, что наш метод значительно ускоряет различные модели, включая генерацию языка, изображений и видео, не жертвуя конечными метриками. Коды доступны по ссылке https://github.com/thu-ml/SpargeAttn.
Сохранение согласованности фона остается значительным вызовом в задачах редактирования изображений. Несмотря на обширные разработки, существующие работы все еще сталкиваются с компромиссом между сохранением сходства с оригинальным изображением и генерацией контента, соответствующего целевому. Здесь мы предлагаем KV-Edit, подход без обучения, который использует кэш KV в DiTs для сохранения согласованности фона, где токены фона сохраняются, а не восстанавливаются, что устраняет необходимость в сложных механизмах или дорогостоящем обучении, в конечном итоге создавая новый контент, который плавно интегрируется с фоном в областях, предоставленных пользователем. Мы также исследуем потребление памяти кэша KV во время редактирования и оптимизируем сложность по памяти до O(1) с использованием метода без инверсии. Наш подход совместим с любой генеративной моделью на основе DiT без дополнительного обучения. Эксперименты показывают, что KV-Edit значительно превосходит существующие подходы как по качеству фона, так и изображения, даже превосходя методы на основе обучения. Веб-страница проекта доступна по адресу https://xilluill.github.io/projectpages/KV-Edit
Генерация многослойных изображений является фундаментальной задачей, которая позволяет пользователям изолировать, выбирать и редактировать конкретные слои изображений, тем самым революционизируя взаимодействие с генеративными моделями. В данной статье мы представляем Анонимный Трансформатор Регионов (ART), который облегчает прямую генерацию переменных многослойных прозрачных изображений на основе глобального текстового запроса и анонимной компоновки регионов. Вдохновленный теорией Схемы, предполагающей, что знания организованы в структуры (схемы), которые позволяют людям интерпретировать и учиться на основе новой информации, связывая ее с предыдущими знаниями, данный подход к анонимной компоновке регионов позволяет генеративной модели автономно определять, какой набор визуальных токенов должен соответствовать каким текстовым токенам, что противопоставляется ранее доминировавшей семантической компоновке для задачи генерации изображений. Кроме того, механизм обрезки регионов по слоям, который выбирает только визуальные токены, принадлежащие каждому анонимному региону, значительно снижает затраты на вычисление внимания и обеспечивает эффективную генерацию изображений с многочисленными различными слоями (например, 50+). По сравнению с подходом полного внимания, наш метод работает более чем в 12 раз быстрее и показывает меньше конфликтов слоев. Кроме того, мы предлагаем высококачественный автоэнкодер многослойных прозрачных изображений, который поддерживает прямое кодирование и декодирование прозрачности переменных многослойных изображений совместно. Обеспечивая точный контроль и масштабируемую генерацию слоев, ART устанавливает новую парадигму для интерактивного создания контента.
Быстрое развитие вычислительных технологий значительно увеличивает масштаб и стоимость обучения крупных языковых моделей (LLM). Точное прогнозирование производительности на целевых задачах до начала обучения модели имеет решающее значение для эффективного распределения ресурсов, однако остается сложной задачей из-за двух основных ограничений: (1) "феномен возникновения", при котором метрики производительности на целевых задачах становятся значимыми только после длительного обучения, что ограничивает возможность использования меньших моделей для прогнозирования; (2) неравномерное распределение сложности задач и отсутствие универсальных законов масштабирования, что приводит к значительной вариативности метрик. Существующие методы прогнозирования производительности страдают от ограниченной точности и надежности, что затрудняет оценку потенциальных возможностей LLM. Для решения этих проблем мы предлагаем фреймворк прогнозирования производительности на целевых задачах, основанный на кластеризации по сложности (Clustering-On-Difficulty, COD). COD сначала создает предсказуемое подмножество задач, кластеризуя их на основе характеристик сложности, стратегически исключая кластеры, не демонстрирующие феномена возникновения и не подчиняющиеся законам масштабирования. Оценки на выбранном подмножестве служат эффективными промежуточными предикторами производительности на полном наборе задач. С теоретическим обоснованием мы выводим функцию отображения, которая преобразует метрики производительности с предсказуемого подмножества на полный набор задач, обеспечивая точную экстраполяцию производительности LLM на целевых задачах. Предложенный метод был применен для прогнозирования масштабирования производительности для LLM с 70 миллиардами параметров, предоставляя практические рекомендации для распределения ресурсов обучения и мониторинга процесса обучения. Важно отметить, что COD демонстрирует выдающуюся точность прогнозирования для 70B LLM, используя ансамбль небольших моделей, с абсолютным средним отклонением 1,36% на восьми важных бенчмарках для оценки LLM.
Научный эксперимент, являющийся краеугольным камнем человеческого прогресса, требует строгости в надежности, методическом контроле и интерпретируемости для получения значимых результатов. Несмотря на растущие возможности крупных языковых моделей (LLM) в автоматизации различных аспектов научного процесса, автоматизация строгих экспериментов остается серьезной проблемой. Для устранения этого пробела мы предлагаем Curie — фреймворк для ИИ-агентов, разработанный для внедрения строгости в процесс экспериментирования с помощью трех ключевых компонентов: внутриагентного модуля строгости для повышения надежности, межагентного модуля строгости для обеспечения методического контроля и модуля знаний об экспериментах для улучшения интерпретируемости. Для оценки Curie мы разработали новый экспериментальный бенчмарк, состоящий из 46 вопросов в четырех областях компьютерных наук, основанных на влиятельных научных работах и широко используемых проектах с открытым исходным кодом. По сравнению с самым сильным базовым методом, мы достигли улучшения в 3,4 раза в правильности ответов на экспериментальные вопросы. Curie доступен в открытом доступе по адресу https://github.com/Just-Curieous/Curie.
Недавние исследования изучили возможность комбинирования различных LoRA для совместного генерации изученного стиля и содержания. Однако существующие методы либо не способны эффективно сохранять как исходный объект, так и стиль одновременно, либо требуют дополнительного обучения. В данной статье мы утверждаем, что внутренние свойства LoRA могут эффективно направлять диффузионные модели в объединении изученного объекта и стиля. Основываясь на этом инсайте, мы предлагаем K-LoRA — простой, но эффективный подход к слиянию LoRA, не требующий обучения. На каждом уровне внимания K-LoRA сравнивает Top-K элементы в каждой LoRA, подлежащей слиянию, определяя, какую LoRA выбрать для оптимального объединения. Этот механизм выбора гарантирует, что наиболее репрезентативные черты как объекта, так и стиля сохраняются в процессе слияния, эффективно балансируя их вклад. Экспериментальные результаты демонстрируют, что предложенный метод успешно интегрирует информацию об объекте и стиле, изученную исходными LoRA, превосходя современные подходы, основанные на обучении, как в качественных, так и в количественных результатах.
Для использования визуальной информации мультимодальная большая языковая модель (MLLM) опирается на процесс восприятия, осуществляемый её визуальным кодировщиком. Полнота и точность визуального восприятия существенно влияют на точность пространственного рассуждения, детального понимания и других задач. Однако MLLM всё ещё не обладает автономной способностью управлять своими процессами визуального восприятия, например, выборочно анализировать определённые области изображения или фокусироваться на информации, связанной с конкретными категориями объектов. В данной работе мы предлагаем концепцию Токена Визуального Восприятия, направленную на предоставление MLLM механизма для управления её процессами визуального восприятия. Мы разработали два типа Токенов Визуального Восприятия, названные Токеном Выбора Области и Токеном Повторного Кодирования Видения. MLLM автономно генерирует эти токены, так же как она генерирует текст, и использует их для запуска дополнительных действий визуального восприятия. Токен Выбора Области явно указывает на конкретные области изображения, которые требуют дальнейшего восприятия, в то время как Токен Повторного Кодирования Видения использует свои скрытые состояния в качестве управляющих сигналов для направления дополнительных процессов визуального восприятия. Многочисленные эксперименты демонстрируют преимущества этих токенов в обработке пространственного рассуждения, улучшении детального понимания и других задач. В среднем, введение Токенов Визуального Восприятия повышает производительность модели с 2B параметров на 23,6%, увеличивая её оценку с 0,572 до 0,708, и даже превосходит модель с 7B параметров на 13,4% (с 0,624). Ознакомьтесь с нашим репозиторием: https://github.com/yu-rp/VisualPerceptionToken.
Стабильность обучения остается постоянной проблемой при предварительном обучении больших языковых моделей (LLM), особенно для архитектур, таких как Post-Norm Transformers, которые склонны к взрыву и рассеиванию градиентов. В данной статье мы предлагаем метод Decoupling Scale-Distribution (SDD), новый подход, который стабилизирует обучение за счет явного разделения масштаба и распределения матрицы весов в полностью связанных слоях. SDD применяет механизм нормализации для регулирования активаций и обучаемый масштабирующий вектор для поддержания хорошо обусловленных градиентов, эффективно предотвращая взрыв и рассеивание градиентов. Это разделение повышает эффективность оптимизации, особенно в глубоких сетях, за счет обеспечения стабильного распространения градиентов. Экспериментальные результаты показывают, что наш метод стабилизирует обучение для различных архитектур LLM и превосходит существующие техники в различных конфигурациях нормализации. Кроме того, предложенный метод является легковесным и совместимым с существующими фреймворками, что делает его практичным решением для стабилизации обучения LLM. Код доступен по адресу https://github.com/kaihemo/SDD.
Мы представляем WebGames — комплексный набор тестов, предназначенный для оценки универсальных ИИ-агентов, работающих с веб-браузерами, через серию из 50+ интерактивных задач. Эти задачи специально разработаны так, чтобы быть простыми для людей, но при этом систематически проверять ограничения современных ИИ-систем в таких областях, как базовые взаимодействия с браузером, обработка сложных входных данных, когнитивные задачи, автоматизация рабочих процессов и интерактивные развлечения. Наша платформа устраняет внешние зависимости благодаря изолированной тестовой среде, обеспечивая воспроизводимую оценку с проверяемыми эталонными решениями. Мы тестируем ведущие модели, работающие с визуальными и текстовыми данными, включая GPT-4o, Claude Computer-Use, Gemini-1.5-Pro и Qwen2-VL, сравнивая их с результатами людей. Результаты показывают значительный разрыв в возможностях: лучшая ИИ-система достигает успеха лишь в 43,1% случаев по сравнению с 95,7% у людей, что подчеркивает фундаментальные ограничения современных ИИ-систем в обработке типичных веб-взаимодействий, которые люди считают интуитивными. Набор тестов доступен публично по адресу webgames.convergence.ai и предлагает легковесную клиентскую реализацию, которая способствует быстрым циклам оценки. Благодаря модульной архитектуре и стандартизированным спецификациям задач, WebGames предоставляет надежную основу для измерения прогресса в разработке более совершенных веб-браузерных агентов.
Мотивированные снижением вычислительных и ресурсных затрат больших языковых моделей (LLM), сжатие моделей и сжатие кэша ключей-значений (KV cache) привлекли значительное внимание исследователей. Однако современные методы в основном сосредоточены на сохранении производительности сжатых LLM, измеряемой с помощью перплексии или простой точности на задачах вопросов-ответов на основе здравого смысла и базовых арифметических рассуждений. В этом блоге мы представляем краткий обзор последних достижений в LLM, связанных с генерацией, усиленной поиском, многошаговыми рассуждениями, использованием внешних инструментов и вычислительной выразительностью, которые существенно повышают производительность LLM. Затем мы выдвигаем гипотезу о лотерейной LLM, предполагая, что для заданной LLM и задачи существует меньшая лотерейная LLM, способная достичь той же производительности, что и исходная LLM, с помощью многошаговых рассуждений и внешних инструментов. На основе обзора текущих достижений в LLM мы обсуждаем и обобщаем ключевые способности, которыми должны обладать лотерейная LLM и сжатие KV cache, но которые в настоящее время игнорируются в существующих методах.
Мультимодальные большие языковые модели (MLLM) демонстрируют стремительный прогресс в задачах визуального распознавания в последние годы. Учитывая их потенциальное внедрение во множество критически важных приложений, важно понимать ограничения их визуального восприятия. В данной работе мы исследуем, способны ли MLLM воспринимать мелкие визуальные детали так же эффективно, как и крупные, при ответах на вопросы о изображениях. Мы наблюдаем, что их производительность сильно зависит от размера визуального объекта, о котором задан вопрос, и дополнительно показываем, что этот эффект является причинным, проводя исследование с вмешательством. Далее мы изучаем паттерны внимания MLLM при ответах на визуальные вопросы и, что интересно, обнаруживаем, что они последовательно знают, куда смотреть, даже когда дают неправильный ответ. На основе этих наблюдений мы предлагаем методы визуального вмешательства, не требующие обучения, которые используют внутренние знания самой MLLM в виде карт внимания и градиентов для улучшения восприятия мелких визуальных деталей. Мы оцениваем предложенные методы на двух широко используемых MLLM и семи бенчмарках для визуального ответа на вопросы и показываем, что они могут значительно повысить точность MLLM без необходимости обучения. Наши результаты подчеркивают риск применения MLLM к задачам визуального распознавания, связанным с мелкими деталями, и указывают на то, что визуальное вмешательство с использованием внутреннего состояния модели является перспективным направлением для снижения этого риска.
Оценки крупных языковых моделей (LLM) обычно опираются на агрегированные метрики, такие как точность или предпочтения пользователей, усредняя результаты по всем пользователям и запросам. Такое усреднение скрывает специфические для пользователей и запросов вариации в производительности модели. Чтобы решить эту проблему, мы предлагаем метод Prompt-to-Leaderboard (P2L), который создает рейтинги, специфичные для каждого запроса. Основная идея заключается в обучении LLM, которая принимает на вход текстовые запросы и выводит вектор коэффициентов Брэдли-Терри, используемых для предсказания предпочтений пользователей. Полученные рейтинги, зависящие от запросов, позволяют проводить неконтролируемую оценку для конкретных задач, оптимальное распределение запросов между моделями, персонализацию и автоматизированную оценку сильных и слабых сторон моделей. Данные из Chatbot Arena показывают, что P2L лучше отражает сложную картину производительности языковых моделей по сравнению с усредненными рейтингами. Более того, наши результаты указывают на то, что способность P2L создавать оценки, специфичные для запросов, следует степенному закону, аналогичному тому, что наблюдается в самих LLM. В январе 2025 года маршрутизатор, обученный на основе этой методологии, занял первое место в рейтинге Chatbot Arena. Наш код доступен по ссылке на GitHub: https://github.com/lmarena/p2l.
Итеративная генерация данных и повторное обучение моделей широко используются для согласования больших языковых моделей (LLM). Обычно этот процесс включает модель политики для генерации ответов в рамках текущей политики и модель вознаграждения для выбора обучающих данных. Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) дополнительно улучшает этот процесс путем создания пар предпочтений, состоящих из выбранных и отклоненных ответов. В данной работе мы стремимся увеличить количество образцов в рамках текущей политики с помощью повторного случайного выборки для повышения качества согласования. Традиционная практика выбирает образец с наивысшим вознаграждением в качестве выбранного и с наименьшим — в качестве отклоненного для DPO. Однако наши эксперименты показывают, что такая стратегия приводит к снижению производительности по мере увеличения размера выборки. Чтобы решить эту проблему, мы исследуем построение данных предпочтений через призму базового нормального распределения вознаграждений выборки. Мы разделяем пространство вознаграждений на семь репрезентативных точек и систематически исследуем все 21 (C_7^2) парных комбинаций. На основе оценок четырех моделей с использованием AlpacaEval 2 мы обнаруживаем, что выбор отклоненного ответа на уровне вознаграждения mu - 2sigma, а не минимального вознаграждения, является ключевым для оптимальной производительности. В заключение мы представляем масштабируемую стратегию построения данных предпочтений, которая последовательно улучшает производительность модели по мере увеличения масштаба выборки.
В данной статье мы представляем LDGen — новый метод интеграции больших языковых моделей (LLMs) в существующие диффузионные модели для генерации изображений по тексту с минимальными вычислительными затратами. Традиционные текстовые кодировщики, такие как CLIP и T5, демонстрируют ограничения в обработке многоязычных данных, что затрудняет генерацию изображений на различных языках. Мы решаем эти проблемы, используя передовые возможности LLMs. Наш подход включает стратегию языкового представления, которая применяет иерархическую оптимизацию подписей и методы человеческих инструкций для извлечения точной семантической информации. Затем мы интегрируем легковесный адаптер и кросс-модальный уточнитель для эффективного согласования и взаимодействия признаков между LLMs и изображениями. LDGen сокращает время обучения и обеспечивает генерацию изображений на нескольких языках в режиме zero-shot. Экспериментальные результаты показывают, что наш метод превосходит базовые модели как в точности следования запросам, так и в эстетическом качестве изображений, одновременно поддерживая несколько языков. Страница проекта: https://zrealli.github.io/LDGen.
Аудиторные базовые модели, включая крупные языковые модели (LLM) для обработки звука, обрабатывают все звуковые входные данные одинаково, независимо от восприятия слушателя. Однако человеческое слуховое восприятие избирательно по своей природе: слушатели фокусируются на конкретных говорящих, игнорируя других в сложных звуковых сценах. Существующие модели не учитывают эту избирательность, что ограничивает их способность генерировать ответы, соответствующие восприятию. Чтобы решить эту проблему, мы представляем Intention-Informed Auditory Scene Understanding (II-ASU) и Auditory Attention-Driven LLM (AAD-LLM) — прототипную систему, которая интегрирует сигналы мозга для определения внимания слушателя. AAD-LLM расширяет аудиторную LLM, включая записи внутричерепной электроэнцефалографии (iEEG) для декодирования того, на какого говорящего направлено внимание слушателя, и уточнения ответов соответственно. Модель сначала предсказывает активного говорящего на основе нейронной активности, а затем формирует ответы с учетом этого выявленного состояния внимания. Мы оцениваем AAD-LLM на задачах описания говорящего, транскрипции и извлечения речи, а также ответов на вопросы в сценариях с несколькими говорящими. Как объективные, так и субъективные оценки показывают улучшенное соответствие намерениям слушателя. Сделав первый шаг к созданию аудио-ИИ, учитывающего намерения, эта работа исследует новую парадигму, в которой восприятие слушателя информирует машинное слушание, прокладывая путь для будущих слушатель-ориентированных аудиторных систем. Демо и код доступны: https://aad-llm.github.io.
Крупные языковые модели (LLM) стали революционными инструментами в области искусственного интеллекта (ИИ), демонстрируя впечатляющие возможности в таких разнообразных задачах, как генерация текста, рассуждение и принятие решений. Хотя их успех в первую очередь обусловлен достижениями в вычислительной мощности и архитектурах глубокого обучения, возникающие проблемы — в таких областях, как количественная оценка неопределенности, принятие решений, причинно-следственный вывод и сдвиги распределений — требуют более глубокого взаимодействия с областью статистики. В данной статье исследуются потенциальные направления, в которых статистики могут внести важный вклад в развитие LLM, особенно тех, которые направлены на обеспечение доверия и прозрачности для пользователей. Таким образом, мы сосредотачиваемся на таких вопросах, как количественная оценка неопределенности, интерпретируемость, справедливость, конфиденциальность, водяные знаки и адаптация моделей. Мы также рассматриваем возможные роли LLM в статистическом анализе. Сближая ИИ и статистику, мы стремимся способствовать более глубокому сотрудничеству, которое продвинет как теоретические основы, так и практические применения LLM, в конечном итоге определяя их роль в решении сложных социальных задач.
Модели пространства состояний (State Space Models, SSMs), такие как Mamba, стали эффективной альтернативой трансформерам для моделирования последовательностей с длинным контекстом. Однако, несмотря на их растущее применение, SSMs не обладают инструментами интерпретируемости, которые были ключевыми для понимания и улучшения архитектур, основанных на механизме внимания. Хотя недавние исследования проливают свет на внутренние механизмы Mamba, они не проводят явного разложения вкладов на уровне токенов, оставляя пробелы в понимании того, как Mamba избирательно обрабатывает последовательности на разных слоях. В данной работе мы представляем LaTIM — новый метод декомпозиции на уровне токенов для Mamba-1 и Mamba-2, который обеспечивает детальную интерпретируемость. Мы тщательно оцениваем наш метод на различных задачах, включая машинный перевод, копирование и генерацию на основе поиска, демонстрируя его эффективность в раскрытии паттернов взаимодействия токенов в Mamba.
Мы представляем Shakti VLM — семейство визуально-языковых моделей с объемом параметров 1 млрд и 4 млрд, разработанных для решения проблем эффективности данных в мультимодальном обучении. В то время как современные VLM достигают высокой производительности за счет использования обширных обучающих данных, модели Shakti используют архитектурные инновации для достижения конкурентоспособных результатов с меньшим количеством токенов. Ключевые улучшения включают QK-нормализацию для стабильности внимания, гибридные методы нормализации и усовершенствованное позиционное кодирование. Трехэтапная стратегия обучения дополнительно оптимизирует эффективность обучения. Оценки показывают, что Shakti-VLM-1B и Shakti-VLM-4B превосходят в задачах понимания документов, визуального рассуждения, извлечения OCR и общего мультимодального анализа. Наши результаты подчеркивают, что высокая производительность может быть достигнута за счет дизайна модели и стратегии обучения, а не только за счет объема данных, что делает Shakti эффективным решением для мультимодальных задач в масштабах предприятий.
Мы представляем WiCkeD — простой метод повышения сложности существующих тестов с множественным выбором путем случайной замены одного из вариантов ответа на «Ни один из вышеперечисленных», что часто используется в образовательных тестах. Мы показываем, что WiCkeD может быть автоматически применен к любому существующему тесту, делая его более сложным. Мы применяем WiCkeD к 6 популярным тестам и используем его для оценки 18 открытых языковых моделей (LLM). Производительность моделей снижается в среднем на 12,1 пункта по сравнению с оригинальными версиями наборов данных. При использовании цепочки рассуждений (chain-of-thought) на 3 наборах данных MMLU снижение производительности для варианта с WiCkeD аналогично тому, что наблюдается при использовании LLM напрямую, что показывает, что WiCkeD также представляет сложность для моделей с улучшенными способностями к рассуждению. WiCkeD также выявляет, что некоторые модели более чувствительны к дополнительным рассуждениям, предоставляя дополнительную информацию по сравнению с оригинальными тестами. Мы публикуем наш код и данные по адресу https://github.com/ahmedselhady/wicked-benchmarks.
Современные языковые модели опираются на статические словари, фиксируемые перед предварительным обучением, в отличие от адаптивного усвоения словарного запаса, наблюдаемого в процессе изучения языка человеком. Чтобы сократить этот разрыв, мы представляем обучение с поэтапным усложнением словаря — подход, который повышает эффективность предварительного обучения с логарифмически-линейным ростом относительно размера словаря. Наш метод чередует расширение словаря на основе энтропии и оптимизацию модели, позволяя моделям изучать переносимые представления на различных уровнях гранулярности токенизации. Этот подход естественным образом приводит к оптимальному распределению вычислительных ресурсов: более длинные токены захватывают предсказуемый контент, в то время как более короткие токены сосредотачиваются на более сложных и труднопредсказуемых контекстах. Эксперименты на небольших моделях GPT демонстрируют улучшенную эффективность масштабирования, подтверждая действенность динамической токенизации. Мы публикуем наш код для поддержки дальнейших исследований и планируем расширить эксперименты на более крупные модели и различные области.