Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последнее время возрос интерес к изучению методов создания более эффективных данных настройки инструкций кода. Однако мы наблюдаем, что модели кода, обученные на этих наборах данных, проявляют высокую производительность при оценке качества человеком, но показывают худшие результаты на других бенчмарках, таких как LiveCodeBench. После дальнейшего исследования мы обнаружили, что многие наборы данных страдают от серьезных утечек данных. После очистки большей части утекших данных некоторые известные высококачественные наборы данных показывают плохие результаты. Это открытие выявляет новое вызов: определение, какие наборы данных действительно квалифицируются как высококачественные данные по инструкциям кода. Для решения этой проблемы мы предлагаем эффективную стратегию очистки кодовых данных для выбора хороших образцов. Наш подход основан на трех измерениях: сложности инструкции, качестве ответа и разнообразии инструкций. На основе наших выбранных данных мы представляем XCoder, семейство моделей, донастроенных из LLaMA3. Наши эксперименты показывают, что XCoder достигает нового рекордного уровня производительности, используя меньше данных для обучения, что подтверждает эффективность нашей стратегии данных. Более того, мы проводим всесторонний анализ состава данных и обнаруживаем, что существующие кодовые наборы данных имеют различные характеристики в зависимости от методов их создания, что предоставляет новые идеи для будущих языковых моделей на коде. Наши модели и набор данных доступны по ссылке https://github.com/banksy23/XCoder
Недавние достижения в области LLMs выявили вызовы, связанные с вычислительной эффективностью и постоянным масштабированием из-за требований к огромным параметрам, что делает применение и развитие этих моделей на устройствах с ограниченными вычислительными ресурсами и в сценариях, требующих различных способностей, все более громоздкими. Вдохновленные модульностью в человеческом мозге, наблюдается растущая тенденция декомпозиции LLMs на многочисленные функциональные модули, позволяющие делать выводы с использованием части модулей и динамическую сборку модулей для решения сложных задач, таких как смесь экспертов. Для выделения врожденной эффективности и комбинируемости модульного подхода мы вводим термин кирпич для обозначения каждого функционального модуля, обозначая модульную структуру как настраиваемые фундаментальные модели. В данной статье мы предлагаем всесторонний обзор и исследование построения, использования и ограничений настраиваемых фундаментальных моделей. Сначала мы формализуем модули в всплывающие кирпичи - функциональные разделения нейронов, возникающие во время предварительного обучения, и настраиваемые кирпичи - кирпичи, созданные с помощью дополнительного послеобучения для улучшения возможностей и знаний LLMs. Основываясь на разнообразных функциональных кирпичах, мы далее представляем четыре операции, ориентированные на кирпичи: поиск и маршрутизация, слияние, обновление и расширение. Эти операции позволяют динамически настраивать LLMs на основе инструкций для решения сложных задач. Для проверки нашей точки зрения мы проводим эмпирический анализ на широко используемых LLMs. Мы обнаруживаем, что слои FFN следуют модульным паттернам с функциональной специализацией нейронов и функциональными разделениями нейронов. Наконец, мы выделяем несколько открытых вопросов и направлений для будущих исследований. В целом, цель данной статьи - предложить новую модульную перспективу на существующие исследования в области LLM и вдохновить на создание в будущем более эффективных и масштабируемых фундаментальных моделей.
Мы представляем Open-MAGVIT2, семейство моделей авторегрессивной генерации изображений от 300 миллионов до 1,5 миллиарда. Проект Open-MAGVIT2 создает открытую реплику токенизатора Google MAGVIT-v2, токенизатора с супер-большим кодовым книгом (т.е. 2^{18} кодов), достигающего передовых показателей восстановления (1,17 rFID) на ImageNet 256 на 256. Кроме того, мы исследуем его применение в обычных авторегрессивных моделях и проверяем свойства масштабируемости. Чтобы помочь авторегрессивным моделям в предсказании с супер-большим словарем, мы факторизуем его на два подсловаря разных размеров с помощью асимметричной факторизации токенов и дополнительно вводим "предсказание следующего подтокена" для улучшения взаимодействия подтокенов для повышения качества генерации. Мы публикуем все модели и коды для поощрения инноваций и креативности в области авторегрессивной визуальной генерации.
Глобальный механизм самовнимания в диффузионных трансформерах включает в себя избыточные вычисления из-за разреженной и избыточной природы визуальной информации, и карта внимания токенов в пределах пространственного окна показывает значительную схожесть. Для решения этой избыточности мы предлагаем Прокси-Токен Диффузионный Трансформер (PT-DiT), который использует разреженное представительное внимание к токенам (где количество представительных токенов значительно меньше общего количества токенов) для эффективного моделирования глобальной визуальной информации. Конкретно, в каждом блоке трансформера мы случайным образом выбираем один токен из каждого пространственно-временного окна для службы в качестве прокси-токена для этого региона. Глобальная семантика захватывается через самовнимание этих прокси-токенов, а затем внедряется во все латентные токены через перекрестное внимание. Одновременно мы вводим оконное и сдвиговое оконное внимание для решения ограничений в детальном моделировании, вызванных разреженным механизмом внимания. На основе хорошо спроектированного PT-DiT мы дальше развиваем семейство Qihoo-T2X, которое включает в себя различные модели для задач T2I, T2V и T2MV. Экспериментальные результаты показывают, что PT-DiT достигает конкурентоспособной производительности, снижая вычислительную сложность как в задачах генерации изображений, так и видео (например, снижение на 48% по сравнению с DiT и на 35% по сравнению с Pixart-alpha). Наш исходный код доступен по адресу https://github.com/360CVGroup/Qihoo-T2X.
Воссоздание реалистичных трехмерных моделей человека из монокулярных изображений имеет значительные применения в креативных отраслях, человеко-компьютерных интерфейсах и здравоохранении. Мы основываем нашу работу на трехмерном Гауссовом сплетении (3DGS), представлении сцены, состоящем из смеси гауссианов. Предсказание таких смесей для человека по одному входному изображению является сложной задачей, поскольку это неравномерная плотность (со многими-к-одному соотношением с входными пикселями) с жесткими физическими ограничениями. В то же время она должна быть гибкой для адаптации к различной одежде и позам. Нашим ключевым наблюдением является то, что вершины стандартизированных трехмерных сеток человека (например, SMPL) могут обеспечить достаточную плотность и приблизительное начальное положение для гауссианов. Затем мы можем обучить модель трансформера для совместного предсказания относительно небольших коррекций к этим положениям, а также атрибутов других гауссианов и параметров SMPL. Мы показываем эмпирически, что эта комбинация (используя только многопредставленное обучение) может достичь быстрого вывода трехмерных моделей человека из одного изображения без оптимизации во время теста, дорогих моделей диффузии или трехмерного контроля. Мы также показываем, что это может улучшить оценку трехмерной позы путем лучшего приспособления трехмерных моделей человека, учитывающих одежду и другие вариации. Код доступен на веб-сайте проекта https://abdullahamdi.com/gst/.
Способности моделей языка с длинным контекстом (LM) часто оцениваются с использованием теста "Иголка в стоге сена" (NIAH), который включает задачи, разработанные для оценки способности модели идентифицировать конкретную информацию ("иголку") в больших текстовых последовательностях ("стоге сена"). Хотя эти бенчмарки измеряют, насколько хорошо модели понимают входные последовательности с длинным контекстом, они не эффективно оценивают качество генерации длинных текстов - критически важный аспект для приложений, таких как разработка предложений и творческое письмо. Для решения этого пробела мы представляем новый бенчмарк оценки длинных текстов - "Прядение золотой нити" (SGT), который проверяет способность моделей идентифицировать конкретные события в сгенерированных длинных текстовых последовательностях. В этом бенчмарке мы подталкиваем модели LM с длинным контекстом создавать длинные тексты, которые должны включать определенные события или ограничения, и оцениваем их способность включать эти элементы. Мы оценили десять моделей LM с длинным контекстом в четырех различных сценариях, тремя типами инструкций для подсказок и двумя разными настройками длины генерации (16K и 32K). Хотя эти модели успешно справляются с бенчмарками NIAH, ни одна из них не продемонстрировала удовлетворительной производительности в бенчмарке "Прядение золотой нити", что вызывает опасения относительно их способности генерировать последовательные длинные тексты, следуя инструкциям. Кроме того, по мере увеличения длины сгенерированного текста все модели показывают значительное снижение производительности.