Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Каковы результаты работы ваших LLM-моделей? Повышение эффективности настройки инструкций по коду с использованием качественных данных.
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

Sep 5

ByYejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

В последнее время возрос интерес к изучению методов создания более эффективных данных настройки инструкций кода. Однако мы наблюдаем, что модели кода, обученные на этих наборах данных, проявляют высокую производительность при оценке качества человеком, но показывают худшие результаты на других бенчмарках, таких как LiveCodeBench. После дальнейшего исследования мы обнаружили, что многие наборы данных страдают от серьезных утечек данных. После очистки большей части утекших данных некоторые известные высококачественные наборы данных показывают плохие результаты. Это открытие выявляет новое вызов: определение, какие наборы данных действительно квалифицируются как высококачественные данные по инструкциям кода. Для решения этой проблемы мы предлагаем эффективную стратегию очистки кодовых данных для выбора хороших образцов. Наш подход основан на трех измерениях: сложности инструкции, качестве ответа и разнообразии инструкций. На основе наших выбранных данных мы представляем XCoder, семейство моделей, донастроенных из LLaMA3. Наши эксперименты показывают, что XCoder достигает нового рекордного уровня производительности, используя меньше данных для обучения, что подтверждает эффективность нашей стратегии данных. Более того, мы проводим всесторонний анализ состава данных и обнаруживаем, что существующие кодовые наборы данных имеют различные характеристики в зависимости от методов их создания, что предоставляет новые идеи для будущих языковых моделей на коде. Наши модели и набор данных доступны по ссылке https://github.com/banksy23/XCoder

Конфигурируемые модели основы: построение LLM с модульной перспективы
Configurable Foundation Models: Building LLMs from a Modular Perspective

Sep 4

ByChaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun

Недавние достижения в области LLMs выявили вызовы, связанные с вычислительной эффективностью и постоянным масштабированием из-за требований к огромным параметрам, что делает применение и развитие этих моделей на устройствах с ограниченными вычислительными ресурсами и в сценариях, требующих различных способностей, все более громоздкими. Вдохновленные модульностью в человеческом мозге, наблюдается растущая тенденция декомпозиции LLMs на многочисленные функциональные модули, позволяющие делать выводы с использованием части модулей и динамическую сборку модулей для решения сложных задач, таких как смесь экспертов. Для выделения врожденной эффективности и комбинируемости модульного подхода мы вводим термин кирпич для обозначения каждого функционального модуля, обозначая модульную структуру как настраиваемые фундаментальные модели. В данной статье мы предлагаем всесторонний обзор и исследование построения, использования и ограничений настраиваемых фундаментальных моделей. Сначала мы формализуем модули в всплывающие кирпичи - функциональные разделения нейронов, возникающие во время предварительного обучения, и настраиваемые кирпичи - кирпичи, созданные с помощью дополнительного послеобучения для улучшения возможностей и знаний LLMs. Основываясь на разнообразных функциональных кирпичах, мы далее представляем четыре операции, ориентированные на кирпичи: поиск и маршрутизация, слияние, обновление и расширение. Эти операции позволяют динамически настраивать LLMs на основе инструкций для решения сложных задач. Для проверки нашей точки зрения мы проводим эмпирический анализ на широко используемых LLMs. Мы обнаруживаем, что слои FFN следуют модульным паттернам с функциональной специализацией нейронов и функциональными разделениями нейронов. Наконец, мы выделяем несколько открытых вопросов и направлений для будущих исследований. В целом, цель данной статьи - предложить новую модульную перспективу на существующие исследования в области LLM и вдохновить на создание в будущем более эффективных и масштабируемых фундаментальных моделей.

Open-MAGVIT2: Открытый проект в направлении демократизации авторегрессивной визуальной генерации.
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Sep 6

ByZhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

Мы представляем Open-MAGVIT2, семейство моделей авторегрессивной генерации изображений от 300 миллионов до 1,5 миллиарда. Проект Open-MAGVIT2 создает открытую реплику токенизатора Google MAGVIT-v2, токенизатора с супер-большим кодовым книгом (т.е. 2^{18} кодов), достигающего передовых показателей восстановления (1,17 rFID) на ImageNet 256 на 256. Кроме того, мы исследуем его применение в обычных авторегрессивных моделях и проверяем свойства масштабируемости. Чтобы помочь авторегрессивным моделям в предсказании с супер-большим словарем, мы факторизуем его на два подсловаря разных размеров с помощью асимметричной факторизации токенов и дополнительно вводим "предсказание следующего подтокена" для улучшения взаимодействия подтокенов для повышения качества генерации. Мы публикуем все модели и коды для поощрения инноваций и креативности в области авторегрессивной визуальной генерации.

Qihoo-T2X: Эффективно ориентированный трансформер диффузии с использованием прокси-токенов для текст-к-любой-задаче
Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Sep 6

ByJing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang

Глобальный механизм самовнимания в диффузионных трансформерах включает в себя избыточные вычисления из-за разреженной и избыточной природы визуальной информации, и карта внимания токенов в пределах пространственного окна показывает значительную схожесть. Для решения этой избыточности мы предлагаем Прокси-Токен Диффузионный Трансформер (PT-DiT), который использует разреженное представительное внимание к токенам (где количество представительных токенов значительно меньше общего количества токенов) для эффективного моделирования глобальной визуальной информации. Конкретно, в каждом блоке трансформера мы случайным образом выбираем один токен из каждого пространственно-временного окна для службы в качестве прокси-токена для этого региона. Глобальная семантика захватывается через самовнимание этих прокси-токенов, а затем внедряется во все латентные токены через перекрестное внимание. Одновременно мы вводим оконное и сдвиговое оконное внимание для решения ограничений в детальном моделировании, вызванных разреженным механизмом внимания. На основе хорошо спроектированного PT-DiT мы дальше развиваем семейство Qihoo-T2X, которое включает в себя различные модели для задач T2I, T2V и T2MV. Экспериментальные результаты показывают, что PT-DiT достигает конкурентоспособной производительности, снижая вычислительную сложность как в задачах генерации изображений, так и видео (например, снижение на 48% по сравнению с DiT и на 35% по сравнению с Pixart-alpha). Наш исходный код доступен по адресу https://github.com/360CVGroup/Qihoo-T2X.

GST: Точное трехмерное изображение человеческого тела по одному изображению с использованием гауссовского сглаживания трансформеров
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Sep 6

ByLorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

Воссоздание реалистичных трехмерных моделей человека из монокулярных изображений имеет значительные применения в креативных отраслях, человеко-компьютерных интерфейсах и здравоохранении. Мы основываем нашу работу на трехмерном Гауссовом сплетении (3DGS), представлении сцены, состоящем из смеси гауссианов. Предсказание таких смесей для человека по одному входному изображению является сложной задачей, поскольку это неравномерная плотность (со многими-к-одному соотношением с входными пикселями) с жесткими физическими ограничениями. В то же время она должна быть гибкой для адаптации к различной одежде и позам. Нашим ключевым наблюдением является то, что вершины стандартизированных трехмерных сеток человека (например, SMPL) могут обеспечить достаточную плотность и приблизительное начальное положение для гауссианов. Затем мы можем обучить модель трансформера для совместного предсказания относительно небольших коррекций к этим положениям, а также атрибутов других гауссианов и параметров SMPL. Мы показываем эмпирически, что эта комбинация (используя только многопредставленное обучение) может достичь быстрого вывода трехмерных моделей человека из одного изображения без оптимизации во время теста, дорогих моделей диффузии или трехмерного контроля. Мы также показываем, что это может улучшить оценку трехмерной позы путем лучшего приспособления трехмерных моделей человека, учитывающих одежду и другие вариации. Код доступен на веб-сайте проекта https://abdullahamdi.com/gst/.

Вращая золотую нить: Оценка длинноформатной генерации в языковых моделях
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

Sep 3

ByYuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee

Способности моделей языка с длинным контекстом (LM) часто оцениваются с использованием теста "Иголка в стоге сена" (NIAH), который включает задачи, разработанные для оценки способности модели идентифицировать конкретную информацию ("иголку") в больших текстовых последовательностях ("стоге сена"). Хотя эти бенчмарки измеряют, насколько хорошо модели понимают входные последовательности с длинным контекстом, они не эффективно оценивают качество генерации длинных текстов - критически важный аспект для приложений, таких как разработка предложений и творческое письмо. Для решения этого пробела мы представляем новый бенчмарк оценки длинных текстов - "Прядение золотой нити" (SGT), который проверяет способность моделей идентифицировать конкретные события в сгенерированных длинных текстовых последовательностях. В этом бенчмарке мы подталкиваем модели LM с длинным контекстом создавать длинные тексты, которые должны включать определенные события или ограничения, и оцениваем их способность включать эти элементы. Мы оценили десять моделей LM с длинным контекстом в четырех различных сценариях, тремя типами инструкций для подсказок и двумя разными настройками длины генерации (16K и 32K). Хотя эти модели успешно справляются с бенчмарками NIAH, ни одна из них не продемонстрировала удовлетворительной производительности в бенчмарке "Прядение золотой нити", что вызывает опасения относительно их способности генерировать последовательные длинные тексты, следуя инструкциям. Кроме того, по мере увеличения длины сгенерированного текста все модели показывают значительное снижение производительности.

Каковы результаты работы ваших LLM-моделей? Повышение эффективности настройки инструкций по коду с использованием качественных данных.

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

Sep 5

ByYejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

Конфигурируемые модели основы: построение LLM с модульной перспективы

Configurable Foundation Models: Building LLMs from a Modular Perspective

Sep 4

Open-MAGVIT2: Открытый проект в направлении демократизации авторегрессивной визуальной генерации.

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Sep 6

ByZhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

Qihoo-T2X: Эффективно ориентированный трансформер диффузии с использованием прокси-токенов для текст-к-любой-задаче

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Sep 6

ByJing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang

GST: Точное трехмерное изображение человеческого тела по одному изображению с использованием гауссовского сглаживания трансформеров

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Sep 6

ByLorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

Вращая золотую нить: Оценка длинноформатной генерации в языковых моделях

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

Sep 3

ByYuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee