Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Qwen2
Qwen2 Technical Report

Jul 15

ByAn Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan

168

Данный отчет представляет серию Qwen2, последнее дополнение к нашим большим языковым моделям и большим мультимодальным моделям. Мы выпустили всесторонний набор основных и инструкционно настроенных языковых моделей, охватывающих диапазон параметров от 0,5 до 72 миллиардов, включающих плотные модели и модель Mixture-of-Experts. Qwen2 превосходит большинство предыдущих моделей с открытым весом, включая своего предшественника Qwen1.5, и демонстрирует конкурентоспособную производительность по сравнению с собственными моделями на различных бенчмарках по пониманию языка, генерации, мультиязычной компетентности, программированию, математике и рассуждениям. Флагманская модель, Qwen2-72B, демонстрирует выдающуюся производительность: 84,2 по MMLU, 37,9 по GPQA, 64,6 по HumanEval, 89,5 по GSM8K и 82,4 по BBH в качестве базовой языковой модели. Вариант с инструкционной настройкой, Qwen2-72B-Instruct, достигает 9,1 по MT-Bench, 48,1 по Arena-Hard и 35,7 по LiveCodeBench. Более того, Qwen2 демонстрирует надежные мультиязычные возможности, владея примерно 30 языками, охватывая английский, китайский, испанский, французский, немецкий, арабский, русский, корейский, японский, тайский, вьетнамский и другие, подчеркивая свою универсальность и глобальную охват. Для поощрения инноваций и доступности в сообществе мы сделали веса модели Qwen2 открыто доступными на платформах Hugging Face и ModelScope, а также дополнительные материалы, включая примеры кода на GitHub. Эти платформы также включают ресурсы для квантизации, дообучения и развертывания, облегчая широкий спектр приложений и исследовательских усилий.

Обучение отказу: к смягчению рисков конфиденциальности в языковых моделях с ограниченной памятью
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Jul 14

ByZhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen

Большие языковые модели (LLM) обладают выдающимися способностями в понимании и генерации естественного языка. Однако эти модели могут ненамеренно запоминать личную информацию, представляя значительные риски для конфиденциальности. В данном исследовании рассматривается проблема обеспечения возможности LLM защищать конкретные личные данные без необходимости полной переобучения. Мы предлагаем \return, набор данных Real-world pErsonal daTa UnleaRNing, включающий 2 492 человека из Википедии с соответствующими вопросами и ответами, для оценки методов машинного забывания (MU) по защите личных данных в реалистичной ситуации. Кроме того, мы представляем Name-Aware Unlearning Framework (NAUF) для защиты конфиденциальности, который позволяет модели узнавать, информацию о каких людях следует защищать, не влияя на ее способность отвечать на вопросы, касающиеся других несвязанных личностей. Наши обширные эксперименты показывают, что NAUF достигает современного среднего показателя забывания, превосходя лучший базовый метод на 5,65 пункта, эффективно защищая личные данные целевых лиц и сохраняя общие возможности модели.

ГРУтопия: Генеральные Роботы в Городе Масштаба
GRUtopia: Dream General Robots in a City at Scale

Jul 15

ByHanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang

В последние время исследуются законы масштабирования в области Воплощенного ИИ. Учитывая огромные затраты на сбор данных из реального мира, мы считаем, что парадигма Симуляции-в-Реальность (Sim2Real) является ключевым шагом для масштабирования обучения моделей воплощенного ИИ. В данной статье представлен проект GRUtopia, первое симулированное интерактивное 3D общество, разработанное для различных роботов. Он включает в себя несколько усовершенствований: (a) Набор сцен GRScenes включает 100 тыс. интерактивных, тщательно аннотированных сцен, которые могут быть свободно объединены в городские среды. В отличие от предыдущих работ, сосредоточенных в основном на домашних условиях, GRScenes охватывает 89 разнообразных категорий сцен, устраняя разрыв в средах, ориентированных на обслуживание, где обычные роботы могли бы быть начально развернуты. (b) GRResidents - это система Неигровых Персонажей (NPC), управляемая Большой Языковой Моделью (LLM), которая отвечает за социальное взаимодействие, генерацию задач и назначение задач, тем самым моделируя социальные сценарии для приложений воплощенного ИИ. (c) Бенчмарк GRBench поддерживает различных роботов, но сосредоточен на роботах с ногами в качестве основных агентов и предлагает умеренно сложные задачи, включающие Локо-Навигацию Объектов, Социальную Локо-Навигацию и Локо-Манипуляцию. Мы надеемся, что эта работа сможет смягчить дефицит высококачественных данных в этой области и обеспечить более всестороннюю оценку исследований по воплощенному ИИ. Проект доступен по ссылке https://github.com/OpenRobotLab/GRUtopia.

Хорошее, плохое и жадное: оценка LLM не должна игнорировать недетерминизм.
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

Jul 15

ByYifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin

Текущие оценки больших языковых моделей (LLM) часто не учитывают недетерминированность, обычно сосредотачиваясь на одном выводе на пример. Это ограничивает наше понимание изменчивости производительности LLM в реальных приложениях. Наше исследование решает эту проблему, исследуя ключевые вопросы о различиях в производительности между жадным декодированием и сэмплированием, определяя согласованность бенчмарков в отношении недетерминированности и изучая уникальные поведенческие модели. Через обширные эксперименты мы замечаем, что жадное декодирование в целом превосходит методы сэмплирования для большинства оцениваемых задач. Мы также отмечаем согласованную производительность при различных размерах LLM и методах выравнивания, отмечая, что выравнивание может снизить дисперсию сэмплирования. Более того, наш подход с выбором лучшего из N демонстрирует, что более маленькие LLM могут соответствовать или превосходить более крупные модели, такие как GPT-4-Turbo, подчеркивая неиспользованный потенциал более маленьких LLM. Это исследование показывает важность учета недетерминированности в оценках LLM и предоставляет понимание для будущего развития и оценки LLM.

Q-Sparse: Все большие языковые модели могут быть полностью разреженно активированы.
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

Jul 15

ByHongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei

Мы представляем Q-Sparse - простой, но эффективный подход к обучению разреженных больших языковых моделей (LLM). Q-Sparse обеспечивает полную разреженность активаций в LLM, что может привести к значительному повышению эффективности вывода. Это достигается путем применения разреживания top-K к активациям и прямого оценщика к обучению. Основные результаты этой работы: (1) Q-Sparse может достичь результатов, сравнимых с базовыми LLM, при этом значительно повышая эффективность во время вывода; (2) Мы представляем оптимальный для вывода закон масштабирования для разреженных LLM; (3) Q-Sparse эффективен в различных сценариях, включая обучение с нуля, продолжение обучения стандартных LLM и донастройку; (4) Q-Sparse работает как для полной точности, так и для 1-битных LLM (например, BitNet b1.58). Особенно синергия BitNet b1.58 и Q-Sparse (может быть оснащена MoE) представляет собой основу и ясный путь к революции в эффективности, включая стоимость и энергопотребление, будущих LLM.

Фундаментальные авторейтеры: Укрощение больших языковых моделей для улучшения Автоматической оценки
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

Jul 15

ByTu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung

По мере развития крупных языковых моделей (LLM) становится все сложнее надежно оценивать их результаты из-за высоких затрат на человеческую оценку. Для продвижения в направлении более точных авторейтингов LLM мы представляем FLAMe, семейство Фундаментальных Больших Моделей Авторейтинга. FLAMe обучается на нашей обширной и разнообразной коллекции из 100+ задач оценки качества, включающей более 5 миллионов человеческих оценок, отобранных и стандартизированных с использованием публично доступных человеческих оценок из предыдущих исследований. FLAMe значительно улучшает обобщение на широкий спектр задач, не входящих в обучающий набор, превосходя LLM, обученные на собственных данных, такие как GPT-4 и Claude-3, во многих задачах. Мы показываем, что FLAMe также может служить мощным отправным пунктом для дальнейшей настройки, используя оценку модели вознаграждения как кейс-стади (FLAMe-RM). Значительно, на RewardBench наша модель FLAMe-RM-24B (с точностью 87.8%) является лучшей генеративной моделью, обученной исключительно на данных с разрешением на использование, превосходя как GPT-4-0125 (85.9%), так и GPT-4o (84.7%). Кроме того, мы исследуем более эффективный подход с использованием новой стратегии тонкой настройки хвостового участка для оптимизации нашего мультитаскового смешивания FLAMe для оценки моделирования вознаграждения (FLAMe-Opt-RM), предлагая конкурентоспособную производительность на RewardBench, требуя при этом примерно в 25 раз меньше обучающих точек данных. В целом, наши варианты FLAMe превосходят все популярные собственные модели LLM-как-судьи, которые мы рассматриваем, в 8 из 12 бенчмарков оценки авторейтинга, охватывающих 53 задачи оценки качества, включая RewardBench и LLM-AggreFact. Наконец, наш анализ показывает, что FLAMe значительно менее предвзят, чем эти модели LLM-как-судьи на бенчмарке предвзятости авторейтинга CoBBLEr, эффективно идентифицируя высококачественные ответы для генерации кода.

Make-An-Agent: Генератор общего назначения сетей политики с диффузией, стимулируемой поведением
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

Jul 15

ByYongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu

Можем ли мы создать стратегию управления для агента, используя только одно демонстрацию желаемого поведения в качестве подсказки, так же легко, как создание изображения по текстовому описанию? В данной статье мы представляем Make-An-Agent, новый генератор параметров стратегии, который использует мощь условных моделей диффузии для генерации стратегии из поведения. Руководствуясь вложениями поведения, которые кодируют информацию о траектории, наш генератор стратегии синтезирует латентные представления параметров, которые затем могут быть декодированы в сети стратегии. Обученная на точках контрольных точек сетей стратегии и соответствующих им траекториях, наша модель генерации демонстрирует замечательную гибкость и масштабируемость на нескольких задачах и обладает сильной обобщающей способностью на невидимых задачах для вывода хорошо выполняемых стратегий с вводом только нескольких демонстраций. Мы демонстрируем ее эффективность и эффективность на различных областях и задачах, включая различные цели, поведения, и даже на различных манипуляторах роботов. Помимо симуляции, мы напрямую развертываем стратегии, созданные Make-An-Agent, на реальных роботах в задачах локомоции.

DataDream: Генерация набора данных с небольшим количеством обучающих примеров
DataDream: Few-shot Guided Dataset Generation

Jul 15

ByJae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata

Хотя модели диффузии текста в изображение показали себя как лучшие в области синтеза изображений, они до сих пор не доказали свою эффективность в прикладных задачах. В предыдущих работах предлагалось генерировать данные для обучения классификатора изображений при ограниченном доступе к реальным данным. Однако эти методы испытывают затруднения при генерации изображений в пределах распределения или изображении детализированных особенностей, что затрудняет обобщение моделей классификации, обученных на синтетических наборах данных. Мы предлагаем DataDream, фреймворк для синтеза наборов данных для классификации, который более точно отражает реальное распределение данных при помощи нескольких примеров целевых классов. DataDream донастраивает веса LoRA для модели генерации изображений на нескольких реальных изображениях перед генерацией обучающих данных с использованием адаптированной модели. Затем мы донастраиваем веса LoRA для CLIP с использованием синтетических данных для улучшения классификации изображений в прикладных задачах по сравнению с предыдущими подходами на большом количестве наборов данных. Мы демонстрируем эффективность DataDream через обширные эксперименты, превосходя современную точность классификации с небольшим количеством данных на 7 из 10 наборов данных, при этом оставаясь конкурентоспособными на остальных 3. Кроме того, мы предоставляем понимание влияния различных факторов, таких как количество реальных и сгенерированных изображений, а также вычислительную донастройку на производительность модели. Код доступен по ссылке https://github.com/ExplainableML/DataDream.

Маскированные генеративные трансформеры видео в аудио с улучшенной синхронизацией
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

Jul 15

BySantiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

Генерация аудио из видео (V2A) использует только визуальные признаки видео для создания правдоподобных звуков, соответствующих сцене. Важно, чтобы созданные звуковые начала соответствовали визуальным действиям, с которыми они согласованы, в противном случае возникают неестественные артефакты синхронизации. Недавние работы исследовали прогрессирование генераторов звука на основе статических изображений, а затем видеопризнаков, сосредотачиваясь на качестве и семантическом соответствии, игнорируя синхронизацию или жертвуя некоторым уровнем качества, чтобы сосредоточиться только на улучшении синхронизации. В данной работе мы предлагаем генеративную модель V2A, названную MaskVAT, которая соединяет полосовой высококачественный общий аудиокодек с маскированной генеративной моделью последовательности. Это сочетание позволяет моделировать как высокое качество звука, семантическое соответствие, так и временную синхронизацию одновременно. Наши результаты показывают, что, объединяя высококачественный кодек с соответствующими предварительно обученными аудиовизуальными признаками и параллельной структурой последовательности к последовательности, мы можем достичь высокой синхронизации с одной стороны, оставаясь конкурентоспособными с передовыми моделями генерации аудио без кодека. Образцы видео и созданные аудиозаписи доступны на https://maskvat.github.io.

Модели занятости видео
Video Occupancy Models

Jun 25

ByManan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine

Мы представляем новое семейство моделей прогнозирования видео, разработанных для поддержки управляющих задач. Мы называем эти модели моделями занятости видео (Video Occupancy models, VOCs). VOCs работают в компактном латентном пространстве, избегая необходимости делать прогнозы по отдельным пикселям. В отличие от предыдущих моделей миров в латентном пространстве, VOCs напрямую прогнозируют дисконтированное распределение будущих состояний за один шаг, избегая необходимости многошаговых прогнозов. Мы показываем, что обе эти характеристики полезны при построении прогностических моделей видео для использования в управляющих задачах. Код доступен по ссылке https://github.com/manantomar/video-occupancy-models.

Spider2-V: Насколько далеко мультимодальные агенты от автоматизации научных и инженерных рабочих процессов в области данных?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Jul 15

ByRuisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

Процессы науки о данных и инженерии часто охватывают несколько этапов, начиная с хранения данных и заканчивая оркестрацией, с использованием инструментов, таких как BigQuery, dbt и Airbyte. По мере развития моделей видео-языка (VLM) в мультимодальном понимании и генерации кода, агенты на основе VLM могут потенциально автоматизировать эти рабочие процессы путем создания SQL-запросов, кода Python и операций в графическом интерфейсе. Эта автоматизация может повысить производительность экспертов, обеспечивая демократизацию доступа к анализу данных большого масштаба. В данной статье мы представляем Spider2-V, первый мультимодальный бенчмарк агентов, сосредоточенный на профессиональных рабочих процессах в области науки о данных и инженерии, включающий 494 задачи из реального мира в подлинных компьютерных средах и включающий 20 профессиональных приложений уровня предприятия. Эти задачи, происходящие из реальных сценариев использования, оценивают способность мультимодального агента выполнять задачи, связанные с данными, путем написания кода и управления графическим интерфейсом в системах программного обеспечения для предприятий. Для достижения баланса между реалистичным моделированием и простотой оценки мы уделяем значительные усилия разработке автоматических конфигураций для настройки задач и тщательному созданию метрик оценки для каждой задачи. Более того, мы дополняем мультимодальных агентов подробными документами по этим системам программного обеспечения для предприятий. Наша эмпирическая оценка показывает, что существующие передовые агенты на основе LLM/VLM не надежно автоматизируют полные рабочие процессы с данными (14,0% успеха). Даже при пошаговом руководстве эти агенты все еще показывают недостаточную производительность в задачах, требующих тонких, знаниевооруженных действий в графическом интерфейсе (16,2%) и включающих удаленные облачные рабочие пространства (10,6%). Мы надеемся, что Spider2-V проложит путь для автономных мультимодальных агентов в трансформации автоматизации рабочих процессов в области науки о данных и инженерии. Наш код и данные доступны по адресу https://spider2-v.github.io.

SHERL: Синтез высокой точности и эффективной памяти для передачи обучения с ограниченными ресурсами
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

Jul 10

ByHaiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen

Передача знаний с минимальным количеством параметров (PETL) стала процветающим исследовательским направлением для адаптации крупных предварительно обученных моделей к последующим задачам, значительно сокращая количество обучаемых параметров и решая проблемы с памятью во время настройки. Для решения этой проблемы серии с памятью (METL) избегают обратного распространения градиентов через крупный основной блок. Однако они идут на компромисс, полностью полагаясь на замороженные промежуточные выходы и ограничивая исчерпывающее исследование предварительных знаний из предварительно обученных моделей. Более того, зависимость и избыточность между признаками межслойного взаимодействия часто игнорируются, что приводит к погружению более дискриминативных представлений и вызывает врожденный разрыв в производительности (по сравнению с традиционными методами PETL). Поэтому мы предлагаем инновационную стратегию METL под названием SHERL для сценариев с ограниченными ресурсами, чтобы разделить всю адаптацию на два последовательных и взаимодополняющих процесса. На раннем этапе промежуточные выходы объединяются с помощью операции против избыточности, улучшая их совместимость для последующего взаимодействия; таким образом, на позднем этапе использование минимального количества поздних предварительно обученных слоев могло бы смягчить пиковую нагрузку на память и преобразовать эти достаточно гибкие признаки в более адаптивные и мощные представления для новых областей. Обширные анализы на задачах видео и языка и только языковых задачах показывают, что SHERL объединяет преимущества как параметрических, так и память-эффективных техник, проявляя себя на уровне или лучше по различным архитектурам с меньшим объемом памяти во время настройки. Наш код доступен публично по ссылке: https://github.com/Paranioar/SHERL.

LAB-Bench: Измерение возможностей языковых моделей для биологических исследований
LAB-Bench: Measuring Capabilities of Language Models for Biology Research

Jul 14

ByJon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques

Существует широкий оптимизм относительно того, что передовые модели больших языков (Large Language Models, LLM) и системы, усиленные LLM, имеют потенциал быстрого ускорения научных открытий в различных областях. В настоящее время существует множество бенчмарков для измерения знаний и рассуждений LLM на вопросы научного стиля учебников, но мало, если вообще есть, бенчмарков, разработанных для оценки производительности языковых моделей в практических задачах, необходимых для научных исследований, таких как поиск литературы, планирование протоколов и анализ данных. В качестве шага к созданию таких бенчмарков мы представляем Биологический бенчмарк языкового агента (LAB-Bench), обширный набор данных из более чем 2 400 вопросов с выбором ответа для оценки производительности ИИ-систем в различных практических возможностях биологических исследований, включая воспроизведение и рассуждения над литературой, интерпретацию фигур, доступ и навигацию по базам данных, понимание и манипулирование последовательностями ДНК и белков. Важно отметить, что, в отличие от предыдущих научных бенчмарков, мы ожидаем, что ИИ-система, способная последовательно достигать высоких баллов в более сложных задачах LAB-Bench, будет служить полезным помощником для исследователей в областях, таких как поиск литературы и молекулярное клонирование. В качестве начальной оценки возникающих научных возможностей передовых языковых моделей мы измеряем производительность нескольких моделей по нашему бенчмарку и сообщаем о результатах по сравнению с биологами-экспертами. Мы будем продолжать обновлять и расширять LAB-Bench со временем и ожидаем, что он станет полезным инструментом в разработке автоматизированных систем исследований в будущем. Публичный набор данных LAB-Bench доступен для использования по следующему URL-адресу: https://huggingface.co/datasets/futurehouse/lab-bench

Калибровка шума: улучшение видео с сохранением контента "подключить и использовать" с помощью предварительно обученных моделей диффузии видео.
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

Jul 14

ByQinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan

Для улучшения качества синтезированных видео в настоящее время преобладающим методом является повторное обучение экспертной модели диффузии, а затем применение процесса добавления шума и его удаления для улучшения. Несмотря на значительные затраты на обучение, сохранение согласованности контента между оригинальным и улучшенным видео остается основной проблемой. Для решения этой проблемы мы предлагаем новую формулировку, которая учитывает как визуальное качество, так и согласованность контента. Согласованность контента обеспечивается предложенной функцией потерь, которая сохраняет структуру ввода, а визуальное качество улучшается за счет использования процесса удаления шума предварительно обученных моделей диффузии. Для решения сформулированной задачи оптимизации мы разработали стратегию оптимизации шума "Калибровка шума". Путем уточнения начального случайного шума через несколько итераций контент оригинального видео может быть в значительной степени сохранен, и эффект улучшения демонстрирует заметное улучшение. Обширные эксперименты продемонстрировали эффективность предложенного метода.

Анализы цепей LLM согласованы при обучении и масштабировании.
LLM Circuit Analyses Are Consistent Across Training and Scale

Jul 15

ByCurt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

Большинство в настоящее время используемых крупных языковых моделей (LLM) проходят непрерывное обучение или дополнительное донастройку. В отличие от этого, большинство исследований внутренних механизмов LLM фокусируются на моделях на одном снимке во времени (в конце предварительного обучения), возникает вопрос о том, обобщаются ли их результаты на реальные ситуации. Существующие исследования механизмов во времени сосредотачиваются на моделях только с кодировщиком или игрушечных моделях, которые значительно отличаются от большинства развернутых моделей. В данном исследовании мы отслеживаем, как механизмы модели, операционализированные как цепи, появляются и развиваются на протяжении 300 миллиардов токенов обучения в моделях только с декодером, в моделях от 70 миллионов до 2.8 миллиарда параметров. Мы обнаруживаем, что способности к выполнению задач и функциональные компоненты, поддерживающие их, появляются последовательно при сходных значениях токенов на различных масштабах. Более того, хотя такие компоненты могут быть реализованы различными головами внимания во времени, преобладающий алгоритм, который они реализуют, остается. Удивительно, что как сами эти алгоритмы, так и типы включенных в них компонентов могут воспроизводиться на различных масштабах модели. Эти результаты подтверждают, что анализ цепей, проведенный на небольших моделях в конце предварительного обучения, может предоставить идеи, которые по-прежнему применимы после дополнительного предварительного обучения и на различных масштабах модели.

MMM: Мультиязычный эффект взаимного усиления: смешивание наборов данных и тестирование с большими языковыми моделями для извлечения информации в открытой области.
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

Jul 15

ByChengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori

Эффект взаимного усиления (MRE) представляет собой многообещающее направление в исследованиях по извлечению информации и многозадачности. Тем не менее, его применимость ограничена из-за исключительной доступности наборов данных MRE mix на японском языке, что ограничивает полноценное исследование мировым научным сообществом. Для преодоления этого ограничения мы представляем мультиязычный набор данных MRE mix (MMM), который включает 21 суб-набор данных на английском, японском и китайском языках. В данной статье мы также предлагаем метод перевода набора данных с помощью больших языковых моделей (LLM), что значительно сокращает время ручной аннотации, необходимое для создания набора данных, используя LLM для перевода исходных японских наборов данных. Кроме того, мы обогатили набор данных, включив в него задачи распознавания именованных сущностей (NER) в открытой области и классификации предложений. Используя этот расширенный набор данных, мы разработали единый входно-выходной каркас для обучения большой языковой модели извлечения информации в открытой области (OIELLM). Модель OIELLM демонстрирует способность эффективно обрабатывать новые наборы данных MMM, проявляя значительное улучшение в производительности.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Qwen2
Qwen2 Technical Report

Jul 15

168

Обучение отказу: к смягчению рисков конфиденциальности в языковых моделях с ограниченной памятью
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Jul 14

ByZhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen

ГРУтопия: Генеральные Роботы в Городе Масштаба
GRUtopia: Dream General Robots in a City at Scale

Jul 15

Хорошее, плохое и жадное: оценка LLM не должна игнорировать недетерминизм.
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

Jul 15

ByYifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin

Q-Sparse: Все большие языковые модели могут быть полностью разреженно активированы.
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

Jul 15

ByHongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei

Фундаментальные авторейтеры: Укрощение больших языковых моделей для улучшения Автоматической оценки
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

Jul 15

ByTu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung

Make-An-Agent: Генератор общего назначения сетей политики с диффузией, стимулируемой поведением
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

Jul 15

ByYongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu

DataDream: Генерация набора данных с небольшим количеством обучающих примеров
DataDream: Few-shot Guided Dataset Generation

Jul 15

ByJae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata

Маскированные генеративные трансформеры видео в аудио с улучшенной синхронизацией
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

Jul 15

BySantiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

Модели занятости видео
Video Occupancy Models

Jun 25

ByManan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine

Spider2-V: Насколько далеко мультимодальные агенты от автоматизации научных и инженерных рабочих процессов в области данных?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Jul 15

SHERL: Синтез высокой точности и эффективной памяти для передачи обучения с ограниченными ресурсами
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

Jul 10

ByHaiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen

LAB-Bench: Измерение возможностей языковых моделей для биологических исследований
LAB-Bench: Measuring Capabilities of Language Models for Biology Research

Jul 14

ByJon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques

Калибровка шума: улучшение видео с сохранением контента "подключить и использовать" с помощью предварительно обученных моделей диффузии видео.
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

Jul 14

ByQinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan

Анализы цепей LLM согласованы при обучении и масштабировании.
LLM Circuit Analyses Are Consistent Across Training and Scale

Jul 15

ByCurt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

MMM: Мультиязычный эффект взаимного усиления: смешивание наборов данных и тестирование с большими языковыми моделями для извлечения информации в открытой области.
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

Jul 15

ByChengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori