ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Простые и масштабируемые стратегии для непрерывного предварительного обучения больших языковых моделей.
Simple and Scalable Strategies to Continually Pre-train Large Language Models

Mar 13
ByAdam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
51
1

Большие языковые модели (LLM) регулярно предварительно обучаются на миллиардах токенов, лишь чтобы начать процесс заново, как только появляются новые данные. Гораздо более эффективным решением является непрерывное предварительное обучение этих моделей, что позволяет сэкономить значительные вычислительные ресурсы по сравнению с повторным обучением. Однако сдвиг распределения, вызванный новыми данными, обычно приводит к ухудшению производительности на предыдущих данных или плохой адаптации к новым данным. В данной работе мы показываем, что простое и масштабируемое сочетание пересмотра скорости обучения (LR), уменьшения LR и воспроизведения предыдущих данных достаточно для достижения производительности полного повторного обучения с нуля на всех доступных данных, измеряемой по окончательной потере и оценочным показателям языковой модели (LM). В частности, мы демонстрируем это для слабого, но реалистичного сдвига распределения между двумя часто используемыми наборами данных для предварительного обучения LLM (с английского на английский) и более сильного сдвига распределения (с английского на немецкий) на модели с параметрами 405 миллионов с большими объемами данных (сотни миллиардов токенов). Выбрав слабый, но реалистичный сдвиг для экспериментов большего масштаба, мы также обнаружили, что наши стратегии непрерывного обучения соответствуют базовой линии повторного обучения для LLM с 10 миллиардами параметров. Наши результаты демонстрируют, что LLM могут быть успешно обновлены с помощью простых и масштабируемых стратегий непрерывного обучения, соответствуя базовой линии повторного обучения с использованием лишь части вычислительных ресурсов. Наконец, вдохновленные предыдущими работами, мы предлагаем альтернативы косинусному графику скорости обучения, которые помогают избежать забывания, вызванного пересмотром LR, и не привязаны к фиксированному бюджету токенов.

2

Gemma: Открытые модели на основе исследований и технологий Gemini
Gemma: Open Models Based on Gemini Research and Technology

Mar 13
ByGemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Léonard Hussenot, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Amélie Héliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Clément Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Mikuła, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Pier Giuseppe Sessa, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Clément Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy
50
5

Эта работа представляет Gemma, семейство легких передовых открытых моделей, построенных на исследованиях и технологиях, использованных для создания моделей Gemini. Модели Gemma демонстрируют высокую производительность на академических бенчмарках для понимания языка, рассуждений и безопасности. Мы выпускаем два размера моделей (2 миллиарда и 7 миллиардов параметров) и предоставляем как предварительно обученные, так и дообученные контрольные точки. Gemma превосходит модели схожего размера на 11 из 18 текстовых задач, и мы представляем всесторонние оценки аспектов безопасности и ответственности моделей, наряду с подробным описанием разработки модели. Мы считаем, что ответственный выпуск LLM-моделей критичен для улучшения безопасности фронтовых моделей и для обеспечения следующей волны инноваций в области LLM.

3

VLOGGER: Мультимодальная диффузия для синтеза воплощенного аватара
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

Mar 13
ByEnric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu
36
6

Мы предлагаем VLOGGER, метод генерации видео человека по аудио с использованием одного входного изображения человека, основанный на успехе недавних генеративных моделей диффузии. Наш метод состоит из 1) стохастической модели диффузии человека в трехмерное движение и 2) новой архитектуры на основе диффузии, которая дополняет модели текста к изображению как пространственными, так и временными контролями. Это поддерживает генерацию видео высокого качества переменной длины, легко управляемую через высокоуровневые представления лиц и тел человека. В отличие от предыдущих работ, наш метод не требует обучения для каждого человека, не зависит от обнаружения и обрезки лица, генерирует полное изображение (а не только лицо или губы) и учитывает широкий спектр сценариев (например, видимый торс или разнообразные идентичности объектов), что критически важно для правильного синтеза людей, взаимодействующих друг с другом. Мы также создаем MENTOR, новый и разнообразный набор данных с аннотациями трехмерной позы и выражениями, в десять раз больший, чем предыдущие (800 000 идентичностей), с динамическими жестами, на котором мы обучаем и анализируем наши основные технические вклады. VLOGGER превосходит методы новейших технологий в трех общедоступных бенчмарках, учитывая качество изображения, сохранение идентичности и временную последовательность, а также генерирует жесты верхней части тела. Мы анализируем производительность VLOGGER по множеству метрик разнообразия, показывая, что наши архитектурные решения и использование MENTOR способствуют обучению справедливой и неискаженной модели в масштабе. Наконец, мы показываем применения в видеомонтаже и персонализации.

4

SOTOPIA-π: Интерактивное обучение социально интеллектуальных языковых агентов
SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents

Mar 13
ByRuiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu
21
1

Люди учатся социальным навыкам через имитацию и социальное взаимодействие. Этот процесс социального обучения в значительной степени недостаточно изучен в существующих исследованиях по созданию языковых агентов. Вдохновленные этим пробелом, мы предлагаем интерактивный метод обучения, SOTOPIA-pi, улучшающий социальный интеллект языковых агентов. Данный метод использует клонирование поведения и обучение методом самоусиления на отфильтрованных данных социального взаимодействия в соответствии с рейтингами большой языковой модели (LLM). Мы показываем, что наш метод обучения позволяет 7B LLM достичь способности к завершению социальных целей экспертной модели (агент на основе GPT-4), улучшая при этом безопасность языковых агентов и сохраняя общую способность к вопросам и ответам на бенчмарке MMLU. Мы также обнаружили, что данный парадигма обучения выявляет некоторые трудности в оценке социального интеллекта на основе LLM: оценщики на основе LLM завышают способности языковых агентов, обученных специально для социального взаимодействия.

5

О влиянии открытых моделей фонда на общество
On the Societal Impact of Open Foundation Models

Feb 27
BySayash Kapoor, Rishi Bommasani, Kevin Klyman, Shayne Longpre, Ashwin Ramaswami, Peter Cihon, Aspen Hopkins, Kevin Bankston, Stella Biderman, Miranda Bogen, Rumman Chowdhury, Alex Engler, Peter Henderson, Yacine Jernite, Seth Lazar, Stefano Maffulli, Alondra Nelson, Joelle Pineau, Aviya Skowron, Dawn Song, Victor Storchan, Daniel Zhang, Daniel E. Ho, Percy Liang, Arvind Narayanan
17
2

Фундаментальные модели - это мощные технологии: то, как они публично выпускаются, непосредственно формирует их общественное воздействие. В данной позиционной статье мы сосредотачиваемся на открытых фундаментальных моделях, определяемых здесь как те, у которых широко доступны веса моделей (например, Llama 2, Stable Diffusion XL). Мы выделяем пять характерных свойств (например, большая настраиваемость, недостаточный мониторинг) открытых фундаментальных моделей, которые приводят как к их преимуществам, так и к рискам. Открытые фундаментальные модели представляют значительные преимущества, с некоторыми оговорками, которые охватывают инновации, конкуренцию, распределение принятия решений и прозрачность. Для понимания рисков их неправильного использования мы разрабатываем рамочную оценку рисков для анализа их предельного риска. По нескольким векторам неправильного использования (например, кибератаки, биологическое оружие) мы приходим к выводу, что текущих исследований недостаточно для эффективной характеристики предельного риска открытых фундаментальных моделей по сравнению с существующими технологиями. Рамочная модель помогает объяснить, почему предельный риск в некоторых случаях низок, разъясняет разногласия относительно рисков неправильного использования, показывая, что предыдущие работы фокусировались на различных подмножествах рамочной модели с разными предположениями, и определяет путь к более конструктивному обсуждению. В целом, наша работа помогает поддержать более обоснованную оценку общественного воздействия открытых фундаментальных моделей, определяя, какие исследования необходимы для эмпирической проверки их теоретических преимуществ и рисков.

6

Языковые модели надежно масштабируются при избыточном обучении и на последующих задачах.
Language models scale reliably with over-training and on downstream tasks

Mar 13
BySamir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
15
1

Законы масштабирования являются полезными руководствами для разработки языковых моделей, однако все еще существуют разрывы между текущими исследованиями масштабирования и тем, как в конечном итоге происходит обучение и оценка языковых моделей. Например, масштабирование обычно изучается в режиме оптимального вычисления обучения (т.е. режим "оптимальный для шиншиллы"); однако на практике модели часто переобучаются для снижения затрат на вывод. Более того, законы масштабирования в основном предсказывают потери при предсказании следующего токена, но в конечном итоге модели сравниваются на основе производительности на задачах последующего использования. В данной статье мы решаем оба недостатка. Для этого мы создаем набор из 104 моделей с 0.011B до 6.9B параметров, обученных с различным количеством токенов на трех распределениях данных. Во-первых, мы исследуем масштабирование в режиме переобучения. Мы подгоняем законы масштабирования, которые экстраполируются как по количеству параметров модели, так и по соотношению обучающих токенов к параметрам. Это позволяет нам предсказать потери на валидации для запуска с 1.4B параметрами и 900B токенами (т.е. переобучение в 32 раза) и для запуска с 6.9B параметрами и 138B токенами — каждый из экспериментов требует в 300 раз меньше вычислительных ресурсов. Во-вторых, мы связываем непонимание языка модели с ее производительностью на задачах последующего использования через степенной закон. Мы используем этот закон для прогнозирования ошибки top-1, усредненной по задачам последующего использования, для двух вышеупомянутых моделей, используя эксперименты, требующие в 20 раз меньше вычислительных ресурсов. Наши эксперименты доступны по адресу https://github.com/mlfoundations/scaling.

7

Масштабирование моделирования динамического взаимодействия человека с сценой
Scaling Up Dynamic Human-Scene Interaction Modeling

Mar 13
ByNan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang
15
1

Преодолевая вызовы нехватки данных и продвинутого синтеза движения в моделировании взаимодействия человека с сценой, мы представляем набор данных TRUMANS наряду с новым методом синтеза движения HSI. TRUMANS является наиболее полным набором данных HSI с захватом движения, доступным на данный момент, охватывая более 15 часов взаимодействия людей в 100 внутренних сценах. Он тщательно записывает движения всего тела человека и динамику объектов на уровне частей, сосредотачиваясь на реализме контакта. Этот набор данных дополнительно масштабируется путем преобразования физических сред в точные виртуальные модели и применения обширных улучшений внешности и движения как для людей, так и для объектов, сохраняя при этом достоверность взаимодействия. Используя TRUMANS, мы разрабатываем модель авторегрессии на основе диффузии, которая эффективно генерирует последовательности HSI любой длины, учитывая как контекст сцены, так и задуманные действия. В экспериментах наш подход показывает замечательную обобщаемость без обучения на ряде наборов данных 3D сцен (например, PROX, Replica, ScanNet, ScanNet++), производя движения, которые близко имитируют оригинальные записанные последовательности движения, как подтверждено количественными экспериментами и исследованиями с участием людей.

8

Следуйте за своим кликом: анимация изображений региона открытого домена через краткие подсказки.
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

Mar 13
ByYue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
15
5

Несмотря на недавние достижения в области генерации изображений в видеоформат, лучшая управляемость и локальная анимация остаются менее исследованными. Большинство существующих методов генерации изображений в видео не обладают локальным осознанием и склонны перемещать всю сцену. Однако художники-люди могут нуждаться в управлении движением различных объектов или областей. Кроме того, текущие методы генерации изображений в видео требуют от пользователей не только описания целевого движения, но и предоставления избыточных подробных описаний содержания кадра. Эти две проблемы затрудняют практическое использование существующих инструментов генерации изображений в видео. В данной статье мы предлагаем практическую структуру, названную "Follow-Your-Click", для достижения анимации изображения с помощью простого клика пользователя (для указания, что двигать) и краткого подсказывающего движения (для указания, как двигать). Технически мы предлагаем стратегию маскирования первого кадра, которая значительно улучшает качество генерации видео, а также модуль с увеличенным движением, оснащенный набором кратких подсказывающих движений для улучшения способностей нашей модели к следованию кратким подсказкам. Для дальнейшего контроля скорости движения мы предлагаем управление магнитудой движения на основе потока для более точного контроля скорости целевого движения. Наша структура обладает более простым, но точным управлением пользователем и лучшей производительностью генерации по сравнению с предыдущими методами. Обширные эксперименты, сравниваемые с 7 базовыми вариантами, включая как коммерческие инструменты, так и исследовательские методы по 8 метрикам, указывают на превосходство нашего подхода. Страница проекта: https://follow-your-click.github.io/

9

Гауссовское изображение: представление изображения и сжатие на 1000 кадров в секунду с помощью двумерного гауссовского сглаживания.
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting

Mar 13
ByXinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang
10
4

Неявные нейронные представления (INR) недавно достигли большого успеха в представлении и сжатии изображений, обеспечивая высокое качество изображения и быструю скорость визуализации от 10 до 1000 кадров в секунду, при наличии достаточных ресурсов GPU. Однако это требование часто затрудняет их использование на устройствах с ограниченной памятью. В ответ на это мы предлагаем новаторскую парадигму представления и сжатия изображений с помощью 2D Гауссовского сплетения, названную GaussianImage. Сначала мы вводим 2D Гауссово распределение для представления изображения, где каждое Гауссово распределение имеет 8 параметров, включая позицию, ковариацию и цвет. Затем мы представляем новый алгоритм визуализации на основе накопленной суммы. Замечательно, что наш метод с использованием минимум в 3 раза меньшего объема памяти GPU и в 5 раз быстрее времени подгонки не только конкурирует с INR (например, WIRE, I-NGP) по производительности представления, но также обеспечивает более быструю скорость визуализации от 1500 до 2000 кадров в секунду независимо от размера параметра. Кроме того, мы интегрируем существующую технику векторного квантования для создания кодека изображений. Экспериментальные результаты показывают, что наш кодек достигает производительности по скорости искажения, сравнимой с сжатием на основе INR, таким как COIN и COIN++, обеспечивая скорость декодирования около 1000 кадров в секунду. Кроме того, предварительное доказательство концепции показывает, что наш кодек превосходит COIN и COIN++ по производительности при использовании частичного кодирования "биты-назад".

Mar 13
Mar 14
Mar 15