Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Технический отчет PaLM 2
PaLM 2 Technical Report

May 17, 2023

Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Clément Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark Díaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu

Мы представляем PaLM 2 — новую языковую модель, которая превосходит своего предшественника PaLM по многоязычным и логическим возможностям, а также по вычислительной эффективности. PaLM 2 основана на архитектуре Transformer и обучена с использованием смеси целевых функций. Благодаря обширным оценкам на английском и многоязычных языковых задачах, а также задачах на логическое мышление, мы демонстрируем, что PaLM 2 значительно улучшает качество выполнения задач на различных размерах модели, одновременно обеспечивая более быстрый и эффективный вывод по сравнению с PaLM. Эта повышенная эффективность позволяет расширить область применения модели, а также ускоряет её ответы, делая взаимодействие более естественным. PaLM 2 демонстрирует устойчивые способности к логическому мышлению, что подтверждается значительным улучшением результатов на тестах BIG-Bench и других задачах на рассуждение. Модель показывает стабильную производительность в рамках набора оценок ответственного ИИ и позволяет контролировать токсичность на этапе вывода без дополнительных затрат или ущерба для других возможностей. В целом, PaLM 2 достигает передовых результатов в широком спектре задач и возможностей. При обсуждении семейства PaLM 2 важно различать предварительно обученные модели (различных размеров), их доработанные версии и пользовательские продукты, использующие эти модели. В частности, пользовательские продукты обычно включают дополнительные этапы пред- и постобработки. Кроме того, базовые модели могут развиваться со временем. Поэтому не следует ожидать, что производительность пользовательских продуктов будет точно соответствовать результатам, представленным в этом отчете.

CoEdIT: Редактирование текста с помощью настройки на конкретные задачи через инструкции
CoEdIT: Text Editing by Task-Specific Instruction Tuning

May 17, 2023

Vipul Raheja, Dhruv Kumar, Ryan Koo, Dongyeop Kang

Редактирование или пересмотр текста является важной функцией в процессе человеческого письма. Понимание возможностей языковых моделей (LLM) для выполнения качественных правок и сотрудничества с авторами — это ключевой шаг на пути к созданию эффективных помощников для письма. Учитывая предыдущие успехи LLM и настройки на инструкции, мы используем LLM, настроенные на инструкции, для редактирования текста с целью повышения качества пользовательского текста и улучшения эффективности процесса. Мы представляем CoEdIT — современную модель редактирования текста для помощи в написании. CoEdIT принимает инструкции от пользователя, определяющие атрибуты желаемого текста, такие как «Сделать предложение проще» или «Написать в более нейтральном стиле», и выдает отредактированный текст. Мы представляем крупную языковую модель, дообученную на разнообразной коллекции задач, специфичных для редактирования текста (всего 82 тыс. инструкций). Наша модель (1) демонстрирует наилучшие результаты на различных тестах по редактированию текста, (2) конкурирует с общедоступными крупнейшими LLM, обученными на инструкциях, при этом будучи в 60 раз меньше, (3) способна обобщать на неизвестные инструкции по редактированию и (4) проявляет способность к композиционному пониманию, обобщая инструкции, содержащие различные комбинации действий по редактированию. Благодаря обширному качественному и количественному анализу мы показываем, что авторы предпочитают правки, предложенные CoEdIT, по сравнению с другими современными моделями редактирования текста. Наш код и набор данных доступны публично.

SLiC-HF: Калибровка последовательностей по правдоподобию с учетом обратной связи от человека
SLiC-HF: Sequence Likelihood Calibration with Human Feedback

May 17, 2023

Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu

Обучение на основе обратной связи от человека доказало свою эффективность в согласовании языковых моделей с человеческими предпочтениями. В предыдущих работах часто использовалось обучение с подкреплением на основе человеческой обратной связи (RLHF), которое оптимизирует языковую модель с использованием оценок вознаграждения, присвоенных моделью вознаграждения, обученной на данных о человеческих предпочтениях. В данной работе мы показываем, как недавно предложенный метод калибровки правдоподобия последовательностей (SLiC) также может быть эффективно использован для обучения на основе человеческих предпочтений (SLiC-HF). Более того, мы демонстрируем, что это можно сделать с использованием данных обратной связи, собранных для другой модели, аналогично данным обучения с подкреплением вне политики (off-policy) и оффлайн (offline). Эксперименты с автоматической и человеческой оценкой на задаче суммаризации TL;DR показывают, что SLiC-HF значительно улучшает базовые методы тонкой настройки с учителем. Кроме того, SLiC-HF представляет собой конкурентоспособную альтернативу реализации RLHF на основе алгоритма PPO, использованной в предыдущих работах, при этом будучи гораздо проще в реализации, легче в настройке и более вычислительно эффективной на практике.

DoReMi: Оптимизация смесей данных ускоряет предварительное обучение языковых моделей
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

May 17, 2023

Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu

Пропорции смешения доменов данных предварительного обучения (например, Википедия, книги, веб-тексты) существенно влияют на производительность языковой модели (LM). В данной статье мы предлагаем метод Domain Reweighting with Minimax Optimization (DoReMi), который сначала обучает небольшую прокси-модель с использованием групповой оптимизации, устойчивой к распределению (Group DRO), по доменам для получения весов доменов (пропорций смешения) без знания о целевых задачах. Затем мы повторно выбираем набор данных с этими весами доменов и обучаем более крупную, полноразмерную модель. В наших экспериментах мы применяем DoReMi к прокси-модели с 280 миллионами параметров для определения весов доменов, чтобы более эффективно обучить модель с 8 миллиардами параметров (в 30 раз больше). На наборе данных The Pile DoReMi улучшает перплексию во всех доменах, даже когда он снижает вес какого-либо домена. DoReMi повышает среднюю точность на нескольких целевых задачах на 6,5% по сравнению с базовой моделью, обученной с использованием стандартных весов доменов The Pile, и достигает точности базовой модели за в 2,6 раза меньше шагов обучения. На наборе данных GLaM DoReMi, который не имеет информации о целевых задачах, даже соответствует производительности использования весов доменов, настроенных на целевых задачах.

DinoSR: Самообучение и онлайн-кластеризация для самоконтролируемого обучения речевых представлений
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

May 17, 2023

Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass

В данной статье мы представляем метод самообучения и онлайн-кластеризации для самообучения речевых представлений (DinoSR), который объединяет маскированное языковое моделирование, самообучение и онлайн-кластеризацию. Мы показываем, что эти концепции дополняют друг друга и приводят к созданию мощной модели обучения представлений для речи. DinoSR сначала извлекает контекстуализированные эмбеддинги из входного аудио с помощью учительской сети, затем применяет систему онлайн-кластеризации к этим эмбеддингам для получения машинно-обнаруженного инвентаря фонем и, наконец, использует дискретизированные токены для обучения ученической сети. Мы демонстрируем, что DinoSR превосходит предыдущие достижения в нескольких последующих задачах, а также предоставляем детальный анализ модели и изученных дискретных единиц. Исходный код будет опубликован после завершения периода анонимности.

Умные подсказки слов для помощи в написании текста
Smart Word Suggestions for Writing Assistance

May 17, 2023

Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao

Улучшение использования слов является желательной функцией для систем помощи в написании текстов. Для дальнейшего продвижения исследований в этой области данная статья представляет задачу и эталонный тест "Умные предложения слов" (Smart Word Suggestions, SWS). В отличие от других работ, SWS делает акцент на сквозной оценке и представляет более реалистичный сценарий помощи в написании. Эта задача включает в себя выявление слов или фраз, требующих улучшения, и предоставление вариантов замены. Эталонный тест включает данные, размеченные людьми для тестирования, большой набор данных с дистанционным контролем для обучения и структуру для оценки. Тестовые данные содержат 1000 предложений, написанных изучающими английский язык, с более чем 16 000 предложений замен, аннотированных 10 носителями языка. Обучающий набор данных включает более 3,7 миллионов предложений и 12,7 миллионов предложений, сгенерированных с помощью правил. Наши эксперименты с семью базовыми моделями показывают, что SWS является сложной задачей. На основе анализа экспериментов мы предлагаем возможные направления для будущих исследований SWS. Набор данных и связанные коды доступны по адресу https://github.com/microsoft/SmartWordSuggestions.

Объяснение работы "черных ящиков" текстовых модулей на естественном языке с использованием языковых моделей
Explaining black box text modules in natural language with language models

May 17, 2023

Chandan Singh, Aliyah R. Hsu, Richard Antonello, Shailee Jain, Alexander G. Huth, Bin Yu, Jianfeng Gao

Крупные языковые модели (LLM) продемонстрировали впечатляющую производительность в прогнозировании для всё большего числа задач. Однако их быстрое распространение и растущая непрозрачность создают всё большую потребность в интерпретируемости. В данной работе мы задаёмся вопросом, можно ли автоматически получать объяснения на естественном языке для "чёрных ящиков" текстовых модулей. Под "текстовым модулем" понимается любая функция, которая преобразует текст в скалярное непрерывное значение, например, подмодуль внутри LLM или обученная модель области мозга. "Чёрный ящик" означает, что у нас есть доступ только к входам и выходам модуля. Мы представляем метод Summarize and Score (SASC), который принимает текстовый модуль и возвращает объяснение на естественном языке, описывающее избирательность модуля, а также оценку надёжности этого объяснения. Мы исследуем SASC в трёх контекстах. Во-первых, мы оцениваем SASC на синтетических модулях и обнаруживаем, что он часто восстанавливает истинные объяснения. Во-вторых, мы используем SASC для объяснения модулей, найденных в предобученной модели BERT, что позволяет исследовать внутреннюю структуру модели. Наконец, мы показываем, что SASC может генерировать объяснения для реакции отдельных вокселей фМРТ на языковые стимулы, что открывает возможности для детального картирования мозга. Весь код для использования SASC и воспроизведения результатов доступен на Github.

Универсальное языковое моделирование для распознавания речи на устройстве
Application-Agnostic Language Modeling for On-Device ASR

May 16, 2023

Markus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil

Системы автоматического распознавания речи на устройствах сталкиваются с рядом проблем по сравнению с серверными системами. Они должны соответствовать более строгим ограничениям в отношении скорости, объема дискового пространства и памяти, сохраняя при этом ту же точность. Зачастую им приходится одновременно обслуживать несколько приложений с разными распределениями данных, таких как взаимодействие с виртуальным помощником и преобразование речи в текст. Наиболее простое решение для обслуживания нескольких приложений — создание специализированных (языковых) моделей для каждого приложения, однако это приводит к увеличению объема используемой памяти. Поэтому мы исследуем различные подходы к языковому моделированию, основанные на данных и архитектуре, чтобы создать единую универсальную модель. Мы предлагаем две новые архитектуры с прямой связью, которые находят оптимальный баланс между различными ограничениями на устройствах. По сравнению с решением, использующим специализированные модели, один из наших новых подходов сокращает объем дискового пространства вдвое, сохраняя при этом скорость и точность исходной модели.

CostFormer: Трансформер для агрегации стоимостей в многовидовой стереоскопии
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

May 17, 2023

Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie

Основой метода Multi-view Stereo (MVS) является процесс сопоставления пикселей между опорным и исходным изображениями. Агрегация затрат играет ключевую роль в этом процессе, однако предыдущие методы сосредоточены на её реализации с использованием сверточных нейронных сетей (CNNs). Это может наследовать естественное ограничение CNNs, заключающееся в неспособности различать повторяющиеся или ошибочные совпадения из-за ограниченных локальных рецептивных полей. Для решения этой проблемы мы предлагаем интегрировать Transformer в процесс агрегации затрат. Однако возникает другая проблема, связанная с квадратичным ростом вычислительной сложности Transformer, что приводит к переполнению памяти и задержкам при выводе. В данной статье мы преодолеваем эти ограничения с помощью эффективной сети агрегации затрат на основе Transformer, названной CostFormer. Предлагается Residual Depth-Aware Cost Transformer (RDACT) для агрегации долгосрочных признаков на объеме затрат с использованием механизмов самовнимания по глубине и пространственным измерениям. Кроме того, предлагается Residual Regression Transformer (RRT) для усиления пространственного внимания. Предложенный метод является универсальным плагином для улучшения методов MVS, основанных на обучении.

Поиск иголки в стоге сена: роль случайного билингвизма в переводческих способностях модели PaLM
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability

May 17, 2023

Eleftheria Briakou, Colin Cherry, George Foster

Крупные многоязычные языковые модели демонстрируют удивительно хорошие способности к машинному переводу в условиях нулевого или малого числа примеров, несмотря на то, что они никогда не видели специально включенных примеров перевода, предоставляемых типичным нейронным системам перевода. Мы исследуем роль случайного билингвизма — непреднамеренного потребления двуязычных сигналов, включая примеры перевода — в объяснении переводческих способностей крупных языковых моделей, используя Pathways Language Model (PaLM) в качестве примера. Мы предлагаем смешанный метод для измерения и понимания случайного билингвизма в масштабе. Мы показываем, что PaLM подвергается воздействию более 30 миллионов пар перевода как минимум на 44 языках. Более того, объем случайного двуязычного контента сильно коррелирует с объемом одноязычного контента на неанглийских языках. Мы связываем случайный двуязычный контент с запросами для нулевого перевода и показываем, что его можно использовать для поиска новых запросов, чтобы улучшить качество нулевого перевода PaLM с английского на другие языки. Наконец, в серии небольших экспериментов мы демонстрируем, что его присутствие оказывает существенное влияние на способности к переводу, хотя это влияние уменьшается с увеличением масштаба модели.

Улучшение переговоров языковых моделей с использованием самовоспроизведения и обучения в контексте на основе обратной связи ИИ
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

May 17, 2023

Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata

Мы исследуем, могут ли несколько крупных языковых моделей (LLM) автономно улучшать друг друга в игре-переговорах, играя, анализируя и критикуя. Этот вопрос важен, поскольку если LLM смогут улучшать друг друга, это открывает возможность создания мощных ИИ-агентов с минимальным вмешательством человека. Мы предлагаем двум LLM вести переговоры друг с другом, играя роли покупателя и продавца соответственно. Их цель — достичь соглашения, при этом покупатель стремится к более низкой цене, а продавец — к более высокой. Третья языковая модель, выступающая в роли критика, предоставляет обратную связь игроку для улучшения его стратегий переговоров. Мы позволяем двум агентам играть несколько раундов, используя историю предыдущих переговоров и обратную связь от ИИ в качестве контекстных демонстраций для итеративного улучшения стратегии переговоров. Мы используем разные LLM (GPT и Claude) для разных ролей и оцениваем результаты по цене сделки. Наши эксперименты выявили несколько интересных результатов: (1) Только часть рассмотренных языковых моделей способна к самообучению и улучшению цены сделки на основе обратной связи от ИИ; более слабые модели либо не понимают правила игры, либо не могут использовать обратную связь для дальнейшего улучшения. (2) Способности моделей учиться на обратной связи различаются в зависимости от роли. Например, Claude-instant сложнее улучшать свои результаты в роли покупателя, чем в роли продавца. (3) При проведении нескольких раундов более сильные агенты могут последовательно улучшать свои результаты, осмысленно используя предыдущий опыт и итеративную обратную связь от ИИ, но при этом выше риск срыва сделки. Мы надеемся, что наша работа станет полезным начальным исследованием в области автономного улучшения моделей друг другом через игровые взаимодействия и обратную связь от ИИ.

Трансферное обучение для классификации с высокой детализацией с использованием полуавтоматического обучения и визуальных трансформеров
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

May 17, 2023

Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand

Точная классификация (fine-grained classification) представляет собой сложную задачу, связанную с распознаванием тонких различий между объектами внутри одной категории. Эта задача особенно трудна в условиях ограниченного объема данных. Визуальные трансформеры (ViT) недавно зарекомендовали себя как мощный инструмент для классификации изображений благодаря их способности обучать высоко выразительные представления визуальных данных с использованием механизмов самовнимания (self-attention). В данной работе мы исследуем Semi-ViT — модель ViT, дообученную с использованием методов полуконтролируемого обучения, что подходит для ситуаций, когда аннотированных данных недостаточно. Это особенно актуально в сфере электронной коммерции, где изображения доступны в большом количестве, но метки либо зашумлены, либо отсутствуют, либо их получение связано с высокими затратами. Наши результаты показывают, что Semi-ViT превосходит традиционные сверточные нейронные сети (CNN) и стандартные ViT, даже при дообучении на ограниченных аннотированных данных. Эти результаты свидетельствуют о значительном потенциале Semi-ViT для приложений, требующих точной и детализированной классификации визуальных данных.

NerfBridge: Реализация обучения нейронных полей излучения в реальном времени для робототехники
NerfBridge: Bringing Real-time, Online Neural Radiance Field Training to Robotics

May 16, 2023

Javier Yu, Jun En Low, Keiko Nagami, Mac Schwager

Данная работа была представлена на семинаре по нетрадиционным пространственным представлениям в рамках Международной конференции IEEE по робототехнике и автоматизации 2023 года. Нейронные поля излучения (NeRF) представляют собой класс неявных моделей сцен, которые воссоздают трёхмерные среды на основе цветных изображений. NeRF обладают высокой выразительностью и способны моделировать сложную и многоуровневую геометрию реальных сред, что делает их потенциально мощным инструментом для применения в робототехнике. Современные библиотеки для обучения NeRF могут создавать фотореалистичные модели NeRF из статичного набора данных всего за несколько секунд, однако они предназначены для оффлайн-использования и требуют предварительного медленного этапа оптимизации поз. В данной работе мы представляем NerfBridge — открытый мост между операционной системой для роботов (ROS) и популярной библиотекой Nerfstudio для обучения NeRF в реальном времени на потоке изображений. NerfBridge ускоряет разработку исследований по применению NeRF в робототехнике, предоставляя расширяемый интерфейс к эффективным конвейерам обучения и библиотекам моделей, доступным в Nerfstudio. В качестве примера использования мы описываем аппаратную установку, которая может быть использована с NerfBridge для обучения NeRF на изображениях, захваченных камерой, установленной на квадрокоптере, как в помещении, так и на открытом воздухе. Сопроводительное видео: https://youtu.be/EH0SLn-RcDg и код: https://github.com/javieryu/nerf_bridge.

Видео стоит 4096 токенов: Вербализация сюжетных видео для их понимания в условиях нулевого сценария
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

May 16, 2023

Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen

Мультимедийный контент, такой как рекламные ролики и сюжетные видео, демонстрирует богатое сочетание креативности и множества модальностей. Он включает элементы, такие как текст, визуальные образы, аудио и техники повествования, используя приемы, такие как эмоции, символизм и слоганы, для передачи смысла. Хотя предыдущие исследования в области понимания мультимедиа в основном сосредотачивались на видео с конкретными действиями, такими как приготовление пищи, существует недостаток крупных аннотированных обучающих наборов данных, что затрудняет разработку моделей обучения с учителем с удовлетворительной производительностью для реальных приложений. Однако появление больших языковых моделей (LLM) продемонстрировало впечатляющую производительность в задачах обработки естественного языка (NLP), таких как классификация эмоций, ответы на вопросы и классификация тем. Чтобы преодолеть этот разрыв в производительности в понимании мультимедиа, мы предлагаем вербализовать сюжетные видео для генерации их описаний на естественном языке, а затем выполнять задачи понимания видео на основе сгенерированного сюжета, а не исходного видео. В ходе обширных экспериментов на пяти задачах понимания видео мы демонстрируем, что наш метод, несмотря на отсутствие обучения, достигает значительно лучших результатов, чем контролируемые базовые модели для понимания видео. Кроме того, чтобы устранить недостаток эталонных данных для понимания сюжетов, мы публикуем первый набор данных для важной задачи в вычислительной социальной науке — идентификации стратегий убеждения.

Технический отчет PaLM 2
PaLM 2 Technical Report

May 17, 2023

Ежедневные статьи

Технический отчет PaLM 2
PaLM 2 Technical Report

CoEdIT: Редактирование текста с помощью настройки на конкретные задачи через инструкции
CoEdIT: Text Editing by Task-Specific Instruction Tuning

SLiC-HF: Калибровка последовательностей по правдоподобию с учетом обратной связи от человека
SLiC-HF: Sequence Likelihood Calibration with Human Feedback

DoReMi: Оптимизация смесей данных ускоряет предварительное обучение языковых моделей
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

DinoSR: Самообучение и онлайн-кластеризация для самоконтролируемого обучения речевых представлений
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

Умные подсказки слов для помощи в написании текста
Smart Word Suggestions for Writing Assistance

Объяснение работы "черных ящиков" текстовых модулей на естественном языке с использованием языковых моделей
Explaining black box text modules in natural language with language models

Универсальное языковое моделирование для распознавания речи на устройстве
Application-Agnostic Language Modeling for On-Device ASR

CostFormer: Трансформер для агрегации стоимостей в многовидовой стереоскопии
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

Поиск иголки в стоге сена: роль случайного билингвизма в переводческих способностях модели PaLM
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability

NerfBridge: Реализация обучения нейронных полей излучения в реальном времени для робототехники
NerfBridge: Bringing Real-time, Online Neural Radiance Field Training to Robotics

Видео стоит 4096 токенов: Вербализация сюжетных видео для их понимания в условиях нулевого сценария
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

Support

Support

Ежедневные статьи

Технический отчет PaLM 2
PaLM 2 Technical Report

CoEdIT: Редактирование текста с помощью настройки на конкретные задачи через инструкции
CoEdIT: Text Editing by Task-Specific Instruction Tuning

SLiC-HF: Калибровка последовательностей по правдоподобию с учетом обратной связи от человека
SLiC-HF: Sequence Likelihood Calibration with Human Feedback

DoReMi: Оптимизация смесей данных ускоряет предварительное обучение языковых моделей
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

DinoSR: Самообучение и онлайн-кластеризация для самоконтролируемого обучения речевых представлений
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

Умные подсказки слов для помощи в написании текста
Smart Word Suggestions for Writing Assistance

Объяснение работы "черных ящиков" текстовых модулей на естественном языке с использованием языковых моделей
Explaining black box text modules in natural language with language models

Универсальное языковое моделирование для распознавания речи на устройстве
Application-Agnostic Language Modeling for On-Device ASR

CostFormer: Трансформер для агрегации стоимостей в многовидовой стереоскопии
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

Поиск иголки в стоге сена: роль случайного билингвизма в переводческих способностях модели PaLM
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability

NerfBridge: Реализация обучения нейронных полей излучения в реальном времени для робототехники
NerfBridge: Bringing Real-time, Online Neural Radiance Field Training to Robotics

Видео стоит 4096 токенов: Вербализация сюжетных видео для их понимания в условиях нулевого сценария
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot