HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

16 papers found

Сложение - все, что вам нужно для энергоэффективных языковых моделей
Addition is All You Need for Energy-efficient Language Models

Oct 1

ByHongyin Luo, Wei Sun

151

Большие нейронные сети тратят большую часть вычислений на умножения тензоров с плавающей запятой. В данной работе мы обнаружили, что умножитель с плавающей запятой может быть аппроксимирован одним целочисленным сумматором с высокой точностью. Мы предлагаем алгоритм линейной сложности умножения L-Mul, который аппроксимирует умножение чисел с плавающей запятой операциями целочисленного сложения. Новый алгоритм требует значительно меньше ресурсов вычислений, чем умножение чисел с плавающей запятой на 8 бит, но достигает более высокой точности. По сравнению с умножениями чисел с плавающей запятой на 8 бит, предложенный метод обеспечивает более высокую точность, но требует значительно меньше вычислений на уровне битов. Поскольку умножение чисел с плавающей запятой требует существенно больше энергии по сравнению с операциями целочисленного сложения, применение операции L-Mul в аппаратуре обработки тензоров может потенциально снизить затраты на энергию на 95% при поэлементных умножениях тензоров с плавающей запятой и на 80% при скалярных произведениях. Мы рассчитали теоретическое ожидание ошибки L-Mul и оценили алгоритм на широком спектре текстовых, визуальных и символьных задач, включая понимание естественного языка, структурное мышление, математику и ответы на вопросы здравого смысла. Наши численные эксперименты согласуются с теоретической оценкой ошибки, что указывает на то, что L-Mul с мантиссой 4 бита достигает сравнимой точности с умножениями float8_e4m3, а L-Mul с мантиссой 3 бита превосходит float8_e5m2. Результаты оценки на популярных бенчмарках показывают, что применение L-Mul к механизму внимания практически не приводит к потерям. Мы также показываем, что замена всех умножений чисел с плавающей запятой на L-Mul с мантиссой 3 бита в модели трансформера обеспечивает эквивалентную точность при использовании float8_e4m3 в качестве точности накопления как при донастройке, так и при выводе.

MLP-KAN: Объединение глубокого представления и обучения функций
MLP-KAN: Unifying Deep Representation and Function Learning

Oct 3

ByYunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun

Недавние достижения как в области обучения представлений, так и в области обучения функций продемонстрировали значительный потенциал в различных областях искусственного интеллекта. Однако эффективная интеграция этих парадигм представляет собой значительное вызов, особенно в случаях, когда пользователям необходимо решать вручную, применять ли модель обучения представлений или модель обучения функций на основе характеристик набора данных. Для решения этой проблемы мы представляем MLP-KAN, унифицированный метод, разработанный для устранения необходимости вручную выбирать модель. Путем интеграции многослойных перцептронов (MLP) для обучения представлений и сетей Колмогорова-Арнольда (KAN) для обучения функций в архитектуре смеси экспертов (MoE), MLP-KAN динамически адаптируется к конкретным характеристикам поставленной задачи, обеспечивая оптимальную производительность. Встроенный в рамки на основе трансформера, наш подход достигает выдающихся результатов на четырех широко используемых наборах данных в различных областях. Обширное экспериментальное исследование демонстрирует его превосходную универсальность, обеспечивая конкурентоспособную производительность как в задачах глубокого обучения представлений, так и в задачах обучения функций. Эти результаты подчеркивают потенциал MLP-KAN в упрощении процесса выбора модели, предлагая всестороннее, адаптивное решение в различных областях. Наш код и веса доступны по ссылке https://github.com/DLYuanGod/MLP-KAN.

Tutor CoPilot: Человеко-Искусственный Интеллект Подход для Масштабирования Экспертизы в Реальном Времени
Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise

Oct 3

ByRose E. Wang, Ana T. Ribeiro, Carly D. Robinson, Susanna Loeb, Dora Demszky

Генеративный искусственный интеллект, в частности, языковые модели (LM), имеют потенциал трансформировать области реального мира с социальным воздействием, особенно там, где доступ к экспертам ограничен. Например, в образовании обучение начинающих педагогов с экспертным руководством важно для эффективности, но дорого и создает значительные преграды для улучшения качества образования в масштабах. Эта проблема неравномерно влияет на учащихся из малообслуживаемых сообществ, которые могут получить наибольшую пользу от образования высокого качества. Мы представляем Tutor CoPilot, новый человеко-искусственный подход, который использует модель экспертного мышления для предоставления экспертного руководства репетиторам в процессе занятий. Это исследование является первым контролируемым случайным исследованием человеко-искусственной системы в реальном времени, включающим 900 репетиторов и 1,800 учащихся начальных и средних классов из исторически малообслуживаемых сообществ. Следуя зарегистрированному плану анализа, мы обнаружили, что учащиеся, работающие с репетиторами, имеющими доступ к Tutor CoPilot, на 4 процентных пункта (p<0.01) вероятнее овладевают темами. Особенно учащиеся, обучаемые менее оцененными репетиторами, получили наибольшую пользу, улучшив владение предметом на 9 п.п. Мы выяснили, что Tutor CoPilot стоит всего $20 в год на одного репетитора. Мы проанализировали более 550,000 сообщений с использованием классификаторов для выявления педагогических стратегий и обнаружили, что репетиторы с доступом к Tutor CoPilot более склонны использовать высококачественные стратегии для содействия пониманию учащихся (например, задавать направляющие вопросы) и менее склонны давать ответ учащемуся. Интервью с репетиторами подчеркивают, как руководство Tutor CoPilot помогает репетиторам реагировать на потребности учащихся, хотя они выявляют проблемы в Tutor CoPilot, такие как предложения, не соответствующие уровню класса. В целом, наше исследование Tutor CoPilot демонстрирует, как человеко-искусственные системы могут масштабировать экспертизу в областях реального мира, преодолевать разрывы в навыках и создавать будущее, где образование высокого качества доступно всем учащимся.

Селективное внимание улучшает Трансформер.
Selective Attention Improves Transformer

Oct 3

ByYaniv Leviathan, Matan Kalman, Yossi Matias

Ненужные элементы в контексте внимания ухудшают производительность. Мы представляем Селективное Внимание, простое изменение стандартного механизма внимания, которое уменьшает внимание к ненужным элементам. Селективное внимание улучшает производительность языкового моделирования в различных размерах моделей и длинах контекста. Например, ряд трансформеров, обученных с целью языкового моделирования на C4 с селективным вниманием, работают эквивалентно стандартным трансформерам с примерно вдвое большим количеством голов и параметров в их модулях внимания. Селективное внимание также позволяет уменьшить размер буфера контекста внимания, что приводит к существенному снижению требований к памяти и вычислениям во время вывода. Например, трансформеры с 100 миллионами параметров, обученные на C4 с размерами контекста 512, 1 024 и 2 048, требуют в 16, 25 и 47 раз меньше памяти для своего модуля внимания соответственно, когда они оснащены селективным вниманием, чем те, у которых нет селективного внимания, с тем же показателем сложности валидации.

NL-Eye: Абдуктивное NLI для изображений
NL-Eye: Abductive NLI for Images

Oct 3

ByMor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart

Сможет ли бот на основе визуальной языковой модели (VLM) предупредить нас о скольжении, если он обнаружит мокрый пол? Недавние VLM показали впечатляющие возможности, однако их способность делать выводы о результате и причинах остается недостаточно изученной. Для решения этой проблемы мы представляем NL-Eye, бенчмарк, разработанный для оценки навыков визуального абдуктивного мышления VLM. NL-Eye адаптирует задачу абдуктивного естественного языкового вывода (NLI) к визуальной области, требуя от моделей оценить правдоподобие изображений гипотез на основе изображения предпосылки и объяснить свои решения. NL-Eye состоит из 350 тщательно подобранных троек примеров (1,050 изображений), охватывающих различные категории рассуждений: физические, функциональные, логические, эмоциональные, культурные и социальные. Процесс курирования данных включал два этапа - написание текстовых описаний и создание изображений с использованием моделей текст-в-изображение, оба требующие значительного участия человека для обеспечения высокого качества и сложности сцен. Наши эксперименты показывают, что VLM значительно затрудняются на NL-Eye, часто проявляя произвольные базовые уровни, в то время как люди превосходят их как в предсказании правдоподобности, так и в качестве объяснений. Это демонстрирует недостаток в способностях абдуктивного рассуждения современных VLM. NL-Eye представляет собой важный шаг к развитию VLM, способных к надежному мультимодальному рассуждению для прикладных задач реального мира, включая ботов по предотвращению несчастных случаев и проверку созданных видео.

Ускорение авторегрессивной генерации текста в изображения с помощью обучения-без Спекулятивного декодирования Якоби.
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding

Oct 2

ByYao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu

Существующие крупные авторегрессионные модели могут генерировать изображения высокого качества и высокого разрешения, однако для вывода эти модели требуют сотен или даже тысяч шагов предсказания следующего токена, что приводит к значительным временным затратам. В существующих исследованиях для ускорения авторегрессионной генерации применялся метод декодирования Якоби, итеративный параллельный алгоритм декодирования, который может быть выполнен без обучения. Однако декодирование Якоби опирается на детерминированный критерий для определения сходимости итераций. Поэтому он подходит для жадного декодирования, но несовместим с декодированием на основе выборки, что является важным для визуального качества и разнообразия в текущей авторегрессионной генерации текста в изображение. В данной статье мы предлагаем алгоритм параллельного декодирования без обучения, вероятностное спекулятивное декодирование Якоби (SJD), для ускорения авторегрессионной генерации текста в изображение. Внедряя вероятностный критерий сходимости, наше SJD ускоряет вывод авторегрессионной генерации текста в изображение, сохраняя при этом случайность при декодировании токенов на основе выборки и позволяя модели генерировать разнообразные изображения. Конкретно, SJD облегчает модели предсказывать несколько токенов на каждом шаге и принимать токены на основе вероятностного критерия, что позволяет модели генерировать изображения с меньшим количеством шагов, чем в традиционной парадигме предсказания следующего токена. Мы также исследуем стратегии инициализации токенов, использующие пространственную локальность визуальных данных, для дальнейшего улучшения коэффициента ускорения в определенных сценариях. Мы проводим эксперименты с нашим предложенным SJD на нескольких моделях авторегрессивной генерации текста в изображение, демонстрируя эффективность ускорения модели без ущерба для визуального качества.

Обзор архитектур Mamba для анализа медицинских изображений: классификация, сегментация, восстановление и далее
A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond

Oct 3

ByShubhi Bansal, Sreeharish A, Madhava Prasath J, Manikandan S, Sreekanth Madisetty, Mohammad Zia Ur Rehman, Chandravardhan Singh Raghaw, Gaurav Duggal, Nagendra Kumar

Мамба, особый случай модели пространства состояний, становится популярным в качестве альтернативы подходам глубокого обучения на основе шаблонов в медицинском анализе изображений. Хотя трансформеры являются мощными архитектурами, у них есть недостатки, включая квадратичную вычислительную сложность и неспособность эффективно учитывать дальние зависимости. Это ограничение влияет на анализ больших и сложных наборов данных в медицинской области изображений, где существует множество пространственных и временных отношений. В отличие от этого, Мамба предлагает преимущества, которые делают его подходящим для анализа медицинских изображений. У него линейная временная сложность, что является значительным улучшением по сравнению с трансформерами. Мамба обрабатывает более длинные последовательности без механизмов внимания, обеспечивая более быстрое вывод и требуя меньше памяти. Мамба также демонстрирует высокую производительность при объединении мультимодальных данных, улучшая точность диагностики и результаты для пациентов. Структура данной статьи позволяет читателям пошагово оценить возможности Мамбы в медицинской области изображений. Мы начинаем с определения основных концепций SSM и моделей, включая S4, S5 и S6, за которым следует изучение архитектур Мамбы, таких как чистая Мамба, варианты U-Net и гибридные модели с сверточными нейронными сетями, трансформерами и графовыми нейронными сетями. Мы также рассматриваем оптимизации, техники и адаптации Мамбы, сканирование, наборы данных, приложения, экспериментальные результаты, и заканчиваем с ее вызовами и будущими направлениями в медицинской области изображений. Этот обзор направлен на демонстрацию трансформационного потенциала Мамбы в преодолении существующих барьеров в медицинской области изображений, открывая путь для инновационных достижений в этой области. Полный список архитектур Мамбы, применяемых в медицинской области и рассмотренных в данной работе, доступен на Github.

RoCoTex: Надежный метод для последовательного синтеза текстур с моделями диффузии
RoCoTex: A Robust Method for Consistent Texture Synthesis with Diffusion Models

Sep 30

ByJangyeong Kim, Donggoo Kang, Junyoung Choi, Jeonga Wi, Junho Gwon, Jiun Bae, Dumim Yoon, Junghyun Han

Генерация текстуры по тексту недавно привлекла все больше внимания, однако существующие методы часто страдают от проблем несоответствия видов, видимых швов и неправильного выравнивания между текстурами и базовой сеткой. В данной статье мы предлагаем надежный метод генерации текстуры по тексту для создания последовательных и плавных текстур, которые хорошо соотносятся с сеткой. Наш метод использует передовые 2D модели диффузии, включая SDXL и несколько ControlNets, для захвата структурных особенностей и тонких деталей в созданных текстурах. Метод также применяет симметричную стратегию синтеза вида в сочетании с региональными подсказками для улучшения согласованности вида. Кроме того, он вводит новые техники смешивания текстур и мягкого заполнения, которые значительно уменьшают области швов. Обширные эксперименты показывают, что наш метод превосходит существующие передовые методы.

Удаление концептуальных знаний из языковых моделей
Erasing Conceptual Knowledge from Language Models

Oct 3

ByRohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau

Концепция стирания в языковых моделях традиционно страдала от отсутствия комплексной системы оценки, что приводило к неполным оценкам эффективности методов стирания. Мы предлагаем парадигму оценки, сосредоточенную на трех критических критериях: невиновность (полное удаление знаний), плавность (сохранение условно связанной генерации) и специфичность (сохранение производительности по независимым задачам). Наши метрики оценки естественным образом стимулируют развитие метода стирания языковой памяти (ELM), нового метода, разработанного для учета всех трех измерений. ELM использует целенаправленные обновления низкого ранга для изменения распределений вывода для стертых концепций, сохраняя при этом общие возможности модели, включая плавность при запросе стертого концепта. Мы демонстрируем эффективность ELM на задачах стирания в областях биобезопасности, кибербезопасности и литературы. Сравнительный анализ показывает, что ELM достигает превосходной производительности по нашим предложенным метрикам, включая близкие к случайным оценкам по стертым темам, плавность генерации, сохраненную точность на независимых бенчмарках и устойчивость к атакам злоумышленников. Наш код, данные и обученные модели доступны по адресу https://elm.baulab.info

КАНВА: Навигационная система с общими знаниями для интуитивного взаимодействия человека и робота
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

Oct 2

BySuhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu

Навигация роботов в реальной жизни включает в себя не только достижение пункта назначения; это требует оптимизации движений при учете конкретных сценариев. Интуитивным способом для людей выражать эти цели является использование абстрактных подсказок, таких как устные команды или грубые эскизы. Такое человеческое руководство может быть недостаточно подробным или шумным. Тем не менее, мы ожидаем, что роботы будут навигировать в соответствии с заданными целями. Для того чтобы роботы могли интерпретировать и выполнять эти абстрактные инструкции в соответствии с ожиданиями человека, им необходимо разделять общее понимание основных концепций навигации с людьми. В этой связи мы представляем CANVAS, новую концепцию, которая объединяет визуальные и языковые инструкции для навигации с общим пониманием. Его успех обусловлен обучением по имитации, позволяющим роботу учиться на основе поведения человека в навигации. Мы представляем COMMAND, обширный набор данных с результатами навигации, аннотированными людьми, охватывающий более 48 часов и 219 км, разработанный для обучения систем навигации с общим пониманием в симулированных средах. Наши эксперименты показывают, что CANVAS превосходит мощную систему на основе правил ROS NavStack во всех средах, демонстрируя превосходную производительность при шумных инструкциях. Заметно, что в среде сада, где ROS NavStack имеет общий успех в 0%, CANVAS достигает общего успеха в 67%. CANVAS также тесно соответствует демонстрациям человека и общим ограничениям, даже в невидимых средах. Более того, реальное применение CANVAS демонстрирует впечатляющий перенос из симулированных сред в реальные с общим успехом в 69%, подчеркивая потенциал обучения на примерах человека в симулированных средах для реальных приложений.

CodeMMLU: Многофункциональный бенчмарк для оценки способностей понимания кода моделями языковых моделей кода.
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs

Oct 2

ByDung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui

Недавние достижения в области крупных языковых моделей для кода (CodeLLMs) в основном сосредоточены на задачах генерации кода без ограничений, часто упуская критически важный аспект понимания и осмысления кода. Для заполнения этого разрыва мы представляем CodeMMLU, комплексный бенчмарк вопросов-ответов с выбором ответа, разработанный для оценки глубины понимания программного обеспечения и кода в LLMs. CodeMMLU включает более 10 000 вопросов из различных областей, охватывая задачи, такие как анализ кода, обнаружение дефектов и принципы инженерии программного обеспечения на различных языках программирования. В отличие от традиционных бенчмарков, CodeMMLU оценивает способность моделей рассуждать о коде, а не просто генерировать его, предоставляя более глубокие понимание их владения сложными концепциями программного обеспечения и системами. Наше обширное исследование показывает, что даже передовые модели сталкиваются с серьезными проблемами с CodeMMLU, выявляя недостатки в понимании за пределами генерации кода. Подчеркивая важное взаимосвязь между пониманием кода и эффективной генерацией, CodeMMLU служит важным ресурсом для продвижения разработки программного обеспечения с помощью искусственного интеллекта, в конечном итоге нацеливаясь на создание более надежных и способных помощников по кодированию.

Прогнозирование горизонта предсказания: развитие возможностей заполнения пропусков для генерации кода с планированием предпросмотра.
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

Oct 4

ByYifeng Ding, Hantian Ding, Shiqi Wang, Qing Sun, Varun Kumar, Zijian Wang

Заполнение-середина (Fill-in-the-Middle, FIM) стало неотъемлемой частью языковых моделей кода, позволяя генерировать отсутствующий код на основе контекста слева и справа. Однако текущая парадигма обучения FIM, которая переупорядочивает исходные обучающие последовательности и затем выполняет обычное предсказание следующего токена (Next-Token Prediction, NTP), часто приводит к тому, что модели испытывают затруднения при генерации контента, который гармонично сочетается с окружающим контекстом. Критически важно отметить, что существующие работы полагаются на правила основанного на правилах постобработки для обхода этого недостатка, однако такие методы не могут быть практически использованы в задачах открытой области завершения кода, поскольку они зависят от ограничительных, специфичных для набора данных предположений (например, генерация того же количества строк, что и в истине). Более того, производительность модели на задачах FIM значительно ухудшается без этих нереалистичных предположений. Мы предполагаем, что NTP в одиночку недостаточен для того, чтобы модели могли эффективно учиться планированию, зависящему от дальнего правого контекста, что является критическим фактором для успешного заполнения кода. Для преодоления этого мы предлагаем Предсказание Длины Горизонта (Horizon-Length Prediction, HLP), новую цель обучения, которая учит модели предсказывать количество оставшихся средних токенов (т.е. длину горизонта) на каждом шаге. HLP продвигает FIM с планированием просмотра вперед, позволяя моделям внутренне учиться границам заполнения для произвольных левых и правых контекстов без использования специфичной для набора данных постобработки. Наша оценка на различных моделях и размерах показывает, что HLP значительно улучшает производительность FIM на до 24% относительно на различных бенчмарках, на уровне файлов и репозиториев, и без прибегания к нереалистичным методам постобработки. Более того, улучшенная способность планирования, полученная благодаря HLP, повышает производительность модели в рассуждениях о коде. Важно отметить, что HLP обладает незначительными накладными расходами на обучение и не приводит к дополнительным затратам на вывод, обеспечивая его практичность для реальных сценариев.

MIGA: Смесь экспертов с групповой агрегацией для прогнозирования фондового рынка
MIGA: Mixture-of-Experts with Group Aggregation for Stock Market Prediction

Oct 3

ByZhaojian Yu, Yinghao Wu, Genesis Wang, Heming Weng

Прогнозирование фондового рынка остается чрезвычайно сложной проблемой на протяжении многих десятилетий из-за его высокой волатильности и низкого отношения информативности к шуму. Существующие решения, основанные на машинном обучении или глубоком обучении, демонстрируют превосходные результаты, используя одну модель, обученную на всем наборе данных по акциям, для генерации прогнозов по всем типам акций. Однако из-за значительных различий в стилях акций и тенденциях рынка одна единая модель сталкивается с трудностями в полном улавливании различий в этих стилизованных признаках акций, что приводит к относительно неточным прогнозам для всех типов акций. В данной статье мы представляем MIGA, новую архитектуру Смеси Экспертов с Групповой Агрегацией, разработанную для генерации специализированных прогнозов для акций с различными стилями путем динамического переключения между различными стилистическими экспертами. Для поощрения сотрудничества между различными экспертами в MIGA мы предлагаем новую архитектуру внутреннего группового внимания, позволяющую экспертам в одной группе обмениваться информацией и тем самым повышать общую производительность всех экспертов. В результате MIGA значительно превосходит другие единые модели на трех китайских бенчмарках по акциям, включая CSI300, CSI500 и CSI1000. Особенно MIGA-Conv достигает избыточной годовой доходности на бенчмарке CSI300 в размере 24%, превосходя предыдущую передовую модель на 8% абсолютно. Кроме того, мы проводим всесторонний анализ смеси экспертов для прогнозирования фондового рынка, предоставляя ценные исследовательские выводы для будущих исследований.

NRGBoost: Энергетические генеративные усиленные деревья
NRGBoost: Energy-Based Generative Boosted Trees

Oct 4

ByJoão Bravo

Несмотря на доминирование глубокого обучения в областях неструктурированных данных, методы на основе деревьев, такие как Случайный Лес (Random Forests, RF) и Градиентный Бустинг Деревьев Решений (Gradient Boosted Decision Trees, GBDT), по-прежнему являются основными инструментами для решения дискриминационных задач на табличных данных. Мы исследуем генеративные расширения этих популярных алгоритмов с акцентом на явное моделирование плотности данных (до нормализационной константы), что позволяет использовать их в других приложениях помимо сэмплирования. В качестве нашего основного вклада мы предлагаем алгоритм генеративного бустинга на основе энергии, аналогичный бустингу второго порядка, реализованному в популярных пакетах, таких как XGBoost. Мы показываем, что, несмотря на создание генеративной модели, способной обрабатывать задачи вывода по любой входной переменной, наш предложенный алгоритм может достичь сходной дискриминационной производительности с GBDT на ряде реальных табличных наборов данных, превосходя альтернативные генеративные подходы. В то же время мы показываем, что он также конкурентоспособен с моделями на основе нейронных сетей для сэмплирования.

AuroraCap: Эффективная, производительная детализированная подпись видео и новый бенчмарк
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

Oct 4

ByWenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning

Детальная подпись видео - ключевая задача, которая направлена на создание исчерпывающих и последовательных текстовых описаний видеоконтента, способствуя как пониманию, так и генерации видео. В данной статье мы предлагаем AuroraCap - видеоописатель на основе крупной мультимодальной модели. Мы придерживаемся простейшего дизайна архитектуры без дополнительных параметров для временного моделирования. Для решения накладных расходов, вызванных длинными видеопоследовательностями, мы реализуем стратегию объединения токенов, уменьшая количество входных визуальных токенов. Удивительно, что мы обнаружили, что эта стратегия приводит к незначительной потере производительности. AuroraCap показывает превосходные результаты на различных бенчмарках по описанию видео и изображений, например, достигая CIDEr 88.9 на Flickr30k, превосходя GPT-4V (55.3) и Gemini-1.5 Pro (82.2). Однако существующие бенчмарки по описанию видео включают только простые описания, состоящие из нескольких десятков слов, что ограничивает исследования в этой области. Поэтому мы разрабатываем VDC - бенчмарк для детального описания видео с более чем тысячей тщательно аннотированных структурированных подписей. Кроме того, мы предлагаем новую метрику VDCscore, основанную на LLM, для улучшения оценки, которая применяет стратегию "разделяй и властвуй" для преобразования оценки длинного описания в несколько коротких вопросов-ответов. С помощью рейтинга Эло людей наши эксперименты показывают, что этот бенчмарк лучше коррелирует с человеческими суждениями о качестве детального описания видео.

GenSim2: Масштабирование генерации данных роботов с мультимодальным и рассуждениями LLMs.
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

Oct 4

ByPu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang

Сегодня создание роботизированных симуляций остается сложной задачей для масштабирования из-за необходимости человеческих усилий для создания разнообразных симуляционных задач и сцен. Политики, обученные на симуляциях, также сталкиваются с проблемами масштабируемости, поскольку многие методы симуляции к реальности сосредотачиваются на одной задаче. Для решения этих проблем данная работа предлагает GenSim2, масштабируемую платформу, которая использует кодирование LLMs с мультимодальными и рассуждающими способностями для создания сложных и реалистичных симуляционных задач, включая задачи с длинным горизонтом и артикулированными объектами. Для автоматического создания демонстрационных данных для этих задач в масштабе мы предлагаем планирование и RL-решатели, которые обобщаются внутри категорий объектов. Пайплайн может генерировать данные для до 100 артикулированных задач с 200 объектами и сокращает необходимые человеческие усилия. Для использования таких данных мы предлагаем эффективную многозадачную архитектуру политики, названную проприоцептивным облаком точек трансформера (PPT), которая учится на созданных демонстрациях и демонстрирует сильную передачу из симуляции в реальность без обучения. Комбинируя предложенный пайплайн и архитектуру политики, мы демонстрируем многообещающее использование GenSim2, где созданные данные могут быть использованы для передачи без обучения или совместного обучения с данными, собранными в реальном мире, что улучшает производительность политики на 20% по сравнению с обучением исключительно на ограниченных реальных данных.

Прогнозирование горизонта предсказания: развитие возможностей заполнения пропусков для генерации кода с планированием предпросмотра.
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

Oct 4

ByYifeng Ding, Hantian Ding, Shiqi Wang, Qing Sun, Varun Kumar, Zijian Wang