Ежедневно отобранные исследовательские статьи по ИИ с переводами
Высококачественные данные по инструкциям критически важны для согласования больших языковых моделей (ЯМ). Хотя некоторые модели, такие как Llama-3-Instruct, имеют открытые веса, их данные по согласованию остаются конфиденциальными, что затрудняет демократизацию искусственного интеллекта. Высокие трудозатраты человека и ограниченный, заранее определенный объем подсказок мешают существующим методам создания открытых данных масштабироваться эффективно, что потенциально снижает разнообразие и качество общедоступных наборов данных по согласованию. Возможно ли синтезировать высококачественные данные по инструкциям в масштабе, извлекая их непосредственно из согласованной ЯМ? Мы представляем метод самосинтеза для создания данных по согласованию в масштабе, названный Magpie. Нашим ключевым наблюдением является то, что согласованные ЯМ, такие как Llama-3-Instruct, могут генерировать запрос пользователя, когда мы вводим только левосторонние шаблоны до позиции, зарезервированной для сообщений пользователя, благодаря их авторегрессивной природе. Мы используем этот метод для подсказки Llama-3-Instruct и генерируем 4 миллиона инструкций вместе с соответствующими ответами. Мы проводим всесторонний анализ извлеченных данных и выбираем 300 тыс. высококачественных экземпляров. Для сравнения данных Magpie с другими общедоступными наборами данных по инструкциям мы донастраиваем Llama-3-8B-Base с каждым набором данных и оцениваем производительность донастроенных моделей. Наши результаты показывают, что в некоторых задачах модели, донастроенные с помощью Magpie, проявляют производительность, сравнимую с официальным Llama-3-8B-Instruct, несмотря на то, что последний улучшен 10 миллионами точек данных через надзорное донастройка (SFT) и последующее обучение с обратной связью. Мы также показываем, что использование Magpie исключительно для SFT может превзойти производительность предыдущих общедоступных наборов данных, используемых как для SFT, так и для оптимизации предпочтений, таких как прямая оптимизация предпочтений с UltraFeedback. Это преимущество очевидно на бенчмарках по согласованию, таких как AlpacaEval, ArenaHard и WildBench.
Мы предлагаем фреймворк видеоредактирования NaRCan, который интегрирует гибридное поле деформации и диффузионный приор для генерации высококачественных естественных канонических изображений для представления входного видео. Наш подход использует гомографию для моделирования глобального движения и применяет многослойные перцептроны (MLP) для захвата локальных остаточных деформаций, улучшая способность модели обрабатывать сложную динамику видео. Внедрение диффузионного приора с начальных этапов обучения в нашу модель обеспечивает сохранение высококачественного естественного вида сгенерированных изображений, что делает произведенные канонические изображения подходящими для различных последующих задач видеоредактирования, что не достигается текущими методами на основе канонических изображений. Кроме того, мы внедряем тонкую настройку низкоранговой адаптации (LoRA) и представляем метод планирования обновления шума и диффузионного приора, который ускоряет процесс обучения в 14 раз. Обширные экспериментальные результаты показывают, что наш метод превосходит существующие подходы в различных задачах видеоредактирования и производит последовательные и высококачественные отредактированные видеопоследовательности. См. нашу страницу проекта для видеорезультатов по ссылке https://koi953215.github.io/NaRCan_page/.
Пары изображений и текста, полученные веб-сканированием, по своей природе содержат шум. Предыдущие исследования показывают, что семантическое выравнивание и обогащение текстовых описаний этих пар могут значительно улучшить обучение моделей в различных задачах видео-языкового восприятия, особенно в генерации текста по изображению. Однако крупномасштабные исследования в этой области по-прежнему в основном закрыты для общественности. Наша статья нацелена на объединение усилий сообщества, используя мощную и открытую LLaMA-3, модель на уровне GPT-4. Наша конвейерная система перекапшионинга проста: сначала мы донастраиваем LLaVA-1.5 на основе LLaMA-3-8B, а затем используем его для перекапшионирования 1,3 миллиарда изображений из набора данных DataComp-1B. Наши эмпирические результаты подтверждают, что этот улучшенный набор данных, Recap-DataComp-1B, предлагает существенные преимущества при обучении передовых моделей видео-языкового восприятия. Для дискриминативных моделей, таких как CLIP, мы наблюдаем улучшенную производительность в задачах кросс-модального поиска без обучения. Для генеративных моделей, таких как Диффузионные трансформеры текста-изображения, сгенерированные изображения показывают значительное улучшение в соответствии с текстовыми инструкциями пользователей, особенно при выполнении сложных запросов. Наша страница проекта: https://www.haqtu.me/Recap-Datacomp-1B/
Генерация видео по тексту, управляемая на основе движения, включает использование движений для управления генерацией видео. Предыдущие методы обычно требуют обучения моделей для кодирования признаков движения или тонкой настройки моделей диффузии видео. Однако эти подходы часто приводят к недостаточной генерации движения при применении за пределами обученной области. В данной работе мы предлагаем MotionClone - фреймворк без обучения, который позволяет клонировать движение из видео-ссылки для управления генерацией видео по тексту. Мы используем временное внимание в инверсии видео для представления движений в видео-ссылке и вводим первичное временное внимание для смягчения влияния шумных или очень тонких движений весов внимания. Кроме того, чтобы помочь модели генерации в синтезе разумных пространственных отношений и улучшить ее способность следовать за событиями, мы предлагаем механизм семантического направления с учетом местоположения, который использует грубое местоположение переднего плана из видео-ссылки и оригинальные признаки направления без классификатора для управления генерацией видео. Обширные эксперименты показывают, что MotionClone проявляет мастерство как в глобальном камерном движении, так и в локальном движении объектов, с заметным превосходством в плане достоверности движения, выравнивания текста и временной последовательности.
В последние годы произошло быстрое развитие моделей генерации 3D, открывающее новые возможности для приложений, таких как моделирование динамических движений 3D объектов и настройка их поведения. Однако текущие 3D генеративные модели обычно сосредотачиваются только на поверхностных особенностях, таких как цвет и форма, игнорируя врожденные физические свойства, определяющие поведение объектов в реальном мире. Для точного моделирования динамики, соответствующей физике, необходимо предсказывать физические свойства материалов и включать их в процесс прогнозирования поведения. Тем не менее предсказание разнообразных материалов объектов реального мира по-прежнему вызывает трудности из-за сложной природы их физических характеристик. В данной статье мы предлагаем Physics3D, новый метод для изучения различных физических свойств 3D объектов с помощью модели видео-диффузии. Наш подход включает разработку высокообобщаемой системы физического моделирования на основе модели вязкоупругого материала, что позволяет нам моделировать широкий спектр материалов с высокой степенью достоверности. Более того, мы извлекаем физические априорные знания из модели видео-диффузии, содержащей более глубокое понимание реалистичных материалов объектов. Обширные эксперименты демонстрируют эффективность нашего метода как с упругими, так и с пластичными материалами. Physics3D показывает большой потенциал для сокращения разрыва между физическим миром и виртуальным пространством нейронов, обеспечивая лучшую интеграцию и применение реалистичных физических принципов в виртуальных средах. Страница проекта: https://liuff19.github.io/Physics3D.
Данный документ представляет PowerInfer-2, фреймворк, разработанный для высокоскоростного вывода больших языковых моделей (LLM) на смартфонах, особенно эффективный для моделей, размер которых превышает объем памяти устройства. Основная идея PowerInfer-2 заключается в использовании гетерогенных вычислительных, памятных и ввод-выводных ресурсов в смартфонах путем декомпозиции традиционных матричных вычислений на мелкозернистые вычисления кластеров нейронов. В частности, PowerInfer-2 предлагает полиморфный нейронный движок, который адаптирует вычислительные стратегии для различных этапов вывода LLM. Кроме того, он вводит сегментированный кэш нейронов и мелкозернистое кластерное конвейерное выполнение нейронов, что эффективно минимизирует и скрывает накладные расходы, вызванные операциями ввода-вывода. Реализация и оценка PowerInfer-2 демонстрируют его способность поддерживать широкий спектр моделей LLM на двух смартфонах, достигая увеличения скорости до 29,2 раза по сравнению с современными фреймворками. Следует отметить, что PowerInfer-2 является первой системой, обслуживающей модель TurboSparse-Mixtral-47B с частотой генерации 11,68 токенов в секунду на смартфоне. Для моделей, которые полностью помещаются в память, PowerInfer-2 может достичь примерно 40% снижения использования памяти, сохраняя скорость вывода, сравнимую с llama.cpp и MLC-LLM. Для получения дополнительной информации, включая демонстрационное видео, посетите сайт проекта по адресу www.powerinfer.ai/v2.
Возможно, нет. Мы выявляем и анализируем ошибки в популярном бенчмарке Massive Multitask Language Understanding (MMLU). Несмотря на широкое принятие MMLU, наш анализ показывает многочисленные ошибки в исходных данных, которые затрудняют реальные возможности LLMs. Например, мы обнаружили, что 57% проанализированных вопросов в подмножестве Вирусологии содержат ошибки. Для решения этой проблемы мы представляем комплексную систему идентификации ошибок в наборе данных с использованием новой таксономии ошибок. Затем мы создаем MMLU-Redux, который представляет собой подмножество из 3 000 вопросов, переаннотированных вручную по 30 предметам MMLU. Используя MMLU-Redux, мы демонстрируем значительные расхождения с метриками производительности модели, которые изначально были сообщены. Наши результаты настоятельно рекомендуют пересмотреть вопросы MMLU с ошибками для улучшения его будущей полезности и надежности в качестве бенчмарка. Поэтому мы открываем доступ к MMLU-Redux для дополнительной аннотации по ссылке https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
В данной статье мы представляем VideoLLaMA 2, набор Video Large Language Models (Video-LLM), разработанных для улучшения пространственно-временного моделирования и понимания звука в видео- и аудио-ориентированных задачах. На основе своего предшественника VideoLLaMA 2 включает в себя специально разработанный пространственно-временной сверточный (STC) коннектор, который эффективно улавливает сложную пространственную и временную динамику видеоданных. Кроме того, мы интегрируем в модель аудио-ветвь через совместное обучение, тем самым обогащая мультимодальные возможности понимания модели путем бесшовного включения аудио-подсказок. Комплексные оценки на задачах многовариантного видео-вопросно-ответного тестирования (MC-VQA), открытого видео-вопросно-ответного тестирования (OE-VQA) и описания видео (VC) демонстрируют, что VideoLLaMA 2 последовательно достигает конкурентоспособных результатов среди моделей с открытым исходным кодом и даже приближается к некоторым закрытым моделям на нескольких показателях. Более того, VideoLLaMA 2 показывает разумные улучшения в задачах только аудио и аудио-видео вопросно-ответного тестирования (AQA и OE-AVQA) по сравнению с существующими моделями. Эти достижения подчеркивают превосходное исполнение VideoLLaMA 2 в мультимодальном понимании, устанавливая новый стандарт для интеллектуальных систем анализа видео. Все модели являются общедоступными для облегчения дальнейших исследований.
Интеграция языка и трехмерного восприятия является ключевой для развития инкорпорированных агентов и роботов, которые понимают и взаимодействуют с физическим миром. В то время как большие языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации языка, их адаптация к трехмерным окружениям (3D-LLM) находится на начальной стадии. Одним из основных вызовов является отсутствие крупномасштабных наборов данных, обеспечивающих плотное соответствие между языком и трехмерными сценами. В данной статье мы представляем 3D-GRAND, первоначальный крупномасштабный набор данных, включающий 40 087 домашних сцен, сопоставленных с 6,2 миллионами плотно соотнесенных инструкций сцена-язык. Наши результаты показывают, что настройка инструкций с использованием 3D-GRAND значительно улучшает способности соотнесения и снижает галлюцинации в 3D-LLM. В рамках наших вкладов мы предлагаем комплексный бенчмарк 3D-POPE для систематической оценки галлюцинаций в 3D-LLM, обеспечивая честные сравнения среди будущих моделей. Наши эксперименты подчеркивают эффект масштабирования между размером набора данных и производительностью 3D-LLM, подчеркивая критическую роль крупномасштабных трехмерных текстовых наборов данных в продвижении исследований в области инкорпорированного искусственного интеллекта. Значительно, наши результаты демонстрируют ранние сигналы эффективного переноса из симуляции в реальность, указывая на то, что модели, обученные на крупных синтетических данных, могут успешно работать на реальных трехмерных сканах. Через 3D-GRAND и 3D-POPE мы стремимся обеспечить сообщество инкорпорированного искусственного интеллекта необходимыми ресурсами и идеями, подготавливая почву для более надежных и тщательно обоснованных 3D-LLM. Веб-сайт проекта: https://3d-grand.github.io
Многомодальные языковые модели (MLLM) демонстрируют развивающиеся способности "мировых моделей" - интерпретации и рассуждения о сложной динамике реального мира. Для оценки этих способностей мы предполагаем, что видео являются идеальным средством, поскольку они содержат богатые представления о динамике и причинно-следственных связях реального мира. В этом контексте мы представляем MMWorld, новый бенчмарк для мультидисциплинарного, многофасетного понимания многомодальных видео. MMWorld отличается от предыдущих бенчмарков по пониманию видео двумя уникальными преимуществами: (1) мультидисциплинарностью, охватывающей различные области, часто требующие экспертизы в области для полного понимания; (2) многофасетным рассуждением, включая объяснение, контрфактическое мышление, предсказание будущего и т. д. MMWorld состоит из человеком аннотированного набора данных для оценки MLLM с вопросами о целых видео и синтетического набора данных для анализа MLLM в пределах одной модальности восприятия. Вместе MMWorld охватывает 1 910 видео по семи широким дисциплинам и 69 поддисциплинам, включая 6 627 пар вопрос-ответ и соответствующие подписи. Оценка включает 2 собственные и 10 открытых MLLM, которые испытывают трудности на MMWorld (например, GPT-4V показывает лучший результат только с точностью 52,3%), что показывает большой потенциал для улучшения. Дополнительные исследования абляции раскрывают другие интересные результаты, такие как различные навыки моделей по сравнению с людьми. Мы надеемся, что MMWorld может служить важным шагом к оценке мировых моделей в видео.
Использование разреженности активации является многообещающим подходом для значительного ускорения процесса вывода больших языковых моделей (LLM) без ущерба для производительности. Однако разреженность активации определяется функциями активации, и широко используемые, такие как SwiGLU и GeGLU, проявляют ограниченную разреженность. Простая замена этих функций на ReLU не приводит к достижению достаточной разреженности. Более того, недостаточное обучающее множество данных может дополнительно увеличить риск снижения производительности. Для решения этих проблем мы предлагаем новую функцию dReLU, которая разработана для улучшения разреженности активации LLM, вместе с высококачественным соотношением смеси обучающих данных для облегчения эффективной разреженности. Кроме того, мы используем разреженные шаблоны активации в экспертах сети прямого распространения (FFN) моделей Mixture-of-Experts (MoE) для дальнейшего повышения эффективности. Применяя наш метод разрежения нейронов к моделям Mistral и Mixtral, активируется всего 2,5 миллиарда и 4,3 миллиарда параметров на итерацию вывода соответственно, при этом достигается еще более мощная производительность модели. Результаты оценки показывают, что эта разреженность обеспечивает ускорение декодирования в 2-5 раз. Замечательно, на мобильных телефонах наш TurboSparse-Mixtral-47B достигает скорости вывода 11 токенов в секунду. Наши модели доступны по адресу https://huggingface.co/PowerInfer
В последнее время применение современных моделей генерации изображений из текста на основе диффузии для создания художественных шрифтов, традиционно принадлежащих профессиональным дизайнерам, вызвало значительный интерес. Отличаясь от большинства существующих исследований, сосредотачивающихся на создании художественной типографики, наше исследование нацелено на решение новой и более сложной задачи: генерацию текстовых эффектов для многоязычных шрифтов. Эта задача в основном требует создания последовательного и согласованного визуального контента в рамках формы шрифта, в отличие от традиционного прямоугольного холста. Для решения этой задачи мы представляем новую модель диффузии, способную адаптироваться к форме и стратегически планировать распределение пикселей в нерегулярном холсте. Для этого мы создаем высококачественный набор данных изображений и текста, адаптированный к форме, и включаем маску сегментации в качестве визуального условия для управления процессом генерации изображения в нерегулярном холсте. Этот подход позволяет традиционной модели диффузии на основе прямоугольного холста создавать желаемые концепции в соответствии с предоставленными геометрическими формами. Кроме того, чтобы сохранить согласованность между несколькими буквами, мы также представляем метод передачи эффекта, адаптированный к форме и не требующий обучения, для передачи текстур из сгенерированной опорной буквы другим. Ключевые идеи заключаются в создании шумового приора эффекта шрифта и распространении информации об эффекте шрифта в конкатенированном латентном пространстве. Эффективность нашей системы FontStudio подтверждается исследованиями пользовательских предпочтений, которые показывают явное предпочтение (78% побед в эстетике) нашей системе даже по сравнению с последним непревзойденным коммерческим продуктом, Adobe Firefly.
Недавние Диффузные Трансформеры (DiTs) продемонстрировали впечатляющие возможности в создании высококачественного контента одной модальности, включая изображения, видео и звук. Однако до сих пор недостаточно исследовано, насколько трансформаторный диффузор может эффективно устранять гауссовские шумы для создания превосходного мультимодального контента. Для заполнения этого пробела мы представляем AV-DiT, новый и эффективный аудио-визуальный диффузионный трансформер, разработанный для создания высококачественных, реалистичных видео с визуальными и аудио дорожками. Для минимизации сложности модели и вычислительных затрат AV-DiT использует общий корпус DiT, предварительно обученный только на данных только изображений, с возможностью обучения только легких, вновь вставленных адаптеров. Этот общий корпус облегчает как генерацию аудио, так и видео. В частности, ветвь видео включает обучаемый слой временного внимания в замороженный предварительно обученный блок DiT для обеспечения временной согласованности. Кроме того, небольшое количество обучаемых параметров адаптируют блок DiT на основе изображений для генерации аудио. Дополнительный общий блок DiT, оборудованный легкими параметрами, обеспечивает взаимодействие признаков между аудио и визуальными модальностями, обеспечивая их согласованность. Обширные эксперименты на наборах данных AIST++ и Landscape показывают, что AV-DiT достигает передового качества в совместной генерации аудио и видео с значительно меньшим количеством настраиваемых параметров. Кроме того, наши результаты подчеркивают, что один общий генеративный корпус изображений с модальностями-специфическими адаптациями достаточен для построения совместного аудио-видео генератора. Наш исходный код и предварительно обученные модели будут выпущены.
Оптимизация предпочтений в офлайн-режиме является ключевым методом для улучшения и контроля качества выводов больших языковых моделей (LLM). Обычно оптимизация предпочтений рассматривается как задача обучения с учителем в офлайн-режиме с использованием вручную созданных выпуклых функций потерь. Хотя эти методы основаны на теоретических идеях, они ограничены человеческим творчеством, поэтому большое пространство возможных функций потерь остается недостаточно изученным. Мы решаем эту проблему, выполняя обнаружение целей, основанное на LLM, для автоматического обнаружения новейших алгоритмов оптимизации предпочтений без (экспертного) вмешательства человека. Конкретно, мы итеративно предлагаем LLM предлагать и реализовывать новые функции потерь для оптимизации предпочтений на основе ранее оцененных метрик производительности. Этот процесс приводит к обнаружению ранее неизвестных и производительных алгоритмов оптимизации предпочтений. Лучший из них мы называем Обнаруженной Оптимизацией Предпочтений (DiscoPOP), новым алгоритмом, который адаптивно сочетает логистические и экспоненциальные потери. Эксперименты демонстрируют новейшую производительность DiscoPOP и его успешную передачу на удерживаемые задачи.
Модели диффузии продемонстрировали выдающуюся производительность в синтезе изображений и видео. Однако масштабирование их до изображений высокого разрешения представляет собой сложную задачу, требующую перестройки конвейера диффузии на несколько независимых компонентов, что ограничивает масштабируемость и усложняет последующие приложения. Это делает их очень эффективными во время обучения и открывает возможность для оптимизации на видео высокого разрешения. Мы улучшаем модели диффузии путем двух принципиальных подходов. Во-первых, для обеспечения согласованности между патчами мы разрабатываем глубокое контекстное слияние - архитектурный метод, который передает информацию о контексте от патчей низкого разрешения к патчам высокого разрешения иерархическим образом. Во-вторых, для ускорения обучения и вывода мы предлагаем адаптивные вычисления, которые выделяют больше сетевых ресурсов и вычислений для грубых деталей изображения. Полученная модель устанавливает новый рекорд по FVD - 66.32 и Inception Score - 87.68 в генерации видео с условиями классов на UCF-101 256^2, превосходя недавние методы более чем на 100%. Затем мы показываем, что ее можно быстро донастроить от базового генератора низкого разрешения 36 на 64 для синтеза видео из текста высокого разрешения 64 на 288 на 512. На наш взгляд, наша модель является первой архитектурой на основе диффузии, которая обучается на таких высоких разрешениях полностью end-to-end. Веб-страница проекта: https://snap-research.github.io/hpdm.
Четкое видение с высоким разрешением является основой для больших мультимодальных моделей (LMM), что доказано важным для визуального восприятия и рассуждений. Существующие работы обычно используют прямой метод увеличения разрешения, где изображение состоит из глобальных и локальных ветвей, последние представляют собой нарезанные патчи изображения, но измененные до того же разрешения, что и первые. Это означает, что более высокое разрешение требует большего количества локальных патчей, что приводит к чрезмерным вычислительным затратам, и в то же время доминирование локальных токенов изображения может уменьшить глобальный контекст. В данной статье мы рассматриваем проблемы и предлагаем новую концепцию, а также тщательную стратегию оптимизации. Конкретно, мы извлекаем контекстную информацию из глобального вида с помощью смеси адаптеров, основываясь на наблюдении, что различные адаптеры превосходят в различных задачах. Что касается локальных патчей, вводятся обучаемые встраивания запросов для уменьшения токенов изображения, наиболее важные токены, соответствующие вопросу пользователя, будут дополнительно выбраны с помощью селектора на основе сходства. Наши эмпирические результаты демонстрируют паттерн "меньше - значит больше", где использование меньшего, но более информативного количества локальных токенов изображения приводит к улучшению производительности. Кроме того, значительная сложность заключается в стратегии обучения, поскольку одновременное обучение конечных блоков глобального майнинга и локального сжатия не приводит к оптимальным результатам. Мы поэтому выступаем за чередующийся способ обучения, обеспечивая сбалансированное обучение между глобальными и локальными аспектами. Наконец, мы также представляем сложный набор данных с высокими требованиями к деталям изображения, улучшая обучение локального слоя сжатия. Предложенный метод, названный LMM с Сложными Задачами, Локальным сжатием изображения и Смесью глобальных Экспертов (SliME), достигает ведущей производительности на различных бенчмарках с всего 2 миллионами обучающих данных.
Мы представляем новую задачу в области видео-языкового моделирования - Визуальное Восстановление Подписей (VCR), которая ставит перед моделями задачу точного восстановления частично скрытых текстов с использованием подсказок на уровне пикселей в изображениях. Эта задача возникает из наблюдения, что текст, встроенный в изображения, фундаментально отличается от обычных визуальных элементов и естественного языка из-за необходимости выравнивания модальностей видения, текста и текста, встроенного в изображения. В то время как множество работ интегрировали текст, встроенный в изображения, в задачи визуального вопросно-ответного моделирования, подходы к этим задачам обычно опираются на оптическое распознавание символов или маскированное языковое моделирование, что сводит задачу в основном к обработке на основе текста. Однако обработка на основе текста становится неэффективной в VCR, так как точное восстановление текста зависит от комбинированной информации из предоставленных изображений, контекста и тонких подсказок из маленьких обнаженных областей замаскированных текстов. Мы разработали конвейер для создания синтетических изображений для задачи VCR с использованием пар изображение-подпись, с возможностью регулирования видимости подписи для управления сложностью задачи. С помощью этого конвейера мы создали набор данных для VCR под названием VCR-Wiki, используя изображения с подписями из Википедии, включающий 2,11 млн английских и 346 тыс. китайских сущностей в вариантах легкой и сложной разбивки. Наши результаты показывают, что текущие модели видео-языкового моделирования значительно отстают от человеческой производительности в задаче VCR, и простое донастройка моделей на нашем наборе данных не приводит к значительным улучшениям. Мы публикуем VCR-Wiki и код для создания данных для облегчения будущих исследований.
Моделирование многомерных временных рядов является хорошо изученной проблемой с широким спектром применений от здравоохранения до финансовых рынков. Традиционные модели пространства состояний (State Space Models, SSM) являются классическими подходами для моделирования одномерных временных рядов благодаря своей простоте и выразительной силе для представления линейных зависимостей. Однако у них фундаментально ограниченная выразительная сила для захвата нелинейных зависимостей, они медленны на практике и не учитывают поток между переменными. Несмотря на недавние попытки улучшить выразительную силу SSM с помощью глубоких структурированных SSM, существующие методы либо ограничены одномерными временными рядами, не могут моделировать сложные паттерны (например, сезонные паттерны), не могут динамически моделировать зависимости между переменными и временными измерениями, и/или не зависят от входных данных. Мы представляем Chimera, который использует две зависимые от входных данных 2D головы SSM с различными процессами дискретизации для изучения долгосрочного прогресса и сезонных паттернов. Для улучшения эффективности сложного 2D повторения мы предлагаем быстрое обучение с использованием нового двумерного параллельного селективного сканирования. Мы также представляем и обсуждаем 2D Mamba и Mamba-2 как пространственные случаи нашего 2D SSM. Наш экспериментальный анализ показывает превосходное качество работы Chimera на обширных и разнообразных бенчмарках, включая классификацию временных рядов ЭКГ и речи, прогнозирование долгосрочных и краткосрочных временных рядов, а также обнаружение аномалий во временных рядах.
Большие языковые модели (LLM) продвинулись в охвате обширных знаний в различных областях. Однако контроль над тем, что большая языковая модель не должна знать, важен для обеспечения соответствия и, следовательно, безопасного использования. Тем не менее, точное и эффективное забывание знаний из LLM остается сложной задачей из-за потенциального коллатерального ущерба, вызванного размытой границей между сохранением и забыванием, а также большими вычислительными требованиями для оптимизации современных моделей с сотнями миллиардов параметров. В данной работе мы представляем Embedding-COrrupted (ECO) Prompts, легковесную систему забывания для больших языковых моделей, чтобы решить как проблемы переплетения знаний, так и эффективности забывания. Вместо того чтобы полагаться на саму LLM для забывания, мы обеспечиваем состояние забытости во время вывода, используя классификатор подсказок для идентификации и защиты подсказок для забывания. Мы обучаем порчу, добавленную к внедренным подсказкам, с помощью оптимизации нулевого порядка к цели забывания оффлайн и портим подсказки, выявленные классификатором, во время вывода. Мы обнаружили, что эти подсказки с порчей внедрения не только приводят к желаемым результатам, удовлетворяющим цели забывания, но и тесно приближаются к результатам модели, которая никогда не обучалась на данных, предназначенных для забывания. Через обширные эксперименты по забыванию мы демонстрируем превосходство нашего метода в достижении многообещающего забывания с практически нулевыми побочными эффектами в общих областях и областях, тесно связанных с забытыми. Кроме того, мы подчеркиваем масштабируемость нашего метода до 100 LLM, варьирующихся от 0,5 млрд до 236 млрд параметров, не неся дополнительных затрат по мере увеличения числа параметров.
Патология, микроскопическое исследование пораженной ткани, имеет важное значение для диагностики различных медицинских состояний, особенно рака. Традиционные методы трудоемки и подвержены человеческой ошибке. Цифровая патология, которая преобразует стеклянные слайды в высокоразрешенные цифровые изображения для анализа компьютерными алгоритмами, революционизирует область, улучшая диагностическую точность, последовательность и эффективность через автоматизированный анализ изображений и обработку данных в большом масштабе. Основное предварительное обучение трансформеров имеет решающее значение для разработки надежных, обобщаемых моделей, поскольку оно позволяет изучать огромные объемы неаннотированных данных. Этот документ представляет семейство основных видов трансформеров Hibou для патологии, используя фреймворк DINOv2 для предварительного обучения двух вариантов моделей, Hibou-B и Hibou-L, на собственном наборе данных из более чем 1 миллиона цельных изображений слайдов, представляющих разнообразные типы тканей и методы окрашивания. Наши предварительно обученные модели демонстрируют превосходную производительность как на уровне участков, так и на уровне слайдов, превосходя существующие передовые методы. Замечательно, что Hibou-L достигает самой высокой средней точности на нескольких наборах данных для сравнения. Для поддержки дальнейших исследований и применения в области мы открыли исходный код модели Hibou-B, который доступен по адресу https://github.com/HistAI/hibou
Маскированная (или поглощающая) диффузия активно исследуется как альтернатива авторегрессионным моделям для генеративного моделирования дискретных данных. Однако существующая работа в этой области столкнулась с излишне сложными формулировками моделей и неясными взаимосвязями между различными точками зрения, что привело к неоптимальной параметризации, целям обучения и импровизированным настройкам для преодоления этих проблем. В данной работе мы стремимся предоставить простую и общую концепцию, которая раскрывает полный потенциал моделей маскированной диффузии. Мы показываем, что непрерывно-временной вариационный объект моделей маскированной диффузии представляет собой простой взвешенный интеграл потерь кросс-энтропии. Наша концепция также позволяет обучать обобщенные модели маскированной диффузии с расписанием маскировки, зависящим от состояния. При оценке по перплексии наши модели, обученные на OpenWebText, превосходят предыдущие модели языков диффузии маскировки масштаба GPT-2 и демонстрируют превосходную производительность на 4 из 5 нулевых задач языкового моделирования. Более того, наши модели значительно превосходят предыдущие дискретные модели диффузии в моделировании изображений на уровне пикселей, достигая 2,78 (CIFAR-10) и 3,42 (ImageNet 64 на 64) бита на размерность, которые сравнимы или лучше, чем авторегрессионные модели схожего размера.