Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели видео-языка (VLM) проявили себя в мультимодальных задачах, однако их адаптация к принятию решений в открытых средах представляет определенные трудности. Одной из ключевых проблем является сложность плавного соединения отдельных сущностей в низкоуровневых наблюдениях с абстрактными концепциями, необходимыми для планирования. Распространенным подходом к решению этой проблемы является использование иерархических агентов, где модели VLM выступают в качестве высокоуровневых рассудителей, разбивая задачи на выполнимые подзадачи, обычно указываемые с использованием языка и воображаемых наблюдений. Однако язык часто неэффективно передает пространственную информацию, а генерация будущих изображений с достаточной точностью остается сложной задачей. Для преодоления этих ограничений мы предлагаем визуально-временное контекстное подсказывание, новый протокол коммуникации между моделями VLM и политиками. Этот протокол использует сегментацию объектов как из прошлых, так и из текущих наблюдений для направления взаимодействий политики с окружающей средой. С использованием этого подхода мы обучаем ROCKET-1, низкоуровневую политику, предсказывающую действия на основе объединенных визуальных наблюдений и масок сегментации, с отслеживанием объектов в реальном времени, предоставляемым SAM-2. Наш метод разблокирует полный потенциал способностей моделей VLM в визуально-языковом рассуждении, позволяя им решать сложные творческие задачи, особенно те, которые сильно зависят от пространственного понимания. Эксперименты в Minecraft показывают, что наш подход позволяет агентам выполнять ранее недостижимые задачи, подчеркивая эффективность визуально-временного контекстного подсказывания в принятии решений в открытых средах. Коды и демонстрации будут доступны на странице проекта: https://craftjarvis.github.io/ROCKET-1.
Успех авторегрессионных моделей трансформера с дискретными токенами вдохновил подходы на основе квантования для непрерывных модальностей, хотя они часто ограничивают качество восстановления. Поэтому мы представляем SALAD, модель латентной диффузии на уровне токенов для нулевой конвертации текста в речь, которая работает с непрерывными представлениями. SALAD основана на недавно предложенной выразительной голове диффузии для генерации изображений и расширяет ее для создания выходных данных переменной длины. Наш подход использует семантические токены для предоставления контекстной информации и определения условия остановки. Мы предлагаем три непрерывных варианта для нашего метода, расширяя популярные дискретные техники синтеза речи. Кроме того, мы реализуем дискретные базовые варианты для каждого варианта и проводим сравнительный анализ дискретных и непрерывных техник моделирования речи. Наши результаты показывают, что как непрерывные, так и дискретные подходы являются очень конкурентоспособными, и что SALAD достигает более высокого показателя интеллигентности, сохраняя качество речи и сходство диктора на уровне с аудиозаписью истинности.
Электрокардиограмма (ЭКГ) является важным неинвазивным диагностическим инструментом для оценки сердечных состояний. Существующие методы автоматической интерпретации страдают от ограниченной обобщаемости, сосредотачиваясь на узком диапазоне сердечных состояний и обычно зависят от сырых физиологических сигналов, которые могут быть недоступны в условиях ограниченных ресурсов, где доступны только напечатанные или цифровые изображения ЭКГ. Недавние достижения в мультимодельных моделях на основе языка (MLLM) представляют собой многообещающие возможности для решения этих проблем. Однако применение MLLM к интерпретации изображений ЭКГ остается сложным из-за отсутствия наборов данных для настройки инструкций и хорошо установленных эталонов изображений ЭКГ для количественной оценки. Для решения этих проблем мы представляем ECGInstruct, обширный набор данных для настройки инструкций по изображениям ЭКГ более чем из миллиона образцов, охватывающий широкий спектр задач, связанных с ЭКГ, из различных источников данных. Используя ECGInstruct, мы разрабатываем PULSE, MLLM, настроенную на понимание изображений ЭКГ. Кроме того, мы составляем ECGBench, новый бенчмарк для оценки, охватывающий четыре ключевые задачи интерпретации изображений ЭКГ по девяти различным наборам данных. Наши эксперименты показывают, что PULSE устанавливает новый уровень качества, превосходя общие MLLM с улучшением средней точности от 15% до 30%. Эта работа подчеркивает потенциал PULSE для улучшения интерпретации ЭКГ в клинической практике.
В данной статье мы представляем \textit{FasterCache}, новую стратегию без обучения, разработанную для ускорения вывода моделей видеодиффузии с генерацией высокого качества. Анализируя существующие методы на основе кэша, мы замечаем, что прямое повторное использование признаков соседних шагов приводит к ухудшению качества видео из-за потери тонких вариаций. Мы также проводим первоначальное исследование потенциала ускорения без классификатора (CFG) и раскрываем значительную избыточность между условными и безусловными признаками в пределах одного временного шага. Основываясь на этих наблюдениях, мы представляем FasterCache для существенного ускорения генерации видео на основе диффузии. Наши ключевые вклады включают динамическую стратегию повторного использования признаков, сохраняющую как различие признаков, так и временную непрерывность, и CFG-Cache, который оптимизирует повторное использование условных и безусловных выходов для дальнейшего улучшения скорости вывода без ущерба качеству видео. Мы проводим эмпирическую оценку FasterCache на последних моделях видеодиффузии. Экспериментальные результаты показывают, что FasterCache может значительно ускорить генерацию видео (\ например, ускорение в 1,67 раза на Vchitect-2.0), сохраняя при этом сравнимое с базовым уровнем качество видео, и последовательно превосходит существующие методы как по скорости вывода, так и по качеству видео.
Способность понимать аудио - включая речь, звуки не являющиеся речью и музыку - является ключевой для эффективного взаимодействия искусственного интеллекта с миром. Мы представляем MMAU, новый бенчмарк, разработанный для оценки моделей мультимодального аудио-понимания на задачах, требующих знаний на уровне эксперта и сложного рассуждения. MMAU включает 10 тыс. тщательно подобранных аудио-клипов, сопоставленных с человечески аннотированными вопросами и ответами на естественном языке, охватывающими речь, окружающие звуки и музыку. Он включает в себя вопросы по извлечению информации и рассуждения, требующие от моделей демонстрации 27 различных навыков на уникальных и сложных задачах. В отличие от существующих бенчмарков, MMAU акцентирует продвинутое восприятие и рассуждение с областными знаниями, ставя перед моделями задачи, аналогичные тем, с которыми сталкиваются эксперты. Мы оцениваем 18 открытых и проприетарных (Large) моделей аудио-языка, демонстрируя значительные вызовы, представленные MMAU. Заметно, что даже самый передовой Gemini Pro v1.5 достигает лишь 52,97% точности, а передовая открытая модель Qwen2-Audio достигает лишь 52,50%, подчеркивая значительный потенциал для улучшения. Мы считаем, что MMAU стимулирует сообщество аудио и мультимодальных исследований к разработке более продвинутых моделей аудио-понимания, способных решать сложные аудио-задачи.
Модели видео-языка (VLM) недавно сделали значительный прогресс, однако ограниченный масштаб и качество открытых данных по инструкциям сдерживают их производительность по сравнению с моделями закрытого источника. В данной работе мы решаем эту проблему, представляя Infinity-MM, крупномасштабный мультимодальный набор данных по инструкциям с 40 миллионами образцов, улучшенный благодаря тщательной фильтрации качества и удалению дубликатов. Мы также предлагаем метод генерации синтетических инструкций на основе открытых моделей VLM, используя детальные аннотации изображений и разнообразную генерацию вопросов. С использованием этих данных мы обучили модель VLM с 2 миллиардами параметров, Aquila-VL-2B, достигнув передовой производительности для моделей схожего масштаба. Это демонстрирует, что расширение данных по инструкциям и генерация синтетических данных могут значительно улучшить производительность моделей открытого источника.
Распространение больших языковых моделей (LLM) привело к принятию архитектур Mixture-of-Experts (MoE), которые динамически используют специализированные подсети для улучшения эффективности и производительности. Несмотря на их преимущества, модели MoE сталкиваются с значительными вызовами во время вывода, включая неэффективное управление памятью и субоптимальную пакетизацию из-за несовпадения выбора конструкции модели и политик системы. Более того, традиционный подход к обучению MoE с нуля становится все более запретительным с точки зрения затрат. В данной статье мы предлагаем новую структуру Read-ME, которая преобразует предварительно обученные плотные LLM в более компактные модели MoE (в отличие от "переработки" общих MoE), избегая высоких затрат на обучение с нуля. Наш подход использует разреженность активации для извлечения экспертов. Для формирования экспертов мы исследуем широко принятый дизайн маршрутизатора на уровне слоя и показываем его избыточность, и вводим предварительный маршрутизатор, отделенный от основы MoE, который облегчает дружественное к системе предварительное вычисление и планирование на основе просмотра вперед, улучшая пакетизацию и кэширование, осведомленные об экспертах. Наше совместное проектирование поэтому решает критические пробелы как на алгоритмическом, так и на системном фронтах, устанавливая масштабируемую и эффективную альтернативу для вывода LLM в ресурсоограниченных средах. Read-ME превосходит другие популярные открытые плотные модели аналогичных масштабов, достигая улучшений до 10,1% по MMLU и улучшая среднюю задержку от начала до конца до 6,1%. Коды доступны по ссылке: https://github.com/VITA-Group/READ-ME.
Бенчмарки в области обработки естественного языка (Natural Language Processing, NLP) зависят от стандартизированных наборов данных для обучения и оценки моделей, что является ключевым для развития этой области. Традиционно высокое качество меток обеспечивается экспертной разметкой; однако стоимость экспертной разметки не масштабируется должным образом с увеличивающимся спросом на более крупные наборы данных, необходимые для современных моделей. В то время как краудсорсинг предоставляет более масштабируемое решение, это часто происходит за счет точности и последовательности разметки. Недавние достижения в области больших языковых моделей (Large Language Models, LLMs) открывают новые возможности для улучшения процесса разметки, особенно для обнаружения ошибок в метках в существующих наборах данных. В данной работе мы рассматриваем недавний подход LLM-как-судья, используя ансамбль LLM для выявления потенциально неправильно размеченных примеров. Через кейс-стади четырех наборов данных из бенчмарка TRUE, охватывающих различные задачи и области, мы эмпирически анализируем качество разметки существующих наборов данных и сравниваем экспертную, краудсорсинговую и нашу разметку на основе LLM по критериям согласованности, качества меток и эффективности, демонстрируя преимущества и ограничения каждого метода разметки. Наши результаты показывают значительное количество ошибок в метках, которые, после исправления, приводят к значительному увеличению отчетной производительности модели. Это указывает на то, что многие так называемые ошибки LLM обусловлены ошибками в метках, а не реальными ошибками модели. Кроме того, мы обсуждаем последствия неправильно размеченных данных и предлагаем методы их уменьшения в процессе обучения для улучшения производительности модели.
Трансформеры, основа современных больших моделей языка (LLM), сталкиваются с врожденными архитектурными ограничениями, которые затрудняют их способности к рассуждениям. В отличие от рекуррентных сетей, у Трансформеров отсутствуют рекуррентные связи, что ограничивает их вычисления постоянной глубиной. Это ограничение помещает их в класс сложности TC^0, что теоретически делает их неспособными решать задачи, требующие все более глубоких рассуждений по мере увеличения длины ввода. Подсчет, фундаментальный компонент многих задач рассуждения, также требует линейного роста глубины рассуждений для индуктивного выполнения. В то время как предыдущие исследования установили верхние пределы способности к подсчету в экспертных моделях на основе Трансформеров (т.е. моделях, специально обученных для задач подсчета), эти результаты не применимы напрямую к общего назначения LLM из-за различий в механизмах рассуждения. Недавние работы подчеркнули, как цепочечное рассуждение (CoT) может помочь устранить некоторые архитектурные ограничения Трансформеров в задачах подсчета. Однако мало внимания уделялось роли токенизации в этих моделях. В отличие от экспертных моделей, которые часто используют токенизацию на уровне символов, LLM обычно полагаются на токенизаторы на уровне байтов (BPE), что фундаментально изменяет способ обработки рассуждений. Наша работа исследует влияние токенизации на способности к подсчету LLM, обнаруживая значительные вариации производительности на основе различий в токенизации ввода. Мы предоставляем как теоретические, так и экспериментальные анализы, предлагая понимание того, как выбор токенизации может подорвать теоретическую вычислимость моделей, тем самым вдохновляя на разработку новых методов токенизации для улучшения рассуждений в LLM.
Обучение на основе обратной связи от людей позволило выравнивать языковые модели (ЯМ) с человеческими предпочтениями. Однако напрямую собирать человеческие предпочтения может быть дорого, затратно по времени и иметь высокую дисперсию. Привлекательной альтернативой является извлечение предпочтений из ЯМ в качестве искусственных аннотаций, так как они более последовательны, дешевле и масштабируются лучше, чем человеческая аннотация; однако они также подвержены предвзятостям и ошибкам. В данной работе мы представляем маршрутизационную структуру, которая объединяет входные данные от людей и ЯМ для достижения лучшего качества аннотации, снижая при этом общую стоимость человеческой аннотации. Суть нашего подхода заключается в идентификации случаев предпочтений, которые получат выгоду от человеческих аннотаций. Мы формулируем это как задачу оптимизации: учитывая набор данных предпочтений и метрику оценки, мы обучаем модель прогнозирования производительности для предсказания производительности модели вознаграждения на произвольной комбинации человеческих и ЯМ аннотаций и используем стратегию маршрутизации, которая выбирает комбинацию, максимизирующую прогнозируемую производительность. Мы обучаем модель прогнозирования производительности на MultiPref, новом наборе данных предпочтений с 10 тыс. экземпляров, сопоставленных с метками человека и ЯМ. Мы показываем, что выбранная гибридная смесь ЯМ и прямых человеческих предпочтений с использованием нашей маршрутизационной структуры достигает лучшей производительности модели вознаграждения по сравнению с использованием их исключительно. Мы моделируем селективное сбор человеческих предпочтений на трех других наборах данных и показываем, что наш метод хорошо обобщается на все три. Мы анализируем характеристики из маршрутной модели, чтобы выявить особенности экземпляров, которые могут получить пользу от обратной связи от людей, например, подсказки с умеренной озабоченностью по безопасности или умеренной сложностью намерений. Мы предоставляем набор данных, платформу аннотации и исходный код, использованные в этом исследовании, для поощрения более эффективного и точного сбора предпочтений в будущем.
Недавние исследования выявили один из обостряющих факторов галлюцинаций в LLM как несоответствие знаний между предварительным обучением и настройкой feine-tuning, где незнакомые данные feine-tuning вводят LLM в заблуждение, заставляя его создавать правдоподобные, но неверные результаты. В данной статье мы предлагаем новую стратегию настройки feine-tuning, называемую Prereq-Tune, чтобы решить это несоответствие знаний и снизить галлюцинации. Фундаментально Prereq-Tune разделяет изучение навыков и знаний, таким образом, модель изучает только навыки задачи, не подвергаясь влиянию несоответствия знаний. Для достижения этого Prereq-Tune вводит дополнительный этап предварительного обучения для изучения необходимых знаний для SFT, позволяя последующему SFT сосредоточиться только на навыках задачи. Prereq-Tune также может быть объединен с фиктивными синтетическими данными для улучшения обоснования результатов LLM своим внутренним знанием. Эксперименты показывают, что Prereq-Tune превосходит существующие базовые уровни в улучшении фактичности LLM в коротких задачах вопрос-ответ и генерации длинных форм. Он также открывает новые возможности для генерации, контролируемой знаниями в LLM. Наш код доступен по адресу https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
Большие языковые модели (LLM) могут хранить значительное количество фактических знаний в своих параметрах. Однако их параметрические знания могут противоречить информации, предоставленной в контексте. Такие конфликты могут привести к нежелательному поведению модели, такому как полагание на устаревшую или неверную информацию. В данной работе мы исследуем, могут ли LLM идентифицировать конфликты знаний и возможно ли знать, на какие источники знаний модель определится, анализируя остаточный поток LLM. С помощью задач проверки мы обнаруживаем, что LLM могут внутренне регистрировать сигнал конфликта знаний в остаточном потоке, который можно точно обнаружить, анализируя промежуточные активации модели. Это позволяет нам обнаруживать конфликты в остаточном потоке перед генерацией ответов без изменения входных данных или параметров модели. Более того, мы обнаруживаем, что остаточный поток показывает значительно различные паттерны, когда модель полагается на контекстуальные знания по сравнению с параметрическими знаниями для разрешения конфликтов. Этот паттерн может быть использован для оценки поведения LLM при возникновении конфликта и предотвращения неожиданных ответов перед их генерацией. Наш анализ предлагает понимание того, как LLM внутренне управляют конфликтами знаний и предоставляет основу для разработки методов управления процессами выбора знаний.
Видеозаписи роботов, взаимодействующих с объектами, содержат обширную информацию о динамике объектов. Однако существующие подходы к предсказанию видео обычно не учитывают явно трехмерную информацию из видеозаписей, такую как действия робота и трехмерные состояния объектов, что ограничивает их использование в реальных робототехнических приложениях. В данной работе мы представляем фреймворк для изучения динамики объектов напрямую из многопроекционных RGB видео путем явного учета траекторий действий робота и их влияния на динамику сцены. Мы используем трехмерное гауссово представление 3D-гауссовского сплэттинга (3DGS) для обучения модели динамики на основе частиц с использованием графовых нейронных сетей. Эта модель работает с разреженными управляющими частицами, дискретизированными из плотно отслеживаемых трехмерных гауссовских реконструкций. Обучая нейронную модель динамики на офлайн данных взаимодействия робота, наш метод способен предсказывать движения объектов при различных начальных конфигурациях и невидимых действиях робота. Трансформации гауссов могут быть интерполированы из движений управляющих частиц, что позволяет визуализировать предсказанные будущие состояния объектов и достигать предсказания видео, зависящего от действий. Модель динамики также может быть применена в фреймворках планирования на основе модели для задач манипулирования объектами. Мы проводим эксперименты на различных видах деформируемых материалов, включая веревки, одежду и мягкие игрушки, демонстрируя способность нашего фреймворка моделировать сложные формы и динамику. Наша страница проекта доступна по адресу https://gs-dynamics.github.io.
Способность адаптировать убеждения или поведение в ответ на неожиданные результаты, рефлексия, является фундаментальной для взаимодействия интеллектуальных систем с миром. С точки зрения когнитивной науки, это служит основным принципом интеллекта, применимым как к человеческим, так и к искусственным интеллектуальным системам. Для решения дебатов об интеллекте больших языковых моделей (LLM) мы предлагаем Reflection-Bench, комплексный бенчмарк, включающий 7 задач, охватывающих основные когнитивные функции, важные для рефлексии, включая восприятие, память, обновление убеждений, принятие решений, предсказание, контрфактуальное мышление и мета-рефлексию. Мы оцениваем производительность 13 известных LLM, таких как OpenAI o1, GPT-4, Claude 3.5 Sonnet и др. Результаты показывают, что текущим LLM все еще не хватает удовлетворительной способности к рефлексии. Мы обсуждаем основные причины этих результатов и предлагаем потенциальные направления для будущих исследований. В заключение, Reflection-Bench предлагает как инструменты оценки, так и вдохновение для развития искусственного интеллекта, способного надежно взаимодействовать с окружающей средой. Наши данные и код доступны по ссылке https://github.com/YabYum/ReflectionBench.
Оценка предвзятости новостных источников является важной для специалистов, организаций и исследователей, которые полагаются на достоверные данные для сбора и предоставления информации. Хотя определенные индикаторы предвзятости могут быть выявлены путем анализа контента, такие характеристики, как политическая предвзятость и фейковые новости, представляют большие вызовы. В данной статье мы предлагаем расширение недавно представленного метода оценки надежности новостных СМИ, который сосредотачивается на моделировании изданий и их долгосрочных взаимодействий в сети. Конкретно, мы оцениваем производительность классификации четырех стратегий обучения с подкреплением на большом графе гиперссылок новостных СМИ. Наши эксперименты, нацеленные на два сложных индикатора предвзятости - фактическое информирование и политическую предвзятость, показали значительное улучшение производительности на уровне источников СМИ. Кроме того, мы проверяем наши методы на испытаниях CLEF 2023 CheckThat! Lab, превзойдя отчетные результаты как по F1-мере, так и по официальной метрике MAE. Более того, мы вносим вклад, выпустив крупнейший аннотированный набор данных новостных источников, классифицированных по меткам фактического информирования и политической предвзятости. Наши результаты подтверждают, что профилирование новостных источников на основе их взаимодействий по гиперссылкам со временем возможно, предлагая общий обзор развивающихся медиа-ландшафтов.
Неспервизированное предварительное обучение претерпело значительные изменения во многих областях с учителем. Однако применение подобных идей к обучению с подкреплением (RL) представляет собой уникальное испытание в том смысле, что донастройка не включает в себя имитацию специфических для задачи данных, а скорее исследование и нахождение решения через итеративное самосовершенствование. В данной работе мы изучаем, как неразмеченные предварительные траекторные данные могут быть использованы для изучения эффективных стратегий исследования. Хотя предварительные данные могут быть использованы для предварительного обучения набора низкоуровневых навыков или как дополнительные внеочередные данные для онлайн RL, неясно, как эффективно объединить эти идеи для онлайн исследования. Наш метод SUPE (Навыки из неразмеченных предварительных данных для исследования) показывает, что тщательное сочетание этих идей усиливает их преимущества. Наш метод сначала извлекает низкоуровневые навыки с использованием вариационного автокодировщика (VAE), а затем псевдо-переобозначает неразмеченные траектории с использованием оптимистической модели вознаграждения, преобразуя предварительные данные в высокоуровневые, задаче-соответствующие примеры. Наконец, SUPE использует эти преобразованные примеры как дополнительные внеочередные данные для онлайн RL для изучения высокоуровневой стратегии, которая составляет предварительно обученные низкоуровневые навыки для эффективного исследования. Мы эмпирически показываем, что SUPE надежно превосходит предыдущие стратегии, успешно решая ряд задач с длинным горизонтом и разреженными вознаграждениями. Код: https://github.com/rail-berkeley/supe.