Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем результаты нашего проекта ALPINE, что означает "Авторегрессивное обучение для планирования в сетях". Проект ALPINE начинает теоретическое исследование развития планировочных возможностей в языковых моделях на основе трансформеров через их механизмы авторегрессивного обучения, с целью выявить любые потенциальные ограничения в их планировочных способностях. Мы абстрагируем планирование как задачу поиска пути в сети, где целью является генерация допустимого пути от указанного исходного узла к назначенному целевому узлу. В терминах выразительности мы показываем, что Трансформер способен выполнять поиск пути, внедряя матрицы смежности и достижимости в свои веса. Наше теоретическое анализ градиентного обучающего динамика Трансформера показывает, что Трансформер способен изучать как матрицу смежности, так и ограниченную форму матрицы достижимости. Эти теоретические идеи затем подтверждаются через эксперименты, которые демонстрируют, что Трансформер действительно изучает матрицу смежности и неполную матрицу достижимости, что соответствует предсказаниям, сделанным в нашем теоретическом анализе. Кроме того, применяя наш метод к реальной бенчмарк-среде планирования, называемой Blocksworld, наши наблюдения остаются согласованными. Наши теоретические и эмпирические анализы дополнительно раскрывают потенциальное ограничение Трансформера в поиске пути: он не способен идентифицировать отношения достижимости через транзитивность и, следовательно, не сможет успешно выполнить конкатенацию путей для генерации пути. В итоге, наши результаты проливают новый свет на то, как внутренние механизмы авторегрессивного обучения обеспечивают планирование в сетях. Это исследование может способствовать нашему пониманию общих планировочных возможностей в других связанных областях.
Мы представляем Xmodel-VLM, передовую мультимодальную модель видео-языка. Она разработана для эффективного развертывания на серверах с потребительскими GPU. Наша работа напрямую решает ключевую проблему отрасли, борясь с запретительными затратами на обслуживание, которые мешают широкому принятию масштабных мультимодальных систем. Через тщательное обучение мы разработали языковую модель масштаба 1 млрд с нуля, используя парадигму LLaVA для выравнивания модальностей. Результат, который мы называем Xmodel-VLM, представляет собой легкую, но мощную мультимодальную модель видео-языка. Обширное тестирование на многочисленных классических бенчмарках мультимодальности показало, что несмотря на ее меньший размер и более быстрое выполнение, Xmodel-VLM обеспечивает производительность, сравнимую с более крупными моделями. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/XmodelVLM.
В данной статье мы исследуем потенциал использования моделей латентной диффузии, семейства мощных генеративных моделей, для задачи восстановления натуралистической музыки из записей электроэнцефалограммы (ЭЭГ). В отличие от более простой музыки с ограниченными тембрами, такой как мелодии, сгенерированные в формате MIDI или монофонические произведения, здесь акцент делается на сложной музыке с разнообразным набором инструментов, голосов и эффектов, богатой гармониками и тембром. Это исследование представляет собой первоначальное знакомство с достижением общего восстановления музыки высокого качества с использованием неинвазивных данных ЭЭГ, применяя подход обучения от начала до конца непосредственно на исходных данных без необходимости ручной предварительной обработки и выбора каналов. Мы обучаем наши модели на общедоступном наборе данных NMED-T и проводим количественную оценку, предлагая метрики на основе нейронных вложений. Дополнительно мы проводим классификацию песен на основе сгенерированных треков. Наша работа вносит вклад в текущие исследования в области нейронного декодирования и мозг-компьютерных интерфейсов, предлагая понимание возможности использования данных ЭЭГ для восстановления сложной аудиоинформации.
Систематическая оценка и понимание моделей компьютерного зрения в различных условиях требуют больших объемов данных с подробными и настраиваемыми метками, чего реальные наборы данных по компьютерному зрению редко удовлетворяют. В то время как текущие генераторы синтетических данных предлагают многообещающую альтернативу, особенно для задач искусственного интеллекта воплощенного типа, они часто не соответствуют для задач компьютерного зрения из-за низкого качества ресурсов и рендеринга, ограниченного разнообразия и нереалистичных физических свойств. Мы представляем набор инструментов и ресурсов BEHAVIOR Vision Suite (BVS) для создания полностью настраиваемых синтетических данных для систематической оценки моделей компьютерного зрения, основанный на недавно разработанном эталоне искусственного интеллекта воплощенного типа, BEHAVIOR-1K. BVS поддерживает большое количество настраиваемых параметров на уровне сцены (например, освещение, размещение объектов), на уровне объекта (например, конфигурация соединений, атрибуты, такие как "заполненный" и "согнутый") и на уровне камеры (например, угол обзора, фокусное расстояние). Исследователи могут произвольно изменять эти параметры во время генерации данных для проведения контролируемых экспериментов. Мы продемонстрируем три примерных сценария применения: систематическая оценка устойчивости моделей на различных непрерывных осях сдвига домена, оценка моделей понимания сцены на одном и том же наборе изображений и обучение и оценка передачи симуляции в реальность для новой задачи компьютерного зрения: предсказание унарного и бинарного состояния. Веб-сайт проекта: https://behavior-vision-suite.github.io/