ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

АЛЬПИЙ: Раскрывая планировочные возможности авторегрессионного обучения в языковых моделях
ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models

May 15
BySiwei Wang, Yifei Shen, Shi Feng, Haoran Sun, Shang-Hua Teng, Wei Chen
28
1

В данной статье мы представляем результаты нашего проекта ALPINE, что означает "Авторегрессивное обучение для планирования в сетях". Проект ALPINE начинает теоретическое исследование развития планировочных возможностей в языковых моделях на основе трансформеров через их механизмы авторегрессивного обучения, с целью выявить любые потенциальные ограничения в их планировочных способностях. Мы абстрагируем планирование как задачу поиска пути в сети, где целью является генерация допустимого пути от указанного исходного узла к назначенному целевому узлу. В терминах выразительности мы показываем, что Трансформер способен выполнять поиск пути, внедряя матрицы смежности и достижимости в свои веса. Наше теоретическое анализ градиентного обучающего динамика Трансформера показывает, что Трансформер способен изучать как матрицу смежности, так и ограниченную форму матрицы достижимости. Эти теоретические идеи затем подтверждаются через эксперименты, которые демонстрируют, что Трансформер действительно изучает матрицу смежности и неполную матрицу достижимости, что соответствует предсказаниям, сделанным в нашем теоретическом анализе. Кроме того, применяя наш метод к реальной бенчмарк-среде планирования, называемой Blocksworld, наши наблюдения остаются согласованными. Наши теоретические и эмпирические анализы дополнительно раскрывают потенциальное ограничение Трансформера в поиске пути: он не способен идентифицировать отношения достижимости через транзитивность и, следовательно, не сможет успешно выполнить конкатенацию путей для генерации пути. В итоге, наши результаты проливают новый свет на то, как внутренние механизмы авторегрессивного обучения обеспечивают планирование в сетях. Это исследование может способствовать нашему пониманию общих планировочных возможностей в других связанных областях.

2

Модель Xmodel-VLM: простая базовая модель для мультимодальной модели видео и языка
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

May 15
ByWanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
22
1

Мы представляем Xmodel-VLM, передовую мультимодальную модель видео-языка. Она разработана для эффективного развертывания на серверах с потребительскими GPU. Наша работа напрямую решает ключевую проблему отрасли, борясь с запретительными затратами на обслуживание, которые мешают широкому принятию масштабных мультимодальных систем. Через тщательное обучение мы разработали языковую модель масштаба 1 млрд с нуля, используя парадигму LLaVA для выравнивания модальностей. Результат, который мы называем Xmodel-VLM, представляет собой легкую, но мощную мультимодальную модель видео-языка. Обширное тестирование на многочисленных классических бенчмарках мультимодальности показало, что несмотря на ее меньший размер и более быстрое выполнение, Xmodel-VLM обеспечивает производительность, сравнимую с более крупными моделями. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/XmodelVLM.

3

Декодирование натуралистической музыки из данных ЭЭГ с помощью моделей латентной диффузии
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

May 15
ByEmilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
14
0

В данной статье мы исследуем потенциал использования моделей латентной диффузии, семейства мощных генеративных моделей, для задачи восстановления натуралистической музыки из записей электроэнцефалограммы (ЭЭГ). В отличие от более простой музыки с ограниченными тембрами, такой как мелодии, сгенерированные в формате MIDI или монофонические произведения, здесь акцент делается на сложной музыке с разнообразным набором инструментов, голосов и эффектов, богатой гармониками и тембром. Это исследование представляет собой первоначальное знакомство с достижением общего восстановления музыки высокого качества с использованием неинвазивных данных ЭЭГ, применяя подход обучения от начала до конца непосредственно на исходных данных без необходимости ручной предварительной обработки и выбора каналов. Мы обучаем наши модели на общедоступном наборе данных NMED-T и проводим количественную оценку, предлагая метрики на основе нейронных вложений. Дополнительно мы проводим классификацию песен на основе сгенерированных треков. Наша работа вносит вклад в текущие исследования в области нейронного декодирования и мозг-компьютерных интерфейсов, предлагая понимание возможности использования данных ЭЭГ для восстановления сложной аудиоинформации.

4

Набор инструментов BEHAVIOR Vision: настраиваемая генерация набора данных через симуляцию
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

May 15
ByYunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
13
0

Систематическая оценка и понимание моделей компьютерного зрения в различных условиях требуют больших объемов данных с подробными и настраиваемыми метками, чего реальные наборы данных по компьютерному зрению редко удовлетворяют. В то время как текущие генераторы синтетических данных предлагают многообещающую альтернативу, особенно для задач искусственного интеллекта воплощенного типа, они часто не соответствуют для задач компьютерного зрения из-за низкого качества ресурсов и рендеринга, ограниченного разнообразия и нереалистичных физических свойств. Мы представляем набор инструментов и ресурсов BEHAVIOR Vision Suite (BVS) для создания полностью настраиваемых синтетических данных для систематической оценки моделей компьютерного зрения, основанный на недавно разработанном эталоне искусственного интеллекта воплощенного типа, BEHAVIOR-1K. BVS поддерживает большое количество настраиваемых параметров на уровне сцены (например, освещение, размещение объектов), на уровне объекта (например, конфигурация соединений, атрибуты, такие как "заполненный" и "согнутый") и на уровне камеры (например, угол обзора, фокусное расстояние). Исследователи могут произвольно изменять эти параметры во время генерации данных для проведения контролируемых экспериментов. Мы продемонстрируем три примерных сценария применения: систематическая оценка устойчивости моделей на различных непрерывных осях сдвига домена, оценка моделей понимания сцены на одном и том же наборе изображений и обучение и оценка передачи симуляции в реальность для новой задачи компьютерного зрения: предсказание унарного и бинарного состояния. Веб-сайт проекта: https://behavior-vision-suite.github.io/

May 15
May 16
May 17