Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем EnerVerse - комплексную платформу для создания воплощенного будущего пространства, специально разработанную для задач робототехники. EnerVerse плавно интегрирует механизмы свертки и двунаправленного внимания для моделирования пространства внутри блока, обеспечивая согласованность и непрерывность на низком уровне. Учитывая врожденную избыточность видеоданных, мы предлагаем разреженный контекст памяти в сочетании с частично однонаправленной генеративной парадигмой для возможности генерации бесконечных последовательностей. Для дополнительного расширения возможностей роботов мы представляем пространство Свободного Анкера Обзора (FAV), которое предоставляет гибкие перспективы для улучшения наблюдения и анализа. Пространство FAV уменьшает неоднозначность моделирования движения, устраняет физические ограничения в ограниченных средах и значительно повышает обобщение и адаптивность робота в различных задачах и средах. Для решения проблематичных затрат и трудоемкости при получении многокамерных наблюдений мы представляем конвейер данных, который интегрирует генеративную модель с 4D Гауссовским Сплетением (4DGS). Этот конвейер использует надежные возможности обобщения генеративной модели и пространственные ограничения, предоставленные 4DGS, обеспечивая итеративное улучшение качества и разнообразия данных, что создает эффект "летучего колеса" данных, эффективно сужая разрыв между симуляцией и реальностью. Наконец, наши эксперименты показывают, что предшествующее создание воплощенного будущего пространства значительно улучшает возможности прогнозирования политики, приводя к улучшению общей производительности, особенно в задачах робототехники на дальние расстояния.
Недавние мультимодальные модели больших языков (MLLM) обычно сосредотачивались на интеграции визуальных и текстовых модальностей, уделяя меньше внимания роли речи в улучшении взаимодействия. Однако речь играет ключевую роль в мультимодальных диалоговых системах, и обеспечение высокой производительности как в задачах зрения, так и речи остается значительным вызовом из-за фундаментальных различий модальностей. В данной статье мы предлагаем тщательно разработанную методику многоэтапного обучения, которая постепенно обучает LLM понимать как визуальную, так и речевую информацию, в конечном итоге обеспечивая беглое взаимодействие зрения и речи. Наш подход не только сохраняет сильные возможности в области визуально-языкового взаимодействия, но также обеспечивает эффективные возможности диалога речь-речь без отдельных модулей распознавания и синтеза речи, что значительно ускоряет скорость ответа в мультимодальной конечной системе. Сравнивая наш метод с передовыми аналогами по показателям для задач изображений, видео и речи, мы демонстрируем, что наша модель обладает как сильными визуальными, так и речевыми возможностями, обеспечивая практически мгновенное взаимодействие зрения и речи.
Недавно системы медленного мышления, построенные на основе больших языковых моделей (LLM), привлекли широкое внимание за счет масштабирования времени мышления во время вывода. Также наблюдается растущий интерес к адаптации этой возможности к мультимодальным большим языковым моделям (MLLM). Учитывая, что MLLM обрабатывают более сложную семантику данных по различным модальностям, интуитивно более сложно реализовать мультимодальные системы медленного мышления. Для решения этой проблемы в данной статье мы исследуем простой подход путем донастройки способной MLLM с небольшим объемом текстовых данных долгих размышлений, что приводит к мультимодальной системе медленного мышления, Virgo (визуальное мышление с долгими размышлениями). Мы обнаружили, что эти процессы долгих размышлений, выраженные естественным языком, могут быть эффективно переданы MLLM. Более того, кажется, что такие текстовые данные рассуждений могут быть даже более эффективными, чем визуальные данные рассуждений, в вызывании способностей медленного мышления MLLM. Хотя эта работа является предварительной, она демонстрирует, что способности медленного мышления фундаментально связаны с компонентом языковой модели, который может быть передан через модальности или области. Это открытие может быть использовано для направления разработки более мощных систем медленного мышления. Мы предоставляем наши ресурсы по адресу https://github.com/RUCAIBox/Virgo.
Социальные агенты, работающие на основе больших языковых моделей (LLM), могут имитировать человеческие социальные поведенческие модели, но испытывают затруднения в обработке сложных целевых социальных диалогов. Прямая оптимизация предпочтений (DPO) доказала свою эффективность в согласовании поведения LLM с человеческими предпочтениями в различных задачах агента. Существующие подходы на основе DPO для многовопросных взаимодействий разделяются на методы на уровне хода и методы на уровне сессии. Метод на уровне хода слишком детализирован, сосредотачиваясь исключительно на отдельных ходах, в то время как методы на уровне сессии слишком грубые, часто вносят обучающий шум. Для преодоления этих ограничений мы предлагаем Прямую оптимизацию предпочтений на уровне сегмента (SDPO), которая фокусируется на конкретных ключевых сегментах взаимодействий для оптимизации поведения агента в многовопросных ситуациях с минимизацией обучающего шума. Оценки на бенчмарке SOTOPIA показывают, что агенты, настроенные с помощью SDPO, последовательно превосходят как существующие методы на основе DPO, так и собственные LLM, такие как GPT-4o, подчеркивая потенциал SDPO для развития социального интеллекта агентов на основе LLM. Мы предоставляем наш код и данные по ссылке https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
Мы представляем общую стратегию выравнивания моделей визуальной генерации - как генерации изображений, так и видео - с предпочтениями человека. Для начала мы создаем VisionReward - модель награды с тонкой детализацией и многомерным подходом. Мы декомпозируем предпочтения людей в отношении изображений и видео на несколько измерений, каждое из которых представлено серией вопросов для оценки, линейно взвешенных и суммируемых для получения интерпретируемого и точного рейтинга. Для решения проблем оценки качества видео мы систематически анализируем различные динамические характеристики видео, что помогает VisionReward превзойти VideoScore на 17,2% и достичь лучшей производительности в предсказании предпочтений по видео. На основе VisionReward мы разрабатываем алгоритм обучения с множеством целей, который эффективно решает проблему факторов, влияющих на данные о предпочтениях. Наш подход значительно превосходит существующие методы оценки изображений и видео как по метрикам машинного обучения, так и по оценке людей. Весь код и наборы данных предоставлены на https://github.com/THUDM/VisionReward.
Генерация графов является критической задачей во многих областях, включая молекулярный дизайн и анализ социальных сетей, благодаря способности моделировать сложные отношения и структурированные данные. В то время как большинство современных моделей генерации графов используют представления матриц смежности, данная работа пересматривает альтернативный подход, представляющий графы в виде последовательностей наборов узлов и наборов рёбер. Мы отстаиваем этот подход из-за его эффективного кодирования графов и предлагаем новое представление. Основываясь на этом представлении, мы представляем Graph Generative Pre-trained Transformer (G2PT), авторегрессионную модель, которая изучает структуры графов через предсказание следующего токена. Для дальнейшего использования возможностей G2PT в качестве универсальной модели-основы, мы исследуем стратегии донастройки для двух прикладных задач: генерации с ориентацией на цель и предсказания свойств графа. Мы проводим обширные эксперименты на нескольких наборах данных. Результаты показывают, что G2PT достигает превосходной генеративной производительности как на общих графовых, так и молекулярных наборах данных. Более того, G2PT проявляет сильную адаптивность и универсальность в задачах, начиная с молекулярного дизайна и заканчивая предсказанием свойств.
Недавние достижения в области моделей на основе больших языковых моделей (LLM) установили новые стандарты для задач встраивания текста, особенно в плотно векторизованном поиске. Однако эти модели в основном сосредотачиваются на английском языке, оставляя многие возможности мультиязычного встраивания практически неисследованными. Для преодоления этого ограничения мы представляем LUSIFER, новый подход к нулевому обучению, который адаптирует модели встраивания на основе LLM для мультиязычных задач без необходимости мультиязычного наблюдения. Архитектура LUSIFER объединяет мультиязычный кодер, который служит универсальным для языков, с моделью встраивания на основе LLM, оптимизированной для конкретных задач встраивания. Эти компоненты без проблем интегрируются через минимальный набор обучаемых параметров, которые действуют как соединитель, эффективно передавая способности мультиязычного кодера по пониманию языка специализированной модели встраивания. Кроме того, для всесторонней оценки производительности мультиязычного встраивания мы представляем новый стандарт, охватывающий 5 основных задач встраивания, 123 различных набора данных и охват 14 языков. Обширные экспериментальные результаты демонстрируют, что LUSIFER значительно улучшает мультиязычную производительность в различных задачах встраивания, особенно для языков средних и низких ресурсов, не требуя явных мультиязычных обучающих данных.
Понимание мира и его объяснение с помощью научных теорий является центральной целью исследований в области искусственного интеллекта. Предложение теорий, разработка экспериментов для их проверки, а затем их корректировка на основе данных являются фундаментальными для научных открытий. Несмотря на значительные перспективы научных агентов на основе LLM, не существует стандартных тестов, которые систематически проверяли бы способность LLM предлагать научные модели, собирать экспериментальные данные и корректировать их на основе новых данных. Мы представляем BoxingGym, бенчмарк с 10 средами для систематической оценки как экспериментального дизайна (например, сбор данных для проверки научной теории), так и открытия моделей (например, предложение и корректировка научных теорий). Для обеспечения удобной и количественной оценки мы реализуем каждую среду как генеративную вероятностную модель, с помощью которой научный агент может проводить интерактивные эксперименты. Эти вероятностные модели взяты из различных научных областей реального мира, начиная от психологии и заканчивая экологией. Для количественной оценки способности научного агента собирать информативные экспериментальные данные мы вычисляем ожидаемый прирост информации (EIG), информационную величину, которая измеряет, насколько эксперимент снижает неопределенность относительно параметров генеративной модели. Хорошая научная теория - это краткое и предсказательное объяснение. Поэтому для количественной оценки открытия модели мы просим научного агента объяснить свою модель, а затем оцениваем, позволяет ли это объяснение другому научному агенту делать надежные прогнозы об этой среде. Помимо этой оценки на основе объяснений, мы вычисляем стандартные метрики оценки модели, такие как ошибки прогнозирования. Мы обнаружили, что текущие LLM, такие как GPT-4o, испытывают затруднения как с экспериментальным дизайном, так и с открытием моделей. Мы выяснили, что дополнение агента на основе LLM явной статистической моделью не надежно улучшает эти результаты.