Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели, дополненные механизмом извлечения информации, лучше адаптируются к изменениям в состоянии мира и включают в себя знания из длинного хвоста распределения. Однако большинство существующих методов извлекают только короткие непрерывные фрагменты из корпуса данных, что ограничивает целостное понимание контекста всего документа. Мы представляем новый подход, который рекурсивно создает эмбеддинги, кластеризует и суммирует текстовые фрагменты, строя дерево с различными уровнями суммаризации снизу вверх. Во время вывода наша модель RAPTOR извлекает информацию из этого дерева, интегрируя данные из длинных документов на разных уровнях абстракции. Контролируемые эксперименты показывают, что извлечение с использованием рекурсивных суммаризаций значительно улучшает результаты по сравнению с традиционными языковыми моделями, дополненными извлечением, в нескольких задачах. В задачах ответов на вопросы, требующих сложного многошагового рассуждения, мы демонстрируем результаты на уровне современных достижений; например, объединяя извлечение RAPTOR с использованием GPT-4, мы можем улучшить наилучший результат на бенчмарке QuALITY на 20% в абсолютной точности.
Сохраняют ли n-граммные языковые модели актуальность в эпоху нейронных больших языковых моделей (LLM)? Наш ответ — да, и мы демонстрируем их ценность как для анализа текста, так и для улучшения нейронных LLM. Однако это требует модернизации n-граммных моделей в двух аспектах. Во-первых, мы обучаем их на том же объеме данных, что и нейронные LLM — 1,4 триллиона токенов. Это самая крупная n-граммная модель из когда-либо созданных. Во-вторых, существующие n-граммные модели используют небольшое значение n, что ограничивает их производительность; вместо этого мы позволяем n быть сколь угодно большим, введя новую infty-граммную модель с откатом. Вместо предварительного вычисления таблиц подсчета n-грамм (что было бы очень затратно), мы разработали движок под названием infini-gram, основанный на суффиксных массивах, который может вычислять вероятности infty-грамм (а также n-грамм с произвольным n) с задержкой на уровне миллисекунд. Фреймворк infty-gram и движок infini-gram позволяют нам проводить множество новых и интересных анализов текста, написанного человеком и сгенерированного машиной: мы обнаруживаем, что infty-граммная модель демонстрирует довольно высокую точность в предсказании следующего токена (47%) и может дополнять нейронные LLM, значительно снижая их перплексию в моделировании языка. При анализе машинно-сгенерированного текста мы также наблюдаем аномалии в уровне согласованности между машиной и infty-граммной моделью в зависимости от длины суффикса, что указывает на недостатки в предобучении нейронных LLM и позиционных эмбеддингах трансформеров. Мы открываем исходный код нашего движка infini-gram в надежде на стимулирование дальнейших исследований о том, как наилучшим образом использовать дословную информацию, извлеченную из больших текстовых корпусов.
Роботы с конечностями, перемещающиеся в сложных условиях, должны быть одновременно маневренными для эффективного выполнения задач и безопасными, чтобы избежать столкновений с препятствиями или людьми. Существующие исследования либо разрабатывают консервативные контроллеры (скорость < 1,0 м/с) для обеспечения безопасности, либо сосредотачиваются на маневренности, не учитывая потенциально опасные столкновения. В данной статье представлена система Agile But Safe (ABS), основанная на обучении и обеспечивающая маневренное и бесстолкновительное передвижение для четвероногих роботов. ABS включает в себя маневренную политику для выполнения быстрых двигательных навыков среди препятствий и политику восстановления для предотвращения сбоев, совместно обеспечивая высокоскоростное и бесстолкновительное перемещение. Переключение между политиками в ABS управляется обученной сетью значений reach-avoid, основанной на теории управления, которая также направляет политику восстановления в качестве целевой функции, обеспечивая безопасность робота в замкнутом цикле. Процесс обучения включает в себя обучение маневренной политики, сети значений reach-avoid, политики восстановления и сети представления экстероцепции, все это происходит в симуляции. Обученные модули могут быть напрямую развернуты в реальном мире с использованием бортовых сенсоров и вычислений, что позволяет осуществлять высокоскоростное и бесстолкновительное перемещение в ограниченных пространствах как внутри помещений, так и на открытом воздухе, с учетом как статических, так и динамических препятствий.
Видеодиффузионные модели привлекают всё больше внимания благодаря своей способности создавать видео, которые одновременно являются связными и обладают высокой детализацией. Однако итеративный процесс удаления шума делает их вычислительно затратными и медленными, что ограничивает их применение. Вдохновлённые моделью согласованности (Consistency Model, CM), которая дистиллирует предобученные диффузионные модели изображений для ускорения выборки с минимальным количеством шагов, а также её успешным расширением — латентной моделью согласованности (Latent Consistency Model, LCM) для условной генерации изображений, мы предлагаем AnimateLCM, позволяющую генерировать видео высокой детализации за минимальное количество шагов. Вместо прямого применения обучения согласованности на исходном наборе видеоданных мы предлагаем стратегию разделённого обучения согласованности, которая разделяет дистилляцию априорных знаний для генерации изображений и априорных знаний для генерации движения, что повышает эффективность обучения и улучшает визуальное качество генерации. Кроме того, чтобы обеспечить возможность использования подключаемых адаптеров из сообщества Stable Diffusion для реализации различных функций (например, ControlNet для управляемой генерации), мы предлагаем эффективную стратегию адаптации существующих адаптеров к нашей дистиллированной тексто-условной видеомодели согласованности или обучения адаптеров с нуля без ущерба для скорости выборки. Мы проверяем предложенную стратегию на задачах генерации видео на основе изображений и генерации видео на основе макетов, достигая наилучших результатов. Экспериментальные результаты подтверждают эффективность нашего метода. Код и веса модели будут опубликованы. Подробности доступны по ссылке: https://github.com/G-U-N/AnimateLCM.
Расширение возможностей крупных языковых моделей для эффективной обработки длинных контекстов требует тонкой настройки на инструкциях с использованием входных последовательностей аналогичной длины. Для решения этой задачи мы представляем LongAlign — методологию, включающую создание данных для инструкций, обучение и оценку для согласования длинных контекстов. Во-первых, мы создаем набор данных для выполнения инструкций с длинными контекстами с использованием метода Self-Instruct. Чтобы обеспечить разнообразие данных, он охватывает широкий спектр задач из различных источников с длинными контекстами. Во-вторых, мы применяем стратегии упаковки и сортировки пакетов для ускорения контролируемой тонкой настройки на данных с различными распределениями длин. Дополнительно мы разрабатываем метод взвешивания потерь для балансировки вклада в потери для различных последовательностей во время обучения с упаковкой. В-третьих, мы представляем бенчмарк LongBench-Chat для оценки способности выполнения инструкций на запросах длиной от 10k до 100k. Эксперименты показывают, что LongAlign превосходит существующие методологии для языковых моделей в задачах с длинными контекстами на величину до 30%, сохраняя при этом их эффективность в обработке коротких, общих задач. Код, данные и модели, согласованные для длинных контекстов, доступны по адресу https://github.com/THUDM/LongAlign.
Для достижения достоверного рассуждения, соответствующего человеческим ожиданиям, крупные языковые модели (LLM) должны основывать свои рассуждения на реальных знаниях (например, фактах из интернета, математических и физических законах). Инструменты помогают LLM получать доступ к этим внешним знаниям, однако остаются сложности в тонкой настройке агентов на основе LLM (например, Toolformer) для вызова инструментов в задачах многошагового рассуждения, где взаимосвязанные вызовы инструментов требуют целостного и эффективного планирования их использования. В данной работе мы предлагаем новый метод, позволяющий LLM более эффективно использовать инструменты в многошаговом рассуждении. Наш метод, называемый "Цепочка абстракций" (Chain-of-Abstraction, CoA), обучает LLM сначала декодировать цепочки рассуждений с абстрактными заполнителями, а затем вызывать специализированные инструменты для конкретизации каждой цепочки, заполняя их конкретными знаниями. Такое планирование с использованием абстрактных цепочек позволяет LLM изучать более общие стратегии рассуждения, которые устойчивы к изменениям доменных знаний (например, математических результатов), актуальных для различных вопросов. Это также позволяет LLM выполнять декодирование и вызов внешних инструментов параллельно, что устраняет задержки в выводе, вызванные ожиданием ответов от инструментов. В задачах математического рассуждения и вопросно-ответных систем на основе Wiki мы показываем, что наш метод стабильно превосходит предыдущие подходы, такие как "цепочка мыслей" и инструментально-усиленные базовые модели, как на тестовых наборах из распределения, так и вне его, с улучшением точности ответов в среднем на ~6%. Агенты на основе LLM, обученные с использованием нашего метода, также демонстрируют более эффективное использование инструментов, с увеличением скорости вывода в среднем в ~1.4 раза по сравнению с базовыми инструментально-усиленными LLM.
Создание 3D-моделей лежит в основе компьютерной графики и на протяжении десятилетий является предметом активных исследований. С появлением передовых нейронных представлений и генеративных моделей область генерации 3D-контента стремительно развивается, позволяя создавать всё более качественные и разнообразные 3D-модели. Быстрый рост этой области затрудняет отслеживание всех последних достижений. В данном обзоре мы стремимся представить фундаментальные методологии методов генерации 3D-моделей и установить структурированную дорожную карту, охватывающую представление 3D-данных, методы генерации, наборы данных и соответствующие приложения. В частности, мы рассматриваем 3D-представления, которые служат основой для генерации 3D-моделей. Кроме того, мы предоставляем всесторонний обзор быстро растущей литературы по методам генерации, классифицированным по типам алгоритмических парадигм, включая прямую генерацию, оптимизационную генерацию, процедурную генерацию и генеративный синтез новых видов. Наконец, мы обсуждаем доступные наборы данных, приложения и открытые задачи. Мы надеемся, что этот обзор поможет читателям изучить эту увлекательную тему и будет способствовать дальнейшему прогрессу в области генерации 3D-контента.
Быстрое развитие крупных языковых моделей (LLM), ярким примером которых являются архитектуры вроде GPT-4, изменило ландшафт обработки естественного языка. В данной статье представлен новаторский подход для решения проблем эффективности, связанных с предварительным обучением LLM, предлагая использование дистилляции знаний для кросс-архитектурного переноса. Используя идеи эффективного механизма Hyena, наш метод заменяет механизмы внимания в трансформерных моделях на Hyena, предлагая экономичную альтернативу традиционному предварительному обучению, одновременно решая задачу обработки длинных контекстных данных, присущую квадратичным механизмам внимания. В отличие от традиционных методов, ориентированных на сжатие, наша техника не только повышает скорость вывода, но и превосходит предварительное обучение как по точности, так и по эффективности. В эпоху развивающихся LLM наша работа способствует поиску устойчивых решений в области ИИ, достигая баланса между вычислительной мощностью и воздействием на окружающую среду.
Реалистичная симуляция видео демонстрирует значительный потенциал в различных областях, от виртуальной реальности до кинопроизводства. Это особенно актуально для сценариев, где съемка видео в реальных условиях либо непрактична, либо дорогостояща. Существующие подходы к симуляции видео часто не способны точно моделировать освещение, воспроизводить геометрию объектов или достигать высокого уровня фотореализма. В данной статье мы представляем Anything in Any Scene — новый и универсальный фреймворк для реалистичной симуляции видео, который бесшовно интегрирует любой объект в существующее динамическое видео с акцентом на физическую реалистичность. Наш фреймворк включает три ключевых процесса: 1) интеграцию реалистичного объекта в заданное видео сцены с правильным размещением для обеспечения геометрической реалистичности; 2) оценку распределения освещения от неба и окружающей среды, а также симуляцию реалистичных теней для повышения реалистичности освещения; 3) использование сети переноса стиля, которая улучшает итоговое видео для достижения максимального фотореализма. Экспериментально мы демонстрируем, что фреймворк Anything in Any Scene создает симулированные видео с высокой геометрической реалистичностью, реалистичностью освещения и фотореализмом. Значительно снижая сложности, связанные с генерацией видеоданных, наш фреймворк предлагает эффективное и экономичное решение для получения высококачественных видео. Кроме того, его применение выходит далеко за рамки расширения видеоданных, демонстрируя перспективный потенциал в виртуальной реальности, видеомонтаже и других видеоцентричных приложениях. Посетите наш проект по адресу https://anythinginanyscene.github.io для доступа к коду проекта и дополнительным результатам в высоком разрешении.
Мы представляем модель ReplaceAnything3D (RAM3D) — новый метод редактирования 3D-сцен на основе текстовых описаний, который позволяет заменять определённые объекты в сцене. При наличии многовидовых изображений сцены, текстового описания объекта для замены и текстового описания нового объекта наш подход "Стереть и Заменить" эффективно заменяет объекты в сцене на вновь сгенерированное содержимое, сохраняя 3D-согласованность между различными точками обзора. Мы демонстрируем универсальность ReplaceAnything3D, применяя её к различным реалистичным 3D-сценам, показывая результаты модифицированных объектов переднего плана, которые гармонично интегрируются с остальной частью сцены, не нарушая её общей целостности.
Мы представляем CARFF: Условное автоэнкодируемое поле излучения для прогнозирования 3D-сцен — метод предсказания будущих 3D-сцен на основе прошлых наблюдений, таких как 2D-изображения с эгоцентрической точки зрения. Наш метод преобразует изображение в распределение по правдоподобным 3D-латентным конфигурациям сцен с использованием вероятностного энкодера и предсказывает эволюцию гипотетических сцен во времени. Наше латентное представление сцены управляет глобальным нейронным полем излучения (NeRF) для моделирования 3D-сцены, что обеспечивает объяснимые прогнозы и упрощает последующие приложения. Этот подход выходит за рамки предыдущих работ по нейронному рендерингу, учитывая сложные сценарии неопределенности в состояниях и динамике окружающей среды. Мы используем двухэтапное обучение Pose-Conditional-VAE и NeRF для изучения 3D-представлений. Кроме того, мы авторегрессивно предсказываем латентные представления сцен как частично наблюдаемый марковский процесс принятия решений, используя смесь плотностных сетей. Мы демонстрируем полезность нашего метода в реалистичных сценариях с использованием симулятора вождения CARLA, где CARFF может быть использован для эффективного планирования траекторий и действий в сложных многозадачных сценариях автономного вождения с визуальными окклюзиями.