Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сегодняшние самые передовые мультимодальные модели остаются собственностью. Самые мощные модели с открытым весом тесно зависят от синтетических данных от собственных VLM для достижения хорошей производительности, эффективно дистиллируя эти закрытые модели в открытые. В результате сообществу по-прежнему не хватает фундаментальных знаний о том, как создавать производительные VLM с нуля. Мы представляем Molmo, новое семейство VLM, которые являются передовыми в своем классе открытости. Нашим ключевым новшеством является новый, высокодетализированный набор данных для описания изображений, собранный исключительно от человеческих аннотаторов с использованием описаний на основе речи. Для обеспечения широкого спектра пользовательских взаимодействий мы также представляем разнообразный набор данных для донастройки, который включает в себя Q&A на природе и инновационные данные указания в 2D. Успех нашего подхода зависит от тщательного выбора деталей архитектуры модели, хорошо настроенного процесса обучения и, что самое критическое, качества наших недавно собранных наборов данных, все из которых будут опубликованы. Лучшая модель 72B в семействе Molmo не только превосходит другие в классе моделей с открытым весом и данными, но также сравнима с собственными системами, такими как GPT-4o, Claude 3.5 и Gemini 1.5, как по академическим бенчмаркам, так и по оценке людей. Мы планируем скоро опубликовать все веса нашей модели, данные для подписей и донастройки, а также исходный код. Некоторые веса модели, код вывода и демонстрация доступны на https://molmo.allenai.org.
Предварительное обучение больших языковых моделей традиционно полагалось на ученых-экспертов для разработки эвристик с целью улучшения качества корпусов, что привело к созданию множества правил до настоящего времени. Однако эти правила не обладают гибкостью для эффективного учета уникальных характеристик отдельных примеров. В то же время применение настраиваемых правил к каждому примеру является непрактичным для человеческих экспертов. В данной статье мы демонстрируем, что даже небольшие языковые модели, с количеством параметров всего 0.3B, могут обладать значительными возможностями по очистке данных, сравнимыми с возможностями человеческих экспертов. Мы представляем Программирование Каждого Примера (ProX), новую методику, которая рассматривает очистку данных как задачу программирования, позволяя моделям улучшать корпусы путем создания и выполнения тонких операций, таких как нормализация строк, для каждого отдельного примера в масштабе. Экспериментальные результаты показывают, что модели, предварительно обученные на данных, отфильтрованных с помощью ProX, превосходят как исходные данные, так и данные, отфильтрованные другими методами отбора, более чем на 2% по различным последующим бенчмаркам. Его эффективность охватывает различные размеры моделей и корпусы предварительного обучения, включая C4, RedPajama-V2 и FineWeb. Более того, ProX проявляет значительный потенциал в предварительном обучении, специфичном для области: без конкретного проектирования для области, модели, обученные на OpenWebMath и улучшенные с помощью ProX, превосходят методы, основанные на правилах, созданные людьми, улучшая среднюю точность на 7.6% по сравнению с Mistral-7B, на 14.6% для Llama-2-7B и на 20.3% для CodeLlama-7B, все это при количестве токенов 10B для сравнения с моделями, такими как Llemma-7B, обученными на 200B токенах. Дальнейший анализ подчеркивает, что ProX значительно экономит FLOPs обучения, предлагая многообещающий путь для эффективного предварительного обучения LLM. Мы открываем исходный код ProX с корпусом >100B, моделями и предоставляем все детали обучения и реализации для воспроизводимого исследования и будущих инноваций. Код: https://github.com/GAIR-NLP/ProX
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в обработке естественного языка, однако их фактические неточности и галлюцинации ограничивают их применение, особенно в критических областях, таких как здравоохранение. Методы извлечения контекста, представляя соответствующую информацию в качестве входных данных, стали ключевым подходом для улучшения фактичности и надежности LLM. В данном исследовании исследуются границы методов извлечения контекста в области здравоохранения, оптимизируя их компоненты и сравнивая их производительность с открытыми и закрытыми альтернативами. Наши результаты показывают, как открытые LLM, когда их дополняют оптимизированной системой извлечения, могут достичь производительности, сравнимой с крупнейшими частными решениями на установленных бенчмарках здравоохранения (вопросно-ответная система с множеством вариантов ответов). Учитывая нереалистичность включения возможных ответов в вопрос (сценарий, характерный только для медицинских экзаменов) и после оценки сильного снижения производительности LLM в отсутствие этих вариантов, мы расширяем систему извлечения контекста в этом направлении. В частности, мы предлагаем OpenMedPrompt - конвейер, который улучшает генерацию более надежных развернутых ответов, сближая эту технологию с практическим применением.
Пользуясь предварительно обученными 2D моделями диффузии и сэмплированием дистилляции оценок (SDS), недавние методы показали многообещающие результаты в области генерации трехмерных аватаров из текста. Однако создание высококачественных трехмерных аватаров, способных к выразительной анимации, остается сложной задачей. В данной работе мы представляем DreamWaltz-G, новую обучающую структуру для генерации анимируемых трехмерных аватаров из текста. Основой этой структуры является Дистилляция Оценок с Управлением Скелетом и Гибридное Представление 3D Гауссовского Аватара. Конкретно, предложенная дистилляция оценок с управлением скелетом интегрирует управление скелетом из 3D шаблонов человека в 2D модели диффузии, улучшая согласованность надзора SDS с точки зрения вида и позы человека. Это облегчает генерацию аватаров высокого качества, уменьшая проблемы, такие как множественные лица, дополнительные конечности и размытие. Предложенное гибридное 3D Гауссовское представление аватара основано на эффективных 3D гауссах, объединяя нейронные неявные поля и параметризованные 3D сетки для обеспечения реального времени рендеринга, стабильной оптимизации SDS и выразительной анимации. Обширные эксперименты демонстрируют, что DreamWaltz-G эффективен в генерации и анимации 3D аватаров, превосходя существующие методы как по визуальному качеству, так и по выразительности анимации. Наша структура также поддерживает различные приложения, включая реэнактмент видео с участием человека и композицию сцен с несколькими субъектами.
Недавние достижения в области дифференцируемого и нейронного рендеринга привели к впечатляющим прорывам в различных задачах 2D и 3D, например, в синтезе нового вида, реконструкции 3D. Обычно дифференцируемый рендеринг зависит от плотного покрытия точек обзора сцены, так чтобы геометрию можно было однозначно определить только по наблюдениям за внешним видом. Несколько вызовов возникают, когда доступно только несколько входных видов, часто называемых разреженным или малообученным нейронным рендерингом. Поскольку это недоопределенная проблема, большинство существующих подходов вводят использование регуляризации, вместе с разнообразием изученных и созданных вручную априорных знаний. Повторяющейся проблемой в литературе по разреженному рендерингу является отсутствие однородного, актуального набора данных и протокола оценки. В то время как высокоразрешающие наборы данных являются стандартом в литературе о плотной реконструкции, методы разреженного рендеринга часто оцениваются с использованием изображений низкого разрешения. Кроме того, разделение данных не согласовано между различными статьями, и тестовые изображения истинных значений часто доступны публично, что может привести к переобучению. В данной работе мы предлагаем набор данных Sparse Rendering (SpaRe) и бенчмарк. Мы представляем новый набор данных, который следует принципам набора данных DTU MVS. Набор данных состоит из 97 новых сцен на основе синтетических, высококачественных ресурсов. Каждая сцена имеет до 64 видов камеры и 7 конфигураций освещения, отрисованных с разрешением 1600x1200. Мы выпускаем обучающий набор из 82 сцен для поощрения обобщаемых подходов и предоставляем онлайн-платформу для оценки валидационного и тестового наборов, где изображения истинных значений остаются скрытыми. Мы предлагаем две различные разреженные конфигурации (соответственно 3 и 9 входных изображений). Это предоставляет мощный и удобный инструмент для воспроизводимой оценки и обеспечивает исследователям легкий доступ к общедоступной таблице лидеров с результатами современных показателей производительности. Доступно по ссылке: https://sparebenchmark.github.io/
Методы суперразрешения изображений на основе диффузии достигли значительного успеха, используя большие заранее обученные модели диффузии текста в изображение в качестве априорных знаний. Однако эти методы по-прежнему сталкиваются с двумя проблемами: необходимостью десятков этапов выборки для достижения удовлетворительных результатов, что ограничивает эффективность в реальных сценариях, и игнорированием моделей деградации, которые являются важной вспомогательной информацией при решении проблемы суперразрешения. В данной работе мы представляем новую модель суперразрешения за один шаг, которая значительно решает проблему эффективности методов суперразрешения на основе диффузии. В отличие от существующих стратегий дообучения, мы разработали модуль Low-Rank Adaptation (LoRA), специально предназначенный для суперразрешения, который корректирует параметры модели на основе предварительно оцененной информации о деградации из низкоразрешенных изображений. Этот модуль не только облегчает создание мощной модели суперразрешения, зависящей от данных или деградации, но также максимально сохраняет генеративное априорное знание заранее обученной модели диффузии. Кроме того, мы разработали новую схему обучения, внедрив стратегию генерации отрицательных образцов в реальном времени. В сочетании с стратегией руководства без классификатора во время вывода, это значительно улучшает воспринимаемое качество результатов суперразрешения. Обширные эксперименты продемонстрировали превосходную эффективность и эффективность предложенной модели по сравнению с недавними передовыми методами.
Мы представляем новый подход к синтезу ловких движений для физически моделируемых рук в задачах, требующих координации управления двумя руками с высокой временной точностью. Вместо прямого обучения совместной стратегии для управления двумя руками наш подход осуществляет бимануальное управление через кооперативное обучение, где каждая рука рассматривается как отдельный агент. Индивидуальные стратегии для каждой руки сначала обучаются отдельно, а затем синхронизируются через манипуляцию латентным пространством в централизованной среде для использования в качестве совместной стратегии для управления двумя руками. Таким образом, мы избегаем прямого обучения стратегии в совместном пространстве состояний-действий двух рук с более высокими размерностями, что значительно повышает общую эффективность обучения. Мы демонстрируем эффективность нашего предложенного подхода в сложной задаче игры на гитаре. Виртуальный гитарист, обученный нашим подходом, способен синтезировать движения из неструктурированных исходных данных об общих движениях игры на гитаре и точно играть разнообразные ритмы с сложными аккордовыми нажатиями и выбором струн на основе входных гитарных табулатур, которых нет в исходных данных. Вместе с этой статьей мы предоставляем данные захвата движения, которые мы собрали в качестве исходных данных для обучения стратегии. Код доступен по ссылке: https://pei-xu.github.io/guitar.
Большие языковые модели (LLM) революционизировали инженерию программного обеспечения (SE), проявив замечательные способности в различных задачах кодирования. В то время как недавние усилия привели к созданию автономных программных агентов на основе LLM для задач разработки end-to-end, эти системы обычно разрабатываются для конкретных задач SE. Мы представляем HyperAgent, новую общую мультиагентную систему, разработанную для решения широкого спектра задач SE на различных языках программирования путем имитации рабочих процессов человеческих разработчиков. Включая четыре специализированных агента - Планировщик, Навигатор, Редактор кода и Исполнитель. HyperAgent управляет полным жизненным циклом задач SE, от начальной концепции до окончательной верификации. Через обширные оценки HyperAgent достигает передового уровня производительности в различных задачах SE: он достигает успеха на уровне 25.01% в SWE-Bench-Lite и 31.40% в SWE-Bench-Verified для разрешения проблем GitHub, превзойдя существующие методы. Более того, HyperAgent демонстрирует передовую производительность в генерации кода на уровне репозитория (RepoExec), а также в локализации ошибок и исправлении программ (Defects4J), часто превосходя специализированные системы. Эта работа представляет собой значительный прогресс в направлении универсальных, автономных агентов, способных обрабатывать сложные, многоэтапные задачи SE в различных областях и языках, что потенциально изменит практики разработки программного обеспечения с помощью искусственного интеллекта.
Видео стало популярной формой медиаконтента для обмена информацией и потребления. Однако создание заметок во время просмотра видео требует значительного времени и усилий. Для решения этой проблемы мы предлагаем новую интерактивную систему NoTeeline для создания персонализированных заметок в реальном времени. NoTeeline позволяет пользователям быстро записывать ключевые моменты (микрозаметки), которые автоматически преобразуются в полноценные заметки, отражающие содержание микрозаметок пользователя и соответствующие его стилю письма. В рамках исследования внутри группы (N=12) мы обнаружили, что NoTeeline помогает пользователям создавать качественные заметки, отражающие суть их микрозаметок с более высокой фактической правильностью (93,2%), сохраняя их стиль письма. При использовании NoTeeline участники испытывали значительно меньшее умственное напряжение, создавали удовлетворительные заметки, используя на 47% меньше текста, и завершали процесс ведения заметок на 43,9% быстрее по сравнению с базовым уровнем ручного ведения заметок.
Технология геолокации на основе компьютерного зрения для БПЛА, дополняющая глобальные спутниковые системы навигации (ГНСС) в качестве вторичного источника информации GPS, способна функционировать независимо в условиях отсутствия сигнала GPS. Недавние методы на основе глубокого обучения рассматривают это как задачу сопоставления и поиска изображений. Путем извлечения изображений с видом с дрона из геомаркированной базы изображений спутников можно получить приблизительную информацию о локализации. Однако из-за высоких затрат и проблем с конфиденциальностью обычно сложно получить большие объемы изображений с видом с дрона из непрерывной области. Существующие наборы данных с видом с дрона в основном состоят из маломасштабной аэрофотосъемки с предположением о наличии идеального однозначно сопоставленного эталонного изображения для любого запроса, что оставляет значительный разрыв относительно практического сценария локализации. В данной работе мы создаем крупномасштабный набор данных для геолокации БПЛА в непрерывной области под названием GTA-UAV, включающий различные высоты, углы наклона, сцены и цели с использованием современных компьютерных игр. На основе этого набора данных мы представляем более практическую задачу геолокации БПЛА, включающую частичные совпадения кросс-видовых парных данных, и расширяем поиск на уровне изображения до фактической локализации в метрах. Для создания пар изображений с видом с дрона и видом со спутника мы используем подход на основе контрастного обучения с весами, что позволяет эффективно обучаться, избегая дополнительных шагов по сопоставлению после обработки. Эксперименты демонстрируют эффективность наших данных и метода обучения для геолокации БПЛА, а также их способность к обобщению на реальные сценарии.
Мы представляем новый фреймворк, который обучает динамическое нейронное поле радиации (NeRF) для полнотелых разговаривающих людей по видео с одной камеры. Предыдущие работы представляли только позу тела или лицо. Однако люди общаются с помощью всего своего тела, объединяя позу тела, жесты рук, а также мимику лица. В данной работе мы предлагаем TalkinNeRF, объединенную сеть на основе NeRF, которая представляет целостное 4D движение человека. Учитывая монокулярное видео объекта, мы обучаем соответствующие модули для тела, лица и рук, которые объединяются вместе для генерации конечного результата. Для захвата сложной артикуляции пальцев мы обучаем дополнительное поле деформации для рук. Наше множественное представление личности позволяет одновременное обучение для нескольких объектов, а также надежную анимацию под совершенно невидимыми позами. Оно также способно обобщаться на новые личности, имея только короткое видео на входе. Мы продемонстрировали передовые результаты в анимации полнотелых разговаривающих людей с детализированной артикуляцией рук и мимикой лица.
Мы представляем простой метод самообучения для решения проблемы отслеживания любой точки (TAP). Мы обучаем глобальный трансформер сопоставления для нахождения циклически последовательных треков через видео с помощью контрастных случайных блужданий, используя внимание глобального сопоставления трансформера для определения матриц перехода для случайного блуждания по пространственно-временному графу. Возможность выполнять сравнения "все с всем" между точками позволяет модели достигать высокой пространственной точности и получать сильный сигнал контрастного обучения, избегая многих сложностей недавних подходов (таких как грубое-к точному сопоставлению). Для этого мы предлагаем ряд проектных решений, позволяющих обучать архитектуры глобального сопоставления через самообучение с использованием циклической последовательности. Например, мы выявляем, что методы на основе трансформеров чувствительны к быстрым решениям и предлагаем схему аугментации данных для их устранения. Наш метод демонстрирует высокую производительность на бенчмарках TapVid, превосходя предыдущие методы самообучения отслеживания, такие как DIFT, и конкурентоспособен с несколькими методами обучения с учителем.