Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) и большие модели видео-языкового восприятия (LVLM) продемонстрировали впечатляющие способности к языковому/визуальному рассуждению, зажигая недавний тренд создания агентов для целевых приложений, таких как помощники по покупкам или искусственные инженеры-программисты. Недавно было предложено много бенчмарков в области науки о данных для изучения их производительности в области науки о данных. Однако существующие бенчмарки в области науки о данных все еще уступают по сравнению с реальными приложениями в области науки о данных из-за упрощенных настроек. Для устранения этого разрыва мы представляем DSBench, комплексный бенчмарк, разработанный для оценки агентов по науке о данных с реалистичными задачами. Этот бенчмарк включает в себя 466 задач анализа данных и 74 задачи моделирования данных, взятые из соревнований Eloquence и Kaggle. DSBench предлагает реалистичную среду, охватывая длинные контексты, мультимодальные фоны задач, рассуждения с большими файлами данных и многотабличные структуры, а также выполнение задач моделирования данных от начала до конца. Наша оценка передовых LLM, LVLM и агентов показывает, что они испытывают трудности с большинством задач, лучший агент решает лишь 34,12% задач анализа данных и достигает 34,74% Относительного разрыва производительности (RPG). Эти результаты подчеркивают необходимость дальнейших усовершенствований в разработке более практичных, интеллектуальных и автономных агентов по науке о данных.
Большие языковые модели (LLM) показывают выдающийся потенциал для действия в качестве компьютерных агентов, повышая производительность человека и доступность программного обеспечения в мультимодальных задачах, требующих планирования и рассуждений. Однако измерение производительности агента в реалистичных средах остается вызовом, поскольку: (i) большинство бенчмарков ограничены конкретными модальностями или областями (например, только текст, навигация в Интернете, вопросно-ответные системы, программирование) и (ii) полные оценки бенчмарков занимают много времени (порядка дней) из-за многошаговой последовательной природы задач. Для решения этих проблем мы представляем Windows Agent Arena: воспроизводимую общую среду, сосредоточенную исключительно на операционной системе Windows, где агенты могут свободно действовать в реальной операционной системе Windows и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, доступных человеческим пользователям при решении задач. Мы адаптируем фреймворк OSWorld (Сиэ и др., 2024) для создания 150+ разнообразных задач Windows в представительных областях, требующих умений агента в планировании, понимании экрана и использовании инструментов. Наш бенчмарк масштабируем и может быть легко параллельно выполнен в Azure для полной оценки бенчмарка всего за 20 минут. Для демонстрации возможностей Windows Agent Arena мы также представляем нового мультимодального агента, Navi. Наш агент достигает показателя успешности 19,5% в области Windows по сравнению с производительностью 74,5% непомощенного человека. Navi также демонстрирует высокую производительность на другом популярном веб-бенчмарке, Mind2Web. Мы предлагаем обширный количественный и качественный анализ производительности Navi и предоставляем идеи для будущих исследований в области развития агентов и генерации данных с использованием Windows Agent Arena. Веб-страница: https://microsoft.github.io/WindowsAgentArena Код: https://github.com/microsoft/WindowsAgentArena
Недавние достижения в области крупных языковых моделей (КЯМ) вызвали оптимизм относительно их потенциала ускорить научные открытия, с растущим числом работ, предлагающих исследовательских агентов, которые автономно генерируют и проверяют новые идеи. Тем не менее, ни одна из оценок не показала, что системы КЯМ могут сделать первый шаг в создании новых идей на уровне эксперта, не говоря уже о выполнении всего исследовательского процесса. Мы решаем эту проблему, установив экспериментальное проектирование, которое оценивает генерацию идей для исследований, контролируя факторы помех и проводя первое прямое сравнение между экспертами-исследователями в области обработки естественного языка и агентом генерации идей на основе КЯМ. Рекрутируя более 100 исследователей в области обработки естественного языка для написания новых идей и проведения слепых рецензий как на идеи, сгенерированные КЯМ, так и на идеи, созданные людьми, мы получаем первое статистически значимое заключение о текущих возможностях КЯМ в области генерации идей для исследований: мы обнаруживаем, что идеи, сгенерированные КЯМ, оцениваются как более новаторские (p < 0.05), чем идеи экспертов, хотя их оценивают немного слабее с точки зрения осуществимости. Изучая наши базовые агенты внимательно, мы выявляем открытые проблемы в создании и оценке исследовательских агентов, включая неудачи самооценки КЯМ и их недостаток разнообразия в генерации. Наконец, мы признаем, что человеческие оценки новизны могут быть сложными, даже для экспертов, и предлагаем дизайн исследования "от начала до конца", который рекрутирует исследователей для реализации этих идей в полноценные проекты, что позволит нам изучить, приводят ли эти оценки новизны и осуществимости к существенным различиям в результате исследования.
В то время как модели диффузии текста в изображение (T2I) отличаются в создании визуально привлекательных изображений отдельных экземпляров, они испытывают трудности с точным позиционированием и управлением генерацией особенностей нескольких экземпляров. Задача разметки на изображение (L2I) была представлена для решения проблем позиционирования путем включения ограничивающих рамок в качестве сигналов пространственного управления, но она все еще не обеспечивает точную генерацию особенностей экземпляров. В ответ на это мы предлагаем задачу генерации особенностей экземпляра (IFG), которая направлена на обеспечение как точности позиционирования, так и верности особенностей в созданных экземплярах. Для решения задачи IFG мы представляем адаптер особенностей экземпляра (IFAdapter). IFAdapter улучшает изображение особенностей путем включения дополнительных токенов внешнего вида и использования семантической карты экземпляра для выравнивания особенностей на уровне экземпляра с пространственными положениями. IFAdapter направляет процесс диффузии как модуль "подключи и используй", что делает его адаптивным к различным моделям сообщества. Для оценки мы предлагаем бенчмарк IFG и разрабатываем конвейер верификации для объективного сравнения способностей моделей генерировать экземпляры с точным позиционированием и особенностями. Экспериментальные результаты показывают, что IFAdapter превосходит другие модели как в количественных, так и в качественных оценках.
Большие языковые модели по-прежнему испытывают трудности в сложных сценариях, использующих структурированные данные, сложное рассуждение или использование инструментов. В данной статье мы предлагаем метод Source2Synth: новый подход, который можно использовать для обучения LLM новым навыкам без использования дорогостоящих аннотаций человека. Source2Synth принимает на вход исходный набор данных и генерирует синтетические данные с промежуточными шагами рассуждения, основанными на реальных источниках. Source2Synth улучшает качество набора данных путем отбрасывания низкокачественных генераций на основе их ответственности. Мы демонстрируем общность этого подхода, применяя его к двум сложным областям: мы проверяем способности к рассуждению в многошаговом вопросно-ответном взаимодействии (MHQA) и использование инструментов в вопросно-ответном взаимодействии с таблицами (TQA). Наш метод повышает производительность на 25.51% для TQA на WikiSQL и на 22.57% для MHQA на HotPotQA по сравнению с настроенными базовыми моделями.
Недавние прорывы в моделях текст-в-изображение открыли многообещающие исследовательские пути в персонализированной генерации изображений, позволяя пользователям создавать разнообразные изображения конкретного объекта с использованием естественных языковых подсказок. Однако существующие методы часто страдают от снижения производительности при наличии только одного ссылочного изображения. Они имеют тенденцию переобучаться на входных данных, производя высоко похожие результаты независимо от текстовой подсказки. В данной статье рассматривается вызов персонализации с однократным применением путем смягчения переобучения, позволяя создавать управляемые изображения через текстовые подсказки. Конкретно, мы предлагаем стратегию селективного дообучения, сосредотачиваясь на текстовом кодировщике. Кроме того, мы представляем три ключевые техники для улучшения производительности персонализации: (1) аугментационные токены для поощрения дезентанглирования признаков и смягчения переобучения, (2) потерю сохранения знаний для снижения языкового дрейфа и продвижения обобщаемости по разнообразным подсказкам, и (3) взвешенную выборку по отношению сигнал-шум для эффективного обучения. Обширные эксперименты демонстрируют, что наш подход эффективно генерирует высококачественные, разнообразные изображения с использованием только одного ссылочного изображения, существенно снижая требования к памяти и хранилищу.
Мы представляем DreamHOI, новый метод для синтеза взаимодействий человек-объект (HOI) с нулевой обучающей выборкой, позволяющий 3D модели человека реалистично взаимодействовать с любым заданным объектом на основе текстового описания. Эта задача усложнена разнообразием категорий и геометрий реальных объектов и недостаточностью наборов данных, охватывающих разнообразные HOI. Чтобы обойти необходимость в обширных данных, мы используем модели диффузии текста в изображение, обученные на миллиардах пар изображение-подпись. Мы оптимизируем артикуляцию сетчатой модели человека, используя градиенты Score Distillation Sampling (SDS), полученные из этих моделей, которые предсказывают правки в пространстве изображения. Однако прямое обратное распространение градиентов в пространстве изображения на сложные параметры артикуляции неэффективно из-за локальной природы таких градиентов. Для преодоления этого мы представляем двойное неявное-явное представление сетчатой модели, объединяя (неявные) нейронные радиационные поля (NeRF) с (явными) параметрами артикуляции сетчатой модели, управляемыми скелетом. Во время оптимизации мы переходим между неявными и явными формами, закрепляя генерацию NeRF и уточняя артикуляцию сетчатой модели. Мы проверяем наш подход через обширные эксперименты, демонстрируя его эффективность в генерации реалистичных HOI.
Под побуждением волны больших языковых моделей (LLM) большие модели визуального языка (LVLM) появились как ключевое достижение, сокращающее разрыв между изображением и текстом. Однако видео создает сложности для LVLM в достижении адекватной производительности из-за сложности взаимосвязи между языком и пространственно-временной структурой данных. Недавние большие модели видео-языка (LVidLM) выравнивают особенность статических визуальных данных, таких как изображение, в латентное пространство языковой особенности, обобщая мультимодальные задачи для достижения достаточного использования возможностей LLM. В данной статье мы исследуем метод тонкой настройки выравнивания через траекторию объекта для различных модальностей одновременно по пространственным и временным измерениям. Таким образом, мы предлагаем новую модель LVidLM с траекторией-ориентированным выравниванием пикселей и времени, названную PiTe, которая обладает многообещающими применимыми свойствами модели. Для достижения тонкой настройки выравнивания видео-языка мы создаем мультимодальный набор данных для предварительного обучения PiTe-143k, предоставляющий данные о движущихся траекториях на уровне пикселей для всех отдельных объектов, которые появляются и упоминаются как в видео, так и в подписи, с помощью нашего автоматического аннотационного конвейера. Тем временем PiTe демонстрирует поразительные возможности в различных мультимодальных задачах, связанных с видео, превосходя существующие методы с большим отрывом.
Данное исследование рассматривает проблему точного сегментирования трехмерного гауссовского сплэтинга из двумерных масок. Традиционные методы часто полагаются на итеративный градиентный спуск для присвоения каждому гауссиану уникальной метки, что приводит к длительной оптимизации и субоптимальным решениям. Вместо этого мы предлагаем простой, но глобально оптимальный солвер для сегментации трехмерного гауссовского сплэтинга. Основная идея нашего метода заключается в том, что с восстановленной трехмерной сценой гауссовского сплэтинга рендеринг двумерных масок в основном является линейной функцией относительно меток каждого гауссиана. Таким образом, оптимальное присвоение меток может быть решено с помощью линейного программирования в замкнутой форме. Это решение использует характеристику альфа-смешивания процесса сплэтинга для оптимизации за один шаг. Включив фоновое смещение в нашу целевую функцию, наш метод проявляет превосходную устойчивость в трехмерной сегментации против шумов. Замечательно, что наша оптимизация завершается менее чем за 30 секунд, примерно в 50 раз быстрее, чем лучшие существующие методы. Обширные эксперименты демонстрируют эффективность и устойчивость нашего метода при сегментации различных сцен, а также его превосходную производительность в последующих задачах, таких как удаление объектов и заполнение пробелов. Демонстрации и код будут доступны на https://github.com/florinshen/FlashSplat.
Обнаружение объектов вне диапазона (Out-of-distribution, OOD) является сложной задачей из-за отсутствия открытых данных OOD с открытым набором. Вдохновленные последними достижениями в генеративных моделях текста-изображения, таких как Stable Diffusion, мы изучаем потенциал генеративных моделей, обученных на масштабных открытых данных с открытым набором, для синтеза образцов OOD с целью улучшения обнаружения объектов OOD. Мы представляем SyncOOD, простой метод курирования данных, который использует возможности крупных фундаментальных моделей для автоматического извлечения содержательных данных OOD из генеративных моделей текста-изображения. Это предоставляет модели доступ к знаниям открытого мира, заключенным в готовых фундаментальных моделях. Синтетические образцы OOD затем используются для дополнения обучения легкого, подключаемого детектора OOD, что эффективно оптимизирует границы принятия решений внутри диапазона (ID)/OOD. Обширные эксперименты на нескольких бенчмарках показывают, что SyncOOD значительно превосходит существующие методы, устанавливая новое современное качество работы с минимальным использованием синтетических данных.