Ежедневно отобранные исследовательские статьи по ИИ с переводами
Компьютерное зрение (CV) до сих пор не достигло полного обобщения задач с нулевым обучением, наблюдаемого в обработке естественного языка (NLP), несмотря на то, что оно следует за многими вехами, установленными в NLP, такими как большие модели трансформеров, обширное предварительное обучение и парадигма авторегрессии, среди прочего. В этой статье мы исследуем идею, что CV принимает дискретные и терминологические определения задач (например, "сегментация изображений"), которые могут быть ключевым барьером для обобщения задач с нулевым обучением. Наша гипотеза заключается в том, что без истинного понимания ранее виденных задач - из-за этих терминологических определений - глубокие модели испытывают затруднения с обобщением на новые задачи. Для проверки этого мы представляем пояснительные инструкции, которые предоставляют интуитивный способ определения целей задач CV через подробные лингвистические преобразования от входных изображений к выходам. Мы создаем крупномасштабный набор данных, включающий 12 миллионов троек "входное изображение - пояснительная инструкция - выход", и обучаем модель зрения-языка на основе авторегрессии (AR-based VLM), которая принимает как изображения, так и пояснительные инструкции в качестве входных данных. Обучаясь следовать этим инструкциям, AR-based VLM достигает возможностей нулевого обучения на уровне инструкций для ранее виденных задач и демонстрирует сильное обобщение на нулевом уровне для невидимых задач CV. Код и набор данных будут открыто доступны в нашем репозитории GitHub.
Многомодальные крупные языковые модели (MLLM) имеют значительный потенциал в медицинской сфере, однако их возможности часто ограничены недостаточными данными в определенных медицинских областях, что подчеркивает необходимость понимания, какие виды изображений могут использоваться MLLM для обобщения. Существующие исследования показывают, что многозадачное обучение превосходит однозадачное, так как различные задачи могут взаимно пользоваться друг другом, но часто не учитывают внутренние взаимосвязи в этих задачах, что ограничивает рекомендации по выбору наборов данных для улучшения конкретных задач. Для анализа этого явления мы попытались использовать композиционное обобщение (CG) - способность моделей понимать новые комбинации путем повторного сочетания выученных элементов - в качестве руководящей концепции. Поскольку медицинские изображения могут быть точно определены по модальности, анатомической области и задаче, естественно создать среду для исследования CG. Поэтому мы собрали 106 медицинских наборов данных для создания Med-MAT для проведения всесторонних экспериментов. Эксперименты подтвердили, что MLLM могут использовать CG для понимания невидимых медицинских изображений и выявили CG как один из основных факторов обобщения, наблюдаемого при многозадачном обучении. Кроме того, дополнительные исследования показали, что CG эффективно поддерживает наборы данных с ограниченными данными и обеспечивает стабильную производительность на различных основах, подчеркивая его универсальность и широкие возможности применения. Med-MAT доступен публично по адресу https://github.com/FreedomIntelligence/Med-MAT.
Замечательная производительность моделей, таких как OpenAI o1, можно объяснить их способностью эмулировать человекоподобное мышление на длительные сроки во время вывода. Эти модели используют расширенные процессы цепочки мыслей (CoT), исследуя несколько стратегий для улучшения способностей к решению проблем. Однако остается критический вопрос: как интеллектуально и эффективно масштабировать вычислительные ресурсы во время тестирования. В данной статье представлено первое всестороннее исследование распространенной проблемы излишнего мышления в этих моделях, когда избыточные вычислительные ресурсы выделяются на простые задачи с минимальной пользой. Мы представляем новые метрики эффективности с точки зрения как результата, так и процесса, чтобы оценить рациональное использование вычислительных ресурсов моделями подобными o1. Используя парадигму самообучения, мы предлагаем стратегии для смягчения излишнего мышления, оптимизируя процессы рассуждения без ущерба точности. Экспериментальные результаты показывают, что наш подход успешно снижает вычислительные издержки, сохраняя производительность модели на различных наборах тестов с разными уровнями сложности, таких как GSM8K, MATH500, GPQA и AIME.
Недавние достижения в области генеративного моделирования теперь позволяют создавать контент в 4D (движущиеся 3D объекты), управляемый текстовыми подсказками. Генерация в 4D имеет большой потенциал в приложениях, таких как виртуальные миры, медиа и игры, однако существующие методы обладают ограниченным контролем над внешним видом и геометрией созданного контента. В данной работе мы представляем метод анимации предоставленных пользователем 3D объектов путем условной генерации в 4D с использованием текстовых подсказок для управления процессом, обеспечивая создание индивидуальных анимаций при сохранении исходной идентичности объекта. Сначала мы преобразуем 3D сетку в "статическое" 4D нейронное поле излучения (NeRF), сохраняющее визуальные характеристики входного объекта. Затем мы анимируем объект с помощью модели диффузии изображения в видео, управляемой текстом. Для улучшения реалистичности движения мы представляем протокол пошагового выбора точек зрения для выборки перспектив с целью стимулирования естественного движения, а также потерю выборки сжатия оценки (SDS), которая использует карты внимания для фокусировки оптимизации на значимых областях. Мы оцениваем нашу модель с точки зрения временной согласованности, соблюдения подсказок и визуальной достоверности, и обнаруживаем, что наш метод превосходит базовые варианты, основанные на других подходах, достигая улучшений в сохранении идентичности вплоть до трехкратного увеличения по мере использования оценок LPIPS, а также эффективно сбалансировав качество изображения с динамичным контентом.
Быстрое развитие крупных языковых моделей (LLM) разблокировало их возможности в продвинутых задачах рассуждения, таких как решение математических проблем, генерация кода и юридический анализ. Ключевым для этого прогресса являются алгоритмы рассуждения во время вывода, которые улучшают результаты, исследуя несколько путей решения, за счет увеличения вычислительной нагрузки и времени ответа. Существующие системы обслуживания не могут адаптироваться к масштабированию этих алгоритмов или изменчивой сложности запросов, что приводит к неэффективному использованию ресурсов и недостижению целей по времени отклика. Мы представляем Dynasor, систему, которая оптимизирует вычисления во время вывода для запросов рассуждения LLM. В отличие от традиционных движков, Dynasor отслеживает и планирует запросы в рамках запросов рассуждения и использует Certaindex, прокси, который измеряет статистический прогресс рассуждения на основе уверенности модели, для динамического руководства выделением вычислительных ресурсов. Dynasor совместно адаптирует планирование к прогрессу рассуждения: он выделяет больше вычислительных ресурсов для сложных запросов, уменьшает вычисления для более простых и досрочно завершает бесперспективные запросы, обеспечивая баланс между точностью, временем отклика и затратами. На разнообразных наборах данных и алгоритмах Dynasor сокращает вычисления до 50% при пакетной обработке и поддерживает повышение скорости запросов в 3,3 раза или сокращение времени отклика в 4,7 раза в реальном времени.
Мы представляем SWE-Gym, первую среду для обучения агентов по реальным задачам в инженерии программного обеспечения (SWE). SWE-Gym содержит 2 438 реальных задач на Python, каждая из которых включает кодовую базу с исполняемой средой, модульными тестами и задачу, описанную на естественном языке. Мы используем SWE-Gym для обучения агентов SWE на основе языковой модели, достигая до 19% абсолютного прироста в проценте успешного выполнения на популярных наборах тестов SWE-Bench Verified и Lite. Мы также экспериментируем с масштабированием на этапе вывода с помощью верификаторов, обученных на траекториях агентов, сэмплированных из SWE-Gym. При комбинировании с нашими настроенными агентами SWE мы достигаем результатов 32,0% и 26,0% на наборах тестов SWE-Bench Verified и Lite соответственно, что отражает новейшие достижения в области агентов SWE с открытым весом. Для облегчения дальнейших исследований мы публично выпускаем SWE-Gym, модели и траектории агентов.
Мы представляем TangoFlux, эффективную генеративную модель текста в аудио (TTA) с 515 миллионами параметров, способную генерировать до 30 секунд аудио с частотой 44,1 кГц всего за 3,7 секунды на одном графическом процессоре A40. Одной из ключевых проблем в выравнивании моделей TTA является сложность создания пар предпочтения, так как у TTA отсутствуют структурированные механизмы, такие как проверяемые вознаграждения или золотые стандартные ответы, доступные для больших языковых моделей (LLM). Для решения этой проблемы мы предлагаем CLAP-Ranked Preference Optimization (CRPO), новую структуру, которая итеративно генерирует и оптимизирует данные предпочтения для улучшения выравнивания TTA. Мы демонстрируем, что набор данных предпочтений аудио, сгенерированный с использованием CRPO, превосходит существующие альтернативы. С помощью этой структуры TangoFlux достигает передовой производительности как по объективным, так и по субъективным показателям. Мы открываем исходный код и модели для поддержки дальнейших исследований в области генерации TTA.
Как подтвержденная потребность, последовательное редактирование изображений в естественной среде остается технической проблемой, обусловленной различными неуправляемыми факторами, такими как позы объектов, условия освещения и фотографические окружения. Edicho предлагает решение без обучения на основе моделей диффузии, основанное на фундаментальном принципе использования явной корреспонденции изображений для направления редактирования. В частности, основные компоненты включают модуль манипуляции вниманием и стратегию денойзинга без классификатора (CFG), оба учитывающие предварительно оцененную корреспонденцию. Такой алгоритм времени вывода обладает свойством "подключи и играй" и совместим с большинством методов редактирования на основе диффузии, таких как ControlNet и BrushNet. Обширные результаты демонстрируют эффективность Edicho в последовательном редактировании изображений в различных условиях. Мы выпустим код для облегчения будущих исследований.
Мы представляем PERSE, метод для создания анимируемого персонализированного генеративного аватара из портрета-образца. Наша модель аватара позволяет редактировать лицевые атрибуты в непрерывном и разделенном латентном пространстве для контроля каждого лицевого атрибута, сохраняя при этом индивидуальную идентичность. Для достижения этой цели наш метод начинает с синтеза масштабных синтетических 2D видеоданных, где каждое видео содержит последовательные изменения в выражении лица и точке зрения, в сочетании с вариацией определенного лицевого атрибута из оригинального ввода. Мы предлагаем новый конвейер для создания высококачественных, фотореалистичных 2D видео с редактированием лицевых атрибутов. Используя этот синтетический набор данных атрибутов, мы представляем метод создания персонализированного аватара на основе 3D Гауссовского сплетения, обучая непрерывное и разделенное латентное пространство для интуитивного управления лицевыми атрибутами. Для обеспечения плавных переходов в этом латентном пространстве мы вводим технику регуляризации латентного пространства, используя интерполированные 2D лица в качестве надзора. По сравнению с предыдущими подходами, мы демонстрируем, что PERSE генерирует аватары высокого качества с интерполированными атрибутами, сохраняя идентичность образца-оригинала.
Быстрое развитие технологий крупных языковых моделей (LLM) привело к появлению мощных открытых LLM, настроенных на инструкции, которые обладают таким же качеством генерации текста, как у передовых аналогов, таких как GPT-4. В то время как появление таких моделей ускоряет принятие технологий LLM в средах с чувствительной информацией, авторы таких моделей не раскрывают данные обучения, необходимые для воспроизведения результатов, делая достижения эксклюзивными для модели. Поскольку эти открытые модели также многоязычны, это, в свою очередь, уменьшает преимущества обучения языковым моделям, так как улучшенная эффективность вычислений вывода становится единственным гарантированным преимуществом такой дорогостоящей процедуры. Более экономичные варианты, такие как расширение словаря и последующее продолжение предварительного обучения, также ограничены отсутствием доступа к данным высокого качества для настройки по инструкции, поскольку это является основным фактором, лежащим в основе возможностей решения задач LLM. Для преодоления ограничений и снижения затрат на процесс адаптации языка мы предлагаем метод Learned Embedding Propagation (LEP). В отличие от существующих подходов, наш метод требует меньшего объема данных обучения благодаря минимальному воздействию на существующие знания LLM, которые мы укрепляем с помощью новой процедуры внедрения встраивания ad-hoc, позволяющей пропустить этап настройки по инструкции и вместо этого внедрить новые языковые знания непосредственно в любой существующий вариант, настроенный по инструкции. Мы оценили четыре адаптации русского словаря для LLaMa-3-8B и Mistral-7B, показав, что LEP конкурентоспособен с традиционными методами настройки по инструкции, достигая производительности, сравнимой с OpenChat 3.5 и LLaMa-3-8B-Instruct, с дальнейшими улучшениями через самокалибровку и продолжение настройки, улучшающие возможности решения задач.
Мы представляем OneKE - систему извлечения знаний с управляемой схемой, запущенную в Docker, которая может извлекать знания из веб-ресурсов и необработанных PDF-книг, а также поддерживать различные области (наука, новости и т. д.). Конкретно, мы разработали OneKE с несколькими агентами и настраиваемой базой знаний. Различные агенты выполняют свои роли, обеспечивая поддержку различных сценариев извлечения. Настраиваемая база знаний облегчает настройку схемы, отладку ошибок и их исправление, что дополнительно повышает производительность. Эмпирические оценки на эталонных наборах данных демонстрируют эффективность OneKE, а кейс-исследования дополнительно поясняют его адаптивность к различным задачам в различных областях, выделяя его потенциал для широкого применения. Мы опубликовали исходный код на https://github.com/zjunlp/OneKE и выпустили видео на http://oneke.openkg.cn/demo.mp4.
Недавно "визуальный o1" начал появляться в поле зрения людей с ожиданиями, что этот медленный дизайн мышления может решить задачи визуального рассуждения, особенно геометрические математические задачи. Однако реальность заключается в том, что текущие LVLM (Большие Визуально-Языковые Модели) едва ли могут точно скопировать геометрическую фигуру, не говоря уже о том, чтобы по-настоящему понять сложную внутреннюю логику и пространственные отношения внутри геометрических форм. Мы считаем, что точное копирование (сильное восприятие) - это первый шаг к визуальному o1. Следовательно, мы представляем концепцию "медленного восприятия" (SP), которая направляет модель постепенно воспринимать базовые комбинации точек и линий, как это делают наши люди, постепенно восстанавливая сложные геометрические структуры. В SP есть два этапа: а) декомпозиция восприятия. Восприятие не мгновенно. На этом этапе сложные геометрические фигуры разбиваются на базовые простые единицы для унификации представления геометрии. б) поток восприятия, который признает, что точное прослеживание линии - не легкая задача. Этот этап направлен на избегание "длинных визуальных скачков" при регрессии линейных сегментов путем использования предложенного "воспринимающего линейку" для прослеживания каждого линейного штриха пошагово. Удивительно, что такой человекоподобный способ восприятия наслаждается законом масштабирования времени вывода - чем медленнее, тем лучше. Исследователи стремились ускорить восприятие модели в прошлом, но мы снова замедляем его, позволяя модели внимательно читать изображение пошагово и внимательно.
Мы представляем генерацию кода с автовызовом, новую задачу, разработанную для оценки прогрессивного мышления и способностей к решению проблем у LLM. В этой задаче моделям представляется базовая проблема и связанная с ней более сложная проблема. Они должны решить базовую проблему, а затем использовать ее решение для решения более сложной. Эта работа включает три ключевых вклада. Во-первых, мы предлагаем общий рецепт для создания более сложных версий существующих бенчмарков, что привело к появлению трех новых бенчмарков: HumanEval Pro, MBPP Pro и BigCodeBench-Lite Pro, специально разработанных для оценки LLM по генерации кода с автовызовом. Во-вторых, из анализа экспериментальных результатов более чем двадцати LLM на наших бенчмарках у нас есть два важных наблюдения: (i) Большинство LLM преуспевают в традиционных бенчмарках по генерации кода, таких как HumanEval и MBPP, но их производительность снижается на задачах с автовызовом. Например, o1-mini достигает 96.2% pass@1 на HumanEval, но только 76.2% на HumanEval Pro. (ii) В задаче генерации кода с автовызовом модели, настроенные на инструкции, демонстрируют лишь незначительные улучшения по сравнению с базовыми моделями. В-третьих, мы раскрываем типы режимов отказа, которые существуют в наших результатах оценки. Все эти результаты подчеркивают необходимость дальнейшего развития задач генерации кода с автовызовом и указывают на новое направление для будущих исследований по улучшению способностей LLM к рассуждению о коде.