Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) продемонстрировали впечатляющую универсальность в качестве моделей общего назначения. Однако их широкая применимость сопровождается высокими вычислительными затратами, особенно при авторегрессивном декодировании, где каждый шаг требует выполнения прямого прохода. В специализированных областях общие возможности избыточны и могут быть заменены на повышение эффективности. В данной работе мы предлагаем новый подход к адаптации доменов, снижая задержки и вычислительные затраты за счет адаптации словаря к узким областям интересов. Мы представляем AdaptiVocab — сквозной метод адаптации словаря, разработанный для повышения эффективности LLM в условиях ограниченных ресурсов. AdaptiVocab может быть применен к любому токенизатору и архитектуре, модифицируя словарь путем замены токенов на доменно-специфичные токены на основе n-грамм, что сокращает количество токенов, необходимых как для обработки входных данных, так и для генерации выходных. AdaptiVocab инициализирует новые вложения для n-токенов с использованием экспоненциально взвешенной комбинации существующих вложений и включает легковесный этап тонкой настройки, который может быть эффективно выполнен на одном GPU. Мы оцениваем две 7B LLM в трех узких доменах, анализируя эффективность, качество генерации и производительность на конечных задачах. Наши результаты показывают, что AdaptiVocab сокращает использование токенов более чем на 25% без ущерба для производительности.
Обучение с подкреплением на основе обратной связи от человека (RLHF) играет ключевую роль в согласовании крупных языковых моделей с человеческими предпочтениями. Хотя последние исследования сосредоточены на улучшении алгоритмов, важность конструирования данных для промптов остаётся недооцененной. В данной работе мы устраняем этот пробел, исследуя ограничения, связанные с данными, которые препятствуют масштабированию производительности RLHF, в частности, проблему "взлома наград" и снижение разнообразия ответов. Мы представляем гибридную систему наград, сочетающую верификаторы задач на рассуждение (RTV) и генеративную модель наград (GenRM), чтобы смягчить проблему взлома наград. Также мы предлагаем новый метод выбора промптов, Pre-PPO, для сохранения разнообразия ответов и повышения эффективности обучения. Кроме того, мы обнаружили, что приоритизация математических и программистских задач на ранних этапах обучения RLHF значительно улучшает производительность. Эксперименты на двух размерах моделей подтверждают эффективность и масштабируемость наших методов. Результаты показывают, что RTV наиболее устойчив к взлому наград, за ним следует GenRM с эталонными данными, а затем GenRM с ответами SFT Best-of-N. Наши стратегии позволяют быстро улавливать тонкие различия, специфичные для задач, что приводит к существенному улучшению общей производительности RLHF. Эта работа подчеркивает важность тщательного конструирования данных и предлагает практические методы для преодоления барьеров производительности в RLHF.
Недавние крупные модели рассуждений (Large Reasoning Models, LRMs), такие как DeepSeek-R1 и OpenAI o1, продемонстрировали значительные улучшения в производительности за счет увеличения длины цепочек рассуждений (Chain-of-Thought, CoT) во время вывода. Однако растущую озабоченность вызывает их склонность к генерации чрезмерно длинных трасс рассуждений, которые часто содержат избыточную информацию (например, повторяющиеся определения), излишний анализ простых задач и поверхностное исследование множественных путей рассуждений для более сложных задач. Эта неэффективность создает серьезные проблемы для обучения, вывода и практического применения (например, в агент-ориентированных системах), где экономия токенов имеет критическое значение. В данном обзоре мы предоставляем всесторонний анализ последних усилий, направленных на повышение эффективности рассуждений в LRMs, с особым акцентом на уникальные вызовы, возникающие в этой новой парадигме. Мы выявляем общие паттерны неэффективности, рассматриваем методы, предложенные на всех этапах жизненного цикла LRMs — от предварительного обучения до вывода, — и обсуждаем перспективные направления для будущих исследований. Для поддержки текущего развития мы также поддерживаем актуальный репозиторий на GitHub, отслеживающий последние достижения в этой области. Мы надеемся, что этот обзор послужит основой для дальнейшего изучения и вдохновит на инновации в этой быстро развивающейся сфере.
Последовательная рекомендация (SeqRec) направлена на предсказание следующего элемента путем выявления последовательных паттернов из исторических взаимодействий пользователей, играя ключевую роль во многих реальных рекомендательных системах. Однако существующие подходы преимущественно используют парадигму прямого прямого вычисления, где финальное скрытое состояние последовательностного кодировщика служит представлением пользователя. Мы утверждаем, что эта парадигма вывода, из-за ограниченной вычислительной глубины, с трудом моделирует сложную эволюцию предпочтений пользователей и недостаточно точно учитывает элементы из длинного хвоста, что приводит к неоптимальной производительности. Для решения этой проблемы мы предлагаем ReaRec — первую вычислительную платформу для рекомендательных систем, которая улучшает представления пользователей через неявное многошаговое рассуждение. В частности, ReaRec авторегрессивно подает последнее скрытое состояние последовательности в последовательный рекомендатель, одновременно включая специальные позиционные эмбеддинги для рассуждений, чтобы разделить исходное пространство кодирования элементов и пространство многошагового рассуждения. Кроме того, мы представляем два легковесных метода обучения на основе рассуждений: Ensemble Reasoning Learning (ERL) и Progressive Reasoning Learning (PRL), чтобы еще более эффективно раскрыть потенциал рассуждений ReaRec. Эксперименты на пяти публичных наборах реальных данных и различных архитектурах SeqRec демонстрируют универсальность и эффективность предложенного ReaRec. Примечательно, что постфактумные анализы показывают, что ReaRec значительно повышает верхний предел производительности нескольких базовых моделей последовательной рекомендации примерно на 30\%-50\%. Таким образом, мы считаем, что эта работа открывает новое и перспективное направление для будущих исследований в области вычислительных методов для последовательной рекомендации.
Мультимодальные большие языковые модели (MLLM) получили значительное внимание благодаря своей способности обрабатывать разнообразные типы входных данных и генерировать связные, контекстуально релевантные результаты в различных приложениях. Хотя контролируемая тонкая настройка (SFT) остается преобладающим подходом для улучшения возможностей MLLM в задачах специфической оптимизации, она часто не способствует развитию важных обобщенных способностей к рассуждению. Хотя обучение с подкреплением (RL) обещает преодолеть эти ограничения, оно сталкивается с двумя значительными проблемами: (1) его обобщенные способности в мультимодальных задачах остаются в значительной степени неисследованными, и (2) его ограничения в обучении, включая постоянную дивергенцию Кульбака-Лейблера или стратегию ограничения, часто приводят к субоптимальным узким местам. Для решения этих проблем мы предлагаем OThink-MR1, продвинутую MLLM, оснащенную глубокими способностями к пониманию и рассуждению в мультимодальных задачах. В частности, мы представляем Оптимизацию групповой относительной политики с динамической стратегией Кульбака-Лейблера (GRPO-D), которая значительно улучшает производительность обучения с подкреплением (RL). Для модели Qwen2-VL-2B-Instruct GRPO-D демонстрирует относительное улучшение более чем на 5,72% по сравнению с SFT и более чем на 13,59% по сравнению с GRPO в оценке на одних и тех же задачах на двух адаптированных наборах данных. Более того, GRPO-D показывает выдающиеся способности к кросс-задачному обобщению, с относительным улучшением в среднем более чем на 61,63% по сравнению с SFT в кросс-задачной оценке. Эти результаты подчеркивают, что MLLM, обученная с использованием GRPO-D на одной мультимодальной задаче, может быть эффективно перенесена на другую задачу, что демонстрирует превосходные обобщенные способности к рассуждению нашей модели OThink-MR1.
Мы представляем ORIGEN — первый метод для нулевого сценария (zero-shot) в задаче определения 3D-ориентации при генерации изображений по текстовому описанию для множества объектов и разнообразных категорий. В то время как предыдущие работы по пространственному закреплению в генерации изображений в основном сосредотачивались на 2D-позиционировании, они не обеспечивали контроля над 3D-ориентацией. Для решения этой проблемы мы предлагаем подход с использованием выборки, управляемой наградой, на основе предобученной дискриминативной модели для оценки 3D-ориентации и одношаговой модели генерации изображений по тексту. Хотя оптимизация на основе градиентного подъема является естественным выбором для управления с использованием наград, она сталкивается с трудностями в сохранении реалистичности изображений. Вместо этого мы применяем подход на основе выборки с использованием динамики Ланжевена, которая расширяет градиентный подъем путем простого добавления случайного шума — что требует всего одной дополнительной строки кода. Кроме того, мы вводим адаптивное масштабирование времени на основе функции награды для ускорения сходимости. Наши эксперименты показывают, что ORIGEN превосходит как методы, основанные на обучении, так и методы управления на этапе тестирования, по количественным метрикам и результатам пользовательских исследований.
Последние достижения в области генерации трехмерных говорящих голов на основе речи позволили добиться значительного прогресса в синхронизации губ. Однако существующие модели по-прежнему испытывают трудности с восприятием соответствия между различными характеристиками речи и соответствующими движениями губ. В данной работе мы утверждаем, что три критерия — временная синхронизация, читаемость губ и выразительность — имеют решающее значение для достижения воспринимаемо точных движений губ. Вдохновленные нашей гипотезой о существовании желаемого пространства представлений, удовлетворяющего этим трем критериям, мы вводим синхронизированное представление "речь-меш", которое фиксирует сложные соответствия между речевыми сигналами и трехмерными моделями лица. Мы обнаружили, что наше обученное представление демонстрирует желаемые характеристики, и интегрируем его в существующие модели в качестве перцептуального потерь для лучшего согласования движений губ с заданной речью. Кроме того, мы используем это представление как перцептуальную метрику и вводим две другие физически обоснованные метрики синхронизации губ, чтобы оценить, насколько хорошо сгенерированные трехмерные говорящие головы соответствуют этим трем критериям. Эксперименты показывают, что обучение моделей генерации трехмерных говорящих голов с использованием нашего перцептуального потерь значительно улучшает все три аспекта воспринимаемо точной синхронизации губ. Коды и наборы данных доступны по адресу https://perceptual-3d-talking-head.github.io/.
Мы представляем Free4D — новую настройку-свободную структуру для генерации 4D-сцен из одного изображения. Существующие методы либо сосредоточены на генерации на уровне объектов, что делает генерацию на уровне сцен невозможной, либо полагаются на крупномасштабные наборы данных многовидовых видео для дорогостоящего обучения, обладая ограниченной способностью к обобщению из-за недостатка данных 4D-сцен. В отличие от них, наше ключевое понимание заключается в дистилляции предварительно обученных базовых моделей для согласованного представления 4D-сцен, что предлагает такие преимущества, как эффективность и универсальность. 1) Для достижения этого мы сначала анимируем входное изображение с использованием моделей диффузии "изображение-в-видео", за которыми следует инициализация 4D-геометрической структуры. 2) Чтобы превратить эту грубую структуру в пространственно-временные согласованные многовидовые видео, мы разрабатываем адаптивный механизм управления с точечной стратегией шумоподавления для пространственной согласованности и новой стратегией замены латентных переменных для временной связности. 3) Чтобы поднять эти сгенерированные наблюдения до согласованного 4D-представления, мы предлагаем модуляционное уточнение для смягчения несогласованностей, полностью используя сгенерированную информацию. Полученное 4D-представление позволяет осуществлять рендеринг в реальном времени с возможностью управления, что знаменует значительный прогресс в генерации 4D-сцен на основе одного изображения.
Трансформеры для обработки изображений (Vision Transformers, ViTs) продемонстрировали выдающуюся производительность и масштабируемость в различных задачах компьютерного зрения. Для применения одноуровневых ViTs к сегментации изображений существующие методы используют сверточный адаптер для генерации многоуровневых признаков, пиксельный декодер для их объединения и трансформерный декодер, который использует объединенные признаки для предсказаний. В данной работе мы показываем, что индуктивные смещения, вводимые этими специфичными для задачи компонентами, могут быть изучены самим ViT при условии достаточно больших моделей и обширного предварительного обучения. Основываясь на этих выводах, мы представляем Encoder-only Mask Transformer (EoMT), который адаптирует простую архитектуру ViT для выполнения сегментации изображений. С использованием крупномасштабных моделей и предварительного обучения EoMT достигает точности сегментации, сопоставимой с современными моделями, использующими специфичные для задачи компоненты. При этом EoMT значительно быстрее этих методов благодаря своей архитектурной простоте, например, до 4 раз быстрее с ViT-L. Для различных размеров моделей EoMT демонстрирует оптимальный баланс между точностью сегментации и скоростью предсказания, что указывает на то, что вычислительные ресурсы лучше направлять на масштабирование самого ViT, а не на добавление архитектурной сложности. Код: https://www.tue-mps.org/eomt/.
Усовершенствование суммаризации сталкивается с трудностями при расширении на несколько измерений. В данной статье мы представляем ReFeed, мощный конвейер для улучшения суммаризации, который усиливает несколько измерений через рефлексивное рассуждение на основе обратной связи. Для достижения этого мы выпускаем SumFeed-CoT, крупномасштабный набор данных на основе Long-CoT, оптимизированный для обучения легковесной модели с рефлексивным рассуждением. Наши эксперименты показывают, как количество измерений, воздействие обратной связи и стратегия рассуждения влияют на производительность улучшения, подчеркивая, что рефлексивное рассуждение и одновременное рассмотрение множественной обратной связи имеют решающее значение для смягчения компромиссов между измерениями. Кроме того, ReFeed устойчив к зашумленной обратной связи и порядку обратной связи. Наконец, наше исследование подчеркивает, что создание данных с четкой целью и руководящими принципами составляет фундаментальную основу эффективного рассуждения. Набор данных и модель будут опубликованы.
В последнее время генерация многовидовых или 4D-видео стала важной темой исследований. Однако современные подходы к созданию 4D-контента по-прежнему сталкиваются с фундаментальными ограничениями, поскольку они в основном полагаются на использование нескольких моделей диффузии видео с дополнительным обучением или на ресурсоемкое обучение полной 4D-модели диффузии при ограниченном количестве реальных 4D-данных и высоких вычислительных затратах. Для решения этих проблем мы предлагаем первый метод генерации 4D-видео, не требующий обучения, который использует готовые модели диффузии видео для создания многовидовых видео из одного входного видео. Наш подход состоит из двух ключевых шагов: (1) Назначая граничные кадры в пространственно-временной сетке выборки в качестве ключевых кадров, мы сначала синтезируем их с помощью модели диффузии видео, используя метод деформации на основе глубины для обеспечения согласованности. Этот подход гарантирует структурную согласованность между сгенерированными кадрами, сохраняя пространственную и временную связность. (2) Затем мы интерполируем оставшиеся кадры с помощью модели диффузии видео, создавая полностью заполненную и временно согласованную сетку выборки, сохраняя при этом пространственную и временную согласованность. Таким образом, мы расширяем одно видео в многовидовое видео вдоль новых траекторий камеры, сохраняя пространственно-временную согласованность. Наш метод не требует обучения и полностью использует готовую модель диффузии видео, предлагая практичное и эффективное решение для генерации многовидовых видео.
Сегментация движущихся объектов является важной задачей для достижения высокоуровневого понимания визуальных сцен и имеет множество приложений. Люди могут без усилий сегментировать движущиеся объекты в видео. Предыдущие работы в основном полагались на оптический поток для предоставления информации о движении; однако этот подход часто приводит к несовершенным предсказаниям из-за таких проблем, как частичное движение, сложные деформации, размытие в движении и отвлекающие фоновые элементы. Мы предлагаем новый подход для сегментации движущихся объектов, который сочетает долгосрочные траекторные данные о движении с семантическими признаками на основе DINO и использует SAM2 для плотной маскировки на уровне пикселей через итеративную стратегию подсказок. Наша модель использует Пространственно-Временное Траекторное Внимание и Декомпозированное Вложение Движения и Семантики, чтобы приоритизировать движение, интегрируя семантическую поддержку. Обширное тестирование на различных наборах данных демонстрирует передовые результаты, превосходящие в сложных сценариях и точной сегментации множества объектов. Наш код доступен по адресу https://motion-seg.github.io/.
Мы представляем PHYSICS — всеобъемлющий эталонный набор для решения задач университетского уровня по физике. Он содержит 1297 задач, аннотированных экспертами и охватывающих шесть ключевых областей: классическую механику, квантовую механику, термодинамику и статистическую механику, электромагнетизм, атомную физику и оптику. Каждая задача требует глубоких знаний в физике и математического мышления. Мы разработали надежную автоматизированную систему оценки для точной и достоверной проверки. Наша оценка ведущих базовых моделей выявила существенные ограничения. Даже самая продвинутая модель, o3-mini, достигает точности всего 59,9%, что подчеркивает значительные трудности в решении задач высокого уровня сложности. Благодаря всестороннему анализу ошибок, исследованию различных стратегий подсказок и усилению знаний на основе Retrieval-Augmented Generation (RAG) мы определили ключевые направления для улучшения, закладывая основу для будущих достижений.
Отчасти мотивированные их значимостью для обучения с низкой точностью и квантования, массивные активации в больших языковых моделях (LLM) недавно стали предметом интереса. Однако существующие анализы ограничены по охвату, и обобщаемость между архитектурами остается неясной. Данная работа помогает устранить некоторые из этих пробелов, проводя анализ массивных активаций в широком спектре LLM, включая как архитектуры на основе GLU, так и без них. Наши результаты ставят под сомнение несколько предыдущих предположений, наиболее важные из которых: (1) не все массивные активации вредны, то есть их подавление не приводит к взрывному росту перплексии или ухудшению производительности на последующих задачах; (2) предлагаемые стратегии смягчения, такие как смещение Attention KV, специфичны для модели и в некоторых случаях неэффективны. В связи с этим мы исследуем новые гибридные стратегии смягчения; в частности, сочетание масштабирования целевой дисперсии (TVR) со смещением Attention KV или динамическим Tanh (DyT) успешно балансирует смягчение массивных активаций с сохранением производительности модели на последующих задачах в рассмотренных сценариях. Наш код доступен по адресу: https://github.com/bluorion-com/refine_massive_activations.
С растущим спросом на высококачественные 3D-модели, создаваемые из 2D-изображений, существующие методы по-прежнему сталкиваются с серьезными трудностями в точном воспроизведении детализированных геометрических особенностей из-за ограничений, связанных с разрывом доменов и внутренними неоднозначностями RGB-изображений. Для решения этих проблем мы предлагаем Hi3DGen — новый фреймворк для генерации высококачественной 3D-геометрии из изображений с использованием карт нормалей в качестве промежуточного представления. Hi3DGen состоит из трех ключевых компонентов: (1) оценщика изображений в нормали, который разделяет низко- и высокочастотные паттерны изображения с использованием инъекции шума и двухпоточного обучения для достижения обобщаемой, стабильной и четкой оценки; (2) подхода обучения от нормалей к геометрии, который использует латентное диффузионное обучение с регуляризацией нормалей для повышения точности генерации 3D-геометрии; и (3) конвейера синтеза 3D-данных, который создает высококачественный набор данных для поддержки обучения. Многочисленные эксперименты демонстрируют эффективность и превосходство нашего фреймворка в генерации богатых геометрических деталей, превосходящего современные методы по точности. Наша работа открывает новое направление для генерации высококачественной 3D-геометрии из изображений, используя карты нормалей в качестве промежуточного представления.
В данной статье мы представляем метод реконструкции трехмерных моделей человека из одного изображения с использованием биомеханически точной модели скелета. Для этого мы обучаем трансформер, который принимает изображение на вход и оценивает параметры модели. Из-за недостатка обучающих данных для этой задачи мы создаем конвейер для генерации псевдоистинных параметров модели для отдельных изображений и реализуем процедуру обучения, которая итеративно уточняет эти псевдоистинные метки. По сравнению с современными методами восстановления трехмерной сетки человека, наша модель демонстрирует конкурентоспособные результаты на стандартных тестовых наборах данных, при этом значительно превосходя их в условиях экстремальных трехмерных поз и ракурсов. Кроме того, мы показываем, что предыдущие методы реконструкции часто нарушают ограничения углов суставов, что приводит к неестественным вращениям. В отличие от этого, наш подход использует биомеханически правдоподобные степени свободы, что позволяет получать более реалистичные оценки вращения суставов. Мы проверяем наш подход на нескольких наборах данных для оценки позы человека. Код, модели и данные доступны по адресу: https://isshikihugh.github.io/HSMR/
Создание высококачественных 3D-сеток с произвольной топологией, включая открытые поверхности и сложные внутренние структуры, остается серьезной задачей. Существующие методы, основанные на неявных полях, часто требуют дорогостоящего и ухудшающего детализацию преобразования в водонепроницаемые модели, в то время как другие подходы сталкиваются с трудностями при работе с высокими разрешениями. В данной статье представлен SparseFlex — новый изоповерхностный метод, основанный на разреженной структуре, который позволяет выполнять дифференцируемую реконструкцию сеток с разрешением до 1024^3 непосредственно на основе потерь при рендеринге. SparseFlex сочетает точность Flexicubes с разреженной воксельной структурой, концентрируя вычисления на областях, прилегающих к поверхности, и эффективно обрабатывая открытые поверхности. Ключевым нововведением является стратегия обучения с учетом фрустума, которая активирует только релевантные воксели во время рендеринга, значительно снижая потребление памяти и позволяя обучение на высоких разрешениях. Это также впервые делает возможной реконструкцию внутренних структур сетки только на основе потерь при рендеринге. На основе этого мы демонстрируем полный конвейер моделирования форм, обучая вариационный автоэнкодер (VAE) и трансформер с исправленным потоком для генерации высококачественных 3D-форм. Наши эксперименты показывают наилучшую точность реконструкции с уменьшением расстояния Чамфера на ~82% и увеличением F-меры на ~88% по сравнению с предыдущими методами, а также демонстрируют генерацию высокодетализированных 3D-форм с произвольной топологией. Благодаря возможности дифференцируемой реконструкции и генерации сеток с высоким разрешением на основе потерь при рендеринге, SparseFlex значительно продвигает современные методы представления и моделирования 3D-форм.
Мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие способности в понимании 2D изображений и видео. Однако отсутствуют публично стандартизированные бенчмарки для оценки способностей MLLMs в понимании 4D объектов (3D объектов с временной эволюцией). В данной статье мы представляем 4D-Bench — первый бенчмарк для оценки возможностей MLLMs в понимании 4D объектов, включающий задачи в области вопросно-ответных систем (4D object QA) и генерации описаний для 4D объектов (4D object captioning). 4D-Bench предоставляет 4D объекты с разнообразными категориями, высококачественными аннотациями и задачами, требующими многомерного пространственно-временного понимания, что отличает его от существующих бенчмарков, основанных на 2D изображениях и видео. С помощью 4D-Bench мы оцениваем широкий спектр открытых и закрытых MLLMs. Результаты эксперимента по генерации описаний для 4D объектов показывают, что MLLMs в целом демонстрируют более слабое понимание временных аспектов по сравнению с пониманием внешнего вида. В частности, хотя открытые модели приближаются к производительности закрытых моделей в понимании внешнего вида, они показывают более значительные разрывы в понимании временных аспектов. Вопросно-ответные задачи для 4D объектов дают удивительные результаты: даже с простыми видео, содержащими один объект, MLLMs показывают низкую производительность, при этом GPT-4o, являющаяся передовой моделью, достигает точности всего 63\% по сравнению с человеческим базовым уровнем в 91\%. Эти результаты подчеркивают существенный разрыв в понимании 4D объектов и необходимость дальнейшего развития MLLMs.
Разработка надежных систем искусственного интеллекта для помощи врачам в многомодальной медицинской диагностике долгое время была ключевой целью для исследователей. В последнее время многомодальные большие языковые модели (MLLMs) привлекли значительное внимание и добились успеха в различных областях. Обладая мощными способностями к рассуждению и возможностью выполнять разнообразные задачи на основе инструкций пользователя, они имеют большой потенциал для улучшения медицинской диагностики. Однако прямое применение MLLMs в медицинской области все еще сопряжено с трудностями. Они недостаточно детально воспринимают визуальные данные, что ограничивает их способность выполнять количественный анализ изображений, который имеет решающее значение для медицинской диагностики. Кроме того, MLLMs часто демонстрируют галлюцинации и несоответствия в рассуждениях, тогда как клинические диагнозы должны строго соответствовать установленным критериям. Для решения этих проблем мы предлагаем MedAgent-Pro — систему, основанную на доказательствах и предназначенную для достижения надежной, объяснимой и точной медицинской диагностики. Это реализуется через иерархический рабочий процесс: на уровне задачи рассуждения, основанные на знаниях, генерируют надежные диагностические планы для конкретных заболеваний в соответствии с извлеченными клиническими критериями. На уровне случая несколько инструментальных агентов обрабатывают многомодальные данные, анализируют различные показатели в соответствии с планом и предоставляют окончательный диагноз на основе как количественных, так и качественных доказательств. Комплексные эксперименты на задачах 2D и 3D медицинской диагностики демонстрируют превосходство и эффективность MedAgent-Pro, а кейс-стади дополнительно подчеркивают его надежность и интерпретируемость. Код доступен по адресу https://github.com/jinlab-imvr/MedAgent-Pro.
Традиционная классификация изображений требует предопределенного списка семантических категорий. В отличие от этого, крупные мультимодальные модели (LMMs) могут обойти это требование, классифицируя изображения напрямую с использованием естественного языка (например, отвечая на запрос "Что является основным объектом на изображении?"). Несмотря на эту впечатляющую способность, большинство существующих исследований по производительности классификации LMMs удивительно ограничены по охвату, часто предполагая закрытую среду с предопределенным набором категорий. В данной работе мы устраняем этот пробел, тщательно оценивая производительность классификации LMMs в действительно открытой среде. Сначала мы формализуем задачу и вводим протокол оценки, определяя различные метрики для оценки соответствия между предсказанными и истинными классами. Затем мы оцениваем 13 моделей на 10 тестовых наборах, охватывающих прототипические, не-прототипические, тонкие и очень тонкие классы, демонстрируя трудности, с которыми сталкиваются LMMs в этой задаче. Дополнительные анализы на основе предложенных метрик выявляют типы ошибок, совершаемых LMMs, подчеркивая проблемы, связанные с гранулярностью и способностями к тонкой классификации, показывая, как адаптированные запросы и рассуждения могут их смягчить.
Искусственный интеллект для разработки программного обеспечения добился значительных успехов в последнее время, став одним из заметных достижений в области генеративного ИИ. Тем не менее, перед тем как автоматизированная разработка ПО сможет полностью раскрыть свой потенциал, предстоит решить множество задач. В идеале можно достичь высокого уровня автоматизации, при котором люди смогут сосредоточиться на принятии ключевых решений о том, что создавать и как балансировать сложные компромиссы, в то время как большая часть рутинной разработки будет автоматизирована. Достижение такого уровня автоматизации потребует значительных исследовательских и инженерных усилий как в академической среде, так и в промышленности. В данной статье мы стремимся обсудить прогресс в этом направлении в трех аспектах. Во-первых, мы предлагаем структурированную таксономию конкретных задач в области ИИ для разработки ПО, подчеркивая множество других задач, помимо генерации и завершения кода. Во-вторых, мы выделяем несколько ключевых ограничений, которые сдерживают современные подходы. Наконец, мы представляем субъективный список перспективных направлений исследований, которые могут помочь преодолеть эти ограничения, надеясь вдохновить будущие исследования в этой быстро развивающейся области.
Реконструкция четырехмерной компьютерной томографии (4D CT) играет ключевую роль в захвате динамических анатомических изменений, однако сталкивается с присущими ограничениями традиционных подходов, основанных на фазовой дискретизации. Современные методы разделяют временное разрешение на фиксированные фазы с использованием устройств респираторной синхронизации, что приводит к смещению движения и ограничивает клиническую применимость. В данной работе мы предлагаем X^2-Gaussian — новый фреймворк, который позволяет выполнять непрерывную реконструкцию 4D-CT за счет интеграции динамического радиационного гауссова сплайсинга с самообучением респираторного движения. Наш подход моделирует анатомическую динамику с помощью пространственно-временной архитектуры кодировщика-декодера, которая предсказывает изменяющиеся во времени гауссовы деформации, устраняя необходимость фазовой дискретизации. Чтобы исключить зависимость от внешних устройств синхронизации, мы вводим физиологически обусловленную функцию потерь периодической согласованности, которая обучается на специфичных для пациента дыхательных циклах непосредственно из проекций с использованием дифференцируемой оптимизации. Экстенсивные эксперименты демонстрируют передовые результаты, достигая увеличения PSNR на 9,93 дБ по сравнению с традиционными методами и на 2,25 дБ в сравнении с предыдущими техниками гауссова сплайсинга. Объединяя непрерывное моделирование движения с аппаратно-независимым обучением периодичности, X^2-Gaussian продвигает высококачественную реконструкцию 4D CT для динамической клинической визуализации. Проектный сайт: https://x2-gaussian.github.io/.
Намерение, обычно четко сформулированное и спланированное, служит когнитивной основой для рассуждений и решения задач. В данной статье представлена концепция "Говорения с намерением" (Speaking with Intent, SWI) в больших языковых моделях (LLM), где явно сгенерированное намерение отражает скрытую цель модели и предоставляет высокоуровневое планирование для последующего анализа и коммуникации. Подражая осознанным и целенаправленным мыслям человеческого разума, SWI, как предполагается, улучшает способности к рассуждению и качество генерации LLM. Многочисленные эксперименты на тестах математического рассуждения последовательно демонстрируют превосходство "Говорения с намерением" над базовым подходом (т.е. генерацией без явного намерения). Более того, SWI превосходит методы подсказок с триггерами ответов, такие как "Цепочка мыслей" (Chain-of-Thought) и "Планирование и решение" (Plan-and-Solve), и сохраняет конкурентоспособность с мощным методом ARR (Анализ, Извлечение и Рассуждение). Кроме того, эффективность и универсальность SWI подтверждаются на тестах, требующих интенсивного рассуждения, таких как ответы на вопросы (QA) и суммаризация текста, где SWI обеспечивает стабильное улучшение базовой генерации. В суммаризации текста сводки, созданные с использованием SWI, демонстрируют большую точность, лаконичность и фактическую достоверность, с меньшим количеством галлюцинаций. Кроме того, человеческие оценки подтверждают связность, эффективность и интерпретируемость намерений, созданных SWI. Это исследование, представляющее собой доказательство концепции, открывает новый путь для улучшения способностей LLM к рассуждению с использованием когнитивных концепций.