Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального восприятия. Однако большинство существующих MLLM полагаются на авторегрессионную генерацию, что ограничивает их эффективность для задач перцепции, требующих описания нескольких областей. В данной работе мы предлагаем PerceptionDLM — мультимодальную диффузионную языковую модель, оптимизированную для эффективного параллельного восприятия областей. Наша архитектура построена на основе PerceptionDLM-Base — сильного базового решения, достигающего передовых результатов среди открытых диффузионных MLLM, и полностью использует преимущества параллельного декодирования, присущего диффузионным языковым моделям (DLM). В частности, мы вводим эффективный промптинг и структурированное внимание с маскированием, чтобы обеспечить одновременное восприятие нескольких маскированных областей, что позволяет модели генерировать описания областей параллельно как на уровне последовательностей, так и на уровне токенов. Такая конструкция значительно повышает эффективность вывода по сравнению с существующими подходами, которые обрабатывают области последовательно. Для систематической оценки свойства параллелизма визуальной перцепции у DLM мы создали новый бенчмарк параллельного детализированного локализованного описания (ParaDLC-Bench), расширив DLC-Bench включением нескольких масок областей на изображение, что позволяет совместно оценивать как качество описаний, так и эффективность вывода. Эксперименты показывают, что PerceptionDLM сохраняет конкурентоспособную производительность в описании областей, одновременно достигая существенного ускорения для задач восприятия нескольких областей. Наши результаты подчеркивают потенциал мультимодальных диффузионных языковых моделей для эффективного параллельного визуального восприятия. Насколько нам известно, мы первые, кто добился параллельного описания и восприятия областей, используя преимущества диффузионных языковых моделей. Код, модели и наборы данных опубликованы.
Генерация персонализированных презентаций требует не только адаптации к текущему запросу или шаблону: агенты должны сохранять стабильные пользовательские предпочтения между задачами, удерживать вновь введённые предпочтения и ограничения в ходе многораундового редактирования, а также надёжно выполнять локальные правки. Мы предлагаем MemSlides — иерархическую структуру памяти для агентов персонализированных презентаций, которая разделяет долговременную и рабочую память, а также дополнительно подразделяет долговременную память на память профилей пользователей и инструментальную память. Память профилей пользователей хранит профили, обусловленные намерениями, для персонализации на нулевом раунде; рабочая память переносит активные предпочтения и ограничения сеанса между раундами редактирования; инструментальная память хранит повторно используемый опыт выполнения для надёжного локального редактирования. MemSlides дополняет эту архитектуру памяти ограниченной по области локальной правкой слайдов, так что целевые обновления воздействуют на наименьшую затронутую область вместо повторной генерации всей презентации. В контролируемых экспериментах память профилей пользователей улучшает оценки соответствия персонажу в банке профилей с несколькими персонажами и намерениями, внедрение инструментальной памяти улучшает поведение при модификации в замкнутом цикле в диагностических настройках с парным сравнением, а качественные примеры иллюстрируют способность рабочей памяти переносить предпочтения. В совокупности эти результаты указывают на то, что эффективная персонализация при создании презентаций зависит от разделения устойчивых профилей пользователей, рабочей памяти на уровне сеанса и повторно используемого опыта выполнения на этапах генерации и локального редактирования.
Бенчмарки памяти для LLM-агентов в значительной степени предполагают сценарии с одним пользователем, оставляя без должного внимания общих ассистентов для больниц, рабочих мест, кампусов и домохозяйств. В таких развертываниях несколько принципалов записывают данные в общий пул памяти и запрашивают его в разных ролях, объемах и отношениях, поэтому качество памяти требует как управления, так и воспроизведения. Мы представляем GateMem — бенчмарк для агентов с общей памятью, работающих с несколькими принципалами. GateMem совместно оценивает полезность для легитимных долгосрочных запросов с обновлением состояния, контроль доступа через контекстуальные границы авторизации и ориентированное на агента активное забывание после явных запросов на удаление. Он охватывает медицинскую, офисную, образовательную и бытовую сферы, включая многосторонние эпизоды в длинной форме, инкрементальное внесение памяти, скрытые контрольные точки, структурированное оценивание и аннотации утечек. На различных базовых линиях и моделях-основах ни один метод не достигает одновременно высокой полезности, надежного контроля доступа и уверенного забывания. Подсказки с длинным контекстом часто дают наилучший показатель управления при высоких затратах на токены, а методы на основе поиска и внешней памяти снижают затраты, но все еще допускают утечку несанкционированной или удаленной информации. Эти результаты показывают, что современные агенты с памятью остаются далеки от надежного институционального развертывания в общем доступе.
В то время как рассуждение на основе авторегрессионных (AR) моделей часто осуществляется посредством рассуждения по цепочке мыслей и рефлексии, их доработка предыдущих результатов по-прежнему опирается на полностью последовательную генерацию, даже когда требуются лишь локальные правки. Напротив, механизм маскирования в моделях маскированной диффузии (MDM) естественным образом поддерживает явные локальные правки предыдущих результатов, позволяя проводить выборочную доработку без отбрасывания предыдущих ответов и генерации новых с нуля. Хотя это свойство ближе к тому, как люди исправляют ошибки путем итеративной локальной доработки, существующие MDM не поддерживают многократное маскирование и шумоподавление. Мы предлагаем рефлексивное маскирование (RM), которое активирует такую внутреннюю способность к рассуждению в MDM с помощью легковесного пост-обучения. RM обеспечивает нативное масштабирование во время тестирования, при котором MDM итеративно пересматривает и корректирует свои предыдущие результаты на основе развивающегося контекста. Для использования insight’ов из предыдущих итераций, подобно AR-рассуждению, мы дополнительно вводим историческую ссылку — механизм без параметров, который использует промежуточные состояния шумоподавления в процессе корректировки. Наш подход не требует изменения архитектуры и легко применим к существующим MDM. На разнообразных задачах и модальностях, включая генерацию текста, судоку и редактирование изображений, рефлексивное маскирование последовательно превосходит стандартные методы на основе маскирования и демонстрирует сильную общность, позиционируя RM как фундаментальный примитив для рассуждения на основе MDM.
Системы генерации с дополненным поиском (RAG) критически зависят от того, как документы разбиваются на фрагменты и как осуществляется поиск. Мелкозернистые фрагменты могут повысить точность поиска, но расширяют пространство поиска, увеличивая задержку и стоимость; более крупные фрагменты уменьшают количество кандидатов, но делают плотное сходство менее надежным, поскольку представление каждого фрагмента смешивает несколько тем и вносит больше семантического шума. Этот компромисс становится особенно ограничивающим в задачах глубокого исследования, где поиск должен быть как быстрым, так и точным в больших гетерогенных корпусах. Мы представляем MCompassRAG — структуру поиска, управляемую метаданными, которая использует сигналы на уровне тем в качестве семантического компаса для выбора релевантных доказательств. Вместо того чтобы полагаться только на косинусное сходство между запросами и зашумленными эмбеддингами фрагментов, MCompassRAG обогащает представления фрагментов метаданными тем в том же пространстве эмбеддингов и обучает легковесный ретривер с помощью дистилляции учителя LLM. Во время инференса MCompassRAG выполняет поиск с учетом тематики без дополнительных вызовов LLM, повышая как эффективность, так и качество доказательств. На шести сложных бенчмарках поиска MCompassRAG повышает информационную эффективность (IE) в среднем на 8,24% при более чем пятикратном снижении задержки по сравнению с самыми сильными эффективными базовыми моделями RAG. Код доступен по адресу https://github.com/AmirAbaskohi/MCompassRAG.
Системы генерации с дополнением поиском (RAG) должны балансировать гранулярность поиска и контекстную связность — задача, которую существующие методы решают с помощью разбиения на фрагменты с использованием LLM, расширения контекста на одном уровне или иерархического обобщения. Эти подходы в разной степени зависят от дорогостоящих вызовов LLM на этапах индексации или поиска, ограничивают агрегацию контекста одним уровнем гранулярности или приводят к потере информации при обобщении. Мы представляем SproutRAG — иерархический RAG-фреймворк, управляемый механизмом внимания, который устраняет этот компромисс, организуя фрагменты на уровне предложений в последовательно укрупняющиеся, но семантически связные единицы с использованием обученного межпредложенческого внимания для построения бинарного дерева фрагментации. В отличие от предыдущих подходов, опирающихся на внешние LLM, фиксированное расширение контекста или сжатое обобщение, SproutRAG обучается определять, какие головы и слои внимания наилучшим образом отражают семантическую структуру документа, что обеспечивает многогранулярный поиск без дополнительных вызовов LLM или сжатых изложений. На этапе поиска SproutRAG использует иерархический лучевой поиск для извлечения кандидатов на нескольких уровнях гранулярности, захватывая релевантность на уровне нескольких предложений за пределами плоского поиска. Фреймворк обучается сквозным образом с совместной целевой функцией, улучшающей как эмбеддинги, так и структуру дерева. Эксперименты на четырёх наборах данных, охватывающих научные, юридические и открытые домены, показывают, что SproutRAG в среднем улучшает информационную эффективность (ИЭ) на 6,1% по сравнению с наилучшим базовым методом. Код доступен по адресу https://github.com/AmirAbaskohi/SproutRAG.
Трёхмерная (3D) МРТ головного мозга является центральным инструментом в клинической неврологии и нейроонкологии, где генеративные модели могут дополнять недостаточно представленные когорты, моделировать траектории заболеваний и обеспечивать конфиденциальный обмен данными. Латентная диффузия стала стандартным решением для моделирования данных визуализации, но она предъявляет два конкурирующих требования к токенизатору: вложения энкодера должны сохранять клиническую информацию, на которую опираются последующие задачи, а декодер должен реконструировать анатомически достоверные объёмы. Существующие токенизаторы, основанные на реконструкции, достигают второго за счёт первого. Для решения этой проблемы мы предлагаем полностью объёмный токенизатор на основе маскированного автоэнкодера (MAE) для латентной диффузии 3D МРТ головного мозга, разделяющий энкодер и декодер: замороженный 3D MAE-энкодер формирует клинически информативные вложения, а специализированный CNN-декодер реконструирует воксели на основе линейной проекции этих вложений. Мы предварительно обучаем энкодер на 35 309 объёмах из 18 общедоступных когорт, охватывающих четыре модальности, десять категорий заболеваний и более 200 центров сбора данных, и демонстрируем его двойное применение в двух сценариях. Во-первых, в тесте линейного зондирования по 23 задачам энкодер превосходит или достигает уровня SOTA-моделей (BrainIAC, BrainSegFounder и MedicalNet) по 21 из 23 задач. Во-вторых, условный диффузионный трансформер (DiT), обученный на этих клинически информативных вложениях, поддерживает как условную генерацию по шести переменным, так и индивидуальное продольное прогнозирование. В совокупности эти результаты устанавливают единое пространство вложений 3D МРТ головного мозга, пригодное как для последующих клинических задач, так и для управляемой генерации.
Системы общего назначения, объединяющие зрение, язык и действия, требуют объектно-ориентированных трёхмерных доказательств и многократно используемого опыта манипуляций для планирования надёжных траекторий робота. GeneralVLA предоставляет иерархический интерфейс для преобразования языковых и RGB-D наблюдений в трёхмерные траектории конечного эффектора, однако остаются два узких места. Во-первых, монокулярная реконструкция объектов в стиле SAM3D может порождать галлюцинации позы и скрытой геометрии, в то время как манипуляции выигрывают от стабильной формы объекта при наличии откалиброванных многовидовых наблюдений. Во-вторых, исходная KnowledgeBank в основном извлекает семантически похожие фрагменты и добавляет новые знания, что затрудняет контроль качества памяти, конфликтов, достоверности и геометрической релевантности. Для решения первой задачи мы представляем GeoFuse-MV3D — ветвь реконструкции MV-SAM3D, управляемую геометрическим приором, которая проверяет внешние геометрические сигналы с помощью масок входного вида, применяет мягкую опору визуального каркаса, выполняет уточнение по осям и сливает только геометрию, сохраняя внешний вид. Для решения второй задачи мы модернизируем KnowledgeBank в управляемую систему долговременной памяти с явными метаданными о качестве, достоверности, жизненном цикле, верификаторе и конфликтах, а также с точностью-ориентированным поиском. Наконец, мы оцениваем ветвь реконструкции на GSO-30, а модуль памяти — на Terminal-Bench 2.0 и SWE-Bench Verified; GeoFuse-MV3D превосходит базовый MV-SAM3D, снижая CD и LPIPS на 2.20% и 2.02% с одновременным повышением PSNR и SSIM на 2.36% и 1.03%, а KnowledgeBank превосходит ReasoningBank на 4.53% по Terminal-Bench SR и на 3.73% по частоте разрешения SWE-Bench, при этом снижая AS на 4.95% и 5.65% соответственно. Код: https://github.com/AIGeeksGroup/GeneralVLA-2. Сайт: https://aigeeksgroup.github.io/GeneralVLA-2.
Чтобы помогать людям в реальных домах в течение длительного времени, воплощённые агенты должны запоминать привычки пользователей, состояния мира и прошлые взаимодействия. Существующие бенчмарки долговременной памяти в основном оценивают языко-ориентированный поиск и ответы на вопросы, в то время как воплощённые бенчмарки часто сосредоточены на выполнении задач с коротким горизонтом, не тестируя использование долговременной памяти в динамических средах. Мы представляем WorldLines — проектно-ориентированный бенчмарк для долгосрочного воплощённого домашнего ассистирования. Он формирует временно расширенные домашние трассы с диалогами, действиями, обратной связью по выполнению, изменениями состояний объектов и устройств, и преобразует их в образцы, привязанные к доказательствам, для Memory QA и воплощённого планирования задач. Далее мы предлагаем ObsMem — рамки памяти, основанные на наблюдателе, которые поддерживают осведомлённые о видимости воспоминания и нативные следы состояний действий для принятия решений с учётом состояния. Эксперименты выявляют устойчивые проблемы с частичной наблюдаемостью, перезаписанными состояниями мира и переводом долговременной памяти в воплощённые планы, в то время как ObsMem предлагает более сильную эталонную архитектуру для этого сценария.
Высококачественные 4D-аватары головы по одному или нескольким исходным портретам являются ключевыми для телеприсутствия, AR/VR и взаимодействия с цифровыми людьми. 3D Gaussian Splatting (3DGS) стал доминирующим представлением, при этом два взаимодополняющих режима (обобщаемые предсказатели прямого распространения и уточнители для каждого субъекта) развиваются параллельно. Однако существующие предсказатели прямого распространения обучаются на одном семействе наборов данных с фиксированным числом источников, наследуя соответствующее смещение домена. Уточнители для каждого субъекта требуют 300K–600K итераций и полагаются на адаптивное уплотнение, которое разрушает исходные структуры гауссианов, не позволяя двум режимам совместно использовать представление от начала до конца. Чтобы преодолеть разрыв между режимами, мы предлагаем SpatialAvatar-0 на основе общего представления гауссианов, привязанных к сетке FLAME: генератор прямого распространения с непараметрическим усреднением по K источникам и двухфазным планом от монокулярно-временного к многовидово-пространственному, который предотвращает коллапс априорного знания о личности на меньшем многовидовом наборе. Мы также предлагаем цикл уточнения для каждого субъекта из 10K итераций, сохраняющий структуру, который замораживает привязку к FLAME и количество гауссианов и заменяет уплотнение трехкомпонентной регуляризацией против выбросов. На кросс-доменном zero-shot тесте VFHQ/HDTF мы превосходим внутридоменного лидера GAGAvatar на +1,5 дБ PSNR, несмотря на отсутствие обучения на каком-либо из тестовых доменов, а на монокулярном бенчмарке SplattingAvatar мы лидируем по всем опубликованным метрикам, превосходя GeoAvatar с 300K итерациями на +1,3 дБ PSNR при до 60-кратно более коротком графике для каждого субъекта по сравнению с обычными SOTA-базовыми линиями. Веб-сайт: https://spatialwalk.github.io/SpatialAvatar-0.
Нарративный состав веб-масштабных корпусов предобучения LLM остается в значительной степени неизученным, несмотря на то, что нарратив является фундаментальным способом человеческой коммуникации. Мы представляем первое детальное исследование нарративных характеристик в Dolma — открытом корпусе предобучения объемом 3 триллиона токенов. Опираясь на теорию нарратива, мы разрабатываем структуру, охватывающую три основных нарративных элемента (агентность, обстановку и события), операционализированных в виде 11 интерпретируемых измерений. После выборки и аннотирования разнообразного набора из 400 отрывков мы дообучаем и проверяем NarraBERT — модель на основе RoBERTa для детального предсказания нарративных характеристик. Мы применяем NarraBERT к 3 миллионам отрывков, что приводит к созданию нового набора данных NarraDolma. Мы обнаруживаем: (i) нарративная структура измерима в масштабе на чрезвычайно гетерогенных данных; (ii) мы выявляем непрерывную многомерную нарративную структуру, лежащую в основе веб-текстов; (iii) нарративные качества неравномерно распределены по источникам предобучения и темам таким образом, который текущие практики курирования не измеряют и не учитывают. Наша структура, набор данных и анализ создают основу для понимания того, как нарративные качества распределены в данных предобучения LLM, и для изучения того, как состав данных влияет на задачи нарративного рассуждения. Мы публично выпускаем NarraDolma и NarraBERT.
Мультимодальные большие языковые модели (MLLMs) все чаще применяются в контекстах, имеющих личную и социальную значимость, однако визуальные сигналы, влияющие на то, как эти модели оценивают людей, остаются малоизученными. Предыдущие исследования часто сравнивают разные (группы) индивидов, что затрудняет отделение эффектов внешности от различий в идентичности. Мы представляем StylisticBias — контролируемый эталон для оценки социальных предубеждений на уровне атрибутов в MLLMs. Мы генерируем 500 фотореалистичных базовых лиц и создаем около 50 вариаций по одному атрибуту для каждого лица, что дает примерно 25 000 изображений. Такой дизайн сохраняет идентичность фиксированной и изменяет один визуальный атрибут за раз. Это позволяет измерять, как конкретные сигналы смещают суждения модели. Мы оцениваем шесть MLLMs в 25 бинарных сценариях социальных суждений. Мы обнаружили, что возраст и тип телосложения доминируют над эффектами на уровне идентичности, в то время как стиль одежды и другие визуальные сигналы вызывают наибольшие сдвиги на уровне атрибутов. Кроме того, около 15 атрибутов объясняют почти 80 % общей вариации, что указывает на концентрацию предвзятости в небольшом наборе визуальных сигналов. Чувствительность наиболее сильна в суждениях, семантически связанных с внешностью, особенно в суждениях о социально-экономическом статусе и стиле. Мы публикуем StylisticBias как эталон для тонкой оценки предвзятости в мультимодальных моделях. Код и набор данных: https://github.com/timo-cavelius/StylisticBias и https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.
Обучение в контексте (ICL) является стандартным методом для классификации с малым количеством ресурсов, однако его эффективность в специализированных областях остаётся в значительной степени неисследованной. Мы решаем задачу классификации семантически сложных многосторонних B2B-диалогов, где традиционное ICL сталкивается с существенными ограничениями, особенно при увеличении длины контекста из-за объединения нескольких примеров с малым числом демонстраций. Мы представляем датасет Call Playbook, содержащий пять задач классификации, полученных из реальных B2B-диалогов, нацеленных на ключевые концепции продаж. Чтобы преодолеть разрыв между производительностью и практической полезностью, мы предлагаем новые методы извлечения знаний, которые преобразуют многословные примеры в компактные, интерпретируемые представления структурированных критериев классификации и точных описаний задач. Наш подход обеспечивает сокращение использования токенов на 99% и повышает макроусреднённый AUC до 7% по сравнению с традиционным ICL. Примечательно, что он остаётся устойчивым при росте контекста, в отличие от продвинутых базовых методов сжатия токенов, которые теряют более 9 пунктов F1. Важно, что наша структура позволяет напрямую уточнять логику классификации, отвечая критическим потребностям в прозрачности, эффективности и взаимодействии с пользователем в реальных NLP-приложениях.
Медицинские табличные данные широко распространены в клинических исследованиях, однако глубокое обучение для таблиц остается малоизученным, поскольку надежные метки часто требуют дорогостоящей экспертной оценки, несмотря на то, что структурированные клинические переменные обычно доступны в табличной форме. Самообучение может использовать эти немаркированные таблицы, и недавние предлоги на основе бининга предлагают многообещающее индуктивное смещение, но существующие цели фиксируют единую глобальную квантильную дискретизацию и применяют супервизию, не учитывающую признаки. Мы предлагаем Adaptive Binning — обучающе-адаптивный предлог дискретизации для табличного SSL, который связывает дискретизацию с обучением через пошаговую программу от грубого к мелкому по признакам. Руководствуясь спектральным смещением нейронных сетей и принципами курикулярного обучения, наш метод постепенно уточняет дискретизацию для каждого признака при обнаружении плато и выбирает разрезы, учитывающие представления, чтобы совместно улучшить концентрацию в пространстве значений и согласованность в пространстве представлений. Цель, учитывающая гетерогенность, объединяет категорийное восстановление с порядковым контролем для числовых признаков, и эксперименты на общедоступных медицинских табличных наборах данных в рамках единых протоколов оценки показывают последовательные улучшения при линейном зондировании и тонкой настройке без необходимости подбора дискретизации для конкретного набора данных. Мы также представляем эталонный тест для табличного SSL в медицине со стандартизованными протоколами для поддержки воспроизводимого прогресса в этой малоизученной области. Наш код доступен по адресу https://github.com/labhai/Adaptive-Binning.