HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

14 papers found

PerceptionDLM: Параллельное региональное восприятие с помощью мультимодальных диффузионных языковых моделей
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Jun 17

ByYueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального восприятия. Однако большинство существующих MLLM полагаются на авторегрессионную генерацию, что ограничивает их эффективность для задач перцепции, требующих описания нескольких областей. В данной работе мы предлагаем PerceptionDLM — мультимодальную диффузионную языковую модель, оптимизированную для эффективного параллельного восприятия областей. Наша архитектура построена на основе PerceptionDLM-Base — сильного базового решения, достигающего передовых результатов среди открытых диффузионных MLLM, и полностью использует преимущества параллельного декодирования, присущего диффузионным языковым моделям (DLM). В частности, мы вводим эффективный промптинг и структурированное внимание с маскированием, чтобы обеспечить одновременное восприятие нескольких маскированных областей, что позволяет модели генерировать описания областей параллельно как на уровне последовательностей, так и на уровне токенов. Такая конструкция значительно повышает эффективность вывода по сравнению с существующими подходами, которые обрабатывают области последовательно. Для систематической оценки свойства параллелизма визуальной перцепции у DLM мы создали новый бенчмарк параллельного детализированного локализованного описания (ParaDLC-Bench), расширив DLC-Bench включением нескольких масок областей на изображение, что позволяет совместно оценивать как качество описаний, так и эффективность вывода. Эксперименты показывают, что PerceptionDLM сохраняет конкурентоспособную производительность в описании областей, одновременно достигая существенного ускорения для задач восприятия нескольких областей. Наши результаты подчеркивают потенциал мультимодальных диффузионных языковых моделей для эффективного параллельного визуального восприятия. Насколько нам известно, мы первые, кто добился параллельного описания и восприятия областей, используя преимущества диффузионных языковых моделей. Код, модели и наборы данных опубликованы.

MemSlides: Иерархическая агентная структура, управляемая памятью, для персонализированной генерации слайдов с многократной локальной доработкой
MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

Jun 15

ByYe Jin, Yangyang Xu, Jun Zhu, Yibo Yang

Генерация персонализированных презентаций требует не только адаптации к текущему запросу или шаблону: агенты должны сохранять стабильные пользовательские предпочтения между задачами, удерживать вновь введённые предпочтения и ограничения в ходе многораундового редактирования, а также надёжно выполнять локальные правки. Мы предлагаем MemSlides — иерархическую структуру памяти для агентов персонализированных презентаций, которая разделяет долговременную и рабочую память, а также дополнительно подразделяет долговременную память на память профилей пользователей и инструментальную память. Память профилей пользователей хранит профили, обусловленные намерениями, для персонализации на нулевом раунде; рабочая память переносит активные предпочтения и ограничения сеанса между раундами редактирования; инструментальная память хранит повторно используемый опыт выполнения для надёжного локального редактирования. MemSlides дополняет эту архитектуру памяти ограниченной по области локальной правкой слайдов, так что целевые обновления воздействуют на наименьшую затронутую область вместо повторной генерации всей презентации. В контролируемых экспериментах память профилей пользователей улучшает оценки соответствия персонажу в банке профилей с несколькими персонажами и намерениями, внедрение инструментальной памяти улучшает поведение при модификации в замкнутом цикле в диагностических настройках с парным сравнением, а качественные примеры иллюстрируют способность рабочей памяти переносить предпочтения. В совокупности эти результаты указывают на то, что эффективная персонализация при создании презентаций зависит от разделения устойчивых профилей пользователей, рабочей памяти на уровне сеанса и повторно используемого опыта выполнения на этапах генерации и локального редактирования.

GateMem: Бенчмаркинг управления памятью в многопринципиальных агентах с общей памятью
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

Jun 17

ByZhe Ren, Yibo Yang, Yimeng Chen, Zijun Zhao, Benshuo Fu, Zhihao Shu, Bingjie Zhang, Yangyang Xu, Dandan Guo, Shuicheng Yan

Бенчмарки памяти для LLM-агентов в значительной степени предполагают сценарии с одним пользователем, оставляя без должного внимания общих ассистентов для больниц, рабочих мест, кампусов и домохозяйств. В таких развертываниях несколько принципалов записывают данные в общий пул памяти и запрашивают его в разных ролях, объемах и отношениях, поэтому качество памяти требует как управления, так и воспроизведения. Мы представляем GateMem — бенчмарк для агентов с общей памятью, работающих с несколькими принципалами. GateMem совместно оценивает полезность для легитимных долгосрочных запросов с обновлением состояния, контроль доступа через контекстуальные границы авторизации и ориентированное на агента активное забывание после явных запросов на удаление. Он охватывает медицинскую, офисную, образовательную и бытовую сферы, включая многосторонние эпизоды в длинной форме, инкрементальное внесение памяти, скрытые контрольные точки, структурированное оценивание и аннотации утечек. На различных базовых линиях и моделях-основах ни один метод не достигает одновременно высокой полезности, надежного контроля доступа и уверенного забывания. Подсказки с длинным контекстом часто дают наилучший показатель управления при высоких затратах на токены, а методы на основе поиска и внешней памяти снижают затраты, но все еще допускают утечку несанкционированной или удаленной информации. Эти результаты показывают, что современные агенты с памятью остаются далеки от надежного институционального развертывания в общем доступе.

Многошаговое рефлексивное маскирование индуцирует рассуждение в маскированных диффузионных моделях.
Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

Jun 15

ByYanming Zhang, Yihan Bian, Jingyuan Qi, Yuguang Yao, Lifu Huang, Tianyi Zhou

В то время как рассуждение на основе авторегрессионных (AR) моделей часто осуществляется посредством рассуждения по цепочке мыслей и рефлексии, их доработка предыдущих результатов по-прежнему опирается на полностью последовательную генерацию, даже когда требуются лишь локальные правки. Напротив, механизм маскирования в моделях маскированной диффузии (MDM) естественным образом поддерживает явные локальные правки предыдущих результатов, позволяя проводить выборочную доработку без отбрасывания предыдущих ответов и генерации новых с нуля. Хотя это свойство ближе к тому, как люди исправляют ошибки путем итеративной локальной доработки, существующие MDM не поддерживают многократное маскирование и шумоподавление. Мы предлагаем рефлексивное маскирование (RM), которое активирует такую внутреннюю способность к рассуждению в MDM с помощью легковесного пост-обучения. RM обеспечивает нативное масштабирование во время тестирования, при котором MDM итеративно пересматривает и корректирует свои предыдущие результаты на основе развивающегося контекста. Для использования insight’ов из предыдущих итераций, подобно AR-рассуждению, мы дополнительно вводим историческую ссылку — механизм без параметров, который использует промежуточные состояния шумоподавления в процессе корректировки. Наш подход не требует изменения архитектуры и легко применим к существующим MDM. На разнообразных задачах и модальностях, включая генерацию текста, судоку и редактирование изображений, рефлексивное маскирование последовательно превосходит стандартные методы на основе маскирования и демонстрирует сильную общность, позиционируя RM как фундаментальный примитив для рассуждения на основе MDM.

MCompassRAG: Тематические метаданные как семантический компас для поиска на уровне абзацев
MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

Jun 16

ByAmirhossein Abaskohi, Raymond Li, Gaetano Cimino, Peter West, Giuseppe Carenini, Issam H. Laradji

Системы генерации с дополненным поиском (RAG) критически зависят от того, как документы разбиваются на фрагменты и как осуществляется поиск. Мелкозернистые фрагменты могут повысить точность поиска, но расширяют пространство поиска, увеличивая задержку и стоимость; более крупные фрагменты уменьшают количество кандидатов, но делают плотное сходство менее надежным, поскольку представление каждого фрагмента смешивает несколько тем и вносит больше семантического шума. Этот компромисс становится особенно ограничивающим в задачах глубокого исследования, где поиск должен быть как быстрым, так и точным в больших гетерогенных корпусах. Мы представляем MCompassRAG — структуру поиска, управляемую метаданными, которая использует сигналы на уровне тем в качестве семантического компаса для выбора релевантных доказательств. Вместо того чтобы полагаться только на косинусное сходство между запросами и зашумленными эмбеддингами фрагментов, MCompassRAG обогащает представления фрагментов метаданными тем в том же пространстве эмбеддингов и обучает легковесный ретривер с помощью дистилляции учителя LLM. Во время инференса MCompassRAG выполняет поиск с учетом тематики без дополнительных вызовов LLM, повышая как эффективность, так и качество доказательств. На шести сложных бенчмарках поиска MCompassRAG повышает информационную эффективность (IE) в среднем на 8,24% при более чем пятикратном снижении задержки по сравнению с самыми сильными эффективными базовыми моделями RAG. Код доступен по адресу https://github.com/AmirAbaskohi/MCompassRAG.

SproutRAG: Поиск по дереву, управляемый вниманием, с прогрессивными вложениями для RAG длинных документов
SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

Jun 16

ByAmirhossein Abaskohi, Issam H. Laradji, Peter West, Giuseppe Carenini

Системы генерации с дополнением поиском (RAG) должны балансировать гранулярность поиска и контекстную связность — задача, которую существующие методы решают с помощью разбиения на фрагменты с использованием LLM, расширения контекста на одном уровне или иерархического обобщения. Эти подходы в разной степени зависят от дорогостоящих вызовов LLM на этапах индексации или поиска, ограничивают агрегацию контекста одним уровнем гранулярности или приводят к потере информации при обобщении. Мы представляем SproutRAG — иерархический RAG-фреймворк, управляемый механизмом внимания, который устраняет этот компромисс, организуя фрагменты на уровне предложений в последовательно укрупняющиеся, но семантически связные единицы с использованием обученного межпредложенческого внимания для построения бинарного дерева фрагментации. В отличие от предыдущих подходов, опирающихся на внешние LLM, фиксированное расширение контекста или сжатое обобщение, SproutRAG обучается определять, какие головы и слои внимания наилучшим образом отражают семантическую структуру документа, что обеспечивает многогранулярный поиск без дополнительных вызовов LLM или сжатых изложений. На этапе поиска SproutRAG использует иерархический лучевой поиск для извлечения кандидатов на нескольких уровнях гранулярности, захватывая релевантность на уровне нескольких предложений за пределами плоского поиска. Фреймворк обучается сквозным образом с совместной целевой функцией, улучшающей как эмбеддинги, так и структуру дерева. Эксперименты на четырёх наборах данных, охватывающих научные, юридические и открытые домены, показывают, что SproutRAG в среднем улучшает информационную эффективность (ИЭ) на 6,1% по сравнению с наилучшим базовым методом. Код доступен по адресу https://github.com/AmirAbaskohi/SproutRAG.

BrainG3N: Двуцелевой токенизатор для управляемой генерации 3D МРТ головного мозга
BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation

Jun 17

ByMax Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

Трёхмерная (3D) МРТ головного мозга является центральным инструментом в клинической неврологии и нейроонкологии, где генеративные модели могут дополнять недостаточно представленные когорты, моделировать траектории заболеваний и обеспечивать конфиденциальный обмен данными. Латентная диффузия стала стандартным решением для моделирования данных визуализации, но она предъявляет два конкурирующих требования к токенизатору: вложения энкодера должны сохранять клиническую информацию, на которую опираются последующие задачи, а декодер должен реконструировать анатомически достоверные объёмы. Существующие токенизаторы, основанные на реконструкции, достигают второго за счёт первого. Для решения этой проблемы мы предлагаем полностью объёмный токенизатор на основе маскированного автоэнкодера (MAE) для латентной диффузии 3D МРТ головного мозга, разделяющий энкодер и декодер: замороженный 3D MAE-энкодер формирует клинически информативные вложения, а специализированный CNN-декодер реконструирует воксели на основе линейной проекции этих вложений. Мы предварительно обучаем энкодер на 35 309 объёмах из 18 общедоступных когорт, охватывающих четыре модальности, десять категорий заболеваний и более 200 центров сбора данных, и демонстрируем его двойное применение в двух сценариях. Во-первых, в тесте линейного зондирования по 23 задачам энкодер превосходит или достигает уровня SOTA-моделей (BrainIAC, BrainSegFounder и MedicalNet) по 21 из 23 задач. Во-вторых, условный диффузионный трансформер (DiT), обученный на этих клинически информативных вложениях, поддерживает как условную генерацию по шести переменным, так и индивидуальное продольное прогнозирование. В совокупности эти результаты устанавливают единое пространство вложений 3D МРТ головного мозга, пригодное как для последующих клинических задач, так и для управляемой генерации.

GeneralVLA-2: Геометрически-осознанная реконструкция и управляемая память для планирования роботов
GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

Jun 16

ByHaoyu Wang, Guoqing Ma, Zeyu Zhang, Yandong Guo, Boxin Shi, Hao Tang

Системы общего назначения, объединяющие зрение, язык и действия, требуют объектно-ориентированных трёхмерных доказательств и многократно используемого опыта манипуляций для планирования надёжных траекторий робота. GeneralVLA предоставляет иерархический интерфейс для преобразования языковых и RGB-D наблюдений в трёхмерные траектории конечного эффектора, однако остаются два узких места. Во-первых, монокулярная реконструкция объектов в стиле SAM3D может порождать галлюцинации позы и скрытой геометрии, в то время как манипуляции выигрывают от стабильной формы объекта при наличии откалиброванных многовидовых наблюдений. Во-вторых, исходная KnowledgeBank в основном извлекает семантически похожие фрагменты и добавляет новые знания, что затрудняет контроль качества памяти, конфликтов, достоверности и геометрической релевантности. Для решения первой задачи мы представляем GeoFuse-MV3D — ветвь реконструкции MV-SAM3D, управляемую геометрическим приором, которая проверяет внешние геометрические сигналы с помощью масок входного вида, применяет мягкую опору визуального каркаса, выполняет уточнение по осям и сливает только геометрию, сохраняя внешний вид. Для решения второй задачи мы модернизируем KnowledgeBank в управляемую систему долговременной памяти с явными метаданными о качестве, достоверности, жизненном цикле, верификаторе и конфликтах, а также с точностью-ориентированным поиском. Наконец, мы оцениваем ветвь реконструкции на GSO-30, а модуль памяти — на Terminal-Bench 2.0 и SWE-Bench Verified; GeoFuse-MV3D превосходит базовый MV-SAM3D, снижая CD и LPIPS на 2.20% и 2.02% с одновременным повышением PSNR и SSIM на 2.36% и 1.03%, а KnowledgeBank превосходит ReasoningBank на 4.53% по Terminal-Bench SR и на 3.73% по частоте разрешения SWE-Bench, при этом снижая AS на 4.95% и 5.65% соответственно. Код: https://github.com/AIGeeksGroup/GeneralVLA-2. Сайт: https://aigeeksgroup.github.io/GeneralVLA-2.

WorldLines: Бенчмаркинг и моделирование долгосрочных воплощенных агентов с состоянием
WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

Jun 17

ByYehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen

Чтобы помогать людям в реальных домах в течение длительного времени, воплощённые агенты должны запоминать привычки пользователей, состояния мира и прошлые взаимодействия. Существующие бенчмарки долговременной памяти в основном оценивают языко-ориентированный поиск и ответы на вопросы, в то время как воплощённые бенчмарки часто сосредоточены на выполнении задач с коротким горизонтом, не тестируя использование долговременной памяти в динамических средах. Мы представляем WorldLines — проектно-ориентированный бенчмарк для долгосрочного воплощённого домашнего ассистирования. Он формирует временно расширенные домашние трассы с диалогами, действиями, обратной связью по выполнению, изменениями состояний объектов и устройств, и преобразует их в образцы, привязанные к доказательствам, для Memory QA и воплощённого планирования задач. Далее мы предлагаем ObsMem — рамки памяти, основанные на наблюдателе, которые поддерживают осведомлённые о видимости воспоминания и нативные следы состояний действий для принятия решений с учётом состояния. Эксперименты выявляют устойчивые проблемы с частичной наблюдаемостью, перезаписанными состояниями мира и переводом долговременной памяти в воплощённые планы, в то время как ObsMem предлагает более сильную эталонную архитектуру для этого сценария.

SpatialAvatar-0: Высококачественный 4D-аватар головы с многоэтапной реконструкцией
SpatialAvatar-0: High-Quality 4D Head Avatar with Multi-Stage Reconstruction

Jun 14

ByYiran Wang, Zeyu Zhang, Yuanming Li, Ziming Wang, Yang Zhao

Высококачественные 4D-аватары головы по одному или нескольким исходным портретам являются ключевыми для телеприсутствия, AR/VR и взаимодействия с цифровыми людьми. 3D Gaussian Splatting (3DGS) стал доминирующим представлением, при этом два взаимодополняющих режима (обобщаемые предсказатели прямого распространения и уточнители для каждого субъекта) развиваются параллельно. Однако существующие предсказатели прямого распространения обучаются на одном семействе наборов данных с фиксированным числом источников, наследуя соответствующее смещение домена. Уточнители для каждого субъекта требуют 300K–600K итераций и полагаются на адаптивное уплотнение, которое разрушает исходные структуры гауссианов, не позволяя двум режимам совместно использовать представление от начала до конца. Чтобы преодолеть разрыв между режимами, мы предлагаем SpatialAvatar-0 на основе общего представления гауссианов, привязанных к сетке FLAME: генератор прямого распространения с непараметрическим усреднением по K источникам и двухфазным планом от монокулярно-временного к многовидово-пространственному, который предотвращает коллапс априорного знания о личности на меньшем многовидовом наборе. Мы также предлагаем цикл уточнения для каждого субъекта из 10K итераций, сохраняющий структуру, который замораживает привязку к FLAME и количество гауссианов и заменяет уплотнение трехкомпонентной регуляризацией против выбросов. На кросс-доменном zero-shot тесте VFHQ/HDTF мы превосходим внутридоменного лидера GAGAvatar на +1,5 дБ PSNR, несмотря на отсутствие обучения на каком-либо из тестовых доменов, а на монокулярном бенчмарке SplattingAvatar мы лидируем по всем опубликованным метрикам, превосходя GeoAvatar с 300K итерациями на +1,3 дБ PSNR при до 60-кратно более коротком графике для каждого субъекта по сравнению с обычными SOTA-базовыми линиями. Веб-сайт: https://spatialwalk.github.io/SpatialAvatar-0.

Характеристика нарративного содержания в веб-масштабных данных предварительного обучения LLM
Characterizing Narrative Content in Web-scale LLM Pretraining Data

Jun 17

ByTeagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak

Нарративный состав веб-масштабных корпусов предобучения LLM остается в значительной степени неизученным, несмотря на то, что нарратив является фундаментальным способом человеческой коммуникации. Мы представляем первое детальное исследование нарративных характеристик в Dolma — открытом корпусе предобучения объемом 3 триллиона токенов. Опираясь на теорию нарратива, мы разрабатываем структуру, охватывающую три основных нарративных элемента (агентность, обстановку и события), операционализированных в виде 11 интерпретируемых измерений. После выборки и аннотирования разнообразного набора из 400 отрывков мы дообучаем и проверяем NarraBERT — модель на основе RoBERTa для детального предсказания нарративных характеристик. Мы применяем NarraBERT к 3 миллионам отрывков, что приводит к созданию нового набора данных NarraDolma. Мы обнаруживаем: (i) нарративная структура измерима в масштабе на чрезвычайно гетерогенных данных; (ii) мы выявляем непрерывную многомерную нарративную структуру, лежащую в основе веб-текстов; (iii) нарративные качества неравномерно распределены по источникам предобучения и темам таким образом, который текущие практики курирования не измеряют и не учитывают. Наша структура, набор данных и анализ создают основу для понимания того, как нарративные качества распределены в данных предобучения LLM, и для изучения того, как состав данных влияет на задачи нарративного рассуждения. Мы публично выпускаем NarraDolma и NarraBERT.

Стилистическое искажение: несколько визуальных подсказок человека определяют большинство социальных предвзятостей в MLLM
StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

Jun 18

ByShaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner

Мультимодальные большие языковые модели (MLLMs) все чаще применяются в контекстах, имеющих личную и социальную значимость, однако визуальные сигналы, влияющие на то, как эти модели оценивают людей, остаются малоизученными. Предыдущие исследования часто сравнивают разные (группы) индивидов, что затрудняет отделение эффектов внешности от различий в идентичности. Мы представляем StylisticBias — контролируемый эталон для оценки социальных предубеждений на уровне атрибутов в MLLMs. Мы генерируем 500 фотореалистичных базовых лиц и создаем около 50 вариаций по одному атрибуту для каждого лица, что дает примерно 25 000 изображений. Такой дизайн сохраняет идентичность фиксированной и изменяет один визуальный атрибут за раз. Это позволяет измерять, как конкретные сигналы смещают суждения модели. Мы оцениваем шесть MLLMs в 25 бинарных сценариях социальных суждений. Мы обнаружили, что возраст и тип телосложения доминируют над эффектами на уровне идентичности, в то время как стиль одежды и другие визуальные сигналы вызывают наибольшие сдвиги на уровне атрибутов. Кроме того, около 15 атрибутов объясняют почти 80 % общей вариации, что указывает на концентрацию предвзятости в небольшом наборе визуальных сигналов. Чувствительность наиболее сильна в суждениях, семантически связанных с внешностью, особенно в суждениях о социально-экономическом статусе и стиле. Мы публикуем StylisticBias как эталон для тонкой оценки предвзятости в мультимодальных моделях. Код и набор данных: https://github.com/timo-cavelius/StylisticBias и https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.

Дистилляция примеров в инструкции задач: улучшенное обучение в контексте для реальных B2B-разговоров
Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

Jun 14

ByGuy Rotman, Adi Kopilov, Danit Berger Zalmanson, Omri Allouche

Обучение в контексте (ICL) является стандартным методом для классификации с малым количеством ресурсов, однако его эффективность в специализированных областях остаётся в значительной степени неисследованной. Мы решаем задачу классификации семантически сложных многосторонних B2B-диалогов, где традиционное ICL сталкивается с существенными ограничениями, особенно при увеличении длины контекста из-за объединения нескольких примеров с малым числом демонстраций. Мы представляем датасет Call Playbook, содержащий пять задач классификации, полученных из реальных B2B-диалогов, нацеленных на ключевые концепции продаж. Чтобы преодолеть разрыв между производительностью и практической полезностью, мы предлагаем новые методы извлечения знаний, которые преобразуют многословные примеры в компактные, интерпретируемые представления структурированных критериев классификации и точных описаний задач. Наш подход обеспечивает сокращение использования токенов на 99% и повышает макроусреднённый AUC до 7% по сравнению с традиционным ICL. Примечательно, что он остаётся устойчивым при росте контекста, в отличие от продвинутых базовых методов сжатия токенов, которые теряют более 9 пунктов F1. Важно, что наша структура позволяет напрямую уточнять логику классификации, отвечая критическим потребностям в прозрачности, эффективности и взаимодействии с пользователем в реальных NLP-приложениях.

Когда, где и как: адаптивное бинирование для самообучения на табличных данных
When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning

Jun 18

ByDaehwan Kim, Haejun Chung, Ikbeom Jang

Медицинские табличные данные широко распространены в клинических исследованиях, однако глубокое обучение для таблиц остается малоизученным, поскольку надежные метки часто требуют дорогостоящей экспертной оценки, несмотря на то, что структурированные клинические переменные обычно доступны в табличной форме. Самообучение может использовать эти немаркированные таблицы, и недавние предлоги на основе бининга предлагают многообещающее индуктивное смещение, но существующие цели фиксируют единую глобальную квантильную дискретизацию и применяют супервизию, не учитывающую признаки. Мы предлагаем Adaptive Binning — обучающе-адаптивный предлог дискретизации для табличного SSL, который связывает дискретизацию с обучением через пошаговую программу от грубого к мелкому по признакам. Руководствуясь спектральным смещением нейронных сетей и принципами курикулярного обучения, наш метод постепенно уточняет дискретизацию для каждого признака при обнаружении плато и выбирает разрезы, учитывающие представления, чтобы совместно улучшить концентрацию в пространстве значений и согласованность в пространстве представлений. Цель, учитывающая гетерогенность, объединяет категорийное восстановление с порядковым контролем для числовых признаков, и эксперименты на общедоступных медицинских табличных наборах данных в рамках единых протоколов оценки показывают последовательные улучшения при линейном зондировании и тонкой настройке без необходимости подбора дискретизации для конкретного набора данных. Мы также представляем эталонный тест для табличного SSL в медицине со стандартизованными протоколами для поддержки воспроизводимого прогресса в этой малоизученной области. Наш код доступен по адресу https://github.com/labhai/Adaptive-Binning.

PerceptionDLM: Параллельное региональное восприятие с помощью мультимодальных диффузионных языковых моделей
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Jun 17

ByYueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong