HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

26 papers found

Путешествие O1 по репликации - Часть 2: Превосходство над O1-предпросмотром через Простую Дистилляцию, Большой Прогресс или Горький Урок?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25

ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu

Данная статья представляет критический анализ текущих подходов к воспроизведению возможностей модели O1 от OpenAI, с особым вниманием к широко распространенному, но часто скрытому использованию техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к воспроизведению O1, данное исследование показывает, как простая дистилляция из API O1, в сочетании с надзорным дообучением, может достичь более высокой производительности на сложных задачах математического рассуждения. Через обширные эксперименты мы показываем, что базовая модель, дообученная всего лишь на десятках тысяч образцов O1-дистиллированных длинных цепочек мыслей, превосходит O1-preview на American Invitational Mathematics Examination (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за пределы математического рассуждения, чтобы исследовать обобщающие способности O1-дистиллированных моделей на различных задачах: галлюцинация, безопасность и вопросно-ответные системы в открытой области. Заметно, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого вопросно-ответного формата и стали значительно менее подвержены подхалимству после дообучения. Мы намеренно делаем это открытым для общественности, чтобы способствовать прозрачности в исследованиях в области искусственного интеллекта и вызвать на вызов текущему тренду затемненных технических утверждений в данной области. Наша работа включает: (1) Подробное техническое изложение процесса дистилляции и его эффективности, (2) Комплексная система оценки и категоризации попыток воспроизведения O1 на основе их технической прозрачности и воспроизводимости, (3) Критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции, наш анализ завершается важным горьким уроком: важность развития исследователей, укорененных в мышлении первых принципов, несравненно выше, чем стремление к более способным системам искусственного интеллекта.

От Генерации к Суждению: Возможности и Вызовы LLM-в-качестве-судьи
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25

ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu

Оценка и оценка давно являются критическими вызовами в искусственном интеллекте (ИИ) и обработке естественного языка (NLP). Однако традиционные методы, будь то на основе сопоставления или вложений, часто не способны оценить тонкие атрибуты и обеспечить удовлетворительные результаты. Недавние достижения в области больших языковых моделей (LLM) вдохновляют парадигму "LLM-как-судья", где LLM используются для выполнения оценки, ранжирования или выбора по различным задачам и приложениям. В данной статье представлен обширный обзор оценки и судейства на основе LLM, предлагая глубокий обзор для развития этой развивающейся области. Мы начинаем с подробных определений с точки зрения как ввода, так и вывода. Затем мы представляем обширную таксономию для изучения LLM-как-судья с трех измерений: что судить, как судить и где судить. Наконец, мы составляем бенчмарки для оценки LLM-как-судья и выделяем основные вызовы и перспективные направления, с целью предоставить ценные идеи и вдохновить будущие исследования в этой перспективной области. Список статей и дополнительные ресурсы о LLM-как-судья можно найти на https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

Материал Anything: Генерация материалов для любого 3D-объекта с помощью диффузии
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22

ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang

Мы представляем Material Anything, полностью автоматизированную, объединенную рамку диффузии, разработанную для создания материалов на основе физики для 3D объектов. В отличие от существующих методов, которые полагаются на сложные конвейеры или оптимизации, ориентированные на конкретные случаи, Material Anything предлагает надежное, полностью интегрированное решение, способное адаптироваться к объектам в различных условиях освещения. Наш подход использует предварительно обученную модель диффузии изображения, улучшенную трехголовой архитектурой и потерями рендеринга для повышения стабильности и качества материалов. Кроме того, мы вводим маски уверенности в качестве динамического переключателя в модели диффузии, что позволяет ей эффективно обрабатывать как текстурированные, так и нетекстурированные объекты при различных условиях освещения. Применяя стратегию пошагового создания материалов, направляемую этими масками уверенности, вместе с улучшителем материалов в UV-пространстве, наш метод гарантирует последовательные, готовые к UV выходные данные материалов. Обширные эксперименты демонстрируют, что наш подход превосходит существующие методы в широком диапазоне категорий объектов и условий освещения.

GMAI-VL и GMAI-VL-5.5M: Большая модель видео-языка и Комплексный мультимодальный набор данных в сторону общего медицинского искусственного интеллекта
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Nov 21

ByTianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He

Несмотря на значительные достижения в области общего искусственного интеллекта, такие как GPT-4, их эффективность в медицинской сфере (общий медицинский ИИ, GMAI) остается ограниченной из-за отсутствия специализированных медицинских знаний. Для решения этой проблемы мы представляем GMAI-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных обладает всесторонним покрытием задач, разнообразными модальностями и высококачественными данными изображений и текста. Основываясь на этом мультимодальном наборе данных, мы предлагаем GMAI-VL, общую медицинскую модель видео-языка с пошаговой стратегией тренировки в трех этапах. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, тем самым улучшая ее способность обрабатывать мультимодальные данные и поддерживать точные диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что GMAI-VL достигает передовых результатов в широком спектре мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных GMAI-VL-5.5M, введение модели GMAI-VL и установление новых стандартов в нескольких медицинских областях. Код и набор данных будут опубликованы на https://github.com/uni-medical/GMAI-VL.

Модель текст в изображение большого масштаба с заполнением - это генератор изображений, управляемый предметом, с нулевой обучающей выборкой.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

Генерация изображений на основе текста, ориентированная на объект, направлена на создание изображений нового объекта в желаемом контексте путем точного захвата как визуальных характеристик объекта, так и семантического содержания текстовой подсказки. Традиционные методы полагаются на трудоемкую настройку для выравнивания объекта, в то время как недавние нулевые подходы используют мгновенное подсказывание изображения, часто жертвуя выравниванием объекта. В данной статье мы представляем Diptych Prompting, новый нулевой подход, который переосмысливает как задачу заполнения пропусков с точным выравниванием объекта, используя возникающее свойство генерации диптихов в масштабных моделях текст-изображение. Diptych Prompting устанавливает неполный диптих с эталонным изображением в левой панели и выполняет заполнение пропусков, зависящее от текста, в правой панели. Мы также предотвращаем нежелательное проникновение контента, удаляя фон на эталонном изображении, и улучшаем мелкие детали в созданном объекте, улучшая веса внимания между панелями во время заполнения пропусков. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы мгновенного подсказывания изображения, что приводит к изображениям, которые визуально предпочтительны для пользователей. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и генерацию стилизованных изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

Отзывы с Хакатона по крупному языковому моделированию (LLM) 2024 года для применения в науке о материалах и химии
Reflections from the 2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Nov 20

ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik

Здесь мы представляем результаты второго Хакатона по Большой Языковой Модели (LLM) для Применений в Материаловедении и Химии, в котором приняли участие участники со всего мира, что привело к 34 командам-участникам. Представленные проекты охватывают семь ключевых областей применения и демонстрируют разнообразную полезность LLM для применений в (1) предсказании молекулярных и материальных свойств; (2) дизайне молекул и материалов; (3) автоматизации и новых интерфейсов; (4) научной коммуникации и образования; (5) управления и автоматизации научных данных; (6) генерации и оценки гипотез; и (7) извлечения знаний и рассуждений из научной литературы. Каждый проект команды представлен в сводной таблице с ссылками на код и краткими статьями в приложении. Помимо результатов команд, мы обсуждаем событие хакатона и его гибридный формат, который включал физические хабы в Торонто, Монреале, Сан-Франциско, Берлине, Лозанне и Токио, а также глобальный онлайн-хаб для обеспечения локального и виртуального взаимодействия. В целом, событие подчеркнуло значительное улучшение возможностей LLM по сравнению с хакатоном предыдущего года, что указывает на продолжающееся расширение применения LLM для исследований в области материаловедения и химии. Эти результаты демонстрируют двойную полезность LLM как универсальных моделей для различных задач машинного обучения и платформ для быстрого прототипирования индивидуальных приложений в научных исследованиях.

Одно Диффузное Преобразование, Чтобы Создать Их Всех
One Diffusion to Generate Them All

Nov 25

ByDuong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu

Мы представляем OneDiffusion - универсальную модель диффузии большого масштаба, которая безупречно поддерживает двустороннюю синтез и понимание изображений по различным задачам. Она позволяет условную генерацию на основе таких входных данных, как текст, глубина, поза, композиция и семантические карты, а также обрабатывает задачи, такие как размытие изображения, увеличение масштаба и обратные процессы, такие как оценка глубины и сегментация. Кроме того, OneDiffusion позволяет генерацию множества видов, оценку позы камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель применяет простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными уровнями шума во время обучения, что позволяет любому кадру действовать как условное изображение во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое многозадачное обучение и плавно адаптируется к любому разрешению, улучшая как обобщение, так и масштабируемость. Экспериментальные результаты демонстрируют конкурентоспособную производительность по различным задачам как в области генерации, так и прогнозирования, таких как текст в изображение, многовидовая генерация, сохранение идентификатора, оценка глубины и поза камеры, несмотря на относительно небольшой набор данных для обучения. Наш код и контрольная точка доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion

MH-MoE: Многоголовая смесь экспертов
MH-MoE:Multi-Head Mixture-of-Experts

Nov 25

ByShaohan Huang, Xun Wu, Shuming Ma, Furu Wei

Механизм Multi-Head Mixture-of-Experts (MH-MoE) продемонстрировал превосходную производительность, используя механизм мульти-головок для совместного обращения внимания на информацию из различных пространств представлений внутри различных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPs, так и параметрическую паритетность с разреженными моделями Mixture of Experts. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества как по сравнению с обычными MoE, так и с детализированными моделями MoE. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битными большими языковыми моделями (LLM), такими как BitNet.

Интерактивная сегментация медицинских изображений: набор данных и базовый уровень.
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Nov 19

ByJunlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась ограниченной доступностью масштабных, разнообразных и плотно аннотированных наборов данных, что затрудняло обобщение моделей и последующую оценку их работы. В данной статье мы представляем набор данных IMed-361M, значительный прогресс в исследованиях по IMIS. Сначала мы собрали и стандартизировали более 6,4 миллионов медицинских изображений и соответствующие им маски истинных значений из нескольких источников данных. Затем, используя сильные возможности распознавания объектов модели основного зрения, мы автоматически сгенерировали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, ограниченных определенными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок - в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на этом наборе данных, которая поддерживает генерацию масок высокого качества через интерактивные входные данные, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оценили ее производительность на задачах сегментации медицинских изображений с разных точек зрения, продемонстрировав превосходную точность и масштабируемость по сравнению с существующими моделями интерактивной сегментации. Для облегчения исследований по основным моделям в медицинском компьютерном зрении мы выпустили IMed-361M и модель на https://github.com/uni-medical/IMIS-Bench.

Осторожные оптимизаторы: улучшение обучения одной строкой кода
Cautious Optimizers: Improving Training with One Line of Code

Nov 25

ByKaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu

AdamW был выбранным оптимизатором для предварительного обучения трансформера. На протяжении многих лет наше сообщество искало более быстрые и стабильные оптимизаторы с исключительно положительными результатами. В данной работе мы предлагаем однострочное изменение в Pytorch к любому оптимизатору на основе импульса, который мы переименовываем в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонианскую функцию Адама и не нарушает гарантию сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое семейство оптимизаторов. Из них мы выбираем самый простой для эмпирических экспериментов, показывающих ускорение на предварительном обучении Лама и MAE до 1,47 раза. Код доступен по ссылке https://github.com/kyleliang919/C-Optim

SegBook: Простая базовая линия и сборник рецептов для сегментации объемных медицинских изображений.
SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

Nov 21

ByJin Ye, Ying Chen, Yanjun Li, Haoyu Wang, Zhongying Deng, Ziyan Huang, Yanzhou Su, Chenglong Ma, Yuanfeng Ji, Junjun He

Вычислительная томография (CT) является одним из самых популярных методов для медицинского изображения. До сих пор изображения CT внесли наибольший вклад в крупные общедоступные наборы данных для объемных медицинских задач сегментации, охватывая анатомические структуры всего тела. Большие объемы изображений CT всего тела предоставляют возможность предварительного обучения мощных моделей, например, модели STU-Net, предварительно обученной в надзорной манере, для сегментации многочисленных анатомических структур. Однако остается неясным, в каких условиях эти предварительно обученные модели могут быть перенесены на различные последующие медицинские задачи сегментации, особенно на сегментацию других модальностей и разнообразных целей. Для решения этой проблемы критически важно иметь крупномасштабный бенчмарк для всесторонней оценки этих условий. Таким образом, мы собрали 87 общедоступных наборов данных с различной модальностью, целью и размером выборки для оценки возможности передачи предварительно обученных моделей CT всего тела. Затем мы использовали представительную модель, STU-Net с несколькими масштабами моделей, для проведения обучения передачи между модальностями и целями. Наши экспериментальные результаты показывают, что (1) может наблюдаться эффект узкого места в отношении размера набора данных при настройке, с большим улучшением как на небольших, так и на крупных наборах данных, чем на среднемасштабных. (2) Модели, предварительно обученные на CT всего тела, демонстрируют эффективную передачу модальности, хорошо адаптируясь к другим модальностям, таким как МРТ. (3) Предварительное обучение на CT всего тела не только поддерживает сильное выполнение обнаружения структур, но также показывает эффективность в обнаружении очагов, демонстрируя адаптируемость к различным целевым задачам. Мы надеемся, что эта крупномасштабная открытая оценка обучения передачи может направить будущие исследования в области объемной сегментации медицинских изображений.

DreamRunner: Генерация видео с тонкой детализацией повествования с помощью адаптации движения с увеличением поиска.
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Nov 25

ByZun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal

Генерация видео повествования (SVG) недавно появилась как задача создания длинных, многодвижущихся, многоплановых видеороликов, которые последовательно отображают историю, описанную во входном текстовом сценарии. SVG имеет большой потенциал для разнообразного контентного создания в медиа и развлекательной индустрии; однако он также представляет существенные вызовы: (1) объекты должны демонстрировать широкий спектр тонких, сложных движений, (2) несколько объектов должны появляться последовательно в разных сценах, и (3) субъекты могут требовать несколько движений с плавными переходами внутри одной сцены. Для решения этих проблем мы предлагаем DreamRunner, новый метод генерации видео по сюжету: Сначала мы структурируем входной сценарий с использованием большой языковой модели (LLM) для облегчения как грубого планирования сцены, так и тонкой планировки макета объектов и движений. Затем DreamRunner представляет адаптацию на основе поиска для захвата целевых движений объектов в каждой сцене, поддерживая разнообразную настройку движения на основе найденных видеороликов, тем самым облегчая создание новых видео с сложными, сценарными движениями. Наконец, мы предлагаем новый модуль внимания на основе пространственно-временных регионов 3D и инъекции приоритетов SR3AI для тонкой привязки объектов к движению и семантического управления кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовую производительность в согласованности персонажей, выравнивании текста и плавных переходах. Кроме того, DreamRunner проявляет сильную способность к тонкому следованию условиям в композиционной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. Наконец, мы подтверждаем надежную способность DreamRunner генерировать взаимодействия между несколькими объектами на качественных примерах.

Факторизованная визуальная токенизация и генерация
Factorized Visual Tokenization and Generation

Nov 25

ByZechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou

Визуальные токенизаторы являются фундаментальными для генерации изображений. Они преобразуют визуальные данные в дискретные токены, позволяя моделям на основе трансформеров превосходно справляться с генерацией изображений. Несмотря на свой успех, токенизаторы на основе VQ, такие как VQGAN, сталкиваются с значительными ограничениями из-за ограниченного размера словаря. Простое расширение кодовой книги часто приводит к нестабильности обучения и уменьшению прироста производительности, что делает масштабируемость критической проблемой. В данной работе мы представляем Факторизованную Квантизацию (FQ), новый подход, который оживляет токенизаторы на основе VQ путем декомпозиции большой кодовой книги на несколько независимых подкодовых книг. Эта факторизация снижает сложность поиска в больших кодовых книгах, обеспечивая более эффективную и масштабируемую визуальную токенизацию. Для того чтобы гарантировать, что каждая подкодовая книга захватывает различную и дополняющую информацию, мы предлагаем регуляризацию деконволюции, которая явно снижает избыточность, способствуя разнообразию среди подкодовых книг. Более того, мы интегрируем обучение представлений в процесс обучения, используя предварительно обученные модели зрения, такие как CLIP и DINO, чтобы внедрить семантическое богатство в изученные представления. Этот дизайн гарантирует, что наш токенизатор захватывает различные семантические уровни, что приводит к более выразительным и деконволюционным представлениям. Эксперименты показывают, что предложенная модель FQGAN значительно улучшает качество восстановления визуальных токенизаторов, достигая передовой производительности. Мы также демонстрируем, что этот токенизатор может быть эффективно адаптирован для авторегрессивной генерации изображений. https://showlab.github.io/FQGAN

TEXGen: генеративная диффузионная модель для текстур сеток
TEXGen: a Generative Diffusion Model for Mesh Textures

Nov 22

ByXin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi

Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D-моделей, немногие исследования занимались обучением непосредственно в пространстве текстур, особенно на крупномасштабных наборах данных. В данной работе мы отходим от традиционного подхода, основанного на использовании заранее обученных 2D моделей диффузии для оптимизации текстур 3D-моделей во время тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в пространстве UV-текстур. Впервые мы обучаем большую модель диффузии, способную непосредственно генерировать текстурные карты высокого разрешения в прямом порядке. Для облегчения эффективного обучения в пространствах UV большого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свертки на UV-картах с слоями внимания на облаках точек. Используя этот архитектурный дизайн, мы обучаем модель диффузии с 700 миллионами параметров, способную генерировать текстурные карты UV, управляемые текстовыми подсказками и изображениями с одним видом. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая заполнение текстур по текстовым подсказкам, завершение текстур для разреженных видов и синтез текстур под управлением текста. Страница проекта находится по адресу http://cvmi-lab.github.io/TEXGen/.

VisualLens: Персонализация через визуальную историю
VisualLens: Personalization through Visual History

Nov 25

ByWang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong

Мы предполагаем, что история визуальных данных пользователя, отражающая их повседневную жизнь, предоставляет ценные понимания их интересов и предпочтений, и может быть использована для персонализации. Среди многих вызовов для достижения этой цели, главным является разнообразие и шумы в визуальной истории, содержащей изображения, не обязательно связанные с задачей рекомендации, не обязательно отражающие интересы пользователя или даже не обязательно имеющие отношение к предпочтениям. Существующие системы рекомендаций либо опираются на логи взаимодействия пользователя, специфичные для задачи, такие как история онлайн-покупок для рекомендаций по покупкам, либо фокусируются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и улучшает представления изображений, и использует эти сигналы для персонализации. Мы создали два новых эталона с задаче-агностическими визуальными историями и показываем, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по Hit@3, и улучшает результаты по сравнению с GPT-4o на 2-5%. Наш подход прокладывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не справляются.

Передача знаний между модальностями с натуральным языковым надзором
Knowledge Transfer Across Modalities with Natural Language Supervision

Nov 23

ByCarlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передача Знаний. Аналогично человеческому восприятию, мы используем кросс-модальное взаимодействие для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном кодировщике уже достаточно изученных низкоуровневых характеристик (например, форма, внешний вид, цвет), которые можно использовать для описания ранее неизвестных высокоуровневых концепций. Предоставленное текстовое описание нового концепта, наш метод работает путем выравнивания известных низкоуровневых характеристик визуального кодировщика с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний успешно может ввести новые концепции в мультимодельные модели очень эффективным способом, требуя только одного описания целевого концепта. Наш подход совместим как с отдельными текстовыми и визуальными кодировщиками (например, CLIP), так и с общими параметрами между модальностями. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить концепции, уже известные модели. Используя Передачу Знаний, мы улучшаем нулевую производительность на различных задачах, таких как классификация, сегментация, поиск изображений по тексту и подписывание.

От CISC к RISC: транспиляция ассемблерного кода под руководством языковой модели
From CISC to RISC: language-model guided assembly transpilation

Nov 25

ByAhmed Heakl, Chaimaa Abi, Rania Hossam, Abdulrahman Mahmoud

Переход от архитектуры x86 к архитектуре ARM становится все более распространенным в различных областях, в основном благодаря энергоэффективности ARM и улучшенной производительности в традиционных секторах. Однако этот сдвиг в ISA представляет существенные вызовы, главным образом из-за обширной легаси-экосистемы программного обеспечения x86 и отсутствия переносимости между проприетарными экосистемами и программными стеками. В данной статье представлен CRT, легковесный транспайлер на основе LLM, который автоматически преобразует ассемблер x86 в ассемблер ARM. Наш подход устраняет фундаментальный архитектурный разрыв между CISC-ориентированным подходом x86 и RISC-ориентированным подходом ARM, сохраняя семантику программы и оптимизируя производительность. Мы оцениваем CRT на разнообразных прикладных программах, достигая точности перевода 79,25% с x86 на ARMv5 в нашем комплексном тестовом наборе и точности 88,68% с x86 на RISC-V. В практических применениях на аппаратных средствах Apple M2 (ARMv8) наш преобразованный код обеспечивает ускорение в 1,73 раза по сравнению с виртуальной машиной Rosetta 2 от Apple, обеспечивая при этом эффективность памяти в 2,41 раза и лучшее энергопотребление в 1,47 раза. Через тестирование и анализ мы показываем, что CRT успешно преодолевает разрыв между CISC и RISC и генерирует корректный исполняемый RISC-код, несмотря на языковые барьеры машины. Мы публикуем наш код, модели, обучающие наборы данных и бенчмарки по адресу: https://ahmedheakl.github.io/asm2asm/.

SplatFlow: Модель многозрительного выправленного потока для трехмерного гауссовского сплетения. Синтез
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

Nov 25

ByHyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim

Генерация и редактирование трехмерных сцен на основе текста имеют значительный потенциал для оптимизации создания контента через интуитивное взаимодействие пользователя. В то время как последние достижения используют трехмерное гауссово сглаживание (3DGS) для высококачественного и реального времени визуализации, существующие методы часто специализированы и ориентированы на конкретные задачи, лишены единой структуры как для генерации, так и для редактирования. В данной статье мы представляем SplatFlow, комплексную структуру, которая заполняет этот разрыв, обеспечивая прямую генерацию и редактирование трехмерного гауссова сглаживания. SplatFlow состоит из двух основных компонентов: модели многозрительного выправленного потока (RF) и декодера гауссова сглаживания (GSDecoder). Многозрительная модель RF работает в скрытом пространстве, генерируя изображения с нескольких точек зрения, глубины и положения камеры одновременно, условно от текстовых подсказок, тем самым решая проблемы, такие как разнообразные масштабы сцен и сложные траектории камер в реальных условиях. Затем GSDecoder эффективно преобразует эти скрытые выходы в трехмерные представления 3DGS с помощью прямого метода 3DGS. Используя техники инверсии и заполнения без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр трехмерных задач, включая редактирование объектов, синтез нового вида и оценку положения камеры, в рамках единой структуры без необходимости дополнительных сложных конвейеров. Мы проверяем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя его универсальность и эффективность в различных трехмерных задачах генерации, редактирования и заполнения.

Важность всех языков: оценка LMM на культурно разнообразных 100 языках
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Nov 25

ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan

Существующие большие мультимодальные модели (LMM) обычно сосредотачиваются только на нескольких регионах и языках. Поскольку LMM продолжают улучшаться, становится все более важным обеспечить их понимание культурных контекстов, уважение к местным чувствительностям и поддержку языков с ограниченными ресурсами, эффективно интегрируя соответствующие визуальные подсказки. В поисках культурно разнообразных глобальных мультимодальных моделей наш предложенный Бенчмарк "Все Языки Важны" (ALM-bench) представляет собой крупнейшее и наиболее всестороннее усилие на сегодняшний день по оценке LMM на 100 языках. ALM-bench ставит перед существующими моделями задачу проверить их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая множество языков с ограниченными ресурсами, традиционно недостаточно представленных в исследованиях LMM. Бенчмарк предлагает надежную и тонкую систему оценки, включающую различные форматы вопросов, включая верно/неверно, выбор из нескольких вариантов и открытые вопросы, которые дополнительно разделены на категории коротких и длинных ответов. Дизайн ALM-bench обеспечивает всестороннюю оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для захвата богатой мозаики мировых культур ALM-bench тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и обрядов до известных личностей и праздников. Через это ALM-bench не только предоставляет строгую площадку для тестирования передовых открытых и закрытых источников LMM, но также подчеркивает важность культурной и лингвистической инклюзивности, поощряя разработку моделей, способных эффективно обслуживать разнообразные глобальные популяции. Наш бенчмарк доступен публично.

ЛЛМ не мыслят шаг за шагом в неявном рассуждении.
LLMs Do Not Think Step-by-step In Implicit Reasoning

Nov 24

ByYijiong Yu

Хорошо известно, что цепочка мыслей может значительно улучшить производительность LLM на сложных задачах. Однако, поскольку это также приводит к медленным скоростям вывода и более высоким вычислительным затратам, многие исследователи пытались использовать неявную цепочку мыслей, которая не требует от LLM явного создания промежуточных шагов. Однако все еще существует разрыв между их эффективностью и типичными методами явной цепочки мыслей. Это заставляет нас сомневаться, действительно ли неявная цепочка мыслей равносильна явной цепочке мыслей? Поэтому в данном исследовании мы рассматриваем этот вопрос с помощью экспериментов. Мы исследуем информацию о промежуточных шагах из скрытых состояний модели во время выполнения неявной цепочки мыслей. Результаты удивительно показывают, что LLM почти не задумывается о промежуточных шагах, что указывает на то, что они могут просто полагаться на опыт, а не на строгое пошаговое рассуждение. Более того, мы обнаруживаем, что неявные способности рассуждения LLM подвержены воздействию и нестабильны, подтверждая необходимость явной цепочки мыслей для эффективной поддержки сложных задач.

Лучшее из обоих миров: Преимущества гибридных графовых последовательностных моделей
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Nov 23

ByAli Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni

Современные модели последовательностей (например, Трансформеры, линейные RNN и т. д.) выделяются как доминирующие основы недавних фреймворков глубокого обучения, в основном благодаря их эффективности, репрезентативной мощности и/или способности захватывать долгосрочные зависимости. Применение этих моделей последовательностей для данных, структурированных в виде графов, недавно стало популярным как альтернатива нейронным сетям с передачей сообщений (MPNN). Однако отсутствует общее представление о том, что составляет хорошую модель последовательности графа, а также математическое описание преимуществ и недостатков при использовании различных моделей последовательностей для обучения на графах. Для этой цели мы представляем модель последовательности графа (GSM) - объединяющую структуру для применения моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное кодирование, которое кодирует локальные окрестности вокруг каждого узла; и (3) Глобальное кодирование, которое использует масштабируемую модель последовательности для захвата долгосрочных зависимостей внутри последовательностей. Эта структура позволяет нам понять, оценить и сравнить мощность различных основ моделей последовательностей в задачах с графами. Наши теоретические оценки мощности представления Трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач с графами показывают, что у обоих типов моделей есть как положительные, так и отрицательные стороны. Основываясь на этом наблюдении, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм иерархической аффинной кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру Трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают концепцию GSM++, показывая, что GSM++ превосходит базовые модели в большинстве бенчмарковых оценок.

Прогнозирование возникающих возможностей путем донастройки.
Predicting Emergent Capabilities by Finetuning

Nov 25

ByCharlie Snell, Eric Wallace, Dan Klein, Sergey Levine

Одной из основных открытых проблем современного масштабирования LLM является недостаточное понимание возникающих возможностей. В частности, известно, что потери предварительного обучения языковых моделей можно высоко предсказать как функцию вычислений. Однако возможности на уровне конечных задач гораздо менее предсказуемы, иногда даже проявляя эмерджентные скачки, что затрудняет предвидение возможностей будущих моделей. В данной работе мы первоначально ставим задачу предсказания эмерджентности: имея доступ к текущим LLM с случайной точностью few-shot на задаче, можем ли мы предсказать, будут ли у будущих моделей (GPT-N+1) значимые результаты на данной задаче? Затем мы обнаруживаем простое наблюдение для данной проблемы: донастройка LLM на заданной задаче может сдвинуть точку эмерджентности к менее способным моделям. Для операционализации этого наблюдения мы можем донастраивать LLM с различными объемами данных и подгонять параметрическую функцию, которая предсказывает момент эмерджентности (т.е. "законы эмерджентности"). Мы проверяем этот подход на четырех стандартных бенчмарках NLP, где крупномасштабные открытые LLM уже демонстрируют эмерджентность (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, появились ли модели, обученные с использованием до 4 раз большего количества вычислений. Наконец, мы представляем кейс-стади двух реалистичных применений предсказания эмерджентности.

Найти любую часть в 3D
Find Any Part in 3D

Nov 20

ByZiqi Ma, Yisong Yue, Georgia Gkioxari

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части в любом объекте на основе любого текстового запроса. Ранее использованные методы ограничены категориями объектов и словарями частей. Недавние достижения в области искусственного интеллекта продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этим прогрессом, мы предлагаем модель прямого предсказания для сегментации частей в 3D в открытом мире, которая может быть применена нулевым шагом к любому объекту. Наш подход, названный Find3D, обучает общую модель встраивания точек на крупномасштабных 3D-ресурсах из интернета без какой-либо аннотации человека. Он объединяет движок данных, основанный на базовых моделях для аннотации данных, с контрастным методом обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с следующим лучшим методом. Наша модель работает в 6-300 раз быстрее, чем существующие базовые модели. Для поощрения исследований в сегментации частей в открытом мире общей категории в 3D, мы также выпустили бенчмарк для общих объектов и частей. Веб-сайт проекта: https://ziqi-ma.github.io/find3dsite/

DreamMix: Разделение атрибутов объекта для улучшенной редактируемости в индивидуализированной заполнении изображений.
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Nov 26

ByYicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu

Инпейнтинг изображений, управляемый субъектом, стал популярной задачей в редактировании изображений наряду с недавними достижениями в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с сохранением возможности редактирования вставленных объектов. В данной работе представлен DreamMix, модель генерации на основе диффузии, способная вставлять целевые объекты в заданные сцены в указанных пользователем местах, обеспечивая одновременно произвольные текстовые модификации их атрибутов. В частности, мы используем передовые базовые модели инпейнтинга и представляем дизентанглированную локально-глобальную структуру инпейнтинга для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Кроме того, мы предлагаем Механизм декомпозиции атрибутов (ADM) и модуль Текстовой замены атрибутов (TAS) для улучшения разнообразия и дискриминационной способности текстового руководства атрибутами. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и инпейнтинг малых объектов. Наш код общедоступен по адресу https://github.com/mycfhs/DreamMix.

Невозможный тест: Неразрешимый набор данных 2024 года и Шанс для ИИ общего интеллекта. Викторина
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

Nov 20

ByDavid Noever, Forrest McKee

Это исследование представляет новую систему оценки, разработанную для оценки способности крупных языковых моделей (LLM) признавать неопределенность на 675 фундаментально неразрешимых проблемах. Используя отобранный набор данных с вопросами высшего уровня сложности с преднамеренно неизвестными ответами, мы оценили двенадцать передовых LLM, включая как открытые, так и закрытые модели, по их склонности признавать невежество, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазонах точности от 62 до 68% в отношении признания того, что решение проблемы неизвестно в областях от биологии до философии и математики. Мы обнаружили обратную зависимость между сложностью проблемы и точностью модели, причем GPT-4 продемонстрировал более высокие показатели признания неопределенности на более сложных проблемах (35,8%) по сравнению с более простыми (20,0%). Этот шаблон указывает на то, что модели могут быть более склонны к генерации спекулятивных ответов, когда проблемы кажутся более разрешимыми. Исследование также выявило значительные вариации по категориям проблем, с моделями, испытывающими трудности в признании неопределенности в изобретательских и NP-сложных задачах, в то время как они относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят свой вклад в растущее направление исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Этот тест невозможности таким образом расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLM распознавать свои собственные границы знаний, указывая на новые направления для улучшения архитектур обучения моделей и подходов к оценке.

Предсказание весов ребер для категориально-независимой оценки позы.
Edge Weight Prediction For Category-Agnostic Pose Estimation

Nov 25

ByOr Hirschorn, Shai Avidan

Метод оценки позы, независимый от категории объекта (CAPE), локализует ключевые точки по всем различным категориям объектов с использованием одной или нескольких размеченных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов в графе, а не как изолированных точек) помогает справляться с заслонениями и нарушениями симметрии. Однако эти методы предполагают статический граф поз с ребрами равного веса, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения путем предсказания весов ребер графа, что оптимизирует локализацию. Для дальнейшего использования структурных априорных данных мы предлагаем интегрировать Марковское структурное смещение, которое модулирует взаимодействие самовнимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оцененный на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, EdgeCape достигает лучших результатов в режиме 1-шот и лидирует среди методов схожего размера в режиме 5-шот, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.