Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы изучаем эффективность простого подхода к разработке небольшой базовой модели языка (LM) на основе существующей крупной базовой LM: сначала наследуем несколько блоков трансформера из более крупной LM, а затем обучаем эту более маленькую модель на очень маленьком подмножестве (0.1\%) исходных данных предварительного обучения более крупной модели. Мы называем наш простой рецепт Inheritune и сначала демонстрируем его для создания небольшой базовой LM с 1.5 миллиарда параметров, используя 1 миллиард токенов (и начальные несколько слоев более крупной LM с 3 миллиардами параметров); мы делаем это, используя одну GPU A6000 менее полудня. На 9 разнообразных наборах данных для оценки, а также на бенчмарке MMLU, полученная модель сравнительно благоприятно сравнивается с публично доступными базовыми моделями размером 1-2 миллиарда, некоторые из которых были обучены с использованием в 50-1000 раз большего количества токенов. Мы исследуем Inheritune в немного другом контексте, где мы обучаем небольшие LM, используя более крупные LM и их полный набор данных предварительного обучения. Здесь мы показываем, что более маленькие LM, обученные с использованием некоторых слоев GPT2-medium (355M) и GPT-2-large (770M), могут эффективно соответствовать val loss их более крупным аналогам, когда их обучают с нуля на том же количестве шагов обучения на наборе данных OpenWebText с 9 миллиардами токенов. Мы анализируем наш рецепт с помощью обширных экспериментов и демонстрируем его эффективность в различных сценариях. Наш код доступен по адресу https://github.com/sanyalsunny111/LLM-Inheritune.
В последние десятилетия сообщество зрения свидетельствовало о замечательном прогрессе в области визуального распознавания, частично благодаря усовершенствованию наборов данных для оценки. Особенно стоит отметить, что установленный набор данных COCO способствовал развитию современных систем обнаружения и сегментации. Однако сегментационный набор данных COCO за последнее десятилетие продемонстрировал относительно медленное улучшение. Изначально оборудованный грубыми аннотациями полигонов для экземпляров объектов, он постепенно включал грубые аннотации суперпикселей для областей материи, которые затем эвристически объединялись для получения аннотаций паноптической сегментации. Эти аннотации, выполненные различными группами аннотаторов, привели не только к грубым маскам сегментации, но и к несоответствиям между типами сегментации. В данном исследовании мы предпринимаем всестороннюю переоценку аннотаций сегментации COCO. Улучшая качество аннотаций и расширяя набор данных до 383 тыс. изображений с более чем 5,18 млн паноптических масок, мы представляем COCONut, следующий универсальный набор данных по сегментации COCO. COCONut гармонизирует аннотации сегментации для семантической, экземплярной и паноптической сегментации с тщательно разработанными высококачественными масками и устанавливает надежный стандарт для всех задач сегментации. На наш взгляд, COCONut является первоначальным крупномасштабным универсальным набором данных по сегментации, проверенным человеческими аннотаторами. Мы ожидаем, что выпуск COCONut значительно способствует способности сообщества оценивать прогресс новых нейронных сетей.
Данная статья исследует производительность метода Предварительного обучения на контрастных парах язык-изображение (CLIP) при снижении масштаба до ограниченных вычислительных бюджетов. Мы исследуем CLIP по трем измерениям: данным, архитектуре и стратегиям обучения. Что касается данных, мы демонстрируем значимость высококачественных обучающих данных и показываем, что набор данных меньшего объема с высоким качеством может превзойти более крупный набор данных с низким качеством. Мы также исследуем, как производительность модели меняется в зависимости от размеров различных наборов данных, указывая на то, что более маленькие модели ViT лучше подходят для небольших наборов данных, в то время как более крупные модели показывают лучшие результаты на больших наборах данных с фиксированными вычислениями. Кроме того, мы предоставляем рекомендации по выбору архитектуры на основе CNN или ViT для обучения CLIP. Мы сравниваем четыре стратегии обучения CLIP - SLIP, FLIP, CLIP и CLIP+Аугментация данных - и показываем, что выбор стратегии обучения зависит от доступных вычислительных ресурсов. Наш анализ показывает, что CLIP+Аугментация данных может достичь сопоставимой производительности с CLIP, используя лишь половину обучающих данных. Эта работа предоставляет практические идеи о том, как эффективно обучать и применять модели CLIP, делая их более доступными и доступными для практического использования в различных приложениях.
Недавние достижения в области масштабного предварительного обучения привели к созданию моделей визуальных основ с сильными возможностями. Не только современные модели могут обобщать произвольные изображения для своей задачи обучения, но и их промежуточные представления полезны для других визуальных задач, таких как детекция и сегментация. Учитывая, что такие модели могут классифицировать, детектировать и локализовать объекты в 2D, мы задаемся вопросом, представляют ли они также их 3D структуру? В данной работе мы анализируем 3D осведомленность визуальных основных моделей. Мы предполагаем, что 3D осведомленность подразумевает, что представления (1) кодируют 3D структуру сцены и (2) последовательно представляют поверхность с разных точек зрения. Мы проводим серию экспериментов с использованием задачных зондов и процедур нулевого вывода на замороженных признаках. Наши эксперименты раскрывают несколько ограничений текущих моделей. Наш код и анализ можно найти по адресу https://github.com/mbanani/probe3d.
Недавние достижения в оценке монокулярной глубины были достигнуты путем включения естественного языка в качестве дополнительного руководства. Хотя это привело к впечатляющим результатам, влияние языкового априори, особенно с точки зрения обобщения и устойчивости, остается неизученным. В данной статье мы заполняем этот пробел, количественно оценивая влияние этого априори и представляя методы для оценки его эффективности в различных ситуациях. Мы создаем "низкоуровневые" предложения, передающие объектно-центрические трехмерные пространственные отношения, включаем их в качестве дополнительных языковых априори и оцениваем их последующее влияние на оценку глубины. Нашим ключевым выводом является то, что текущие оцениватели глубины, направляемые языком, работают оптимально только с описаниями на уровне сцены и, что противоречиво, показывают худшие результаты с низкоуровневыми описаниями. Несмотря на использование дополнительных данных, эти методы не устойчивы к направленным атакам и теряют в производительности при увеличении сдвига распределения. Наконец, чтобы заложить основу для будущих исследований, мы выявляем точки отказа и предлагаем идеи для лучшего понимания этих недостатков. С увеличением числа методов, использующих язык для оценки глубины, наши результаты подчеркивают возможности и подводные камни, требующие внимательного рассмотрения для эффективного применения в реальных условиях.
Обучение с подкреплением (Reinforcement Learning, RL) на основе обратной связи от человека по предпочтениям является популярным подходом для настройки генеративных моделей, что привело к созданию впечатляющих моделей, таких как GPT-4 и Claude3 Opus. Этот фреймворк часто состоит из двух этапов: обучение модели вознаграждения на основе офлайн набора предпочтений, за которым следует онлайн обучение с подкреплением для оптимизации изученной модели вознаграждения. В данной работе, используя идею сброса, мы предлагаем новый алгоритм RLHF с доказанными гарантиями. Вдохновленные тем, что офлайн набор предпочтений предоставляет информативные состояния (т.е. данные, предпочитаемые метками), наш новый алгоритм, Оптимизация политики сброса набора данных (Dataset Reset Policy Optimization, DR-PO), интегрирует существующий офлайн набор предпочтений в процедуру онлайн обучения политики через сброс набора данных: он напрямую сбрасывает оптимизатор политики к состояниям в офлайн наборе данных, вместо того чтобы всегда начинать с начального распределения состояний. Теоретически мы показываем, что DR-PO учится выполнять по крайней мере так же хорошо, как любая политика, охваченная офлайн набором данных, при обобщенной аппроксимации функции с конечной сложностью выборки. В экспериментах мы демонстрируем, что как в случае суммирования TL;DR, так и в случае набора данных Anthropic Helpful Harmful (HH), генерация от DR-PO лучше, чем от оптимизации ближней политики (Proximal Policy Optimization, PPO) и оптимизации предпочтений направления (Direction Preference Optimization, DPO), по метрике победного процента GPT4. Код для этой работы можно найти по ссылке https://github.com/Cornell-RL/drpo.
Последние регуляризованные подходы к нейронному полю радиационной яркости (NeRF) проявляют недостаточную геометрию и экстраполяцию видов для бенчмарков мультивидовой стереосъемки (MVS), таких как ETH3D. В данной статье мы стремимся создать трехмерные модели, обеспечивающие точную геометрию и синтез вида, частично уменьшая большой геометрический разрыв в производительности между NeRF и традиционными методами MVS. Мы предлагаем подход на основе патчей, который эффективно использует предсказания монокулярной поверхностной нормали и относительной глубины. Отбор лучей на основе патчей также позволяет регуляризацию внешнего вида нормализованной кросс-корреляции (NCC) и структурной схожести (SSIM) между случайно выбранными виртуальными и обучающими видами. Мы также показываем, что "ограничения плотности" на основе разреженных точек структуры движения могут значительно улучшить геометрическую точность при небольшом снижении метрик синтеза нового вида. Наши эксперименты показывают в 4 раза более высокую производительность по сравнению с RegNeRF и в 8 раз выше, чем у FreeNeRF, по среднему значению F1@2cm для бенчмарка ETH3D MVS, что указывает на перспективное направление исследований для улучшения геометрической точности моделей на основе NeRF и проливает свет на потенциальный будущий подход для обеспечения превосходства оптимизации на основе NeRF перед традиционными методами MVS.