번역이 포함된 일일 선별된 AI 연구 논문
지시 튜닝은 대형 언어 모델이 사용자 지시를 효과적으로 따르도록 보장하기 위해 널리 채택되었습니다. LLMs의 결과적인 지시 따르기 능력은 튜닝에 사용된 지시 데이터셋에 크게 의존합니다. 최근에는 합성 지시 데이터셋이 LLMs에 다양하고 고품질의 지시를 제공하는 경제적으로 실용적인 해결책으로 등장했습니다. 그러나 기존 방법은 일반적으로 크거나 강력한 모델이 지시 튜닝을 위한 강력한 교사라고 가정하고, 따라서 이러한 모델을 합성 지시에 대한 응답 생성기로 간단히 채택합니다. 본 논문에서는 이러한 흔히 채택된 가정에 도전합니다. 다섯 개의 기본 모델과 스무 개의 응답 생성기를 대상으로 한 광범위한 실험을 통해 크고 강력한 모델이 반드시 더 작은 모델의 강력한 교사가 되는 것은 아니라는 것을 밝혀냅니다. 우리는 이 현상을 '큰 모델의 역설'이라고 명명합니다. 우리는 존재하는 메트릭이 튜닝되는 기본 모델과 교사 간의 호환성을 무시하기 때문에 응답 생성기의 효과를 정확하게 예측할 수 없다는 것을 관찰합니다. 따라서 우리는 응답 생성기의 효과를 측정하기 위해 '호환성 조정 보상(CAR)'이라는 새로운 메트릭을 개발합니다. 다섯 개의 기본 모델을 대상으로 한 우리의 실험은 CAR이 거의 모든 기준선을 능가한다는 것을 보여줍니다.
우리는 이미지 이해와 생성을 하나의 모델에서 통합하는 강력한 프레임워크 인 JanusFlow를 제안합니다. JanusFlow는 생성 모델링의 최첨단 방법인 정정된 플로우를 자동 회귀 언어 모델과 통합하는 미니멀한 아키텍처를 소개합니다. 우리의 주요 발견은 정정된 플로우가 대형 언어 모델 프레임워크 내에서 간단하게 훈련될 수 있음을 보여주며, 복잡한 구조적 수정이 필요하지 않음을 입증합니다. 통합 모델의 성능을 더욱 향상시키기 위해 두 가지 주요 전략을 채택합니다: (i) 이해 및 생성 인코더의 분리, (ii) 통합된 훈련 중에 그들의 표현을 일치시키는 것. 광범위한 실험 결과, JanusFlow가 각각의 도메인에서 특화된 모델에 비해 비슷하거나 우수한 성능을 달성하면서, 표준 벤치마크에서 기존의 통합된 접근법을 크게 능가한다는 것을 보여줍니다. 이 작업은 더 효율적이고 다재다능한 비전-언어 모델로 나아가는 한 걸음을 나타냅니다.
3D 부분 분할은 로봇공학, 3D 생성 및 3D 편집과 같은 응용 프로그램에서 중요한 역할을 하는 3D 인식에서 중요하고 어려운 작업입니다. 최근의 방법은 강력한 Vision Language Models (VLMs)를 활용하여 2D에서 3D로 지식을 전달하여 제로샷 3D 부분 분할을 달성합니다. 그러나 이러한 방법은 텍스트 프롬프트에 의존하므로 대규모 미분류 데이터셋에 대한 확장성과 부분 모호성 처리의 유연성이 제한됩니다. 본 연구에서는 사전 정의된 부분 레이블 세트를 텍스트 프롬프트로 요구하지 않고 어떠한 3D 객체도 여러 가지 세분화 수준에서 의미 있는 부분으로 분할하는 확장 가능한 제로샷 3D 부분 분할 프레임워크인 SAMPart3D를 소개합니다. 확장성을 위해 텍스트에 중립적인 비전 기반 모델을 사용하여 3D 특징 추출 백본을 정제하여 대규모 미분류 3D 데이터셋으로 확장하여 풍부한 3D 사전을 학습합니다. 유연성을 위해 스케일 조건화된 부분 인식 3D 특징을 정제하여 여러 가지 세분화 수준에서 3D 부분 분할을 수행합니다. 스케일 조건화된 부분 인식 3D 특징에서 분할된 부분을 얻은 후 다중 뷰 렌더링을 기반으로 VLMs를 사용하여 각 부분에 의미 있는 레이블을 할당합니다. 이전 방법과 비교하여 SAMPart3D는 최근의 대규모 3D 객체 데이터셋 Objaverse로 확장되어 복잡하고 일반적이지 않은 객체를 처리할 수 있습니다. 또한, 기존의 벤치마크에서 객체 및 부분의 다양성과 복잡성 부족을 해결하기 위해 새로운 3D 부분 분할 벤치마크를 제공합니다. 실험 결과, SAMPart3D는 기존의 제로샷 3D 부분 분할 방법보다 효과적이며 부분 수준 편집 및 상호 작용 분할과 같은 다양한 응용 프로그램을 용이하게 할 수 있음을 보여줍니다.
우리는 BLIP3-KALE을 소개합니다. 이는 2억 1,800만 개의 이미지-텍스트 쌍 데이터셋으로, 설명적인 합성 캡션과 사실적인 웹 규모의 대체 텍스트 사이의 간극을 메우는 역할을 합니다. KALE은 합성된 밀집 이미지 캡션을 웹 규모의 대체 텍스트로 보강하여 사실적으로 근거 있는 이미지 캡션을 생성합니다. 우리의 이 두 단계 접근법은 대형 비전-언어 모델과 언어 모델을 활용하여 지식이 보감된 캡션을 생성하고, 이를 사용하여 데이터셋을 확장하기 위해 특수 비전-언어 모델을 훈련시킵니다. 우리는 KALE에서 비전-언어 모델을 훈련시키고, 비전-언어 작업에서 개선 사항을 시연합니다. 우리의 실험은 KALE이 보다 능력이 있고 지식이 풍부한 다중 모달 모델을 훈련하는 데 유용함을 보여줍니다. 우리는 KALE 데이터셋을 https://huggingface.co/datasets/Salesforce/blip3-kale에서 공개합니다.
본 논문에서는 확산 모델을 사용한 반복적 계산이 생성 뿐만 아니라 시각 지각 작업에 강력한 패러다임을 제공한다고 주장한다. 우리는 깊이 추정, 광학 흐름 및 분할과 같은 작업을 이미지 간 변환의 하위로 통합하고, 확산 모델이 이러한 지각 작업에 대한 교육 및 테스트 시간 계산의 확장에서 어떻게 이득을 얻는지 보여준다. 이러한 확장 행동을 주의 깊게 분석하여 시각 지각 작업을 위해 확산 모델을 효율적으로 교육하는 다양한 기술을 제시한다. 우리의 모델은 상위 수준의 방법과 비교하여 훨씬 적은 데이터 및 계산을 사용하여 향상된 또는 비교 가능한 성능을 달성한다. 코드 및 모델을 사용하려면 https://scaling-diffusion-perception.github.io 를 참조하십시오.
대규모 3D 생성 모델은 상당한 컴퓨팅 자원이 필요하지만 종종 고해상도에서 세밀한 세부 사항과 복잡한 기하학을 캡처하는 데 어려움을 겪습니다. 이 한계는 현재의 효율성이 부족한 표현에 기인하며, 이러한 표현은 생성 모델을 효과적으로 모델링하는 데 필요한 간결함이 부족합니다. 이를 해결하기 위해 Wavelet Latent Diffusion 또는 WaLa라는 새로운 접근 방식을 소개합니다. 이 방법은 3D 모양을 웨이블릿 기반의 간결한 잠재 부호로 인코딩합니다. 구체적으로 256^3 부호 거리 필드를 12^3 곱하기 4의 잠재 그리드로 압축하여 세부 사항의 손실이 최소화되는 상태에서 인상적인 2427배의 압축 비율을 달성합니다. 이 높은 압축 수준으로 인해 우리의 방법은 추론 시간을 증가시키지 않고 대규모 생성 네트워크를 효율적으로 훈련할 수 있습니다. 우리의 모델은 조건부 및 무조건적으로 약 10억 개의 매개변수를 포함하며, 256^3 해상도에서 고품질 3D 모양을 성공적으로 생성합니다. 또한 WaLa는 모델의 규모에도 불구하고 조건에 따라 2~4초 내에 모양을 생성하는 빠른 추론을 제공합니다. 우리는 다양한 데이터셋에서 최신 성능을 보여주며, 생성 품질, 다양성 및 계산 효율성에서 상당한 개선을 이루어냅니다. 우리는 코드를 오픈 소스로 공개하고, 우리의 지식 범위 내에서 다양한 모달리티에 걸쳐 가장 큰 사전 훈련된 3D 생성 모델을 공개합니다.
가상 및 증강 현실에서 몰입형 경험을 만들기 위해 정확한 음향 현상을 재현하는 현실적인 오디오 합성은 필수적입니다. 어떤 위치에서 수신된 소리를 합성하는 것은 임펄스 응답(impulse response, IR)을 추정하는 데 의존하는데, 이는 소리가 청취자의 위치에 도달하기 전에 한 장면에서 다양한 경로를 통해 전파되는 방식을 특징화합니다. 본 논문에서는 음향 부피 렌더링(Acoustic Volume Rendering, AVR)이라는 새로운 방법을 제안합니다. 이 방법은 부피 렌더링 기술을 채택하여 음향 임펄스 응답을 모델링합니다. 부피 렌더링은 이미지 및 신경 장면 표현을 위해 방사도 필드를 모델링하는 데 성공적이었지만, IR은 시계열 신호로서 고유한 도전을 제공합니다. 이러한 도전에 대처하기 위해 주파수 영역 부피 렌더링을 소개하고 IR 측정값을 맞추기 위해 구적 적분을 사용합니다. 우리의 방법은 파장 전파 원리를 내재적으로 부호화하는 임펄스 응답 필드를 구축하며, 새로운 자세에 대한 임펄스 응답을 합성하는 데 최첨단 성능을 달성합니다. 실험 결과 AVR이 현재 주요 방법들을 상당히 능가함을 보여줍니다. 게다가, 우리는 기존 시뮬레이터보다 더 정확하고 현실적인 IR 시뮬레이션을 제공하는 음향 시뮬레이션 플랫폼인 AcoustiX를 개발했습니다. AVR 및 AcoustiX의 코드는 https://zitonglan.github.io/avr에서 이용할 수 있습니다.
대규모 언어 모델(LLM) 추론에 대한 액세스를 구입하는 것은 상당한 초기 하드웨어 인프라 및 에너지 비용 때문에 자체 호스팅하는 것보다 일반적인 비즈니스 실천으로 자리 잡았습니다. 그러나 구매자로서는 광고된 서비스의 진위 여부를 확인할 수 있는 메커니즘이 없습니다. 예를 들어, NVIDIA H100을 사용하여 실제로 제공되고 있는지 여부와 같은 서빙 하드웨어 플랫폼을 확인할 수 없습니다. 또한, 모델 제공 업체가 광고된 것과 약간 다른 모델을 제공할 수 있다는 보고서가 있습니다. 이는 종종 더 저렴한 하드웨어에서 실행되도록 하기 위함입니다. 이렇게 하면 고객은 더 비싼 하드웨어에서 능력 있는 모델 액세스를 위해 프리미엄을 지불하지만, 실제로는 (잠재적으로 능력이 떨어질 수 있는) 더 저렴한 모델이 더 저렴한 하드웨어에서 제공될 수 있습니다. 본 논문에서는 입력-출력 동작만을 기반으로 (블랙 박스) 기계 학습 모델의 기반이 되는 아키텍처와 소프트웨어 스택을 식별하는 방법인 하드웨어 및 소프트웨어 플랫폼 추론(HSPI)을 소개합니다. 우리의 방법은 다양한 아키텍처와 컴파일러의 고유한 차이를 활용하여 다양한 유형과 소프트웨어 스택을 구별합니다. 모델의 출력에서 숫자 패턴을 분석함으로써, 우리는 사용된 모델 추론 및 기저 소프트웨어 구성을 정확하게 식별할 수 있는 분류 프레임워크를 제안합니다. 우리의 연구 결과는 블랙 박스 모델로부터 유형을 추론하는 것이 가능함을 입증합니다. 우리는 HSPI를 다른 실제 하드웨어에서 제공되는 모델에 대해 평가하고, 화이트 박스 설정에서는 83.9%에서 100%의 정확도로 다른 유형을 구별할 수 있음을 발견했습니다. 심지어 블랙 박스 설정에서도 무작위 추측 정확도보다 최대 세 배 높은 결과를 얻을 수 있었습니다.