번역이 포함된 일일 선별된 AI 연구 논문
검색 보강 생성 (RAG)은 LLM의 지식 능력을 향상시키고 환각 문제를 완화하는 데 효과가 있다는 것이 입증되었습니다. 웹은 RAG 시스템에서 사용되는 외부 지식의 주요 원천이며, ChatGPT와 Perplexity와 같은 많은 상용 시스템들이 웹 검색 엔진을 주요 검색 시스템으로 사용해왔습니다. 일반적으로 이러한 RAG 시스템은 검색 결과를 검색하고 결과의 HTML 소스를 다운로드한 다음 HTML 소스에서 일반 텍스트를 추출합니다. 일반 텍스트 문서나 청크는 LLM에 공급되어 생성을 보강합니다. 그러나 HTML에 내재된 제목과 테이블 구조와 같은 구조적 및 의미적 정보의 많은 부분이 이러한 일반 텍스트 기반 RAG 프로세스 중에 손실됩니다. 이 문제를 완화하기 위해 우리는 HtmlRAG를 제안합니다. 이는 RAG에서 검색된 지식의 형식으로 일반 텍스트 대신 HTML을 사용합니다. 우리는 HTML이 외부 문서에서 지식을 모델링하는 데 일반 텍스트보다 우수하다고 믿으며 대부분의 LLM이 HTML을 이해하는 강력한 능력을 갖추고 있다고 생각합니다. 그러나 HTML을 활용하는 것은 새로운 도전을 제기합니다. HTML에는 태그, JavaScript 및 CSS 사양과 같은 추가 콘텐츠가 포함되어 있어 RAG 시스템에 추가 입력 토큰과 잡음을 가져옵니다. 이 문제를 해결하기 위해 우리는 HTML 정리, 압축 및 가지치기 전략을 제안하여 HTML을 줄이면서 정보 손실을 최소화합니다. 구체적으로, 우리는 쓸모없는 HTML 블록을 제거하고 HTML의 관련 부분만 유지하는 두 단계의 블록 트리 기반 가지치기 방법을 설계합니다. 6개의 QA 데이터셋에서 수행한 실험은 RAG 시스템에서 HTML 사용의 우월성을 확인합니다.
대형 언어 모델(LLMs)은 지시 조정을 통해 현저한 일반화 및 지시 준수 능력을 나타냈습니다. LLMs와 지시 조정의 발전은 대형 시각-언어 모델(LVLMs)의 개발로 이어졌습니다. 그러나 LLMs와 지시 조정의 능력은 분자 영역에서 미비하게 탐구되었습니다. 따라서 우리는 LLaMo를 제안합니다: 대형 언어 모델 기반 분자 그래프 어시스턴트로, 이는 단일 분자 그래프-언어 모델로 끝까지 훈련된 대형 모델입니다. 언어와 그래프 모드 간의 불일치를 줄이기 위해 우리는 각 GNN 레이어와 모티프 표현의 출력 표현을 추상화하고 교차-주의 메커니즘을 통해 그래프 표현을 그래프 토큰으로 변환하는 다중 수준 그래프 프로젝터를 제시합니다. 또한 일반 목적의 분자 및 언어 이해를 위해 대형 분자 그래프-언어 모델을 지시 조정하기 위해 기계 생성 분자 그래프 지시 데이터를 소개합니다. 우리의 광범위한 실험은 LLaMo가 분자 설명 생성, 속성 예측 및 IUPAC 이름 예측과 같은 다양한 작업에서 최고의 성능을 보여준다는 것을 입증합니다. LLaMo의 코드는 https://github.com/mlvlab/LLaMo에서 사용할 수 있습니다.
대규모 생성 모델의 능력이 증가하고 그들의 점점 더 널리 사용되는 것은 그들의 신뢰성, 안전성 및 잠재적 남용에 대한 우려를 증가시켰습니다. 이러한 문제에 대응하기 위해 최근 연구들은 모델 활성화를 조절하여 생성된 출력물에서 개념이나 행동의 발생을 효과적으로 유도하거나 방지하기 위해 모델 생성을 제어하는 것을 제안했습니다. 본 논문에서는 최적 운송 이론에 따라 안내되는 활성화를 조절하는 일반적인 프레임워크인 활성화 전달(Activation Transport, AcT)를 소개합니다. AcT는 모달리티에 중립적이며 계산 오버헤드가 미미하면서 모델 행동을 세밀하게 제어하며 모델 능력에는 최소한의 영향을 미칩니다. 우리는 실험적으로 저희 방법의 효과성과 다양성을 입증하여 대규모 언어 모델(Large Language Models, LLMs) 및 텍스트-이미지 확산 모델(Text-to-Image Diffusion Models, T2Is)에서 주요 도전 과제를 다룹니다. LLMs의 경우, AcT가 유해성을 효과적으로 완화하고 임의의 개념을 유도하며 진실성을 증가시킬 수 있다는 것을 보여줍니다. T2Is의 경우, AcT가 세밀한 스타일 제어와 개념 부정을 가능하게 하는 방법을 보여줍니다.
현재의 시각 시스템은 일반적으로 정보 내용과 관계없이 이미지에 고정 길이의 표현을 할당합니다. 이는 인간 지능 또는 대형 언어 모델과 대조됩니다. 후자는 엔트로피, 맥락 및 익숙함에 기반한 다양한 표현 능력을 할당합니다. 이에 영감을 받아, 우리는 2D 이미지에 대해 가변 길이의 토큰 표현을 학습하는 방법을 제안합니다. 우리의 인코더-디코더 아키텍처는 2D 이미지 토큰을 재귀적으로 처리하여 여러 번의 반복된 순환을 통해 1D 잠재 토큰으로 압축합니다. 각 반복은 2D 토큰을 정제하고 기존의 1D 잠재 토큰을 업데이트하며 새로운 토큰을 추가함으로써 표현 능력을 증가시킵니다. 이를 통해 이미지를 32에서 256까지의 가변 수의 토큰으로 압축할 수 있습니다. 우리는 재구성 손실과 FID 지표를 사용하여 우리의 토크나이저를 검증하며, 토큰 수가 이미지 엔트로피, 익숙함 및 하향 작업 요구와 일치함을 보여줍니다. 각 반복에서 표현 능력이 증가하는 반복적인 토큰 처리는 토큰 특화의 징후를 보여주며, 객체/부분 발견의 잠재력을 드러냅니다.
MLLM는 복잡한 언어 및 시각 데이터에 대한 놀라운 이해력과 추론 능력을 보여주었습니다. 이러한 발전은 복잡한 인간 지시를 이해하고 다양한 신체적 작업을 수행하는 능숙한 일반적인 로봇 MLLM을 구축하는 비전을 촉발시켰습니다. 그러나 실제 로봇용 MLLM을 개발하는 것은 일반적으로 로봇 플랫폼에서 사용 가능한 제한된 계산 및 메모리 용량 때문에 어렵습니다. 반면, MLLM의 추론은 수십억 개의 매개변수를 저장하고 방대한 계산을 수행하는 것을 포함하여 상당한 하드웨어 요구 사항을 부과합니다. 저희 논문에서는 각 상황에 따라 활성화된 MLLM의 크기를 자동으로 조정하는 로봇 비전-언어-행동 모델 (DeeR-VLA 또는 간단히 DeeR)용 동적 조기 종료 프레임워크를 제안합니다. 이 접근 방식은 MLLM의 다중 종료 아키텍처를 활용하여 모델이 특정 상황에 대해 활성화된 모델의 적절한 크기가 활성화되면 처리를 중단할 수 있도록 하여 불필요한 계산을 피합니다. 추가로, DeeR에 대한 조기 종료 기준을 설정하는 새로운 알고리즘을 개발하였는데, 이는 평균 계산 비용 (즉, 전력 소비) 및 최대 계산 소비 (즉, 지연 시간) 및 GPU 메모리 사용량과 같은 사전 정의된 요구 사항에 의존합니다. 이러한 향상된 기능은 DeeR이 경쟁력 있는 성능을 유지하면서 다양한 자원 제약 조건 하에서 효율적으로 작동하도록 보장합니다. CALVIN 로봇 조작 벤치마크에서, DeeR은 LLM의 계산 비용을 5.2-6.5배, LLM의 GPU 메모리를 2-6배 줄이면서 성능을 희생하지 않음을 보여줍니다. 코드 및 체크포인트는 https://github.com/yueyang130/DeeR-VLA에서 사용할 수 있습니다.
우리는 예산이 할당된 온라인 피드백을 고려하여 대규모 언어 모델 (LLM)을 효율적으로 조정하는 방법에 대해 연구합니다. 우리는 먼저 LLM 조정 문제를 문맥적인 듀얼링 밴딧의 프레임에서 정의합니다. 이 정의는 최근의 온라인 RLHF 및 온라인 DPO와 같은 패러다임을 포함하며, 온라인 액티브 탐사를 통합하는 효율적인 샘플 알고리즘을 탐구합니다. 밴딧 이론에서 얻은 통찰을 활용하여, Thompson 샘플링을 기반으로 한 통합 알고리즘을 소개하고, 이 알고리즘의 두 가지 다른 LLM 조정 시나리오에서의 응용을 강조합니다. 이 알고리즘을 효율적으로 구현하는 실용적 에이전트인 SEA (Sample-Efficient Alignment)는 1B, 2.8B, 6.9B 세 가지 모델 규모와 DPO, IPO, SLiC 세 가지 선호 학습 알고리즘을 통해 광범위한 실험을 통해 경험적으로 검증되었습니다. 결과는 SEA가 오라클의 선호도에 매우 효율적으로 조정을 달성하며, LLM을 위한 최근의 액티브 탐사 방법을 능가한다는 것을 보여줍니다. 또한, 우리는 LLM의 온라인 조정을 위해 설계된 효율적인 코드베이스와 함께 SEA의 구현을 공개하여, 이 분야의 미래 연구를 가속화하는 것을 목표로 합니다.
우리는 정교한 기하학과 고품질 질감을 생성하는 데 뛰어난 DreamPolish라는 텍스트 대 3D 생성 모델을 소개합니다. 기하학 구축 단계에서 우리의 접근 방식은 합성 과정의 안정성을 향상시키기 위해 여러 신경 표현을 활용합니다. 새로운 샘플된 뷰에서 기하학적 표면의 원치 않는 아티팩트를 종종 유발하는 뷰 조건부 확산 사전만에 의존하는 대신, 우리는 다양한 시야 영역에 대한 시점에 의존하는 기하학 세부 사항을 다듬기 위해 추가적인 정규 추정기를 통합합니다. 이전 단계로부터의 제한된 가이드로 인한 아티팩트를 효과적으로 개선하고 더욱 바람직한 기하학을 갖춘 3D 객체를 생성할 수 있는 몇 가지 훈련 단계만으로 구성된 표면 다듬기 단계를 제안합니다. 사전 훈련된 텍스트 대 이미지 모델을 사용한 질감 생성의 핵심 주제는 이러한 모델의 광범위한 잠재 분포에서 사실적이고 일관된 렌더링을 포함하는 적합한 도메인을 찾는 것입니다. 질감 생성 단계에서 우리는 신경 표현을 이러한 도메인으로 이끌기 위해 도메인 점수 증류(DSD)라는 새로운 점수 증류 목표를 소개합니다. 텍스트 조건부 이미지 생성 작업에서 분류기 없는 가이드(CFG)에서 영감을 받아 CFG와 변분 분포 가이드가 그라디언트 가이드의 다른 측면을 나타내며 질감 품질 향상을 위한 중요한 도메인이라는 것을 보여줍니다. 방대한 실험 결과 우리의 제안된 모델이 다듬어진 표면과 사실적인 질감을 갖춘 3D 에셋을 생성할 수 있으며 기존의 최첨단 기술을 능가한다는 것을 보여줍니다.
신경 임플리시트 함수는 복수 또는 단일 이미지에서 의류를 입은 인간을 디지턀화하는 최첨단 기술에 상당한 발전을 가져왔습니다. 그러나 진전에도 불구하고, 현재의 기술은 복잡한 옷 변형과 몸의 자세를 가진 보이지 않는 이미지에 대해 일반화하는 데 어려움을 겪고 있습니다. 본 연구에서는 단일 제약이 없는 이미지로부터 고품질 3D 의류 재구성에서 전례 없는 강건성을 달성하기 위한 새로운 데이터셋 및 프레임워크인 GarVerseLOD를 제시합니다. 대규모 생성 모델의 최근 성공에서 영감을 받아, 일반화 도전에 대처하는 핵심은 3D 의류 데이터의 양과 질에 있다고 믿습니다. 이를 위해 GarVerseLOD는 전문 예술가들이 수작업으로 만든 세밀한 기하학 세부 정보를 갖춘 6,000개의 고품질 의류 모델을 수집합니다. 교육 데이터의 규모 외에도, 우리는 기하학의 분리된 세분화가 일반화 능력과 학습된 모델의 추론 정확도 향상에 중요한 역할을 할 수 있다는 것을 관찰했습니다. 따라서 우리는 GarVerseLOD를 세부 수준(LOD)으로 계층적 데이터셋으로 제작하여, 세부 사항이 없는 스타일화된 모양부터 픽셀 정렬된 세부 정보를 갖춘 자세 혼합 의류까지 확장합니다. 이를 통해 추론을 더 쉬운 작업으로 분해하여 보다 작은 검색 공간으로 좁힘으로써 이 과도하게 제약된 문제를 다룰 수 있게 합니다. GarVerseLOD가 야외 이미지에 대해 잘 일반화될 수 있도록, 우리는 고품질 사진 현실성을 갖춘 각 의류 모델에 대한 방대한 쌍 이미지를 생성하기 위한 조건부 확산 모델에 기반한 새로운 레이블링 패러다임을 제안합니다. 우리는 방대한 양의 야외 이미지에서 우리의 방법을 평가했습니다. 실험 결과는 GarVerseLOD가 이전 방법보다 훨씬 더 우수한 품질의 독립적인 의류 조각을 생성할 수 있음을 보여줍니다. 프로젝트 페이지: https://garverselod.github.io/
시각 언어 모델(Vision Language Models, VLMs)은 다양한 시각 이해 및 추론 작업에서 강력한 능력을 보여주었습니다. 그러나 실제 세계에서의 배포는 종종 추론 중 높은 대기 시간으로 제약을 받습니다. 이는 LLM(Large Language Model)에 의해 입력 토큰(주로 이미지에서)을 처리하기 위해 필요한 상당한 계산 덕분입니다. 추론 비용을 줄이기 위해 LLM을 축소하거나 입력 이미지 토큰의 수를 줄일 수 있습니다. 후자는 최근 토큰 압축을 중심으로 한 많은 연구의 초점이 되었습니다. 그러나 최적의 교환 관계가 무엇인지는 명확하지 않습니다. 두 요소 모두 VLM 성능에 직접적인 영향을 미치기 때문입니다. 우리는 먼저 이 두 요소와 성능 변화를 포착하는 스케일링 법칙을 확립함으로써 시각 토큰 수와 LLM 매개변수 간의 최적의 교환 관계를 특성화합니다. 결과는 놀라운 추세를 보여줍니다. 시각 추론 작업에서 VLM의 추론 최적 동작, 즉 주어진 고정 추론 계산에서 최소 하류 오류를 달성하는 것은 추론 예산 내에 맞는 가장 큰 LLM을 사용하면서 시각 토큰 수를 최소화할 때 발생합니다. 토큰 감소 문헌은 주로 토큰 수를 적게 줄이면서 기본 모델 성능을 유지하는 데 초점을 맞추었지만, 우리의 결과는 계산 최적 추론 체제가 더 높은 토큰 압축 비율 하에서 작동을 필요로 한다는 것을 보여줍니다. 이러한 통찰력을 바탕으로 높은 토큰 압축 환경에 맞는 방법론을 구축하기 위해 초기 단계를 거쳐 나아가고 있습니다. 코드는 https://github.com/locuslab/llava-token-compression에서 사용할 수 있습니다.
희귀 질병은 건강 관리에서 독특한 도전을 제공하며 종종 진단 지연과 조각난 정보 환경으로 고통을 겪습니다. 이러한 상황에서 신뢰할 수 있는 지식의 부족은 대규모 언어 모델(Large Language Models, LLMs)이 임상 관리를 지원하고 정확한 환자 정보를 제공하는 데 특별한 도전을 제기하며 이러한 '얼룩말(zebra)' 케이스에 집중적인 교육이 필요함을 강조합니다. 우리는 Ehlers-Danlos 증후군(EDS)을 사례 연구로 삼아 고정밀 검색 증강 생성(Retrieval Augmented Generation, RAG) 능력을 갖춘 전문화된 문맥 인식 언어 모델인 Zebra-Llama를 제시합니다. EDS는 5,000명 중 1명을 영향을 주며 다양한 증상, 다양한 하위 유형 및 진단 기준의 변화로 인해 희귀 질병의 복잡성을 보여줍니다. 의료 문헌, 환자 경험 및 임상 자료에서 유도된 질문에 대해 훈련된 새로운 문맥 인식 세밀 조정 방법을 구현함으로써 전문가가 선별한 응답과 함께, Zebra-Llama는 EDS 관련 질의를 처리하는 데 있어 전례없는 능력을 보여줍니다. EDS 환자와 임상 의료진으로부터 수집된 실제 질문 세트를 기반으로 의료 전문가들은 두 모델이 생성한 응답을 평가하여, Zebra-Llama가 기본 모델(Llama 3.1-8B-Instruct)에 비해 철저함(77.5% 대 70.1%), 정확도(83.0% 대 78.8%), 명확성(74.7% 대 72.0%) 및 인용 신뢰성(70.6% 대 52.3%)에서 상당한 개선을 보여주었습니다. 오픈 소스 자원으로 공개된 Zebra-Llama는 EDS 정보를 더 접근 가능하고 신뢰할 수 있게 제공하는 뿐만 아니라 다른 희귀 질병을 위한 전문화된 AI 솔루션 개발을 위한 프레임워크를 확립합니다. 이 작업은 희귀 질병 관리에서 전문가 수준의 지식을 민주화하는 중요한 한 걸음으로, 건강 관리 제공자와 환자가 희귀 질병의 복잡한 환경을 탐색하는 방식을 변화시킬 수 있는 잠재력을 갖추고 있습니다.
객체 탐지 기술이 계속 발전함에 따라, 보완적인 시각 작업과의 관계를 이해하는 것이 모델 아키텍처와 계산 자원을 최적화하는 데 중요해집니다. 본 논문은 객체 탐지 정확도와 두 가지 기본 시각 작업인 깊이 예측과 시각적 눈부심 예측 사이의 상관 관계를 조사합니다. COCO 및 Pascal VOC 데이터셋에서 최첨단 모델(DeepGaze IIE, Depth Anything, DPT-Large, 및 Itti의 모델)을 사용한 포괄적인 실험을 통해, 시각적 눈부심이 깊이 예측보다 객체 탐지 정확도와 일관되게 강한 상관 관계를 보여준다는 것을 발견했습니다(Pascal VOC에서 mArho 최대 0.459). 우리의 분석은 이러한 상관 관계가 객체 범주에 따라 상당한 변동을 보여주며, 큰 객체가 작은 객체보다 상관 값이 최대 3배 높은 것을 보여줍니다. 이러한 발견은 특정 객체 범주에 대해 시각적 눈부심 특징을 객체 탐지 아키텍처에 통합하는 것이 깊이 정보보다 더 유익할 수 있다는 것을 시사합니다. 관찰된 범주별 변동은 특정 기능 엔지니어링 및 데이터셋 설계 개선을 위한 통찰을 제공하며, 이는 더 효율적이고 정확한 객체 탐지 시스템으로 이어질 수 있습니다.