번역이 포함된 일일 선별된 AI 연구 논문
LLM(Large Language Models)가 더 많은 테스트 시간 계산을 사용하여 출력을 향상시킬 수 있도록 하는 것은 오픈 엔드 자연어에서 작동할 수 있는 일반적으로 자가 향상 에이전트를 구축하기 위한 중요한 단계입니다. 본 논문에서는 LLMs에서 추론 시간 계산의 스케일링을 연구하며, 다음 질문에 초점을 맞춥니다: LLM이 고정된 비트 트리비아량의 추론 시간 계산을 사용할 수 있다면, 어려운 프롬프트에서 성능을 얼마나 향상시킬 수 있을까요? 이 질문에 대한 답변은 LLMs의 달성 가능한 성능 뿐만 아니라 LLM 사전 훈련의 미래 및 추론 시간과 사전 훈련 계산의 교환에도 영향을 미칩니다. 그 중요성에도 불구하고, 다양한 테스트 시간 추론 방법의 스케일링 행동을 이해하려는 연구는 거의 없었습니다. 더구나 현재의 연구는 이러한 전략 중 일부에 대해 부정적인 결과를 주로 제공합니다. 본 연구에서는 테스트 시간 계산을 확장하는 두 가지 주요 메커니즘을 분석합니다: (1) 밀집된 프로세스 기반 확인자 보상 모델에 대한 탐색; 그리고 (2) 테스트 시간에 프롬프트를 고려하여 모델의 분포를 적응적으로 업데이트하는 것. 우리는 두 경우 모두 다른 접근 방식의 효과가 프롬프트의 어려움에 따라 중대하게 다르다는 것을 발견했습니다. 이 관찰은 테스트 시간 계산을 가장 효과적으로 프롬프트 당 적응적으로 할당하는 "계산 최적" 스케일링 전략을 적용하는 것을 동기부여합니다. 이 계산 최적 전략을 사용하면, 최고 N 베이스라인과 비교하여 테스트 시간 계산의 효율성을 4배 이상 향상시킬 수 있습니다. 또한 FLOPs(Floating Point Operations per Second) 매칭 평가에서, 더 작은 베이스 모델이 어느 정도의 비트 트리비아 성공률을 달성하는 문제에서, 테스트 시간 계산을 사용하여 14배 큰 모델을 능가할 수 있음을 발견했습니다.
다중 이미지를 처리하는 능력은 대규모 시각-언어 모델(LVLMs)이 장면에 대해 더 철저하고 세밀한 이해를 개발하는 데 중요합니다. 최근의 다중 이미지 LVLMs는 이러한 요구를 해결하기 시작했습니다. 그러나 그들의 평가는 그들의 발전 속도에 뒤처지고 있습니다. 이 간극을 메우기 위해, 우리는 LVLMs를 평가하기 위해 설계된 포괄적인 평가 스위트인 다중 모달 다중 이미지 이해(MMIU) 벤치마크를 소개합니다. MMIU는 7가지 유형의 다중 이미지 관계, 52가지 작업, 77,000개의 이미지 및 11,000개의 세심하게 선별된 객관식 문제를 포함하여 이와 같은 종류의 가장 포괄적인 벤치마크가 됩니다. 우리는 오픈 소스와 프로프리토리 모델을 모두 포함한 24가지 인기 있는 LVLMs의 평가를 통해, 특히 공간 이해를 필요로 하는 작업에서 다중 이미지 이해에 중요한 도전 과제가 있음을 밝혀내었습니다. GPT-4o와 같은 가장 고급 모델조차도 MMIU에서 55.7%의 정확도만 달성합니다. 다각적인 분석 실험을 통해 우리는 주요 성능 간극과 제한 사항을 식별하여, 미래 모델 및 데이터 개선을 위한 소중한 통찰을 제공합니다. 우리는 MMIU가 LVLM 연구 및 개발의 전선을 발전시키고, 세련된 다중 모달 다중 이미지 사용자 상호작용을 달성하는 방향으로 나아가도록 목표로 합니다.
우리는 LLaVA-NeXT 블로그 시리즈에서 데이터, 모델 및 시각적 표현에 대한 통찰을 통합하여 개발된 오픈 대형 다중 모달 모델(LMM) 패밀리인 LLaVA-OneVision을 제시합니다. 실험 결과는 LLaVA-OneVision이 오픈 LMM들의 성능 경계를 동시에 밀어올릴 수 있는 첫 번째 단일 모델임을 입증합니다. 특히 LLaVA-OneVision의 설계는 서로 다른 모달리티/시나리오 간 강력한 전이 학습을 가능하게 하여 새로운 떠오르는 능력을 제공합니다. 특히 이미지에서 비디오로의 작업 전이를 통해 강력한 비디오 이해 및 교차 시나리오 능력이 시연됩니다.
우리는 "Object Images"라는 용어로 표현된 표면 기하학, 외관 및 패치 구조를 64x64 픽셀 이미지 내에 포함하는 새로운 접근 방식을 소개합니다. 이 방법을 통해 복잡한 3D 모양을 더 관리하기 쉬운 2D 형식으로 효과적으로 변환합니다. 이를 통해 다각형 메시에 내재된 기하학적 및 의미론적 불규칙성의 어려움에 대처합니다. 이 방법을 사용하면 Diffusion Transformers와 같은 이미지 생성 모델을 직접 3D 모양 생성에 사용할 수 있습니다. ABO 데이터셋에서 평가한 결과, 패치 구조가 있는 생성된 모양은 최근의 3D 생성 모델과 유사한 포인트 클라우드 FID를 달성하며 PBR 소재 생성을 자연스럽게 지원합니다.
본 논문은 의학 분야에 대한 포괄적이고 대규모 다중 모달 데이터셋인 MedTrinity-25M을 소개합니다. 이 데이터셋은 10가지 모달리티에서 25백만 장의 이미지를 다루며, 65가지 이상의 질병에 대한 다중 단계 주석을 제공합니다. 이러한 풍부한 주석은 질병/병변 유형, 모달리티, 지역별 설명, 지역 간 관계와 같은 전역적인 텍스트 정보뿐만 아니라 관심 영역(ROI)에 대한 상세한 지역 주석인 바운딩 박스, 세그멘테이션 마스크를 포함합니다. 이미지-텍스트 쌍의 가용성으로 제한되는 기존 방법과는 달리, 본 연구에서는 텍스트 설명이 필요하지 않은 다중 단계 시각적 및 텍스트 주석(이미지-ROI-설명 쌍 형태)을 생성하여 다중 모달 데이터를 확장하는 최초의 자동화된 파이프라인을 개발했습니다. 구체적으로, 90여 개의 다른 소스에서 수집된 데이터는 도메인 특화 전문가 모델을 사용하여 전처리되고 기존 이상 영역과 관련된 ROI를 식별하는 데 사용되었습니다. 그런 다음 포괄적인 지식 베이스를 구축하고 식별된 ROI를 안내로 사용하여 다중 모달 대형 언어 모델에 검색 보강 생성을 수행하면서 다중 단계 텍스트 설명이 생성되었습니다. 기존 데이터셋과 비교했을 때, MedTrinity-25M은 가장 풍부한 주석을 제공하여 캡션 생성, 보고서 생성과 같은 포괄적인 다중 모달 작업 및 분류, 세그멘테이션과 같은 시각 중심 작업을 지원합니다. MedTrinity-25M에서 사전 훈련을 한 모델은 VQA-RAD 및 PathVQA에서 최첨단 성능을 달성하여 다중 모달 대형 언어 모델 및 다른 대표적인 최신 기술 접근법을 능가했습니다. 이 데이터셋은 또한 다중 모달 의료 AI 모델의 대규모 사전 훈련을 지원하는 데 활용될 수 있으며 의료 분야의 미래 기반 모델 개발에 기여할 수 있습니다.
확산 모델은 최첨단 이미지 생성의 경계를 지속적으로 밀어올리지만, 이 과정은 세심한 제어가 어렵습니다. 실무에서는 텍스트 프롬프트가 이미지 스타일이나 세부 구조적 세부 사항(예: 얼굴)을 정확히 설명하는 데 부족하다는 것이 입증되었습니다. ControlNet과 IPAdapter는 이러한 결점에 대응하기 위해 생성 프로세스를 이미지에 의존하도록 하는데, 그러나 각 개별 인스턴스는 단일 조건부 사후 확률을 모델링하는 데 한정됩니다. 여러 다른 사후 확률이 동일한 워크플로 내에서 원하는 실용적인 사용 사례의 경우, 여러 어댑터를 훈련하고 사용하는 것은 번거롭습니다. 우리는 IPAdapter-Instruct를 제안합니다. 이는 자연 이미지 조건부와 "Instruct" 프롬프트를 결합하여 동일한 조건부 이미지에 대한 해석을 교체하는 데 사용됩니다. 스타일 전이, 객체 추출, 둘 다 또는 그 외 다른 것? IPAdapterInstruct는 전용 각 작업 모델과 비교하여 품질 손실을 최소화하면서 여러 작업을 효율적으로 학습합니다.
언어 모델의 출력의 정확성을 검증하는 연구가 증가하고 있습니다. 동시에, LM은 추론이 필요한 복잡한 쿼리를 해결하는 데 사용되고 있습니다. 우리는 복잡한 추론 환경에서 LM 출력을 검증하는 데 초점을 맞춘 도전적인 벤치마크인 CoverBench를 소개합니다. 이를 위해 사용할 수 있는 데이터셋은 종종 다른 복잡한 추론 작업 (예: QA)을 위해 설계되어 특정 유증상 (예: 금융 테이블)을 대상으로 하며, 변환, 부정적 샘플링 및 어려운 예제의 선택이 필요합니다. CoverBench는 다양한 도메인, 추론 유형, 상대적으로 긴 입력 및 다양한 표준화를 제공하여 복잡한 주장 검증에 대한 평가를 다양화합니다. 가능한 경우 표의 다양한 표현과 일관된 스키마를 제공합니다. 저희는 데이터의 품질을 수동으로 확인하여 라벨 노이즈를 최소화합니다. 마지막으로, CoverBench가 도전적이며 매우 큰 잠재력을 가지고 있음을 보여주기 위해 다양한 경쟁력 있는 기준 결과를 보고합니다. 데이터는 https://huggingface.co/datasets/google/coverbench 에서 사용할 수 있습니다.
본 논문은 이미지 합성을 위해 훈련된 생성 모델을 시각 데이터 마이닝 도구로 활용하는 방법을 보여줍니다. 우리의 관찰 결과는 현대적인 생성 모델이 훈련 데이터의 정확한 표현을 학습하기 때문에 시각적 패턴을 발견하여 데이터를 요약하는 데 사용할 수 있다는 것입니다. 구체적으로, 조건부 확산 모델을 세밀 조정하여 특정 데이터셋에서 이미지를 합성한 후, 이러한 모델을 사용하여 해당 데이터셋에 대한 전형성 측정을 정의할 수 있음을 보여줍니다. 이 측정은 지리적 위치, 시간 스탬프, 의미 레이블 또는 심지어 질병의 존재와 같은 다양한 데이터 레이블에 대해 시각적 요소가 얼마나 전형적인지를 평가합니다. 이 데이터 마이닝을 위한 분석-합성 접근 방식은 두 가지 주요 이점을 가지고 있습니다. 첫째, 모든 시각적 요소 쌍을 명시적으로 비교할 필요가 없기 때문에 전통적인 대응 기반 접근 방식보다 훨씬 더 확장 가능합니다. 둘째, 대부분의 이전 시각 데이터 마이닝 작업이 단일 데이터셋에 초점을 맞추는 반면, 우리의 접근 방식은 콘텐츠와 규모 측면에서 다양한 데이터셋에서 작동하며, 역사적인 자동차 데이터셋, 역사적인 얼굴 데이터셋, 대규모 세계 거리-뷰 데이터셋 및 더 큰 장면 데이터셋을 포함합니다. 더 나아가, 우리의 접근 방식은 클래스 레이블 간에 시각적 요소를 번역하고 일관된 변화를 분석할 수 있습니다.
주어진 오디오와 동기화된 립싱크 비디오는 가상 프레젠터 또는 퍼포머를 만드는 등 다양한 응용 프로그램의 기초입니다. 최근 연구들은 다양한 기술로 고품질의 립싱크를 탐구하고 있지만, 그들의 작업 지향적 모델은 클립별 훈련을 위해 장기간의 비디오를 필요로 하거나 시각적인 아티팩트를 유지합니다. 본 논문에서는 통합적이고 효과적인 프레임워크 ReSyncer를 제안합니다. 이 프레임워크는 일반화된 오디오-시각적 얼굴 정보를 동기화합니다. 주요 디자인은 원칙적인 스타일 주입 트랜스포머에 의해 예측된 3D 얼굴 역학을 효율적으로 채택하기 위해 스타일 기반 생성기를 재방문하고 재배선하는 것입니다. 잡음과 스타일 공간 내 정보 삽입 메커니즘을 간단히 다시 구성함으로써 우리의 프레임워크는 운동과 외관을 통합된 훈련으로 융합합니다. 포괄적인 실험은 ReSyncer가 오디오에 따라 고품질의 립싱크 비디오를 생성하는 뿐만 아니라 가상 프레젠터와 퍼포머를 만드는 데 적합한 다양한 매력적인 특성을 지원한다는 것을 입증합니다. 이 프로젝트의 자료는 https://guanjz20.github.io/projects/ReSyncer에서 찾을 수 있습니다.
평가는 대규모 언어 모델의 발전을 위한 지휘봉입니다. 현재의 평가는 일반적으로 각 원자적 테스트 목표에 대해 단일 항목 평가 패러다임을 사용하며, 모델이 필요한 능력을 실제로 갖고 있는지 아니면 특정 질문에 대한 답변을 단순히 기억하거나 추측하는지를 구별하는 데 어려움을 겪습니다. 이에 우리는 StructEval이라고 불리는 새로운 평가 프레임워크를 제안합니다. 원자적 테스트 목표에서 시작하여, StructEval은 다양한 인지 수준과 중요한 개념을 가로지르며 구조화된 평가를 수행하여 LLMs에 대해 포괄적이고 견고하며 일관된 평가를 제공합니다. 세 가지 널리 사용되는 벤치마크에서의 실험 결과는 StructEval이 데이터 오염의 위험에 대항하고 잠재적 편향의 간섭을 줄이는 믿을 수 있는 도구로 작용하여 모델 능력에 관한 더 신뢰할 수 있고 일관된 결론을 제공한다는 것을 입증합니다. 또한 우리의 프레임워크는 미래의 원칙적이고 신뢰할 수 있는 LLM 평가 프로토콜의 설계에 대한 통찰을 제공합니다.
오픈 소스와 폐쇄 소스 대형 언어 모델(LLM) 간의 능력 차이는 텍스트-SQL 작업에서 여전히 도전과제로 남아 있습니다. 본 논문에서는 더 크고 강력한 모델(강력한 모델)에 의해 생성된 데이터와 작은, 정렬되지 않은 모델(약한 모델)에 의해 생성된 오류 정보 데이터를 결합하는 합성 데이터 접근 방식을 소개합니다. 이 방법은 텍스트-SQL 모델의 도메인 일반화 능력을 향상시킬 뿐만 아니라, 선호 학습을 통해 오류 데이터 감독의 잠재력을 탐구합니다. 더불어, 우리는 이 합성 데이터 접근 방식을 오픈 소스 LLM의 지시 조정에 적용하여 SENSE, 특화된 텍스트-SQL 모델을 만들었습니다. SENSE의 효과는 SPIDER와 BIRD 벤치마크에서의 최첨단 결과를 통해 입증되었으며, 이를 통해 오픈 소스 모델과 폐쇄 소스 모델에 의해 유발된 방법 간의 성능 차이를 줄였습니다.
최근에는 트랜스포머 기반 모델이 오디오-비주얼 분할 (AVS) 작업에서 놀라운 성능을 보여주고 있습니다. 그러나 그들의 비싼 계산 비용으로 실시간 추론이 불가능해집니다. 네트워크의 어텐션 맵을 특성화함으로써, 우리는 AVS 모델에서 두 가지 주요 장애물을 식별합니다: 1) 어텐션 소멸, 제한된 프레임 내에서 소프트맥스에 의한 과도한 집중된 어텐션 가중치에 해당하며, 2) 비효율적이고 부담스러운 트랜스포머 디코더, 초기 단계에서 좁은 초점 패턴에 의해 발생합니다. 본 논문에서는, 우리는 빠르고 효율적이며 가벼운 AVESFormer를 소개합니다. 이는 첫 번째 실시간 오디오-비주얼 효율적 분할 트랜스포머로, 빠르고 효율적이며 가벼운 것을 동시에 달성합니다. 우리의 모델은 효율적인 프롬프트 쿼리 생성기를 활용하여 교차 어텐션의 동작을 수정합니다. 게다가, 우리는 지역 특징에 적합한 컨볼루션을 용이하게 하는 ELF 디코더를 제안하여 계산 부담을 줄이는 데 큰 효율성을 가져옵니다. 광범위한 실험 결과는 우리의 AVESFormer가 모델 성능을 크게 향상시키며, S4에서 79.9%, MS3에서 57.9%, AVSS에서 31.2%를 달성하여 이전 최첨단 기술을 능가하고 성능과 속도 사이의 훌륭한 균형을 달성한다는 것을 보여줍니다. 코드는 https://github.com/MarkXCloud/AVESFormer.git에서 확인할 수 있습니다.