번역이 포함된 일일 선별된 AI 연구 논문
시각적 수학적 추론은 기본적인 시각적 추론 능력으로서, 대규모 멀티모달 모델(LMMs) 커뮤니티로부터 폭넓은 관심을 받고 있습니다. MathVista와 MathVerse와 같은 기존 벤치마크는 결과 중심의 성능에 더 초점을 맞추고 있지만, 지식 습득과 일반화의 근본적인 원리를 간과하고 있습니다. 인간과 유사한 수학적 추론에서 영감을 받아, 우리는 종단간 성능을 넘어 문제 해결 원리를 탐구하기 위해 특별히 설계된 첫 번째 벤치마크인 WE-MATH를 소개합니다. 우리는 67개의 계층적 지식 개념과 다섯 가지 지식 세분화 수준에 걸친 6.5K개의 시각적 수학 문제를 신중하게 수집하고 분류했습니다. 복합 문제를 필요한 지식 개념에 따라 하위 문제로 분해하고, LMMs의 추론 과정에서 내재된 문제를 계층적으로 평가하기 위해 새로운 4차원 지표, 즉 불충분한 지식(IK), 부적절한 일반화(IG), 완전한 숙달(CM), 그리고 기계적 암기(RM)를 도입했습니다. WE-MATH를 통해 우리는 기존 LMMs의 시각적 수학적 추론을 철저히 평가하고, 문제 해결 단계와 문제 특정 성능 간의 부정적 상관관계를 밝혀냈습니다. 우리는 LMMs의 IK 문제가 지식 증강 전략을 통해 효과적으로 개선될 수 있음을 확인했습니다. 더욱 주목할 만한 점은, GPT-4o의 주요 도전 과제가 IK에서 IG로 크게 전환되어, 지식 일반화 단계로 나아가는 첫 번째 LMM으로 자리매김했다는 것입니다. 반면, 다른 LMMs는 기계적 암기에 뚜렷한 경향을 보였습니다. 이들은 여러 지식 개념을 포함하는 복합 문제는 올바르게 해결하지만, 하위 문제에는 답하지 못했습니다. 우리는 WE-MATH가 LMMs의 시각적 수학적 추론 발전을 위한 새로운 길을 열어줄 것으로 기대합니다. WE-MATH 데이터와 평가 코드는 https://github.com/We-Math/We-Math에서 확인할 수 있습니다.
비전문가도 직관적으로 로봇을 프로그래밍할 수 있는 프레임워크를 제안합니다. 이 프레임워크는 자연어 프롬프트와 로봇 운영 체제(ROS)의 상황 정보를 활용합니다. 우리의 시스템은 대규모 언어 모델(LLM)을 통합하여 비전문가가 채팅 인터페이스를 통해 시스템에 작업 요구사항을 명시할 수 있도록 합니다. 이 프레임워크의 주요 특징은 다음과 같습니다: 다양한 오픈소스 및 상용 LLM에 연결된 AI 에이전트와 ROS의 통합, LLM 출력에서 행동을 자동으로 추출하고 ROS 액션/서비스를 실행하는 기능, 세 가지 행동 모드(시퀀스, 행동 트리, 상태 머신) 지원, 가능한 액션 라이브러리에 새로운 로봇 액션을 추가하기 위한 모방 학습, 그리고 인간 및 환경 피드백을 통한 LLM 반영. 다양한 시나리오(장기 작업, 테이블탑 재배치, 원격 감독 제어 등)에서의 광범위한 실험을 통해 이 프레임워크의 견고성, 확장성, 다용도성을 입증했습니다. 우리의 프레임워크 채택과 결과 재현을 지원하기 위해 코드를 오픈소스로 공개했습니다. 다음 링크에서 확인할 수 있습니다: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
문서는 텍스트뿐만 아니라 표, 그림, 페이지 레이아웃, 폰트 등을 통해 정보를 전달하는 시각적으로 풍부한 구조물입니다. 현대의 문서 검색 시스템은 쿼리-텍스트 매칭에서는 강력한 성능을 보이지만, 시각적 단서를 효율적으로 활용하는 데 어려움을 겪으며, Retrieval Augmented Generation과 같은 실용적인 문서 검색 애플리케이션에서의 성능을 저하시키고 있습니다. 시각적으로 풍부한 문서 검색에서 현재 시스템의 성능을 벤치마크하기 위해, 우리는 다양한 도메인, 언어, 설정에 걸친 페이지 수준의 검색 작업으로 구성된 Visual Document Retrieval Benchmark ViDoRe를 소개합니다. 현대 시스템의 고유한 한계점은 최근의 Vision Language Model의 문서 이해 능력을 활용하여 문서 페이지의 이미지만으로 고품질의 문맥화된 임베딩을 생성하는 새로운 검색 모델 아키텍처인 ColPali의 도입을 촉진했습니다. 후기 상호작용 매칭 메커니즘과 결합된 ColPali는 현대 문서 검색 파이프라인을 크게 능가하면서도 훨씬 빠르고 종단 간 학습이 가능합니다.
최근 연구에 따르면 트리 탐색 알고리즘(예: 몬테카를로 트리 탐색)이 복잡한 수학적 추론 과제에서 대형 언어 모델(LLM)의 성능을 극적으로 향상시킬 수 있다고 합니다. 그러나 이러한 알고리즘은 비효율적인 탐색 전략으로 인해 탐욕적 디코딩보다 10배 이상의 계산 자원을 필요로 하기 때문에 실제 애플리케이션에 배포하기가 어렵습니다. 본 연구에서는 이러한 문제를 해결하기 위해 동적 노드 선택과 노드 수준 탐색 예산(최대 자식 노드 수) 계산을 포함한 새로운 가이드 트리 탐색 알고리즘을 제안합니다. 최종 답변을 향한 탐색 진행 상황(과거)과 단계별 주석 없이 훈련된 값 네트워크(미래)의 지도를 고려함으로써, 이 알고리즘은 할당된 계산 예산 범위 내에서 가장 유망한 트리 노드를 반복적으로 선택한 후 이를 확장합니다. GSM8K 및 TabMWP 데이터셋에서 수행된 실험 결과, 우리의 접근 방식은 경쟁력 있는 성능을 제공할 뿐만 아니라 기준 방법 대비 훨씬 낮은 계산 비용을 자랑하는 것으로 나타났습니다.
대규모 언어 모델 사전 학습을 위한 데이터 혼합은 성능에 큰 영향을 미치지만, 효과적인 혼합을 결정하는 방법은 여전히 불분명합니다. 우리는 이를 회귀 작업으로 공식화하여 고성능 데이터 혼합을 자동으로 식별하는 RegMix를 제안합니다. RegMix는 다양한 데이터 혼합으로 소규모 모델 세트를 학습하고, 각 혼합에 따른 성능을 예측하기 위해 회귀 모델을 피팅하는 과정을 포함합니다. 피팅된 회귀 모델을 사용하여 상위 순위의 혼합을 시뮬레이션하고, 이를 통해 훨씬 더 많은 계산 자원을 사용하여 대규모 모델을 학습시킵니다. RegMix를 실증적으로 검증하기 위해, 우리는 1M 매개변수를 가진 512개의 모델을 1B 토큰의 다양한 혼합으로 학습시켜 회귀 모델을 피팅하고 최적의 혼합을 찾았습니다. 이 혼합을 사용하여 1B 매개변수 모델을 25B 토큰(즉, 1000배 더 크고 25배 더 길게)으로 학습시켰으며, 이 모델은 다른 혼합을 사용한 64개의 후보 1B 매개변수 모델 중에서 최고의 성능을 보였습니다. 또한, 우리의 방법은 인간 선택보다 우수한 성능을 보였으며, DoReMi와 동등하거나 더 나은 결과를 달성하면서도 계산 예산의 10%만 사용했습니다. 우리의 실험은 또한 다음과 같은 사실을 보여줍니다: (1) 데이터 혼합은 성능에 큰 영향을 미치며, 단일 작업 성능 변동은 최대 14.6%에 이릅니다; (2) 위키피디아와 같은 고품질 데이터보다 웹 코퍼스가 다운스트림 성능과 가장 강한 양의 상관관계를 보입니다; (3) 도메인은 종종 상식과 반대되는 복잡한 방식으로 상호작용하므로, RegMix와 같은 자동화된 접근 방식이 필요합니다; (4) 데이터 혼합 효과는 스케일링 법칙을 초월하며, 우리의 접근 방식은 모든 도메인을 함께 고려하여 이러한 복잡성을 포착합니다. 우리의 코드는 https://github.com/sail-sg/regmix에서 확인할 수 있습니다.
대규모 멀티모달 모델(LMMs)은 이미지, 질문, 그리고 여러 선택지로 구성된 객관식 문제(MCQs)를 통해 평가되는 인상적인 크로스모달 이해 및 추론 능력을 보여줍니다. 그러나 이러한 평가에 사용되는 많은 벤치마크는 체계적인 편향을 겪고 있습니다. 특히, 시각적 인식 능력이 전혀 없는 대규모 언어 모델(LLMs)이 상당한 성능을 달성함으로써 이러한 평가의 신뢰성을 훼손하고 있습니다. 이 문제를 해결하면서도 MCQ 평가의 효율성을 유지하기 위해, 우리는 트릴로지 평가 파이프라인과 더 엄격한 메트릭을 통해 Type-I 오류를 피하도록 설계된 벤치마크인 MMEvalPro를 제안합니다. 기존 벤치마크의 각 원본 질문에 대해, 인간 주석자는 세심한 주석 과정을 통해 하나의 인식 질문과 하나의 지식 앵커 질문을 생성하여 이를 보강합니다. MMEvalPro는 2,138개의 질문 트리플렛으로 구성되어 있으며, 총 6,414개의 독특한 질문을 포함합니다. 이 질문들 중 3분의 2는 인간 전문가가 수동으로 레이블을 지정했으며, 나머지는 기존 벤치마크(MMMU, ScienceQA, MathVista)에서 가져왔습니다. 기존 벤치마크와 비교하여, 최신 LLMs와 LMMs를 사용한 실험 결과 MMEvalPro가 더 도전적이며(최고의 LMM이 인간 성능에 비해 31.73% 뒤처지는 반면, 이전 벤치마크에서는 평균 8.03% 차이), 더 신뢰할 수 있음을 보여줍니다(최고의 LLM이 최고의 LMM에 비해 23.09% 뒤처지는 반면, 이전 벤치마크에서는 단 14.64% 차이). 우리의 심층 분석은 큰 성능 격차의 이유를 설명하고 평가의 신뢰성을 정당화하며, 이는 향후 연구를 발전시키는 데 있어 상당한 잠재력을 강조합니다.
본 논문에서는 두 가지 주요 요소를 기반으로 한 새로운 자기회귀적 이미지 생성 접근법을 제시한다. 첫 번째는 웨이블릿 이미지 코딩으로, 가장 중요한 웨이블릿 계수의 최상위 비트부터 시작하여 정보를 정렬함으로써 이미지의 시각적 세부 사항을 거친 것에서 미세한 것까지 토큰화할 수 있게 한다. 두 번째는 이 '웨이블릿 언어'의 토큰 시퀀스에 맞게 아키텍처를 재설계하고 최적화한 언어 트랜스포머의 변형이다. 이 트랜스포머는 토큰 시퀀스 내의 중요한 통계적 상관관계를 학습하는데, 이는 다양한 해상도에서의 웨이블릿 서브밴드 간의 잘 알려진 상관관계의 표현이다. 우리는 생성 과정에 조건을 부여한 실험 결과를 보여준다.
직접 선호도 최적화(Direct Preference Optimization, DPO)는 추론 및 정렬과 같은 다운스트림 작업에서 대규모 언어 모델(LLMs)의 성능을 향상시키는 데 효과적인 것으로 입증되었습니다. 본 연구에서는 수학적 추론 과정에서 특정 단계에서 오류를 시작하는 부정 샘플을 생성함으로써 단계별 오류 감독을 자동으로 제공하는 방법인 단계 제어 DPO(Step-Controlled DPO, SCDPO)를 제안합니다. 이러한 샘플을 DPO 훈련에 적용함으로써, SCDPO는 모델이 추론 오류를 이해하고 정확한 추론 단계를 출력하도록 더 잘 정렬할 수 있습니다. 우리는 SCDPO를 코드 통합 및 사고의 연쇄(chain-of-thought) 솔루션에 적용하여, 기존의 SFT 모델과 우리가 미세 조정한 두 모델을 포함한 세 가지 다른 SFT 모델에서 단순 DPO 대비 일관된 성능 향상을 경험적으로 보여줍니다. SCDPO와 DPO의 신용 할당에 대한 정성적 분석은 SCDPO가 수학적 솔루션에서 오류를 식별하는 데 효과적임을 입증합니다. 이후 우리는 SCDPO를 InternLM2-20B 모델에 적용하여, GSM8K에서 88.5%, MATH에서 58.1%의 높은 점수를 달성하는 20B 모델을 얻었으며, 이는 다른 모든 오픈소스 LLMs와 견줄 만한 성능으로 우리 방법의 큰 잠재력을 보여줍니다.
본 논문은 사전 학습된 이미지 복원 확산 모델을 활용한 제로샷 비디오 복원 방법을 소개합니다. 기존의 비디오 복원 방법들은 다양한 설정에 대해 재학습이 필요하며, 다양한 열화 유형과 데이터셋 간의 일반화에 어려움을 겪는 경우가 많습니다. 우리의 접근 방식은 키프레임과 로컬 프레임에 대한 계층적 토큰 병합 전략과, 광학 흐름과 특징 기반 최근접 이웃 매칭(잠재 병합)을 결합한 하이브리드 대응 메커니즘을 사용합니다. 우리의 방법이 제로샷 비디오 복원에서 최고의 성능을 달성할 뿐만 아니라, 다양한 데이터셋과 극단적인 열화(8배 초해상도 및 높은 표준 편차 비디오 노이즈 제거)에서 학습된 모델을 크게 능가하는 일반화 성능을 보임을 입증합니다. 다양한 도전적인 데이터셋에 대한 정량적 지표와 시각적 비교를 통해 이를 입증합니다. 또한, 우리의 기술은 어떠한 2D 복원 확산 모델과도 호환되어, 광범위한 재학습 없이도 비디오 향상 작업을 위한 다목적이고 강력한 도구를 제공합니다. 이 연구는 고품질 비디오 출력이 필요한 분야의 발전을 지원하며, 더 효율적이고 광범위하게 적용 가능한 비디오 복원 기술로 이어질 것입니다. 비디오 결과는 프로젝트 페이지(https://jimmycv07.github.io/DiffIR2VR_web/)에서 확인할 수 있습니다.
스타일 전환은 원본의 본질을 유지하면서 다른 시각적 스타일을 수용하는 이미지를 창조하는 창의적인 과정입니다. 확산 모델은 개인화된 주제 중심 또는 스타일 중심 애플리케이션에서 인상적인 생성 능력을 보여주었지만, 기존의 최첨단 방법들은 여전히 콘텐츠 보존과 스타일 강화 사이의 원활한 균형을 달성하는 데 어려움을 겪고 있습니다. 예를 들어, 스타일의 영향을 증폭시키는 것은 종종 콘텐츠의 구조적 무결성을 훼손할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 스타일 전환 작업을 세 가지 핵심 요소로 분해합니다: 1) 스타일, 이미지의 미적 특성에 초점을 맞춤; 2) 공간 구조, 시각적 요소의 기하학적 배열과 구성을 고려함; 3) 의미론적 콘텐츠, 이미지의 개념적 의미를 포착함. 이러한 원칙을 바탕으로, 우리는 원본 콘텐츠의 무결성을 우선시하면서 목표 스타일을 원활하게 통합하는 InstantStyle-Plus 접근법을 소개합니다. 구체적으로, 우리의 방법은 최첨단 InstantStyle 프레임워크를 활용하여 효율적이고 경량화된 프로세스를 통해 스타일 주입을 달성합니다. 콘텐츠 보존을 강화하기 위해, 우리는 역전된 콘텐츠 잠재 노이즈와 원본 이미지의 내재적 레이아웃을 보존하기 위한 다용도 플러그 앤 플레이 타일 ControlNet으로 프로세스를 시작합니다. 또한, 의미론적 콘텐츠의 충실도를 높이기 위해 전역 의미론적 어댑터를 통합합니다. 스타일 정보의 희석을 방지하기 위해, 스타일 추출기는 추가적인 스타일 지침을 제공하는 판별자로 사용됩니다. 코드는 https://github.com/instantX-research/InstantStyle-Plus에서 제공될 예정입니다.
언어 모델의 능력 향상은 더 긴 문맥을 다루는 응용 분야로의 전환을 이끌어, 장문맥 평가 및 개발이 활발한 연구 분야로 자리 잡았습니다. 그러나 '장문맥'이라는 포괄적 용어 아래에는 단순히 모델 입력의 총 길이로 정의된 다양한 사용 사례가 혼재되어 있습니다. 예를 들어, '건초더미 속 바늘 찾기' 과제, 책 요약, 정보 통합 등이 이에 해당합니다. 이러한 과제들의 난이도가 다양함을 고려할 때, 본 포지션 페이퍼에서는 문맥 길이만으로 서로 다른 과제들을 동일시하는 것이 비생산적임을 주장합니다. 연구 커뮤니티로서는 장문맥 과제들이 유사하거나 다른 점을 이해하기 위해 보다 정확한 용어 체계가 필요합니다. 우리는 장문맥 과제의 분류를 문맥이 길어짐에 따라 더 어려워지는 속성에 기반하여 재구성할 것을 제안합니다. 이를 위해 두 가지 직교적인 난이도 축을 제안합니다: (I) 확산성: 필요한 정보를 문맥에서 찾는 것이 얼마나 어려운가? (II) 범위: 찾아야 할 필요한 정보의 양은 얼마나 많은가? 우리는 장문맥 관련 문헌을 조사하고, 이 분류 체계가 유익한 설명 도구임을 입증하며, 문헌들을 이 체계에 비추어 정리합니다. 결론적으로, 필요한 정보가 매우 길고 입력 내에서 고도로 확산된 가장 어렵고 흥미로운 설정은 심각하게 연구가 부족한 상태임을 확인했습니다. 장문맥의 난이도 관련 속성을 설명하는 용어를 사용하고 이를 논의함으로써, 이 분야에서 보다 정보에 기반한 연구를 수행할 수 있습니다. 우리는 짧은 문맥과 질적으로 다른 특성을 고려하여, 명확히 장문맥을 다루는 과제와 벤치마크를 신중하게 설계할 것을 촉구합니다.
본 논문은 인간 수준의 자연스러움과 최첨단 화자 유사성 및 명료성을 제공하는 완전 비자기회귀적 제로샷 텍스트-투-스피치 시스템인 Embarrassingly Easy Text-to-Speech (E2 TTS)를 소개합니다. E2 TTS 프레임워크에서는 텍스트 입력이 필러 토큰이 포함된 문자 시퀀스로 변환됩니다. 이후 플로우 매칭 기반의 멜 스펙트로그램 생성기가 오디오 채우기 작업을 기반으로 학습됩니다. 많은 기존 연구와 달리, 이 시스템은 추가 구성 요소(예: 지속 시간 모델, 그래핀-투-포넴)나 복잡한 기술(예: 단조 정렬 탐색)을 필요로 하지 않습니다. 단순함에도 불구하고, E2 TTS는 Voicebox와 NaturalSpeech 3을 포함한 기존 연구를 능가하거나 필적하는 최첨단 제로샷 TTS 성능을 달성합니다. E2 TTS의 단순성은 입력 표현에서의 유연성도 가능하게 합니다. 우리는 추론 과정에서의 사용성을 개선하기 위해 E2 TTS의 여러 변형을 제안합니다. 데모 샘플은 https://aka.ms/e2tts/에서 확인할 수 있습니다.
개인에 구애받지 않는 오디오 기반 얼굴 생성은 컴퓨터 비전 분야에서 도전적인 과제입니다. 기존 방법들은 오디오-비주얼 동기화에서 놀라운 진전을 이루었지만, 현재 결과와 실제 응용 간에는 여전히 상당한 격차가 존재합니다. 이 문제는 두 가지 측면에서 도전적입니다: 1) 고정밀 입술 동기화를 달성하기 위한 고유한 개인 특성 보존. 2) 실시간 성능에서 고품질 얼굴 렌더링 생성. 본 논문에서는 오디오-표현 변환기와 고품질 표현-얼굴 렌더러로 구성된 새로운 일반화된 오디오 기반 프레임워크 RealTalk를 제안합니다. 첫 번째 구성 요소에서는 발화 시 입술 움직임과 관련된 신원 및 개인 내 변이 특성을 모두 고려합니다. 풍부한 얼굴 사전 정보에 대한 크로스 모달 어텐션을 통합함으로써, 입술 움직임을 오디오와 효과적으로 정렬하여 더 정밀한 표현 예측을 달성할 수 있습니다. 두 번째 구성 요소에서는 입 모양 제어 구조와 얼굴 텍스처 참조 구조를 포함한 경량화된 얼굴 신원 정렬(FIA) 모듈을 설계했습니다. 이 새로운 설계는 복잡하고 비효율적인 특징 정렬 모듈에 의존하지 않고도 실시간으로 세부 사항을 생성할 수 있게 해줍니다. 공개 데이터셋에서의 정량적 및 정성적 실험 결과는 우리 방법이 입술-음성 동기화 및 생성 품질 측면에서 명확한 우위를 보임을 입증합니다. 또한, 우리 방법은 효율적이며 더 적은 계산 자원을 요구하여 실제 응용의 요구를 충족시키기에 적합합니다.
대규모 언어 모델(LLM)의 최근 발전은 LLM 에이전트가 세계 정보를 자율적으로 수집하고 이를 바탕으로 복잡한 문제를 해결하기 위한 추론을 수행할 수 있게 하였습니다. 이러한 능력을 바탕으로, 국제적 사건을 예측하기 위해 LLM 에이전트를 활용하려는 관심이 점차 증가하고 있으며, 이는 국제적 차원에서 의사결정에 영향을 미치고 정책 개발을 형성할 수 있습니다. 그러나 이러한 관심에도 불구하고, LLM 에이전트의 예측 능력과 신뢰성을 엄격하게 평가할 수 있는 벤치마크가 부족한 실정입니다. 이러한 격차를 해결하기 위해, 우리는 국제적 사건의 맥락에서 LLM 에이전트를 시간적 예측자로 체계적으로 평가하기 위한 새로운 벤치마크인 MIRAI를 소개합니다. 우리의 벤치마크는 광범위한 역사적, 구조화된 사건 데이터베이스와 텍스트 뉴스 기사에 접근할 수 있는 도구를 갖춘 에이전트 환경을 특징으로 합니다. 우리는 GDELT 사건 데이터베이스를 신중하게 정리하고 파싱하여 다양한 예측 기간을 가진 관계형 예측 작업 시리즈를 구성함으로써, LLM 에이전트의 단기부터 장기 예측 능력을 평가합니다. 또한, LLM 에이전트가 코드 기반 인터페이스를 통해 다양한 도구를 활용할 수 있도록 API를 구현합니다. 요약하자면, MIRAI는 에이전트의 능력을 세 가지 차원에서 종합적으로 평가합니다: 1) 대규모 글로벌 데이터베이스에서 중요한 정보를 자율적으로 수집하고 통합하는 능력; 2) 도메인 특화 API와 라이브러리를 사용하여 코드를 작성하고 도구를 활용하는 능력; 3) 다양한 형식과 시간대의 역사적 지식을 종합적으로 추론하여 미래 사건을 정확하게 예측하는 능력. 종합적인 벤치마킹을 통해, 우리는 국제적 사건 예측에서 LLM 에이전트의 능력을 평가할 수 있는 신뢰할 수 있는 프레임워크를 구축하고, 이를 통해 국제 관계 분석을 위한 더 정확하고 신뢰할 수 있는 모델 개발에 기여하고자 합니다.
디퓨전 기반 모델들은 다양한 레이아웃을 가진 고품질 이미지를 생성하는 데 있어 큰 잠재력을 보여주었으며, 이는 하류 인식 작업에 도움을 줄 수 있습니다. 그러나 언어만으로 구동되는 완전 자동 레이아웃 생성과 여러 생성된 인스턴스를 측정하기 위한 적절한 메트릭은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 Auto Cherry-Picker (ACP)라는 새로운 프레임워크를 제안하며, 이는 고품질의 다중 모드 훈련 예제를 생성하여 인식 및 다중 모드 훈련을 증강시킵니다. 간단한 자연어 개념 목록으로 시작하여, 우리는 대형 언어 모델(LLM)을 사용하여 상세한 설명을 생성하고 합리적인 레이아웃을 설계합니다. 다음으로, 기성 텍스트-이미지 모델을 사용하여 여러 이미지를 생성합니다. 그런 다음, 생성된 데이터는 품질을 보장하기 위해 종합적으로 설계된 메트릭을 사용하여 정제됩니다. 특히, 우리는 생성된 이미지를 공정하게 평가하기 위해 새로운 메트릭인 Composite Layout and Image Score (CLIS)를 제시합니다. 우리의 합성 고품질 예제는 초기 개념 목록을 사용자 정의함으로써 다양한 시나리오에서 성능을 향상시키며, 특히 장기 꼬리 분포와 불균형 데이터셋과 관련된 문제를 해결하는 데 효과적입니다. 하류 작업에 대한 실험 결과는 Auto Cherry-Picker가 기존 모델의 성능을 크게 향상시킬 수 있음을 보여줍니다. 또한, 우리는 CLIS와 하류 작업에서의 성능 향상 간의 상관관계를 철저히 조사했으며, 더 나은 CLIS 점수가 더 나은 성능으로 이어진다는 것을 발견했습니다. 이 발견은 다양한 시각 인식 및 MLLM 작업을 위한 평가 메트릭의 잠재적 역할을 보여줍니다. 코드는 공개될 예정입니다.
우리는 오픈 월드 Minecraft에서 오픈 월드 명령 수행 에이전트를 위한 새로운 Vision-Language-Action (VLA) 모델인 OmniJARVIS를 제안한다. 기존 연구들이 텍스트 목표를 별도의 컨트롤러에 전달하거나 직접 제어 명령을 생성하는 방식과 달리, OmniJARVIS는 다중 모달 상호작용 데이터의 통합 토큰화를 통해 강력한 추론 능력과 효율적인 의사결정 능력을 모두 보장하는 새로운 접근법을 모색한다. 먼저, 우리는 행동 궤적 tau = {o_0, a_0, dots}에 대한 이산화된 토큰을 생성하는 행동 인코더와 이러한 토큰에 조건부된 모방 학습(IL) 정책 디코더를 학습하기 위한 자기 지도 방식을 소개한다. 이러한 추가 행동 토큰은 사전 학습된 다중 모달 언어 모델(MLMs)의 어휘에 통합된다. 이 인코더를 사용하여, 우리는 작업 지시, 기억, 사고, 관찰, 텍스트 응답, 행동 궤적 등을 포함한 장기 다중 모달 상호작용을 통합 토큰 시퀀스로 패키징하고 이를 자기회귀 트랜스포머로 모델링한다. 의미론적으로 의미 있는 행동 토큰 덕분에, 결과적인 VLA 모델인 OmniJARVIS는 (사고의 연쇄를 생성함으로써) 추론하고, 계획을 세우며, 질문에 답하고, (IL 정책 디코더를 위한 행동 토큰을 생성함으로써) 행동할 수 있다. OmniJARVIS는 오픈 월드 Minecraft에서 원자적, 프로그래밍적, 그리고 개방형 작업에 대한 포괄적인 컬렉션에서 우수한 성능을 보여준다. 우리의 분석은 상호작용 데이터 형성, 통합 토큰화, 그리고 그 확장 가능성에 있어서 중요한 설계 원칙을 더욱 명확히 한다.
대규모 언어 모델(LLMs)은 점점 더 복잡해지는 추론을 포함한 다양한 자연어 처리(NLP) 작업에서 인상적인 숙련도를 보여주고 있습니다. 지식 추론은 주요 추론 유형 중 하나로, 기존 지식에서 새로운 지식을 도출하는 것을 목표로 합니다. 지식 그래프(KGs)를 중심으로 널리 연구되어 왔지만, LLMs에서의 지식 추론은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 데이터셋 구축과 모델 학습을 모두 포함한 포괄적인 지식 추론 프레임워크인 Chain-of-Knowledge(CoK)를 소개합니다. 데이터셋 구축을 위해, 우리는 KGs에 대한 규칙 마이닝을 통해 KnowReason을 생성합니다. 모델 학습에서는 단순한 학습으로 인한 규칙 과적합 문제를 관찰했습니다. 따라서, 우리는 인간의 내부 지식 탐색 과정을 시뮬레이션하는 시행착오 메커니즘을 CoK에 도입하여 개선했습니다. KnowReason을 사용한 광범위한 실험을 수행한 결과, CoK가 지식 추론뿐만 아니라 일반적인 추론 벤치마크에서도 LLMs을 개선하는 데 효과적임을 보여주었습니다.
에지 디바이스에서 대규모 언어 모델(LLMs)의 배치는 온디바이스 인텔리전스를 강화하기 위해 점점 더 중요해지고 있습니다. 가중치 양자화는 디바이스에서 LLMs의 메모리 사용량을 줄이는 데 중요한 역할을 합니다. 그러나 저비트 LLMs는 추론 과정에서 저정밀도 가중치와 고정밀도 활성화의 혼합 정밀도 행렬 곱셈(mpGEMM)을 필요로 합니다. 기존 시스템은 mpGEMM에 대한 네이티브 지원이 부족하여 고정밀도 계산을 위해 가중치를 역양자화하는 방식을 사용합니다. 이러한 간접적인 방식은 상당한 추론 오버헤드를 초래할 수 있습니다. 이 논문에서는 CPU에서 효율적인 저비트 LLM(즉, 가중치 양자화된 LLM) 추론을 위해 설계된 혁신적인 룩업 테이블(LUT) 기반 방법인 T-MAC을 소개합니다. T-MAC은 역양자화 없이 mpGEMM을 직접 지원하면서 동시에 필요한 곱셈을 제거하고 덧셈을 줄입니다. 구체적으로, T-MAC은 전통적인 데이터 타입 중심의 곱셈을 비트 단위 테이블 룩업으로 변환하고, 통일되고 확장 가능한 mpGEMM 솔루션을 가능하게 합니다. 우리의 LUT 기반 커널은 가중치 비트 폭에 대해 선형적으로 확장됩니다. 저비트 Llama 및 BitNet 모델에서 평가된 T-MAC은 llama.cpp 대비 최대 4배의 처리량 증가와 70%의 에너지 소비 감소를 보여줍니다. BitNet-b1.58-3B의 경우, T-MAC은 M2-Ultra에서 단일 코어로 30 토큰/초, 8코어로 71 토큰/초의 토큰 생성 처리량을 제공하며, Raspberry Pi 5와 같은 저사양 디바이스에서도 11 토큰/초를 달성하여 성인 평균 독해 속도를 크게 초과합니다. LUT 기반 컴퓨팅 패러다임을 갖춘 T-MAC은 계산 효율성을 저하시키지 않으면서 자원이 제한된 에지 디바이스에서 저비트 LLMs의 실용적인 배치를 위한 길을 열어줍니다. 이 시스템은 https://github.com/microsoft/T-MAC에서 오픈소스로 제공됩니다.
자기 지도 학습(Self-Supervised Learning, SSL)은 레이블이 지정된 데이터의 필요성을 줄여 음성 기술을 더 많은 언어로 확장하는 데 기여해 왔습니다. 그러나 모델은 여전히 전 세계 7,000개 이상의 언어를 지원하기에는 한참 부족한 상황입니다. 우리는 4,057개 언어에 걸쳐 100만 시간 이상의 데이터로 학습된 범용 음성을 위한 교차 언어 인코더 XEUS(Cross-lingual Encoder for Universal Speech)를 제안하며, 이를 통해 SSL 모델의 언어 커버리지를 4배 확장했습니다. 우리는 기존에 공개적으로 접근 가능한 코퍼스에서 수집한 100만 시간의 음성 데이터와 4,057개 언어로 구성된 7,400시간 이상의 새로 생성된 코퍼스를 결합했으며, 이 데이터는 공개될 예정입니다. 다국어 음성 데이터의 다양한 조건을 처리하기 위해, 우리는 전형적인 SSL 마스크 예측 접근법에 새로운 디리버베레이션(dereverberation) 목표를 추가하여 견고성을 높였습니다. 우리는 XEUS를 여러 벤치마크에서 평가했으며, 다양한 작업에서 최신 기술(State-of-the-Art, SOTA) SSL 모델과 비교해 일관되게 우수하거나 비슷한 성능을 보임을 입증했습니다. XEUS는 ML-SUPERB 벤치마크에서 새로운 SOTA를 달성했습니다: 파라미터 수나 사전 학습 데이터가 더 적음에도 불구하고, MMS 1B와 w2v-BERT 2.0 v2를 각각 0.8%와 4.4% 앞섰습니다. 체크포인트, 코드, 데이터는 https://www.wavlab.org/activities/2024/xeus/에서 확인할 수 있습니다.
비디오 생성 모델은 인상적인 단안 비디오를 생성하는 데 있어 뛰어난 능력을 보여주었지만, 3D 입체 비디오 생성은 아직 충분히 탐구되지 않은 분야입니다. 우리는 기성 단안 비디오 생성 모델을 활용하여 3D 입체 비디오를 생성하는 포즈가 필요 없고 학습이 필요 없는 접근 방식을 제안합니다. 우리의 방법은 생성된 단안 비디오를 추정된 비디오 깊이를 사용하여 입체 기준선 상의 카메라 뷰로 변형하고, 새로운 프레임 매트릭스 비디오 인페인팅 프레임워크를 사용합니다. 이 프레임워크는 비디오 생성 모델을 활용하여 서로 다른 타임스탬프와 뷰에서 관찰된 프레임을 인페인팅합니다. 이 효과적인 접근 방식은 장면 최적화나 모델 미세 조정 없이도 일관되고 의미적으로 일관된 입체 비디오를 생성합니다. 또한, 우리는 잠재 공간에서 비가려진 영역으로부터 전파되는 부정적인 영향을 완화하여 비디오 인페인팅의 품질을 더욱 개선하는 비가려짐 경계 재주입 기법을 개발했습니다. 우리는 Sora [4], Lumiere [2], WALT [8], Zeroscope [42] 등 다양한 생성 모델의 비디오에 대해 실험을 수행하여 제안된 방법의 효능을 검증했습니다. 실험 결과, 우리의 방법이 이전 방법들에 비해 상당한 개선을 보여주었음을 확인했습니다. 코드는 https://daipengwa.github.io/SVG_ProjectPage에서 공개될 예정입니다.
최근, 명명된 개체 인식(Named Entity Recognition, NER)을 위해 특화된 지시 튜닝(instruction-tuned) 대형 언어 모델(Large Language Models, LLMs)이 여러 가지 등장했습니다. 기존의 전통적인 NER 접근 방식과 비교했을 때, 이러한 모델들은 강력한 일반화 능력을 가지고 있습니다. 기존의 LLM들은 주로 도메인 외 분포(out-of-domain distributions)에서의 제로샷 NER(zero-shot NER)에 초점을 맞추고 있으며, 종종 테스트 세트와 높은 또는 완전한 중복성을 보이는 광범위한 개체 클래스에 대해 미세 조정(fine-tuning)되어 있습니다. 본 연구에서는 대신, 이전에 본 적 없는 명명된 개체 태그를 처리하기 위해 설계된 SLIMER라는 접근 방식을 제안합니다. 이 접근 방식은 더 적은 예제를 통해 모델을 지시하고, 정의와 지침이 포함된 프롬프트를 활용합니다. 실험 결과, 정의와 지침은 특히 이전에 본 적 없는 명명된 개체를 레이블링할 때 더 나은 성능, 더 빠르고 강력한 학습을 가능하게 하는 것으로 나타났습니다. 또한, SLIMER는 축소된 태그 세트로 훈련되었음에도 불구하고, 도메인 외 제로샷 NER에서 최신 기술(state-of-the-art) 접근 방식과 비슷한 성능을 보였습니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 원하는 행동에 맞추기 위한 널리 사용되는 전략입니다. 보상 모델링은 RLHF에서 중요한 단계입니다. 그러나 보상 모델을 훈련하기 위해 쌍으로 된 선호도 데이터를 수집하는 것은 비용이 많이 들고 시간이 소요되는 작업이며, 특히 전문가 주석이 필요한 도메인 특화 선호도의 경우 더욱 그렇습니다. 이러한 문제를 해결하기 위해, 우리는 도메인 지식을 일반 보상 모델에 통합하는 새로운 프레임워크인 도메인 지식 통합 보상 모델(DogeRM)을 제안합니다. 실험 결과, DogeRM은 다양한 벤치마크에서 성능을 향상시키며, 모델 통합의 효과를 상세히 분석하여 모델 정렬을 촉진하는 데 큰 잠재력을 보여줍니다.
LLM(대형 언어 모델)은 텍스트를 단어에 대략적으로 대응되는 토큰 시퀀스로 처리하며, 덜 흔한 단어들은 여러 토큰으로 표현됩니다. 그러나 개별 토큰은 종종 그들이 구성하는 단어/개념의 의미와 의미적으로 관련이 없습니다. 예를 들어, Llama-2-7b의 토크나이저는 "northeastern"이라는 단어를 ['_n', 'ort', 'he', 'astern']과 같은 토큰으로 분할하는데, 이 중 어느 것도 "north"나 "east"와 같은 의미적으로 의미 있는 단위에 해당하지 않습니다. 마찬가지로, "Neil Young"과 같은 고유명사나 "break a leg"와 같은 다단어 표현의 전체 의미는 그 구성 토큰들로부터 직접 추론할 수 없습니다. 기계적으로, LLM은 어떻게 이러한 임의의 토큰 그룹을 유용한 상위 수준의 표현으로 변환할까요? 본 연구에서 우리는 고유명사와 다중 토큰 단어의 마지막 토큰 표현이 초기 레이어에서 이전 및 현재 토큰에 대한 정보가 빠르게 "지워지는" 현상을 보인다는 것을 발견했습니다. 이 관찰을 바탕으로, 우리는 레이어 간 토큰 표현의 차이를 조사하여 자기회귀적 LLM의 암묵적 어휘를 "읽어내는" 방법을 제안하고, Llama-2-7b와 Llama-3-8B에 대한 이 방법의 결과를 제시합니다. 우리가 아는 한, 이는 LLM의 암묵적 어휘를 탐구하는 첫 번째 시도입니다.
우리는 인스트럭션 파인튜닝된 사전 학습된 소형 생성 언어 모델(SLMs)을 사용하여 리간드-단백질 상호작용(LPI), 즉 약물-표적 상호작용(DTI) 친화도를 정확하게 예측하는 방법을 기술한다. 제로샷 설정에서 표본 외 데이터에 대한 리간드-단백질 상호작용과 관련된 다양한 친화도 값을 정확하게 예측하였다. 모델 입력으로는 리간드의 SMILES 문자열과 단백질의 아미노산 서열만이 사용되었다. 우리의 결과는 다양한 리간드-단백질 상호작용 친화도를 정확하게 예측하는 데 있어 기계 학습(ML) 및 자유 에너지 섭동(FEP+) 기반 방법들보다 뚜렷한 개선을 보여주며, 이를 통해 도전적인 치료 표적에 대한 신약 개발 캠페인을 더욱 가속화할 수 있을 것으로 기대된다.
정확한 언러닝(unlearning)은 처음에 사용자가 요청 시 자신의 데이터를 머신러닝 모델에서 철회할 수 있도록 하는 프라이버시 메커니즘으로 소개되었습니다. 이후 곧이어 정확한 언러닝과 관련된 비현실적인 비용을 완화하기 위해 비정확한 방식들이 제안되었습니다. 최근에는 언러닝이 모델이 소유해서는 안 되는 지식, 즉 라이선스가 없는 저작권 자료, 부정확한 정보 또는 악성 정보와 같은 허용되지 않는 지식을 제거하기 위한 접근법으로 자주 논의되고 있습니다. 이 접근법의 핵심은 모델이 특정 악성 기능을 가지고 있지 않다면, 해당 악성 목적으로 사용될 수 없다는 것입니다. 본 논문에서는 대규모 언어 모델(LLM)에서 언러닝이 사용되는 패러다임을 재검토하고, 컨텍스트 내 학습(contextual learning)에서 발생하는 근본적인 불일치를 강조합니다. 언러닝은 훈련 단계에서 효과적인 제어 메커니즘이 될 수 있지만, 추론 단계에서 모델이 허용되지 않는 행위를 수행하는 것을 막지는 못합니다. 우리는 언러닝된 지식이 컨텍스트 내에서 다시 도입되는 '언언러닝(ununlearning)' 개념을 소개하며, 이는 모델이 잊혀진 지식을 알고 있는 것처럼 행동할 수 있게 만듭니다. 그 결과, 허용되지 않는 지식에 대한 콘텐츠 필터링이 필요하며, 심지어 정확한 언러닝 방식조차도 효과적인 콘텐츠 규제를 위해 충분하지 않음을 주장합니다. 우리는 현대 LLM에서 언언러닝의 실현 가능성을 논의하고, 더 넓은 함의를 검토합니다.
대형 언어 모델(LLMs)을 포함한 프론티어 AI 시스템은 인간 사용자의 인식론에 점점 더 큰 영향을 미치고 있습니다. 이러한 영향은 기존의 사회적 가치를 강화함으로써 잘못된 도덕적 신념의 고착화를 초래하고, 결과적으로 광범위한 문제적 도덕적 관행의 지속에 기여할 수 있습니다. 우리는 이러한 임박한 위험을 완화하기 위한 기술적 해결책으로 '진보 정렬(progress alignment)'을 소개합니다. 진보 정렬 알고리즘은 인간의 도덕적 진보 메커니즘을 모방하도록 학습함으로써, 기존 정렬 방법이 현대의 도덕적 맹점에 취약한 문제를 해결합니다. 진보 정렬 연구를 지원하기 위해, 우리는 역사로부터 도덕적 진보 메커니즘을 학습하여 실제 세계의 도덕적 결정에서 미래의 진보를 촉진할 수 있는 실험적 프레임워크인 ProgressGym을 소개합니다. 9세기에 걸친 역사적 텍스트와 18개의 역사적 LLMs을 활용하여, ProgressGym은 실제 세계의 진보 정렬 과제를 구체적인 벤치마크로 체계화할 수 있게 합니다. 특히, 우리는 세 가지 핵심 과제를 제시합니다: 진화하는 가치 추적(PG-Follow), 도덕적 진보를 선제적으로 예측(PG-Predict), 그리고 인간과 AI의 가치 변화 간 피드백 루프 조절(PG-Coevolve). 시간적 차원이 없는 정렬 방법은 이러한 과제에 적용할 수 없습니다. 이에 대응하여, 우리는 평생 학습 및 외삽 알고리즘을 진보 정렬의 기본 방법으로 제시하고, 새로운 알고리즘과 과제를 모집하는 오픈 리더보드를 구축했습니다. 이 프레임워크와 리더보드는 각각 https://github.com/PKU-Alignment/ProgressGym과 https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard에서 확인할 수 있습니다.
다중 명령어를 따르는 능력은 대규모 언어 모델(LLM)에게 중요한 역량입니다. 이를 평가하는 데는 몇 가지 주요한 과제가 있습니다: (i) 다중 명령어 간의 일관성 부족, (ii) 명령어 순서가 모델 성능에 영향을 미치는 위치 편향, 그리고 (iii) 객관적으로 검증 가능한 과제의 부족 등입니다. 이러한 문제를 해결하기 위해, 우리는 순차적 명령어 수행(SIFo) 과제를 통해 모델의 다중 명령어 수행 능력을 평가하는 벤치마크를 제안합니다. SIFo에서는 최종 명령어만 검토함으로써 다중 명령어의 성공적인 수행 여부를 검증할 수 있습니다. 우리의 벤치마크는 텍스트 수정, 질문 응답, 수학 문제 해결, 보안 규칙 준수 등 네 가지 과제를 통해 순차적 명령어 수행의 다양한 측면을 평가합니다. 주요 LLM(클로즈드 소스 및 오픈 소스 모두 포함)을 평가한 결과, 최신 및 대규모 모델이 SIFo 과제에서 이전의 소규모 모델보다 훨씬 우수한 성능을 보여 벤치마크의 유효성을 입증했습니다. 그러나 모든 모델이 명령어 시퀀스를 따르는 데 어려움을 겪는 것으로 나타나, 현재의 언어 모델이 견고성 측면에서 중요한 결함을 가지고 있음을 시사합니다.