번역이 포함된 일일 선별된 AI 연구 논문
우리는 잠재 공간에서 추론하는 능력을 갖춘 테스트 시간 계산을 확장할 수 있는 혁신적인 언어 모델 구조를 연구합니다. 우리의 모델은 재귀 블록을 반복함으로써 작동하며, 테스트 시간에 임의의 깊이로 펼쳐집니다. 이는 토큰을 더 많이 생성하여 계산을 확장하는 주류 추론 모델과 대조적입니다. 사고 체인에 기반한 접근법과는 달리, 우리의 방법은 특별한 훈련 데이터가 필요하지 않으며, 작은 문맥 창과 함께 작동할 수 있으며, 단어로 쉽게 표현되지 않는 추론 유형을 포착할 수 있습니다. 우리는 개념 증명 모델을 35억 개의 매개변수와 8000억 개의 토큰으로 확장했습니다. 결과 모델은 추론 벤치마크에서 성능을 향상시킬 수 있음을 보여주며, 때로는 500억 개의 매개변수에 해당하는 계산 부하까지 극적으로 개선될 수 있음을 보여줍니다.
본 논문은 최첨단 성능을 달성하기 위해 교정된 플로 트랜스포머를 활용한 합성 이미지 및 비디오 생성 모델 패밀리인 Goku를 소개합니다. 우리는 고품질 시각적 생성을 가능케 하는 기본 요소들을 구체적으로 설명하며, 데이터 큐레이션 파이프라인, 모델 아키텍처 설계, 플로 공식화, 그리고 효율적이고 견고한 대규모 훈련을 위한 고급 인프라를 다룹니다. Goku 모델은 질적 및 양적 평가에서 우수한 성능을 보여주며, 주요 작업 영역에서 새로운 기준을 세우고 있습니다. 구체적으로, Goku는 텍스트-이미지 생성에 대해 GenEval에서 0.76, DPG-Bench에서 83.65, 그리고 텍스트-비디오 작업에 대해 VBench에서 84.85을 달성했습니다. 본 연구가 합성 이미지 및 비디오 생성 모델 개발에 있어 연구 커뮤니티에 유용한 통찰과 실용적 진전을 제공한다고 믿습니다.
로터리 위치 임베딩(Rotary Position Embedding, RoPE) 및 그 변형은 장거리 문맥 능력으로 널리 사용되고 있지만, 복잡한 시공간 구조를 갖는 비디오로 1차원 RoPE를 확장하는 것은 여전히 열린 과제입니다. 본 연구는 RoPE를 비디오에 효과적으로 적응시키기 위한 네 가지 핵심 특성을 식별하는 포괄적인 분석을 먼저 소개합니다. 이는 이전 연구에서 충분히 고려되지 않았습니다. 우리의 분석 중 하나로, 우리는 주기적인 혼란 요소를 V-NIAH(Visual Needle-In-A-Haystack)에 추가하는 도전적인 V-NIAH-D(Visual Needle-In-A-Haystack with Distractors) 작업을 소개합니다. V-NIAH-D 작업은 이전 RoPE 변형이 적절한 시간 차원 할당이 없어 혼란 요소에 쉽게 오도됨을 보여줍니다. 우리의 분석을 기반으로, 우리는 공간-시간 관계를 보존하기 위해 설계된 3차원 구조의 VideoRoPE를 소개합니다. VideoRoPE는 주기적 진동을 완화하기 위한 저주파수 시간 할당, 공간 대칭 유지를 위한 대각선 레이아웃, 그리고 시간 및 공간 인덱싱을 분리하기 위한 조절 가능한 시간 간격을 특징으로 합니다. VideoRoPE는 장거리 비디오 검색, 비디오 이해 및 비디오 환각과 같은 다양한 하향 작업에서 일관되게 이전 RoPE 변형을 능가합니다. 우리의 코드는 https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}에서 사용할 수 있습니다.
3D 전체 주의력을 갖는 확산 트랜스포머(DiTs)는 최첨단 비디오 생성 기술을 제공하지만, 계산 비용이 지나치게 높습니다. 720P 5초 비디오를 생성할 때, 주의력만이 총 추론 시간 중 945초 중 800초를 차지합니다. 본 논문은 이러한 도전에 대처하기 위해 슬라이딩 타일 주의력(STA)을 소개합니다. STA는 사전 학습된 비디오 확산 모델에서 주의 점수가 주로 지역화된 3D 창 내에 집중되는 것을 활용합니다. 지역 공간-시간 영역을 슬라이딩하고 주의를 기울이는 STA는 전체 주의력의 중복을 제거합니다. 전통적인 토큰별 슬라이딩 윈도우 주의력(SWA)와는 달리, STA는 하드웨어에 대한 인식을 고려한 새로운 슬라이딩 윈도우 디자인으로 타일 단위로 작동하여 표현력을 유지하면서 하드웨어 효율성을 확보합니다. 세심한 커널 수준의 최적화를 통해, STA는 58.79%의 MFU를 달성하며, 효율적인 2D/3D 슬라이딩 윈도우와 유사한 주의력 구현을 제공합니다. 구체적으로, STA는 FlashAttention-2(FA2)보다 2.8-17배, FlashAttention-3(FA3)보다 1.6-10배 주의력을 가속화합니다. 주요 비디오 DiT인 HunyuanVideo에서, STA는 품질 저하 없이 FA3의 945초의 종단 간지연을 685초로 줄이며, 추가 훈련이 필요하지 않습니다. 세밀한 조정을 허용하여 간단한 VBench 하락만으로 268초의 감소된 지연 시간을 달성합니다.
대형 언어 모델(Large Language Models, LLMs)의 막대한 비용을 줄이는 한 가지 방법은 훈련 또는 배포를 위해 양자화된 또는 희소한 표현을 사용하는 것입니다. 후훈련 압축 방법이 매우 인기가 있지만, 이러한 표현 위에서 직접 훈련하여 더 정확한 압축된 모델을 얻는 문제, 즉 양자화 인식 훈련(Quantization-Aware Training, QAT)은 여전히 미해결되어 있습니다. 최근 연구(arXiv:2411.04330v2)에서는 모델이 QAT를 사용하여 훈련될 수 있는 "최적" 비트 폭을 제시하고, 표준 FP16/BF16 정밀도와 정확도 경쟁력을 유지하면서 8비트 가중치와 활성화로 훈련될 수 있다고 합니다. 저희는 QuEST라는 새로운 방법을 통해 이 최신 기술을 발전시켰습니다. QuEST는 FP16과 Pareto 경쟁력을 갖으며, 즉 더 낮은 모델 크기에서 더 나은 정확도를 제공하면서 4비트 이하의 가중치와 활성화로 모델을 훈련합니다. 더불어 QuEST는 1비트 가중치와 활성화로 안정적인 훈련을 가능하게 합니다. QuEST는 QAT 방법의 두 가지 핵심 측면을 개선하여 이를 달성합니다: (1) Hadamard 정규화와 MSE-최적 적합을 통한 가중치와 활성화의 (연속적인) 분포의 정확하고 빠른 양자화; (2) 양자화된 상태에서 계산된 잡음이 있는 기울기와 "진실" (하지만 알 수 없는) 전체 정밀 기울기 사이의 오차를 명시적으로 최소화하는 새로운 신뢰 기울기 추정기를 기반으로 합니다. Llama 유형 아키텍처에서의 실험 결과는 QuEST가 하드웨어가 지원하는 정밀도 범위 전체에 걸쳐 안정적인 스케일링 법칙을 유도하며, 희소 표현으로 확장할 수 있다는 것을 보여줍니다. 저희는 QuEST에서 생성된 모델이 효율적으로 실행될 수 있음을 보여주는 GPU 커널 지원을 제공합니다. 저희의 코드는 https://github.com/IST-DASLab/QuEST에서 확인하실 수 있습니다.
가상 현실부터 건축 시각화에 이르기까지 응용 프로그램에서 중요한 3차원 장면 보정은 기존 방법들이 360도 무제한 장면에서의 시야 일관성과 기하학적 정확성에 어려움을 겪고 있다. 우리는 고가의 객체 제거 및 구멍 메꾸기를 가능하게 하는 새로운 참조 기반 방법인 AuraFusion360을 제안한다. 저희 방법은 가우시안 스플래팅으로 표현된 3D 장면에서 (1) 정확한 가려짐 식별을 위한 깊이 인식된 보이지 않는 마스크 생성, (2) 추가 교육이 필요하지 않은 정확한 초기 지점 배치를 위한 Adaptive Guided Depth Diffusion, 그리고 (3) 다중 뷰 일관성을 위한 SDEdit 기반 세부 향상을 도입한다. 또한 우리는 360도 무제한 장면 보정을 위한 첫 번째 종합 데이터셋인 360-USID를 소개한다. 광범위한 실험 결과는 AuraFusion360이 기존 방법들을 크게 능가하며, 동적 시점 변화에 걸쳐 기하학적 정확성을 유지하면서 우수한 지각적 품질을 달성한다는 것을 입증한다. 비디오 결과 및 데이터셋은 https://kkennethwu.github.io/aurafusion360/에서 확인할 수 있다.
DiT 확산 모델은 텍스트에서 비디오를 생성하는 데 큰 성공을 거두었으며, 모델 용량과 데이터 규모에서의 확장성을 활용하고 있습니다. 그러나 텍스트 프롬프트와 일치하는 높은 콘텐츠 및 움직임 충실도는 종종 큰 모델 매개변수와 상당한 수의 함수 평가(NFEs)를 필요로 합니다. 현실적이고 시각적으로 매력적인 세부 사항은 일반적으로 고해상도 출력에 반영되며, 특히 단일 단계 DiT 모델의 경우 계산 요구가 더욱 증가합니다. 이러한 도전에 대처하기 위해 저희는 생성 충실도와 품질을 균형있게 유지하기 위해 모델 용량과 NFEs를 단계별로 전략적으로 할당하는 새로운 이단계 프레임워크인 FlashVideo를 제안합니다. 첫 번째 단계에서는 계산 효율성을 향상시키기 위해 큰 매개변수와 충분한 NFEs를 활용한 저해상도 생성 과정을 통해 프롬프트 충실도가 우선시됩니다. 두 번째 단계에서는 저해상도와 고해상도 간의 흐름 일치를 확립함으로써 최소한의 NFEs로 세밀한 세부 사항을 효과적으로 생성합니다. 양적 및 시각적 결과는 FlashVideo가 우수한 계산 효율성으로 최첨단 고해상도 비디오 생성을 달성한다는 것을 입증합니다. 또한, 이 이단계 설계는 사용자가 전체 해상도 생성에 앞서 초기 출력을 미리 볼 수 있도록 하여 계산 비용과 대기 시간을 크게 줄이고 상업적 타당성을 향상시킵니다.
느린 사고 메커니즘을 대형 언어 모델 (LLM)에 통합하는 것은 OpenAI의 o1과 같은 시스템에서 보여주는 것처럼 2단계 AGI Reasoners를 달성하기 위한 유망한 방법을 제공합니다. 그러나 비효율적인 과다 사고와 부수적 보상 모델에 대한 과도한 의존 등 여러 중요한 도전 과제가 남아 있습니다. 우리는 이러한 제한이 효과적인 추론의 핵심 구성 요소인 탐색 과정을 내재화하지 못하는 LLM의 한계에서 비롯된다는 점을 지적합니다. 이 문제에 대한 중요한 단계는 LLM이 전통적인 탐색 알고리즘에서의 기본 작업인 백트래킹을 자율적으로 결정할 수 있도록 하는 것입니다. 이를 위해 우리는 LLM이 훈련 및 추론 중에 백트래킹을 수행할 수 있는 자체 백트래킹 메커니즘을 제안합니다. 이 메커니즘은 느린 사고 과정을 자체 개선을 통해 빠른 사고로 변환하여 추론 능력과 효율성을 향상시킵니다. 경험적 평가 결과, 우리의 제안이 최적 경로 지도 미세 조정 방법과 비교하여 LLM의 추론 능력을 크게 향상시켰으며, 성능 향상률이 40% 이상입니다. 이 연구가 더 발전된 강력한 Reasoners를 개발하기 위한 혁신적이고 유망한 경로를 제시한다고 믿습니다.
에이전시는 시스템이 목표를 향해 결과를 조종할 수 있는 능력을 나타내는 것이며, 생물학, 철학, 인지과학, 그리고 인공지능 분야에서 중요한 주제로 연구되고 있다. 시스템이 에이전시를 나타내는지 여부를 결정하는 것은 악명높은 어려운 문제이다. 예를 들어, Dennett (1989)는 바위, 온도 조절기, 또는 로봇 각각이 에이전시를 가지고 있는지를 결정할 수 있는 원칙이 무엇인지를 결정하는 문제를 강조하고 있다. 본 연구에서는 이러한 문제를 강화 학습의 관점에서 다루며, 에이전시는 근본적으로 프레임에 따라 달라진다는 주장을 제시한다. 시스템의 에이전시를 측정하는 것은 반드시 기준 프레임에 상대적으로 이루어져야 한다는 것을 논증을 통해 지지한다. 우리는 Barandiaran 등(2009)과 Moreno(2018)가 제안한 에이전시의 주요 특성들이 그 자체로 프레임에 의존적이라는 철학적 주장을 제시하여 이 주장을 뒷받침한다. 에이전시의 기본적인 과학은 프레임 의존성을 요구하며, 이 주장이 강화 학습에 대한 영향에 대해 논의한다.
대형 언어 모델(LLM)의 급속한 발전은 책임 있는 사용을 보장하기 위해 가드레일 모델이 필요한 필요성을 증가시켰는데, 특히 위험하고 불법적인 콘텐츠를 탐지하는 데 있어서 그렇습니다. 영어로 된 상당한 안전 데이터가 존재하는 반면, 다른 언어의 오픈 소스 안전 데이터가 부족하여, 다국어 가드레일 모델링은 탐구되지 않은 상태입니다. 이러한 공백을 해결하기 위해, 우리는 새로운 두 플레이어 강화 학습(RL) 프레임워크를 제안합니다. 여기서 생성기(generator)와 가드레일 모델이 적대적으로 공진하여 다국어 가드레일 훈련을 위한 고품질 합성 데이터를 생성합니다. 우리는 이 상호 작용을 이론적으로 두 플레이어 게임으로 형식화하고 Nash 균형으로 수렴함을 증명합니다. 경험적 평가 결과, 우리 모델인 \ours가 최신 모델들을 능가하여 영어 벤치마크에서 LlamaGuard3 (8B)보다 거의 10% 향상을 달성하면서, 유의미하게 작은 모델(0.5B)로 추론 시 4.5배 빠릅니다. 우리는 실제 데이터셋에서 낮은 자원 언어의 불균형을 해결하는 데 특히 중요한 다국어 안전 작업에서 상당한 발전을 이루었습니다. Ablation 연구는 영어와 다른 언어 간 오픈 소스 데이터의 불균형을 극복하는 데 합성 데이터 생성의 중요한 역할을 강조합니다. 이러한 결과는 합성 데이터 생성에 대한 확장 가능하고 효율적인 접근 방식을 확립하며, LLM 안전성을 향상시키기 위한 개선된 다국어 가드레일 모델을 위한 길을 열어줍니다. 코드, 모델 및 데이터는 https://github.com/yihedeng9/DuoGuard에서 오픈 소스로 제공될 예정입니다.
복잡한 계획 문제를 해결하기 위해서는 대규모 언어 모델(Large Language Models, LLMs)이 규칙 위반을 피하고 제약 조건을 준수하며 최적성을 보장하기 위해 상태 전이를 명시적으로 모델링해야 합니다. 이는 자연어의 내재적 모호성으로 인해 어려운 작업입니다. 이러한 모호성을 극복하기 위해 계획 도메인 정의 언어(Planning Domain Definition Language, PDDL)가 계획 추상화로 활용되어 정확하고 형식적인 상태 설명을 가능하게 합니다. PDDL을 사용하면 기호적 세계 모델을 생성할 수 있어 A*와 같은 고전적인 탐색 알고리즘을 적용하여 최적 계획을 찾을 수 있습니다. 그러나 현재 LLMs로 직접 PDDL 도메인을 생성하는 것은 PDDL 훈련 데이터 부족으로 인해 여전히 열린 과제입니다. 이러한 도전에 대처하기 위해 우리는 LLMs의 테스트 시간 계산을 확장하여 그들의 PDDL 추론 능력을 향상시키고 높은 품질의 PDDL 도메인을 생성할 수 있도록 제안합니다. 구체적으로, 우리는 초기 솔루션의 품질을 향상시키기 위해 Best-of-N 샘플링 접근법을 먼저 채택하고 그 후에 문제를 세부적으로 다듬는 방식으로 솔루션을 개선하는 간단하면서 효과적인 알고리즘을 소개합니다. 우리의 방법은 PDDL 도메인 생성에서 o1-mini를 크게 앞섭니다. 자연어 설명이나 PDDL 문제로부터 PDDL 도메인을 생성하는 두 가지 작업에서 50% 이상의 성공률을 달성합니다. 이는 추가 훈련이 필요하지 않은 상태에서 이루어집니다. 상태 추상화로서의 PDDL을 활용함으로써 우리의 방법은 대부분의 경쟁 수준의 계획 작업에서 현재 최첨단 방법을 앞서 나갈 수 있습니다.
대형 언어 모델(Large language models, LLMs)은 모델 파라미터의 스케일링을 통해 인상적인 성능을 달성하지만, 이는 상당한 추론 오버헤드를 동반합니다. LLM 파라미터를 지배하는 피드포워드 네트워크(Feed-forward networks, FFNs)는 숨겨진 뉴런에서 높은 활성 희소성을 나타냅니다. 이를 활용하기 위해 연구자들은 일부 파라미터만 활성화하는 전문가들의 혼합(Mixture-of-experts, MoE) 아키텍처를 제안했습니다. 그러나 기존 접근 방식은 종종 방대한 학습 데이터와 자원이 필요하여 실용성이 제한됩니다. 저희는 밀집 모델에서 MoE 모델을 효율적으로 조각내는 새로운 프레임워크인 CMoE (Carved MoE)를 제안합니다. CMoE는 효율적인 전문가 그룹화와 가벼운 적응을 통해 놀라운 성능을 달성합니다. 먼저, 뉴런은 활성화 비율에 기반하여 공유 및 경로 지정된 전문가로 그룹화됩니다. 그런 다음, 우리는 처음부터 학습 없이 라우팅 메커니즘을 구성하고, 미분 가능한 라우팅 프로세스와 부하 분산을 통합합니다. CMoE는 7B 밀집 모델에서 5분 이내에 적절히 설계된 사용 가능한 MoE를 생성합니다. 가벼운 미세 조정을 통해 1시간 이내에 높은 성능 회복을 달성합니다. 저희는 코드를 https://github.com/JarvisPei/CMoE 에 공개적으로 제공합니다.
저희는 On-device Sora를 소개합니다. 이는 스마트폰급 장치에서 효율적으로 작동하는 확산 기반 온-디바이스 텍스트-비디오 생성을 위한 최초의 선도적인 솔루션입니다. Open-Sora를 기반으로 구축된 On-device Sora는 확산 기반 텍스트-비디오 생성의 도전을 해결하기 위해 세 가지의 새로운 기술을 적용합니다. 첫째, 선형 비례적 점프 (LPL)는 효율적인 점프 기반 접근을 통해 비디오 확산에서 필요한 과도한 노이즈 제거 단계를 줄입니다. 둘째, 시간 차원 토큰 병합 (TDTM)은 시간 차원을 따라 연속적인 토큰을 병합함으로써 어텐션 레이어에서의 고부하 토큰 처리 계산을 최소화합니다. 셋째, 동적 로딩과 함께 동시 추론 (CI-DL)은 대규모 모델을 작은 블록으로 동적으로 분할하고 메모리에 로드하여 제한된 장치 메모리의 도전을 효과적으로 해결합니다. 저희는 iPhone 15 Pro에서 On-device Sora를 구현하였으며 실험적 평가 결과, 이 장치에서 Open-Sora가 고성능 GPU에서 실행되는 것과 유사한 수준의 고품질 비디오를 생성할 수 있는 것을 보여줍니다. 이러한 결과는 On-device Sora가 자원 제한적인 모바일 장치에서 효율적이고 고품질의 비디오 생성을 가능케 하며, 접근성을 확대시키고 사용자 개인정보 보호를 보장하며, 클라우드 인프라에 대한 의존을 줄이고 관련 비용을 낮출 수 있음을 보여줍니다. 저희는 제안된 On-device Sora를 최첨단 생성 기술을 대중화하는 중요한 첫걸음으로 보며, 상품용 모바일 및 임베디드 장치에서 비디오 생성 기능을 가능케 하는 것을 기대합니다. 코드 구현은 GitHub 저장소에서 공개되어 있습니다: https://github.com/eai-lab/On-device-Sora.
모델 병합은 여러 과제별 모델의 가중치를 하나의 다중 과제 모델로 통합합니다. 최근에는 이 문제에 대한 관심이 높아졌지만, 병합된 모델과 단일 과제 모델 간에는 상당한 성능 차이가 남아 있습니다. 본 논문에서는 효과적인 병합을 가능하게 하는 과제 행렬의 주요 특성 -- 사전 훈련된 모델에 적용되는 가중치 업데이트 행렬 -- 을 조사합니다. 우리는 과제별 및 병합된 행렬의 특이 구성 요소 간의 정렬이 사전 훈련된 모델 대비 성능 향상과 강한 상관 관계가 있음을 보여줍니다. 이를 바탕으로 우리는 과제 행렬의 특이값 스펙트럼을 평평하게 하는 등방성 병합 프레임워크를 제안하며, 정렬을 강화하고 성능 차이를 줄입니다. 또한 공통 및 과제별 부분 공간을 통합하여 정렬과 성능을 더욱 개선합니다. 우리의 제안된 방법은 다양한 과제 세트 및 모델 규모를 포함한 여러 시나리오에서 최첨단 성능을 달성합니다. 본 연구는 모델 병합 역학의 이해를 발전시키며, 추가적인 훈련을 필요로 하지 않고 모델을 병합하는 효과적인 방법론을 제공합니다. 코드는 https://github.com/danielm1405/iso-merging 에서 확인할 수 있습니다.
언어 모델(LMs)의 일반화는 일반 지능의 잠재력과 기본 지식 구성(예: 역/전이 저주)과의 논쟁이 활발히 진행 중입니다. 본 논문은 지식 구성 중 LMs 내 선형 상관 관계 현상을 밝혀냅니다. 설명을 위해, 특정 관련 지식 사이에 존재하는 선형 변환은 다음 토큰 예측 로짓을 한 프롬프트에서 다른 프롬프트로 매핑합니다. 예를 들어, "X는 도시에 살고 있다" → "X는 나라에 살고 있다"와 같이 주어진 X에 대해 선형성이 나타납니다. 이는 파리 → 프랑스와 같이 인간 지식 구성에서의 선형성을 반영합니다. 우리의 연구 결과는 대규모 세밀 조정에도 선형 변환은 현실 세계의 관계와 일치할 때 최신화된 지식을 일반화하지만, 벗어날 경우 환각을 유발한다는 것을 나타냅니다. 경험적 결과는 선형 상관 관계가 LM의 일반화의 잠재적 식별자로 작용할 수 있다는 것을 시사합니다. 마지막으로, 이러한 선형 상관 관계는 단일 피드포워드 네트워크와 사전 훈련된 어휘 표현을 통해 학습될 수 있으며, 이는 LM의 일반화가 후자에 크게 의존함을 나타냅니다.
Vision Transformer (ViT)의 소개 이후, 패치화는 평범한 시각 구조에 대한 이미지 토큰화 접근 방식으로 오랫동안 인정받아왔습니다. 이미지의 공간 크기를 압축함으로써, 이 방법은 토큰 시퀀스를 효과적으로 줄이고 ViT와 유사한 평범한 구조의 계산 비용을 줄일 수 있습니다. 본 연구에서는 이러한 패치화 기반의 압축 부호화 패러다임으로 인한 정보 손실을 철저히 조사하고 이를 시각적 이해에 어떻게 영향을 미치는지 살펴보고자 합니다. 우리는 광범위한 패치 크기 스케일링 실험을 수행하고 흥분되는 것은 패치화에서 흥미로운 스케일링 법칙을 관찰합니다: 모델은 패치 크기가 감소함에 따라 일관되게 이득을 얻고 예측 성능이 향상되며, 최소 패치 크기인 1x1, 즉 픽셀 토큰화에 도달할 때까지입니다. 이 결론은 다양한 시각 작업, 다양한 입력 스케일 및 ViT 및 최근 Mamba 모델과 같은 다양한 구조에 걸쳐 광범위하게 적용됩니다. 더불어, 작은 패치로 인해 작업 특정 디코더 헤드가 밀집 예측에 대해 덜 중요해진다는 사실을 발견합니다. 실험에서 우리는 시각적 시퀀스를 50,176 토큰이라는 뛰어난 길이로 확장하고, ImageNet-1k 벤치마크에서 베이스 크기 모델로 경쟁력 있는 84.6%의 테스트 정확도를 달성합니다. 본 연구가 비압축 시각 모델 구축에 대한 미래 작업의 통찰과 이론적 기초를 제공할 수 있기를 희망합니다. 코드는 https://github.com/wangf3014/Patch_Scaling에서 확인할 수 있습니다.
기존 방법들은 대규모 언어 모델(LLMs)을 효과적으로 텍스트 추론과 코드 생성 사이에서 이끌어내지 못하여 상징적 컴퓨팅 능력이 제대로 활용되지 못하고 있다. 우리는 LLM 코드/텍스트 생성을 안내하기 위한 효과적인 방법인 CodeSteer를 소개한다. 우리는 조절 가능한 복잡성을 갖는 37가지 상징적 작업으로 구성된 포괄적인 벤치마크 SymBench를 구축하고 또한 12,000개의 다중 라운드 안내/생성 궤적과 5,500개의 안내 비교 쌍으로 이루어진 데이터셋을 합성한다. 우리는 새롭게 설계된 다중 라운드 지도된 미세 조정(SFT) 및 직접 선호도 최적화(DPO)를 사용하여 Llama-3-8B 모델을 세밀하게 조정한다. 제안된 상징적 및 자체 답변 확인기와 함께 보강된 결과 모델인 CodeSteerLLM은 대규모 모델의 코드/텍스트 생성을 효과적으로 안내한다. CodeSteer를 GPT-4o에 보강하면 기존 최고의 LLM인 OpenAI o1(82.7), o1-preview(74.8) 및 DeepSeek R1(76.8)을 모두 능가하여 37가지 작업(28개는 본 적이 있는 작업, 9개는 처음 보는 작업)에서 평균 성능 점수를 53.3에서 86.4로 높인다. GPT-4o에 대해 훈련된 CodeSteer는 Claude, Mistral 및 GPT-3.5에서 평균 41.8의 성능 향상을 제공하여 우수한 일반화 능력을 보여준다. CodeSteer로 안내받은 LLM은 상징적 컴퓨팅을 완전히 활용하여 매우 복잡한 작업에서 강력한 성능을 유지한다. 모델, 데이터셋 및 코드는 https://github.com/yongchao98/CodeSteer-v1.0에서 이용할 수 있다.
우리는 Quantized Language-Image Pretraining (QLIP)을 소개합니다. 이는 최신 재구성 품질과 최신 영상 이해의 제로샷을 결합한 시각 토큰화 방법입니다. QLIP은 이차원 구 형식 양자화 기반 오토인코더를 사용하여 재구성과 언어-이미지 정렬 목표를 훈련시킵니다. 우리는 두 목표가 서로 대립할 필요가 없음을 처음으로 보여줍니다. 우리는 훈련 중에 두 손실 용어를 동적으로 균형을 맞추고, 이미지-언어 사전 훈련의 대형 배치 요구 사항과 재구성 목표로 인한 메모리 병목 현상을 효과적으로 혼합하는 이차 훈련 파이프라인을 보여줍니다. 우리는 QLIP의 효과를 다중 모달 이해 및 텍스트 조건부 이미지 생성에 대해 단일 모델로 확인합니다. 구체적으로, QLIP은 LLaVA의 시각 인코더와 LlamaGen의 이미지 토크나이저를 대체하여 유사하거나 더 나은 성능을 보여줍니다. 마지막으로, QLIP이 이해와 생성을 위한 통합된 혼합 모달리티 자기 회귀 모델을 가능하게 한다는 것을 증명합니다.
시각적 표현으로부터 시간을 이해하는 것은 기본적인 인지 능력이지만, 다중 모달 대형 언어 모델(MLLMs)에 대한 도전 과제로 남아 있습니다. 본 연구에서는 아날로그 시계와 연간 달력을 통해 MLLMs의 시간 및 날짜 해석 능력을 조사합니다. 이를 위해 시계 스타일(표준, 검은 다이얼, 초침 없음, 로마 숫자, 화살표 손시계)과 시간 관련 질문이 짝을 이룬 ClockQA 및 연간 달력 이미지와 크리스마스, 신정 등과 같은 일반적으로 알려진 날짜부터 연산으로 유도된 100일째 또는 153일째와 같은 질문이 포함된 CalendarQA로 구성된 구조화된 데이터셋을 만들었습니다. MLLMs가 시간 관련 시각 데이터를 제시받았을 때 시각적 인식, 숫자 추론 및 시간 추론을 어떻게 수행할 수 있는지 분석하고자 합니다. 우리의 평가 결과, 최근의 발전에도 불구하고, 시간을 신뢰성 있게 이해하는 것은 MLLMs에게 여전히 중요한 도전 과제임을 보여줍니다.
대형 언어 모델(Large language models, LLMs)은 종종 다중 선택형 질문-응답(QA) 작업으로 구성된 어려운 벤치마크에서 놀라운 성능을 달성합니다. 제로샷 Chain-of-Thought(CoT) 프롬프팅은 LLMs의 추론력을 향상시키지만 "단계별로 생각하십시오"라는 모호하고 일반적인 안내만 제공합니다. 본 논문은 QA 해결 과정에서 세 가지 핵심 단계를 명확히 반영하는 직관적이고 효과적인 제로샷 프롬프팅 방법인 ARR을 소개합니다: 질문의 의도 분석, 관련 정보 검색, 그리고 단계별 추론. 다양하고 어려운 QA 작업을 횡단하는 포괄적인 실험 결과는 ARR이 일관되게 베이스라인(ARR 프롬프팅 없음)을 개선하고 CoT를 능가한다는 것을 입증합니다. Ablation 및 사례 연구는 분석, 검색 및 추론 각 구성 요소의 긍정적인 기여를 더욱 확증합니다. 특히, 의도 분석이 ARR에서 중요한 역할을 합니다. 더불어, 다양한 모델 크기, LLM 시리즈 및 생성 설정을 횡단하는 포괄적인 평가는 ARR의 효과성, 견고성 및 일반화 가능성을 확고히 합니다.
데이터 및 컴퓨팅 확장은 기계 학습의 성공에 중요합니다. 그러나 확장은 예측 가능성을 요구합니다: 우리는 방법이 더 많은 컴퓨팅 또는 데이터로만 잘 작동하는 것뿐만 아니라, 작은 규모의 실행에서도 성능이 예측 가능하도록 원합니다. 본 논문에서는 가치 기반 오프-폴리시 강화 학습 방법이 예측 가능하다는 것을 보여줍니다. 이는 그들의 병적인 행동에 대한 커뮤니티의 전설에도 불구하고입니다. 먼저, 주어진 성능 수준을 달성하기 위한 데이터 및 컴퓨팅 요구 사항이 업데이트 대 데이터(UTD) 비율에 의해 제어되는 파레토 프론티어에 위치함을 보여줍니다. 이 프론티어를 추정함으로써, 더 많은 컴퓨팅이 주어졌을 때 이 데이터 요구 사항을 예측하고, 더 많은 데이터가 주어졌을 때 이 컴퓨팅 요구 사항을 예측할 수 있습니다. 둘째, 특정 성능을 위해 데이터와 컴퓨팅에 대한 총 자원 예산의 최적 할당을 결정하고, 주어진 예산에 대해 성능을 최대화하는 하이퍼파라미터를 결정합니다. 셋째, 이러한 확장 행동은 먼저 강화 학습에만 해당되는 과적합과 플라스티시티 손실의 효과를 관리하기 위해 하이퍼파라미터 간의 예측 가능한 관계를 추정함으로써 가능해집니다. 우리는 DeepMind Control, OpenAI gym, IsaacGym에서 SAC, BRO 및 PQL 세 가지 알고리즘을 사용하여 접근 방식을 검증합니다. 이때 더 높은 데이터, 컴퓨팅, 예산 또는 성능으로 추정합니다.
텍스트-이미지 (T2I) 시스템에서의 정확한 정렬은 생성된 시각 자료가 사용자 의도를 정확히 포착할 뿐만 아니라 엄격한 윤리적 및 미적 기준을 준수하는 것을 보장하는 데 중요합니다. 구글 제미니 사건과 같은 사건에서는 정렬되지 않은 출력이 중요한 공개적 반발을 일으킨 것으로, 견고한 정렬 메커니즘이 필수적임을 강조합니다. 이에 반해, 대형 언어 모델 (LLMs)은 정렬에서 주목할만한 성공을 거두었습니다. 이러한 발전을 기반으로, 연구자들은 이미지 생성의 충실도와 신뢰성을 향상시키기 위해 직접 선호도 최적화 (DPO)와 같은 유사한 정렬 기술을 T2I 시스템에 적용하고자 합니다. YinYangAlign은 T2I 시스템의 정렬 충실도를 체계적으로 측정하는 고급 벤치마킹 프레임워크를 제시합니다. 이 프레임워크는 이미지 생성에서 균형 잡힌 사용자 프롬프트 준수와 창의적 수정 또는 시각적 일관성과 함께 다양성 유지와 같은 기본적이고 본질적으로 모순된 설계 목표를 다룹니다. YinYangAlign에는 인간 프롬프트, 정렬된 (선택된) 응답, 정렬되지 않은 (거부된) AI 생성 출력, 그리고 기본적인 모순의 설명이 포함된 자세한 공리 데이터 세트가 포함되어 있습니다.
다양한 3D 작업을 해결할 수 있는 통합된 프레임워크를 제시합니다. 저희 방법론은 상태를 가진 순환 모델을 특징으로 하며, 각 새로운 관측마다 상태 표현을 지속적으로 업데이트합니다. 이미지 스트림이 주어지면 이 변화하는 상태는 온라인 방식으로 각 새로운 입력에 대해 메트릭 규모의 포인트맵(픽셀 단위 3D 포인트)을 생성하는 데 사용될 수 있습니다. 이러한 포인트맵은 공통 좌표 시스템 내에 존재하며, 새로운 이미지가 도착할 때마다 업데이트되는 일관된 밀집한 장면 재구성으로 누적될 수 있습니다. CUT3R(3D 재구성을 위한 연속 업데이팅 트랜스포머)라는 우리의 모델은 실제 세계 장면의 풍부한 사전 정보를 포착합니다. 이미지 관측에서 정확한 포인트맵을 예측할 수 있을 뿐만 아니라 가상의 관측을 조사함으로써 장면의 보이지 않는 영역을 추론할 수도 있습니다. 우리의 방법은 간단하면서도 매우 유연하며, 비디오 스트림이나 정렬되지 않은 사진 모음일 수 있는 다양한 길이의 이미지를 자연스럽게 수용하며 정적 및 동적 콘텐츠를 모두 포함합니다. 우리는 다양한 3D/4D 작업에서 우리의 방법을 평가하고 각 작업에서 경쟁력이 있거나 최신 기술을 보여줍니다. 프로젝트 페이지: https://cut3r.github.io/
의미적 프롬프트 캐시는 캐시된 대규모 언어 모델 (LLM) 생성 응답을 재사용하여 의미적으로 유사한 프롬프트에 대한 대기 시간과 비용을 줄입니다. 벡터 유사성 메트릭은 임베디드 프롬프트와 캐시 내 가장 가까운 이웃 간 유사성을 양적으로 평가하는 숫자 점수를 할당합니다. 기존 시스템은 유사성 점수가 캐시 히트로 이어질 충분히 높은지를 분류하기 위해 정적 임계값에 의존합니다. 우리는 이 일률적 임계값이 다른 프롬프트에서는 충분하지 않음을 보여줍니다. 우리는 임베딩의 복잡성과 불확실성에 적응하는 임베딩별 임계값 영역을 학습하는 VectorQ 프레임워크를 제안합니다. 네 가지 다양한 데이터셋의 결합을 통한 평가를 통해, VectorQ가 모든 정적 임계값에서 최첨단 시스템을 일관되게 능가하여 최대 12배의 캐시 히트율 증가와 최대 92%의 오류율 감소를 달성함을 보여줍니다.
현대 직장에서는 회의가 아이디어 교환과 팀 정렬을 보장하기 위해 중요하지만 종종 시간 소비, 일정 충돌 및 비효율적인 참여와 같은 도전에 직면합니다. 최근 대형 언어 모델(LLMs)의 발전은 자연어 생성 및 추론에서 강력한 능력을 보여주어 LLMs가 회의 참가자를 효과적으로 위임할 수 있는지에 대한 의문을 불러일으켰습니다. 이를 탐구하기 위해 우리는 프로토타입 LLM 기반 회의 대리 시스템을 개발하고 실제 회의 대본을 사용하여 포괄적인 벤치마크를 작성합니다. 우리의 평가 결과, GPT-4/4o는 적극적이고 신중한 참여 전략 간의 균형 잡힌 성능을 유지합니다. 반면, Gemini 1.5 Pro는 보다 신중한 경향을 보이며, Gemini 1.5 Flash와 Llama3-8B/70B는 더 적극적인 성향을 나타냅니다. 전반적으로, 응답의 약 60%가 적어도 한 가지 핵심 포인트를 다룹니다. 그러나 실제 세팅에서 흔히 발견되는 필기 오류를 줄이고 불필요하거나 반복적인 콘텐츠를 개선하고 허용성을 향상시키기 위한 개선이 필요합니다. 추가로, 우리는 시스템을 실제 환경에서 구현하고 데모로부터 실제 피드백을 수집합니다. 우리의 연구 결과는 회의 부담을 덜어주는 실용적인 응용을 위한 LLMs 활용의 잠재력과 도전을 강조하며, 소중한 통찰을 제공합니다.
대규모 언어 모델(LLM)을 위한 가벼운 지속적 학습 프레임워크인 SPARC를 제안합니다. 이 프레임워크는 주어진 테스크에 대한 효율적인 적응을 가능하게 하는 저차원 공간에서 프롬프트 튜닝을 통해 구현됩니다. 주성분 분석(PCA)을 활용하여 훈련 데이터의 압축된 부분 공간을 식별합니다. 이 저차원 공간에서 프롬프트를 최적화함으로써 훈련 효율성이 향상되며, 가장 관련성 높은 특징에 업데이트를 집중시키면서 계산 부담을 줄입니다. 또한, 모델의 내부 구조가 변경되지 않기 때문에 사전 훈련으로 얻은 폭넓은 지식이 완전히 보존되어 이전에 학습한 정보가 적응 중에 손상되지 않도록 합니다. 우리의 방법은 모델의 매개변수 중 0.04%만을 세밀 조정함으로써 과업 증분 및 도메인 증분 지속적 학습 설정에서 높은 지식 보존을 달성합니다. 또한 LoRA를 통합함으로써 계산 제약 조건에 대한 적응성을 향상시켜 정확도와 훈련 비용 사이의 균형을 제공합니다. SuperGLUE 벤치마크 실험에서 우리의 PCA 기반 프롬프트 튜닝과 LoRA를 결합한 결과는 모델의 매개변수 중 1%만을 활용하여 정확도를 향상시키면서 전체 지식 보존을 유지함을 입증합니다. 이러한 결과는 LLM에서의 지속적 학습에 대한 확장 가능하고 자원 효율적인 해결책으로 우리의 접근 방식을 확립합니다.
로봇학, 스마트 시티, 그리고 자율 주행 차량에서의 자율 주변 컴퓨팅은 동적 환경에서의 실시간 의사 결정을 위해 감지, 처리, 그리고 실행의 원활한 통합에 의존합니다. 핵심은 감지부터 행동까지의 루프로, 이는 센서 입력을 계산 모델과 반복적으로 일치시켜 적응 제어 전략을 주도합니다. 이러한 루프는 초지역 조건에 적응하여 자원 효율성과 반응성을 향상시킬 수 있지만, 자원 제약, 다중 모달 데이터 융합에서의 동기화 지연, 그리고 피드백 루프에서의 연쇄 오류 위험과 같은 도전에 직면합니다. 본 논문은 선행적이고 맥락에 민감한 감지부터 행동 및 행동부터 감지로의 적응이 작업 요구에 기반하여 감지와 계산을 동적으로 조정함으로써 효율성을 향상시킬 수 있는 방법을 탐구합니다. 제어 조치를 통해 감지를 이끌어내는 것으로, 행동부터 감지로의 경로는 작업 관련성과 자원 사용을 향상시킬 수 있지만, 연쇄 오류를 방지하고 신뢰성을 유지하기 위해 견고한 모니터링이 필요합니다. 다중 에이전트 감지-행동 루프는 분산된 에이전트 간의 조정된 감지와 행동을 통해 자원 사용을 최적화하여 협력을 통해 확장된 기능을 제공합니다. 또한 생물학적 시스템에서 영감을 받은 신경형 컴퓨팅은 에너지를 절약하고 지연 시간을 줄이며 계층적 제어를 지원하는 스파이크 기반 이벤트 주도 처리에 효율적인 프레임워크를 제공하여 다중 에이전트 최적화에 이상적입니다. 본 논문은 알고리즘 모델을 하드웨어 및 환경 역학과 조화시키고 에너지 효율적인 주변 자율성을 위해 처리량, 정밀도, 적응성을 향상시키기 위해 교차 계층 상호의존성을 개선하는 종단간 공동 설계 전략의 중요성을 강조합니다.