번역이 포함된 일일 선별된 AI 연구 논문
체계적인 방식으로 우리는 널리 물어지는 질문을 조사합니다: LLMs가 정말로 자신이 하는 말을 이해하는가?, 이는 더 익숙한 용어인 확률적 앵무새와 관련이 있습니다. 이를 위해, 우리는 신중히 설계된 물리 개념 이해 작업 PhysiCo에 대한 요약 평가를 제안합니다. 우리의 작업은 물리 현상을 추상적으로 설명하는 그리드 형식의 입력을 사용하여 메모리 문제를 완화합니다. 이 그리드는 핵심 현상, 응용 예 및 그리드 세계의 다른 추상적 패턴에 대한 유사성을 나타냅니다. 우리의 작업에 대한 포괄적인 연구는 다음을 보여줍니다: (1) GPT-4o, o1 및 Gemini 2.0 플래시 사고를 포함한 최첨단 LLMs는 인간보다 약 40% 뒤처지고; (2) 확률적 앵무새 현상이 LLMs에 존재하며, 그들은 우리의 그리드 작업에서 실패하지만 자연어로 동일한 개념을 잘 설명하고 인식할 수 있습니다; (3) 우리의 작업은 LLMs에게 내재적 어려움 때문에 도전적이며, 그들의 성능에는 문맥 내 학습과 동일한 형식의 데이터에 대한 세밀한 조정이 별다른 도움이 되지 않습니다.
현대의 대규모 언어 모델(LLM)에서는 매우 긴 문맥 길이를 처리하는 것이 느린 추론 속도와 증가된 메모리 비용을 유발하여 중요한 도전을 제기합니다. 게다가 대부분의 기존 사전 훈련된 LLM은 원래 훈련 시퀀스 길이를 넘어 일반화하는 데 실패합니다. 효율적이고 실용적인 긴 문맥 활용을 위해 우리는 InfiniteHiP을 소개합니다. 이는 새로운 LLM 추론 프레임워크로, 모듈화된 계층적 토큰 가지치기 알고리즘을 통해 불필요한 문맥 토큰을 동적으로 제거하여 처리 속도를 가속화합니다. 우리의 방법은 또한 LLM 내부의 주의 패턴에 따라 다양한 RoPE 조정 방법을 선택적으로 적용하여 더 긴 시퀀스로의 일반화를 허용합니다. 더불어 추론 중에 키-값 캐시를 호스트 메모리로 옮겨 GPU 메모리 압력을 크게 줄입니다. 결과적으로 InfiniteHiP은 단일 L40s 48GB GPU에서 최대 3백만 토큰의 처리를 가능하게 하며, 어떠한 영구적인 문맥 정보 손실도 없이 3배 더 큰 처리가 가능합니다. 우리의 프레임워크는 추가 훈련이 필요하지 않은 100만 토큰 문맥에 대해 18.95배의 주의 디코딩 속도 향상을 달성합니다. 우리는 SGLang 프레임워크에서 우리의 방법을 구현하고 광범위한 평가를 통해 그 효과와 실용성을 입증합니다.
텍스트-이미지(T2I) 확산 모델에서 대규모 텍스트 인코더는 텍스트 프롬프트로부터 고품질 이미지를 생성하는 데 뛰어난 성능을 보여주었습니다. 여러 반복 단계에 의존하는 노이즈 제거 모듈과는 달리, 텍스트 인코더는 텍스트 임베딩을 생성하기 위해 단일 전방향 패스만 필요로 합니다. 그러나 총 추론 시간 및 부동 소수점 연산(FLOPs)에 대한 그들의 기여가 최소하더라도, 텍스트 인코더는 기존의 노이즈 제거 모듈보다 최대 8배 더 높은 메모리 사용량을 요구합니다. 이 비효율성을 해결하기 위해 우리는 T2I 확산 모델의 텍스트 인코더를 위해 특별히 설계된 간단하면서도 효과적인 가지치기 전략인 Skip and Re-use layers (Skrr)를 제안합니다. Skrr은 T2I 작업에 맞게 트랜스포머 블록의 내재적 중복성을 활용하여 특정 레이어를 선택적으로 건너뛰거나 재사용함으로써 성능을 희생하지 않고 메모리 소비를 줄입니다. 광범위한 실험 결과는 Skrr이 높은 희소성 수준에서도 원래 모델과 비슷한 이미지 품질을 유지하며, 기존의 블록별 가지치기 방법을 능가하는 것을 보여줍니다. 게다가 Skrr은 FID, CLIP, DreamSim 및 GenEval 점수를 포함한 여러 평가 지표에서 성능을 유지하면서 최신의 메모리 효율성을 달성합니다.
최근 확산 기술의 발전으로 이미지 및 비디오 생성은 전례 없는 수준의 품질로 높아져, 생성적 AI의 배포와 응용을 현저히 가속화시켰다. 그러나 3D 형상 생성 기술은 지금까지 3D 데이터 규모의 제한, 3D 데이터 처리의 복잡성, 그리고 3D 영역의 고급 기술 탐구의 부족으로 제약을 받아왔다. 현재의 3D 형상 생성 접근법은 출력 품질, 일반화 능력, 그리고 입력 조건과의 일치 측면에서 상당한 도전에 직면하고 있다. 우리는 TripoSG를 제안한다. 이는 입력 이미지와 정확한 대응을 갖는 고품질 3D 메쉬를 생성할 수 있는 새로운 간소화된 형상 확산 패러다임이다. 구체적으로 우리는 다음을 제안한다. 1) 상태-of-the-art 품질을 달성하는 3D 형상 생성을 위한 대규모 교정된 플로우 변환기, 고품질 데이터에 대한 훈련을 통해. 2) 고품질 3D 재구성 성능을 달성하는 3D VAE를 위한 SDF, normal, 그리고 eikonal 손실을 결합한 하이브리드 지도 학습 전략. 3) 데이터 처리 파이프라인을 통해 2백만 개의 고품질 3D 샘플을 생성하는 것으로, 3D 생성 모델 훈련에 있어 데이터 품질과 양의 중요한 규칙을 강조한다. 우리의 새로운 프레임워크의 각 구성 요소의 효과를 검증하기 위해 포괄적인 실험을 통해, TripoSG가 3D 형상 생성에서 최첨단 성능을 달성할 수 있었음을 확인했다. 결과적으로, 고해상도 능력으로 향상된 세부 사항을 보여주며 입력 이미지에 대한 예외적인 충실도를 나타내는 3D 형상이 생성되었다. 더불어, TripoSG는 다양한 이미지 스타일과 콘텐츠에서 3D 모델을 생성하는 데 향상된 다재다능성을 보여주며 강력한 일반화 능력을 진열한다. 3D 생성 분야에서 진전과 혁신을 촉진하기 위해 우리는 우리의 모델을 공개할 것이다.
공개된 모델 수가 증가함에 따라 대부분의 사용자 요구에 대한 사전 훈련된 온라인 모델이 아마도 있을 것입니다. 그러나 현재의 모델 검색 방법은 기본적으로 문서에서 텍스트 기반 검색이기 때문에 사용자는 관련 모델을 찾을 수 없습니다. 본 논문은 모델 메타데이터나 훈련 데이터에 액세스하지 않고도 "개"와 같은 대상 개념을 인식할 수 있는 분류 모델을 검색하는 방법인 ProbeLog를 제시합니다. 이전 프로빙 방법과는 다르게, ProbeLog는 각 모델의 각 출력 차원(logit)에 대한 기술자를 계산합니다. 이는 고정된 입력 집합(probe)에서 해당 모델의 응답을 관찰함으로써 이루어집니다. 저희 방법은 로짓 기반 검색("이와 유사한 로짓 찾기")과 제로샷, 텍스트 기반 검색("개에 해당하는 모든 로짓 찾기")을 지원합니다. 프로빙 기반 표현은 모델을 통해 여러 번의 비용이 많이 드는 피드포워드 패스를 필요로 하기 때문에, 우리는 협업 필터링을 기반으로 한 방법을 개발하여 저장소 인코딩 비용을 3배로 줄였습니다. ProbeLog가 실제 세계 및 세밀한 검색 작업에서 높은 검색 정확도를 달성하고 전체 규모의 저장소에 확장 가능하다는 것을 입증합니다.
우리는 SelfCite를 소개합니다. 이는 LLMs를 정렬하여 생성된 응답의 문장 수준 인용을 위한 고품질의 세밀한 인용을 생성하는 혁신적인 자기 지도 방법입니다. 고가 및 노동 집약적인 주석에만 의존하는 대신, SelfCite는 LLM 자체가 제공하는 보상 신호를 활용합니다. 이는 문맥 소거를 통해 이루어집니다. 인용이 필요한 경우, 문맥에서 인용된 텍스트를 제거하면 동일한 응답이 방지되어야 합니다. 충분하다면, 인용된 텍스트만 유지하면 동일한 응답이 보존되어야 합니다. 이 보상은 추론 시에 Best-of-N 샘플링 전략을 이끌어 인용 품질을 크게 향상시키는 데 사용될 수 있을 뿐만 아니라, 선호도 최적화에 사용되어 모델을 직접 세밀하게 조정하여 더 나은 인용을 생성하도록 안내할 수 있습니다. SelfCite의 효과는 다섯 가지 장문형 질문 응답 작업에서 LongBench-Cite 벤치마크에서 인용 F1을 최대 5.3 포인트까지 향상시킴으로써 입증되었습니다.
다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)을 활용하여 실제 과제를 해결하는 데 유망한 길을 제공하는 것은 실체화된 에이전트를 만드는 데 유망한 길을 제공합니다. 언어 중심의 실체화된 에이전트가 상당한 관심을 받았지만, MLLM 기반의 실체화된 에이전트는 포괄적인 평가 프레임워크의 부재로 인해 미개척된 상태입니다. 이 간극을 메우기 위해 우리는 시각 중심의 실체화된 에이전트를 평가하기 위해 설계된 포괄적인 벤치마크인 EmbodiedBench를 소개합니다. EmbodiedBench는 다음을 특징으로 합니다: (1) 고수준 의미 작업(예: 가정)부터 핵심적인 행동(예: 탐색 및 조작)을 포함하는 네 가지 환경에서 다양한 1,128개의 테스트 작업; 그리고 (2) 상식적 추론, 복잡한 지시 이해, 공간 인식, 시각 지각, 장기 계획 등 에이전트의 필수 능력을 평가하는 여섯 가지 신중하게 선별된 하위 집합을 포함합니다. 우리는 EmbodiedBench 내에서 13가지 주요 프로프리테어리 및 오픈 소스 MLLM을 평가하기 위해 광범위한 실험을 통해 연구했습니다. 우리의 연구 결과는 MLLM이 고수준 작업에서 뛰어나지만 저수준 조작에서 어려움을 겪는다는 것을 보여주며, 최고의 모델인 GPT-4o가 평균 28.9%의 점수를 기록했습니다. EmbodiedBench는 기존의 도전 과제를 강조하는 뿐만 아니라 MLLM 기반의 실체화된 에이전트를 발전시키기 위한 가치 있는 통찰을 제공하는 다면적인 표준화된 평가 플랫폼을 제공합니다. 우리의 코드는 https://embodiedbench.github.io에서 확인할 수 있습니다.
본 논문은 DeepSeek R1과 같은 고급 추론 능력을 언어별 대규모 언어 모델(LLMs)에 통합하기 위한 데이터 선택 및 모델 병합 방법론을 조사합니다. 특히 태국어 LLM에 초점을 맞추었습니다. 우리의 목표는 언어별 LLM의 추론 능력을 향상시키면서 해당 언어 능력을 유지하는 것입니다. DeepSeek R1은 추론에서 뛰어나지만 주로 영어 및 중국어와 같은 고자원 언어에 이점을 줍니다. 그러나 영어 중심의 훈련 데이터와 모델 최적화로 인해 저자원 언어는 미지원 상태에 머물러 있어 이러한 언어에서 성능을 제한합니다. 이 제한으로 신뢰할 수 없는 코드 스위칭과 저자원 언어의 작업에서 효과가 저하됩니다. 한편 지역 및 지역별 LLM 계획은 지역 언어 충실도를 향상시키는 데 초점을 맞춘 언어별 LLM을 개발하여 이 간극을 줄이려 노력해왔습니다. 우리는 공개 데이터셋과 120달러의 계산 예산만으로 언어별 LLM의 추론 능력을 향상시켜 DeepSeek R1의 수준에 맞출 수 있다는 것을 입증합니다. 이 과정에서 해당 언어 작업의 성능을 희생시키지 않습니다.
역할 연기 언어 에이전트(RPLAs)는 대형 언어 모델(LLMs)의 유망한 응용 프로그램으로 등장했습니다. 그러나 이미 확립된 캐릭터를 시뮬레이션 하는 것은 RPLAs에게 어려운 과제로 작용합니다. 이는 실제 캐릭터 데이터셋의 부족과 이를 사용한 미묘한 평가 방법 때문입니다. 본 논문에서는 효과적인 RPLAs를 위한 CoSER 데이터셋, 오픈 모델 및 평가 프로토콜을 제시합니다. CoSER 데이터셋은 771권의 유명한 책에서 17,966명의 캐릭터를 다루고 있습니다. 이는 실제 세계의 복잡성을 갖는 대화와 대화 설정, 캐릭터 경험 및 내부적 사고와 같은 다양한 데이터 유형을 제공합니다. 연기 방법론에서 영감을 받아, 우리는 책 장면에서 여러 캐릭터를 순차적으로 연기하는 훈련 및 평가용으로 주어진 상황 연기를 소개합니다. 우리의 데이터셋을 활용하여, 우리는 LLaMA-3.1 모델을 기반으로 한 CoSER 8B 및 CoSER 70B를 개발했습니다. 광범위한 실험에서 CoSER 데이터셋의 가치가 RPLA 훈련, 평가 및 검색에 어떻게 기여하는지를 입증했습니다. 게다가, CoSER 70B는 우리의 평가 및 세 가지 기존 벤치마크에서 GPT-4o를 능가하거나 맞먹는 최첨단 성능을 보여줍니다. 즉, InCharacter 및 LifeChoice 벤치마크에서 각각 75.80% 및 93.47%의 정확도를 달성했습니다.
질문에 Chain-of-Thought (CoT)로 답변하는 것은 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 현저히 향상시켰으나, 대형 다중 모달 모델(Large Multimodal Models, LMMs)에 미치는 영향은 아직 체계적인 평가와 심층 조사가 부족하다. 본 논문에서는 LMMs의 CoT 추론 성능을 평가하는 전문 벤치마크인 MME-CoT를 소개하며, 수학, 과학, OCR, 논리, 시공간, 일반 장면 등 6개 도메인을 포괄한다. 이 영역에서의 첫 포괄적인 연구로, 추론 품질, 견고성, 효율성을 세밀한 수준에서 평가하는 세 가지 새로운 메트릭을 포함한 철저한 평가 스위트를 제안한다. 선별된 고품질 데이터와 독특한 평가 전략을 활용하여 최첨단 LMMs를 철저히 분석하고, 여러 중요한 통찰을 발견한다: 1) 반사 메커니즘을 갖춘 모델은 우수한 CoT 품질을 보여주며, Kimi k1.5가 GPT-4o를 능가하고 가장 높은 품질 결과를 보여준다; 2) CoT 프롬프팅은 종종 지각 중심 작업에서 LMM 성능을 저하시키며, 잠재적으로 해로운 과도한 사고 행동을 시사한다; 그리고 3) CoT 품질이 높더라도, 반사를 갖춘 LMMs는 일반 응답 및 자가 수정 단계에서 상당한 비효율성을 나타낸다. MME-CoT가 LMMs의 다중 모달 추론 발전을 위한 기반이 되기를 희망한다. 프로젝트 페이지: https://mmecot.github.io/
인코더 없는 아키텍처는 2D 시각 영역에서 예비로 탐구되었지만, 그것들이 3D 이해 시나리오에 효과적으로 적용될 수 있는지는 여전히 미해결된 문제입니다. 본 논문에서는 인코더 없는 아키텍처의 잠재력을 탐구하기 위한 첫 종합 조사를 제시합니다. 이를 통해 인코더 기반 3D 대규모 다중 모달 모델(LMMs)의 도전 과제를 극복할 수 있는지에 대한 가능성을 밝힙니다. 이러한 도전 과제에는 다양한 포인트 클라우드 해상도에 적응하지 못하는 문제와 인코더에서 나온 포인트 특징이 대규모 언어 모델(LLMs)의 의미적 요구를 충족시키지 못하는 문제가 포함됩니다. 우리는 3D LMMs에게 인코더를 제거하고 LLM이 3D 인코더의 역할을 수행하도록 하는 핵심 측면을 확인합니다: 1) 우리는 사전 훈련 단계에서 LLM-내장 의미 인코딩 전략을 제안하며, 다양한 포인트 클라우드 자기 지도 손실의 효과를 탐구합니다. 그리고 우리는 고수준 의미를 추출하기 위한 Hybrid Semantic Loss를 제시합니다. 2) 우리는 지시 조정 단계에서 계층적 기하 집계 전략을 소개합니다. 이는 LLM 초기 레이어에 귀납적 편향을 통합하여 포인트 클라우드의 지역 세부 사항에 초점을 맞춥니다. 마지막으로, 우리는 첫 번째 인코더 없는 3D LMM, ENEL을 제시합니다. 우리의 7B 모델은 현재의 최첨단 모델인 ShapeLLM-13B와 견줄만한 성과를 거두어 분류, 캡션, VQA 작업에서 각각 55.0%, 50.92%, 42.7%를 달성했습니다. 우리의 결과는 인코더 없는 아키텍처가 3D 이해 분야에서 인코더 기반 아키텍처를 대체하는 데 매우 유망함을 보여줍니다. 코드는 https://github.com/Ivan-Tang-3D/ENEL에서 공개되었습니다.
OpenAI o3 및 DeepSeek-R1과 같은 고급 추론 모델의 등장으로 대형 언어 모델(LLMs)은 놀라운 추론 능력을 보여주었습니다. 그러나 엄격한 논리 추론을 수행하는 능력은 여전히 미해결된 문제입니다. 본 조사는 최근 LLMs 내의 논리 추론에 대한 발전을 종합한 것으로, 이는 AI 연구의 중요한 영역입니다. 이는 LLMs 내의 논리 추론 범위, 이론적 기초, 그리고 추론 능력을 평가하는 데 사용되는 벤치마크를 개요로 설명합니다. 우리는 타당한, 귀납적, 타당한, 유추적 및 유추적 패러다임을 통해 기존 능력을 분석하고, 데이터 중심의 조정, 강화 학습, 디코딩 전략 및 신경 기호주의 접근 방식을 포함한 추론 성능을 향상시키기 위한 전략을 평가합니다. 이 검토는 미래 방향을 강조하며, AI 시스템 내의 논리 추론을 강화하기 위해 추가 탐구가 필요함을 강조합니다.
자연어 처리 분야에서는 대형 언어 모델(LLMs)이 점차 복잡한 추론 도전 과제를 맡게 됩니다. 연상 체인 방식과 같은 기존 방법들은 유망성을 보였지만 종종 모델의 추론 능력을 완전히 활용하지 못하는 한계가 있습니다. 본 논문에서는 SQuARE(Sequential Question Answering Reasoning Engine)라는 새로운 프롬프팅 기술을 소개하며, 이 기술은 자가 심문 패러다임을 통해 추론을 개선하도록 설계되었습니다. CoT 프레임워크를 기반으로 한 SQuARE는 모델이 주요 질의에 대응하기 전에 여러 보조 질문을 생성하고 해결하도록 유도하여 주제의 다양한 측면을 보다 철저히 탐색하도록 돕습니다. Llama 3 및 GPT-4o 모델을 활용한 다양한 질문-답변 데이터셋을 대상으로 실시한 포괄적인 평가 결과, SQuARE가 기존의 CoT 프롬프트 및 기존의 다시 말하고 응답하는 방법을 크게 능가함을 입증했습니다. 질의를 체계적으로 분해함으로써, SQuARE는 추론 작업에서 LLM의 능력을 향상시킵니다. 코드는 https://github.com/IntelLabs/RAG-FiT/tree/square에서 공개적으로 제공됩니다.
본 논문은 오픈 태국 추론 모델을 개발하기 위한 오픈 노력인 태풍 T1을 소개합니다. 추론 모델은 대규모 언어 모델(LLMs) 위에 구축된 상대적으로 새로운 유형의 생성 모델입니다. 추론 모델은 최종 답변에 이르기 전에 긴 사고 체인을 생성하는데, 이는 복잡한 작업에서 성능을 향상시키는 방법으로 알려져 있습니다. 그러나 특히 저자원 언어에서 추적을 생성할 수 있는 추론 모델을 개발하는 세부 사항은 제한적입니다. 태풍 T1은 감독된 세밀 조정을 활용하여 강화 학습이 아닌 오픈 데이터셋을 사용하여 추론 모델을 보다 비용 효율적으로 개발하는 세부 사항에 대해 탐구하는 오픈 노력을 제시합니다. 본 논문은 합성 데이터 생성 및 훈련, 그리고 데이터셋 및 모델 가중치에 대한 세부 정보를 공유합니다. 더불어, 우리는 도메인을 넘나드는 추론 모델을 개발하고, 태국어를 예시로 활용하여 저자원 언어에서 추론 추적을 생성할 수 있는 통찰을 제공합니다. 본 노력이 이 분야에서의 추가 연구를 위한 기초를 제공하기를 희망합니다.
Chain-of-Thought은 모델의 추론 능력을 크게 향상시키지만, 긴 체인으로 인한 추론 비용 증가도 동반됩니다. 추론 경로가 쉬운 작업에서는 쉽게 압축될 수 있지만 어려운 작업에서는 어려움을 겪는 것을 관찰하여, 한 모델로 추론 경로의 길이를 탄력적으로 제어하는 가능성을 탐구하고, 작업 난이도에 기반하여 추론 모델의 추론 오버헤드를 동적으로 줄이기 위한 새로운 조정 및 추론 전략인 CoT-Valve를 소개합니다. 이를 달성하기 위해, 생성된 CoT의 길이를 효과적으로 제어할 수 있는 파라미터 공간에서 조작할 수 있는 방향을 식별하는 것을 제안합니다. 또한, 이 속성이 추론 체인을 압축하는 데 유용하다는 것을 보여줍니다. 동일한 질문에 대해 긴 체인부터 짧은 체인까지의 데이터셋을 구축하고 CoT-Valve에 대한 두 가지 향상된 전략을 탐구합니다: (1) 정확한 길이 압축 가능한 CoT 조정 방법 및 (2) 점진적인 체인 길이 압축 접근 방식. 실험 결과, CoT-Valve가 체인의 가용성과 압축성을 성공적으로 제어하며 프롬프트 기반 제어보다 더 나은 성능을 보여줍니다. 이 방법을 QwQ-32B-Preview에 적용하여, GSM8K에서 추론 체인을 741에서 225 토큰으로 줄이고(성능 하락은 95.07%에서 94.92%로 미미함), AIME에서는 6827에서 4629 토큰으로 줄여 오직 한 가지 오답만 추가했습니다.
다중 모달 임베딩 모델은 텍스트와 이미지와 같은 다른 모달에서 데이터를 통합된 표현 공간으로 매핑하는 능력으로 인해 상당한 관심을 받았습니다. 그러나 한정된 레이블이 지정된 다중 모달 데이터는 종종 임베딩 성능을 저하시킵니다. 최근에는 데이터 합성을 활용하여 이 문제를 해결하는 방법이 제시되었지만, 합성 데이터의 품질은 여전히 중요한 병목 현상입니다. 본 연구에서는 고품질의 합성 다중 모달 데이터를 위한 세 가지 기준을 도출합니다. 첫째, 넓은 범위는 생성된 데이터가 다양한 작업과 모달리티를 포함하여 다양한 하류 시나리오에 적용될 수 있도록 보장합니다. 둘째, 견고한 교모단 조정은 다른 모달리티가 의미론적으로 일관되도록 합니다. 셋째, 높은 충실도는 합성 데이터가 신뢰성을 향상시키기 위해 현실적인 세부 사항을 유지하도록 합니다. 이러한 원칙에 따라 우리는 다음과 같은 데이터셋을 합성합니다: (1) 다양한 작업, 모달리티 조합 및 언어를 포괄하는 데이터, (2) 다중 모달 대형 언어 모델의 단일 패스 내에서 심층적인 사고 과정을 통해 생성된 데이터, (3) 정확하고 관련된 텍스트로 실제 세계 이미지를 통합하여 충실성을 자가평가 및 개선을 통해 보장합니다. 이러한 고품질의 합성 및 레이블이 지정된 데이터셋을 활용하여 우리는 다중 모달 다국어 E5 모델 mmE5를 훈련시킵니다. 광범위한 실험 결과 mmE5가 MMEB 벤치마크에서 최첨단 성능을 달성하고 XTD 벤치마크에서 우수한 다국어 성능을 보여준다는 것을 입증합니다. 우리의 코드, 데이터셋 및 모델은 https://github.com/haon-chen/mmE5에서 공개되었습니다.
우리는 인간 참조로부터 민첩한 조작을 위한 일반화된 신경 추적 컨트롤러를 개발하는 도전에 대해 다룹니다. 이 컨트롤러는 민첩한 로봇 손을 관리하여 키네마틱 인간-물체 상호작용에 의해 정의된 다양한 목적을 위해 다양한 물체를 조작하는 것을 목표로 합니다. 이러한 컨트롤러를 개발하는 것은 민첩한 조작의 복잡한 접촉 역학과 적응성, 일반화 및 견고성의 필요로 어렵습니다. 현재의 강화 학습 및 궤적 최적화 방법은 종종 작업 특정 보상이나 정확한 시스템 모델에 의존하기 때문에 한계가 있습니다. 우리는 대규모로 성공한 로봇 추적 데모를 선별하여 인간 참조와 로봇 액션의 쌍으로 구성된 데이터를 사용하여 신경 컨트롤러를 훈련하는 방법을 소개합니다. 데이터 플라이휠을 활용하여 컨트롤러의 성능과 성공적인 추적 데모의 수와 품질을 반복적으로 향상시킵니다. 우리는 사용 가능한 추적 데모를 활용하고 강화 학습과 모방 학습을 신중하게 통합하여 동적 환경에서 컨트롤러의 성능을 향상시킵니다. 동시에 고품질 추적 데모를 얻기 위해 학습된 추적 컨트롤러를 활용하여 각 궤적 추적을 개별적으로 최적화하는 호모토피 최적화 방법을 활용합니다. 사고 연쇄를 모방하는 호모토피 최적화는 어려운 궤적 추적 문제를 해결하여 데모 다양성을 증가시키는 데 도움이 됩니다. 우리는 일반화된 신경 컨트롤러를 훈련하고 시뮬레이션과 실제 세계에서 그 성능을 평가하여 성공을 증명합니다. 우리의 방법은 선두 기준에 비해 성공률이 10% 이상 향상되었습니다. 애니메이션 결과가 포함된 프로젝트 웹사이트는 https://meowuu7.github.io/DexTrack/에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)에서의 수학적 추론은 종종 수치 범위가 제한된 벤치마크를 사용하여 평가되는데, 이는 다양한 규모에서의 실제 문제 해결을 반영하지 못하여 실패한다. 게다가, 대부분의 기존 평가 방법은 모델 출력을 정답과 비교하는 것만으로 추론 과정에 대한 통찰력을 흐리게 한다. 이러한 한계를 극복하기 위해, 우리는 GSM8K에서 유도된 데이터셋 생성기인 GSM-Ranges를 소개하여 수학 문제에서 수치 값을 체계적으로 왜곡하여 다양한 수치 범위에서 모델의 견고성을 평가한다. 게다가, 논리적 오류와 비논리적 오류를 구별하여 추론 과정을 보다 정확하게 평가하는 새로운 평가 방법론을 제안한다. 다양한 모델을 사용한 실험 결과, 수치 복잡성이 증가함에 따라 논리적 오류율이 최대 14%포인트까지 증가하는 것으로 나타나며, 분포 밖 수치 값에 대한 추론의 일반적인 약점을 보여준다. 게다가, 모델은 독립적인 산술 작업에서 높은 정확도를 보이지만, 계산이 단어 문제 안에 포함될 때 성능이 크게 저하된다. 이러한 결과는 LLMs의 수학적 추론 능력에 대한 포괄적인 평가를 제공하며, 언어 모델에서 수치 일반화를 개선하기 위한 미래 연구 방향에 대한 정보를 제공한다.
마법과 환상을 만들어내는 것은 영화 제작의 가장 흥미로운 측면 중 하나이며, 시각 효과 (VFX)는 잊을 수 없는 영화 경험을 뒷받침하는 핵심 요소입니다. 최근 발전한 생성적 인공지능 기술은 일반적인 이미지 및 비디오 합성 분야에서 진전을 이끌어내었지만, 조절 가능한 VFX 생성 영역은 비교적 미개척된 상태입니다. 본 연구에서는 사용자 친화적인 텍스트 설명과 정적 참조 이미지로부터 동적 효과를 생성하는 이미지 애니메이션으로서의 VFX 생성을 위한 새로운 패러다임을 제안합니다. 본 연구는 두 가지 주요 기여를 제공합니다: (i) 15가지 다양한 효과 범주를 포괄하는 고품질 VFX 비디오 데이터셋인 Open-VFX, 공간 조건부를 위한 텍스트 설명, 인스턴스 분할 마스크, 시간 제어를 위한 시작-종료 타임스탬프로 주석이 달린 데이터셋입니다. (ii) 비디오 확산 트랜스포머를 기반으로 한 간단하면서 효과적인 조절 가능한 VFX 생성 프레임워크인 VFX Creator입니다. 이 모델은 공간 및 시간 조절 가능한 LoRA 어댑터를 통합하며, 최소한의 훈련 비디오를 필요로 합니다. 특히, 플러그 앤 플레이 마스크 제어 모듈은 인스턴스 수준의 공간 조작을 가능하게 하며, 확산 프로세스에 포함된 토큰화된 시작-종료 모션 타임스탬프는 텍스트 인코더와 함께 효과의 타이밍과 속도에 대한 정확한 시간 제어를 허용합니다. Open-VFX 테스트 세트에서의 광범위한 실험은 제안된 시스템이 현실적이고 동적인 효과를 생성하는 데 우수함을 입증하며, 공간 및 시간 조절 가능성에서 최첨단 성능과 일반화 능력을 달성합니다. 더불어, 시간 제어의 정밀도를 평가하기 위한 전문 메트릭을 소개합니다. 전통적인 VFX 기술과 생성적 접근법을 연결함으로써, VFX Creator는 효율적이고 고품질의 비디오 효과 생성을 위한 새로운 가능성을 열어주어 고급 VFX를 보다 넓은 관객에게 접근 가능하게 합니다.
잠재 3D 재구성은 2D 특징을 3D 공간으로 증류하여 3D 의미 이해와 3D 생성을 강화하는 데 큰 가능성을 보여주었습니다. 그러나 기존 방법은 2D 특징 공간과 3D 표현 간의 도메인 갭으로 인해 렌더링 성능이 저하되는 어려움이 있습니다. 이러한 도전에 대처하기 위해 우리는 3D 인식을 2D 잠재 공간에 통합하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 세 가지 단계로 구성됩니다: (1) 2D 잠재 표현의 3D 일관성을 향상시키는 대응 인식 오토인코딩 방법, (2) 이러한 3D 인식 2D 표현을 3D 공간으로 변환하는 잠재 광도 필드(LRF), 그리고 (3) 렌더링된 2D 표현으로부터 이미지 디코딩을 개선하는 VAE-광도 필드(VAE-RF) 정렬 전략입니다. 광범위한 실험을 통해 우리의 방법이 다양한 실내 및 실외 장면에서 합성 성능과 교차 데이터셋 일반화 측면에서 최첨단 잠재 3D 재구성 방법을 능가한다는 것을 입증했습니다. 우리의 지식으로는, 이는 2D 잠재 표현에서 구성된 광도 필드 표현이 사실적인 3D 재구성 성능을 낼 수 있다는 것을 보여주는 최초의 작업입니다.
산업 이상 감지는 MVTec-AD 및 VisA와 같은 데이터셋 덕분에 진전을 이루고 있습니다. 그러나 결함 샘플 수, 결함 유형 및 실제 세계 장면의 가용성 측면에서 제한 사항이 있습니다. 이러한 제약으로 인해 연구자들은 산업 감지의 성능을 더 높은 정확도로 탐구하는 데 제약을 받습니다. 이에 우리는 실제 3C 생산 라인에서 파생된 새로운 대규모 이상 감지 데이터셋인 3CAD를 제안합니다. 구체적으로, 제안된 3CAD에는 총 27,039개의 고해상도 이미지가 포함되어 있으며 픽셀 수준의 이상이 라벨링되어 있는 여덟 가지 다른 유형의 제조 부품이 포함되어 있습니다. 3CAD의 주요 특징은 다양한 크기의 이상 영역, 여러 이상 유형 및 이상 이미지 당 여러 이상 영역 및 여러 이상 유형을 다룬다는 것입니다. 이는 커뮤니티 탐구 및 개발을 위한 3C 제품 품질 통제를 위한 최대 및 최초의 이상 감지 데이터셋입니다. 한편, 우리는 비지도 학습 이상 감지를 위한 간단하면서 효과적인 프레임워크인 Coarse-to-Fine 감지 패러다임과 회복 가이던스 (CFRG)를 소개합니다. 작은 결함 이상을 감지하기 위해 제안된 CFRG는 Coarse-to-Fine 감지 패러다임을 활용합니다. 구체적으로, 우리는 거친 위치 결정을 위해 이질적 증류 모델을 활용하고 그 후 세분화 모델을 통해 세밀한 위치 결정을 합니다. 또한 정상 패턴을 더 잘 포착하기 위해 회복 특징을 가이드로 소개합니다. 마지막으로, 우리의 CFRG 프레임워크와 인기 있는 이상 감지 방법의 결과를 3CAD 데이터셋에서 보고하여 강력한 경쟁력을 입증하고 이상 감지 분야의 발전을 촉진하기 위한 매우 도전적인 벤치마크를 제공합니다. 데이터와 코드는 다음에서 확인할 수 있습니다: https://github.com/EnquanYang2022/3CAD.