번역이 포함된 일일 선별된 AI 연구 논문
머신러닝 연구가 급속도로 성장하고 있음에도 불구하고, 해당 코드 구현체는 종종 공개되지 않아 연구자들이 결과를 재현하고 선행 연구를 기반으로 구축하는 데 시간과 노력이 많이 소요됩니다. 한편, 최근의 대규모 언어 모델(LLMs)은 과학 문서를 이해하고 고품질의 코드를 생성하는 데 탁월한 능력을 보여주고 있습니다. 이를 영감으로 삼아, 우리는 머신러닝 논문을 기능적인 코드 저장소로 변환하는 다중 에이전트 LLM 프레임워크인 PaperCoder를 소개합니다. PaperCoder는 세 단계로 작동합니다: 계획 단계에서는 상위 수준의 로드맵을 구성하고, 시스템 아키텍처를 다이어그램으로 설계하며, 파일 의존성을 식별하고 설정 파일을 생성합니다; 분석 단계에서는 구현 관련 세부 사항을 해석하는 데 초점을 맞춥니다; 생성 단계에서는 모듈화되고 의존성을 고려한 코드를 생성합니다. 또한, 각 단계는 파이프라인 전반에 걸쳐 효과적으로 협업하도록 설계된 전문 에이전트 세트를 통해 구현됩니다. 우리는 PaperCoder를 머신러닝 논문에서 코드 구현체를 생성하는 데 대해 모델 기반 및 인간 평가(특히 원본 논문 저자들로부터)를 통해 평가하며, 가능한 경우 저자가 공개한 저장소를 기준으로 삼습니다. 우리의 결과는 PaperCoder가 고품질이고 충실한 구현체를 생성하는 데 효과적임을 보여줍니다. 또한, 최근 출시된 PaperBench 벤치마크에서도 PaperCoder는 강력한 베이스라인을 상당한 차이로 능가하며 꾸준히 강점을 보여줍니다.
최근 몇 년 동안 이미지 편집 모델은 놀라울 정도로 빠른 발전을 이루어 왔습니다. GPT-4o와 Gemini2 Flash와 같은 최첨단 멀티모달 모델의 공개는 매우 유망한 이미지 편집 기능을 선보였습니다. 이러한 모델들은 사용자 주도의 편집 요구 사항을 충족시키는 데 있어 인상적인 능력을 보여주며, 이미지 조작 분야에서 중요한 진전을 이루었습니다. 그러나 오픈소스 알고리즘과 이러한 클로즈드소스 모델 간에는 여전히 큰 격차가 존재합니다. 따라서 본 논문에서는 GPT-4o 및 Gemini2 Flash와 같은 클로즈드소스 모델에 필적하는 성능을 제공할 수 있는 최첨단 이미지 편집 모델인 Step1X-Edit을 공개하고자 합니다. 보다 구체적으로, 우리는 멀티모달 LLM을 사용하여 참조 이미지와 사용자의 편집 지시를 처리합니다. 잠재 임베딩을 추출하고 이를 확산 이미지 디코더와 통합하여 목표 이미지를 얻습니다. 모델을 학습시키기 위해 고품질 데이터셋을 생성하는 데이터 생성 파이프라인을 구축했습니다. 평가를 위해 실제 사용자 지시를 기반으로 한 새로운 벤치마크인 GEdit-Bench를 개발했습니다. GEdit-Bench에서의 실험 결과는 Step1X-Edit이 기존의 오픈소스 베이스라인을 상당한 차이로 능가하며, 선도적인 독점 모델의 성능에 근접함을 보여줌으로써 이미지 편집 분야에 중요한 기여를 하고 있음을 입증합니다.
주체 기반 텍스트-이미지(T2I) 생성은 참조된 주체 이미지의 시각적 정체성을 유지하면서 주어진 텍스트 설명과 일치하는 이미지를 생성하는 것을 목표로 합니다. 이미지 생성에서의 개인화 강화부터 비디오 렌더링에서의 일관된 캐릭터 표현에 이르기까지 다양한 하위 분야에서 적용 가능성에도 불구하고, 이 분야의 발전은 신뢰할 수 있는 자동 평가 방법의 부재로 인해 제한받고 있습니다. 기존 방법들은 작업의 단일 측면(즉, 텍스트 정렬 또는 주체 보존)만 평가하거나, 인간의 판단과 일치하지 않거나, 비용이 많이 드는 API 기반 평가에 의존합니다. 이를 해결하기 위해, 우리는 텍스트 정렬과 주체 보존을 단일 예측에서 모두 평가하는 비용 효율적인 메트릭인 RefVNLI를 소개합니다. 비디오 추론 벤치마크와 이미지 변형에서 파생된 대규모 데이터셋으로 학습된 RefVNLI는 여러 벤치마크와 주체 카테고리(예: 동물, 물체)에서 기존 기준선을 능가하거나 동등한 성능을 보이며, 텍스트 정렬에서 최대 6.4포인트, 주체 일관성에서 8.5포인트의 향상을 달성했습니다. 또한 덜 알려진 개념에서도 우수한 성능을 보이며, 87% 이상의 정확도로 인간의 선호도와 일치합니다.
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP) 프레임워크는 특히 이미지-텍스트 검색 및 클러스터링에서 다중모달 표현 학습을 위한 널리 사용되는 접근법으로 자리 잡았습니다. 그러나 CLIP의 효율성은 세 가지 주요 한계에 의해 제약받고 있습니다: (1) 텍스트 토큰 단축, (2) 독립적인 이미지-텍스트 인코딩, 그리고 (3) 단어 집합(bag-of-words) 행동으로 인한 구성성 부족. 최근의 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 일반화된 시각-언어 이해에서 상당한 진전을 보여주었지만, 전이 가능한 다중모달 표현을 학습하는 데 있어 그 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 UniME(Universal Multimodal Embedding)라는 새로운 두 단계 프레임워크를 제안합니다. 이 프레임워크는 MLLMs를 활용하여 다양한 다운스트림 작업을 위한 판별적 표현을 학습합니다. 첫 번째 단계에서는 강력한 LLM 기반 교사 모델로부터 텍스트 판별 지식 증류를 수행하여 MLLM의 언어 구성 요소의 임베딩 능력을 강화합니다. 두 번째 단계에서는 판별적 표현 학습을 더욱 발전시키기 위해 하드 네거티브 강화 명령어 튜닝을 도입합니다. 구체적으로, 우리는 먼저 거짓 네거티브 오염을 완화한 후 각 배치 내에서 인스턴스당 여러 하드 네거티브를 샘플링하여 모델이 어려운 샘플에 집중하도록 합니다. 이 접근법은 판별력을 향상시킬 뿐만 아니라 다운스트림 작업에서 명령어 수행 능력도 강화합니다. 우리는 MMEB 벤치마크와 짧은 및 긴 캡션 검색, 구성적 검색을 포함한 여러 검색 작업에서 광범위한 실험을 수행했습니다. 결과는 UniME가 모든 작업에서 일관된 성능 향상을 달성하며, 우수한 판별 및 구성 능력을 보여줌을 입증합니다.
우리는 정신적 심상 시뮬레이션을 통해 시각-언어 모델(VLMs)에서의 관점 인식 추론을 위한 프레임워크를 제시한다. 관점 수용 능력, 즉 환경이나 상황을 대체적인 관점에서 인식하는 능력은 인간 수준의 시각적 이해를 위한 핵심 벤치마크로, 환경 상호작용 및 자율 에이전트와의 협업에 필수적이다. VLMs 내 공간 추론의 발전에도 불구하고, 최근 연구는 현대 VLMs이 관점 인식 추론 능력이 크게 부족하며 자기 중심적 해석에 강한 편향을 보인다는 것을 밝혔다. VLMs과 인간 인식 간의 격차를 해소하기 위해, 우리는 인간이 관점 전환을 용이하게 하는 추상적 표현을 통해 세계를 인식하는 정신적 심상의 역할에 주목한다. 이를 바탕으로, 우리는 객체 탐지, 분할, 방향 추정과 같은 시각 기반 모델을 효과적으로 활용하여 장면 추상화를 구성하고 관점 변환을 가능하게 하는 Abstract Perspective Change(APC)라는 관점 인식 추론 프레임워크를 제안한다. 합성 및 실제 이미지 벤치마크에서 다양한 VLMs과 비교한 실험 결과, 우리의 프레임워크가 관점 인식 추론에서 상당한 개선을 보였으며, 미세 조정된 공간 추론 모델 및 새로운 시점 합성 기반 접근법을 능가하는 성능을 입증하였다.
대규모 3D 데이터셋의 등장과 함께, Large Reconstruction Model(LRM)과 같은 피드포워드(feed-forward) 3D 생성 모델이 상당한 주목을 받으며 놀라운 성과를 거두고 있습니다. 그러나 우리는 RGB 이미지가 종종 상충되는 학습 목표를 초래하고, 기하학적 재구성을 위한 필요한 명확성을 제공하지 못한다는 점을 관찰했습니다. 본 논문에서는 메쉬 재구성과 관련된 귀납적 편향(inductive bias)을 재검토하고, 희소 뷰(sparse-view) 메쉬 재구성을 위한 새로운 분리형 이중 스트림(disentangled dual-stream) 피드포워드 모델인 DiMeR을 소개합니다. 핵심 아이디어는 입력과 프레임워크를 기하학적 부분과 텍스처 부분으로 분리하여, 오컴의 면도날 원리(Principle of Occam's Razor)에 따라 각 부분의 학습 난이도를 줄이는 것입니다. 노멀 맵(normal map)이 기하학적 구조와 엄격하게 일치하며 표면 변화를 정확하게 포착한다는 점을 고려하여, 우리는 기하학적 브랜치(geometry branch)의 입력으로 노멀 맵만을 사용하여 네트워크의 입력과 출력 간의 복잡성을 줄였습니다. 또한, 메쉬 추출 알고리즘을 개선하여 3D 실측값(ground truth) 지도를 도입했습니다. 텍스처 브랜치(texture branch)의 경우, RGB 이미지를 입력으로 사용하여 텍스처가 적용된 메쉬를 얻습니다. 전반적으로 DiMeR은 희소 뷰 재구성, 단일 이미지에서 3D로의 변환, 텍스트에서 3D로의 변환 등 다양한 작업에서 강력한 성능을 보여줍니다. 수많은 실험을 통해 DiMeR이 기존 방법들을 크게 능가하며, GSO 및 OmniObject3D 데이터셋에서 Chamfer Distance 기준 30% 이상의 성능 향상을 달성했음을 확인했습니다.
오토리그레시브(AR) 모델은 오랫동안 언어 생성 분야에서 주도적인 위치를 차지해 왔으며, 최근 이미지 합성에도 점점 더 많이 적용되고 있지만, 여전히 디퓨전 기반 모델에 비해 경쟁력이 떨어진다는 평가를 받고 있습니다. AR 모델의 주요 한계점은 상당히 많은 수의 이미지 토큰이 필요하다는 점으로, 이는 학습 및 추론 효율성과 이미지 해상도 모두를 제한합니다. 이를 해결하기 위해, 우리는 Transformer에서 이미지 토큰 수를 줄이는 간단하면서도 혁신적인 방법인 Token-Shuffle을 제안합니다. 우리의 핵심 통찰은 멀티모달 대형 언어 모델(MLLMs)에서 시각적 어휘의 차원적 중복성에 있습니다. 여기서 시각적 인코더에서 나온 저차원 시각적 코드가 고차원 언어 어휘에 직접 매핑됩니다. 이를 활용하여, 우리는 두 가지 주요 연산을 고려합니다: 채널 차원을 따라 공간적으로 인접한 토큰을 병합하여 입력 토큰 수를 줄이는 token-shuffle과, Transformer 블록 이후 추론된 토큰을 풀어 공간적 배열을 복원하는 token-unshuffle입니다. 텍스트 프롬프트와 함께 공동으로 학습함으로써, 우리의 전략은 추가적인 사전 학습된 텍스트 인코더 없이도 MLLMs가 효율적인 학습 및 추론을 유지하면서 통합된 다음 토큰 예측 방식으로 극도로 높은 해상도의 이미지 합성을 지원할 수 있게 합니다. 우리는 처음으로 AR 텍스트-이미지 생성의 한계를 2048x2048 해상도로 끌어올렸으며, 만족스러운 생성 성능을 보여줍니다. GenAI 벤치마크에서, 우리의 2.7B 모델은 어려운 프롬프트에서 0.77의 종합 점수를 달성하여, AR 모델 LlamaGen을 0.18, 디퓨전 모델 LDM을 0.15 앞섰습니다. 대규모 인간 평가에서도 텍스트 정렬, 시각적 결함, 시각적 외관 측면에서 우리의 뛰어난 이미지 생성 능력을 입증했습니다. 우리는 Token-Shuffle이 MLLMs 내에서 효율적인 고해상도 이미지 생성을 위한 기초적인 설계로 자리 잡기를 바랍니다.
품질과 다양성은 대규모 언어 모델(LLM)의 학습 데이터에 있어 두 가지 중요한 지표로, 모델 성능에 긍정적인 영향을 미칩니다. 기존 연구들은 주로 이러한 지표들을 개별적으로 최적화하는데, 일반적으로 먼저 품질 필터링을 적용한 후 데이터 비율을 조정하는 방식으로 접근합니다. 그러나 이러한 접근법은 품질과 다양성 간의 본질적인 상충 관계를 간과하며, 이 둘을 함께 고려할 필요가 있습니다. 고정된 학습 할당량이 주어졌을 때, 각 데이터 포인트의 품질과 전체 데이터셋에 대한 보완적 효과를 모두 평가하는 것이 중요합니다. 본 논문에서는 QuaDMix라는 통합 데이터 선택 프레임워크를 소개하며, 이는 품질과 다양성을 균형 있게 조절하면서 LLM 사전 학습을 위한 데이터 분포를 자동으로 최적화합니다. 구체적으로, 먼저 데이터 품질을 측정하기 위한 다중 기준을 제안하고, 도메인 분류를 통해 데이터 포인트를 구분함으로써 전반적인 다양성을 측정합니다. QuaDMix는 이러한 품질 및 다양성 관련 레이블을 기반으로 각 데이터 포인트의 샘플링 확률을 결정하는 통합 파라미터화된 데이터 샘플링 함수를 사용합니다. QuaDMix 프레임워크 내 최적 파라미터 탐색을 가속화하기 위해, 우리는 더 작은 모델에 대한 시뮬레이션 실험을 수행하고 RegMix 방법에서 영감을 받아 LightGBM을 사용하여 파라미터 탐색을 진행합니다. 다양한 모델과 데이터셋에 걸친 실험 결과, QuaDMix는 여러 벤치마크에서 평균 7.2%의 성능 향상을 달성했습니다. 이러한 결과는 품질과 다양성을 개별적으로 최적화하는 전략을 능가하며, 데이터 품질과 다양성의 균형을 맞추는 것의 필요성과 능력을 강조합니다.
비디오 트라이온(Video try-on)은 비디오 속 의상을 목표 의류로 대체하는 기술입니다. 기존 방법들은 복잡한 의상 패턴과 다양한 신체 자세를 다룰 때 고품질이고 시간적으로 일관된 결과를 생성하는 데 어려움을 겪습니다. 우리는 고화질이며 시간적으로 일관된 비디오 트라이온 결과를 생성하기 위한 새로운 확산 기반 프레임워크인 3DV-TON을 제시합니다. 우리의 접근 방식은 생성된 애니메이션 가능한 텍스처 3D 메시를 명시적인 프레임 레벨 가이드로 사용하여, 모델이 움직임 일관성을 희생하면서 외관 충실도에 지나치게 집중하는 문제를 완화합니다. 이는 비디오 시퀀스 전반에 걸쳐 일관된 의상 텍스처 움직임을 직접 참조할 수 있게 함으로써 달성됩니다. 제안된 방법은 동적 3D 가이드를 생성하기 위한 적응형 파이프라인을 특징으로 합니다: (1) 초기 2D 이미지 트라이온을 위한 키프레임을 선택한 후, (2) 원본 비디오 자세와 동기화된 텍스처 3D 메시를 재구성하고 애니메이션화합니다. 또한, 우리는 동적인 인간과 의상 움직임 동안 누출된 의상 정보로 인한 아티팩트 전파를 성공적으로 완화하는 강력한 직사각형 마스킹 전략을 도입했습니다. 비디오 트라이온 연구를 발전시키기 위해, 우리는 다양한 의상 유형과 시나리오를 포함한 130개의 고해상도 비디오로 구성된 HR-VVT 벤치마크 데이터셋을 소개합니다. 정량적 및 정성적 결과는 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 입증합니다. 프로젝트 페이지는 다음 링크에서 확인할 수 있습니다: https://2y7c3.github.io/3DV-TON/
단계별 검증기(Step-by-step verifiers) -- 프로세스 보상 모델(Process Reward Models, PRMs)이라고도 불림 -- 는 테스트 시점 스케일링의 핵심 요소입니다. PRMs는 단계별 감독(supervision)이 필요하기 때문에 훈련 비용이 많이 듭니다. 본 연구는 데이터 효율적인 PRMs를 구축하는 것을 목표로 하며, 이를 위해 검증 사고 연쇄(verification chain-of-thought, CoT)를 생성하여 솔루션의 각 단계를 검증하는 언어화된 단계별 보상 모델을 제안합니다. 우리는 ThinkPRM을 제안하는데, 이는 판별적 PRMs에 비해 훨씬 적은 프로세스 레이블로 미세 조정된 긴 CoT 검증기입니다. 우리의 접근 방식은 긴 CoT 모델의 내재적 추론 능력을 활용하며, PRM800K의 프로세스 레이블 중 단 1%만 사용하여 LLM-as-a-Judge와 판별적 검증기를 여러 도전적인 벤치마크에서 능가합니다. 특히, ThinkPRM은 ProcessBench, MATH-500, AIME '24에서 best-of-N 선택과 보안 가이드 검색(reward-guided search) 하에서 베이스라인을 능가합니다. GPQA-Diamond와 LiveCodeBench의 부분 집합에 대한 도메인 외 평가에서, 우리의 PRM은 전체 PRM800K로 훈련된 판별적 검증기를 각각 8%와 4.5% 앞섭니다. 마지막으로, 동일한 토큰 예산 하에서 ThinkPRM은 LLM-as-a-Judge에 비해 검증 계산을 더 효과적으로 확장하며, ProcessBench의 부분 집합에서 7.2% 더 우수한 성능을 보입니다. 우리의 연구는 훈련에 최소한의 감독만 필요하면서도 검증을 위한 테스트 시점 계산을 확장할 수 있는 생성적이고 긴 CoT PRMs의 가치를 강조합니다. 우리의 코드, 데이터, 모델은 https://github.com/mukhal/thinkprm에서 공개될 예정입니다.
잠재 확산 모델(LDMs)은 고품질 이미지 생성 분야를 주도하고 있지만, 표현 학습과 생성 모델링의 통합은 여전히 과제로 남아 있습니다. 우리는 변분 자동인코더(VAE)에서 얻은 저수준 이미지 잠재 표현과 DINO와 같은 사전 학습된 자기 지도 인코더에서 얻은 고수준 의미적 특성을 확산 모델을 통해 공동으로 모델링함으로써 이 간극을 자연스럽게 메우는 새로운 생성적 이미지 모델링 프레임워크를 제안합니다. 우리의 잠재-의미적 확산 접근법은 순수 노이즈로부터 일관된 이미지-특성 쌍을 생성하는 방법을 학습하여, 생성 품질과 학습 효율성을 크게 향상시키면서도 표준 Diffusion Transformer 아키텍처에 최소한의 수정만을 요구합니다. 복잡한 증류 목표를 제거함으로써, 우리의 통합 설계는 학습을 단순화하고 학습된 의미를 활용하여 이미지 생성을 조정하고 개선하는 강력한 새로운 추론 전략인 '표현 가이던스(Representation Guidance)'를 가능하게 합니다. 조건부 및 비조건부 설정 모두에서 평가된 우리의 방법은 이미지 품질과 학습 수렴 속도에서 상당한 개선을 보여주며, 표현 인식 생성 모델링을 위한 새로운 방향을 제시합니다.
우리는 시각-언어 모델(VLMs)의 계산 부담을 동적으로 줄이면서도 높은 작업 성능을 유지하는 효율적이고 학습이 필요 없는 프레임워크인 DyMU를 제안합니다. 우리의 접근 방식은 두 가지 주요 구성 요소로 이루어져 있습니다. 첫째, 동적 토큰 병합(DToMe)은 이미지 복잡도에 기반하여 유사한 토큰을 병합함으로써 시각 토큰 임베딩의 수를 줄여, 비전 트랜스포머의 고정 길이 출력에서 발생하는 본질적인 비효율성을 해결합니다. 둘째, 가상 토큰 병합 해제(VTU)는 전체 시퀀스의 어텐션 동역학을 효율적으로 재구성함으로써 대규모 언어 모델(LLMs)의 예상 토큰 시퀀스를 시뮬레이션하여, 추가적인 미세 조정 없이도 다운스트림 성능을 유지합니다. 기존 접근 방식과 달리, 우리의 방법은 이미지 내용에 따라 토큰 압축을 동적으로 조정하며 완전히 학습이 필요 없어, 대부분의 최신 VLM 아키텍처에 즉시 적용할 수 있습니다. 이미지 및 비디오 이해 작업에 대한 광범위한 실험을 통해 DyMU가 평균 시각 토큰 수를 32%-85% 줄이면서도 다양한 VLM 아키텍처(최근 인기를 끈 AnyRes 기반 시각 인코더 포함)에서 전체 길이 모델과 비슷한 성능을 달성할 수 있음을 입증했습니다. 또한, 정성적 분석을 통해 DToMe가 이미지 복잡도에 기반하여 토큰 감소를 효과적으로 조정하며, 기존 시스템과 달리 사용자가 계산 비용을 더 잘 제어할 수 있음을 보여줍니다. 프로젝트 페이지: https://mikewangwzhl.github.io/dymu/.
온라인 비디오 플랫폼, 특히 실시간 스트리밍 서비스의 급속한 성장은 실시간 비디오 이해 시스템에 대한 시급한 필요성을 만들어냈습니다. 이러한 시스템은 지속적인 비디오 스트림을 처리하고 사용자 쿼리에 즉각적으로 응답해야 하며, 이는 현재의 비디오 대형 언어 모델(VideoLLMs)에게 독특한 도전 과제를 제시합니다. 기존의 VideoLLMs는 완전한 비디오를 처리하는 데 뛰어나지만, 밀집되고 중복된 프레임을 효율적으로 처리하지 못해 스트리밍 시나리오에서 상당한 한계를 보입니다. 우리는 실시간 비디오 상호작용을 혁신하는 새로운 온라인 VideoLLM인 TimeChat-Online을 소개합니다. 이 모델의 핵심에는 스트리밍 비디오에서의 시각적 중복성이라는 근본적인 문제를 해결하는 혁신적인 차등 토큰 드롭(Differential Token Drop, DTD) 모듈이 있습니다. DTD는 인간의 시각적 인지에서의 변화 맹목(Change Blindness) 현상에서 영감을 받아, 프레임 간의 정적이고 중복된 내용을 필터링하면서 의미 있는 시간적 변화를 보존합니다. 놀랍게도, 우리의 실험은 DTD가 비디오 토큰을 82.8% 줄이면서도 StreamingBench에서 98%의 성능을 유지함을 보여주며, 이는 스트리밍 비디오에서 80% 이상의 시각적 내용이 언어적 지도 없이도 자연스럽게 중복됨을 나타냅니다. 원활한 실시간 상호작용을 가능하게 하기 위해, 우리는 역추적, 현재 인식, 미래 응답 시나리오를 포함한 다양한 상호작용 패턴을 특징으로 하는 TimeChat-Online-139K라는 포괄적인 스트리밍 비디오 데이터셋을 제시합니다. TimeChat-Online의 독특한 능동적 응답(Proactive Response) 기능은 DTD를 통해 비디오 장면 전환을 지속적으로 모니터링함으로써 자연스럽게 달성되며, 이는 기존의 접근 방식과 차별화됩니다. 우리의 광범위한 평가는 TimeChat-Online이 스트리밍 벤치마크(StreamingBench 및 OvOBench)에서 우수한 성능을 보이며, Video-MME 및 MLVU와 같은 장편 비디오 작업에서도 경쟁력 있는 결과를 유지함을 입증합니다.
대규모 언어 모델(LLM)을 포괄적으로 평가하는 것은 여전히 어려운 과제이며, 특히 고품질 데이터가 부족한 영어 이외의 언어에서는 더욱 그러합니다. 기존 벤치마크와 리더보드는 주로 영어 중심으로 구성되어 있으며, 다른 언어를 다루는 경우는 극소수에 불과합니다. 이러한 벤치마크는 몇 가지 주요 영역에서 부족함을 보입니다: 언어 다양성을 간과하고, 산업적 관련성이 높은 작업보다 기본적인 자연어 처리(NLP) 능력을 우선시하며, 정적(static)이라는 점입니다. 이러한 측면을 고려하여, 우리는 이베리아 반도와 이베로아메리카 전역에서 사용되는 언어들에 대해 기본적 및 산업적 관련성이 높은 NLP 작업에서의 LLM 성능을 평가하기 위해 포괄적이고 확장 가능한 벤치마크인 IberBench를 제안합니다. IberBench는 평가 캠페인과 최근 벤치마크에서 수집된 101개의 데이터셋을 통합하며, 감정 및 감정 분석, 유해성 탐지, 요약 등 22개의 작업 범주를 다룹니다. 이 벤치마크는 현재의 평가 관행에서 나타나는 주요 한계점, 예를 들어 언어 다양성의 부족과 정적 평가 설정 등을 해결하기 위해 지속적인 업데이트와 전문가 위원회가 관리하는 커뮤니티 주도의 모델 및 데이터셋 제출을 가능하게 합니다. 우리는 1억에서 140억 파라미터에 이르는 23개의 LLM을 평가하고, 그들의 강점과 한계에 대한 실증적 통찰을 제공합니다. 우리의 연구 결과는 (i) LLM이 기본 작업보다 산업적 관련성이 높은 작업에서 더 낮은 성능을 보인다는 점, (ii) 갈리시아어와 바스크어에서 평균적으로 성능이 더 낮다는 점, (iii) 일부 작업에서는 무작위 수준에 가까운 결과를 보인다는 점, (iv) 다른 작업에서는 무작위 수준보다는 높지만 공유 작업 시스템보다는 낮은 성능을 보인다는 점을 나타냅니다. IberBench는 데이터셋 정규화 및 호스팅, LLM의 증분 평가, 공개적으로 접근 가능한 리더보드를 포함한 전체 평가 파이프라인에 대한 오픈소스 구현을 제공합니다.
ViSMap: Unsupervised Video Summarisation by Meta Prompting을 소개합니다. 이 시스템은 감독 없이도 시간 단위의 긴 동영상을 요약할 수 있습니다. 대부분의 기존 동영상 이해 모델은 사전 분할된 짧은 이벤트 동영상에서는 잘 작동하지만, 관련 이벤트가 드물게 분포하고 사전 분할되지 않은 긴 동영상을 요약하는 데는 어려움을 겪습니다. 또한, 장편 동영상 이해는 종종 광범위한 주석이 필요한 지도 학습 기반의 계층적 훈련에 의존하는데, 이는 비용이 많이 들고 느릴 뿐만 아니라 일관성 유지가 어렵습니다. ViSMap은 짧은 동영상(주석 데이터가 풍부한 경우)과 긴 동영상(주석 데이터가 부족한 경우) 간의 격차를 해소합니다. 우리는 대형 언어 모델(LLM)을 활용하여 짧은 동영상의 세그먼트 설명을 기반으로 긴 동영상의 최적화된 가짜 요약을 생성합니다. 이러한 가짜 요약은 긴 동영상의 비용이 많이 드는 주석 없이도 장편 동영상 요약을 생성하는 모델의 훈련 데이터로 사용됩니다. 구체적으로, 우리는 메타 프롬프팅 전략을 채택하여 긴 동영상의 가짜 요약을 반복적으로 생성하고 개선합니다. 이 전략은 지도 학습된 짧은 동영상 모델에서 얻은 짧은 클립 설명을 활용하여 요약을 안내합니다. 각 반복은 세 개의 LLM이 순차적으로 작동합니다: 하나는 클립 설명에서 가짜 요약을 생성하고, 다른 하나는 이를 평가하며, 세 번째는 생성기의 프롬프트를 최적화합니다. 이 반복은 가짜 요약의 품질이 생성기 프롬프트에 크게 의존하며 동영상마다 크게 달라지기 때문에 필요합니다. 우리는 여러 데이터셋에서 요약 결과를 광범위하게 평가했으며, ViSMap이 완전히 지도 학습된 최첨단 모델과 비슷한 성능을 달성하면서도 성능 저하 없이 다양한 도메인에 일반화할 수 있음을 보여줍니다. 코드는 출판 시 공개될 예정입니다.
자기회귀적 패치 기반 이미지 생성은 최근 이미지 품질과 확장성 측면에서 경쟁력 있는 결과를 보여주고 있습니다. 또한 비전-언어 모델 내에서 쉽게 통합 및 확장될 수 있습니다. 그러나 자기회귀 모델은 패치 생성을 위해 정의된 순서가 필요합니다. 텍스트 생성의 경우 단어의 배열에 따른 자연스러운 순서가 있지만, 이미지 생성에는 본질적인 생성 순서가 존재하지 않습니다. 전통적으로, 래스터 스캔 순서(좌상단에서 우하단으로)가 자기회귀적 이미지 생성 모델을 안내해 왔습니다. 본 논문에서는 이러한 순서가 최적이 아니라고 주장합니다. 왜냐하면 이미지 내용의 인과 관계를 존중하지 못하기 때문입니다. 예를 들어, 일몰에 대한 시각적 설명을 조건으로 할 때, 자기회귀 모델은 구름을 태양보다 먼저 생성할 수 있는데, 사실 구름의 색상은 태양의 색상에 의존해야 하며 그 반대가 되어서는 안 됩니다. 본 연구에서는 먼저 임의의 순서로 패치를 생성하도록 모델을 훈련시켜 생성 과정에서 각 패치의 내용과 위치(순서)를 추론할 수 있음을 보여줍니다. 둘째, 이러한 추출된 순서를 사용하여 임의 순서 모델을 미세 조정하여 더 나은 품질의 이미지를 생성합니다. 실험을 통해 우리는 이 새로운 생성 방법이 기존의 래스터 스캔 접근법보다 더 나은 이미지를 생성하며, 유사한 훈련 비용과 추가 주석 없이도 가능함을 두 데이터셋에서 입증합니다.
대규모로 동적 인터넷 비디오에 카메라 포즈를 주석 처리하는 것은 사실적인 비디오 생성 및 시뮬레이션과 같은 분야의 발전에 매우 중요합니다. 그러나 이러한 데이터셋을 수집하는 것은 대부분의 인터넷 비디오가 포즈 추정에 적합하지 않기 때문에 어려운 작업입니다. 또한 동적 인터넷 비디오에 주석을 처리하는 것은 최첨단 방법들조차도 상당한 도전 과제를 제시합니다. 본 논문에서는 카메라 포즈가 주석 처리된 대규모 동적 인터넷 비디오 데이터셋인 DynPose-100K를 소개합니다. 우리의 수집 파이프라인은 작업 특화 모델과 일반 모델을 신중하게 결합하여 필터링을 수행합니다. 포즈 추정을 위해 최신 포인트 트래킹, 동적 마스킹, 구조적 모션 추정 기술을 결합하여 최첨단 접근법보다 개선된 성능을 달성했습니다. 우리의 분석과 실험은 DynPose-100K가 여러 주요 속성에서 대규모이면서도 다양성을 갖추고 있어 다양한 하위 애플리케이션의 발전을 위한 길을 열어줌을 보여줍니다.
차원 축소 기법은 고차원 데이터를 분석하고 시각화하는 데 있어 기본적인 도구입니다. t-SNE와 PCA와 같은 기존 방법들은 표현력과 해석 가능성 사이의 트레이드오프를 보여줍니다. 본 논문은 선형 방법의 해석 가능성과 비선형 변환의 표현력을 결합하여 이러한 간극을 메우는 새로운 접근 방식을 소개합니다. 제안된 알고리즘은 가우시안 함수로 가중치가 부여된 선형 변환들의 조합을 통해 고차원 공간과 저차원 공간 사이의 비선형 매핑을 구성합니다. 이 아키텍처는 각 변환을 독립적으로 분석할 수 있도록 함으로써 복잡한 비선형 변환을 가능하게 하면서도 선형 방법의 해석 가능성 이점을 유지합니다. 결과적으로 이 모델은 강력한 차원 축소와 변환된 공간에 대한 투명한 통찰력을 모두 제공합니다. 학습된 변환을 해석하기 위한 기법들도 제시되는데, 여기에는 억제된 차원을 식별하는 방법과 공간이 어떻게 확장되고 수축되는지에 대한 방법들이 포함됩니다. 이러한 도구들은 실무자가 차원 축소 과정에서 알고리즘이 기하학적 관계를 어떻게 보존하고 수정하는지 이해할 수 있게 해줍니다. 이 알고리즘의 실용적 유용성을 보장하기 위해, 학계와 산업계에서의 채용을 용이하게 하는 사용자 친화적인 소프트웨어 패키지 개발이 강조됩니다.