번역이 포함된 일일 선별된 AI 연구 논문
우리는 SlowFast-LLaVA(약칭 SF-LLaVA)를 제안합니다. 이는 일반적으로 사용되는 대형 언어 모델(LLM)의 토큰 예산을 초과하지 않으면서도 세밀한 공간 의미론과 장거리 시간적 맥락을 동시에 포착할 수 있는 학습이 필요 없는 비디오 대형 언어 모델(LLM)입니다. 이는 비디오 LLM을 위한 입력의 두 스트림 SlowFast 설계를 통해 샘플링된 비디오 프레임의 특징을 효과적으로 집계함으로써 실현됩니다. 구체적으로, Slow 경로는 낮은 프레임 속도로 특징을 추출하면서도 가능한 한 많은 공간 세부 정보를 유지하고(예: 24x24 토큰), Fast 경로는 높은 프레임 속도로 작동하지만 더 큰 공간 풀링 스트라이드를 사용하여(예: 6x 다운샘플링) 움직임 단서에 집중합니다. 결과적으로, 이 설계는 비디오를 따라 세부 사항을 이해하는 데 유익한 공간 및 시간적 특징을 모두 적절히 포착할 수 있게 합니다. 실험 결과는 SF-LLaVA가 다양한 비디오 작업에서 기존의 학습이 필요 없는 방법들을 능가함을 보여줍니다. 일부 벤치마크에서는 비디오 데이터셋에 미세 조정된 최첨단 비디오 LLM과 비교해 비슷하거나 더 나은 성능을 달성합니다.
다양한 배포 규모와 크기를 대상으로 하는 대형 언어 모델(LLM)은 현재 각 변형을 처음부터 훈련시켜 생산되고 있으며, 이는 매우 높은 계산 자원을 요구합니다. 본 논문에서는 기존 LLM을 가지치기(pruning)한 후 원래 훈련 데이터의 일부(<3%)로 재훈련하는 것이 반복적인 전체 재훈련에 대한 적절한 대안이 될 수 있는지 조사합니다. 이를 위해, 우리는 깊이, 너비, 어텐션 및 MLP 가지치기를 지식 증류(knowledge distillation) 기반 재훈련과 결합한 LLM 압축을 위한 실용적이고 효과적인 최적의 방법론을 개발했습니다. 우리는 각 축에 대한 가지치기 전략, 축을 결합하는 방법, 증류 전략, 그리고 최적의 압축 아키텍처를 도출하기 위한 탐색 기법에 대한 상세한 실험적 탐구를 통해 이러한 최적의 방법론을 도출했습니다. 이 가이드를 사용하여 Nemotron-4 LLM 패밀리를 2-4배 압축하고, 다양한 언어 모델링 작업에서 유사한 크기의 모델들과 성능을 비교했습니다. 이미 사전 훈련된 15B 모델에서 우리의 접근법을 사용하여 8B 및 4B 모델을 도출하는 것은 처음부터 훈련하는 것에 비해 모델당 최대 40배 적은 훈련 토큰을 필요로 하며, 이는 전체 모델 패밀리(15B, 8B, 4B)를 훈련하는 데 1.8배의 계산 비용 절감을 가져옵니다. Minitron 모델은 처음부터 훈련한 것에 비해 MMLU 점수에서 최대 16%의 성능 향상을 보이며, Mistral 7B, Gemma 7B, Llama-3 8B와 같은 다른 커뮤니티 모델들과 비슷한 성능을 보이고, 문헌에서 최신 압축 기술을 능가합니다. 우리는 Huggingface에 Minitron 모델 가중치를 오픈소스로 공개했으며, GitHub에는 예제 코드를 포함한 보조 자료를 제공합니다.
최신 파운데이션 모델의 방대한 규모는 과학자들의 접근성을 제한해 왔는데, 이는 대규모 모델 크기에서의 맞춤형 실험이 비용이 많이 드는 하드웨어와 복잡한 엔지니어링을 요구하기 때문에 대부분의 연구자들에게 비현실적이기 때문입니다. 이러한 문제를 완화하기 위해, 우리는 NNsight를 소개합니다. NNsight는 PyTorch 모델에 대한 어떠한 개입도 계산 그래프를 구축하여 표현할 수 있는 간단하고 유연한 API를 제공하는 오픈소스 Python 패키지입니다. 또한, 우리는 NNsight API를 통해 연구자들이 파운데이션 규모의 LLM에 접근할 수 있도록 지원하는 협업 연구 플랫폼인 NDIF를 소개합니다. 코드, 문서, 튜토리얼은 https://www.nnsight.net에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 지식 메커니즘을 이해하는 것은 신뢰할 수 있는 인공 일반 지능(AGI)으로 나아가기 위해 필수적입니다. 본 논문은 지식 활용과 진화를 포함한 새로운 분류 체계를 통해 지식 메커니즘 분석을 검토합니다. 지식 활용은 기억, 이해 및 적용, 창조의 메커니즘을 심층적으로 탐구합니다. 지식 진화는 개별 및 그룹 LLM 내에서 지식의 동적 진행에 초점을 맞춥니다. 또한, 우리는 LLM이 학습한 지식이 무엇인지, 파라미터적 지식의 취약성 원인, 그리고 해결하기 어려울 잠재적 암묵 지식(가설)에 대해 논의합니다. 이 연구가 LLM의 지식을 이해하고 향후 연구에 통찰을 제공하는 데 도움이 되기를 바랍니다.
대규모 멀티모달 모델(LMMs)은 일상 업무의 개인적 지원부터 의료 진단과 같은 정교한 애플리케이션에 이르기까지 다양한 분야에서 상당한 가능성을 보여주고 있습니다. 그러나 비디오 게임 도메인에서는 장면 이해, 환각, 그리고 특히 오픈소스 모델에서의 비디오 게임 콘텐츠에 대한 부정확한 설명과 같은 한계가 존재합니다. 본 논문은 비디오 게임 이미지 이해를 위해 특별히 설계된 Bunny 기반의 LLaVA 스타일 모델인 VideoGameBunny의 개발을 설명합니다. 우리는 중간 체크포인트, 학습 로그, 그리고 413개 타이틀에서 추출한 185,259개의 비디오 게임 이미지와 389,565개의 이미지-지시 쌍(이미지 캡션, 질문-답변 쌍, 그리고 136,974개 이미지의 16개 요소를 포함한 JSON 표현)으로 구성된 광범위한 데이터셋을 공개합니다. 우리의 실험 결과, 고품질의 게임 관련 데이터는 상대적으로 작은 모델이 훨씬 더 큰 최첨단 모델인 LLaVa-1.6-34b(파라미터 수가 4배 이상 많음)를 능가할 수 있는 잠재력을 가지고 있음을 보여줍니다. 본 연구는 플레이, 해설, 디버깅과 같은 비디오 게임 이해 작업에 대한 미래 연구의 길을 열어줍니다. 코드와 데이터는 https://videogamebunny.github.io/에서 확인할 수 있습니다.
다중 에이전트 강화 학습(MARL)은 최근 다양한 환경에서 주로 소수의 에이전트와 완전한 관측 가능성을 가진 협력적 및 경쟁적 다중 에이전트 문제를 해결하는 데 뛰어난 성과를 보여주고 있습니다. 또한, 다중 로봇 탐색 및 장애물 회피와 같은 로봇 공학 관련 핵심 작업들은 전통적으로 비학습적 방법(예: 휴리스틱 탐색)으로 접근되었으나, 현재는 학습 기반 또는 하이브리드 방법으로 해결하는 것이 제안되고 있습니다. 그러나 이 분야에서는 학습과 평가를 모두 지원하는 통합 프레임워크의 부재로 인해 전통적 방법, 학습 기반 방법, 그리고 하이브리드 방법 간의 공정한 비교를 수행하는 것이 어렵거나 거의 불가능합니다. 이를 위해 우리는 POGEMA를 소개합니다. POGEMA는 학습을 위한 빠른 환경, 문제 인스턴스 생성기, 사전 정의된 문제 컬렉션, 시각화 도구, 그리고 자동화된 평가를 가능하게 하는 벤치마킹 도구를 포함한 포괄적인 도구 세트입니다. 우리는 주요 평가 지표(예: 성공률 및 경로 길이)를 기반으로 계산되는 다양한 도메인 관련 메트릭을 정의하는 평가 프로토콜을 소개하고 명시하여 공정한 다각적 비교를 가능하게 합니다. 이러한 비교의 결과는 최신의 다양한 MARL, 탐색 기반, 그리고 하이브리드 방법을 포함하여 제시됩니다.
대규모 멀티모달 모델(LMMs)은 점점 더 길고 풍부한 입력을 처리하고 있습니다. 이러한 발전에도 불구하고, 이를 측정할 수 있는 공개 벤치마크는 거의 없는 실정입니다. 이러한 격차를 해소하기 위해, 우리는 최대 1시간 길이의 비디오-언어 인터리브 입력을 특징으로 하는 질의응답 벤치마크인 LongVideoBench을 소개합니다. 우리의 벤치마크는 다양한 주제에 걸친 3,763개의 다양한 길이의 웹 수집 비디오와 그 자막을 포함하며, 장기적인 멀티모달 이해에 대한 LMMs의 종합적인 평가를 위해 설계되었습니다. 이를 위해, 우리는 주요 도전 과제를 긴 입력에서 상세한 멀티모달 정보를 정확하게 검색하고 추론하는 것으로 해석합니다. 이에 따라, 우리는 참조 추론이라고 명명된 새로운 비디오 질의응답 과제를 공식화합니다. 구체적으로, 질문의 일부로 관련 비디오 컨텍스트를 참조하는 참조 쿼리가 포함되며, 이를 참조 컨텍스트라고 합니다. 모델은 이 참조 컨텍스트에서 관련 비디오 세부 사항을 추론해야 합니다. 참조 추론 패러다임을 따라, 우리는 17개의 세분화된 카테고리로 구성된 6,678개의 인간 주석 다중 선택 질문을 선별하여, 장편 비디오 이해를 위한 가장 포괄적인 벤치마크 중 하나를 확립했습니다. 평가 결과, LongVideoBench은 가장 진보된 독점 모델(예: GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo)에게도 상당한 도전을 제시하는 반면, 오픈소스 모델들은 더 큰 성능 격차를 보였습니다. 또한, 우리의 결과는 모델이 더 많은 프레임을 처리할 수 있을 때만 벤치마크에서의 성능이 향상됨을 나타내며, 이는 LongVideoBench을 차세대 장문맥 LMMs 평가를 위한 가치 있는 벤치마크로 위치시킵니다.
인간 피드백을 통한 강화 학습(RLHF)은 최첨단 대규모 언어 모델의 품질과 안전성을 향상시키는 핵심 동력입니다. 그러나 놀랍도록 간단하면서도 강력한 추론 시 전략으로는 N개의 후보 중 최적의 생성을 선택하는 Best-of-N 샘플링이 있습니다. 본 논문에서는 Best-of-N의 장점을 유지하면서도 추론 시 상당한 계산 비용을 줄이는 새로운 RLHF 알고리즘인 Best-of-N 증류(BOND)를 제안합니다. 구체적으로, BOND는 정책에서 생성된 분포가 Best-of-N 분포에 가까워지도록 강제하는 분포 매칭 알고리즘입니다. 우리는 모드 커버링과 모드 시킹 행동 사이의 균형을 맞추기 위해 제프리즈 발산(전방 및 후방 KL의 선형 조합)을 사용하고, 효율성을 위해 이동 앵커를 활용하는 반복적 공식을 도출했습니다. 요약 생성 및 Gemma 모델에 대한 실험을 통해 우리의 접근 방식과 여러 설계 선택의 효과를 입증했습니다. BOND를 사용하여 Gemma 정책을 정렬하면 여러 벤치마크에서 결과를 개선함으로써 다른 RLHF 알고리즘을 능가하는 성능을 보였습니다.
Neural Radiance Fields(NeRFs)는 뛰어난 품질을 보여주었지만, 긴 학습 시간은 여전히 한계로 남아 있습니다. 일반화 가능한 MVS(다중 시점 스테레오) 기반 NeRFs는 학습 시간을 단축할 수 있지만, 종종 품질 측면에서 타협을 요구합니다. 본 논문은 대규모 장면에서 MVS 기반 NeRFs의 렌더링 품질을 향상시키기 위한 새로운 접근 방식인 BoostMVSNeRFs를 제안합니다. 먼저, MVS 기반 NeRF 방법의 한계점, 예를 들어 제한된 시점 범위와 적은 입력 뷰로 인한 아티팩트 등을 식별합니다. 그런 다음, 볼륨 렌더링 과정에서 다중 비용 볼륨(cost volume)을 선택하고 결합하는 새로운 방법을 제안하여 이러한 한계를 해결합니다. 우리의 방법은 학습이 필요하지 않으며, 피드포워드 방식으로 모든 MVS 기반 NeRF 방법에 적용 가능하여 렌더링 품질을 개선할 수 있습니다. 또한, 이 접근법은 엔드투엔드 학습이 가능하여 특정 장면에 대한 미세 조정도 가능합니다. 대규모 데이터셋에 대한 실험을 통해 대규모 장면과 무한한 야외 시나리오에서 렌더링 품질이 크게 향상됨을 입증합니다. BoostMVSNeRFs의 소스 코드는 https://su-terry.github.io/BoostMVSNeRFs/에서 공개합니다.
디퓨전 모델은 노이즈 제거 과정에서 콘텐츠와 스타일 생성을 동시에 처리하기 때문에, 스타일화 작업에 직접 적용할 경우 원치 않는 콘텐츠 수정이 발생합니다. 기존 방법들은 디퓨전 모델을 효과적으로 제어하여 스타일화에 필요한 미적 수준의 요구사항을 충족시키는 데 어려움을 겪습니다. 본 논문에서는 사전 학습된 디퓨전 모델의 콘텐츠와 스타일 생성을 미적 관점에서 제어하는 학습이 필요 없는 접근 방식인 Artist를 소개합니다. 우리의 핵심 통찰은 콘텐츠와 스타일의 노이즈 제거를 별도의 디퓨전 프로세스로 분리하면서도 이들 간에 정보를 공유하는 것입니다. 우리는 스타일과 무관한 콘텐츠 생성을 억제하여 조화로운 스타일화 결과를 도출하는 간단하지만 효과적인 콘텐츠 및 스타일 제어 방법을 제안합니다. 광범위한 실험을 통해 우리의 방법이 미적 수준의 스타일화 요구사항을 충족시키고, 콘텐츠 이미지의 복잡한 세부 사항을 보존하며 스타일 프롬프트와 잘 조화를 이루는 데 탁월함을 입증했습니다. 또한, 다양한 관점에서 스타일화 강도를 높은 수준으로 제어할 수 있음을 보여줍니다. 코드는 공개될 예정이며, 프로젝트 홈페이지는 https://DiffusionArtist.github.io입니다.
이미지와 비디오와 같은 연속 변수에 대한 강력한 생성 패러다임으로 등장한 Flow Matching과 확산 모델(Diffusion Models)이 있음에도 불구하고, 언어와 같은 고차원 이산 데이터에 대한 이들의 적용은 여전히 제한적입니다. 본 연구에서는 이산 데이터 생성을 위해 특별히 설계된 새로운 이산 흐름 패러다임인 Discrete Flow Matching을 제안합니다. Discrete Flow Matching은 다음과 같은 주요 기여를 제공합니다: (i) 소스 분포와 타겟 분포 사이를 보간하는 일반적인 확률 경로 패밀리와 함께 작동합니다; (ii) 확률 디노이저(x-예측) 및 노이즈 예측(epsilon-예측)과 같은 학습된 사후 분포를 사용하여 이러한 확률 경로에서 샘플링하기 위한 일반적인 공식을 허용합니다; (iii) 실제로, 다양한 스케줄러로 정의된 특정 확률 경로에 초점을 맞추는 것이 기존의 이산 확산 및 흐름 모델에 비해 생성적 복잡도를 상당히 개선합니다; 그리고 (iv) Discrete Flow Matching 모델을 17억 개의 파라미터로 확장함으로써, HumanEval에서 6.7% Pass@1 및 13.4% Pass@10, 1-shot MBPP 코딩 벤치마크에서 6.7% Pass@1 및 20.6% Pass@10를 달성했습니다. 우리의 접근 방식은 비자기회귀(non-autoregressive) 방식으로 고품질의 이산 데이터를 생성할 수 있으며, 자기회귀 모델과 이산 흐름 모델 간의 격차를 크게 좁힙니다.
3D 장면 생성은 가상 현실, 게임, 영화 산업 등 다양한 분야에서 높은 수요를 보이고 있습니다. 텍스트-이미지 확산 모델의 강력한 생성 능력이 신뢰할 수 있는 사전 정보를 제공함에 따라, 텍스트 프롬프트만을 사용하여 3D 장면을 생성하는 것이 가능해졌으며, 이는 텍스트 기반 3D 장면 생성 연구를 크게 발전시켰습니다. 2D 확산 모델로부터 다중 뷰 감독을 얻기 위해, 일반적인 방법은 확산 모델을 사용하여 초기 로컬 이미지를 생성한 후, 확산 모델을 반복적으로 사용하여 로컬 이미지를 확장하여 점진적으로 장면을 생성합니다. 그러나 이러한 확장 기반 접근법은 전역적으로 일관되지 않은 장면 생성 결과를 생성하기 쉬우며 높은 완성도를 갖추지 못해, 더 넓은 적용을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 HoloDreamer를 소개합니다. 이 프레임워크는 먼저 전체 3D 장면의 전체적인 초기화로서 고해상도 파노라마를 생성한 후, 3D 가우시안 스플래팅(3D-GS)을 활용하여 빠르게 3D 장면을 재구성함으로써, 뷰 일관성과 완전히 폐쇄된 3D 장면의 생성을 용이하게 합니다. 구체적으로, 우리는 스타일화된 등거리 파노라마 생성을 제안합니다. 이 파이프라인은 여러 확산 모델을 결합하여 복잡한 텍스트 프롬프트로부터 스타일화되고 세부적인 등거리 파노라마 생성을 가능하게 합니다. 이후, 향상된 두 단계 파노라마 재구성이 도입되어, 3D-GS의 두 단계 최적화를 통해 누락된 영역을 보완하고 장면의 완전성을 강화합니다. 포괄적인 실험을 통해, 우리의 방법이 완전히 폐쇄된 장면을 생성할 때 전반적인 시각적 일관성과 조화, 재구성 품질 및 렌더링 견고성 측면에서 기존 작업들을 능가함을 입증했습니다.
범용 인공지능(AI) 시스템은 C4, RefinedWeb, Dolma와 같은 대규모 코퍼스로 구성된 방대한 양의 공개 웹 데이터를 기반으로 구축됩니다. 우리가 아는 한, 우리는 AI 훈련 코퍼스의 기반이 되는 웹 도메인에 대한 동의 프로토콜을 대상으로 최초의 대규모 종단적 감사를 수행했습니다. 14,000개 웹 도메인에 대한 이 감사는 크롤링 가능한 웹 데이터와 이를 사용하기 위한 동의 선호도가 시간이 지남에 따라 어떻게 변화하고 있는지에 대한 광범위한 시각을 제공합니다. 우리는 AI 사용을 제한하기 위한 AI 특정 조항의 확산, AI 개발자에 대한 제한의 심각한 차이, 그리고 웹사이트의 서비스 약관에 명시된 의도와 robots.txt 파일 간의 일반적인 불일치를 관찰했습니다. 우리는 이러한 현상을 인터넷의 AI 재사용에 대처하도록 설계되지 않은 비효율적인 웹 프로토콜의 증상으로 진단합니다. 우리의 종단적 분석은 단일 연도(2023-2024) 동안 웹 소스로부터의 데이터 제한이 급격히 증가하여 C4의 모든 토큰 중 약 5% 이상, 그리고 C4에서 가장 활발하게 유지되는 중요한 소스의 28% 이상이 완전히 사용 제한되었다는 것을 보여줍니다. 서비스 약관 크롤링 제한의 경우, C4의 전체 45%가 이제 제한을 받고 있습니다. 이러한 제한이 존중되거나 강제된다면, 범용 AI 시스템의 다양성, 최신성, 그리고 스케일링 법칙이 빠르게 편향될 것입니다. 우리는 상업적 AI뿐만 아니라 비상업적 AI 및 학술적 목적을 위한 개방형 웹의 상당 부분을 폐쇄하고 있는 데이터 동의의 새로운 위기를 설명하고자 합니다.
디퓨전 모델은 강력한 생성 능력 덕분에 이미지 애니메이션 분야에서 큰 진전을 이루었습니다. 그러나 시간이 지남에 따라 입력 정적 이미지의 스타일, 배경, 객체 등 세부 정보를 유지하며 시공간적 일관성을 유지하고, 텍스트 프롬프트에 의해 유도된 애니메이션 비디오 내러티브의 부드러움을 보장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 더 나은 모션 제어 가능성과 더 강력한 시간적 일관성 및 부드러움을 달성하기 위한 새로운 이미지 애니메이션 접근법인 Cinemo을 소개합니다. 일반적으로, 우리는 Cinemo의 학습 및 추론 단계에서 세 가지 효과적인 전략을 제안하여 목표를 달성합니다. 학습 단계에서 Cinemo은 모션 디퓨전 모델을 통해 후속 프레임을 직접 예측하는 대신 모션 잔차의 분포를 학습하는 데 중점을 둡니다. 또한, 구조적 유사성 지수 기반 전략을 제안하여 Cinemo이 모션 강도를 더 잘 제어할 수 있도록 합니다. 추론 단계에서는 이산 코사인 변환 기반의 노이즈 정제 기술을 도입하여 갑작스러운 모션 변화를 완화합니다. 이러한 세 가지 전략은 Cinemo이 매우 일관적이고 부드러우며 모션 제어가 가능한 결과를 생성할 수 있게 합니다. 기존 방법과 비교하여 Cinemo은 더 간단하고 정확한 사용자 제어 기능을 제공합니다. 여러 최신 방법(상용 도구 및 연구 접근법 포함)과의 광범위한 실험을 통해 다양한 메트릭에서 우리가 제안한 접근법의 효과성과 우수성을 입증합니다.
보상 기반 미세 조정은 언어 정책을 의도된 행동(예: 창의성과 안전성)과 일치시키는 데 중요합니다. 여기서 주요 과제는 여러 (상충하는) 목표를 유연하고 효율적으로 절충할 수 있는 조정 가능한 언어 모델을 개발하는 것입니다. 본 논문은 다중 목표에 대한 언어 모델 미세 조정을 위한 일반적인 프레임워크인 Conditioned Language Policy(CLP)를 제시합니다. 다중 작업 학습과 파라미터 효율적 미세 조정 기술을 기반으로, CLP는 추론 시 상충하는 목표를 효과적으로 절충할 수 있는 조정 가능한 모델을 학습할 수 있습니다. 특히, 이는 목표 간 다양한 절충을 달성하기 위해 여러 모델을 학습하거나 유지할 필요가 없습니다. 광범위한 실험과 제거 실험을 통해, CLP 프레임워크가 다중 목표 미세 조정을 위한 현재 최첨단 접근법을 능가하고 파레토 우위를 점하는 조정 가능한 모델을 학습한다는 것을 보여줍니다.
LLM(Large Language Model)의 강력한 성능을 기반으로, 최근 다양한 멀티모달 대형 언어 모델(MLLM)이 여러 벤치마크에서 다양한 시각-언어 작업에서 뛰어난 성과를 달성했습니다. 그러나 기존의 대부분의 MLLM과 벤치마크는 주로 단일 이미지 입력 시나리오에 초점을 맞추고 있어, 현실적인 다중 이미지를 처리할 때 MLLM의 성능은 아직 충분히 탐구되지 않은 상태입니다. 일부 벤치마크가 다중 이미지를 고려하긴 했지만, 그 평가 차원과 샘플은 매우 제한적입니다. 따라서 본 논문에서는 다중 이미지 시나리오에서 MLLM의 세밀한 능력을 종합적으로 평가하기 위해 새로운 벤치마크인 MIBench를 제안합니다. 구체적으로, MIBench는 다중 이미지 능력을 세 가지 시나리오로 분류합니다: 다중 이미지 지시(MII), 멀티모달 지식 탐색(MKS), 그리고 멀티모달 인컨텍스트 학습(MIC). 또한 13개의 작업과 총 13K의 주석이 달린 샘플을 구성했습니다. 데이터 구축 과정에서, MII와 MKS의 경우 수동 주석에서 정답 옵션을 추출하고 도전적인 오답 선택지를 만들어 다중 선택 질문을 얻었습니다. MIC의 경우, 심층 평가를 위해 네 가지 하위 작업을 설정하고 원본 데이터셋을 인컨텍스트 학습 형식으로 변환했습니다. 우리는 제안된 MIBench에서 여러 오픈소스 MLLM과 클로즈드소스 MLLM을 평가했습니다. 결과는 현재 모델들이 단일 이미지 작업에서는 뛰어나지만, 다중 이미지 입력에 직면했을 때 혼란스러운 세밀한 인지, 제한된 다중 이미지 추론, 그리고 불안정한 인컨텍스트 학습과 같은 상당한 단점을 보인다는 것을 보여줍니다. MIBench의 주석 데이터는 https://huggingface.co/datasets/StarBottle/MIBench에서 확인할 수 있습니다.
언어 모델(LM)을 기반으로 구축된 언어 에이전트는 개방형 웹과 같은 복잡한 환경과 상호작용할 수 있는 시스템입니다. 본 연구에서는 이러한 에이전트가 부동산 시장 모니터링이나 관련 근처 업체 찾기와 같이 현실적이고 시간이 소요되는 웹 작업을 수행할 수 있는지 검토합니다. 우리는 다양한 시나리오와 도메인을 아우르며 자동 평가가 가능한 214개의 현실적인 작업으로 구성된 새로운 벤치마크인 AssistantBench을 소개합니다. AssistantBench을 통해 현재 시스템, 즉 언어 모델과 검색 강화 언어 모델의 한계가 드러났는데, 어떤 모델도 25점 이상의 정확도를 달성하지 못했습니다. 폐쇄형 언어 모델은 성능이 우수하지만 사실을 허구적으로 만들어내는 경향이 있어 정밀도가 낮습니다. 최첨단 웹 에이전트는 거의 0점에 가까운 점수를 기록했습니다. 또한, 우리는 이전 에이전트들을 크게 능가하는 새로운 웹 에이전트인 SeePlanAct(SPA)를 소개하며, SPA와 폐쇄형 모델의 앙상블이 최고의 전반적인 성능을 달성함을 보여줍니다. 더 나아가, 현재 시스템의 실패 사례를 분석하며 웹 탐색이 여전히 주요 과제임을 강조합니다.
기존의 텍스트-음악 모델은 높은 품질과 다양한 음악을 생성할 수 있습니다. 그러나 텍스트 프롬프트만으로는 생성된 음악의 코드와 리듬과 같은 시간적 음악적 특징을 정밀하게 제어하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 사전 학습된 MusicGen 프레임워크를 기반으로 한 시간적 조건을 갖춘 Transformer 기반 텍스트-음악 모델인 MusiConGen을 소개합니다. 우리의 혁신은 소비자용 GPU에 맞춰진 효율적인 파인튜닝 메커니즘에 있으며, 이는 자동으로 추출된 리듬과 코드를 조건 신호로 통합합니다. 추론 과정에서 이 조건은 참조 오디오 신호에서 추출된 음악적 특징이거나, 사용자 정의 기호 코드 시퀀스, BPM, 텍스트 프롬프트가 될 수 있습니다. 추출된 특징과 사용자 생성 입력으로 구성된 두 데이터셋에 대한 성능 평가를 통해, MusiConGen이 지정된 조건과 잘 맞는 현실적인 백킹 트랙 음악을 생성할 수 있음을 입증했습니다. 우리는 코드와 모델 체크포인트를 오픈소스로 공개하고, 오디오 예제를 온라인에서 제공합니다. https://musicongen.github.io/musicongen_demo/
LocoTrack은 비디오 시퀀스에서 임의의 점을 추적(TAP)하는 작업을 위해 설계된 고정확도 및 고효율 모델입니다. 이전의 접근 방식들은 주로 쿼리 이미지의 한 점과 타겟 이미지의 지역적 영역 간의 대응 관계를 설정하기 위해 지역적 2D 상관 맵에 의존했는데, 이는 동질적인 영역이나 반복적인 특징에서 매칭 모호성이 발생하는 문제가 있었습니다. LocoTrack은 이러한 문제를 극복하기 위해 지역적 4D 상관, 즉 모든 영역 간의 전체 쌍 대응 관계를 활용하는 새로운 접근 방식을 도입했습니다. 이를 통해 양방향 대응 관계와 매칭 부드러움이 모호성에 대한 강건성을 크게 향상시켰습니다. 또한, 계산 효율성을 높이기 위해 경량화된 상관 인코더를 통합하고, 장기적인 시간 정보를 통합하기 위해 컴팩트한 Transformer 아키텍처를 사용했습니다. LocoTrack은 모든 TAP-Vid 벤치마크에서 뛰어난 정확도를 달성하며, 현재 최첨단 기술 대비 거의 6배 빠른 속도로 동작합니다.
레이아웃 생성은 지능형 디자인의 기초 작업으로, 시각적 미학과 콘텐츠 전달의 조화로운 표현을 통합해야 합니다. 그러나 기존 방법들은 정확하고 시각적으로 매력적인 레이아웃을 생성하는 데 있어 여전히 어려움을 겪고 있으며, 이는 블로킹, 겹침, 또는 레이아웃 간의 공간적 불일치와 같은 문제와 밀접하게 관련되어 있습니다. 이러한 문제는 그래픽 레이아웃의 공간적 구조와 깊은 연관이 있습니다. 우리는 이러한 방법들이 콘텐츠 정보에 지나치게 집중하고 레이아웃의 공간적 구조에 대한 제약이 부족하여, 콘텐츠 인지적 특성과 그래픽 인지적 특성의 학습 균형이 깨지는 것을 발견했습니다. 이 문제를 해결하기 위해, 우리는 Transformer 기반 확산 모델을 활용한 콘텐츠와 그래픽 균형 레이아웃 생성(CGB-DM)을 제안합니다. 구체적으로, 먼저 캔버스 상의 콘텐츠에 더 많은 주의를 기울이는 경향을 극복하기 위해 예측된 콘텐츠와 그래픽 가중치를 균형 있게 조절하는 조정기를 설계했습니다. 둘째, 레이아웃 표현과 이미지 간의 기하학적 특성 정렬을 더욱 강화하기 위해 주목 경계 상자의 그래픽 제약을 도입했습니다. 또한, 강력한 생성 능력을 보장하는 Transformer 기반 확산 모델을 백본으로 적응시켜 레이아웃 생성의 품질을 보장했습니다. 광범위한 실험 결과는 우리의 방법이 양적 및 질적 평가 모두에서 최신 기술을 달성했음을 보여줍니다. 우리의 모델 프레임워크는 다른 그래픽 디자인 분야로도 확장 가능합니다.
열화상 기술은 농업 모니터링부터 건물 검사, 그리고 저조도, 안개, 비와 같은 가시성이 낮은 환경에서의 이미징에 이르기까지 다양한 응용 분야를 가지고 있습니다. 그러나 장파장 적외선(LWIR) 이미지의 상대적으로 낮은 해상도와 제한된 특징으로 인해 3D 열화면 장면 재구성에는 여러 가지 어려움이 있습니다. 이러한 문제를 극복하기 위해, 우리는 LWIR과 RGB 이미지 세트로부터 장면을 재구성하기 위한 통합 프레임워크를 제안합니다. 이 프레임워크는 가시광선 및 적외선 카메라로 관찰된 장면을 표현하기 위해 다중 스펙트럼 복사 필드를 사용하여 두 스펙트럼 간의 정보를 활용합니다. RGB와 적외선 카메라를 서로에 대해 보정하는 전처리 단계로 간단한 보정 타겟을 사용합니다. 우리는 핸드헬드 열화상 카메라로 촬영한 실제 RGB 및 LWIR 사진 세트에 대해 이 방법을 시연하여, 가시광선 및 적외선 스펙트럼 전반에 걸친 장면 표현에서의 효과를 보여줍니다. 우리의 방법은 열화상 초해상도뿐만 아니라 RGB 또는 열화상 채널에서 가려진 물체를 시각적으로 제거하여 드러내는 능력도 가지고 있음을 보여줍니다. 비디오 결과와 코드, 데이터셋 릴리스는 https://yvette256.github.io/thermalnerf에서 확인할 수 있습니다.
우리는 데이터 기반 모션 전달을 가능하게 하는 새로운 표현 방식으로 시간적 잔차 야코비안(Temporal Residual Jacobians)을 소개한다. 우리의 접근 방식은 리깅(rigging)이나 중간 형태 키프레임에 대한 접근을 가정하지 않으면서도, 기하학적 및 시간적으로 일관된 모션을 생성하며, 긴 모션 시퀀스 전달에도 사용할 수 있다. 우리 접근 방식의 핵심은 각각 지역적 기하학적 변화와 시간적 변화를 예측하는 두 개의 결합된 신경망으로, 이들은 공간적 및 시간적으로 통합되어 최종 애니메이션 메시를 생성한다. 두 네트워크는 공동으로 훈련되며, 공간적 및 시간적 신호를 생성하는 데 서로 보완적 역할을 하며, 3D 위치 정보로 직접 지도 학습된다. 추론 과정에서 키프레임이 없는 경우, 우리의 방법은 본질적으로 모션 외삽 문제를 해결한다. 우리는 다양한 메시(합성 및 스캔된 형태)에 대해 실험을 진행하여, 보지 못한 신체 형태에 대해 현실적이고 자연스러운 애니메이션을 생성하는 데 있어 최신 기술(SoTA) 대안들에 비해 우수성을 입증한다. 보충 비디오와 코드는 https://temporaljacobians.github.io/에서 확인할 수 있다.
본 논문은 새로운 하드웨어 변경에 대해 재학습 없이 즉각적으로 적응할 수 있는 체화 인식 제어 정책을 학습하기 위한 모델 아키텍처 및 학습 절차인 GET-Zero를 소개합니다. 이를 위해, 우리는 체화 그래프 연결성을 어텐션 메커니즘에서 학습된 구조적 편향으로 활용하는 트랜스포머 모델인 Graph Embodiment Transformer(GET)를 제안합니다. 우리는 행동 복제를 사용하여 체화 특화 전문가 정책으로부터 얻은 시연 데이터를 로봇의 하드웨어 구성을 조건으로 하여 제어 결정을 내리는 체화 인식 GET 모델로 정제합니다. 우리는 관절이 제거되고 링크 길이가 연장된 4개의 손가락을 가진 로봇 손의 다양한 구성으로 정교한 손 내부 물체 회전 작업에 대한 사례 연구를 수행합니다. GET 모델과 자기 모델링 손실을 함께 사용하면 GET-Zero는 그래프 구조와 링크 길이의 보이지 않는 변형에 대해 제로샷 일반화가 가능하며, 이는 기준 방법 대비 20%의 성능 향상을 가져옵니다. 모든 코드와 질적 비디오 결과는 https://get-zero-paper.github.io에서 확인할 수 있습니다.
대규모 멀티모달 모델(Large Multimodal Models, LMMs)의 최근 발전은 단일 이미지 시각적 질의응답 분야에서 상당한 진전을 이루었습니다. 그러나 이러한 모델들은 대규모 이미지 컬렉션에 걸친 질의를 처리할 때, 실제 세계 시나리오(예: 대규모 사진 앨범 검색, 인터넷 전반의 특정 정보 찾기, 위성 이미지를 통한 환경 변화 모니터링 등)와 유사한 상황에서 상당한 어려움에 직면합니다. 본 논문은 다중 이미지 시각적 질의응답(Multi-Image Visual Question Answering, MIQA) 작업을 탐구합니다: 대규모 이미지 집합과 자연어 질의가 주어졌을 때, 관련성 있고 근거 있는 응답을 생성하는 작업입니다. 우리는 LMMs의 시각적 검색 및 관련 없는 이미지 집합에 대한 추론 능력을 평가하기 위해 특별히 설계된 새로운 공개 벤치마크인 "Visual Haystacks(VHs)"를 제안하며, 이를 통해 강력한 클로즈드소스 모델들도 상당히 어려움을 겪는다는 것을 포괄적으로 입증합니다. 이러한 단점을 해결하기 위해, 우리는 MIQA의 도전에 맞서며 기존 방법 대비 뚜렷한 효율성과 정확도 개선을 제공하는 LMMs를 위한 새로운 검색/질의응답 프레임워크인 MIRAGE(Multi-Image Retrieval Augmented Generation)를 소개합니다. 우리의 평가 결과, MIRAGE는 VHs 벤치마크에서 클로즈드소스 GPT-4o 모델을 최대 11% 능가하며, 텍스트 중심의 다단계 접근 방식 대비 최대 3.4배의 효율성 개선을 제공합니다.