번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 기반 모델에 대한 장거리 컨텍스트 능력은 중요합니다. 우리는 장거리 비전-언어 모델을 위한 시스템, 모델 훈련 및 데이터셋 개발을 포함한 LongVILA라는 풀 스택 솔루션을 소개합니다. 시스템 측면에서는 장거리 훈련과 추론을 가능하게 하는 최초의 멀티모달 시퀀스 병렬성(MM-SP) 시스템을 소개합니다. 이를 통해 256개의 GPU에서 2백만 컨텍스트 길이 훈련이 가능합니다. MM-SP는 Ring-Style 시퀀스 병렬성보다 2.1배에서 5.7배, Megatron-LM보다 1.1배에서 1.4배 빠르며, Hugging Face Transformers와 원활하게 통합됩니다. 모델 훈련에 대해서는 정렬, 사전 훈련, 컨텍스트 확장, 그리고 장-단기 합동 지도 미세 조정으로 구성된 5단계 파이프라인을 제안합니다. 데이터셋 측면에서는 대규모 시각-언어 사전 훈련 데이터셋과 장거리 비디오 지시-추론 데이터셋을 세심하게 구축하여 다단계 훈련 과정을 지원합니다. 이 풀 스택 솔루션은 VILA의 가능한 프레임 수를 128배로 확장하고(8에서 1024프레임), 장거리 비디오 캡션 점수를 2.00에서 3.26(1.6배)로 향상시켜 1400프레임 비디오(274k 컨텍스트 길이)에서 99.5%의 정확도를 달성합니다. 또한 LongVILA-8B는 비디오 프레임이 증가함에 따라 VideoMME 벤치마크에서 장거리 비디오의 성능을 일관되게 향상시킵니다.
최근에는 오픈 월드 3D 재구성 모델이 상당한 관심을 받고 있습니다. 그러나 충분한 3D 내재적 편향이 없으면 기존 방법은 일반적으로 비용이 많이 들고 고품질 3D 메쉬를 추출하는 데 어려움을 겪습니다. 본 연구에서는 3D 원본 구조, 입력 안내 및 교육 감독을 명시적으로 활용하는 희소 뷰 재구성 모델인 MeshFormer를 소개합니다. 구체적으로, 삼면체 표현 대신 3D 희소 복셀에 특징을 저장하고 3D 컨볼루션과 트랜스포머를 결합하여 명시적 3D 구조와 투영 편향을 활용합니다. 희소 뷰 RGB 입력 외에도 네트워크가 입력을 받고 해당하는 법선 맵을 생성하도록 요구합니다. 입력 법선 맵은 2D 확산 모델에 의해 예측될 수 있으며, 이는 지오메트리 학습의 안내와 정제에 큰 도움이 됩니다. 또한, 서피스 렌더링과 Signed Distance Function (SDF) 감독을 결합함으로써, 복잡한 다단계 교육 과정이 필요하지 않고 고품질 메쉬를 직접 생성하는 방법을 배우게 됩니다. 이러한 명시적 3D 편향을 통합함으로써, MeshFormer는 효율적으로 교육을 받고 섬세한 기하학적 세부 사항이 담긴 고품질의 질감이 있는 메쉬를 제공할 수 있습니다. 또한, 2D 확산 모델과 통합하여 빠른 단일 이미지에서 3D 및 텍스트에서 3D 작업을 가능하게 할 수 있습니다. 프로젝트 페이지: https://meshformer3d.github.io
장면의 견고하고 정확한 분할은 다양한 시각 인식 및 내비게이션 작업에서 핵심 기능 중 하나가 되었습니다. 이는 최근 Segment Anything Model (SAM)의 개발을 영감으로 하여, 일반적인 마스크 분할을 위한 기본 모델로 발전시켰습니다. 그러나 SAM은 주로 단일 모달 RGB 이미지에 맞춰져 있어서, LiDAR 플러스 RGB, 깊이 플러스 RGB, 열 플러스 RGB 등과 같이 널리 사용되는 센서 스위트로 캡처된 다중 모달 데이터에는 적용 범위가 제한됩니다. 우리는 SAM의 확장 및 확장인 MM-SAM을 개발했습니다. 이는 다양한 센서 스위트를 사용하여 견고하고 향상된 분할을 지원하는 교차 모달 및 다중 모달 처리를 지원합니다. MM-SAM은 비지도 교차 모달 전송과 약간 지도된 다중 모달 퓨전이라는 두 가지 주요 디자인을 특징으로 하며, 다양한 센서 모달리티로의 레이블 효율적 및 매개변수 효율적 적응을 가능하게 합니다. 이는 세 가지 주요 도전 과제를 다룹니다: 1) 단일 모달 처리를 위한 다양한 비-RGB 센서로의 적응, 2) 센서 퓨전을 통한 다중 모달 데이터의 시너지적 처리, 그리고 3) 다양한 하향 작업을 위한 마스크 없는 훈련. 광범위한 실험 결과 MM-SAM이 다양한 센서 및 데이터 모달리티에 걸쳐 효과적이고 견고함을 입증하며, SAM을 큰 폭으로 앞선다는 것을 보여줍니다.
텍스트-비디오 (T2V) 생성은 비디오 생성, 편집, 향상 및 번역 등 다양한 응용 분야로 인해 상당한 관심을 받고 있습니다. 그러나 실제 세계에 존재하는 다양하고 복잡한 동작 때문에 고품질 (HQ) 비디오 합성은 매우 어려운 과제입니다. 대부분의 기존 연구는 커뮤니티에서 접근할 수 없는 대규모 HQ 비디오를 수집함으로써 이 문제를 해결하기 위해 노력하고 있습니다. 본 연구에서는 공개적으로 제공되는 제한적이고 저품질 (LQ) 데이터만으로도 다시 캡션화하거나 파인튜닝하지 않고도 HQ 비디오 생성기를 훈련시킬 수 있는 것을 보여줍니다. 전체 T2V 생성 과정을 이미지를 생성하는 단계와 생성된 이미지 및 동작 세부 사항의 간결한 캡션에 의존하여 비디오를 합성하는 단계로 분해합니다. 구체적으로, 우리는 Factorized-Dreamer를 제시합니다. 이는 텍스트 및 이미지 임베딩을 결합하는 어댑터, 픽셀 수준 이미지 정보를 캡처하는 픽셀-인식 교차 어텐션 모듈, 움직임 설명을 더 잘 이해하기 위한 T5 텍스트 인코더, 광학 흐름을 감독하기 위한 PredictNet을 포함한 T2V 생성을 위한 중요한 설계 요소를 갖춘 요소화된 시공간 프레임워크입니다. 또한 비디오 생성의 품질과 안정성을 보장하는 데 중요한 역할을 하는 노이즈 스케줄을 제시합니다. 우리의 모델은 상세한 캡션 및 HQ 비디오에 대한 요구 사항을 낮추며, WebVid-10M과 같은 잡음이 많고 간결한 캡션으로 제한된 LQ 데이터셋에서 직접 훈련시킬 수 있어 대규모 HQ 비디오-텍스트 쌍을 수집하는 비용을 크게 경감시킵니다. 다양한 T2V 및 이미지-비디오 생성 작업에서의 광범위한 실험은 우리가 제안한 Factorized-Dreamer의 효과를 입증합니다. 소스 코드는 https://github.com/yangxy/Factorized-Dreamer/에서 제공됩니다.
칩 디자인은 진리표와 같은 기능적 설명으로부터 AND-인버터 그래프 (AIGs)와 같은 부울 회로를 생성하는 데 크게 의존합니다. 최근 딥러닝의 발전은 회로 설계를 가속화하기 위해 노력해 왔지만, 이러한 노력은 주로 합성이 아닌 다른 작업에 초점을 맞추었으며, 전통적인 휴리스틱 방법은 정체되어 있습니다. 본 논문에서는 AIG의 구조적 특성을 활용하고 효율적인 공간 탐색을 수행하는 새로운 트랜스포머 기반 아키텍처인 ShortCircuit을 소개합니다. 딥 네트워크를 사용하여 논리 회로를 end-to-end로 생성하려는 이전 접근법과는 달리, ShortCircuit은 보강 학습을 통해 감독 및 강화 학습을 결합하는 이른바 이중 단계 과정을 활용하여 보이지 않는 진리표에 대한 일반화를 향상시킵니다. 우리는 또한 이중 지수적으로 큰 상태 공간과 보상의 희소성을 처리하기 위해 AlphaZero 변형을 제안하여 거의 최적의 설계를 발견할 수 있도록 합니다. 훈련된 모델의 생성 성능을 평가하기 위해 20개의 실제 회로로 구성된 벤치마크 세트에서 500개의 진리표를 추출합니다. ShortCircuit은 8개 입력 테스트 진리표의 84.6%에 대해 AIG를 성공적으로 생성하며, 회로 크기 측면에서 최첨단 논리 합성 도구인 ABC를 14.61% 능가합니다.
다양한 실제 응용 프로그램에 대해 실시간 고정확도 광학 흐름 추정은 중요합니다. 최근 학습 기반 광학 흐름 방법은 높은 정확도를 달성했지만 종종 상당한 계산 비용이 발생합니다. 본 논문에서는 높은 정확도와 줄어든 계산 요구 사항을 균형있게 유지하는 매우 효율적인 광학 흐름 방법을 제안합니다. NeuFlow v1을 기반으로 새로운 구성 요소를 소개하여 훨씬 가벼운 백본과 빠른 세부 조정 모듈을 포함합니다. 이 두 모듈은 계산 요구 사항을 가볍게 유지하면서 최첨단 정확도에 근접하는 데 도움이 됩니다. 다른 최첨단 방법과 비교하면, 저희 모델은 합성 및 실제 데이터 모두에서 비슷한 성능을 유지하면서 10배에서 70배의 가속을 달성합니다. Jetson Orin Nano에서 512x384 해상도 이미지에서 초당 20 프레임 이상으로 실행할 수 있습니다. 전체 교육 및 평가 코드는 https://github.com/neufieldrobotics/NeuFlow_v2에서 사용할 수 있습니다.
최근에는 오픈 월드 3D 생성이 상당한 관심을 끌었습니다. 많은 단일 이미지에서 3D로의 변환 방법이 시각적으로 매력적인 결과물을 도출했지만, 종종 충분한 조작 가능성이 부족하고 사용자의 기대와 일치하지 않을 수 있는 환상적인 영역을 생성하는 경향이 있습니다. 본 논문에서는 입력이 하나 또는 몇 개의 포즈되지 않은 2D 이미지로 이루어진 단일 객체의 경우를 탐구합니다. 우리는 SpaRP라는 새로운 방법을 제안하여 이러한 희소한 시점 이미지에 대한 3D 텍스처 매쉬를 재구성하고 상대적인 카메라 포즈를 추정합니다. SpaRP는 2D 확산 모델로부터 지식을 추출하고, 이를 사용하여 희소한 시점 사이의 3D 공간 관계를 암시적으로 추론합니다. 확산 모델은 카메라 포즈와 알려진 포즈 하에 객체의 다중 시점 이미지에 대한 대리 표현을 공동으로 예측하도록 훈련되며, 입력 희소한 시점에서 모든 정보를 통합합니다. 이러한 예측은 3D 재구성과 포즈 추정을 수행하고, 재구성된 3D 모델은 입력 뷰의 카메라 포즈를 더욱 세밀하게 조정하는 데 사용될 수 있습니다. 세 개의 데이터셋에서의 광범위한 실험을 통해, 우리의 방법이 3D 재구성 품질과 포즈 예측 정확도 측면에서 기준선 방법을 크게 능가하며 강력한 효율성을 나타내는 것을 입증합니다. 입력 뷰에 대한 텍스처 매쉬와 카메라 포즈를 생성하는 데 약 20초 정도만 소요됩니다. 프로젝트 페이지: https://chaoxu.xyz/sparp.
저자 신원의 정확한 귀속은 디지털 콘텐츠의 무결성을 유지하고 법의학적 조사를 개선하며 잘못된 정보와 표절의 위험을 완화하는 데 중요합니다. 적절한 저자 신원 귀속의 필수성에 대응하는 것은 신뢰성과 책임성을 유지하는 데 중요합니다. 대형 언어 모델(LLMs)의 급속한 발전으로 인간과 기계의 저자성 사이의 경계가 희미해져 전통적인 방법에 상당한 도전을 제기하고 있습니다. 우리는 LLM 시대의 저자 신원 귀속에 대한 최신 연구를 검토하는 포괄적인 문헌 고찰을 제시합니다. 이 조사는 네 가지 대표적인 문제를 범주화하여 이 분야의 풍경을 체계적으로 탐구합니다: (1) 인간 작성 텍스트 귀속; (2) LLM 생성 텍스트 감지; (3) LLM 생성 텍스트 귀속; 그리고 (4) 인간-LLM 공동 저자 텍스트 귀속. 또한 저자 신원 귀속 방법의 일반화와 설명 가능성을 보장하는 데 관련된 도전에 대해 논의합니다. 일반화는 다양한 도메인에 걸쳐 일반화할 수 있는 능력을 요구하며, 설명 가능성은 이러한 모델이 내린 결정에 대한 투명하고 이해하기 쉬운 통찰을 제공하는 것을 강조합니다. 기존 방법과 벤치마크의 장단점을 평가함으로써, 우리는 이 분야에서의 주요 개방 문제와 미래 연구 방향을 식별합니다. 이 문헌 고찰은 이 분야의 최신 동향을 이해하고자 하는 연구자와 실무자들을 위한 로드맵 역할을 합니다. 추가 자료 및 선별된 논문 목록은 https://llm-authorship.github.io에서 확인할 수 있으며 정기적으로 업데이트됩니다.
실제 세계 장면 이미지에 가상 객체를 올바르게 삽입하려면 장면의 조명, 기하 및 재질, 그리고 이미지 형성 과정에 대한 심층적인 이해가 필요합니다. 최근 대규모 확산 모델은 강력한 생성 및 보정 능력을 보여주었지만, 현재 모델은 단일 사진에 나타난 장면을 충분히 "이해"하지 못하여 일관된 조명 효과(그림자, 밝은 반사 등)를 생성하면서 합성된 객체의 신원과 세부 정보를 보존하지 못하는 것으로 판단됩니다. 우리는 물리 기반 역 렌더링 프로세스에 대한 개인화된 대규모 확산 모델을 안내로 사용하는 것을 제안합니다. 우리의 방법은 장면 조명 및 톤 매핑 매개변수를 복구하여 내부 또는 외부 장면의 단일 프레임 또는 비디오에 임의의 가상 객체를 사실적으로 합성할 수 있게 합니다. 물리 기반 파이프라인은 자동 재질 및 톤 매핑 세부 조정을 가능하게 합니다.
본 연구에서는 훈련이 필요 없는 경로 기반 제어 가능한 T2I 접근 방식인 TraDiffusion을 제안합니다. 이 혁신적인 방법을 통해 사용자는 마우스 경로를 통해 이미지 생성을 손쉽게 안내할 수 있습니다. 정밀한 제어를 위해 우리는 거리 인식 에너지 함수를 설계하여 잠재 변수를 효과적으로 안내하여 생성의 초점이 경로로 정의된 영역 내에 있도록 보장합니다. 이 에너지 함수에는 생성을 지정된 경로에 가깝게 그리는 제어 함수와 경로로부터 먼 영역의 활동을 줄이는 이동 함수가 포함되어 있습니다. COCO 데이터셋에서의 포괄적인 실험과 질적 평가를 통해 결과는 TraDiffusion이 더 간단하고 자연스러운 이미지 제어를 용이하게 하는 것을 보여줍니다. 더불어 생성된 이미지 내에서 현저한 영역, 속성 및 관계를 조작할 수 있는 능력을 보여주며 임의 또는 향상된 경로에 기반한 시각적 입력을 함께 제시합니다.
사이버보안을 위한 언어 모델(LM) 에이전트는 취약점을 자율적으로 식별하고 공격을 실행할 수 있는 능력을 갖추고 있어 현실 세계에 영향을 줄 수 있는 잠재력을 지니고 있습니다. 정책 결정자, 모델 제공업체, 그리고 인공지능 및 사이버보안 커뮤니티의 다른 연구자들은 이러한 에이전트의 능력을 양적으로 평가하여 사이버 리스크를 완화하고 침투 테스트의 기회를 조사하는 데 관심을 가지고 있습니다. 이를 위해 우리는 사이버보안 작업을 명시하고 에이전트를 그 작업에 대해 평가하는 프레임워크인 Cybench를 소개합니다. 우리는 4개의 다른 CTF 대회에서 선택된 최근이고 의미 있는 다양한 난이도를 가진 40개의 프로페셔널 수준의 Capture the Flag (CTF) 작업을 포함하였습니다. 각 작업에는 해당 작업의 설명, 시작 파일이 포함되어 있으며, 에이전트가 bash 명령을 실행하고 출력을 관찰할 수 있는 환경에서 초기화됩니다. 많은 작업이 기존 LM 에이전트의 능력을 벗어나기 때문에 우리는 작업을 중간 단계로 분해하여 보다 점진적으로 평가하기 위한 서브태스크를 소개합니다. 40개의 작업 중 17개에 대해 서브태스크를 추가하였습니다. 에이전트 능력을 평가하기 위해 우리는 사이버보안 에이전트를 구축하고 GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, 그리고 Llama 3.1 405B Instruct 등 7가지 모델을 평가하였습니다. 지도 없이, 에이전트들은 인간 팀이 최대 11분이 걸린 가장 쉬운 완전한 작업만 해결할 수 있었으며, Claude 3.5 Sonnet과 GPT-4o가 가장 높은 성공률을 보였습니다. 마지막으로, 서브태스크는 지도 없는 실행에 비해 성능 측정을 위한 더 많은 신호를 제공하며, 서브태스크 지도를 받은 완전한 작업에서 모델들은 서브태스크 지도 없이 수행한 작업보다 3.2% 더 높은 성공률을 달성하였습니다. 모든 코드와 데이터는 https://cybench.github.io에서 공개적으로 이용 가능합니다.