번역이 포함된 일일 선별된 AI 연구 논문
이슈 해결 작업은 주어진 이슈를 해결하기 위해 코드베이스를 수정하고 패치를 생성하는 것을 목표로 합니다. 그러나 SWE-bench와 같은 기존 벤치마크는 거의 전적으로 Python에 초점을 맞추고 있어, 다양한 소프트웨어 생태계에서 대규모 언어 모델(LLMs)을 평가하기에는 부족합니다. 이를 해결하기 위해, 우리는 Java, TypeScript, JavaScript, Go, Rust, C, C++을 포함하는 다국어 이슈 해결 벤치마크인 Multi-SWE-bench를 소개합니다. 이 벤치마크는 총 1,632개의 고품질 인스턴스를 포함하며, 68명의 전문 어노테이터가 2,456개의 후보 중에서 신중하게 주석을 달아 정확하고 신뢰할 수 있는 평가를 제공할 수 있도록 했습니다. Multi-SWE-bench를 기반으로, 우리는 세 가지 대표적인 방법(Agentless, SWE-agent, OpenHands)을 사용하여 최신 모델들을 평가하고 주요 실증적 통찰을 포함한 포괄적인 분석을 제시합니다. 또한, 우리는 이슈 해결 작업을 위한 대규모 강화 학습(RL) 훈련 데이터셋을 구축하기 위한 목적으로 Multi-SWE-RL 오픈소스 커뮤니티를 출범시켰습니다. 초기 기여로, 우리는 7개 프로그래밍 언어에 걸친 4,723개의 잘 구조화된 인스턴스를 공개하여 이 분야의 RL 연구를 위한 견고한 기반을 마련했습니다. 더 중요한 것은, 우리는 전체 데이터 생산 파이프라인과 상세한 튜토리얼을 오픈소스로 공개하여, 오픈소스 커뮤니티가 지속적으로 기여하고 데이터셋을 확장할 수 있도록 장려합니다. 우리는 Multi-SWE-bench와 지속적으로 성장하는 Multi-SWE-RL 커뮤니티가 RL의 잠재력을 최대한 발휘하고, AGI(인공 일반 지능)의 새벽에 한 걸음 더 다가가는 데 촉매제가 되기를 기대합니다.
수학적 추론은 인간 지능의 초석이자 대규모 언어 모델(LLM)의 고급 능력을 평가하는 핵심 벤치마크입니다. 그러나 연구 커뮤니티는 여전히 수학 중심의 LLM 사전 학습 요구에 맞춘 공개적이고 대규모이며 고품질의 코퍼스가 부족한 실정입니다. 우리는 MegaMath를 제안합니다. 이는 다양한 수학 중심 소스에서 선별된 공개 데이터셋으로, 다음과 같은 방법론을 통해 구축되었습니다: (1) 웹 데이터 재검토: Common Crawl에서 수학 중심 HTML 최적화, fasttext 기반 필터링 및 중복 제거를 통해 인터넷 상의 고품질 데이터를 재추출했습니다. (2) 수학 관련 코드 데이터 재활용: 대규모 코드 학습 코퍼스인 Stack-V2에서 고품질 수학 관련 코드를 식별하여 데이터 다양성을 더욱 강화했습니다. (3) 합성 데이터 탐구: 웹 데이터 또는 코드 데이터로부터 QA 스타일 텍스트, 수학 관련 코드, 텍스트-코드 블록을 혼합하여 합성했습니다. 이러한 전략들을 통합하고 광범위한 제거 실험을 통해 효과를 검증함으로써, MegaMath는 기존 공개 수학 사전 학습 데이터셋 중 가장 많은 371B 토큰을 제공하며 최상의 품질을 자랑합니다.
대형 언어 모델(LLMs)은 다양한 에이전트 계획 작업에서 상당한 성능을 달성했습니다. 그러나 전통적인 에이전트 계획 접근법은 '홍수 관개' 방식으로, 금본위 궤적(gold trajectories), 외부 피드백, 도메인 지식을 에이전트 모델에 무차별적으로 주입합니다. 이러한 관행은 의사결정 과정에서 상황에 대한 자기 인식이라는 인간의 근본적인 인지 원리를 간과합니다. 이는 상황적 요구를 동적으로 평가하고 의사결정 과정에서 전략적으로 자원을 활용하는 능력을 말합니다. 이러한 격차를 해결하기 위해, 우리는 에이전트가 지식을 자율적으로 조절할 수 있도록 하는 새로운 패러다임인 '에이전트 지식 자기 인식(agentic knowledgeable self-awareness)'을 제안합니다. 구체적으로, 우리는 인간과 같이 지식 자기 인식을 갖춘 에이전트를 적용하는 데이터 중심 접근법인 KnowSelf를 제안합니다. 이를 위해, 우리는 에이전트의 자체 탐색 궤적에 특수 토큰을 표시하기 위한 휴리스틱 상황 판단 기준을 설계하여 훈련 데이터를 수집합니다. 두 단계의 훈련 과정을 통해, 에이전트 모델은 특정 특수 토큰을 생성하여 다양한 상황 간 전환을 가능하게 하고, 최소 비용으로 최적의 계획 효과를 달성합니다. 우리의 실험은 KnowSelf가 외부 지식을 최소한으로 사용하면서도 다양한 작업과 모델에서 강력한 베이스라인을 능가할 수 있음을 보여줍니다. 코드는 https://github.com/zjunlp/KnowSelf에서 확인할 수 있습니다.
본 연구에서는 기존 VARGPT 프레임워크를 기반으로 한 고급 통합 시각적 자기회귀 모델인 VARGPT-v1.1을 소개한다. 이 모델은 시각적 이해를 위한 다음 토큰 예측과 이미지 합성을 위한 다음 스케일 생성이라는 이중 패러다임을 유지한다. 구체적으로, VARGPT-v1.1은 다음과 같은 요소를 통합하였다: (1) 반복적 시각적 지시 튜닝과 Direct Preference Optimization(DPO)을 통한 강화 학습을 결합한 새로운 훈련 전략, (2) 830만 개의 시각-생성 지시 쌍을 포함한 확장된 훈련 코퍼스, (3) Qwen2를 사용한 업그레이드된 언어 모델 백본, (4) 향상된 이미지 생성 해상도, (5) 아키텍처 변경 없이 구현된 이미지 편집 기능. 이러한 개선 사항들은 VARGPT-v1.1이 다중모달 이해 및 텍스트-이미지 지시 수행 작업에서 최첨단 성능을 달성하도록 하여, 이해와 생성 지표 모두에서 상당한 향상을 보여준다. 특히, 시각적 지시 튜닝을 통해 이 모델은 이전 버전과의 아키텍처 일관성을 유지하면서 이미지 편집 기능을 획득하며, 통합된 시각적 이해, 생성, 편집의 잠재력을 보여준다. 우리의 연구 결과는 잘 설계된 통합 시각적 자기회귀 모델이 대형 언어 모델(LLM)의 유연한 훈련 전략을 효과적으로 채택할 수 있으며, 유망한 확장성을 보인다는 것을 시사한다. 코드베이스와 모델 가중치는 https://github.com/VARGPT-family/VARGPT-v1.1에서 공개되어 있다.
트랜스포머는 현대의 대규모 언어 모델의 핵심이지만, 이차원적 계산 복잡도로 인해 긴 시퀀스 처리에서 효율성이 제한됩니다. 선형 복잡도를 가진 상태 공간 모델(SSM)인 Mamba의 최근 발전은 효율성 향상을 약속하지만, 불안정한 문맥 학습과 다중 작업 일반화 문제를 겪고 있습니다. 본 논문은 공유 매개변수 행렬(예: QKV 및 CBx)을 통해 트랜스포머와 Mamba를 통합한 새로운 프레임워크인 TransMamba를 제안합니다. 이를 통해 다양한 토큰 길이와 레이어에서 주의 메커니즘과 SSM 메커니즘 사이를 동적으로 전환할 수 있습니다. 우리는 주의 출력을 SSM 호환 상태로 변환하여 변환이 발생하는 TransPoints에서 원활한 정보 흐름을 보장하는 Memory converter를 설계했습니다. 또한 TransPoint 스케줄링을 철저히 탐구하여 추가 개선을 이루었습니다. 광범위한 실험을 통해 TransMamba가 기준 모델 대비 우수한 학습 효율성과 성능을 달성함을 입증했으며, 트랜스포머와 Mamba 패러다임 간의 깊은 일관성을 검증함으로써 차세대 시퀀스 모델링을 위한 확장 가능한 솔루션을 제시합니다.
에이전트와 환경 간의 상호작용에서, 에이전트는 계획을 세우고 행동을 실행함으로써 자신의 능력을 확장합니다. 그러나 LLM 기반 에이전트는 새로운 환경에 배치되거나 비전통적인 행동 공간을 탐색해야 할 때 상당한 어려움에 직면합니다. 에이전트가 환경을 자율적으로 탐색하고, 워크플로를 최적화하며, 행동에 대한 이해를 강화할 수 있도록 하기 위해, 우리는 SynWorld라는 프레임워크를 제안합니다. 이 프레임워크는 에이전트가 행동 공간 내에서 다단계 행동 호출을 통해 가능한 시나리오를 합성하고, 현재 환경에서 행동 지식을 효과적으로 정제하기 위해 몬테카를로 트리 탐색(MCTS)을 수행할 수 있게 합니다. 우리의 실험 결과는 SynWorld가 새로운 환경에서 행동 지식을 학습하는 데 효과적이고 일반적인 접근 방식임을 보여줍니다. 코드는 https://github.com/zjunlp/SynWorld에서 확인할 수 있습니다.
파운데이션 모델로 구동되는 자율 에이전트는 다양한 실제 애플리케이션에서 널리 채택되고 있습니다. 그러나 이러한 에이전트들은 악의적인 지시와 공격에 매우 취약하며, 이는 개인정보 유출 및 금전적 손실과 같은 심각한 결과를 초래할 수 있습니다. 더욱 중요한 점은, 기존의 대형 언어 모델(LLM)을 위한 안전 장치들이 에이전트의 복잡하고 동적인 특성으로 인해 적용되지 않는다는 것입니다. 이러한 문제를 해결하기 위해, 우리는 논리적 추론을 통해 보호 대상 에이전트의 행동 궤적에 대한 명시적 안전 정책 준수를 강제하는 최초의 가드레일 에이전트인 ShieldAgent를 제안합니다. 구체적으로, ShieldAgent는 먼저 정책 문서에서 검증 가능한 규칙을 추출하여 이를 행동 기반의 확률적 규칙 회로로 구조화함으로써 안전 정책 모델을 구축합니다. 보호 대상 에이전트의 행동 궤적이 주어지면, ShieldAgent는 관련 규칙 회로를 검색하고, 포괄적인 도구 라이브러리와 실행 가능한 코드를 활용하여 형식 검증을 위한 차단 계획을 생성합니다. 또한, 에이전트를 위한 가드레일 벤치마크가 부족한 점을 고려하여, 우리는 6개의 웹 환경과 7개의 위험 범주에서 최신 공격 기법을 통해 수집된 3,000개의 안전 관련 에이전트 지시 및 행동 궤적 쌍으로 구성된 ShieldAgent-Bench 데이터셋을 소개합니다. 실험 결과, ShieldAgent는 ShieldAgent-Bench와 기존의 세 가지 벤치마크에서 최신 기술을 능가하며, 평균 11.3%의 성능 향상과 90.1%의 높은 재현율을 보여줍니다. 또한, ShieldAgent는 API 쿼리를 64.7% 줄이고 추론 시간을 58.2% 단축하여, 에이전트 보호에 있어 높은 정밀도와 효율성을 입증했습니다.
다중 턴 상호작용을 위한 효과적인 AI 에이전트를 훈련시키기 위해서는 현실적인 인간-에이전트 역학을 포착하는 고품질 데이터가 필요하지만, 이러한 데이터는 부족하고 수동으로 수집하기에는 비용이 많이 듭니다. 우리는 검증 가능하고 다양한 다중 턴 에이전트 데이터를 생성하는 2단계 프레임워크인 APIGen-MT를 소개합니다. 첫 번째 단계에서, 우리의 에이전트 파이프라인은 LLM 리뷰어 위원회와 반복적인 피드백 루프를 활용하여 실제 행동을 포함한 상세한 작업 청사진을 생성합니다. 이러한 청사진은 시뮬레이션된 인간-에이전트 상호작용을 통해 완전한 상호작용 궤적으로 변환됩니다. 우리는 1B에서 70B 파라미터 크기까지 다양한 xLAM-2-fc-r 시리즈 모델을 훈련시켰습니다. 우리의 모델은 tau-bench와 BFCL 벤치마크에서 GPT-4o 및 Claude 3.5와 같은 최첨단 모델을 능가하며, 특히 다중 턴 설정에서 더 작은 모델이 더 큰 모델을 앞서는 동시에 여러 시도에서 우수한 일관성을 유지합니다. 포괄적인 실험을 통해 검증된 청사진-세부사항 접근 방식이 고품질 훈련 데이터를 생성하여 더 신뢰할 수 있고 효율적이며 능력 있는 에이전트 개발을 가능하게 함을 입증했습니다. 우리는 수집된 합성 데이터와 훈련된 xLAM-2-fc-r 모델을 오픈소스로 공개하여 AI 에이전트 연구를 발전시키고자 합니다. 모델은 HuggingFace(https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4)에서 확인할 수 있으며, 프로젝트 웹사이트는 https://apigen-mt.github.io입니다.
기존의 MLLM(Multimodal Large Language Model) 벤치마크는 통합 MLLM(U-MLLM)을 평가하는 데 있어 다음과 같은 중대한 문제점에 직면해 있습니다: 1) 전통적인 작업에 대한 표준화된 벤치마크가 부족하여 일관성 없는 비교가 이루어지고, 2) 혼합 모달리티 생성에 대한 벤치마크가 없어 다중 모달리티 추론 능력을 평가할 수 없다는 점입니다. 우리는 이러한 문제를 해결하기 위해 U-MLLM을 체계적으로 평가할 수 있는 포괄적인 평가 프레임워크를 제시합니다. 우리의 벤치마크는 다음과 같은 세 가지 주요 요소로 구성됩니다: 1. 표준화된 전통 작업 평가. 10개 작업과 30개 하위 작업을 포함하는 12개 데이터셋에서 샘플링하여 연구 간 일관적이고 공정한 비교를 보장합니다. 2. 통합 작업 평가. 이미지 편집, 이미지 생성이 포함된 상식 QA, 기하학적 추론 등 다중 모달리티 추론을 테스트하는 5가지 새로운 작업을 도입합니다. 3. 포괄적인 모델 벤치마킹. Janus-Pro, EMU3, VILA-U, Gemini2-flash 등 12개의 주요 U-MLLM과 전문화된 이해 모델(예: Claude-3.5-Sonnet) 및 생성 모델(예: DALL-E-3)을 평가합니다. 우리의 연구 결과는 기존 U-MLLM들이 혼합 모달리티 작업을 효과적으로 처리할 수 있는 더 강력한 모델의 필요성을 강조하며, 이들 간의 상당한 성능 격차를 보여줍니다. 코드와 평가 데이터는 https://mme-unify.github.io/에서 확인할 수 있습니다.
단일 이미지 기반 인간 복원은 디지털 인간 모델링 애플리케이션에서 매우 중요하지만 여전히 극도로 어려운 과제로 남아 있습니다. 현재의 접근 방식은 생성 모델을 활용하여 다중 뷰 이미지를 합성한 후 3D 복원 및 애니메이션을 수행합니다. 그러나 단일 인간 이미지에서 직접 다중 뷰를 생성하는 경우 기하학적 불일치가 발생하여 복원된 모델에서 팔다리가 조각나거나 흐려지는 등의 문제가 발생합니다. 이러한 한계를 극복하기 위해, 우리는 HumanDreamer-X라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 다중 뷰 인간 생성과 복원을 통합된 파이프라인으로 통합하여 복원된 3D 모델의 기하학적 일관성과 시각적 충실도를 크게 향상시킵니다. 이 프레임워크에서 3D Gaussian Splatting은 명시적 3D 표현으로서 초기 기하학 및 외관 우선순위를 제공합니다. 이를 기반으로 HumanFixer는 3DGS 렌더링을 복원하도록 훈련되어 사실적인 결과를 보장합니다. 또한, 우리는 다중 뷰 인간 생성에서 주의 메커니즘과 관련된 내재적 문제를 깊이 있게 탐구하고, 기하학적 세부 사항과 다중 뷰 간의 일관성을 효과적으로 향상시키는 주의 조정 전략을 제안합니다. 실험 결과는 우리의 접근 방식이 생성 및 복원 PSNR 품질 지표를 각각 16.45%와 12.65% 향상시켜 최대 25.62 dB의 PSNR을 달성함을 보여주며, 실제 데이터에 대한 일반화 능력과 다양한 인간 복원 백본 모델에 대한 적용 가능성도 입증합니다.
본 논문은 인간의 신체 부위가 포함된 이미지나 비디오의 조명을 제어하고 조화시킬 수 있는 최초의 올인원 접근법인 Comprehensive Relighting을 소개합니다. 이러한 일반화 가능한 모델을 구축하는 것은 데이터셋의 부족으로 인해 매우 어려운 과제이며, 이로 인해 기존의 이미지 기반 재조명 모델들은 특정 시나리오(예: 얼굴 또는 정적인 인간)에 국한되어 있었습니다. 이러한 문제를 해결하기 위해, 우리는 사전 훈련된 확산 모델을 일반 이미지 사전 지식으로 재활용하고, 인간 재조명과 배경 조화를 coarse-to-fine 프레임워크에서 공동으로 모델링합니다. 재조명의 시간적 일관성을 더욱 향상시키기 위해, 우리는 실제 비디오에서 조명 주기 일관성을 학습하는 비지도 시간적 조명 모델을 도입합니다. 추론 단계에서, 우리의 시간적 조명 모듈은 추가 훈련 없이 시공간적 특징 혼합 알고리즘을 통해 확산 모델과 결합되며, 입력 이미지의 고주파 세부 정보를 보존하기 위한 새로운 가이드된 정제를 후처리로 적용합니다. 실험에서 Comprehensive Relighting은 강력한 일반화 능력과 조명의 시간적 일관성을 보여주며, 기존의 이미지 기반 인간 재조명 및 조화 방법들을 능가하는 성능을 보여줍니다.
의료 영상 및 비디오 분할은 정밀의학을 위한 중요한 과제로, 2D 이미지에 대한 특정 작업 또는 모달리티 전용 모델과 일반 모델 개발에서 상당한 진전을 이루어 왔습니다. 그러나 3D 이미지와 비디오를 위한 일반 목적 모델을 구축하고 이를 포괄적인 사용자 연구와 함께 진행한 연구는 제한적이었습니다. 본 연구에서는 3D 이미지 및 비디오 분할을 위한 프롬프트 가능한 분할 기반 모델인 MedSAM2를 소개합니다. 이 모델은 455,000개 이상의 3D 이미지-마스크 쌍과 76,000개 이상의 프레임으로 구성된 대규모 의료 데이터셋에 Segment Anything Model 2를 미세 조정하여 개발되었으며, 다양한 장기, 병변 및 영상 모달리티에서 이전 모델들을 능가하는 성능을 보여줍니다. 또한, 대규모 데이터셋 생성을 용이하게 하기 위해 인간 참여형 파이프라인을 구현하여, 현재까지 가장 광범위한 사용자 연구를 진행했습니다. 이 연구에서는 5,000개의 CT 병변, 3,984개의 간 MRI 병변, 그리고 251,550개의 심초음파 비디오 프레임에 대한 주석 작업을 포함하여, MedSAM2가 수작업 비용을 85% 이상 절감할 수 있음을 입증했습니다. MedSAM2는 또한 사용자 친화적인 인터페이스를 갖춘 널리 사용되는 플랫폼에 통합되어 로컬 및 클라우드 배포가 가능하도록 설계되어, 연구 및 의료 환경에서 효율적이고 확장 가능하며 고품질의 분할을 지원하는 실용적인 도구로 자리 잡았습니다.
제한된 컴퓨팅 예산 하에서 시간적 해상도와 공간적 세부 사항 간의 균형을 맞추는 것은 비디오 기반 다중 모달 대형 언어 모델(MLLMs)의 주요 과제로 남아 있습니다. 기존 방법들은 일반적으로 LLM에 입력하기 전에 미리 정의된 규칙을 사용하여 비디오 표현을 압축함으로써 되돌릴 수 없는 정보 손실을 초래하고 종종 입력 지시를 무시하는 문제가 있었습니다. 이를 해결하기 위해, 우리는 이러한 절충을 자연스럽게 피할 수 있는 새로운 슬로우-패스트(slow-fast) 아키텍처를 제안합니다. 이는 더 많은 입력 프레임을 사용하면서도 공간적 세부 사항을 보존할 수 있게 합니다. 인간이 비디오를 먼저 훑어본 후 관련 부분에 집중하는 방식에서 영감을 받아, 우리의 슬로우-패스트 설계는 이중 토큰 전략을 사용합니다: 1) "패스트" 시각적 토큰 -- 압축된 비디오 특징의 간결한 집합 -- 은 텍스트 임베딩과 함께 LLM에 입력되어 빠른 개요를 제공합니다; 2) "슬로우" 시각적 토큰 -- 압축되지 않은 비디오 특징 -- 은 특별히 설계된 하이브리드 디코더 레이어를 통해 텍스트 임베딩에 의해 교차 주의(cross-attended)되며, 선형 복잡도로 관련 시각적 세부 사항을 지시에 맞게 추출할 수 있게 합니다. 우리는 전체 아키텍처와 핵심 구성 요소를 최적화하기 위해 체계적인 탐색을 수행했습니다. 실험 결과, 우리의 모델은 셀프 어텐션만 사용한 베이스라인을 크게 능가하며, 입력 용량을 16프레임에서 128프레임으로 확장하면서도 단 3%의 계산 증가만을 보였고, 다섯 가지 비디오 이해 벤치마크에서 평균 16%의 성능 향상을 달성했습니다. 우리의 7B 모델은 유사한 크기의 모델들 중에서 최첨단 성능을 보여주었습니다. 또한, 우리의 슬로우-패스트 아키텍처는 플러그 앤 플레이(plug-and-play) 설계로, 다른 비디오 MLLMs에 통합되어 효율성과 확장성을 개선할 수 있습니다.
본 연구에서는 대규모 언어 모델(LLMs)의 편향성, 윤리성, 공정성 및 사실성을 평가하기 위한 새로운 프레임워크인 BEATS를 소개합니다. BEATS 프레임워크를 기반으로, 우리는 29개의 독립적인 지표를 통해 LLM의 성능을 측정하는 편향성 벤치마크를 제시합니다. 이러한 지표는 인구통계학적, 인지적, 사회적 편향성뿐만 아니라 윤리적 추론, 집단 공정성, 그리고 사실성과 관련된 오정보 위험 측정 등 다양한 특성을 포괄합니다. 이러한 지표들은 LLM이 생성한 응답이 체계적 불평등을 강화하거나 확장할 수 있는 사회적 편견을 어느 정도 반영하는지에 대한 정량적 평가를 가능하게 합니다. 이 벤치마크에서 높은 점수를 얻기 위해서는 LLM이 응답에서 매우 공정한 행동을 보여야 하며, 이는 책임 있는 AI 평가를 위한 엄격한 기준이 됩니다. 우리의 실험 데이터를 기반으로 한 경험적 결과에 따르면, 업계를 선도하는 모델들이 생성한 출력의 37.65%가 어떤 형태의 편향성을 포함하고 있어, 이러한 모델들을 중요한 의사결정 시스템에 사용할 때 상당한 위험이 있음을 보여줍니다. BEATS 프레임워크와 벤치마크는 LLM을 벤치마킹하고, 편향성을 유발하는 요인을 진단하며, 완화 전략을 개발하기 위한 확장 가능하고 통계적으로 엄격한 방법론을 제공합니다. BEATS 프레임워크를 통해, 우리는 더 사회적으로 책임감 있고 윤리적으로 정렬된 AI 모델 개발을 돕는 것을 목표로 합니다.
음파가 물체에 부딪히면 진동을 유발하며, 이는 고주파 및 미세한 시각적 변화를 생성하여 소리를 복원하는 데 사용될 수 있습니다. 초기 연구에서는 항상 샘플링 속도, 대역폭, 시야각, 그리고 광학 경로의 단순성과 관련된 트레이드오프에 직면했습니다. 최근 이벤트 카메라 하드웨어의 발전은 고주파 신호를 포착하는 뛰어난 능력 덕분에 시각적 소리 복원 분야에서 좋은 잠재력을 보여주고 있습니다. 그러나 기존의 이벤트 기반 진동 복원 방법은 여전히 소리 복원에 있어 최적화되지 못했습니다. 본 연구에서는 이벤트 스트림에서 공간-시간 정보를 완전히 활용하여 비접촉식 소리 복원을 위한 새로운 파이프라인을 제안합니다. 먼저, 새로운 시뮬레이션 파이프라인을 사용하여 대규모 훈련 데이터 세트를 생성합니다. 그런 다음, 이벤트의 희소성을 활용하여 공간 정보를 포착하고 Mamba를 사용하여 장기적인 시간 정보를 모델링하는 네트워크를 설계했습니다. 마지막으로, 신호 품질을 더욱 개선하기 위해 서로 다른 위치에서 정보를 집계하는 공간 집계 블록을 훈련시켰습니다. 음파에 의해 발생하는 이벤트 신호를 포착하기 위해, 그라디언트를 강화하기 위해 레이저 매트릭스를 사용한 이미징 시스템을 설계하고, 테스트를 위해 여러 데이터 시퀀스를 수집했습니다. 합성 데이터와 실제 데이터에 대한 실험 결과는 우리의 방법의 효과를 입증합니다.
최근 행동 복제(behavior cloning) 기술의 발전으로 로봇이 복잡한 조작 작업을 수행할 수 있게 되었습니다. 그러나 실제 작업 성공률과 행동 복제 손실 간의 상관관계가 약하기 때문에, 특히 실세계 응용 분야에서 훈련 성능을 정확히 평가하는 것은 여전히 어려운 과제입니다. 이로 인해 연구자들은 비용이 많이 들고 시간이 소요되는 실세계 평가에서 도출된 성공률 지표에 의존하게 되며, 이는 최적의 정책을 식별하거나 과적합(overfitting) 및 과소적합(underfitting)을 탐지하는 것을 비현실적으로 만듭니다. 이러한 문제를 해결하기 위해, 우리는 실세계와 시뮬레이션을 통합한 새로운 행동 복제 프레임워크인 real-is-sim을 제안합니다. 이 프레임워크는 정책 개발 파이프라인(데이터 수집, 훈련, 배포) 전반에 걸쳐 동적 디지털 트윈(dynamic digital twin, Embodied Gaussians 기반)을 통합합니다. 시뮬레이션 세계를 물리적 세계와 지속적으로 정렬함으로써, 실세계에서 시뮬레이터에서 추출된 상태를 기반으로 데모를 수집할 수 있습니다. 시뮬레이터는 임의의 시점에서 이미지 입력을 렌더링하거나 장면 내 객체의 저수준 상태 정보를 추출함으로써 유연한 상태 표현을 가능하게 합니다. 훈련 중에는 정책을 오프라인 및 고도로 병렬화 가능한 방식으로 시뮬레이터 내에서 직접 평가할 수 있습니다. 마지막으로, 배포 단계에서는 정책이 시뮬레이터 내에서 실행되며, 실제 로봇이 시뮬레이션된 로봇의 관절을 직접 추적함으로써 정책 실행을 실제 하드웨어와 효과적으로 분리하고 전통적인 도메인 전환 문제를 완화합니다. 우리는 PushT 조작 작업에서 real-is-sim을 검증하며, 시뮬레이터에서 얻은 성공률과 실세계 평가 간의 강력한 상관관계를 입증했습니다. 우리 시스템의 동영상은 https://realissim.rai-inst.com에서 확인할 수 있습니다.
위성 이미지에서 농업 필드 경계를 정확하게 구획하는 것은 토지 관리와 작물 모니터링에 매우 중요합니다. 그러나 현재의 방법들은 데이터셋 크기의 한계, 해상도 차이, 그리고 다양한 환경 조건으로 인해 어려움에 직면해 있습니다. 우리는 이 문제를 인스턴스 세분화(instance segmentation) 작업으로 재구성하고, 대규모 다중 해상도 데이터셋인 Field Boundary Instance Segmentation - 22M(FBIS-22M)을 소개함으로써 이를 해결합니다. FBIS-22M은 672,909개의 고해상도 위성 이미지 패치(0.25m에서 10m까지)와 22,926,427개의 개별 필드 인스턴스 마스크로 구성되어, 농업 데이터셋과 다른 컴퓨터 비전 분야의 데이터셋 간의 격차를 크게 줄였습니다. 또한, 우리는 새로운 FBIS-22M 데이터셋으로 훈련된 인스턴스 세분화 모델인 Delineate Anything을 제안합니다. 우리가 제안한 모델은 기존 방법 대비 [email protected]에서 88.5%, [email protected]:0.95에서 103%의 상당한 성능 향상을 이루며, 더 빠른 추론 속도와 다양한 이미지 해상도 및 보지 못한 지리적 지역에서의 강력한 제로샷 일반화 능력을 보여줍니다. 코드, 사전 훈련된 모델, 그리고 FBIS-22M 데이터셋은 https://lavreniuk.github.io/Delineate-Anything에서 확인할 수 있습니다.
사전 학습된 텍스트-이미지(T2I) 모델을 맞춤형 초상화 데이터셋에 미세 조정하는 것은 초상화 속성을 텍스트 기반으로 커스터마이징하는 주류 방법입니다. 그러나 미세 조정 과정에서 발생하는 의미 오염(Semantic Pollution)으로 인해, 기존 방법들은 원본 모델의 동작을 유지하고 목표 속성을 커스터마이징하면서 점진적 학습을 달성하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 텍스트 기반 초상화 커스터마이징에서 의미 오염을 제거하면서 순수하게 커스터마이즈된 의미를 이해하는 선구적인 작업인 SPF-Portrait를 제안합니다. SPF-Portrait에서는 기존의 미세 조정 경로에 원본 모델을 참조로 도입하는 이중 경로 파이프라인을 제안합니다. 대조 학습(contrastive learning)을 통해 목표 속성에 적응하고, 다른 관련 없는 속성들은 의도적으로 원본 초상화와 정렬합니다. 또한, 목표 의미의 정확한 반응 영역을 나타내는 새로운 의미 인식 미세 제어 맵(Semantic-Aware Fine Control Map)을 도입하여 대조 경로 간의 정렬 과정을 공간적으로 안내합니다. 이 정렬 과정은 원본 모델의 성능을 효과적으로 보존할 뿐만 아니라 과도한 정렬을 방지합니다. 더 나아가, 직접적인 교차 모드 감독에서 내재된 표현 불일치를 완화하면서 목표 속성의 성능을 강화하기 위한 새로운 반응 강화 메커니즘을 제안합니다. 광범위한 실험을 통해 SPF-Portrait가 최첨단 성능을 달성함을 입증합니다. 프로젝트 웹페이지: https://spf-portrait.github.io/SPF-Portrait/