번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)은 복잡한 문제 해결을 위한 자율적인 도구 사용과 다단계 추론이 가능한 에이전트 시스템으로 진화해 왔다. 그러나 범용 기반 모델을 기반으로 한 사후 훈련 접근법은 에이전트 작업, 특히 오픈소스 구현에서 지속적으로 낮은 성능을 보인다. 우리는 그 근본 원인을 파악했다: 강력한 에이전트 기반 모델의 부재로 인해 사후 훈련 중 모델이 다양한 에이전트 행동을 학습하는 동시에 전문가 시연에 맞춰 정렬해야 하므로 근본적인 최적화 긴장이 발생한다. 이를 위해, 우리는 강력한 에이전트 기반 모델을 구축하기 위해 딥 리서치 에이전트 훈련 파이프라인에 에이전트 지속 사전 훈련(Agentic CPT)을 통합하는 것을 최초로 제안한다. 이 접근법을 기반으로, 우리는 AgentFounder라는 딥 리서치 에이전트 모델을 개발했다. 우리는 AgentFounder-30B를 10개의 벤치마크에서 평가하며 최첨단 성능을 달성했고, 특히 BrowseComp-en에서 39.9%, BrowseComp-zh에서 43.3%, HLE에서 Pass@1 31.5%의 강력한 도구 사용 능력을 유지했다.
본 논문은 AI 에이전트가 방대한 웹 규모의 정보를 통합하여 통찰력 있는 보고서를 작성해야 하는 복잡한 과제인 개방형 심층 연구(OEDR)를 다룹니다. 현재의 접근 방식은 계획과 증거 수집을 분리하는 정적 연구 파이프라인과 "중간에서의 손실" 및 환각 현상과 같은 장문맥 실패 문제를 쉽게 겪는 일회성 생성 패러다임이라는 이중적 한계에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 인간의 연구 과정을 모방한 새로운 이중 에이전트 프레임워크인 WebWeaver를 소개합니다. 플래너는 동적 사이클에서 작동하며, 증거 수집과 개요 최적화를 반복적으로 교차시켜 증거 메모리 뱅크에 연결된 포괄적이고 출처가 명확한 개요를 생성합니다. 이후 작가 계층은 계층적 검색 및 작성 프로세스를 실행하여 보고서를 섹션별로 구성합니다. 각 부분에 대해 메모리 뱅크에서 필요한 증거만을 대상으로 검색함으로써 장문맥 문제를 효과적으로 완화합니다. 우리의 프레임워크는 DeepResearch Bench, DeepConsult, DeepResearchGym 등 주요 OEDR 벤치마크에서 새로운 최첨단 성과를 달성했습니다. 이러한 결과는 인간 중심의 반복적 방법론을 검증하며, 적응형 계획과 집중적 통합이 고품질, 신뢰할 수 있고 잘 구조화된 보고서를 생산하는 데 필수적임을 입증합니다.
인간의 인지적 한계를 초월하는 것은 LLM(대형 언어 모델) 훈련에서 중요한 전선을 나타냅니다. DeepResearch와 같은 독점 에이전트 시스템은 BrowseComp와 같은 극도로 복잡한 정보 탐색 벤치마크에서 초인적 능력을 입증했으며, 이는 이전에는 달성할 수 없었던 업적입니다. 우리는 이러한 성공이 오픈소스 모델에는 없는 정교한 추론 패턴, 즉 방대한 정보 환경을 탐색할 때 극도의 불확실성을 체계적으로 줄이는 능력에 달려 있다고 주장합니다. 이러한 통찰을 바탕으로, 우리는 이 중요한 능력을 심어주기 위해 완전한 사후 훈련 방법론인 WebSailor를 소개합니다. 우리의 접근 방식은 구조화된 샘플링과 정보 은폐를 통해 새로운 고불확실성 작업을 생성하고, RFT(Reward Fine-Tuning) 콜드 스타트, 그리고 효율적인 에이전트 RL(강화 학습) 훈련 알고리즘인 Duplicating Sampling Policy Optimization(DUPO)을 포함합니다. 이 통합 파이프라인을 통해 WebSailor는 복잡한 정보 탐색 작업에서 모든 오픈소스 에이전트를 크게 능가하며, 독점 에이전트의 성능에 맞추고 능력 격차를 줄입니다.
대형 언어 모델(LLM) 기반 웹 에이전트는 지식 집약적 작업에서 강력한 성능을 보이지만, ReAct와 같은 패러다임에서 컨텍스트 창의 제약으로 인해 한계를 겪습니다. 다중 엔티티, 복잡한 관계, 높은 불확실성을 포함하는 복잡한 질의는 완전한 해결책에 도달하기 전에 컨텍스트 예산을 빠르게 소모하는 광범위한 탐색 주기를 요구합니다. 이러한 문제를 극복하기 위해, 우리는 주기적인 컨텍스트 요약을 통해 무한한 탐색을 가능하게 하는 새로운 패러다임인 ReSum을 소개합니다. ReSum은 증가하는 상호작용 기록을 간결한 추론 상태로 변환하여, 이전 발견 사항을 유지하면서 컨텍스트 제약을 우회합니다. 패러다임 적응을 위해, 우리는 GRPO를 세분화된 궤적 훈련과 이점 브로드캐스팅과 통합한 ReSum-GRPO를 제안하여, 요약 기반 추론에 익숙한 에이전트를 만듭니다. 세 가지 벤치마크에서 다양한 규모의 웹 에이전트에 대한 광범위한 실험을 통해, ReSum이 ReAct 대비 평균 4.5%의 절대적 개선을 제공하며, ReSum-GRPO 훈련 후 최대 8.2%의 추가 이득을 보임을 입증했습니다. 특히, 단 1,000개의 훈련 샘플로도, WebSailor-30B의 ReSum-GRPO 훈련 버전인 WebResummer-30B는 BrowseComp-zh에서 33.3%의 Pass@1, BrowseComp-en에서 18.3%의 Pass@1을 달성하여 기존의 오픈소스 웹 에이전트를 능가했습니다.
고급 에이전트 지능은 대규모 언어 모델을 실제 현실 세계의 애플리케이션에 배포하기 위한 필수 조건입니다. 다양한 현실 세계의 API는 정밀하고 견고한 함수 호출 지능을 요구하며, 이는 에이전트가 다양한 환경에서 상호작용을 통해 이러한 능력을 개발해야 함을 의미합니다. 함수 호출 역량의 폭은 에이전트가 훈련받는 환경의 다양성과 밀접하게 연관되어 있습니다. 본 연구에서는 일반적인 에이전트 지능을 발전시키기 위한 한 단계로 환경을 확장합니다. 이는 두 가지 주요 과제를 제기합니다: (i) 원칙적으로 환경을 확장하는 방법, 그리고 (ii) 이러한 환경과의 상호작용을 통해 얻은 경험으로부터 에이전트 역량을 효과적으로 훈련시키는 방법입니다. 이를 해결하기 위해, 우리는 완전히 시뮬레이션된 이질적인 환경을 자동으로 구성하는 확장 가능한 프레임워크를 설계하여 함수 호출 시나리오의 공간을 체계적으로 확장합니다. 또한, 두 단계의 에이전트 미세 조정 전략을 적용합니다: 먼저 에이전트에 기본적인 에이전트 역량을 부여한 후, 특정 도메인 컨텍스트에 맞게 전문화합니다. 에이전트 벤치마크인 tau-bench, tau2-Bench, 그리고 ACEBench에서의 광범위한 실험을 통해 우리가 훈련한 모델인 AgentScaler가 모델의 함수 호출 능력을 크게 향상시킨다는 것을 입증합니다.
최근 딥 리서치 시스템의 발전은 AI 에이전트가 외부 소스로부터 지식을 자율적으로 발견하고 종합할 수 있는 잠재력을 보여주었다. 본 논문에서는 이러한 에이전트를 구축하기 위한 새로운 프레임워크인 WebResearcher를 소개한다. 이 프레임워크는 두 가지 주요 구성 요소로 이루어져 있다: (1) WebResearcher는 딥 리서치를 마르코프 결정 과정으로 재구성하는 반복적 딥 리서치 패러다임으로, 에이전트가 주기적으로 발견 사항을 진화하는 보고서로 통합하면서도 집중된 작업 공간을 유지함으로써 기존의 단일 맥락 접근법에서 발생하는 맥락 과부하 및 노이즈 오염 문제를 극복한다; (2) WebFrontier는 도구 기반 복잡성 확장을 통해 고품질의 훈련 데이터를 생성하는 확장 가능한 데이터 종합 엔진으로, 수동적 지식 회상과 능동적 지식 구축 간의 격차를 해소하는 연구 과제를 체계적으로 생성한다. 특히, 본 패러다임에서 생성된 훈련 데이터는 전통적인 단일 맥락 방법의 도구 사용 능력도 크게 향상시킨다는 점을 발견하였다. 또한, 본 패러다임은 병렬 사고를 통해 자연스럽게 확장 가능하며, 동시 다중 에이전트 탐색을 통해 보다 포괄적인 결론을 도출할 수 있다. 6개의 도전적인 벤치마크에서 수행한 광범위한 실험을 통해 WebResearcher가 최첨단 성능을 달성하며, 심지어 선도적인 독점 시스템을 능가함을 입증하였다.
현대 게임 개발의 초석인 고품질 3D 자산의 제작은 오랫동안 노동 집약적이고 전문적인 워크플로우로 특징지어져 왔습니다. 본 논문은 게임 제작 파이프라인을 혁신하기 위해 게임 준비가 완료된 3D 자산의 생성을 자동화하고 간소화하는 엔드투엔드 AI 기반 콘텐츠 제작 플랫폼인 Hunyuan3D Studio를 소개합니다. Hunyuan3D Studio의 핵심은 Part-level 3D Generation, Polygon Generation, Semantic UV 등과 같은 고급 신경망 모듈을 통합하여 사용자 친화적인 시스템으로 구성되어 있습니다. 이 통합 프레임워크는 단일 컨셉 이미지나 텍스트 설명을 최적화된 기하학 구조와 고품질 PBR 텍스처를 갖춘 완전히 구현된 프로덕션 수준의 3D 모델로 신속하게 변환할 수 있게 합니다. 우리는 Hunyuan3D Studio에서 생성된 자산이 시각적으로 매력적일 뿐만 아니라 현대 게임 엔진의 엄격한 기술 요구 사항을 준수하여 반복 시간을 크게 단축하고 3D 콘텐츠 제작의 진입 장벽을 낮추는 것을 입증합니다. 창의적 의도에서 기술적 자산으로의 원활한 연결을 제공함으로써, Hunyuan3D Studio는 게임 개발 및 인터랙티브 미디어 분야에서 AI 지원 워크플로우의 중요한 도약을 나타냅니다.
우리는 대규모 언어 모델(LLM)을 위한 정책 경사 최적화를 단일 스트림 관점에서 재검토한다. GRPO와 같은 기존의 그룹 기반 방법은 실시간 기준선을 사용하여 분산을 줄이지만, 빈번한 퇴화 그룹으로 인해 학습 신호가 소실되고 동기화 장벽이 확장성을 저해하는 치명적인 결점을 가지고 있다. 우리는 이러한 문제를 설계적으로 해결하는 단일 스트림 정책 최적화(SPO)를 소개한다. SPO는 그룹별 기준선을 지속적이고 KL-적응형 값 추적기로 대체하며, 배치 전반에 걸쳐 이점을 전역적으로 정규화하여 모든 샘플에 대해 안정적이고 낮은 분산의 학습 신호를 제공한다. 그룹이 필요 없는 SPO는 생성 시간이 다양한 장기적 또는 도구 통합 설정에서 더 높은 처리량과 효과적인 확장성을 가능하게 한다. 또한, 지속적인 값 추적기는 우선순위 샘플링을 통해 적응형 커리큘럼을 자연스럽게 가능하게 한다. Qwen3-8B를 사용한 실험에서 SPO는 GRPO보다 더 부드럽게 수렴하고 더 높은 정확도를 달성하며, 퇴화 그룹에 낭비되는 계산을 제거한다. 제거 연구는 SPO의 이점이 기준선 추정과 이점 정규화에 대한 원칙적인 접근에서 비롯되며, LLM 추론을 위한 더 견고하고 효율적인 경로를 제공함을 확인한다. Qwen3 8B를 사용한 다섯 가지 어려운 수학 벤치마크에서 SPO는 GRPO 대비 평균 maj@32을 +3.4%p 향상시켰으며, BRUMO 25에서 +7.3%p, AIME 25에서 +4.4%p, HMMT 25에서 +3.3%p와 같은 도전적인 데이터셋에서 상당한 절대 점수 상승을 이끌었다. 또한 평가된 k 값 전반에 걸쳐 pass@k에서 일관된 상대적 이득을 달성했다. SPO의 성공은 RL 알고리즘에 부수적인 복잡성을 추가하는 기존의 경향에 도전하며, 아키텍처적 우회책이 아닌 근본적인 원칙이 LLM 추론의 다음 발전을 이끌어갈 길을 강조한다.
단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각적 토큰 공간을 통해 연결하는 Spatial Region 3D(SR-3D) 인식 비전-언어 모델을 제안합니다. SR-3D는 유연한 영역 프롬프팅을 지원하여 사용자가 바운딩 박스, 세그멘테이션 마스크를 통해 어느 프레임에서나 또는 직접 3D로 영역을 주석 달 수 있게 하며, 다중 프레임에 걸친 지루한 라벨링이 필요하지 않습니다. 이를 위해 2D 시각적 특징을 3D 위치 임베딩으로 강화함으로써, 3D 모델이 강력한 2D 사전 지식을 활용하여 동일한 뷰 내에서 관심 객체가 동시에 나타나지 않더라도 프레임 간 정확한 공간 추론을 수행할 수 있게 합니다. 일반적인 2D 비전-언어 및 전문적인 3D 공간 벤치마크에 대한 광범위한 실험을 통해 SR-3D가 최신 성능을 달성함을 보여주며, 장면 이해를 위한 2D와 3D 표현 공간의 통합 효과를 입증합니다. 또한, SR-3D는 센서 기반 3D 입력이나 실측 3D 주석 없이도 실제 비디오에서 공간 관계와 미터법 측정을 정확하게 추론하는 데 적용 가능함을 관찰했습니다.
대규모 언어 모델(LLMs)은 최근 자동 정리 증명(ATP) 분야를 크게 발전시켰으며, 특히 반영적 사고 연쇄(CoT) 추론과 증가된 샘플링 패스와 같은 널리 채택된 테스트 시간 확장 전략을 통해 상당한 성능 향상을 달성했습니다. 그러나 이러한 방법들은 모두 추론 과정에서 상당한 계산 오버헤드를 유발합니다. 더욱이, 기존의 비용 분석은 일반적으로 샘플링 패스의 수만을 규제하며, 다양한 확장 전략에 의해 도입된 샘플링 비용의 상당한 차이를 간과합니다. 본 논문에서는 ATP 모델을 위한 다양한 테스트 시간 확장 전략의 효율성을 체계적으로 비교하고, 현재의 최첨단(SOTA) 오픈소스 접근법의 비효율성을 입증합니다. 그런 다음, 원래의 성능을 유지하면서 토큰 사용량과 샘플링 패스를 크게 줄이는 방법을 탐구합니다. 구체적으로, 우리는 통합된 EconRL 파이프라인에 통합될 수 있는 두 가지 상호 보완적인 방법을 제안합니다: (1) 불필요한 토큰 소비를 완화하기 위해 설계된 동적 사고 연쇄(CoT) 전환 메커니즘, 그리고 (2) 제한된 샘플링 패스 하에서 패스율을 향상시키기 위한 학습 가능한 접두사를 갖춘 다양한 병렬 확장 강화 학습(RL). miniF2F와 ProofNet에서의 실험은 우리의 EconProver가 기준 방법들과 비슷한 성능을 달성하면서도 계산 비용의 12%만을 소비함을 보여줍니다. 이 연구는 성능을 희생하지 않고 경량 ATP 모델을 배포하기 위한 실행 가능한 통찰을 제공합니다.
인간은 새로운 차량을 운전하는 것과 같이 이전에 경험하지 못한 상황에 적응할 때 놀라울 정도로 데이터 효율적입니다. 반면, 강화학습(Reinforcement Learning, RL)으로 훈련된 신경망 정책과 같은 현대의 로봇 제어 시스템은 단일 환경에 대해 매우 특화되어 있습니다. 이러한 과적합으로 인해, 시뮬레이션-현실(Sim2Real) 간극과 같은 작은 차이에도 쉽게 무너지며, 시스템에 최소한의 변화가 있어도 시스템 식별과 재훈련이 필요합니다. 본 연구에서는 쿼드로터 제어를 위한 고도로 적응 가능한 기반 정책을 훈련하는 방법인 RAPTOR를 제시합니다. 우리의 방법은 다양한 쿼드로터를 제어하기 위해 단일의 종단간(end-to-end) 신경망 정책을 훈련할 수 있게 합니다. 우리는 32g에서 2.4kg까지의 10가지 실제 쿼드로터를 테스트했으며, 이들은 모터 유형(브러시 vs. 브러시리스), 프레임 유형(연성 vs. 경성), 프로펠러 유형(2/3/4-날개), 비행 컨트롤러(PX4/Betaflight/Crazyflie/M5StampFly) 등에서도 차이가 있습니다. 우리는 단 2084개의 매개변수를 가진 작은 3층 정책이 다양한 플랫폼에 대해 제로샷(zero-shot) 적응에 충분하다는 것을 발견했습니다. 은닉층에서의 반복을 통해 컨텍스트 내 학습(In-Context Learning)을 통한 적응이 가능해졌습니다. 이 정책은 새로운 메타-모방 학습(Meta-Imitation Learning) 알고리즘을 통해 훈련되었으며, 여기서 1000개의 쿼드로터를 샘플링하고 각각에 대해 강화학습을 사용하여 교사 정책을 훈련했습니다. 이후, 1000개의 교사 정책을 단일의 적응형 학생 정책으로 증류했습니다. 우리는 결과적으로 얻은 기반 정책이 밀리초 단위로 보지 못한 쿼드로터에 대해 제로샷 적응을 한다는 것을 발견했습니다. 우리는 이 기반 정책의 능력을 다양한 조건(궤적 추적, 실내/실외, 바람 방해, 푸시, 다른 프로펠러)에서 광범위하게 테스트했습니다.
다중 모달 추론은 여전히 인공지능 분야의 근본적인 과제로 남아 있습니다. 텍스트 기반 추론에서 상당한 진전이 있었음에도 불구하고, GPT-3와 같은 최첨단 모델들조차 다중 모달 시나리오에서 강력한 성능을 유지하는 데 어려움을 겪고 있습니다. 이러한 격차를 해결하기 위해, 우리는 시각적 및 텍스트적 모달리티를 효과적으로 연결하는 캡션 지원 추론 프레임워크를 소개합니다. 우리의 접근 방식은 ICML 2025 AI for Math 워크숍 및 챌린지 2: SeePhys에서 1위를 차지하며 그 효과성과 견고성을 입증했습니다. 또한, 기하학적 추론을 위한 MathVerse 벤치마크에서 일반화 능력을 검증함으로써 우리 방법의 다용성을 입증했습니다. 우리의 코드는 https://github.com/OpenDCAI/SciReasoner에서 공개적으로 이용 가능합니다.
우리는 단안 입력에서 짝을 이루는 RGB 및 운동학적 부위 비디오를 생성하기 위한 프레임워크인 Stable Part Diffusion 4D(SP4D)를 제안한다. 외관 기반의 의미론적 단서에 의존하는 기존의 부위 분할 방법과 달리, SP4D는 물체의 관절과 일치하며 시점과 시간에 걸쳐 일관된 구조적 구성 요소인 운동학적 부위를 생성하는 방법을 학습한다. SP4D는 RGB 프레임과 해당 부위 분할 맵을 동시에 합성하는 이중 분기 확산 모델을 채택한다. 아키텍처를 단순화하고 다양한 부위 수를 유연하게 지원하기 위해, 부위 마스크를 연속적인 RGB 유사 이미지로 매핑하는 공간 색상 인코딩 방식을 도입한다. 이 인코딩은 분할 분기가 RGB 분기의 잠재 VAE를 공유할 수 있게 하면서, 간단한 후처리를 통해 부위 분할을 복원할 수 있도록 한다. 양방향 확산 융합(BiDiFuse) 모듈은 부위 예측의 공간적 및 시간적 정렬을 촉진하기 위한 대조적 부위 일관성 손실을 지원하여 분기 간 일관성을 강화한다. 생성된 2D 부위 맵은 수동 조정 없이도 3D로 변환되어 골격 구조와 조화로운 스키닝 가중치를 도출할 수 있음을 보여준다. SP4D를 훈련하고 평가하기 위해, Objaverse XL(Deitke et al., 2023)에서 선별 및 처리된 20,000개 이상의 리깅된 객체로 구성된 KinematicParts20K 데이터셋을 구축하였다. 각 객체는 다중 시점 RGB 및 부위 비디오 시퀀스와 짝을 이루고 있다. 실험 결과, SP4D는 실제 비디오, 새롭게 생성된 객체, 희귀한 관절 자세를 포함한 다양한 시나리오에서 강력한 일반화 능력을 보이며, 다운스트림 애니메이션 및 모션 관련 작업에 적합한 운동학적 인식 출력을 생성한다.
최근, 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 다양한 분야에서 상당한 주목을 받고 있습니다. 그러나 이러한 모델의 광범위한 활용은 심각한 안전 문제를 야기하기도 했습니다. 본 논문에서는 MLLMs의 새로운 안전 위험 요소를 밝혀냈습니다: MLLMs의 출력 선호도는 신중하게 최적화된 이미지를 통해 임의로 조작될 수 있습니다. 이러한 공격은 종종 명백히 유해하거나 비윤리적이지는 않지만 편향된 응답을 생성하며, 이는 탐지하기 어렵게 만듭니다. 구체적으로, 우리는 선호도 하이재킹(Preference Hijacking, Phi)이라는 새로운 방법을 소개합니다. 이 방법은 선호도가 하이재킹된 이미지를 사용하여 MLLM의 응답 선호도를 조작하며, 추론 시점에 작동하고 모델 수정이 필요하지 않습니다. 또한, 우리는 범용 하이재킹 섭동(universal hijacking perturbation)을 도입했습니다. 이는 다양한 이미지에 내장될 수 있는 전이 가능한 구성 요소로, MLLM의 응답을 공격자가 지정한 선호도로 하이재킹할 수 있습니다. 다양한 작업에 대한 실험 결과는 우리의 접근 방식의 효과를 입증합니다. Phi의 코드는 https://github.com/Yifan-Lan/Phi에서 확인할 수 있습니다.
우리는 랭킹 작업이 Thurstone 모델과 정적으로 동등하다는 분석을 통해 검색 성능을 최적화하는 새로운 훈련 방법론인 zELO를 소개합니다. zELO 방법을 기반으로, 우리는 비지도 데이터를 사용하여 최첨단 오픈 가중치 리랭커 모델 세트인 zerank-1과 zerank-1-small을 훈련시켰습니다. 이 모델들은 금융, 법률, 코드, STEM 등 다양한 도메인에서 가장 높은 검색 점수를 달성하며, NDCG@10과 Recall 모두에서 클로즈드 소스 독점 리랭커를 능가합니다. 또한 이 모델들은 도메인 외부 및 고객의 비공개 데이터셋에서도 0-shot 성능을 유지하며 뛰어난 다용성을 보여줍니다. 훈련 데이터는 112,000개의 쿼리와 각 쿼리당 100개의 문서로 구성되었으며, 주석이 없는 쿼리와 문서로부터 10,000 H100-시간 미만으로 엔드투엔드 방식으로 훈련되었습니다.
최근 복소수 가우시안 윈도우를 사용한 창문형 QFT 격자 알고리즘(chen2024quantum)의 Step 9에서 논란이 되고 있는 "도메인 확장" 부분을 간단하고 완전히 정확하며 가정이 적은 방식으로 대체합니다. 공개된 Step 9는 주기성/지지 불일치 문제를 가지고 있습니다. 우리는 모든 알려지지 않은 오프셋을 일관되게 상쇄하고, Z_{P} 위에서 정확한 균일 CRT 코셋 상태를 생성한 다음, QFT를 사용하여 의도된 모듈러 선형 관계를 강제하는 페어-시프트 차이 구성을 제시합니다. 이 유니터리 연산은 가역적이며, poly(log M_2) 개의 게이트를 사용하고, 알고리즘의 점근적 특성을 유지합니다. 프로젝트 페이지: https://github.com/yifanzhang-pro/quantum-lattice.
대규모 언어 모델(LLM) 압축 분야에서 양자화(quantization)와 가지치기(pruning)와 같은 최근의 발전은 주목할 만한 성과를 거두었습니다. 그러나 이러한 기술들이 점점 각자의 한계에 다가가면서, 단일 방법에 의존한 추가 압축은 점점 더 어려워지고 있습니다. 본 연구에서는 양자화와 희소성(sparsity)을 결합하는 대안적 해결책을 탐구합니다. 이 결합 접근법은 유망하지만, 가중치 분포에 대한 본질적으로 상충되는 요구사항으로 인해 새로운 어려움을 야기합니다: 양자화는 좁은 범위를 선호하는 반면, 가지치기는 높은 분산에서 이점을 얻기 때문입니다. 이 문제를 해결하기 위해, 우리는 최적 뇌 복원(Optimal Brain Restoration, OBR)이라는 일반적이고 학습이 필요 없는 프레임워크를 제안합니다. OBR은 양자화와 가지치기 간의 오류 보상을 통해 두 방법을 조정합니다. OBR은 2차 헤시안(Hessian) 목적 함수를 기반으로 하여 다운스트림 작업에서의 성능 저하를 최소화하며, 이를 대리 근사(surrogate approximation)를 통해 다루기 쉬운 문제로 재구성하고, 궁극적으로 그룹 오류 보상을 통해 폐쇄형 해(closed-form solution)에 도달합니다. 실험 결과, OBR은 기존 LLM에서 50% 희소성을 가진 W4A4KV4 양자화를 가능하게 하며, FP16-밀집(dense) 기준 대비 최대 4.72배의 속도 향상과 6.4배의 메모리 감소를 달성합니다.
연속체 로봇은 복잡한 폐 기도를 접근하고 표적 치료를 가능하게 함으로써 기관지 내시경 시술을 발전시키고 있습니다. 그러나 이러한 로봇의 개발은 현실적인 훈련 및 테스트 환경의 부족으로 제한되고 있습니다: 윤리적 제약과 환자 안전 문제로 인해 실제 데이터를 수집하기 어렵고, 자율성 알고리즘 개발에는 현실적인 영상 및 물리적 피드백이 필요합니다. 우리는 ROOM(Realistic Optical Observation in Medicine)이라는 포토리얼리스틱 기관지 내시경 훈련 데이터를 생성하기 위한 포괄적인 시뮬레이션 프레임워크를 제시합니다. 환자 CT 스캔을 활용하여, 우리의 파이프라인은 현실적인 노이즈와 광택을 포함한 RGB 이미지, 메트릭 깊이 맵, 표면 법선, 광학 흐름 및 포인트 클라우드를 의학적으로 관련된 스케일로 렌더링합니다. 우리는 ROOM에서 생성된 데이터를 의료 로봇 공학의 두 가지 주요 작업인 다중 시점 포즈 추정과 단안 깊이 추정에서 검증하며, 최신 방법들이 이러한 의료 환경에 적용되기 위해 극복해야 할 다양한 도전 과제를 보여줍니다. 또한, ROOM에서 생성된 데이터를 사용하여 기존의 깊이 추정 모델을 미세 조정하여 이러한 도전 과제를 극복할 수 있으며, 내비게이션과 같은 다른 다운스트림 애플리케이션도 가능하게 함을 보여줍니다. 우리는 ROOM이 임상 환경에서 포착하기 어려운 다양한 환자 해부학 및 시나리오에 걸쳐 대규모 데이터 생성을 가능하게 할 것으로 기대합니다. 코드와 데이터: https://github.com/iamsalvatore/room.
병리학적 이미지를 기가픽셀 Whole Slide Images(WSIs)로 디지털화하는 것은 Computational Pathology(CPath)에 새로운 가능성을 열어주었습니다. 양성 조직은 기가픽셀 WSIs의 작은 부분만을 차지하기 때문에, 기존의 Multiple Instance Learning(MIL) 방법들은 주로 어텐션 메커니즘을 통해 중요한 인스턴스를 식별하는 데 초점을 맞춥니다. 그러나 이는 분류하기 쉬운 인스턴스에 편향을 일으키면서 도전적인 인스턴스를 소홀히 하는 문제를 야기합니다. 최근 연구들은 어려운 예제들이 판별 경계를 정확하게 모델링하는 데 중요하다는 것을 보여주었습니다. 이러한 아이디어를 인스턴스 수준에서 적용하기 위해, 우리는 마스킹된 하드 인스턴스 마이닝(MHIM-MIL)을 포함한 새로운 MIL 프레임워크를 구체화했습니다. 이 프레임워크는 샴 구조와 일관성 제약을 활용하여 하드 인스턴스를 탐색합니다. 클래스 인식 인스턴스 확률을 사용하여, MHIM-MIL은 모멘텀 교사를 활용해 중요한 인스턴스를 마스킹하고, 학생 모델을 훈련시키기 위해 하드 인스턴스를 암묵적으로 마이닝합니다. 다양하고 중복되지 않은 하드 인스턴스를 얻기 위해, 우리는 대규모 랜덤 마스킹을 채택하면서 글로벌 리사이클 네트워크를 사용하여 주요 특징을 잃을 위험을 완화합니다. 또한, 학생 모델은 지수 이동 평균을 사용하여 교사를 업데이트하며, 이는 후속 훈련 반복을 위한 새로운 하드 인스턴스를 식별하고 최적화를 안정화합니다. 암 진단, 서브타이핑, 생존 분석 작업 및 12개의 벤치마크에서의 실험 결과는 MHIM-MIL이 성능과 효율성 모두에서 최신 방법들을 능가함을 보여줍니다. 코드는 https://github.com/DearCaat/MHIM-MIL에서 확인할 수 있습니다.
차등 프라이버시(DP) 합성 데이터 생성은 그렇지 않으면 모델 학습이나 기타 분석에 사용할 수 없는 민감한 데이터셋을 활용하기 위한 유망한 기술입니다. 많은 연구 문헌이 비정형 텍스트 및 이미지 데이터의 프라이버시 보호 생성에 초점을 맞추고 있지만, 기업 환경에서는 자연어 필드나 구성 요소를 포함하는 구조화된 데이터(예: 테이블 형식)가 더 일반적입니다. 기존의 합성 데이터 평가 기술(예: FID)은 이러한 데이터셋의 구조적 특성과 상관관계를 포착하는 데 어려움을 겪습니다. 본 연구에서는 자연어 데이터를 포함하는 구조화된 데이터셋에서 파생된 합성 데이터셋을 평가하기 위한 프레임워크 및 벤치마크인 Struct-Bench를 제안합니다. Struct-Bench 프레임워크는 사용자가 데이터셋 구조를 문맥 자유 문법(CFG)으로 표현하도록 요구합니다. 우리의 벤치마크는 각각 CFG로 주석이 달린 5개의 실제 데이터셋과 2개의 합성 데이터셋으로 구성됩니다. 우리는 이러한 데이터셋이 최신 DP 합성 데이터 생성 방법에도 상당한 도전을 제시함을 보여줍니다. Struct-Bench는 또한 다양한 메트릭의 참조 구현과 리더보드를 포함하여, 연구자들에게 프라이버시 보호 합성 데이터 생성 방법을 벤치마크하고 조사할 수 있는 표준화된 평가 플랫폼을 제공합니다. 더 나아가, 우리는 Struct-Bench를 사용하여 구조화된 데이터에 대한 Private Evolution(PE)의 합성 데이터 품질을 개선하는 방법을 보여주는 사례 연구도 제시합니다. 벤치마크와 리더보드는 https://struct-bench.github.io에서 공개적으로 제공됩니다.
가상 아날로그 모델링을 위한 디지털 신호 처리 알고리즘을 통한 자동 미분이 최근 인기를 얻고 있습니다. 이러한 알고리즘은 일반적으로 밀집 행렬 곱셈에 의존하는 블랙박스 신경망보다 계산 효율성이 더 높습니다. 미분 가능한 특성으로 인해, 이들은 신경망과 통합되어 경사 하강법 알고리즘을 통해 공동으로 학습될 수 있으며, 이는 더 효율적인 시스템을 만듭니다. 또한, 신호 처리 알고리즘은 신경망보다 훨씬 적은 매개변수를 가지고 있어, 뉴턴-랩슨 방법의 적용이 가능합니다. 이 방법은 2차 저장 비용을 치르는 대신 경사 하강법보다 더 빠르고 강력한 수렴을 제공합니다. 본 논문은 뉴턴-랩슨 방법을 통해 최적화된 매개변수를 가진 피드포워드 디지털 압축기를 사용하여 아날로그 레벨링 증폭기를 에뮬레이트하는 방법을 제시합니다. 우리는 디지털 압축기가 목표 장치인 Teletronix LA-2A의 동작을 성공적으로 근사할 수 있음을 보여줍니다. 헤세 행렬을 계산하기 위한 다양한 전략을 벤치마킹하였으며, 현대 GPU에서 효율적인 학습을 달성하기 위해 재귀 필터에 대한 병렬 알고리즘을 활용했습니다. 결과 모델은 VST 플러그인으로 제작되었으며, https://github.com/aim-qmul/4a2a에서 오픈소스로 공개되었습니다.