번역이 포함된 일일 선별된 AI 연구 논문
본 기술 보고서는 비디오 생성 기반 모델을 훈련시키기 위한 비용 효율적인 전략을 제시합니다. 우리는 약 7억 개의 파라미터(7B)를 가진 중간 규모의 연구 모델인 Seaweed-7B를 소개하며, 이 모델은 665,000 H100 GPU 시간을 사용해 처음부터 훈련되었습니다. 중간 규모의 컴퓨팅 자원으로 훈련되었음에도 불구하고, Seaweed-7B는 훨씬 더 큰 규모의 동시대 비디오 생성 모델들과 비교해 매우 경쟁력 있는 성능을 보여줍니다. 자원이 제한된 환경에서는 설계 선택이 특히 중요합니다. 이 기술 보고서는 중간 규모의 확산 모델의 성능을 향상시키는 주요 설계 결정을 강조합니다. 실험적으로 우리는 두 가지 관찰을 했습니다: (1) Seaweed-7B는 훨씬 더 많은 GPU 자원으로 훈련된 더 큰 모델들과 비슷하거나 오히려 뛰어난 성능을 달성하며, (2) 강력한 일반화 능력을 보이는 우리 모델은 경량 미세 조정 또는 추가 훈련을 통해 다양한 다운스트림 애플리케이션에 효과적으로 적용될 수 있습니다. 프로젝트 페이지는 https://seaweed.video/에서 확인할 수 있습니다.
자기회귀(AR) 이미지 생성에서 시각적 토크나이저는 이미지를 간결한 이산 잠재 토큰으로 압축하여, 다음 토큰 예측을 통한 시각적 생성을 위한 하위 자기회귀 모델의 효율적인 학습을 가능하게 합니다. 시각적 토크나이저의 규모를 확장하면 이미지 재구성 품질이 향상되지만, 종종 하위 생성 품질이 저하되는 문제가 발생합니다. 이는 기존 문헌에서 충분히 다루어지지 않은 과제입니다. 이를 해결하기 위해, 우리는 GigaTok을 소개합니다. GigaTok은 시각적 토크나이저의 규모를 확장할 때 이미지 재구성, 생성, 그리고 표현 학습을 동시에 개선하는 첫 번째 접근법입니다. 우리는 잠재 공간의 증가하는 복잡성을 재구성 대 생성 딜레마의 주요 요인으로 식별했습니다. 이를 완화하기 위해, 우리는 의미론적 정규화를 제안합니다. 이는 토크나이저 특징을 사전 학습된 시각적 인코더의 의미론적으로 일관된 특징과 정렬시킵니다. 이 제약은 규모 확장 중에 잠재 공간의 과도한 복잡성을 방지하여, 재구성과 하위 자기회귀 생성 모두에서 일관된 개선을 가져옵니다. 의미론적 정규화를 기반으로, 우리는 토크나이저 규모 확장을 위한 세 가지 주요 관행을 탐구합니다: (1) 더 나은 확장성을 위해 1D 토크나이저 사용, (2) 인코더와 디코더를 모두 확장할 때 디코더 확장 우선, (3) 10억 규모 토크나이저의 학습 안정화를 위해 엔트로피 손실 사용. 30억 개의 매개변수로 규모를 확장함으로써, GigaTok은 재구성, 하위 AR 생성, 그리고 하위 AR 표현 품질에서 최첨단 성능을 달성합니다.
월드 모델링은 지능형 에이전트가 인간과 효과적으로 상호작용하고 동적 환경에서 작동할 수 있도록 하는 중요한 과제입니다. 본 연구에서는 월드 모델링을 위한 공통 테스트베드로 활용되어 온 오픈엔드 샌드박스 게임인 Minecraft를 기반으로 한 실시간 인터랙티브 월드 모델인 MineWorld를 제안합니다. MineWorld는 시각-행동 자기회귀 트랜스포머에 의해 구동되며, 이 모델은 게임 장면과 해당 행동을 입력으로 받아 행동에 따른 새로운 장면을 생성합니다. 구체적으로, 이미지 토크나이저와 행동 토크나이저를 사용하여 시각적 게임 장면과 행동을 이산 토큰 ID로 변환한 후, 두 종류의 ID를 교차하여 연결하여 모델 입력을 구성합니다. 그런 다음, 모델은 다음 토큰 예측을 통해 게임 상태의 풍부한 표현과 상태와 행동 간의 조건을 동시에 학습하도록 훈련됩니다. 추론 단계에서는 각 프레임에서 공간적으로 중복된 토큰을 동시에 예측하는 새로운 병렬 디코딩 알고리즘을 개발하여, 다양한 규모의 모델이 초당 4~7 프레임을 생성하고 게임 플레이어와 실시간 상호작용을 가능하게 합니다. 평가에서는 새로운 장면을 생성할 때 시각적 품질뿐만 아니라 월드 모델에 있어서 중요한 행동 추적 능력을 평가하기 위한 새로운 메트릭을 제안합니다. 우리의 포괄적인 평가는 MineWorld의 효율성을 보여주며, 최신 오픈소스 확산 기반 월드 모델을 크게 능가하는 성능을 입증합니다. 코드와 모델이 공개되었습니다.
최근 DeepSeek R1은 간단하면서도 효과적인 설계를 통해 강화 학습(Reinforcement Learning, RL)이 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 크게 향상시킬 수 있음을 보여주었습니다. R1의 핵심은 결정론적 정답을 가진 작업을 활용하여 정확하고 안정적인 보상 계산을 가능하게 하는 규칙 기반 보상 공식에 있습니다. 시각 영역에서도 우리는 다양한 시각 이해 작업이 본질적으로 잘 정의된 정답 주석을 갖추고 있음을 관찰했습니다. 이러한 특성은 이들 작업이 규칙 기반 보상 메커니즘과 자연스럽게 호환되도록 만듭니다. 이러한 관찰에 동기를 받아, 우리는 R1 스타일의 강화 학습을 시각-언어 모델(Vision-Language Models, VLMs)로 확장하여 이들의 시각적 추론 능력을 향상시키는 방법을 연구했습니다. 이를 위해, 우리는 VLMs의 일반적인 시각-언어 작업 성능을 개선하기 위해 RL을 활용하기 위한 전용 프레임워크인 VLM-R1을 개발했습니다. 이 프레임워크를 사용하여, 우리는 시각 영역에 RL을 적용하는 가능성을 추가로 탐구했습니다. 실험 결과는 RL 기반 모델이 시각 이해 작업에서 경쟁력 있는 성능을 제공할 뿐만 아니라 일반화 능력에서 지도 미세 조정(Supervised Fine-Tuning, SFT)을 능가함을 보여줍니다. 더 나아가, 우리는 포괄적인 제거 연구를 수행하여 객체 탐지에서의 보상 해킹(reward hacking) 현상, "OD 아하 모먼트"의 출현, 훈련 데이터 품질의 영향, 그리고 다양한 모델 크기에 걸친 RL의 확장 행동 등 일련의 주목할 만한 통찰을 발견했습니다. 이러한 분석을 통해, 우리는 강화 학습이 시각-언어 모델의 능력을 어떻게 향상시키는지에 대한 이해를 깊이 하고자 하며, 우리의 연구 결과와 오픈소스 기여가 시각-언어 RL 커뮤니티의 지속적인 발전을 지원하기를 바랍니다. 우리의 코드와 모델은 https://github.com/om-ai-lab/VLM-R1에서 확인할 수 있습니다.
자연어를 SQL로 변환하는 기술(NL2SQL)은 자연어 쿼리를 구조화된 SQL 문으로 변환함으로써 데이터베이스와의 직관적인 상호작용을 가능하게 합니다. 데이터베이스 애플리케이션 내에서 인간-컴퓨터 상호작용을 향상시키기 위한 최근의 발전에도 불구하고, 특히 다중 테이블 조인 및 중첩 쿼리를 포함하는 복잡한 시나리오에서의 추론 성능과 관련하여 상당한 과제가 남아 있습니다. 현재의 방법론은 주로 지도 미세 조정(SFT)을 사용하여 NL2SQL 모델을 훈련시키는데, 이는 새로운 환경(예: 금융 및 헬스케어)에서의 적응성과 해석 가능성을 제한할 수 있습니다. 위와 같은 복잡한 상황에서 NL2SQL 모델의 추론 성능을 향상시키기 위해, 우리는 강화 학습(RL) 알고리즘으로 훈련된 새로운 NL2SQL 추론 모델인 SQL-R1을 소개합니다. 우리는 NL2SQL 작업에 특화된 RL 기반 보상 함수를 설계하고, 집중적인 훈련의 효과에 대한 콜드 스타트의 영향을 논의합니다. 또한, 우리는 합성된 NL2SQL 데이터의 극소량만을 사용하여 증강 훈련을 수행하면서도 경쟁력 있는 정확도를 달성하고, RL을 위한 데이터 엔지니어링을 추가로 탐구합니다. 기존 실험에서 SQL-R1은 7B 기본 모델만을 사용하여 벤치마크 Spider와 BIRD에서 각각 88.6%와 66.6%의 실행 정확도를 달성했습니다.
최근 생성 모델의 발전은 특히 시맨틱 디테일과 지역적 충실도의 놀라운 복원을 제공하는 강력한 확산 모델을 통해 이미지 복원 능력을 크게 향상시켰습니다. 그러나 초고해상도에서 이러한 모델을 배포할 때는 장거리 어텐션 메커니즘의 계산적 요구로 인해 품질과 효율성 사이의 중요한 트레이드오프에 직면하게 됩니다. 이를 해결하기 위해, 우리는 고해상도 이미지 복원을 위한 효율성, 확장성 및 장거리 모델링을 강화한 새로운 프레임워크인 ZipIR을 소개합니다. ZipIR은 이미지를 32배 압축하는 고도로 압축된 잠재 표현을 사용하여 공간 토큰의 수를 효과적으로 줄이고, Diffusion Transformer (DiT)와 같은 고용량 모델의 사용을 가능하게 합니다. 이를 위해, 우리는 잠재 공간을 서브 밴드로 구조화하여 확산 훈련을 용이하게 하는 Latent Pyramid VAE (LP-VAE) 설계를 제안합니다. 2K 해상도의 전체 이미지에 대해 훈련된 ZipIR은 기존의 확산 기반 방법을 능가하며, 심각하게 저하된 입력에서 고해상도 이미지를 복원하는 데 있어서 탁월한 속도와 품질을 제공합니다.
우리는 PixelFlow라는 이미지 생성 모델 패밀리를 소개합니다. 이 모델은 주류인 잠재 공간(latent-space) 모델과 달리 원시 픽셀 공간에서 직접 작동합니다. 이 접근 방식은 사전 훈련된 변분 오토인코더(VAE)의 필요성을 제거하고 전체 모델을 종단 간(end-to-end)으로 학습 가능하게 함으로써 이미지 생성 과정을 단순화합니다. PixelFlow는 효율적인 캐스케이드 플로우 모델링을 통해 픽셀 공간에서도 경제적인 계산 비용을 달성합니다. 이 모델은 256x256 ImageNet 클래스 조건부 이미지 생성 벤치마크에서 1.98의 FID(Fréchet Inception Distance)를 기록했습니다. 텍스트-이미지 변환 결과는 PixelFlow가 이미지 품질, 예술성, 그리고 의미론적 제어 측면에서 탁월함을 보여줍니다. 우리는 이 새로운 패러다임이 차세대 시각 생성 모델에 영감을 주고 새로운 기회를 열어줄 것으로 기대합니다. 코드와 모델은 https://github.com/ShoufaChen/PixelFlow에서 확인할 수 있습니다.
2D 생성 모델의 급속한 발전과 함께, 주체의 정체성을 보존하면서 다양한 편집을 가능하게 하는 것이 중요한 연구 주제로 부각되고 있습니다. 기존 방법들은 일반적으로 정체성 보존과 개인화된 조작 사이의 본질적인 트레이드오프에 직면해 있습니다. 우리는 이러한 목표를 두 가지 전용 구성 요소로 분리하는 새로운 프레임워크인 FlexIP를 소개합니다: 스타일리시한 조작을 위한 개인화 어댑터(Personalization Adapter)와 정체성 유지를 위한 보존 어댑터(Preservation Adapter). 생성 모델에 이러한 두 가지 제어 메커니즘을 명시적으로 주입함으로써, 우리의 프레임워크는 가중치 어댑터의 동적 조정을 통해 추론 과정에서 유연한 매개변수화된 제어를 가능하게 합니다. 실험 결과는 우리의 접근 방식이 기존 방법의 성능 한계를 돌파하며, 우수한 정체성 보존을 달성함과 동시에 더 다양한 개인화된 생성 기능을 지원함을 보여줍니다 (프로젝트 페이지: https://flexip-tech.github.io/flexip/).
우리는 다양한 시점에 촬영된 수천만 장의 이미지로 구성된 대규모 데이터베이스를 분석하기 위해 멀티모달 대형 언어 모델(MLLM)을 활용한 시스템을 제안합니다. 이 시스템의 목표는 시간에 따른 변화 패턴을 발견하는 것입니다. 구체적으로, 우리는 특정 기간 동안 도시 전반에 걸쳐 빈번하게 동시에 발생하는 변화("트렌드")를 포착하고자 합니다. 기존의 시각적 분석과 달리, 우리의 분석은 미리 정의된 대상 주제나 학습 레이블 없이도 열린 질문(예: "도시에서 빈번하게 발생하는 변화 유형은 무엇인가?")에 답할 수 있습니다. 이러한 특성으로 인해 기존의 학습 기반 또는 비지도 시각적 분석 도구는 적합하지 않습니다. 우리는 MLLM이 열린 의미 이해 능력을 갖춘 새로운 도구로 적합하다고 판단했습니다. 그러나 우리의 데이터셋은 MLLM이 컨텍스트로 처리하기에는 네 배나 큰 규모입니다. 따라서 우리는 대규모 시각적 분석 문제를 더 다루기 쉬운 하위 문제로 분해하는 하향식 절차를 도입했습니다. 각 하위 문제에 대해 MLLM 기반 솔루션을 신중하게 설계했습니다. 우리 시스템을 사용한 실험 및 어블레이션 연구에서, 이 시스템이 기준선을 크게 능가하고 대도시에서 촬영된 이미지에서 흥미로운 트렌드(예: "야외 식사 공간 추가", "고가도로가 파란색으로 도색됨" 등)를 발견할 수 있음을 확인했습니다. 더 많은 결과와 인터랙티브 데모는 https://boyangdeng.com/visual-chronicles에서 확인할 수 있습니다.
우리는 최소한의 입력 설정(두 개의 단일 뷰 이미지로 객체의 두 가지 서로 다른 동작 상태를 캡처)에서 생성적 4D(즉, 3D + 동작) 인비트위닝을 위한 새로운 문제인 In-2-4D를 제안합니다. 움직이는 객체의 시작과 끝 상태를 나타내는 두 이미지가 주어졌을 때, 우리의 목표는 4D에서 동작을 생성하고 재구성하는 것입니다. 우리는 동작을 예측하기 위해 비디오 보간 모델을 사용하지만, 프레임 간의 큰 움직임은 모호한 해석을 초래할 수 있습니다. 이를 극복하기 위해, 우리는 계층적 접근 방식을 사용하여 입력 상태와 시각적으로 가깝고 상당한 움직임을 보이는 키프레임을 식별한 후, 그 사이에 부드러운 조각을 생성합니다. 각 조각에 대해, 우리는 Gaussian Splatting을 사용하여 키프레임의 3D 표현을 구성합니다. 조각 내의 시간적 프레임은 동작을 안내하며, 변형 필드를 통해 동적 가우시안으로의 변환을 가능하게 합니다. 시간적 일관성을 개선하고 3D 동작을 정제하기 위해, 우리는 다중 뷰 확산의 자기 주의를 시간 단계에 걸쳐 확장하고 강체 변형 정규화를 적용합니다. 마지막으로, 우리는 독립적으로 생성된 3D 동작 세그먼트를 경계 변형 필드를 보간하고 이를 안내 비디오와 일치하도록 최적화하여 부드럽고 깜빡임 없는 전환을 보장합니다. 광범위한 정성적 및 정량적 실험과 사용자 연구를 통해, 우리는 우리의 방법과 그 구성 요소의 효과를 보여줍니다. 프로젝트 페이지는 https://in-2-4d.github.io/에서 확인할 수 있습니다.
높은 벤치마크 점수에도 불구하고, 대형 언어 모델(LLM)은 종종 간단한 문제에서 실패하며, 이는 중요한 질문을 제기합니다: LLM은 수학적 원리를 학습하는가, 아니면 단순히 패턴을 암기하는가? 최근 연구들처럼 점점 더 복잡한 벤치마크를 설계하는 대신, 우리는 기본적인 두 정수 덧셈(0에서 2^{64}까지)을 사용하여 이 문제를 조사하고, 두 가지 핵심 속성인 교환성(A+B=B+A)과 구성적 일반화(동형 기호 매핑을 통해, 예: 7 → y)를 탐구합니다. 최첨단 LLM은 수치 덧셈에서 73.8-99.8%의 정확도를 달성하지만, 기호 매핑 하에서는 성능이 ≤7.5%로 급락하여 학습된 규칙을 일반화하지 못함을 나타냅니다. 자릿수에 따른 비단조적 성능 스케일링과 빈번한 교환성 위반(A+B ≠ B+A의 경우 1,700건 이상)은 이를 더욱 뒷받침합니다. 덧셈 규칙을 명시적으로 제공하면 평균적으로 성능이 81.2% 저하되는 반면, 자기 설명은 기준 정확도를 유지하며, 이는 LLM의 산술 처리 방식이 인간이 정의한 원리와 일치하지 않음을 시사합니다. 우리의 연구 결과는 현재의 LLM이 진정한 규칙 학습보다는 메모리 패턴에 의존하고 있음을 나타내며, 진정한 수학적 추론을 달성하기 위한 새로운 접근 방식의 필요성과 아키텍처적 한계를 강조합니다.
DeBERTaV3 및 ModernBERT와 같은 사전 학습된 트랜스포머 인코더 모델은 효율성과 성능 향상을 목표로 한 아키텍처 개선을 도입했습니다. ModernBERT의 저자들은 여러 벤치마크에서 DeBERTaV3 대비 성능 향상을 보고했지만, 공개되지 않은 학습 데이터와 공유 데이터셋을 사용한 비교의 부재로 인해 이러한 성능 향상이 아키텍처 개선 때문인지 아니면 학습 데이터의 차이 때문인지 판단하기 어렵습니다. 본 연구에서는 CamemBERTaV2(DeBERTaV3의 프랑스어 모델)와 동일한 데이터셋으로 ModernBERT를 사전 학습하여 모델 설계의 효과를 분리한 통제 연구를 수행했습니다. 그 결과, 이전 세대 모델이 샘플 효율성과 전반적인 벤치마크 성능에서 여전히 우수하며, ModernBERT의 주요 장점은 더 빠른 학습 및 추론 속도임을 확인했습니다. 그러나 새로 제안된 모델은 BERT 및 RoBERTa와 같은 이전 모델 대비 의미 있는 아키텍처 개선을 제공합니다. 또한, 고품질 사전 학습 데이터는 수렴 속도를 가속화하지만 최종 성능을 크게 향상시키지는 않아 벤치마크 포화 가능성을 시사합니다. 이러한 결과는 트랜스포머 모델을 평가할 때 사전 학습 데이터와 아키텍처 혁신을 분리하는 것의 중요성을 보여줍니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG) 모델은 특히 소수 샷 학습 제약 하에서 지식 집약적 작업에서 뛰어난 성능을 보입니다. 본 연구에서는 RAG를 협업 환경으로 확장한 CoRAG 프레임워크를 소개합니다. 이 프레임워크에서는 클라이언트들이 협업적 문서 저장소를 활용하여 공유 모델을 공동으로 학습합니다. CoRAG의 성능을 평가하기 위해, 우리는 협업적 동종 개방형 도메인 질의응답을 위한 벤치마크인 CRAB을 도입했습니다. 실험 결과, CoRAG는 저자원 시나리오에서 매개변수 기반 협업 학습 방법과 지역적으로 학습된 RAG 모델 모두를 지속적으로 능가하는 것으로 나타났습니다. 추가 분석을 통해 공유 저장소 내 관련 문서의 중요성, 관련 없는 문서를 포함했을 때의 의외의 이점, 그리고 하드 네거티브가 성능에 미칠 수 있는 부정적인 영향 등을 확인했습니다. 이는 협업적 RAG에서 새로운 고려 사항을 제기합니다: 즉, 집단적으로 풍부해진 지식 기반을 활용하는 것과 다른 클라이언트로부터 유해한 문서를 포함할 가능성 사이의 균형 문제입니다. 본 연구 결과는 CoRAG의 실현 가능성을 강조하는 동시에 주요 설계 과제와 향후 연구를 위한 유망한 방향을 제시합니다.
최근 텍스트-투-비디오(T2V) 확산 모델의 발전으로 생성된 비디오의 시각적 품질이 크게 향상되었습니다. 그러나 최근의 T2V 모델들도 텍스트 설명을 정확히 따르는 데 어려움을 겪고 있으며, 특히 프롬프트가 공간적 레이아웃이나 객체 궤적의 정확한 제어를 요구할 때 더욱 그러합니다. 최근 연구들은 레이아웃 가이던스를 사용하여 T2V 모델을 개선하려고 시도했는데, 이는 추론 시간 동안 주의 맵의 미세 조정이나 반복적인 조작을 필요로 합니다. 이는 메모리 요구량을 크게 증가시켜 대형 T2V 모델을 백본으로 채택하기 어렵게 만듭니다. 이를 해결하기 위해, 우리는 다중 모드 계획과 구조화된 노이즈 초기화를 기반으로 한 훈련이 필요 없는 T2V 생성 가이던스 방법인 Video-MSG를 소개합니다. Video-MSG는 세 단계로 구성되며, 처음 두 단계에서 Video-MSG는 최종 비디오를 위한 세밀한 시공간적 계획인 Video Sketch를 생성합니다. 이는 배경, 전경, 그리고 객체 궤적을 초안 비디오 프레임 형태로 명시합니다. 마지막 단계에서 Video-MSG는 노이즈 역전과 노이즈 제거를 통해 Video Sketch를 사용하여 하위 T2V 확산 모델을 가이드합니다. 특히, Video-MSG는 추론 시간 동안 추가 메모리를 사용한 미세 조정이나 주의 조작이 필요 없어 대형 T2V 모델을 더 쉽게 채택할 수 있습니다. Video-MSG는 인기 있는 T2V 생성 벤치마크(T2VCompBench 및 VBench)에서 여러 T2V 백본(VideoCrafter2 및 CogVideoX-5B)과 함께 텍스트 정렬을 향상시키는 데 효과적임을 입증합니다. 우리는 노이즈 역전 비율, 다양한 배경 생성기, 배경 객체 탐지, 그리고 전경 객체 분할에 대한 포괄적인 절제 연구를 제공합니다.
의료 영상 분야에서 주요 과제는 개인정보 보호 문제, 물류적 어려움, 그리고 높은 라벨링 비용으로 인해 대규모 라벨 데이터를 수집하는 데 있습니다. 본 연구에서는 UK 바이오뱅크 MRI 데이터셋을 기반으로 한 가장 큰 규모의 신체 장기 라벨 데이터셋인 UK Biobank Organs and Bones(UKBOB)를 소개합니다. 이 데이터셋은 51,761개의 MRI 3D 샘플(17.9백만 개의 2D 이미지에 해당)과 72개 장기에 대한 13.7억 개 이상의 2D 세그멘테이션 마스크를 포함합니다. 우리는 자동 라벨링을 활용하고, 장기별 필터를 도입한 자동 라벨 정제 파이프라인을 소개하며, 11개의 복부 클래스에 대해 300개의 MRI를 수동으로 주석 처리하여 데이터셋의 품질을 검증했습니다(이를 UKBOB-manual이라고 함). 이 접근법은 데이터셋 수집을 확장하면서도 라벨의 신뢰성을 유지할 수 있게 합니다. 또한, 필터링된 UKBOB로 훈련된 모델이 유사한 도메인의 다른 소규모 라벨 데이터셋(예: 복부 MRI)에서 제로샷 일반화를 보임으로써 라벨의 유효성을 추가로 확인했습니다. 노이즈가 있는 라벨의 영향을 더욱 완화하기 위해, 우리는 세그멘테이션 출력을 개선하기 위한 새로운 방법인 엔트로피 테스트 시간 적응(Entropy Test-time Adaptation, ETTA)을 제안합니다. 우리는 UKBOB를 사용하여 Swin-UNetr 아키텍처를 기반으로 한 3D 의료 영상 세그멘테이션을 위한 기초 모델인 Swin-BOB를 훈련시켰으며, BRATS 뇌 MRI 종양 챌린지(0.4% 개선) 및 BTCV 복부 CT 스캔 벤치마크(1.3% 개선)를 포함한 여러 3D 의료 영상 벤치마크에서 최첨단 결과를 달성했습니다. 사전 훈련된 모델과 코드는 https://emmanuelleb985.github.io/ukbob에서 확인할 수 있으며, 필터링된 라벨은 UK 바이오뱅크와 함께 공개될 예정입니다.
3D 그래픽스 편집은 영화 제작 및 게임 디자인과 같은 애플리케이션에서 중요한 역할을 하지만, 여전히 시간이 많이 소요되며 고도의 전문 지식을 요구하는 과정입니다. 이 과정을 자동화하는 것은 도전적인 과제인데, 그래픽 편집은 각기 다른 기술 세트를 요구하는 다양한 작업을 수행해야 하기 때문입니다. 최근, 비전-언어 모델(VLMs)이 편집 과정을 자동화하기 위한 강력한 프레임워크로 등장했지만, 이들의 개발과 평가는 인간 수준의 인식을 요구하고 실제 세계의 편집 복잡성을 제시하는 포괄적인 벤치마크의 부재로 인해 병목 현상을 겪고 있습니다. 본 연구에서는 3D 그래픽스 편집을 위한 첫 번째 포괄적인 VLM 시스템 벤치마크인 BlenderGym을 소개합니다. BlenderGym은 코드 기반 3D 재구성 작업을 통해 VLM 시스템을 평가합니다. 우리는 폐쇄형 및 오픈소스 VLM 시스템을 평가하고, 최첨단 VLM 시스템조차도 인간 Blender 사용자에게는 상대적으로 쉬운 작업에서 어려움을 겪는 것을 관찰했습니다. BlenderGym을 통해 우리는 추론 스케일링 기술이 그래픽스 편집 작업에서 VLM의 성능에 미치는 영향을 연구합니다. 특히, 우리의 연구 결과는 생성의 스케일링을 안내하는 데 사용되는 검증기 자체가 추론 스케일링을 통해 개선될 수 있음을 보여주며, 이는 코딩 및 수학 작업에서 LLM 생성의 추론 스케일링에 대한 최근의 통찰을 보완합니다. 또한, 우리는 추론 컴퓨팅이 균일하게 효과적이지 않으며, 생성과 검증 사이에 전략적으로 분배함으로써 최적화될 수 있음을 보여줍니다.
본 연구는 알츠하이머병(AD)을 중심으로 ADNI 데이터베이스의 뇌 MRI를 사례 연구로 활용하여, 의료 영상 분야에서 효율적이고 의미 있는 비지도 학습을 위한 새로운 인코더-디코더 확산 기반 프레임워크인 Latent Diffusion Autoencoder(LDAE)를 제안합니다. 기존의 이미지 공간에서 작동하는 확산 오토인코더와 달리, LDAE는 압축된 잠재 표현 공간에 확산 프로세스를 적용함으로써 계산 효율성을 개선하고 3D 의료 영상 표현 학습을 실현 가능하게 합니다. 제안된 접근법을 검증하기 위해, 우리는 두 가지 핵심 가설을 탐구합니다: (i) LDAE는 AD 및 노화와 관련된 3D 뇌 MRI의 의미 있는 의미론적 표현을 효과적으로 포착하며, (ii) LDAE는 계산적으로 효율적이면서도 고품질의 이미지 생성 및 재구성을 달성합니다. 실험 결과는 두 가설을 모두 지지합니다: (i) 선형 프로브 평가는 AD 진단(ROC-AUC: 90%, ACC: 84%) 및 연령 예측(MAE: 4.1년, RMSE: 5.2년)에서 유망한 성능을 보여줍니다; (ii) 학습된 의미론적 표현은 속성 조작을 가능하게 하여 해부학적으로 타당한 수정을 제공합니다; (iii) 의미론적 보간 실험은 6개월 간격의 누락된 스캔에 대해 SSIM 0.969(MSE: 0.0019)의 강력한 재구성 성능을 보여줍니다. 더 긴 간격(24개월)에서도 모델은 견고한 성능(SSIM > 0.93, MSE < 0.004)을 유지하며, 시간적 진행 추세를 포착하는 능력을 나타냅니다; (iv) 기존의 확산 오토인코더와 비교하여, LDAE는 추론 처리량을 크게 증가시키며(20배 빠름) 재구성 품질도 향상시킵니다. 이러한 결과는 LDAE를 확장 가능한 의료 영상 응용 분야에서 유망한 프레임워크로 자리매김하며, 의료 영상 분석을 위한 기초 모델로서의 잠재력을 보여줍니다. 코드는 https://github.com/GabrieleLozupone/LDAE에서 확인할 수 있습니다.
최근 추론 시간 계산(inference-time compute) 분야의 발전으로, 대규모 추론 모델(Large Reasoning Models, LRMs)을 사용하여 긴 사고 연쇄(chain of thought, CoTs)를 생성함으로써 복잡한 작업에서의 성능이 크게 향상되었습니다. 그러나 이러한 정확도 향상은 생성된 추론 시퀀스의 길이와 디코딩의 자기회귀적 특성으로 인해 높은 추론 지연 시간(latency)을 초래합니다. 이러한 오버헤드를 해결하기 위한 우리의 핵심 통찰은 LRM 추론과 그 안에 내포된 추론이 근사치에 대해 매우 관대하다는 점입니다. 복잡한 작업은 일반적으로 더 간단한 단계로 분해되며, 각 단계는 정확한 토큰을 생성하는 것보다는 하위 단계에 대한 의미론적 통찰을 제공함으로써 유용성을 가집니다. 이에 따라, 우리는 SpecReason 시스템을 소개합니다. 이 시스템은 가벼운 모델을 사용하여 (추측적으로) 간단한 중간 추론 단계를 수행하고, 비용이 많이 드는 기본 모델은 추측된 출력을 평가(및 필요 시 수정)하는 데만 사용함으로써 LRM 추론을 자동으로 가속화합니다. 특히, SpecReason는 최종 답변의 정확성을 보존하기 위해 사고 토큰의 의미론적 유연성을 활용하는 데 초점을 맞추며, 이는 각 단계에서 토큰 수준의 동등성을 요구하는 기존의 추측 디코딩(speculative decoding) 기술과 상호 보완적입니다. 다양한 추론 벤치마크에서 SpecReason는 기본 LRM 추론 대비 1.5-2.5배의 속도 향상을 달성하면서 정확도를 1.0-9.9% 개선했습니다. SpecReason 없이 추측 디코딩을 사용한 경우와 비교했을 때, 이 둘을 결합하면 추가로 19.4-44.2%의 지연 시간 감소를 얻을 수 있었습니다. 우리는 SpecReason를 https://github.com/ruipeterpan/specreason에서 오픈소스로 공개했습니다.
우리는 단일 야외 이미지에서 인체와 물체 간의 3D 접촉점을 추정하고, 이를 통해 정확한 3D 인간-물체 공동 재구성을 가능하게 하는 새로운 방법인 InteractVLM을 소개합니다. 이는 가려짐, 깊이 모호성, 그리고 다양한 물체 형태로 인해 어려운 과제입니다. 기존 방법들은 비용이 많이 드는 모션 캡처 시스템이나 지루한 수동 라벨링을 통해 수집된 3D 접촉 주석에 의존하여 확장성과 일반화가 제한됩니다. 이를 극복하기 위해 InteractVLM은 제한된 3D 접촉 데이터로 미세 조정된 대규모 Vision-Language 모델(VLM)의 광범위한 시각 지식을 활용합니다. 그러나 이러한 모델을 직접 적용하는 것은 간단하지 않습니다. 이 모델들은 2D에서만 추론하지만, 인간-물체 접촉은 본질적으로 3D이기 때문입니다. 따라서 우리는 새로운 Render-Localize-Lift 모듈을 도입했습니다. 이 모듈은 (1) 다중 뷰 렌더링을 통해 3D 몸체와 물체 표면을 2D 공간에 임베딩하고, (2) 새로운 다중 뷰 위치 추정 모델(MV-Loc)을 훈련시켜 2D에서 접촉을 추론하며, (3) 이를 3D로 리프트합니다. 또한, 우리는 Semantic Human Contact estimation이라는 새로운 작업을 제안합니다. 이 작업에서는 인간 접촉 예측이 물체 의미론에 명시적으로 조건화되어 더 풍부한 상호작용 모델링을 가능하게 합니다. InteractVLM은 접촉 추정에서 기존 작업을 능가하며, 야외 이미지에서의 3D 재구성도 용이하게 합니다. 코드와 모델은 https://interactvlm.is.tue.mpg.de에서 이용할 수 있습니다.
머신 언러닝(Machine Unlearning)은 모델에서 원치 않는 지식을 제거함으로써 대형 언어 모델(LLM)의 안전성을 향상시키는 유망한 접근법입니다. 그러나 현재 널리 사용되는 그래디언트 기반 언러닝 방법은 높은 계산 비용, 하이퍼파라미터 불안정성, 순차적 언러닝 능력의 부족, 재학습 공격에 대한 취약성, 낮은 데이터 효율성, 그리고 해석 가능성의 부재와 같은 문제를 안고 있습니다. 희소 오토인코더(Sparse Autoencoders, SAEs)는 타겟팅된 활성화 기반 언러닝을 가능하게 함으로써 이러한 측면들을 개선하는 데 적합하지만, 기존의 접근법들은 그래디언트 기반 방법들에 비해 성능이 떨어졌습니다. 본 연구는 이러한 초기 연구 결과와 달리, SAEs가 동적으로 활용될 때 언러닝을 크게 개선할 수 있음을 보여줍니다. 우리는 원칙 기반 특징 선택과 동적 분류기를 활용한 정밀 언러닝을 위한 새로운 방법인 Dynamic DAE Guardrails(DSG)를 소개합니다. 실험 결과, DSG는 주요 언러닝 방법들을 크게 능가하며 우수한 망각-유용성 균형을 달성합니다. DSG는 그래디언트 기반 언러닝 접근법의 주요 단점들을 해결합니다. 이는 향상된 계산 효율성과 안정성, 순차적 언러닝에서의 견고한 성능, 재학습 공격에 대한 강한 저항력, 제로샷 설정을 포함한 더 나은 데이터 효율성, 그리고 더 해석 가능한 언러닝을 제공합니다.