번역이 포함된 일일 선별된 AI 연구 논문
Low-Rank Adaptation (LoRA)은 대규모 사전 학습 모델의 파라미터 효율적 미세 조정을 크게 발전시켰습니다. LoRA는 모델의 사전 학습된 가중치에 두 개의 더 작은 행렬의 곱을 추가하여 저랭크 행렬 업데이트를 형성합니다. 최근 연구에 따르면, 이 두 행렬 간의 스케일 차이가 종종 불안정한 학습 동역학을 유발하여 최적의 성능을 달성하지 못하는 것으로 나타났습니다. 본 논문에서는 SingLoRA를 제안합니다. SingLoRA는 저랭크 적응을 재구성하여 가중치 업데이트를 단일 저랭크 행렬과 그 전치 행렬의 곱으로 분해하여 학습합니다. 이 간단한 설계는 행렬 간 스케일 충돌을 본질적으로 제거하여 안정적인 최적화를 보장하며, 파라미터 수를 대략 절반으로 줄입니다. 우리는 SingLoRA를 무한 폭 신경망 프레임워크 내에서 분석하며, 이 설계가 안정적인 특징 학습을 보장함을 보여줍니다. 다양한 작업에 대한 광범위한 실험을 통해 이러한 이점을 검증했습니다. 상식 추론에서, LLama 7B를 MNLI 데이터셋에 대해 SingLoRA로 미세 조정한 결과 91.3%의 정확도를 달성하여 LoRA(89.1%)와 LoRA+(90.2%)를 능가했으며, 이는 그들의 파라미터 예산의 60%만 사용했습니다. 이미지 생성에서는 Stable Diffusion을 SingLoRA로 미세 조정하여 DreamBooth에서 이미지 충실도를 크게 개선했으며, DINO 유사도 점수로 0.151을 달성했습니다. 이는 DoRA(0.148)와 LoRA(0.143)보다 우수한 성능입니다.
대형 언어 모델(LLMs)은 특히 중간 단계를 언어화하는 명시적 사고 연쇄(CoT) 추론의 지도 하에서 인상적인 추론 능력을 보여주고 있습니다. CoT는 해석 가능성과 정확성을 모두 향상시키지만, 자연어 추론에 대한 의존성은 모델의 표현 대역폭을 제한합니다. 잠재적 추론은 이러한 병목 현상을 해결하기 위해 다단계 추론을 모델의 연속적인 은닉 상태에서 완전히 수행함으로써 토큰 수준의 감독을 제거합니다. 잠재적 추론 연구를 발전시키기 위해, 본 조사는 잠재적 추론이라는 새로운 분야에 대한 포괄적인 개요를 제공합니다. 먼저, 신경망 계층이 추론의 계산적 기반으로서의 기본적인 역할을 검토하며, 계층적 표현이 복잡한 변환을 어떻게 지원하는지 강조합니다. 다음으로, 활성화 기반 반복, 은닉 상태 전파, 명시적 추론 흔적을 압축하거나 내재화하는 미세 조정 전략 등 다양한 잠재적 추론 방법론을 탐구합니다. 마지막으로, 마스크된 확산 모델을 통한 무한 깊이 잠재적 추론과 같은 고급 패러다임을 논의하며, 이는 전역적으로 일관되고 가역적인 추론 과정을 가능하게 합니다. 이러한 관점을 통합함으로써, 우리는 잠재적 추론의 개념적 지형을 명확히 하고 LLM 인식의 최전선에서의 연구 방향을 제시하고자 합니다. 최신 논문과 저장소를 모은 관련 GitHub 저장소는 https://github.com/multimodal-art-projection/LatentCoT-Horizon/에서 확인할 수 있습니다.
명시적이고 편집 가능한 부품 구조를 가진 3D 자산의 생성은 인터랙티브 애플리케이션의 발전에 있어 핵심적이지만, 대부분의 생성 방법은 단일 형태만을 생성하여 그 유용성이 제한적입니다. 우리는 OmniPart라는 새로운 부품 인식 3D 객체 생성 프레임워크를 소개합니다. 이 프레임워크는 구성 요소 간의 높은 의미적 분리를 달성하면서도 견고한 구조적 응집력을 유지하도록 설계되었습니다. OmniPart는 이 복잡한 작업을 두 가지 상호 보완적인 단계로 독창적으로 분리합니다: (1) 자동회귀적 구조 계획 모듈은 직관적인 부품 분해를 가능하게 하는 유연한 2D 부품 마스크에 의해 결정적으로 안내되며, 직접적인 대응 관계나 의미적 레이블 없이도 제어 가능한 가변 길이의 3D 부품 경계 상자 시퀀스를 생성합니다; (2) 공간적으로 조건화된 정류 흐름 모델은 사전 훈련된 전체적 3D 생성기로부터 효율적으로 적응되어, 계획된 레이아웃 내에서 모든 3D 부품을 동시에 일관성 있게 합성합니다. 우리의 접근 방식은 사용자 정의 부품 세분화, 정확한 위치 지정을 지원하며 다양한 다운스트림 애플리케이션을 가능하게 합니다. 광범위한 실험을 통해 OmniPart가 최첨단 성능을 달성함을 입증하며, 더 해석 가능하고 편집 가능하며 다용도로 사용할 수 있는 3D 콘텐츠의 길을 열어줍니다.
LLM 기반 웹 에이전트는 최근 상당한 진전을 이루었지만, 대부분이 클로즈드 소스 시스템에서 이루어져 오픈소스 대안과의 격차가 더욱 벌어졌습니다. 이러한 진전은 두 가지 주요 과제로 인해 지연되었습니다: 첫째, 다단계 웹 상호작용의 복잡성을 간과한 단일 단계 작업에 대한 좁은 초점; 둘째, LLM 기반 웹 에이전트를 사후 학습(post-train)시키는 데 필요한 높은 컴퓨팅 비용입니다. 이를 해결하기 위해, 우리는 LLM 웹 에이전트 사후 학습을 위한 컴퓨팅 자원 할당에 대한 첫 번째 통계적 근거를 바탕으로 한 연구를 제시합니다. 우리의 접근 방식은 두 단계 파이프라인을 사용하며, Llama 3.3 70B 교사 모델을 모방하도록 Llama 3.1 8B 학생 모델을 지도 미세 조정(supervised fine-tuning, SFT)을 통해 학습시킨 후, 온-정책 강화 학습(on-policy reinforcement learning)을 수행합니다. 이 과정은 하이퍼파라미터 선택에 매우 민감하여, 모든 가능성을 탐색하는 것이 비현실적임을 발견했습니다. 다른 연구자들이 비용이 많이 드는 시행착오를 겪지 않도록, 우리는 1,370개의 구성을 샘플링하고 부트스트래핑을 사용하여 효과적인 하이퍼파라미터를 추정했습니다. 우리의 결과는 SFT와 온-정책 RL을 결합하는 것이 WorkArena와 MiniWob++ 모두에서 각각의 접근 방식만을 사용하는 것보다 일관되게 더 나은 성능을 보여준다는 것을 입증했습니다. 더 나아가, 이 전략은 MiniWob++에서 순수 SFT의 최고 성능에 도달하는 데 필요한 컴퓨팅 자원의 55%만을 요구하며, 컴퓨팅-성능 파레토 프론티어를 효과적으로 앞당기고, 클로즈드 소스 모델과의 격차를 줄일 수 있는 유일한 전략입니다.
실세계 환경에서의 비전-언어 내비게이션(Vision-and-Language Navigation, VLN)은 에이전트가 연속적인 시각 스트림을 처리하고 언어 지시에 기반하여 낮은 지연 시간으로 동작을 생성할 것을 요구한다. 비디오 기반 대형 언어 모델(Video-based Large Language Models, Video-LLMs)이 최근의 진전을 이끌었지만, 현재의 Video-LLM 기반 VLN 방법들은 세밀한 시각 이해, 장기적 문맥 모델링 및 계산 효율성 간의 트레이드오프에 직면해 있다. 우리는 StreamVLN을 소개하는데, 이는 인터리브된 비전, 언어 및 동작 입력에 대한 다중 모달 추론을 지원하기 위해 하이브리드 느린-빠른 문맥 모델링 전략을 채택한 스트리밍 VLN 프레임워크이다. 빠른 스트리밍 대화 문맥은 활성 대화의 슬라이딩 윈도우를 통해 반응적인 동작 생성을 용이하게 하며, 느린 업데이트 메모리 문맥은 3D 인식 토큰 프루닝 전략을 사용하여 역사적 시각 상태를 압축한다. 이 느린-빠른 설계를 통해 StreamVLN은 효율적인 KV 캐시 재사용을 통해 일관된 다중 턴 대화를 달성하며, 제한된 문맥 크기와 추론 비용으로 긴 비디오 스트림을 지원한다. VLN-CE 벤치마크에서의 실험은 안정적인 낮은 지연 시간과 함께 최첨단 성능을 보여주며, 실세계 배포에서의 견고성과 효율성을 보장한다. 프로젝트 페이지는 https://streamvln.github.io/이다.
자연어로 표현된 수학적 명제를 형식적이고 실행 가능한 코드로 번역하는 것은 자동화된 정리 증명에서 근본적인 과제입니다. 기존 연구는 생성과 컴파일 성공에 초점을 맞추었지만, 생성된 형식화가 원래 문제의 의미적 의도를 진정으로 반영하는지 평가하는 비평 단계에는 거의 주의를 기울이지 않았습니다. 본 논문에서는 비평의 역할을 수동적인 검증자에서 능동적인 학습 구성 요소로 격상시키는 새로운 비평 주도 강화 학습 프레임워크인 CriticLean을 소개합니다. 구체적으로, 먼저 Lean 4 형식화의 의미적 충실도를 엄격히 평가하기 위해 지도 미세 조정과 강화 학습을 통해 훈련된 CriticLeanGPT를 제안합니다. 그런 다음, 모델이 의미적으로 올바른 형식화와 잘못된 형식화를 구별하는 능력을 측정하기 위해 설계된 벤치마크인 CriticLeanBench를 소개하고, 우리가 훈련한 CriticLeanGPT 모델이 강력한 오픈소스 및 클로즈드소스 베이스라인을 크게 능가할 수 있음을 보여줍니다. CriticLean 프레임워크를 기반으로, 우리는 풍부한 도메인 다양성, 광범위한 난이도 범위, 그리고 인간 평가를 기반으로 한 높은 정확성을 보여주는 285K개 이상의 문제로 구성된 FineLeanCorpus 데이터셋을 구축했습니다. 전반적으로, 우리의 연구 결과는 신뢰할 수 있는 형식화를 생산하기 위해 비평 단계를 최적화하는 것이 필수적임을 강조하며, CriticLean이 형식적 수학적 추론의 미래 발전에 유용한 통찰력을 제공하기를 바랍니다.
대형 언어 모델(LLM)은 논리적이고 알고리즘적인 추론에서 뛰어난 성능을 보이지만, 감성 지능(EQ)은 여전히 인지 능력에 비해 크게 뒤처져 있습니다. 검증 가능한 보상에 의한 강화 학습(RLVR)이 다른 영역에서는 발전을 이루었지만, 특히 감성 지능을 위한 대화 시스템에의 적용은 아직 미흡한 상태입니다. 본 연구에서는 시뮬레이션된 사용자로부터 검증 가능한 감정 보상을 활용하여 LLM의 고차원적 공감 능력을 키우는 최초의 종단간(end-to-end) 강화 학습 프레임워크인 RLVER를 소개합니다. 이 프레임워크 내에서, 자기 일관적인 감정을 가진 시뮬레이션 사용자들은 대화 롤아웃에 참여하며 대화 중에 결정론적인 감정 점수를 생성하여, LLM의 학습을 안내하는 보상 신호로 작용합니다. 공개된 Qwen2.5-7B-Instruct 모델을 PPO로 미세 조정한 결과, Sentient-Benchmark 점수가 13.3에서 79.2로 크게 향상되었으며, 수학 및 코딩 능력은 대부분 유지되었습니다. 광범위한 실험을 통해 다음과 같은 사실을 발견했습니다: (i) RLVER는 다양한 대화 능력을 지속적으로 개선합니다; (ii) 사고 모델과 비사고 모델은 서로 다른 경향을 보입니다—사고 모델은 공감과 통찰에서 뛰어나고, 비사고 모델은 행동에 더 치중합니다; (iii) GRPO는 안정적인 성과를 보이는 반면, PPO는 특정 능력을 더 높은 수준으로 끌어올릴 수 있습니다; (iv) 더 어려운 환경이 항상 더 나은 결과를 가져오는 것은 아닙니다—적당한 환경이 더 강력한 결과를 낼 수 있습니다. 우리의 결과는 RLVER가 감성 지능을 갖추고 다양한 능력을 가진 언어 에이전트를 개발하는 실용적인 방법임을 보여줍니다.
최근 비디오 생성 분야의 발전은 개방형 도메인 설정에서 놀라운 진전을 보여주었지만, 의료 비디오 생성은 여전히 크게 미개척된 상태로 남아 있습니다. 의료 비디오는 임상 훈련, 교육, 시뮬레이션과 같은 응용 분야에서 매우 중요하며, 높은 시각적 충실도뿐만 아니라 엄격한 의학적 정확성을 요구합니다. 그러나 현재의 모델들은 의료 프롬프트에 적용될 때 비현실적이거나 오류가 있는 콘텐츠를 생성하는 경우가 많으며, 이는 주로 의료 도메인에 맞춰진 대규모 고품질 데이터셋의 부족 때문입니다. 이러한 격차를 해결하기 위해, 우리는 의료 비디오 생성을 위한 첫 번째 대규모, 다양성, 캡션이 풍부한 데이터셋인 MedVideoCap-55K를 소개합니다. 이 데이터셋은 실제 의료 시나리오를 아우르는 55,000개 이상의 선별된 클립으로 구성되어 있으며, 일반적인 의료 비디오 생성 모델을 훈련하기 위한 강력한 기반을 제공합니다. 이 데이터셋을 기반으로 우리는 MedGen을 개발했으며, 이는 오픈소스 모델 중에서 선두적인 성능을 달성하고 시각적 품질과 의학적 정확성 모두에서 여러 벤치마크에서 상용 시스템과 경쟁합니다. 우리의 데이터셋과 모델이 가치 있는 자원으로 활용되고 의료 비디오 생성 연구를 더욱 촉진하는 데 도움이 되기를 바랍니다. 우리의 코드와 데이터는 https://github.com/FreedomIntelligence/MedGen에서 확인할 수 있습니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 플랫폼(예: Linux) 간에 자율적으로 작동하여 시각적 요소와 상호작용하며 작업을 완료합니다. 구체적으로, 사용자 지시는 GUI와의 상호작용에 해당하는 일련의 액션 제안으로 분해됩니다. 각 액션 후, 에이전트는 업데이트된 GUI 환경을 관찰하여 다음 단계를 계획합니다. 그러나 두 가지 주요 과제가 발생합니다: i) 작업 계획(즉, 액션 제안 시퀀스)에서의 모호성 해결, 이는 적절한 계획을 선택하는 것이 사소하지 않을 수 있으며 많은 유효한 계획이 존재할 수 있기 때문입니다; ii) 복잡하고 고해상도의 인터페이스에서 액션을 정확하게 기반으로 하는 것, 즉 시각적 타겟과 정확하게 상호작용하는 것입니다. 본 논문은 GUI 테스트 타임 스케일링 에이전트, 즉 GTA1을 통해 앞서 언급한 두 가지 과제를 조사합니다. 먼저, 가장 적절한 액션 제안을 선택하기 위해 테스트 타임 스케일링 방법을 도입합니다. 각 단계에서 여러 후보 액션 제안을 샘플링하고, 판단 모델을 활용하여 가장 적합한 것을 평가하고 선택합니다. 이는 동시 샘플링을 통해 계산을 교환하여 더 나은 결정 품질을 얻고, 작업 실행 단계를 단축하며, 전반적인 성능을 향상시킵니다. 둘째, 선택된 액션 제안을 해당 시각적 요소에 정확하게 기반으로 하는 모델을 제안합니다. 우리의 핵심 통찰은 강화 학습(RL)이 내재된 목표 정렬을 통해 시각적 기반을 촉진하고, 인터페이스 요소에 성공적으로 클릭하는 것을 보상한다는 것입니다. 실험적으로, 우리의 방법은 다양한 벤치마크에서 최첨단 성능을 확립합니다. 예를 들어, GTA1-7B는 Screenspot-Pro, Screenspot-V2, OSWorld-G에서 각각 50.1%, 92.4%, 67.7%의 정확도를 달성합니다. 테스트 타임 스케일링 전략을 적용한 플래너와 결합할 때, 최첨단 에이전트 성능을 보입니다(예: OSWorld에서 45.2% 작업 성공률). 우리는 코드와 모델을 여기에 오픈소스로 공개합니다.
생물학적 에이전트가 경험하고 상호작용하는 실제 세계 환경의 알고리즘적 대리자로 여겨지는 월드 모델(World Model)은 최근 인공(일반) 지능을 갖춘 가상 에이전트 개발에 대한 수요가 증가하면서 주목받는 주제가 되었습니다. 월드 모델이 무엇인지, 어떻게 구축할지, 어떻게 사용할지, 그리고 어떻게 평가할지에 대해 많은 논의가 있어 왔습니다. 본 에세이에서는 유명한 SF 클래식 <듄>에서의 상상력을 출발점으로 삼고, 심리학 문헌에서의 "가설적 사고" 개념에서 영감을 얻어 월드 모델링에 대한 여러 학파의 견해를 비판적으로 검토하며, 월드 모델의 주요 목표는 목적 지향적 추론과 행동을 위해 실제 세계의 모든 실행 가능한 가능성을 시뮬레이션하는 것이라고 주장합니다. 이러한 비판을 바탕으로, 우리는 계층적, 다단계, 연속/이산 혼합 표현과 생성적 자기 지도 학습 프레임워크를 기반으로 한 범용 월드 모델의 새로운 아키텍처를 제안하며, 이러한 모델로 가능해지는 물리적, 행위적, 중첩적(PAN) AGI 시스템에 대한 전망을 제시합니다.
이집트 방언을 위해 특별히 설계된 Nile-Chat-4B, 3x4B-A6B, 12B 모델을 소개합니다. 이 모델들은 아랍어와 라틴 문자로 작성된 텍스트를 이해하고 생성할 수 있도록 고안되었습니다. 특히 Nile-Chat-3x4B-A6B 모델에서는 Branch-Train-MiX 전략을 활용하여 스크립트 전문가들을 단일 MoE(Mixture of Experts) 모델로 통합하는 새로운 언어 적응 방식을 도입했습니다. 우리의 Nile-Chat 모델들은 새롭게 도입된 이집트 평가 벤치마크에서 LLaMa, Jais, ALLaM과 같은 주요 다국어 및 아랍어 LLM들을 크게 능가하는 성능을 보여줍니다. 특히, 12B 모델은 라틴 문자 벤치마크에서 Qwen2.5-14B-Instruct 대비 14.4%의 성능 향상을 달성했습니다. 모든 리소스는 공개적으로 제공됩니다. 이 연구는 현대 LLM 개발에서 종종 간과되는 이중 스크립트 언어에 대한 적응 방법론을 포괄적으로 제시한다고 믿습니다.
데이터 스케일링은 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야의 기초 모델에서 놀라운 성공을 이끌어냈지만, 로봇 매니퓰레이션에서 효과적인 데이터 스케일링의 원칙은 아직 충분히 이해되지 않고 있습니다. 본 연구에서는 작업(무엇을 할 것인가), 구현체(어떤 로봇을 사용할 것인가), 전문가(누가 시연할 것인가)라는 세 가지 핵심 차원을 검토함으로써 로봇 학습에서 데이터 다양성의 미묘한 역할을 탐구하며, "다양성이 많을수록 좋다"는 기존의 직관에 도전합니다. 다양한 로봇 플랫폼에서의 광범위한 실험을 통해 우리는 (1) 작업 다양성이 작업당 시연 횟수보다 더 중요하며, 이는 다양한 사전 학습 작업에서 새로운 다운스트림 시나리오로의 전이에 유리하다는 점, (2) 다중 구현체 사전 학습 데이터는 크로스 구현체 전이에 필수적이지 않으며, 고품질의 단일 구현체 데이터로 훈련된 모델이 다른 플랫폼으로 효율적으로 전이될 수 있고, 다중 구현체 사전 학습 모델보다 미세 조정 중 더 바람직한 스케일링 특성을 보인다는 점, (3) 전문가 다양성은 개인의 운영 선호도와 인간 시연의 확률적 변동으로 인해 정책 학습에 혼란을 줄 수 있으며, 속도 다중성이 주요 요인으로 나타난다는 점을 밝혔습니다. 이러한 통찰을 바탕으로, 우리는 속도 모호성을 완화하기 위한 분포 편향 제거 방법을 제안하며, 이를 통해 GO-1-Pro는 15%의 상당한 성능 향상을 달성했고, 이는 2.5배의 사전 학습 데이터를 사용한 것과 동등한 효과를 보였습니다. 종합적으로, 이러한 발견들은 로봇 매니퓰레이션 데이터셋을 효과적으로 확장하는 방법에 대한 새로운 관점과 실질적인 지침을 제공합니다.
대형 언어 모델(LLMs)은 코드 생성 분야에서 놀라운 진전을 이루었지만, 그들의 진정한 프로그래밍 역량은 아직 충분히 탐구되지 않았습니다. 우리는 코드 삼각형(Code Triangle) 프레임워크를 소개하며, 이는 LLMs를 세 가지 기본 차원에서 체계적으로 평가합니다: 편집 분석, 코드 구현, 그리고 테스트 케이스 생성. 경쟁 프로그래밍 벤치마크를 통한 광범위한 실험을 통해, 우리는 LLMs가 이러한 차원들에서 자체 일관된 시스템을 형성할 수 있지만, 그들의 솔루션은 종종 인간 프로그래머의 다양성과 견고성을 결여하고 있음을 밝혔습니다. 우리는 모델 인지와 인간 전문 지식 사이에 상당한 분포 변화가 있음을 확인했으며, 모델 오류는 훈련 데이터 편향과 제한된 추론 전이로 인해 군집화되는 경향이 있습니다. 우리의 연구는 인간이 생성한 편집물, 솔루션, 그리고 다양한 테스트 케이스를 통합하고, 모델 혼합을 활용함으로써 LLMs의 성능과 견고성을 크게 향상시킬 수 있음을 보여줍니다. 더 나아가, 우리는 LLMs의 인지에서 일관성과 불일치를 모두 드러내며, 이는 자기 반성과 자기 개선을 촉진할 수 있어 더 강력한 코딩 모델 개발을 위한 잠재적인 방향을 제공합니다.
트랜스포머(Transformers) 및 RNN과 같은 시퀀스 모델은 종종 관련 없는 컨텍스트에 과도하게 주의를 할당하여 노이즈가 많은 중간 표현을 생성합니다. 이는 환각(hallucination)을 촉진하고, 장거리 및 검색 능력을 약화시키며, 견고성을 감소시켜 대형 언어 모델(LLM)의 성능을 저하시킵니다. 최근 연구에 따르면, 차별적 설계(differential design)를 통해 트랜스포머에서 이러한 문제를 완화할 수 있으며, 이를 통해 다양한 애플리케이션에서의 효과를 개선할 수 있음이 입증되었습니다. 본 논문에서는 트랜스포머를 위해 개발된 이러한 기술이, 최근 등장한 선택적 상태-공간 레이어(selective state-space layers)를 기반으로 트랜스포머 수준의 성능을 더 높은 효율성으로 달성하는 Mamba 아키텍처에 적용될 수 있는지 탐구합니다. 우리는 Mamba에 차별적 설계를 단순히 적용하는 것만으로는 충분하지 않으며, 신중한 아키텍처 수정이 필요함을 보여줍니다. 이를 해결하기 위해, 우리는 Mamba를 위한 새로운 차별적 메커니즘을 제안하고, 언어 모델링 벤치마크에서 실험적으로 검증하여 검색 능력의 개선 및 기본 Mamba 대비 우수한 성능을 입증합니다. 마지막으로, 우리는 설계 선택을 정당화하고 Mamba 기반 모델에서의 과도한 주의 할당 문제를 효과적으로 완화한다는 증거를 제공하기 위해 광범위한 제거 연구(ablation studies)와 실험적 분석을 수행합니다. 우리의 코드는 공개되어 있습니다.
대형 언어 모델(LLM)은 최근 정보 검색에서의 재순위화 작업에 적용되어 강력한 성능을 보여주고 있다. 그러나 이들의 높은 계산 요구량은 실제 배포를 방해하는 경우가 많다. 기존 연구들은 LLM 기반 재순위화기의 효율성을 지연 시간, 순방향 패스 횟수, 입력 토큰 수, 출력 토큰 수와 같은 대리 지표를 사용하여 평가한다. 그러나 이러한 지표들은 하드웨어 및 실행 시간 선택(예: 병렬 여부, 배치 크기 등)에 의존하며, 종종 모델 크기를 고려하지 않아 해석이 어렵고 효율성-효과성 트레이드오프 평가를 모호하게 만든다. 이 문제를 해결하기 위해, 우리는 LLM 기반 재순위화기를 위한 E2R-FLOPs를 제안한다: 계산당 관련성을 나타내는 PetaFLOP당 순위 지표(RPP)와 하드웨어에 독립적인 처리량을 나타내는 PetaFLOP당 쿼리 수(QPP). 새로운 지표와 함께, 실험을 실행하지 않고도 LLM 기반 재순위화기의 FLOPs를 추정할 수 있는 해석 가능한 FLOPs 추정기를 구축하였다. 제안된 지표를 기반으로, 우리는 다양한 아키텍처를 가진 LLM 기반 재순위화기를 평가하기 위한 포괄적인 실험을 수행하여 효율성-효과성 트레이드오프를 연구하고 이 문제를 연구 커뮤니티의 주목으로 이끌었다.
최첨단 대규모 다중모달 모델(LMMs)은 고해상도 이미지를 처리할 때 어려움에 직면합니다. 이러한 입력은 방대한 시각적 토큰으로 변환되는데, 이 중 상당수는 다운스트림 작업과 무관합니다. 본 논문에서는 LMMs가 다중 턴 대화 프레임워크 내에서 모델이 예측한 위치 좌표를 기반으로 하위 이미지를 자동으로 잘라내어 핵심 시각적 영역에 반복적으로 집중할 수 있도록 하는 종단 간 강화 학습(RL) 프레임워크인 Multi-turn Grounding-based Policy Optimization(MGPO)을 제안합니다. 비용이 많이 드는 추가적인 위치 주석이 필요한 지도 미세 조정(SFT)과 비교하여, 우리의 접근 방식은 LMMs가 최종 답변의 정확성에서 도출된 이진 보상 함수만을 활용하여 RL 훈련 과정에서 강력한 위치 파악 능력을 발현할 수 있음을 강조합니다. 또한, LMMs가 롤아웃 과정에서 시각적 위치 파악을 자율적으로 트리거하는 데 어려움을 겪는 것을 관찰했습니다. 이러한 콜드 스타트 문제를 해결하기 위해, 우리는 다중 턴 대화 템플릿을 설계하고 정책 손실 계산을 여러 대화 라운드에서 생성된 모델 출력으로 제한함으로써 안정적인 최적화를 촉진합니다. 광범위한 실험 결과, 위치 주석 없이 표준 시각-질문-짧은 답변 데이터에 대해 훈련된 MGPO는 GRPO에 비해 더 강력한 위치 파악 능력을 효과적으로 이끌어내어, 인-분포 MME-Realworld에서 5.4%, 도전적인 아웃-오브-분포(OOD) V* Bench에서 5.2%의 개선을 보였습니다. 특히, 21K 샘플로 Qwen2.5-VL-7B에 대해 사후 훈련된 MGPO는 OOD V* Bench에서 OpenAI의 o1 및 GPT-4o 모델을 능가했습니다. 코드는 https://github.com/EvolvingLMMs-Lab/MGPO에서 확인할 수 있습니다.
딥러닝 기반 계산 방법은 단백질-단백질 상호작용(PPI) 예측에서 유망한 결과를 달성했습니다. 그러나 기존 벤치마크는 주로 고립된 쌍별 평가에 초점을 맞추어, 생물학 연구에 중요한 생물학적으로 의미 있는 PPI 네트워크를 재구성하는 모델의 능력을 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 그래프 수준 관점에서 단백질-단백질 상호작용 예측을 평가하는 첫 번째 포괄적인 벤치마크인 PRING을 소개합니다. PRING은 21,484개의 단백질과 186,818개의 상호작용으로 구성된 고품질의 다종 PPI 네트워크 데이터셋을 구축하며, 데이터 중복과 누출을 해결하기 위한 잘 설계된 전략을 포함합니다. 이 금표준 데이터셋을 기반으로, 우리는 두 가지 상호 보완적인 평가 패러다임을 설정했습니다: (1) 토폴로지 중심 작업으로, 종내 및 종간 PPI 네트워크 구성을 평가하고, (2) 기능 중심 작업으로, 단백질 복합체 경로 예측, GO 모듈 분석, 필수 단백질 정당화를 포함합니다. 이러한 평가는 모델이 네트워크 토폴로지를 이해하는 능력을 반영할 뿐만 아니라, 단백질 기능 주석, 생물학적 모듈 탐지, 심지어 질병 메커니즘 분석을 촉진합니다. 시퀀스 유사성 기반, 순수 시퀀스 기반, 단백질 언어 모델 기반, 구조 기반 접근법으로 구성된 네 가지 대표적인 모델 범주에 대한 광범위한 실험은 현재 PPI 모델이 PPI 네트워크의 구조적 및 기능적 특성을 복구하는 데 잠재적인 한계가 있음을 보여주며, 실제 생물학적 응용을 지원하는 데 있어 격차를 강조합니다. 우리는 PRING이 커뮤니티를 위해 더 효과적인 PPI 예측 모델 개발을 안내하는 신뢰할 수 있는 플랫폼을 제공한다고 믿습니다. PRING의 데이터셋과 소스 코드는 https://github.com/SophieSarceau/PRING에서 이용할 수 있습니다.
인공지능(AI)은 의료 분야에서 상당한 잠재력을 가지고 있지만, 의료 데이터의 다양성, 복잡한 작업, 그리고 개인정보 보호의 필요성으로 인해 AI의 훈련과 배포에는 여러 도전 과제가 존재합니다. 의료 작업에서 우수한 성능을 보이며 작업별 튜닝 데이터가 적게 필요한 기초 모델은 의료 AI 애플리케이션의 개발을 가속화하는 데 중요합니다. 본 연구에서는 Gemma 3 4B와 27B를 기반으로 한 의료 비전-언어 기초 모델 컬렉션인 MedGemma를 소개합니다. MedGemma는 이미지와 텍스트에 대한 고급 의료 이해 및 추론 능력을 보여주며, 유사한 크기의 생성 모델을 크게 능가하고 작업별 모델의 성능에 근접하는 동시에 Gemma 3 기본 모델의 일반적인 기능을 유지합니다. 분포 외 작업에서 MedGemma는 의료 다중모드 질의응답에서 2.6-10%, 흉부 X-레이 발견 분류에서 15.5-18.1%, 그리고 에이전트 평가에서 10.8%의 성능 향상을 기본 모델 대비 달성했습니다. MedGemma를 미세 조정하면 하위 도메인에서의 성능이 더욱 개선되어 전자 건강 기록 정보 검색에서 오류를 50% 줄이고, 기흉 분류 및 조직병리학 패치 분류에서 기존의 특화된 최신 방법과 비슷한 성능에 도달했습니다. 또한, SigLIP에서 파생된 의료용 비전 인코더인 MedSigLIP를 소개합니다. MedSigLIP는 MedGemma의 시각적 이해 능력을 뒷받침하며, 인코더로서 특화된 의료 이미지 인코더와 비슷하거나 더 나은 성능을 달성합니다. 종합적으로, MedGemma 컬렉션은 의료 이미지와 텍스트 기능에 대한 강력한 기초를 제공하며, 의료 연구 및 하위 애플리케이션 개발을 크게 가속화할 잠재력을 가지고 있습니다. MedGemma 컬렉션은 튜토리얼 및 모델 가중치와 함께 https://goo.gle/medgemma에서 확인할 수 있습니다.
최근 'segment anything' 연구들은 대규모 데이터 학습을 통해 유망한 결과를 보여주고 있지만, 이러한 모델을 의료 영상에 직접 적용하는 것은 의료 데이터의 복잡성, 노이즈가 있는 주석, 다양한 모달리티와 해부학적 구조에 걸친 지속적 학습 요구 사항으로 인해 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 SAM-2 아키텍처를 기반으로 한 새로운 의료 영상 분할 기반 모델인 SAMed-2를 제안합니다. 구체적으로, 이미지 인코더에 시간적 어댑터를 도입하여 이미지 간 상관관계를 포착하고, 신뢰도 기반 메모리 메커니즘을 통해 높은 확신을 가진 특징을 저장하여 나중에 검색할 수 있도록 합니다. 이 메모리 기반 전략은 대규모 의료 데이터셋에서 흔히 발생하는 노이즈를 상쇄하고, 새로운 작업이나 모달리티를 접할 때 발생하는 치명적 망각(catastrophic forgetting)을 완화합니다. SAMed-2를 학습하고 평가하기 위해, 우리는 7가지 영상 모달리티와 21개의 의료 분할 작업을 아우르는 포괄적인 데이터셋인 MedBank-100k를 구축했습니다. 내부 벤치마크와 10개의 외부 데이터셋에서의 실험 결과, SAMed-2는 다중 작업 시나리오에서 최신 기법들을 능가하는 우수한 성능을 보여주었습니다. 코드는 https://github.com/ZhilingYan/Medical-SAM-Bench에서 확인할 수 있습니다.
모션 기반 비디오 생성을 위한 확산 트랜스포머 모델의 최근 발전, 특히 Tora와 같은 모델은 상당한 진전을 보여주었습니다. 본 논문에서는 Tora의 개선된 버전인 Tora2를 소개하며, 외형과 모션 커스터마이제이션 능력을 확장하기 위한 여러 설계 개선 사항을 제안합니다. 구체적으로, 우리는 다중 오픈 세트 엔티티에 대한 포괄적인 개인화 임베딩을 생성하는 분리된 개인화 추출기를 도입하여, 기존 방법보다 미세한 시각적 세부 사항을 더 잘 보존합니다. 이를 바탕으로, 각 엔티티의 궤적, 텍스트 설명 및 시각적 정보를 통합하기 위한 게이트된 자기 주의 메커니즘을 설계했습니다. 이 혁신은 훈련 중 다중 모달 조건 간의 불일치를 크게 줄입니다. 또한, 모션과 개인화 임베딩 간의 명시적 매핑을 통해 궤적 역학과 엔티티 일관성을 공동으로 최적화하는 대조 손실을 도입했습니다. 우리가 아는 한, Tora2는 비디오 생성을 위한 외형과 모션의 동시 다중 엔티티 커스터마이제이션을 달성한 첫 번째 방법입니다. 실험 결과는 Tora2가 최첨단 커스터마이제이션 방법과 경쟁력 있는 성능을 달성하면서도 고급 모션 제어 기능을 제공함을 보여주며, 이는 다중 조건 비디오 생성 분야에서 중요한 진전을 이룬 것입니다. 프로젝트 페이지: https://github.com/alibaba/Tora.
장문맥 처리 능력은 대규모 언어 모델(LLMs)의 기본적인 역량으로 자리 잡았습니다. 모델의 장문맥 성능을 평가하기 위해 다양한 장문맥 평가 벤치마크가 제안되었습니다. 그러나 이러한 벤치마크 간의 평가 설정 차이로 인해 일관되지 않은 결과가 도출되어, 신뢰할 수 있는 비교를 수행하기 어려운 상황입니다. 또한, 장문맥 평가의 높은 계산 비용은 커뮤니티가 장문맥 모델을 포괄적으로 평가하는 데 있어 상당한 장벽으로 작용하고 있습니다. 본 논문에서는 장문맥 평가를 위한 포괄적이고 효율적인 프레임워크인 LOOM-Scope를 제안합니다. LOOM-Scope는 다양한 벤치마크 간의 평가 설정을 표준화하고, 효율적인 장문맥 추론 가속 방법의 배포를 지원하며, 모델을 포괄적으로 평가하기 위한 가볍고도 종합적인 벤치마크 스위트를 도입합니다. 홈페이지: https://loomscope.github.io
우리는 대규모 언어 모델(LLM)을 위한 학습 기반 4비트 가중치 양자화 솔루션인 any4를 소개한다. any4는 가중치나 활성화의 전처리 없이도 임의의 수치 표현을 제공한다. 다양한 모델 크기, 세대 및 계열(Llama 2, Llama 3, Mistral, Mixtral)에 대해 평가한 결과, any4는 다른 관련 4비트 수치 표현 유형(int4, fp4, nf4)에 비해 더 높은 정확도를 보였다. any4는 가중치나 활성화의 전처리를 요구하지 않으면서도, 이러한 전처리가 필요한 AWQ나 GPTQ와 같은 직교 기술과도 경쟁력을 갖추고 있다. 또한, any3와 any2를 실험하여 더 낮은 비트 수에서도 경쟁력을 입증했다. 더불어, 대부분의 양자화 접근법에서와 같이 데이터셋의 수백 개 샘플 대신 단 하나의 선별된 다양한 샘플을 사용하여 보정할 수 있음을 보여준다. 또한, LLM을 위한 지연 시간 최적화 GPU 행렬 곱셈 라이브러리인 tinygemm을 오픈소스로 공개한다. 이 라이브러리는 GPU 효율적인 룩업 테이블 전략을 통해 any4를 구현하며, 다른 일반적인 양자화 방법도 함께 제공한다. 우리의 코드는 https://github.com/facebookresearch/any4에서 오픈소스로 공개되어 있다.
대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 동시에 학습 데이터를 암기하는 현상도 나타낸다. 이러한 현상은 모델의 행동, 프라이버시 위험, 그리고 학습과 암기 사이의 경계에 대한 중요한 질문을 제기한다. 이러한 문제를 다루기 위해, 본 논문은 최근 연구를 종합하고 암기 현상의 전반적인 상황, 이를 영향을 미치는 요인, 그리고 이를 탐지하고 완화하는 방법을 조사한다. 우리는 학습 데이터의 중복, 학습 동역학, 미세 조정 절차 등 데이터 암기에 영향을 미치는 주요 요인들을 탐구한다. 또한, 접두사 기반 추출, 멤버십 추론, 적대적 프롬프팅과 같은 방법론들을 검토하며, 암기된 콘텐츠를 탐지하고 측정하는 데 있어 이들의 효과를 평가한다. 기술적 분석을 넘어, 우리는 암기 현상의 법적 및 윤리적 함의를 포함한 더 넓은 영향을 탐구한다. 마지막으로, 데이터 정제, 차등 프라이버시, 학습 후 망각과 같은 완화 전략을 논의하며, 유해한 암기를 최소화하면서 유용성을 유지하는 데 있어 열려 있는 과제들을 강조한다. 본 논문은 기술적, 프라이버시, 성능 차원에서 LLM 암기에 관한 현재 연구 동향을 종합적으로 개괄하며, 향후 연구를 위한 중요한 방향을 제시한다.
시맨틱 장면 완성(Semantic Scene Completion, SSC)은 단일 이미지로부터 장면의 3D 기하학적 구조와 의미를 추론하는 것을 목표로 한다. 기존의 SSC 연구가 비용이 많이 드는 정답(ground-truth) 주석에 크게 의존하는 것과 달리, 우리는 비지도 학습 환경에서 SSC에 접근한다. 우리의 새로운 방법인 SceneDINO는 자기 지도 표현 학습(self-supervised representation learning)과 2D 비지도 장면 이해(unsupervised scene understanding) 기술을 SSC에 적용한다. 우리의 학습은 의미론적 또는 기하학적 정답 없이 다중 뷰 일관성(multi-view consistency) 자기 지도만을 활용한다. 단일 입력 이미지가 주어지면, SceneDINO는 순전파 방식으로 3D 기하학적 구조와 표현력 있는 3D DINO 특징을 추론한다. 새로운 3D 특징 증류(3D feature distillation) 접근법을 통해, 우리는 비지도 3D 의미론을 획득한다. 3D 및 2D 비지도 장면 이해에서 SceneDINO는 최첨단 분할 정확도를 달성한다. 우리의 3D 특징에 선형 탐사(linear probing)를 적용하면, 현재의 지도 학습 SSC 접근법의 분할 정확도와 일치한다. 또한, 우리는 SceneDINO의 도메인 일반화 및 다중 뷰 일관성을 보여주며, 단일 이미지 3D 장면 이해를 위한 강력한 기반을 마련하는 첫걸음을 내딛는다.
구성적 이해는 인간 지능에 있어 핵심적이지만, 현대의 시각 모델들이 이를 보이는지는 여전히 불분명합니다. 현재의 지배적인 머신러닝 패러다임은 데이터와 모델 크기를 확장함으로써 분포 외 성능, 특히 구성적 일반화 능력이 향상될 것이라는 전제에 기반하고 있습니다. 우리는 데이터 규모, 개념 다양성, 조합 범위를 체계적으로 변화시키는 통제된 실험을 통해 이 전제를 검증했습니다. 그 결과, 구성적 일반화는 단순한 데이터 규모가 아닌 데이터 다양성에 의해 주도된다는 것을 발견했습니다. 조합 범위의 증가는 모델이 선형적으로 분해된 표현 구조를 발견하도록 강제하는데, 이 구조에서는 개념들이 가법적 구성 요소로 분해됩니다. 우리는 이 구조가 효율성의 핵심이며, 소수의 관찰된 조합으로부터 완벽한 일반화를 가능하게 한다는 것을 증명했습니다. 사전 훈련된 모델(DINO, CLIP)을 평가한 결과, 무작위 수준 이상이지만 불완전한 성능을 보였는데, 이는 이 구조가 부분적으로 존재함을 시사합니다. 우리의 연구는 구성적 일반화를 위해 다양한 데이터셋 구축에 더 큰 강조를 두고, 효율적인 구성적 학습을 가능하게 하는 표현 구조의 중요성을 고려할 필요성을 제기합니다. 코드는 https://github.com/oshapio/visual-compositional-generalization에서 확인할 수 있습니다.
텍스트-이미지 생성 기술의 발전은 주로 영어 중심으로 이루어져 왔으며, 이는 비영어권 사용자들에게 장벽을 만들고 디지털 불평등을 고착화시켜 왔다. 기존 시스템들은 번역 파이프라인에 의존하지만, 이는 의미적 오차, 계산적 오버헤드, 그리고 문화적 불일치를 초래한다. 우리는 NeoBabel이라는 새로운 다국어 이미지 생성 프레임워크를 소개한다. 이 프레임워크는 성능, 효율성, 그리고 포용성 측면에서 새로운 파레토 최적 경계를 설정하며, 영어, 중국어, 네덜란드어, 프랑스어, 힌디어, 그리고 페르시아어 등 6개 언어를 지원한다. 이 모델은 대규모 다국어 사전 학습과 고해상도 지침 튜닝의 조합을 통해 훈련되었다. 그 능력을 평가하기 위해, 우리는 두 개의 영어 전용 벤치마크를 다국어 버전으로 확장하였다: m-GenEval과 m-DPG. NeoBabel은 강력한 영어 능력을 유지하면서도 최신의 다국어 성능을 달성하였으며, m-GenEval에서 0.75점, m-DPG에서 0.68점을 기록하였다. 특히, 영어 작업에서는 선두 모델들과 동등한 성능을 보이면서도 다국어 벤치마크에서는 +0.11과 +0.09로 그들을 능가하였다. 이는 다국어 기반 LLM을 기반으로 구축된 모델들임에도 불구하고 우리의 타겟팅된 정렬 훈련이 교차 언어 일반화를 보존하고 확장하는 데 효과적임을 보여준다. 우리는 또한 다국어 정렬과 코드 혼합 프롬프트에 대한 견고성을 엄격하게 평가하기 위해 두 가지 새로운 메트릭을 도입하였다. 특히, NeoBabel은 영어 전용 모델들과 동등하거나 그들을 능가하면서도 크기가 2-4배 더 작다. 우리는 포용적인 AI 연구를 진전시키기 위해 모든 코드, 모델 체크포인트, 124M개의 다국어 텍스트-이미지 쌍으로 구성된 큐레이션된 데이터셋, 그리고 표준화된 다국어 평가 프로토콜을 포함한 오픈 툴킷을 공개한다. 우리의 작업은 다국어 능력이 트레이드오프가 아니라 생성적 AI의 견고성, 효율성, 그리고 문화적 충실도를 향상시키는 촉매제임을 입증한다.
우리는 대규모 딥러닝 모델의 확장 가능하고 고성능인 학습을 용이하게 하는 프로덕션 딥러닝 시스템인 AXLearn을 설계하고 구현했습니다. 다른 최첨단 딥러닝 시스템과 비교하여, AXLearn은 모듈성과 이기종 하드웨어 인프라 지원에 독특한 초점을 맞추고 있습니다. AXLearn의 소프트웨어 구성 요소 간 내부 인터페이스는 엄격한 캡슐화를 따르며, 이기종 컴퓨팅 인프라에서 신속한 모델 개발과 실험을 가능하게 하기 위해 다양한 구성 요소를 조립할 수 있도록 합니다. 우리는 Lines-of-Code (LoC) 복잡성을 통해 모듈성을 정량화하는 새로운 방법을 소개하며, 이는 우리 시스템이 다른 시스템에서의 선형 또는 이차 복잡성과 달리 시스템 구성 요소를 확장함에 따라 일정한 복잡성을 유지하는 방식을 보여줍니다. 이를 통해 Rotary Position Embeddings (RoPE)와 같은 기능을 AXLearn에 통합할 때, 다른 시스템에서는 수백 줄의 코드가 필요한 반면, AXLearn에서는 단 10줄의 코드로 수백 개의 모듈에 걸쳐 이를 가능하게 합니다. 동시에, AXLearn은 최첨단 학습 시스템과 동등한 성능을 유지합니다. 마지막으로, AXLearn의 개발과 운영 과정에서 얻은 경험을 공유합니다.
최근 그래프 확산 모델(Graph Diffusion Models, GDMs)의 발전으로 현실적인 네트워크 구조 합성이 가능해졌지만, 생성된 데이터의 공정성을 보장하는 것은 여전히 중요한 과제로 남아 있습니다. 기존의 해결책들은 임시적인 공정성 제약 조건을 추가하여 GDMs를 재학습함으로써 편향을 완화하려고 시도해 왔습니다. 이와는 달리, 본 연구에서는 사전 학습된 GDM의 생성 과정에서 직접 실행되는 속성 전환(attribute switching) 메커니즘을 활용한 새로운 공정 그래프 생성 프레임워크인 FAROS를 제안합니다. 기술적으로, 이 접근 방식은 생성 과정에서 노드의 민감한 속성(sensitive attributes)을 변경하는 방식으로 작동합니다. 이를 위해 FAROS는 전환할 노드의 최적 비율을 계산하고, 다중 기준 제약 조건을 설정하여 전환을 수행할 확산 단계를 선택합니다. 이는 원본 분포에서의 노드-토폴로지 프로파일(정확도의 대리 지표)을 보존하면서도 생성된 그래프에서 민감한 속성에 대한 간선 독립성(공정성의 대리 지표)을 보장하기 위함입니다. 링크 예측을 위한 벤치마크 데이터셋에서의 실험 결과, 제안된 접근 방식이 다른 유사한 베이스라인들과 비교하여 견줄 만한(또는 더 높은) 정확도 성능을 유지하면서도 공정성 격차를 효과적으로 줄이는 것으로 나타났습니다. 특히, FAROS는 파레토 최적성(Pareto optimality) 개념 하에서 테스트된 일부 설정에서 다른 경쟁자들보다 더 나은 정확도-공정성 균형을 달성할 수 있었으며, 이는 부과된 다중 기준 제약 조건의 효과를 입증합니다.