번역이 포함된 일일 선별된 AI 연구 논문
비디오 생성 기술은 상호작용적인 세계 탐험의 기반이 될 잠재력을 보이며 눈부신 발전을 이루어 왔다. 그러나 기존의 비디오 생성 데이터셋은 제한된 장소, 짧은 지속 시간, 정적인 장면, 그리고 탐험 및 세계에 대한 주석의 부족과 같은 몇 가지 한계로 인해 세계 탐험 훈련에 적합하지 않다. 본 논문에서는 일본어로 "세계"를 의미하는 Sekai를 소개한다. 이는 세계 탐험을 위한 풍부한 주석이 포함된 고품질의 일인칭 시점 전 세계 비디오 데이터셋이다. Sekai는 750개 도시에 걸쳐 100개 이상의 국가와 지역에서 촬영된 도보 또는 드론 뷰(FPV 및 UVA) 비디오 5,000시간 이상으로 구성되어 있다. 우리는 위치, 장면, 날씨, 인구 밀도, 캡션, 카메라 궤적 등의 정보를 포함하여 비디오를 수집, 전처리, 주석 처리하는 효율적이고 효과적인 툴박스를 개발했다. 실험을 통해 데이터셋의 품질을 입증하였으며, 일본어로 "꿈"을 의미하는 YUME라는 상호작용 비디오 세계 탐험 모델을 훈련하기 위해 데이터셋의 일부를 사용했다. 우리는 Sekai가 비디오 생성 및 세계 탐험 분야에 기여하고 가치 있는 응용 프로그램을 촉진할 것이라고 믿는다.
최근 비전-언어 모델(VLMs)의 발전은 대규모 언어 모델(LLMs)을 활용하여 GPT-4V와 같은 폐쇄형 시스템에 필적하는 성능을 달성했습니다. 그러나 이러한 모델을 실제 시나리오, 특히 자원이 제한된 장치에 배포하는 것은 상당한 계산 요구로 인해 여전히 어려운 과제로 남아 있습니다. 이는 대규모 VLMs의 지식을 더 작고 효율적인 모델로 증류하려는 관심을 불러일으켰습니다. 여기서 주요 도전 과제는 다양한 VLM 아키텍처에서 비롯됩니다. 이들은 서로 다른 LLMs를 기반으로 구축되며, 어휘 크기, 토큰 분할 방식, 토큰 인덱스 순서 등에서 차이가 나는 다양한 토큰 유형을 사용합니다. 특정 VLM 유형에 한정된 이러한 문제를 해결하기 위해, 우리는 VLMs를 위한 범용 증류 프레임워크인 Generation after Recalibration (GenRecal)을 제안합니다. GenRecal은 이종 VLMs 간의 특징 표현을 정렬하고 조정하는 Recalibrator를 포함하여, 서로 다른 유형의 VLMs 간에 효과적인 지식 전달을 가능하게 합니다. 여러 도전적인 벤치마크에서의 광범위한 실험을 통해, GenRecal이 베이스라인 성능을 크게 개선하고, 결국 대규모 오픈소스 및 폐쇄형 VLMs를 능가함을 입증했습니다.
분산적이고 저성능의 컴퓨팅 노드(예: 다수의 현장 인스턴스)에서 대규모 언어 모델(LLM)을 학습시키는 것은 학습 비용을 낮추고 모델의 민주화를 가능하게 한다. 그러나 이러한 환경에서는 노드의 장애와 운영자의 스케줄링 정책으로 인해 노드의 이탈이 불가피하며, 이로 인해 모델의 일부인 스테이지가 손실되는 문제가 발생한다. 기존의 장애 복구 방법은 주기적으로 전체 모델의 복사본을 추가 저장소로 전송하는 체크포인팅 또는 중복 계산을 사용하는 것이다. 이러한 방법은 장애가 발생하지 않은 경우에도 상당한 통신 및/또는 계산 오버헤드를 유발하며, 대규모 모델 환경에서는 확장성이 떨어진다. 본 논문에서는 장애가 발생한 스테이지를 가장 가까운 이웃 스테이지들의 가중 평균으로 대체하는 효율적인 복구 방법인 CheckFree를 제안한다. 최신 기술과 달리, CheckFree는 추가적인 계산이나 저장소를 필요로 하지 않는다. 그러나 이웃 스테이지들의 평균화 특성상 중간 스테이지의 장애만 복구할 수 있다는 한계가 있다. 이를 보완하기 위해, CheckFree+를 제안하여 순서가 없는 파이프라인 실행을 통해 첫 번째와 마지막 스테이지의 장애도 복구할 수 있도록 확장하였다. 순서가 없는 파이프라이닝 덕분에, 이러한 스테이지들의 동작은 이웃 스테이지들에 의해 모방되며, CheckFree+는 단순히 가장 가까운 이웃 스테이지의 가중치를 복사함으로써 이를 복구할 수 있다. (디)임베딩 레이어를 복구하기 위해, CheckFree+는 이러한 레이어를 이웃 스테이지들에 복사하며, 이는 상대적으로 작은 저장소 오버헤드를 요구한다. 우리는 124M에서 1.5B까지 다양한 모델 크기의 LLaMa 모델에 대해 다양한 장애 빈도로 제안된 방법을 광범위하게 평가하였다. 낮은 및 중간 장애 빈도(5-10%)의 경우, CheckFree와 CheckFree+는 체크포인팅과 중복 계산보다 월클럭 시간 기준으로 12% 이상 빠른 수렴 성능을 보였다. 우리의 제안은 https://github.com/gensyn-ai/CheckFree에서 제공되는 코드를 통해 실행할 수 있다.
최근 장기 사고 연쇄(Long Chain-of-Thought, Long CoT) 추론으로 훈련된 대규모 추론 모델(Large Reasoning Models, LRMs)의 발전은 놀라운 도메인 간 일반화 능력을 보여주었다. 그러나 이러한 전이를 지원하는 근본적인 메커니즘은 여전히 잘 이해되지 않고 있다. 우리는 도메인 간 일반화가 공유된 추상적 추론 프로토타입(abstract reasoning prototypes)에서 비롯된다고 가정한다. 이 프로토타입은 문제의 본질을 포착하는 기본적인 추론 패턴으로, 표현의 미묘한 차이를 최소화하여 겉보기에는 다양한 작업들이 공유된 추론 구조에 기반하고 있음을 드러낸다. 이 가설에 기반하여, 우리는 확장 가능하고 검증 가능한 프로토타입 표현(Prolog 논리 추론, PDDL 계획)을 활용하여 대형 언어 모델(LLMs)의 추론 능력을 강화하는 ProtoReasoning 프레임워크를 제안한다. ProtoReasoning은 다음과 같은 특징을 갖는다: (1) 문제를 해당 프로토타입 표현으로 변환하는 자동화된 프로토타입 구성 파이프라인, (2) Prolog/PDDL 인터프리터를 통해 신뢰할 수 있는 피드백을 제공하는 포괄적인 검증 시스템, (3) 프로토타입 공간 내에서 정확성을 보장하면서 임의로 문제를 합성할 수 있는 확장성. 광범위한 실험 결과, ProtoReasoning은 논리 추론(Enigmata-Eval)에서 기준 모델 대비 4.7%, 계획 작업에서 6.3%, 일반 추론(MMLU)에서 4.0%, 수학(AIME24)에서 1.0%의 성능 향상을 달성했다. 특히, 우리의 제거 연구(ablation studies)는 프로토타입 공간에서의 학습이 자연어 표현만을 사용한 훈련에 비해 구조적으로 유사한 문제에 대한 일반화 능력이 향상됨을 확인하며, 추론 프로토타입이 대형 언어 모델의 일반화 가능한 추론의 기반이 된다는 우리의 가설을 검증했다.
오늘날의 AI 에이전트는 대부분 고립되어 있습니다. 이들은 온라인에서 얻은 방대한 디지털 정보와 지식을 검색하고 추론하거나, 구체화된 지각, 계획 및 행동을 통해 물리적 세계와 상호작용하지만, 둘 다를 동시에 수행하는 경우는 드뭅니다. 이러한 분리는 온라인 레시피를 활용한 요리, 동적 지도 데이터를 이용한 내비게이션, 웹 지식을 활용한 실제 랜드마크 해석과 같이 물리적 및 디지털 지능의 통합을 요구하는 과제 해결 능력을 제한합니다. 우리는 구체화와 웹 규모의 추론을 유연하게 연결하는 새로운 AI 에이전트 패러다임인 '구체화 웹 에이전트(Embodied Web Agents)'를 소개합니다. 이 개념을 실현하기 위해, 먼저 현실적인 3D 실내외 환경과 기능적인 웹 인터페이스를 긴밀히 통합한 통합 시뮬레이션 플랫폼인 '구체화 웹 에이전트 과제 환경'을 개발했습니다. 이 플랫폼을 기반으로, 요리, 내비게이션, 쇼핑, 관광, 지리적 위치 파악 등 다양한 과제를 포함한 '구체화 웹 에이전트 벤치마크'를 구축하고 공개했습니다. 이 벤치마크는 물리적 및 디지털 영역을 넘나드는 조정된 추론을 요구하며, 도메인 간 지능의 체계적인 평가를 목표로 합니다. 실험 결과는 최첨단 AI 시스템과 인간의 능력 간에 상당한 성능 격차를 보여주며, 구체화된 인지와 웹 규모의 지식 접근이 교차하는 지점에서의 도전과 기회를 제시합니다. 모든 데이터셋, 코드 및 웹사이트는 프로젝트 페이지(https://embodied-web-agent.github.io/)에서 공개적으로 제공됩니다.
본 논문에서는 DiCoW(Whisper의 화자 분할 조건 변형)와 Pyannote 기반의 화자 분할 파이프라인인 DiariZen을 결합한 이중 화자 자동 음성 인식(ASR) 시스템을 제안한다. 먼저, 두 시스템을 미세 조정 없이 도메인 외(OOD) 다국어 시나리오에서 평가하였다. 이 시나리오에서 DiariZen은 기준 Pyannote 화자 분할 모델을 지속적으로 능가하며 강력한 일반화 성능을 보였다. DiCoW는 목표 화자 ASR을 위해 영어 데이터만으로 미세 조정되었음에도 불구하고, 다국어 성능을 유지하며 인코더 수정이 Whisper의 다국어 능력을 보존함을 확인하였다. 이후, MLC-SLM 챌린지 데이터를 활용하여 DiCoW와 DiariZen을 미세 조정하였다. 미세 조정된 DiariZen은 여전히 미세 조정된 Pyannote 기준 모델을 능가했으며, DiCoW는 도메인 적응을 통해 추가적인 성능 향상을 보였다. 최종 시스템은 16.75%의 마이크로 평균 tcpWER/CER을 달성하며 MLC-SLM 챌린지 Task 2에서 2위를 기록하였다. 마지막으로, 학습 데이터에서 누락된 음성 구간 및 잘못된 침묵 주석과 같은 여러 라벨링 불일치를 확인하였으며, 이러한 문제가 화자 분할 미세 조정을 방해할 수 있음을 지적하였다. 이러한 문제를 해결하고 시스템의 견고성을 향상시키기 위한 간단한 완화 전략을 제안하였다.
우리는 다중모달 과학적 맥락에서 주장을 검증하는 기초 모델의 능력을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 SciVer를 소개합니다. SciVer는 1,113편의 과학 논문에 걸쳐 전문가가 주석을 단 3,000개의 예시로 구성되어 있으며, 각각 다중모달 과학적 주장 검증에서 흔히 나타나는 추론 유형을 대표하는 네 가지 하위 집합을 포함합니다. 세밀한 평가를 가능하게 하기 위해, 각 예시에는 전문가가 주석을 단 지원 증거가 포함되어 있습니다. 우리는 o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, Qwen2.5-VL을 포함한 21개의 최첨단 다중모달 기초 모델의 성능을 평가했습니다. 실험 결과, 이러한 모델과 인간 전문가 간에 SciVer에서 상당한 성능 격차가 있음이 밝혀졌습니다. 검색 증강 생성(RAG)과 인간이 수행한 오류 평가를 통해, 우리는 현재 오픈소스 모델의 중요한 한계를 식별하고, 다중모달 과학 문헌 작업에서 모델의 이해와 추론 능력을 발전시키기 위한 핵심 통찰을 제공합니다.
개방형 장문 생성 평가는 좋은 출력과 나쁜 출력을 명확히 구분하는 기준을 정의하기 어렵기 때문에 도전적인 과제입니다. 기존 방법들은 일관성, 스타일, 관련성과 같은 핵심 요소를 놓치거나, 사전 학습 데이터에 의해 편향되는 경우가 많아, 개방형 장문 평가는 아직 충분히 탐구되지 않은 문제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 GRPO에서 개방형 장문 생성을 평가하고 좋은 출력과 나쁜 출력에 대해 구별된 보상을 통해 훈련을 안내하는 점수 모델인 PrefBERT를 제안합니다. 다양한 장문 스타일과 Likert 평점 품질을 가진 두 개의 응답 평가 데이터셋으로 훈련된 PrefBERT는 전통적인 지표인 ROUGE-L과 BERTScore보다 더 나은 의미론적 보상 피드백을 제공함으로써 GRPO를 효과적으로 지원합니다. LLM-as-a-judge, 인간 평가, 질적 분석을 포함한 포괄적인 평가를 통해, 우리는 다중 문장 및 단락 길이의 응답으로 훈련된 PrefBERT가 다양한 장문에서도 신뢰할 수 있으며 GRPO가 필요로 하는 검증 가능한 보상과 잘 일치함을 보여줍니다. 인간 평가는 PrefBERT를 보상 신호로 사용하여 정책 모델을 훈련할 때 전통적인 지표를 사용한 경우보다 인간의 선호에 더 잘 부합하는 응답을 생성함을 확인합니다. 우리의 코드는 https://github.com/zli12321/long_form_rl에서 확인할 수 있습니다.
대규모 언어 모델의 급속한 발전은 의사결정, 조정 및 작업 실행 측면에서 에이전트 시스템을 크게 진보시켰습니다. 그러나 기존의 에이전트 시스템 생성 프레임워크는 완전한 자율성이 부족하여, 처음부터 에이전트를 생성하는 기능, 자체 최적화 기능, 그리고 협업 기능이 결여되어 있어 적응성과 확장성이 제한됩니다. 우리는 SwarmAgentic을 제안합니다. 이는 언어 기반 탐색을 통해 에이전트 기능과 협업을 상호 의존적인 구성 요소로 공동 최적화하면서, 처음부터 에이전트 시스템을 구축하는 완전 자동화된 에이전트 시스템 생성 프레임워크입니다. 시스템 수준 구조에 대한 효율적인 탐색을 가능하게 하기 위해, SwarmAgentic은 후보 시스템 집단을 유지하고 피드백 기반 업데이트를 통해 이를 진화시킵니다. 이는 입자 군집 최적화(Particle Swarm Optimization, PSO)에서 영감을 받았습니다. 우리는 고수준 계획, 시스템 수준 조정 및 창의적 추론을 포함하는 6개의 실제 세계의 개방형 및 탐구형 작업에 대해 이 방법을 평가했습니다. 작업 설명과 목적 함수만 주어진 경우, SwarmAgentic은 모든 기준선을 능가하며 TravelPlanner 벤치마크에서 ADAS 대비 +261.8%의 상대적 개선을 달성하여 구조적으로 제약이 없는 작업에서 완전 자동화의 효과를 입증했습니다. 이 프레임워크는 군집 지능과 완전 자동화된 시스템 다중 에이전트 생성을 연결함으로써 확장 가능하고 자율적인 에이전트 시스템 설계로 나아가는 중요한 단계를 표시합니다. 우리의 코드는 https://yaoz720.github.io/SwarmAgentic/에서 공개되었습니다.
최근, 테스트 시간 스케일링 대형 언어 모델(LLMs)은 긴 사고의 연쇄(CoT)를 생성함으로써 과학적 및 전문적 과제에서 탁월한 추론 능력을 보여주고 있다. 이러한 추론 모델 개발의 핵심 요소로, 근위 정책 최적화(PPO) 및 그 변형으로 대표되는 강화 학습(RL)은 모델이 시행착오를 통해 학습할 수 있게 한다. 그러나 PPO는 본질적인 온-정책 특성으로 인해 시간이 많이 소요될 수 있으며, 이는 응답 길이가 증가함에 따라 더욱 악화된다. 본 연구에서는 정책 업데이트와 길이 제한 응답 생성을 간소화하여 훈련 효율성을 향상시키는 PPO의 새로운 확장인 Truncated Proximal Policy Optimization(T-PPO)을 제안한다. T-PPO는 완전히 동기화된 장기 생성 절차에서 자원이 전체 롤아웃을 기다리는 동안 유휴 상태에 머무르는 하드웨어 활용도 저하 문제를 완화한다. 우리의 기여는 두 가지이다. 첫째, 불완전한 응답에서 도출된 이점 추정을 위한 Extended Generalized Advantage Estimation(EGAE)을 제안하며, 정책 학습의 무결성을 유지한다. 둘째, 정책 모델과 가치 모델의 독립적인 최적화를 가능하게 하는 계산적으로 최적화된 메커니즘을 고안한다. 이 메커니즘은 프롬프트와 잘린 토큰을 선택적으로 필터링하여 불필요한 계산을 줄이고 수렴 성능을 희생하지 않으면서 훈련 과정을 가속화한다. 우리는 32B 기본 모델을 사용한 AIME 2024에서 T-PPO의 효과성과 효율성을 입증한다. 실험 결과는 T-PPO가 추론 LLMs의 훈련 효율성을 최대 2.5배 향상시키며 기존 경쟁자들을 능가함을 보여준다.
대규모 멀티모달 Mixture-of-Experts(MoE)는 고정된 활성 매개변수를 유지하면서 모델 크기를 효과적으로 확장하여 성능을 향상시킵니다. 그러나 기존 연구들은 주로 희소 업사이클링 동안 완전 정밀도 전문가들을 활용했습니다. 이들은 최종 작업에서 우수한 성능을 보이지만, 많은 수의 전문가들이 더 높은 메모리 사용량을 초래하여 에지 디바이스에서의 배포에 상당한 어려움을 야기합니다. 본 연구에서는 밀집 체크포인트에서 Ternary 전문가들의 혼합 모델(Mixture-of-Ternary-Experts, MoTE)을 학습하기 위한 확장 가능하고 메모리 효율적인 접근 방식을 제안합니다. 더 적은 수의 고정밀도 전문가를 학습하는 대신, 업사이클링 동안 더 많은 저정밀도 전문가를 학습하는 것을 제안합니다. 구체적으로, 사전 학습된 FFN을 공유 전문가로 사용하고, 매개변수가 {-1, 0, 1}인 삼진 라우팅 전문가를 학습합니다. 광범위한 실험을 통해 우리의 접근 방식이 모델 크기에 따라 유망한 확장 추세를 보임을 확인했습니다. MoTE는 완전 정밀도 기준선인 MoE-LLaVA와 비슷한 성능을 달성하면서 더 낮은 메모리 사용량을 제공합니다. 또한, 우리의 접근 방식은 학습 후 양자화 방법과 호환되며, 메모리 제약이 더 낮아질 때 그 장점이 더욱 증폭됩니다. 전문가 메모리 사용량이 3.4GB로 동일한 조건에서 학습 후 양자화와 결합했을 때, MoTE는 MoE-LLaVA를 최종 작업에서 평균 정확도 4.3% 향상시키며, 메모리 제약이 있는 디바이스에서의 효과성과 잠재력을 입증했습니다.
몰입형 VR 환경을 위한 3D 장면의 자동 생성은 수십 년 동안 중요한 연구 주제로 주목받아 왔다. 그러나 기존 방법들은 고다각형 메시 모델링과 사후 단순화 작업에 의존하거나, 방대한 3D 가우시안을 활용함으로써 복잡한 파이프라인 또는 제한된 시각적 현실감을 초래하는 경우가 많았다. 본 논문에서는 이러한 과도한 모델링이 몰입형 경험을 구현하는 데 불필요함을 입증한다. 우리는 간결하면서도 사실적인 세계 모델링을 위한 새로운 에이전트 기반 프레임워크인 ImmerseGen을 소개한다. ImmerseGen은 경량의 기하학적 프록시, 즉 단순화된 지형 및 빌보드 메시의 계층적 조합으로 장면을 표현하며, 이러한 프록시에 RGBA 텍스처를 합성함으로써 사실적인 외관을 생성한다. 구체적으로, 사용자 중심의 기본 세계 합성을 위한 지형 기반 텍스처링과 중경 및 전경 장면을 위한 RGBA 자산 텍스처링을 제안한다. 이러한 재구성은 다음과 같은 장점을 제공한다: (i) 에이전트가 생성 모델을 안내하여 장면과 자연스럽게 통합되는 일관된 텍스처를 생성하도록 함으로써 모델링을 단순화한다; (ii) 복잡한 기하학적 생성 및 단순화 과정을 우회하고 프록시에 직접 사실적인 텍스처를 합성함으로써 시각적 품질의 저하 없이 보존한다; (iii) 모바일 VR 헤드셋에서 실시간 렌더링에 적합한 간결한 표현을 가능하게 한다. 텍스트 프롬프트로부터 장면 생성을 자동화하기 위해, 우리는 공간 추론 및 정확한 자산 배치를 개선하기 위해 의미론적 그리드 기반 분석으로 강화된 VLM 기반 모델링 에이전트를 도입한다. ImmerseGen은 또한 다감각적 몰입을 지원하기 위해 동적 효과와 환경 음향을 장면에 추가한다. 장면 생성 및 실시간 VR 데모 실험을 통해 ImmerseGen이 기존 방법 대비 우수한 사실감, 공간적 일관성 및 렌더링 효율성을 달성함을 입증한다. 프로젝트 웹페이지: https://immersegen.github.io.
대규모 레이블 데이터셋 수집이 현실적으로 어려운 데이터 부족 영역에서 이미지 분류 모델 구축은 여전히 번거로운 작업이다. 소수 샷 이미지 분류(FSIC)를 위한 유망한 패러다임으로 등장한 인컨텍스트 학습(ICL)은 그래디언트 기반 적응 없이도 모델이 다양한 도메인 간에 일반화할 수 있게 한다. 그러나 기존 연구는 ICL 기반 FSIC 파이프라인의 중요한 구성 요소인 이미지 임베딩의 역할을 크게 간과해 왔다. 본 연구에서는 임베딩 모델의 아키텍처, 사전 학습, 그리고 학습 역학을 분석의 중심에 두는 ICL 프레임워크인 PictSure를 제안한다. 우리는 다양한 시각적 인코더 유형, 사전 학습 목표, 그리고 미세 조정 전략이 하류 FSIC 성능에 미치는 영향을 체계적으로 조사한다. 실험 결과, 임베딩 모델의 사전 학습 방식이 학습 성공과 도메인 외 성능에 크게 의존한다는 것을 보여준다. 결과적으로 PictSure는 학습 분포와 크게 다른 도메인 외 벤치마크에서 기존 ICL 기반 FSIC 모델을 능가하는 동시에 도메인 내 작업에서도 비슷한 결과를 유지한다. 코드는 https://github.com/PictSure/pictsure-library에서 확인할 수 있다.
멀티모달 대규모 언어 모델(MLLMs)은 멀티모달 추론 및 크로스모달 검색과 같은 작업에서 뛰어난 성능을 보이지만, 분산된 멀티모달 데이터와 엄격한 개인정보 보호 요구사항으로 인해 실제 시나리오에서의 배포에는 어려움이 있습니다. 연합 학습(Federated Learning, FL)은 데이터를 중앙 집중화하지 않고도 협력적인 모델 학습을 가능하게 함으로써 이러한 문제에 대한 해결책을 제공합니다. 그러나 MLLMs에 FL을 적용하는 것은 높은 계산 요구 사항, 제한된 클라이언트 용량, 상당한 통신 비용, 그리고 이질적인 클라이언트 데이터와 같은 상당한 도전 과제를 안고 있습니다. 기존의 FL 방법들은 클라이언트 측에 전체 모델을 배포한다는 가정을 하고 있지만, 이는 대규모 MLLMs의 경우 그 거대한 크기와 통신 요구 사항으로 인해 적용하기 어렵습니다. 이러한 한계를 해결하기 위해, 우리는 서버에 LLM을 중앙 집중화하고 클라이언트별 적응을 위한 경량 모듈인 NanoEdge를 도입한 최초의 FL 프레임워크인 FedNano를 제안합니다. NanoEdge는 모달리티별 인코더, 커넥터, 그리고 저랭크 적응(Low-Rank Adaptation)을 사용한 학습 가능한 NanoAdapters를 활용합니다. 이 설계는 클라이언트에 LLM을 배포할 필요를 없애고, 클라이언트 측 저장 공간을 95% 줄이며, 통신 오버헤드를 모델 파라미터의 단 0.01%로 제한합니다. FedNano는 컴팩트한 NanoAdapter 업데이트만을 전송함으로써 이질적인 클라이언트 데이터와 자원 제약을 처리하면서도 개인정보를 보호합니다. 실험 결과, FedNano는 기존의 FL 베이스라인을 능가하며, MLLM의 규모와 FL의 실현 가능성 간의 격차를 줄이고, 확장 가능한 분산형 멀티모달 AI 시스템을 가능하게 합니다.
대형 언어 모델(Large Language Models, LLMs)을 기반으로 구축된 대형 시각-언어 모델(Large Vision-Language Models, LVLMs)의 최근 발전은 시각적 특징과 LLM 표현을 정렬하는 것을 주요 패러다임으로 확립했습니다. 그러나 상속된 LLM 아키텍처 설계는 다중 모달 처리에 있어 최적이 아닌 특성을 도입합니다. 첫째, LVLMs는 주의 할당에서 이중 모드 분포를 보이며, 이는 컨텍스트가 확장됨에 따라 중간 시각적 콘텐츠가 점진적으로 무시되게 만듭니다. 둘째, 기존의 위치 인코딩 방식은 동적 고해상도 이미지를 처리할 때 중요한 2D 구조적 관계를 보존하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 CoMemo를 제안합니다. CoMemo는 시각적 처리에 컨텍스트 이미지 경로와 이미지 메모리 경로를 결합한 이중 경로 아키텍처로, 시각적 정보의 무시를 효과적으로 완화합니다. 또한, RoPE-DHR이라는 새로운 위치 인코딩 메커니즘을 도입하여, 확장된 시퀀스에서 원격 감쇠를 완화하면서도 2D 공간 인식을 유지하기 위해 썸네일 기반 위치 집계를 사용합니다. 장문 컨텍스트 이해, 다중 이미지 추론, 시각적 질문 응답을 포함한 7가지 벤치마크에서의 평가는 CoMemo가 기존 LVLM 아키텍처에 비해 우수한 성능을 보임을 입증합니다. 프로젝트 페이지는 https://lalbj.github.io/projects/CoMemo/에서 확인할 수 있습니다.
컴퓨터 사용 에이전트는 스크린샷이나 접근성 트리를 처리하여 그래픽 사용자 인터페이스와 직접 상호작용할 수 있는 LLM 기반 에이전트입니다. 이러한 시스템이 점점 인기를 얻고 있지만, 그들의 안전성은 크게 간과되어 왔으며, 유해한 행동의 잠재력을 평가하고 이해하는 것이 대중화를 위해 필수적임에도 불구하고 그러한 연구가 부족했습니다. 이러한 격차를 해결하기 위해, 우리는 컴퓨터 사용 에이전트의 안전성을 측정하기 위한 새로운 벤치마크인 OS-Harm을 소개합니다. OS-Harm은 OSWorld 환경 위에 구축되었으며, 세 가지 유형의 유해 행위(사용자의 고의적 오용, 프롬프트 주입 공격, 모델의 오작동)에 걸쳐 모델을 테스트하는 것을 목표로 합니다. 이러한 사례를 다루기 위해, 우리는 여러 유형의 안전 위반(괴롭힘, 저작권 침해, 허위 정보, 데이터 유출 등)을 포함하는 150개의 작업을 생성하고, 에이전트가 다양한 OS 애플리케이션(이메일 클라이언트, 코드 편집기, 브라우저 등)과 상호작용하도록 요구합니다. 또한, 우리는 에이전트의 정확성과 안전성을 평가하기 위한 자동화된 판단 시스템을 제안하며, 이는 인간 주석과 높은 일치도를 보입니다(F1 점수 0.76 및 0.79). 우리는 o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro와 같은 다양한 최신 모델을 기반으로 컴퓨터 사용 에이전트를 평가하고 그들의 안전성에 대한 통찰을 제공합니다. 특히, 모든 모델은 많은 고의적 오용 쿼리에 직접적으로 순응하는 경향이 있으며, 정적 프롬프트 주입에 상대적으로 취약하고, 때때로 안전하지 않은 행동을 수행합니다. OS-Harm 벤치마크는 https://github.com/tml-epfl/os-harm에서 이용 가능합니다.
최근 벤치마크들은 대규모 언어 모델(LLM)의 사실 일관성과 수사적 견고성을 탐구해 왔습니다. 그러나 사실적으로 참인 진술의 방향성 프레이밍이 모델의 동의에 미치는 영향에 대한 지식 격차가 존재하며, 이는 LLM 사용자들에게 흔히 발생하는 시나리오입니다. AssertBench는 이를 해결하기 위해 사실 검증 데이터셋인 FEVEROUS에서 증거가 뒷받침되는 사실들을 샘플링합니다. 각 (증거가 뒷받침되는) 사실에 대해, 우리는 두 가지 프레이밍 프롬프트를 구성합니다: 하나는 사용자가 해당 진술이 사실적으로 옳다고 주장하는 경우, 다른 하나는 사용자가 그것이 틀렸다고 주장하는 경우입니다. 그런 다음 모델의 동의와 추론을 기록합니다. 바람직한 결과는 모델이 스스로를 주장하며, 두 프레이밍에서 일관된 진실 평가를 유지하는 것입니다. 즉, 사용자와 동의하기 위해 평가를 바꾸는 것이 아니라 말입니다. AssertBench는 중립적으로 제시된 동일한 주장에 대한 모델의 정확도를 기반으로 결과를 계층화함으로써 프레이밍으로 인한 변동성을 모델의 기본적인 사실 지식과 분리합니다. 이를 통해, 이 벤치마크는 동일한 사실에 대해 상반된 사용자 주장이 제시될 때 LLM이 "자신의 입장을 고수"하는 능력을 측정하는 것을 목표로 합니다. 전체 소스 코드는 https://github.com/achowd32/assert-bench에서 확인할 수 있습니다.
실제 세계에서 일반적인 전신 동작을 추적할 수 있는 능력은 범용 휴머노이드 로봇을 구축하는 데 유용한 방법입니다. 그러나 이를 달성하는 것은 동작의 시간적 및 운동학적 다양성, 정책의 능력, 그리고 상체와 하체의 조정 어려움으로 인해 도전적일 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 GMT라는 일반적이고 확장 가능한 동작 추적 프레임워크를 제안합니다. GMT는 단일 통합 정책을 훈련시켜 휴머노이드 로봇이 실제 세계에서 다양한 동작을 추적할 수 있도록 합니다. GMT는 두 가지 핵심 구성 요소인 적응형 샘플링 전략과 동작 전문가 혼합(Motion Mixture-of-Experts, MoE) 아키텍처를 기반으로 구축되었습니다. 적응형 샘플링은 훈련 중 쉬운 동작과 어려운 동작을 자동으로 균형 있게 조정합니다. MoE는 동작 다양체의 다른 영역에 대한 더 나은 전문화를 보장합니다. 우리는 시뮬레이션과 실제 세계에서의 광범위한 실험을 통해 GMT의 효과를 입증하며, 통합된 일반 정책을 사용하여 다양한 동작에 걸쳐 최첨단 성능을 달성합니다. 비디오 및 추가 정보는 https://gmt-humanoid.github.io에서 확인할 수 있습니다.
확산 기반 이미지 생성 모델은 고품질의 합성 콘텐츠를 생성하는 데 뛰어나지만, 느리고 계산 비용이 많이 드는 추론 과정이 문제로 지적되어 왔다. 기존 연구에서는 확산 트랜스포머 내에서 추론 단계 간 특징을 캐싱하고 재사용함으로써 이를 완화하려는 시도가 있었다. 그러나 이러한 방법들은 경직된 휴리스틱에 의존하여 제한된 가속 효과를 보이거나 다양한 아키텍처 간 일반화가 잘 이루어지지 않는 한계가 있었다. 본 연구에서는 확산 모델 가속을 위한 진화적 캐싱(Evolutionary Caching to Accelerate Diffusion models, ECAD)을 제안한다. ECAD는 소량의 캘리브레이션 프롬프트만을 사용하여 파레토 프론티어를 형성하는 모델별 효율적인 캐싱 스케줄을 학습하는 유전 알고리즘이다. ECAD는 네트워크 매개변수나 참조 이미지에 대한 수정을 필요로 하지 않으며, 상당한 추론 속도 향상을 제공하고 품질-지연 시간 트레이드오프에 대한 세밀한 제어를 가능하게 하며, 다양한 확산 모델에 원활하게 적응한다. 특히, ECAD가 학습한 스케줄은 캘리브레이션 중에 보지 못한 해상도와 모델 변형에도 효과적으로 일반화될 수 있다. PixArt-alpha, PixArt-Sigma, FLUX-1.dev 모델을 대상으로 COCO, MJHQ-30k, PartiPrompts 등 다양한 벤치마크에서 FID, CLIP, Image Reward 등 여러 지표를 사용하여 ECAD를 평가한 결과, 기존 접근법 대비 일관된 개선을 확인하였다. PixArt-alpha에서 ECAD는 이전 최신 방법 대비 4.47 COCO FID를 개선하면서 추론 속도 향상을 2.35배에서 2.58배로 높인 스케줄을 도출하였다. 이러한 결과는 ECAD가 확산 추론 가속을 위한 확장 가능하고 일반화 가능한 접근법임을 입증한다. 프로젝트 웹사이트는 https://aniaggarwal.github.io/ecad에서 확인할 수 있으며, 코드는 https://github.com/aniaggarwal/ecad에서 제공된다.