번역이 포함된 일일 선별된 AI 연구 논문
인간은 다중 감각 시너지를 통해 추상적 개념을 학습하며, 일단 형성된 이러한 표상은 단일 양식에서도 종종 재생될 수 있습니다. 이러한 원리에 영감을 받아, 본 연구에서는 3D 내부 양식 자기 디스틸레이션과 2D-3D 교차 양식 공동 임베딩을 결합한 공간 인지를 위한 인간 개념 학습의 극소형 시뮬레이션인 Concerto를 소개합니다. 간결함에도 불구하고 Concerto는 제로샷 시각화를 통해 입증된 바와 같이 더 일관적이고 정보량이 풍부한 공간 특징을 학습합니다. 3D 장면 인지를 위한 선형 탐사에서 Concerto는 단독 SOTA 2D 및 3D 자기 지도 모델을 각각 14.2%, 4.8% 능가하며, 이들의 특징 연결보다도 뛰어난 성능을 보입니다. 전체 미세 조정 시 Concerto는 여러 장면 이해 벤치마크에서 새로운 SOTA 결과를 수립합니다(예: ScanNet에서 80.7% mIoU). 또한 비디오 기반 포인트 클라우드 공간 이해에 특화된 Concerto 변형과 Concerto 표상을 CLIP의 언어 공간으로 선형 투영하여 개방형 세계 인지를 가능하게 하는 번역기를 제시합니다. 이러한 결과는 Concerto가 우수한 세밀 기하학적 및 의미론적 일관성을 지닌 공간 표상을 생성함을 보여줍니다.
실제 세계의 과제는 다양한 세분화 수준에서의 의사 결정을 요구하며, 인간은 계획이 근본적으로 높은 수준의 행동으로 이해되는 통합된 인지 표현을 활용함으로써 이에 탁월하게 대처합니다. 그러나 현재의 대규모 언어 모델(LLM) 기반 에이전트는 의사 결정 세분화 수준을 유연하게 넘나드는 이 중요한 능력이 부족합니다. 이러한 한계는 높은 수준의 계획과 낮은 수준의 행동을 엄격하게 분리하는 기존 패러다임에서 비롯되며, 이는 동적 적응성을 저해하고 일반화를 제한합니다. 우리는 이러한 한계를 해결하기 위한 새로운 패러다임인 ReCode(Recursive Code Generation)를 제안합니다. ReCode는 단일 코드 표현 내에서 계획과 행동을 통합합니다. 이 표현에서 ReCode는 높은 수준의 계획을 추상적인 플레이스홀더 함수로 취급하며, 에이전트는 이를 기본 행동에 도달할 때까지 더 세분화된 하위 함수로 재귀적으로 분해합니다. 이 재귀적 접근법은 계획과 행동 사이의 경계를 허물어 에이전트가 의사 결정의 세분화 수준을 동적으로 제어할 수 있게 합니다. 더 나아가, 재귀적 구조는 본질적으로 풍부한 다중 세분화 수준의 훈련 데이터를 생성하여 모델이 계층적 의사 결정 과정을 학습할 수 있게 합니다. 광범위한 실험을 통해 ReCode가 추론 성능에서 선진 베이스라인을 크게 능가하며 훈련에서도 탁월한 데이터 효율성을 보여줌으로써, 재귀적 코드 생성을 통한 계획과 행동의 통합이 보편적인 세분화 제어를 달성하는 강력하고 효과적인 접근법이라는 우리의 핵심 통찰을 입증했습니다. 코드는 https://github.com/FoundationAgents/ReCode에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 발전으로 복잡한 데이터 관련 작업을 해결하기 위해 데이터 + AI 생태계를 조율하도록 설계된 자율 시스템인 데이터 에이전트의 출현이 촉진되고 있습니다. 그러나 현재 '데이터 에이전트'라는 용어는 용어적 모호성과 채택 불일치 문제를 겪으며, 단순한 질의 응답 시스템과 정교한 자율 아키텍처를 혼동하고 있습니다. 이러한 용어적 모호성은 사용자 기대치 불일치, 책임성 문제, 그리고 산업 성장의 장벽을 초래합니다. 자동화 주행 분야의 SAE J3016 표준에서 영감을 받은 본 연구는 데이터 에이전트를 위한 최초의 체계적인 계층적 분류 체계를 제안합니다. 이 체계는 수동 운영(L0)에서 생성형 완전 자율 데이터 에이전트(L5)의 비전에 이르기까지 자율성의 점진적 변화를 구분하고 추적하는 6단계로 구성되어, 능력의 경계와 책임 할당을 명확히 합니다. 이러한 관점을 통해 우리는 자율성 수준이 증가하는 순서로 배열된 기존 연구를 체계적으로 검토하며, 데이터 관리, 준비, 분석을 위한 특화된 데이터 에이전트와 더 높은 자율성을 지닌 다목적 포괄 시스템을 향한 신흥 연구를 아우릅니다. 나아가 데이터 에이전트의 발전을 위한 핵심 진화적 도약과 기술적 격차, 특히 데이터 에이전트가 절차적 실행에서 자율적 조율로 진화하는 진행 중인 L2에서 L3으로의 전환을 분석합니다. 마지막으로, 우리는 능동적이고 생성적인 데이터 에이전트의 도래를 예견하는 미래 지향적인 로드맵을 제시하며 결론을 맺습니다.
원시 데이터 분포의 명시적 가능도를 직접 모델링하는 것은 기계 학습 분야의 핵심 주제로, 자기회귀 모델링을 통해 대규모 언어 모델에서 확장적 성공을 거두었습니다. 그러나 시각적 픽셀 데이터에 대한 연속적 자기회귀 모델링은 극단적으로 긴 시퀀스와 고차원 공간 문제에 직면합니다. 본 논문에서는 원시 픽셀로부터 직접 추정 가능한 가능도와 고품질 이미지 생성을 위해 정규화 흐름과 자기회귀 모델을 통합한 새로운 종단간 생성 프레임워크인 FARMER를 제안합니다. FARMER는 가역적 자기회귀 흐름을 통해 이미지를 잠재 시퀀스로 변환하며, 이 시퀀스의 분포는 자기회귀 모델에 의해 암묵적으로 모델링됩니다. 픽셀 수준 모델링의 중복성과 복잡성을 해결하기 위해 NF 잠재 채널을 정보적 그룹과 잉여 그룹으로 분할하는 자기 지도 차원 축소 기법을 제안하여 더 효과적이고 효율적인 AR 모델링을 가능하게 합니다. 더 나아가 추론 속도를 획기적으로 가속화하는 일단계 지식 증류 기법과 이미지 생성 품질을 향상시키는 리샘플링 기반 classifier-free guidance 알고리즘을 설계했습니다. 광범위한 실험을 통해 FARMER가 정확한 가능도 추정과 확장 가능한 훈련을 제공하면서도 기존 픽셀 기반 생성 모델 대비 경쟁력 있는 성능을 달성함을 입증했습니다.
현재의 시각-언어-행동(VLA) 모델은 경직되고 정적인 상호작용 패러다임에 제한되는 경우가 많아, 사용자의 실시간 인터럽트를 동적으로 처리하고 동시에 보고, 듣고, 말하고, 행동하는 능력이 부족합니다. 이는 원활한 구현형 협업을 저해하여 유연하지 못하고 반응성이 낮은 사용자 경험을 초래합니다. 이러한 한계를 해결하기 위해 우리는 행동 동시성과 준 실시간 인터럽트를 모두 지원하는 새로운 구현형 상호작용 프레임워크인 VITA-E를 소개합니다. 우리 접근법의 핵심은 두 개의 병렬 VLA 인스턴스가 '액티브 모델'과 '대기 모델'로 운영되는 이중 모델 아키텍처로, 구현형 에이전트가 환경을 관찰하고 사용자 음성을 듣고 음성 응답을 제공하며 행동을 실행하는 모든 작업을 인간과 유사한 멀티태스킹 능력처럼 동시적·인터럽트 가능하게 수행할 수 있도록 합니다. 또한 모델의 추론과 시스템의 행동을 결합하기 위해 VLM을 미세 조정하여 시스템 수준의 직접 명령어 역할을 하는 특수 토큰을 생성하는 '모델-어즈-컨트롤러' 패러다임을 제안합니다. 물리적 휴머노이드 플랫폼에서 수행된 실험 결과, VITA-E가 복잡한 상호작용 시나리오를 안정적으로 처리할 수 있음을 입증했습니다. 우리의 프레임워크는 다양한 이중 시스템 VLA 모델과 호환되며, 비상 정지 및 음성 인터럽트에서 극히 높은 성공률을 달성함과 동시에 음성과 행동의 동시 수행에도 성공합니다. 이는 더 자연스럽고 능력 있는 구현형 어시스턴트로 나아가는 중요한 진전을 나타냅니다.
오디오 기반 인간 애니메이션 모델은 시간적 자기회귀 생성 과정에서 종종 정체성 드리프트(identity drift) 문제를 겪습니다. 즉, 시간이 지남에 따라 캐릭터의 정체성이 점차 흐려지는 현상이 발생합니다. 한 가지 해결책은 열화 현상을 방지하는 중간 시간적 기준점으로 키프레임을 생성하는 것이지만, 이는 별도의 키프레임 생성 단계를 필요로 하고 자연스러운 동적 움직임을 제한할 수 있습니다. 이를 해결하기 위해 우리는 현재 생성 창(window) 내부가 아닌, 미래 시간대의 키프레임을 활용하는 'Lookahead Anchoring' 기법을 제안합니다. 이는 키프레임을 고정된 경계가 아닌 방향성 신호(directional beacon)로 전환합니다. 모델은 즉각적인 오디오 신호에 반응하면서도 이러한 미래 기준점을 지속적으로 추구함으로써 일관된 정체성을 유지합니다. 또한 이 방법은 참조 이미지가 미리 보기 대상(lookahead target) 역할을 하는 자기 키프레임 생성(self-keyframing)을 가능하게 하여 키프레임 생성 단계 자체를 완전히 제거합니다. 우리는 시간적 미리 보기 거리(lookahead distance)가 표현력과 일관성 사이의 균형을 자연스럽게 제어한다는 것을 발견했습니다. 즉, 거리가 클수록 움직임의 자유도가 높아지고, 거리가 짧을수록 정체성 유지가 강화됩니다. 최근의 세 가지 인간 애니메이션 모델에 적용한 결과, Lookahead Anchoring 기법이 우수한 입 동기화, 정체성 보존 및 시각적 품질을 달성하여 여러 다른 아키텍처에서 개선된 시간적 조건 설정(temporal conditioning) 성능을 입증했습니다. 영상 결과는 다음 링크에서 확인할 수 있습니다: https://lookahead-anchoring.github.io.
인간은 자연스럽게 3차원 세계의 기하학적 구조와 의미론적 내용을 상호 연관된 차원으로 인지함으로써 복잡한 장면을 일관적이고 정확하게 이해합니다. 그러나 기존 연구의 대부분은 저수준 3차원 재구성을 위한 대규모 기하학 모델 학습을 우선시하고 고수준 공간 이해를 별개로 취급함으로써, 3차원 장면 분석의 두 가지 근본적 측면 간 중요한 상호작용을 간과했습니다. 이로 인해 일반화 능력이 제한되고 하류 3차원 이해 과제에서 성능이 저하되는 결과를 초래했습니다. 최근 일부 시도는 특정 언어 모델과 3차원 모델을 단순히 정렬하는 방식으로 이 문제를 완화하려 했으나, 이는 인식 능력을 정렬된 모델의 용량에 국한시키고 하류 과제에 대한 적응성을 제한합니다. 본 논문에서는 공간 재구성과 인스턴스 수준 문맥 이해에 대한 지식을 통합하는 end-to-end 대규모 통합 트랜스포머인 InstanceGrounded Geometry Transformer(IGGT)를 제안합니다. 구체적으로, 우리는 2차원 시각 입력만으로 기하학적 구조와 인스턴스 기반 클러스터링을 포함하는 통합 표현을 인코딩하도록 IGGT를 지도하는 3D-Consistent Contrastive Learning 전략을 설계했습니다. 이 표현은 2차원 시각 입력을 명시적으로 구분된 객체 인스턴스가 포함된 일관된 3차원 장면으로의 consistent lifting을 지원합니다. 이러한 과제를 위해 우리는 새로운 데이터 큐레이션 파이프라인을 통해 고품질 RGB 이미지, pose, 깊이 맵, 그리고 3차원 일관성 있는 인스턴스 수준 마스크 주석을 포함한 대규모 데이터셋인 InsScene-15K를 추가로 구축했습니다.
확산 및 흐름 매칭 모델은 다양한 장면과 지시에 일반화할 수 있는 시각-언어-행동(VLA) 모델을 가능하게 하는 강력한 로봇 정책으로 부상했습니다. 그러나 모방 학습을 통해 훈련될 때, 이들의 높은 생성 능력은 인간 시연 데이터의 노이즈(갑작스러운 움직임, 멈춤, 떨림 등)에 민감하게 반응하여 행동 일관성을 저하시키는 단점이 있습니다. 이러한 행동 일관성 감소는 실제 배포 시 불안정성과 궤적 오차를 초래하며, 정밀도가 중요한 세밀한 조작 작업에서는 치명적인 실패로 이어집니다. 본 논문에서는 VLA 모델을 위한 훈련 없이도 적용 가능한 테스트 단계 지도 알고리즘인 행동 일관성 지도(ACG)를 제안합니다. ACG는 행동 일관성을 향상시켜 성능 향상을 가져옵니다. RoboCasa, DexMimicGen 및 실제 SO-101 작업에 대해 평가한 결과, ACG는 다양한 조작 작업에서 행동 일관성을 지속적으로 개선하고 성공률을 높이는 것으로 나타났습니다. 코드와 프로젝트 페이지는 각각 https://github.com/DAVIAN-Robotics/ACG 와 https://DAVIAN-Robotics.github.io/ACG 에서 확인할 수 있습니다.
텍스트 임베딩 모델은 실제 검색 애플리케이션의 핵심 구성 요소로 작동합니다. 질의와 문서를 공유 임베딩 공간에 매핑함으로써 높은 효율성과 함께 경쟁력 있는 검색 성능을 제공합니다. 그러나 순위 지정 정확도는 전용 리랭커, 특히 최근의 LLM 기반 리스트와이즈(listwise) 리랭커와 비교할 때 여전히 제한적입니다. 이러한 리랭커는 세분화된 질의-문서 및 문서-문서 간 상호작용을 포착합니다. 본 논문에서는 간단하면서도 효과적인 통합 프레임워크인 E^2Rank(Efficient Embedding-based Ranking, 즉 임베딩 기반 순위 지정을 의미하며 Embedding-to-Rank를 함께 의미함)를 제안합니다. E^2Rank는 단일 텍스트 임베딩 모델이 리스트와이즈 순위 지정 목표 하의 지속적 학습을 통해 고품질 검색과 리스트와이즈 리랭킹을 모두 수행하도록 확장하여 뛰어난 효율성과 함께 강력한 효과성을 달성합니다. 질의와 문서 임베딩 간의 코사인 유사도를 통합 순위 함수로 적용함으로써, 원본 질의와 그 후보 문서들로 구성된 리스트와이즈 순위 지정 프롬프트는 기존 검색 모델의 유사 관련성 피드백(PRF)과 유사하게, 상위 K개 문서로부터의 신호로 강화된 향상된 질의 역할을 합니다. 이 설계는 기본 임베딩 모델의 효율성과 표현 품질을 유지하면서도 그 리랭킹 성능을 크게 향상시킵니다. 실험적으로 E^2Rank는 BEIR 리랭킹 벤치마크에서 최첨단 결과를 달성하고, 추론이 집중적인 BRIGHT 벤치마크에서도 매우 낮은 리랭킹 지연 시간으로 경쟁력 있는 성능을 입증했습니다. 또한 순위 지정 학습 과정이 MTEB 벤치마크에서의 임베딩 성능을 향상시킴을 보여줍니다. 우리의 연구 결과는 단일 임베딩 모델이 검색과 리랭킹을 효과적으로 통일하여 계산 효율성과 경쟁력 있는 순위 지정 정확도를 모두 제공할 수 있음을 시사합니다.
대규모 멀티모달 모델(LMM)은 사실적인 화질과 프롬프트 정렬을 갖춘 이미지 생성에서 놀라운 진전을 보였으나, 특히 세부 속성이나 시의성 있는 사건을 다루는 프롬프트에서 검증 가능한 지식과 모순되는 결과를 생성하는 경우가 많습니다. 기존의 검색 증강 접근법은 외부 정보 도입을 통해 이 문제를 해결하려 시도하지만, 정적 출처와 피상적 증거 통합에 의존하기 때문에 정확하고 변화하는 지식에 기반한 생성의 근거를 마련하는 데 근본적 한계가 있습니다. 이러한 격차를 해소하기 위해 우리는 시각적 사실성과 사실적 근거성을 모두 요구하는 새로운 과제인 사실적 이미지 생성(FIG)을 위한 에이전트 기반 오픈 멀티모달 검색 증강 프레임워크인 ORIG를 제안합니다. ORIG는 웹에서 멀티모달 증거를 반복적으로 검색 및 필터링하고 정제된 지식을 점진적으로 통합하여 풍부한 프롬프트를 구성함으로써 생성을 유도합니다. 체계적인 평가를 위해 우리는 지각, 구성, 시간 차원에 걸친 10개 범주로 구성된 벤치마크 FIG-Eval을 구축했습니다. 실험 결과, ORIG는 강력한 베이스라인 대비 사실적 일관성과 전반적인 이미지 품질을 현저히 향상시켜 사실적 이미지 생성을 위한 오픈 멀티모달 검색의 잠재력을 입증했습니다.
비디오 생성은 월드 모델로 나아가는 중요한 경로이며, 효율적인 장기간 비디오 추론은 핵심 능력입니다. 이를 위해 우리는 13.6B 매개변수를 가진 기초 비디오 생성 모델인 LongCat-Video를 소개합니다. 이 모델은 여러 비디오 생성 작업에서 강력한 성능을 제공하며, 특히 효율적이고 고품질의 긴 비디오 생성에서 뛰어나 월드 모델을 향한 첫 걸음을 내디뎠습니다. 주요 특징은 다음과 같습니다: 다양한 작업을 위한 통합 아키텍처: Diffusion Transformer(DiT) 프레임워크를 기반으로 하는 LongCat-Video는 단일 모델로 텍스트-비디오, 이미지-비디오, 비디오 연속 생성 작업을 지원합니다; 긴 비디오 생성: 비디오 연속 생성 작업에 대한 사전 학습을 통해 LongCat-Video는 수 분 길이의 비디오 생성에서도 높은 품질과 시간적 일관성을 유지합니다; 효율적인 추론: LongCat-Video는 시간축과 공간축을 따라 coarse-to-fine 생성 전략을 채택하여 720p, 30fps 비디오를 수 분 내에 생성합니다. Block Sparse Attention은 특히 고해상도에서 효율성을 더욱 향상시킵니다; 다중 보상 RLHF를 통한 강력한 성능: 다중 보상 RLHF 훈련을 통해 LongCat-Video는 최신의 클로즈드 소스 및 선도적인 오픈 소스 모델들과 동등한 성능을 달성합니다. 해당 분야의 발전을 가속화하기 위해 코드와 모델 가중치를 공개합니다.
다중 헤드 어텐션(MHA)은 병렬 어텐션 헤드를 통해 표현 능력을 향상시키며 현대 대규모 언어 모델의 핵심 요소로 자리 잡았다. 그러나 헤드 수를 증가시키는 것은 본질적으로 개별 헤드의 능력을 약화시키며, 기존의 어텐션 메커니즘(표준 MHA 또는 GQA, GTA와 같은 변형 포함)은 강력한 상호작용 없이 분리된 헤드들의 출력을 단순히 연결한다. 이러한 한계를 해결하기 위해 우리는 노킹 헤드 어텐션(KHA)을 제안한다. KHA는 어텐션 헤드들이 서로 "노크"하여, 스케일드 닷-프로덕트 어텐션 이전에 헤드 간 특징 수준 상호작용을 촉진한다. 이는 모든 헤드에 걸쳐 공유되고 대각선으로 초기화된 프로젝션 행렬을 적용하여 달성된다. 대각선 초기화는 훈련 시작 시 헤드별 특화 능력을 보존하면서 모델이 점진적으로 통합된 헤드 간 표현을 학습할 수 있게 한다. KHA는 최소한의 매개변수와 FLOPs만 추가하며 MHA, GQA, GTA 및 기타 어텐션 변형에 원활하게 통합될 수 있다. 우리는 1조 개의 고품질 토큰으로 61억 개의 매개변수(10.1억 개 활성화)를 가진 MoE 모델을 학습하여 KHA를 검증했다. 기준 어텐션 메커니즘과 비교했을 때, KHA는 더 우수하고 안정적인 훈련 동역학을 보여주며 다운스트림 작업 전반에서 더 나은 성능을 달성했다.
보상 모델(RM)은 AI 행동을 인간 선호도에 정렬시키는 데 중요한 역할을 하지만 두 가지 근본적인 과제에 직면합니다: (1) **양상 불균형** - 대부분의 RM이 주로 텍스트와 이미지 양상에 집중되어 비디오, 오디오 등 다른 양상에 대한 지원이 제한된다는 점, (2) **선호도 경직성** - 고정된 이진 선호도 쌍으로 학습하면 개인화된 선호도의 복잡성과 다양성을 포착하지 못한다는 점입니다. 이러한 과제를 해결하기 위해 우리는 자유 형식 선호도를 지원하는 일반주의적 범양상 보상 모델링을 위한 단계인 **Omni-Reward**를 제안합니다. 이는 다음으로 구성됩니다: (1) **평가**: 텍스트, 이미지, 비디오, 오디오, 3D 등 5개 양상에 걸친 9개 작업을 포함하는 최초의 자유 형식 선호도 범양상 RM 벤치마크인 Omni-RewardBench를 소개합니다. (2) **데이터**: 일반주의적 범양상 RM 학습을 위한 248K개의 일반 선호도 쌍과 69K개의 지시어 튜닝 쌍으로 구성된 다중양상 선호도 데이터셋 Omni-RewardData를 구축합니다. (3) **모델**: 판별형 및 생성형 RM을 모두 포함하는 Omni-RewardModel을 제안하며, 이 모델은 Omni-RewardBench와 다른 널리 사용되는 보상 모델링 벤치마크에서 강력한 성능을 달성합니다.
멀티모달 대규모 언어 모델(MLLM)은 개방형 환경의 시각적 이해에서 강력한 범용 능력을 입증해 왔습니다. 그러나 기존 MLLM 대부분은 전체적 장면 수준 이해에 주력하며, 종종 세밀한 객체 중심 추론 필요성을 간과해왔습니다. 본 논문에서는 이미지와 비디오 모두에서 사용자 지정 영역에 대한 고급 세밀 이해를 가능하게 하는 통합 영역 수준 MLLM 프레임워크인 PixelRefer을 제시합니다. LLM 어텐션이 주로 객체 수준 토큰에 집중한다는 관찰에서 착안하여, 우리는 자유 형태 영역에서 간결하고 의미론적으로 풍부한 객체 표현을 생성하는 Scale-Adaptive Object Tokenizer(SAOT)를 제안합니다. 우리의 분석은 글로벌 시각 토큰이 주로 초기 LLM 계층에서 기여함을 보여주며, 이는 글로벌 컨텍스트를 객체 토큰에 사전 융합하는 Object-Centric Infusion 모듈을 사용하는 효율적 변형인 PixelRefer-Lite의 설계에 영감을 주었습니다. 이를 통해 계산 비용을 상당히 절감하면서도 높은 의미론적 정확도를 유지하는 경량화된 Object-Only Framework를 구현합니다. 세밀한 지시 튜닝을 위해 고품질 객체 중심 지시 데이터셋인 PixelRefer-2.2M을 구축했습니다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 PixelRefer이 더 적은 훈련 샘플로 선도적인 성능을 달성하는 동시에 PixelRefer-Lite이 효율성에서 현저한 이점을 가지며 경쟁력 있는 정확도를 제공함을 검증했습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)의 수학 및 코딩 영역 적용은 대규모 언어 모델의 추론 및 문제 해결 능력에서 상당한 향상을 입증해왔습니다. 단일 생성 문제 해결에서는 성공적이었지만, 강화 학습 미세 조정 과정은 모델의 탐색 능력을 저해할 수 있으며, 이는 생성 결과의 다양성 감소와 대규모 N 값에 대한 Best-of-N 샘플링 성능 저하로 나타납니다. 본 연구에서는 pass@k의 연속적 일반화인 max@k 지표 최적화에 중점을 둡니다. 해당 지표의 직접 최적화를 위한 편향되지 않은 온-정책 경사 추정치를 유도합니다. 나아가, 향상된 샘플 효율성을 가능하게 하는 현대 RLVR 알고리즘의 공통 요소인 오프-정책 업데이트로 유도 결과를 확장합니다. 실험적으로 우리의 목적 함수가 오프-정책 시나리오에서 max@k 지표를 효과적으로 최적화하여 모델을 Best-of-N 추론 전략과 일치시키는 것을 보여줍니다.
통합 멀티모달 모델들은 최근 능력과 다양성 모두에서 놀라운 향상을 보여주고 있으나, 대부분의 주요 시스템들은 여전히 처음부터 훈련되며 상당한 계산 자원을 필요로 합니다. 본 논문에서는 생성이나 이해 중 특정 영역에 특화된 공개 모델들을 전략적으로 융합함으로써 훨씬 더 효율적으로 경쟁력 있는 성능을 얻을 수 있음을 보여줍니다. 우리의 핵심 설계는 원본 블록들을 보존하면서 네트워크 전반에 걸쳐 멀티모달 자가 주의 블록들을 추가로 교차 배치하는 것입니다. 이 이중 융합 메커니즘은 (1) 기본 모델들의 원래 강점을 크게 보존하면서도 풍부한 멀티모달 융합을 효과적으로 가능하게 하며, (2) 이해 인코더의 고수준 의미 표현과 생성 인코더의 저수준 공간 신호 간의 시너지 효과적인 융합을 촉진합니다. 약 350억 개의 토큰만으로 훈련하여 이 접근법은 여러 벤치마크에서 강력한 결과를 달성했습니다: 구성적 텍스트-이미지 생성에서 GenEval 0.91, 복잡한 텍스트-이미지 생성에서 DPG-Bench 82.16, 이미지 편집에서 GEditBench 6.06 및 ImgEdit-Bench 3.77입니다. 코드, 모델 가중치, 데이터셋 전체를 완전히 공개함으로써 통합 멀티모달 모델링에 대한 향후 연구를 지원하고자 합니다.
다중 모달 대규모 언어 모델(MLLM)의 시각-언어 정렬은 일반적으로 지도 미세 조정(SFT) 또는 강화 학습(RL)에 의존합니다. SFT는 안정적이고 효율적이지만 대규모 인간 주석이 필요하며 미세한 선호도를 포착할 수 없는 반면, RL은 훈련을 위한 보상 신호를 도입하지만 오버헤드와 불안정성 문제가 있습니다. 이러한 한계는 확장성, 강건성, 정렬 품질 간의 트레이드오프를 부각시킵니다. 이를 해결하기 위해 우리는 SFT와 RL을 연결하는 훈련 시간 증강 패러다임인 MergeMix를 제안합니다. MergeMix는 먼저 더 많은 클러스터 표현과 공간 컨텍스트를 포함한 토큰 병합을 통한 주의 기반 이미지 혼합을 적용한 후, 혼합 이미지와 원본 이미지로 선호도 쌍을 구성하고 SimPO 손실을 통해 최적화하는 선호도 주도 훈련 패러다임을 제시합니다. 믹스업 증강 기법으로서 MergeMix는 주의 일관성과 효율성을 향상시키며 분류 작업에서 다른 휴리스틱 기반 방법들을 능가합니다. 폭넓은 실험을 통해 MergeMix가 향상된 효율성으로 경쟁력 있는 정확도를 달성하며, 분류 및 MLLM에서 선호도 정렬을 위한 확장 가능한 접근 방식을 제공함을 입증합니다.
강화학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 상당한 잠재력을 보여주고 있습니다. 그러나 LLM에 대한 RL의 성공은 인간이 정제한 데이터셋과 검증 가능한 보상에 크게 의존하여 확장성과 일반성을 제한합니다. 최근 게임 및 바둑 분야에서의 성공에서 영감을 받은 자기 대결(Self-Play) RL 방법론은 인간이 주석을 단 데이터 없이도 LLM의 추론 능력을 향상시키는 것을 목표로 합니다. 그러나 이들의 방법론은 피드백을 위한 근거 환경(예: 파이썬 인터프리터 또는 게임 엔진)에 주로 의존하며, 이를 일반 영역으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 과제를 해결하기 위해 우리는 수학, 추론, 일반 상식 질의응답 등 다양한 과제 해결에서 LLM이 자기 진화(Self-Evolve)할 수 있도록 하는 프레임워크인 Multi-Agent Evolve(MAE)를 제안합니다. MAE의 핵심 설계는 단일 LLM으로 인스턴스화된 상호 작용하는 세 가지 에이전트(제안자, 해결사, 판단자)로 구성되며, 이들의 행동을 최적화하기 위해 강화학습을 적용합니다. 제안자는 질문을 생성하고, 해결사는 해결책을 시도하며, 판단자는 양쪽을 평가하면서 공동 진화합니다. Qwen2.5-3B-Instruct 모델을 이용한 실험에서 MAE는 여러 벤치마크에서 평균 4.54%의 성능 향상을 달성했습니다. 이러한 결과는 MAE가 인간이 정제한 지도 데이터에 대한 의존을 최소화하면서 LLM의 일반적인 추론 능력을 향상시키는 확장 가능하고 데이터 효율적인 방법임을 보여줍니다.
로봇 전문가 집단 - 다양한 환경에서 다양한 작업을 수행할 수 있는 지시 가능 에이전트 - 의 발전을 위해서는 엄격하고 확장 가능한 평가가 필수적입니다. 그러나 로봇 정책의 실제 현장 테스트는 근본적으로 제한적입니다. 이는 노동 집약적이고, 속도가 느리며, 대규모로 실행 시 안전하지 않고, 재현하기 어렵습니다. 기존의 시뮬레이션 벤치마크도 유사한 한계를 지니는데, 동일한 합성 도메인 내에서 정책을 훈련 및 테스트하므로 실제 현장 시연이나 대체 시뮬레이션 환경에서 훈련된 모델을 평가할 수 없기 때문입니다. 정책의 범위와 복잡성이 증가함에 따라, 로봇공학에서 '성공'의 정의가 종종 실행 품질에 대한 미묘한 인간의 판단에 달려 있기 때문에 이러한 장벽은 더욱 강화됩니다. 본 논문에서는 VLA 평가를 온라인 인간 피드백이 강화된 대규모 시뮬레이션 환경으로 전환하여 이러한 과제를 극복하는 새로운 벤치마킹 프레임워크를 소개합니다. 비전-언어 모델, 2D-to-3D 생성 모델링, 미분 가능 렌더링 분야의 발전을 활용하여, 우리의 접근 방식은 널리 사용되는 로봇 데이터셋의 비디오 시연을 자동으로 시뮬레이션 대응체로 변환합니다. 이러한 디지털 트윈 내에서 우리는 자동화된 VLM 기반 점수화와 크라우드워커로부터 수집된 확장 가능한 인간 선호도 판단을 모두 사용하여 VLA 정책을 평가하며, 인간의 관여를 지루한 장면 설정, 재설정, 안전 감독에서 가벼운 선호도 비교로 전환합니다. 강건성을 측정하기 위해 텍스처 및 객체 배치와 같은 여러 축을 따라 시뮬레이션 환경을 체계적으로 교란하여 통제된 변동 하에서의 정책 일반화를 스트레스 테스트합니다. 그 결과 현재 로봇공학 환경에서 중요한 공백을 해소하는, 실제 현장 훈련 로봇 매니퓰레이션 정책을 위한 지속적으로 진화하고 재현 가능하며 확장 가능한 벤치마크가 마련됩니다.
기존 접근법은 일반적으로 정보 재순위화 작업에 대형 언어 모델을 적용하기 위해 대규모 미세 조정에 의존하며, 이는 계산 비용이 매우 높습니다. 본 연구에서는 현대 대형 언어 모델이 최소한의 고품질 감독 데이터만으로도 효과적으로 적용될 수 있음을 보여줍니다. 이를 위해 우리는 다양하고 도전적이며 현실적인 재순위화 예제를 생성하기 위한 재사용 가능한 오픈소스 파이프라인인 LIMRANK-SYNTHESIZER를 설계했습니다. 이 합성 데이터를 사용하여 재순위화 모델인 LIMRANK를 미세 조정합니다. 우리는 LIMRANK를 두 가지 도전적인 벤치마크, 즉 추론 중심 검색을 위한 BRIGHT와 지시 따르기 검색을 위한 FollowIR에서 평가합니다. 실험 결과, LIMRANK는 기존 연구에서 일반적으로 사용되는 데이터의 5% 미만으로 학습되었음에도 불구하고 경쟁력 있는 성능을 달성함을 확인했습니다. 추가적인 제어 실험(ablation study)을 통해 LIMRANK-SYNTHESIZER의 효과와 LIMRANK의 과학 문헌 검색 및 지식 집약적 문제 해결을 위한 검색 증강 생성과 같은 다운스트림 작업 전반에 걸친 강력한 일반화 능력을 입증했습니다.
대규모 언어 모델(LLM)은 코드 관련 작업에서 개발자에게 가치 있는 보조 도구로 자리 잡았습니다. LLM은 코드 생성 및 버그 수정과 같은 전통적인 프로그래밍 작업에서는 뛰어난 성능을 보이지만, 시각적으로 중점을 두는 코딩 작업에서는 어려움을 겪으며 종종 최적이 아닌 미적 결과물을 생성합니다. 본 논문에서는 LLM이 생성한 코드의 미적 품질을 향상시키기 위한 새로운 파이프라인을 소개합니다. 먼저 코드 미적 요소에 초점을 맞춘 대규모 지시 튜닝 데이터셋인 AesCode-358K를 구축합니다. 다음으로 실행 가능성, 정적 미적 요소, 상호작용적 미적 요소를 평가하는 다중 에이전트 시스템인 에이전트 기반 보상 피드백을 제안합니다. 이를 기반으로 GRPO 알고리즘에 이러한 신호를 통합하여 기능성과 코드 미적 요소를 공동으로 최적화하는 GRPO-AR을 개발합니다. 마지막으로 코드 미적 요소를 평가하기 위한 벤치마크인 OpenDesign을 개발합니다. 실험 결과, AesCode-358K에 대한 지도 미세 조정과 에이전트 기반 보상 피드백을 활용한 강화 학습을 결합하면 OpenDesign에서의 성능이 크게 향상되며, 기존의 PandasPlotBench와 같은 벤치마크에서도 결과가 개선되는 것으로 나타났습니다. 특히, 우리의 AesCoder-4B 모델은 GPT-4o 및 GPT-4.1을 능가하며, 480B-685B 매개변수를 가진 대형 오픈소스 모델에 버금가는 성능을 달성하여 우리 접근법의 효과성을 입증했습니다.
이미지 자기회귀(AR) 모델은 강력한 시각 생성 모델 패러다임으로 부상했습니다. 그러나 이러한 모델은 많은 수의 샘플링 단계가 필요하여 생성 속도가 느리다는 단점이 있습니다. 최근 이미지 AR 모델을 위한 적은 단계 샘플링을 가능하게 하는 Distilled Decoding 1(DD1)이 제안되었지만, 1-단계 설정에서는 여전히 상당한 성능 저하가 발생하며 사전 정의된 매핑에 의존하여 유연성이 제한됩니다. 본 연구에서는 이미지 AR 모델의 1-단계 샘플링 실현 가능성을 더욱 발전시키는 새로운 방법인 Distilled Decoding 2(DD2)를 제안합니다. DD1과 달리 DD2는 사전 정의된 매핑에 의존하지 않습니다. 우리는 원본 AR 모델을 각 토큰 위치에서 잠재 임베딩 공간의 실제 조건부 점수를 제공하는 교사 모델로 간주합니다. 이를 바탕으로 1-단계 생성기를 훈련시키기 위한 새로운 조건부 점수 증류 손실을 제안합니다. 구체적으로, 생성된 분포의 조건부 점수를 예측하기 위해 별도의 네트워크를 훈련시키고, 이전 토큰들을 조건으로 모든 토큰 위치에서 점수 증류를 적용합니다. 실험 결과에 따르면 DD2는 ImageNet-256에서 FID가 3.40에서 5.43으로 최소한으로 증가하면서 이미지 AR 모델의 1-단계 샘플링을 가능하게 합니다. 가장 강력한 기준 방법인 DD1과 비교했을 때, DD2는 1-단계 샘플링과 원본 AR 모델 간의 성능 격차를 67% 줄이면서 동시에 최대 12.3배의 훈련 속도 향상을 보였습니다. DD2는 1-단계 AR 생성을 목표로 한 중요한 진전을 이루며, 빠르고 고품질의 AR 모델링을 위한 새로운 가능성을 열어줍니다. 코드는 https://github.com/imagination-research/Distilled-Decoding-2에서 확인할 수 있습니다.
물리 시뮬레이션은 공간에 따라 변화하는 기계적 특성에 의존하는 경우가 많으며, 이러한 특성은 대개 수작업으로 힘들게 제작됩니다. VoMP는 렌더링 및 복셀화가 가능한 모든 표현 방식의 3D 객체 전체 체적에 걸쳐 영률(E), 푸아송 비(nu), 밀도(rho)를 예측하도록 훈련된 순방향 방법입니다. VoMP는 복셀별 다중 뷰 특징을 집계하고 이를 훈련된 Geometry Transformer에 전달하여 복셀별 재료 잠재 코드를 예측합니다. 이러한 잠재 코드는 실제 세계 데이터셋으로부터 학습된 물리적으로 타당한 재료들의 다양체 상에 존재하므로, 복호화된 복셀별 재료의 유효성이 보장됩니다. 객체 수준의 훈련 데이터를 얻기 위해, 우리는 분할된 3D 데이터셋, 재료 데이터베이스, 비전-언어 모델의 지식을 결합한 주석 파이프라인과 새로운 벤치마크를 제안합니다. 실험 결과 VoMP는 정확한 체적 특성을 추정하여 정확도와 속도 모두에서 기존 기술을 크게 능가하는 것으로 나타났습니다.
우리는 모델이 문제를 해결할 수 있는지 여부뿐만 아니라 그 추론 과정이 어떻게 전개되는지 평가하기 위해 설계된 퍼즐 기반 시각적 도전 과제 벤치마크인 PRISM-Bench를 소개한다. 최종 답변 정확도만 측정하는 기존 평가와 달리, PRISM-Bench는 진단 과제를 도입한다: 시각적 퍼즐과 정확히 하나의 오류를 포함하는 단계별 사고의 연쇄(CoT)가 주어졌을 때, 모델은 첫 번째 잘못된 단계를 식별해야 한다. 이 설정을 통해 논리적 일관성, 오류 탐지 및 시각적 추론에 대한 세밀한 평가가 가능하다. PRISM-Bench의 퍼즐들은 다단계의 기호적, 기하학적, 유추적 추론을 필요로 하여 표면적인 패턴 매칭에 기반한 지름길을 차단한다. 최첨단 MLLM(Multimodal Large Language Model)들을 대상으로 한 평가를 통해, 유창한 생성 능력과 신뢰할 수 있는 추론 능력 사이에 지속적인 격차가 있음이 드러난다: 그럴듯한 CoT를 생성하는 모델들조차 단순한 논리적 오류를 찾아내지 못하는 경우가 많다. 답변 생성과 추론 검증을 분리함으로써, PRISM-Bench는 멀티모달 추론 능력에 대한 더 선명한 통찰을 제공하며 신뢰할 수 있는 MLLM 개발을 위해 진단적 평가 프로토콜의 필요성을 강조한다.
현재 3D/4D 생성 방법은 일반적으로 사실성, 효율성, 미적 측면에 최적화되어 있습니다. 그러나 이러한 방법들은 다양한 시점에서 대상의 의미론적 정체성을 보존하는 데 종종 실패합니다. 특정 대상의 한 장 또는 소량의 이미지로 생성 방법을 적용하는 개인화 또는 대상 주도 생성 방식은 대상의 정체성과 일치하는 시각 콘텐츠 생성이 가능하게 합니다. 하지만 개인화된 3D/4D 생성은 여전히 크게 탐구되지 않은 분야입니다. 본 연구에서는 대상 주도 3D/4D 생성을 위한 새로운 방법인 TIRE(Track, Inpaint, REsplat)를 소개합니다. 우리의 방법은 기존 3D 생성 모델로 생성된 초기 3D 에셋을 입력으로 사용하며, 비디오 추적을 통해 수정이 필요한 영역을 식별합니다. 그런 다음 식별된 영역을 점진적으로 채우기 위해 대상 주도 2D 인페인팅 모델을 도입합니다. 마지막으로 일관성을 유지하면서 수정된 2D 다중 뷰 관측값을 3D로 재배치합니다. 폭넓은 실험을 통해 우리의 접근 방식이 최첨단 방법론과 비교하여 3D/4D 생성에서 정체성 보존을 크게 향상시킴을 입증합니다. 우리의 프로젝트 웹사이트는 https://zsh2000.github.io/track-inpaint-resplat.github.io/에서 확인할 수 있습니다.
단일 영상에서 사실적인 3D 전신 인간 재구성은 본질적인 모호성과 심각한 자체 폐색으로 인해 영화 및 비디오 게임 응용 분야에서 중요하면서도 어려운 과제입니다. 최근 접근법들은 SMPL 추정과 SMPL 조건부 이미지 생성 모델을 활용하여 새로운 시점을 합성하지만, SMPL 메시에서 추정된 부정확한 3D 사전 정보로 인해 어려움을 겪으며 특히 어려운 인간 자세를 처리하고 미세한細節를 재구성하는 데 한계가 있습니다. 본 논문에서는 2D 다중 시점 생성 모델과 3D 네이티브 생성 모델을 최초로 결합한 새로운 프레임워크인 SyncHuman을 제안합니다. 이를 통해 도전적인 인간 자세에서도 단일 시점 영상으로부터 고품질의 의복을 입은 인간 메시 재구성이 가능합니다. 다중 시점 생성 모델은 미세한 2D 디테일을 포착하는 데 뛰어나지만 구조적 일관성에 어려움이 있고, 3D 네이티브 생성 모델은 거칠지만 구조적으로 일관된 3D 형상을 생성합니다. 본 연구는 이 두 접근법의 상호 보완적인 강점을 통합하여 보다 효과적인 생성 프레임워크를 개발합니다. 구체적으로, 우리는 제안하는 픽셀 정렬 2D-3D 동기화 주의력(Synchronization Attention)을 통해 기하학적으로 정렬된 3D 형상과 2D 다중 시점 영상을 생성하도록 다중 시점 생성 모델과 3D 네이티브 생성 모델을 공동 미세 조정합니다. 디테일을 더욱 개선하기 위해, 정렬된 3D 형상 위에 2D 다중 시점 영상의 미세한 디테일을 전달하는 특징 주입 메커니즘을 도입하여 정확하고 높은 충실도의 재구성을 가능하게 합니다. 광범위한 실험을 통해 SyncHuman이 도전적인 자세를 가진 영상에 대해서도 견고하고 사실적인 3D 인간 재구성을 달성함을 입증합니다. 우리의 방법은 기하학적 정확도와 시각적 충실도 측면에서 기준 방법들을 능가하며, 향후 3D 생성 모델을 위한 유망한 방향을 제시합니다.
대규모 언어 모델은 API를 빈번히 환각(hallucinate)하고 편집 위치를 잘못 파악하는 반면, 언어 서버는 실제 코드에 대한 검증된 IDE 수준의 정보를 계산합니다. 본 논문에서는 코딩 에이전트와 CI를 위해 Language Server Protocol(LSP) 서버를 고정하고 중재하는 CLI-우선 오케스트레이션 계층인 Lanser-CLI를 제안합니다. 이는 결정론적이고 재현 가능한 워크플로우를 제공합니다. 우리의 입장은 언어 서버가 구조적 정보(정의, 참조, 타입, 진단 정보)뿐만 아니라 실행 가능한 프로세스 보상, 즉 에이전트의 계획 루프를 프로그램 현실과 일치시키는 기계 검증된 단계별 신호를 제공한다는 것입니다. 본 연구에서 Lanser-CLI는 다음을 기여합니다: (i) 취약한 "파일:행:열" 방식을 넘어 심볼릭, AST 경로, 콘텐츠 기반 선택자를 지원하는 Selector DSL과 체계적인 재위치 알고리즘을 통한 강력한 주소 지정 방식; (ii) 언어 서버 응답을 정규화하고 환경/기능 메타데이터를 안정적인 콘텐츠 해시와 함께 캡처하는 결정론적 분석 번들; (iii) 미리보기, 작업공간 격리, Git 인식 트랜잭션 적용을 포함하는 변형 작업(이름 변경, 코드 액션)을 위한 안전 장치; (iv) 언어 서버 정보(진단 정보 델타, 명확성 신뢰도, 안전 적용 검사)로부터 도출되며 온라인으로 계산 가능하고 오프라인에서 재현 가능한 프로세스 보상 함수입니다. 우리는 고정된 스냅샷 하에서의 결정론을 형식화하고 프로세스 보상에 대한 단조성 특성을 확립하여 프로세스 감독 및 반사실 분석에 적합하게 만듭니다. 프로젝트 페이지: https://github.com/yifanzhang-pro/lanser-cli
본 논문은 딥페이크 탐지 과제에 대한 스케일링 법칙을 체계적으로 연구한 결과를 제시한다. 구체적으로 우리는 실제 이미지 도메인 수, 딥페이크 생성 방법 수, 훈련 이미지 수에 따른 모델 성능을 분석한다. 본 연구의 규모 요구사항을 충족하는 기존 데이터셋이 존재하지 않아, 우리는 이 분야 역대 최대 규모의 데이터셋인 ScaleDF를 구축하였다. 이 데이터셋은 51개 서로 다른 데이터셋(도메인)으로부터 추출한 580만 장 이상의 실제 이미지와 102개 딥페이크 생성 방법으로 생성된 880만 장 이상의 가짜 이미지를 포함한다. ScaleDF를 통해 우리는 대규모 언어 모델(LLM)에서 나타나는 것과 유사한 멱법칙 스케일링 현상을 관찰했다. 구체적으로, 실제 도메인 수나 딥페이크 생성 방법 수가 증가함에 따라 평균 탐지 오류가 예측 가능한 멱법칙 감소를 보였다. 이 핵심 관찰 결과는 목표 성능에 도달하기 위해 필요한 추가 실제 도메인 또는 딥페이크 생성 방법의 수를 예측할 수 있게 할 뿐만 아니라, 데이터 중심 접근법으로 진화하는 딥페이크 기술에 대응할 방안을 고무한다. 이를 넘어서, 우리는 스케일링 조건에서 딥페이크 탐지에 대한 사전 훈련과 데이터 증강의 역할, 그리고 스케일링 자체의 한계점을 검토한다.
대규모 언어 모델(LLM)은 제로샷 추론에서 뛰어난 성능을 보이지만 복잡한 다단계 추론에는 여전히 어려움을 겪고 있습니다. Chain of Thought(CoT) 및 Program of Thought(PoT)와 같은 중간 추론 단계를 추가하는 최근 방법들은 성능을 향상시키지만, 특히 알고리즘 분야에서 바람직하지 않은 해결책을 생성하는 경우가 많습니다. 본 연구에서는 작업별 지도나 명시적인 테스트 케이스에 의존하지 않고 구조적 피드백을 통해 인스턴스 수준에서 프로그램을 생성 및 정제하는 Per-Instance Program Synthesis(PIPS) 방법을 소개합니다. 성능을 더욱 향상시키기 위해 PIPS는 인스턴스별로 직접 추론과 프로그램 합성 중 동적으로 선택하는 신뢰도 지표를 통합합니다. 3개의 최신 LLM과 Big Bench Extra Hard(BBEH)의 모든 과제, 시각 질의응답 과제, 관계 추론 과제, 수학적 추론 과제를 포함한 30개 벤치마크에 대한 실험 결과, PIPS는 PoT 및 CoT 대비 절대 조화평균 정확도를 각각 최대 8.6%, 9.4% 향상시키며, Gemini-2.0-Flash를 사용한 알고리즘 과제에서 PoT 대비 바람직하지 않은 프로그램 생성을 65.1% 감소시키는 것으로 나타났습니다.
텍스트-이미지(T2I) 확산 모델의 가속화 기술 발전으로 단일 단계에서도 고품질 이미지 합성이 가능해졌다. 그러나 단일 단계 모델의 제한된 용량으로 인해 새로운 개념 분포를 효과적으로 학습하는 개인화 과정은 여전히 과제로 남아있다. 본 연구에서는 단일 단계 확산 개인화(1-SDP)를 가능하게 하는 양방향 개념 증류 프레임워크인 EchoDistill을 제안한다. 우리의 접근법은 다단계 확산 모델(교사)과 단일 단계 확산 모델(학생)을 동시에 학습하는 종단간 훈련 과정으로, 개념이 교사 모델에서 학생 모델로 증류된 후 학생 모델에서 교사 모델로 재전달되는 양방향 흐름을 특징으로 한다. EchoDistill 과정에서 두 모델 간의 일관된 의미론적 이해를 위해 텍스트 인코더를 공유하며, 학생 모델은 실제 이미지 분포와의 정렬을 위한 적대적 손실과 교사 모델 출력과의 일관성 유지를 위한 정렬 손실로 최적화된다. 더 나아가 학생 모델이 빠른 생성 능력을 활용해 교사 모델에 피드백을 제공하는 양방향 에코 정제 전략을 도입한다. 이 양방향 개념 증류 메커니즘은 학생 모델의 새로운 개념 개인화 능력을 향상시킬 뿐만 아니라 교사 모델의 생성 품질도 개선한다. 실험 결과, 이 협력적 프레임워크가 기존 개인화 방법들을 1-SDP 설정에서 크게 능가함을 확인하였으며, T2I 확산 모델의 빠르고 효과적인 개인화를 위한 새로운 패러다임을 정립하였다.
메모리 기반 언어 모델링을 딥 뉴럴 네트워크 기반 언어 모델링의 효율적이고 친환경적인 대안으로 제시합니다. 이 방법은 로그 선형적으로 확장 가능한 다음 토큰 예측 성능과 강력한 기억 능력을 제공합니다. 빠른 k-최근접 이웃 분류 근사법을 구현한 메모리 기반 언어 모델링은 훈련 및 추론 모드 모두에서 CPU에만 의존하고 낮은 토큰 지연 시간을 달성하여 상대적으로 작은 생태학적 발자국을 남깁니다. 그 내부 작동 방식은 단순하고 완전히 투명합니다. 메모리 기반 언어 모델링의 우리 구현체인 OLIFANT를 GPT-2 및 GPT-Neo와 다음 토큰 예측 정확도, 추정 배출량 및 속도 측면에서 비교하고 모델에 대한 몇 가지 심층 분석을 제공합니다.
본 논문에서는 차선 검출 작업을 차선 매개변수 공간에서의 노이즈 제거 확산 과정으로 처리하는 DiffusionLane이라는 새로운 확산 기반 차선 검출 모델을 제안한다. 첫째, 실제 차선의 매개변수(시작점과 각도)에 가우시안 노이즈를 추가하여 노이즈가 포함된 차선 앵커를 얻고, 모델은 이 노이즈가 포함된 차선 앵커를 점진적으로 정제하여 목표 차선을 얻는 방법을 학습한다. 둘째, 노이즈가 포함된 차선 앵커로 인한 인코더의 취약한 특징 표현 문제를 해결하기 위해 하이브리드 디코딩 전략을 제안한다. 구체적으로, 고품질 차선 앵커 생성을 위해 전역 수준 디코더와 지역 수준 디코더를 결합한 하이브리드 확산 디코더를 설계한다. 또한 인코더의 특징 표현을 개선하기 위해 학습 단계에 보조 헤드를 도입하여 학습 가능한 차선 앵커를 활용함으로써 인코더에 대한 감독 학습을 강화한다. Carlane, Tusimple, CULane, LLAMAS 네 가지 벤치마크에서의 실험 결과는 DiffusionLane이 기존 최신 방법 대비 강력한 일반화 능력과 우수한 검출 성능을 보여준다. 예를 들어, ResNet18 기반 DiffusionLane은 도메인 적응 데이터셋인 Carlane에서 기존 방법들을 최소 1% 정확도로 앞섰다. 또한 MobileNetV4 기반 DiffusionLane은 CULane에서 81.32% F1 점수를, ResNet34 기반은 Tusimple에서 96.89% 정확도를, ResNet101 기반은 LLAMAS에서 97.59% F1 점수를 각각 기록했다. 코드는 https://github.com/zkyntu/UnLanedet에서 공개될 예정이다.
확산 트랜스포머(DiT)는 최고 수준의 생성 성능을 제공하지만, 시퀀스 길이에 따른 이차적인 학습 비용으로 대규모 사전 학습이 극도로 비싸다는 문제가 있습니다. 토큰 드롭핑은 학습 비용을 줄일 수 있으나, 단순한 전략은 표현력을 저하시키며, 기존 방법들은 매개변수가 많거나 높은 드롭 비율에서 실패합니다. 본 연구에서는 공격적인 토큰 드롭핑(최대 75%)을 허용하면서도 품질을 유지하는 간단한 방법인 SPRINT(Sparse-Dense Residual Fusion for Efficient Diffusion Transformers)를 제시합니다. SPRINT는 얕은 층과 깊은 층의 상호 보완적 역할을 활용합니다. 초기 층은 모든 토큰을 처리하여 지역적 세부 사항을 포착하고, 더 깊은 층은 희소한 토큰 집합만으로 연산을 수행하여 계산량을 절감하며, 이들의 출력은 잔차 연결을 통해 융합됩니다. 학습은 효율성을 위한 긴 마스크 사전 학습 단계와 학습-추론 간격을 줄이기 위한 짧은 전체 토큰 미세 조정 단계로 구성된 2단계 일정을 따릅니다. ImageNet-1K 256x256에서 SPRINT는 유사한 FID/FDD 성능을 유지하면서 9.8배의 학습 비용 절감을 달성했으며, 추론 시에는 Path-Drop Guidance(PDG)를 통해 FLOPs를 거의 절반으로 줄이면서 품질을 개선했습니다. 이러한 결과는 SPRINT가 효율적인 DiT 학습을 위한 간단하고 효과적이며 일반적인 해법임을 입증합니다.
확산 및 흐름 매칭 모델의 놀라운 성공은 제어된 생성 작업을 위해 테스트 시간에 이를 적용하는 연구들의 급증을 불러왔습니다. 이러한 예시로는 이미지 편집부터 복원, 압축 및 개인화에 이르기까지 다양한 분야가 있습니다. 그러나 이러한 모델들의 샘플링 과정이 반복적 특성을 지니기 때문에, 과정 최종 단계에서 생성되는 이미지를 직접 제어하기 위해 그래디언트 기반 최적화를 사용하는 것은 계산적으로 비현실적입니다. 이에 따라 기존 방법들은 일반적으로 각 시간 단계를 개별적으로 조작하는 방식을 취합니다. 본 논문에서는 전체 흐름 과정을 블랙박스로 취급하는 제로오더(그래디언트 프리) 최적화 프레임워크인 FlowOpt을 소개합니다. 이를 통해 모델을 통한 역전파 없이 전체 샘플링 경로를 거쳐 최적화를 수행할 수 있습니다. 우리의 방법은 매우 효율적일 뿐만 아니라, 사용자가 중간 최적화 결과를 모니터링하고 필요 시 조기 중단을 수행할 수 있도록 합니다. 우리는 FlowOpt의 스텝 사이즈에 대한 충분 조건을 증명하며, 이 조건 하에서 전역 최적점으로의 수렴이 보장됨을 보입니다. 또한 적절한 스텝 사이즈를 선택할 수 있도록 이 상한선을 실증적으로 추정하는 방법을 제시합니다. 우리는 FlowOpt이 이미지 편집에 어떻게 활용될 수 있는지를 보여주며, 두 가지 옵션을 제시합니다: (i) 인버전(주어진 이미지를 생성하는 초기 노이즈 결정)과 (ii) 대상 텍스트 프롬프트를 준수하면서 편집된 이미지가 원본 이미지와 유사하도록 직접 조종하는 방법. 두 경우 모두 FlowOpt은 기존 방법들과 대략 동일한 수의 신경망 함수 평가(NFEs)를 사용하면서도 최첨단 결과를 달성합니다. 코드와 예제는 프로젝트 웹페이지에서 확인할 수 있습니다.
행렬 기반 사전조건 최적화 도구인 Muon과 같은 방법들은 최근 대규모 언어 모델(LLM)을 포함한 대규모 신경망 훈련 시 스칼라 기반 최적화 도구보다 더 효율적인 것으로 입증되었습니다. 한편, LLM 사전훈련을 위한 최적화 도구에 대한 최근 벤치마크 결과, MARS와 같은 분산 감소 기법을 적용한 최적화 도구가 분산 감소를 사용하지 않는 표준 최적화 도구 대비 상당한 속도 향상을 달성할 수 있음을 보여주었습니다. 본 논문에서는 두 방법의 장점을 모두 취하기 위해 MARS의 분산 감소 기법과 Muon을 통합한 새로운 최적화 도구인 MARS-M을 소개합니다. 표준 규칙성 조건 하에서 Muon-M이 Muon이 달성한 𝒪(T^{-1/4}) 속도보다 향상된 𝒪(T^{-1/3})의 속도로 1차 정류점에 수렴함을 증명합니다. 언어 모델링 및 컴퓨터 비전 작업에 대한 실험 결과는 MARS-M이 다양한 다운스트림 벤치마크에서 지속적으로 더 낮은 손실과 향상된 성능을 제공함을 입증합니다. MARS-M의 구현은 https://github.com/AGI-Arena/MARS/MARS_M에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 최근 음성 인식(ASR), 시각 음성 인식(VSR), 그리고 오디오-시각 음성 인식(AVSR) 분야에서 진전을 이루었습니다. 그러나 미세 조정 시 이들의 내부 동역학에 대한 이해는 여전히 제한적입니다. 자연어 처리 분야에서는 최근 연구를 통해 주의 싱크(attention sink, 지나치게 높은 주의를 끄는 토큰)와 이와 연관된 대규모 활성화 현상(싱크 토큰의 일부 특징이 LLM에서 매우 큰 활성값을 보이는 현상)이 밝혀졌습니다. 본 연구에서는 다중 모드 음성 인식에서 이러한 현상을 최초로 연구합니다. 오디오-시각 LLM에 대한 상세 분석을 통해 ASR, VSR, AVSR 전반에 걸쳐 BOS(Begin-Of-Sequence) 토큰뿐만 아니라 중간 저-의미적(low-semantic) 토큰에서도 주의 싱크와 대규모 활성화 현상을 확인했습니다. 우리는 대규모 활성화가 MLP 계층에서 기인하며, 모든 싱크 토큰에 걸쳐 고정된 특징 인덱스에 해당함을 보입니다. 더 나아가 중간 싱크 토큰들은 BOS 토큰과 높은 코사인 유사도를 보여, 주의와 활성화를 증폭시킴을 확인했습니다. 이러한 통찰을 바탕으로, BOS 토큰과 다른 토큰들 간의 코사인 유사도를 감소시켜 중간 싱크와 대규모 활성화를 효과적으로 완화하는 간단한 디코릴레이션 손실(decorrelation loss)을 제안합니다. 게다가, 우리의 방법은 높은 오디오-시각 특징 다운샘플링 조건에서 단어 오류율(WER)을 개선하면서도 낮은 다운샘플링 비율에서는 안정적인 성능을 유지합니다.