번역이 포함된 일일 선별된 AI 연구 논문
우리는 "깊이 있는 넌센스"로 특징지어지는 독특한 언어 현상인 '드리블로지(Drivelology)'를 소개한다. 이는 구문적으로는 일관성이 있지만 화용적으로는 역설적이거나, 감정적으로 과장되었으며, 수사적으로는 전복적인 발화를 의미한다. 이러한 표현들은 표면적으로는 넌센스처럼 보일 수 있지만, 맥락적 추론, 도덕적 사고, 또는 감정적 해석을 요구하는 암묵적 의미를 담고 있다. 우리는 현재의 대형 언어 모델(LLM)들이 많은 자연어 처리(NLP) 작업에서 뛰어난 성과를 보임에도 불구하고, 드리블로지 텍스트의 다층적 의미를 이해하는 데 지속적으로 실패한다는 사실을 발견했다. 이를 조사하기 위해, 우리는 영어, 중국어, 스페인어, 프랑스어, 일본어, 한국어로 구성된 1,200개 이상의 세심하게 선별된 예시들로 이루어진 소규모이지만 다양한 벤치마크 데이터셋을 구축했다. 주석 작업은 특히 어려웠는데, 각 예시가 진정으로 드리블로지의 특성을 반영하는지 확인하기 위해 전문가의 신중한 검토가 필요했다. 이 과정은 의견 불일치를 해결하기 위해 여러 차례의 논의와 조정을 포함했으며, 드리블로지의 미묘하고 주관적인 특성을 강조했다. 우리는 다양한 LLM을 분류, 생성, 추론 작업에 대해 평가했다. 그 결과, 모델들이 종종 드리블로지를 단순한 넌센스와 혼동하거나, 일관성 없는 설명을 생성하거나, 암시된 수사적 기능을 완전히 놓치는 등 명확한 한계를 보였다. 이러한 발견들은 LLM의 화용적 이해에 있어 더 깊은 표현적 격차를 드러내며, 통계적 유창성이 인지적 이해를 의미한다는 가정에 도전한다. 우리는 표면적 일관성을 넘어 언어적 깊이를 모델링하는 추가 연구를 촉진하기 위해 데이터셋과 코드를 공개한다.
사전 학습된 텍스트-이미지(T2I) 생성 모델의 시각적 사전 지식을 활용하는 것이 밀집 예측(dense prediction)에서 성공을 거둔 바 있습니다. 그러나 밀집 예측은 본질적으로 이미지-이미지 작업이기 때문에, T2I 생성 모델보다는 이미지 편집 모델이 미세 조정(fine-tuning)을 위한 더 적합한 기반이 될 수 있습니다. 이에 동기를 받아, 우리는 밀집 기하학 추정(dense geometry estimation)을 위해 편집 모델과 생성 모델의 미세 조정 행동을 체계적으로 분석했습니다. 우리의 연구 결과에 따르면, 편집 모델은 내재적인 구조적 사전 지식을 가지고 있어, 고유한 특징을 "정제"함으로써 더 안정적으로 수렴하고, 궁극적으로 생성 모델보다 더 높은 성능을 달성할 수 있습니다. 이러한 발견을 바탕으로, 우리는 Diffusion Transformer(DiT) 아키텍처 기반의 고급 편집 모델을 밀집 기하학 예측에 적응시키는 선구적인 프레임워크인 FE2E를 소개합니다. 구체적으로, 이 결정론적 작업에 편집 모델을 맞추기 위해, 편집 모델의 원래 흐름 매칭 손실(flow matching loss)을 "일관된 속도(consistent velocity)" 훈련 목표로 재구성했습니다. 또한, 편집 모델의 기본 BFloat16 형식과 우리 작업의 높은 정밀도 요구 사이의 충돌을 해결하기 위해 로그 양자화(logarithmic quantization)를 사용했습니다. 추가적으로, 우리는 DiT의 전역 주의(global attention)를 활용하여 단일 순방향 전달(single forward pass)에서 깊이(depth)와 법선(normals)의 공동 추정을 무비용으로 수행함으로써, 이들의 감독 신호가 서로를 강화할 수 있도록 했습니다. 훈련 데이터를 확장하지 않고도, FE2E는 여러 데이터셋에서 제로샷(zero-shot) 단안 깊이 및 법선 추정에서 인상적인 성능 향상을 달성했습니다. 특히, ETH3D 데이터셋에서 35% 이상의 성능 향상을 보였으며, 100배의 데이터로 훈련된 DepthAnything 시리즈를 능가했습니다. 프로젝트 페이지는 https://amap-ml.github.io/FE2E/{여기}에서 확인할 수 있습니다.
현대 언어 모델의 사후 학습을 위한 훈련 데이터는 크게 두 가지 주요 출처가 있습니다: 온라인(모델 생성 롤아웃) 데이터와 오프라인(인간 또는 다른 모델의 데모) 데이터입니다. 이 두 가지 유형의 데이터는 일반적으로 강화 학습(RL)과 지도 미세 조정(SFT)과 같은 접근 방식에서 각각 사용됩니다. 본 논문에서는 이러한 접근 방식이 상충되지 않으며, 단일 최적화 과정의 사례임을 보여줍니다. 우리는 통합 정책 경사 추정기(Unified Policy Gradient Estimator)를 도출하고, 다양한 데이터 분포 가정과 여러 편향-분산 트레이드오프 하에서 공통 목적 함수의 경사로 다양한 사후 학습 접근 방식의 계산을 제시합니다. 이 경사 추정기는 안정화 마스크, 참조 정책 분모, 이점 추정치, 그리고 가능도 경사라는 네 가지 상호 교환 가능한 부분으로 구성됩니다. 우리의 이론적 발견에 동기를 받아, 우리는 다양한 훈련 신호를 동적으로 선택하는 하이브리드 사후 학습(Hybrid Post-Training, HPT) 알고리즘을 제안합니다. HPT는 학습된 추론 패턴을 희생하지 않으면서도 데모의 효과적인 활용과 안정적인 탐색을 모두 달성하도록 설계되었습니다. 우리는 통합 이론 프레임워크와 HPT의 효과를 검증하기 위해 광범위한 실험과 어블레이션 연구를 제공합니다. 여섯 가지 수학적 추론 벤치마크와 두 가지 분포 외 데이터 세트에서, HPT는 다양한 규모와 계열의 모델에 걸쳐 강력한 베이스라인을 지속적으로 능가합니다.
심층 연구 에이전트는 문헌 종합, 방법론 설계, 실증 검증에 이르는 다단계 연구 워크플로를 조율할 수 있는 잠재력으로 인해 점점 더 많은 관심을 받고 있습니다. 이러한 진전에도 불구하고, 연구자들의 관심과 지적 호기심을 진정으로 포착하는 최전선 연구 질문을 수집하는 어려움으로 인해 그들의 연구 능력을 충실히 평가하는 것은 상당히 어려운 과제입니다. 이러한 격차를 해소하기 위해, 우리는 학술 세미나에 기반을 둔 벤치마크인 DeepResearch Arena를 소개합니다. 이 벤치마크는 풍부한 전문가 토론과 상호작용을 포착하여 실제 연구 환경을 더 잘 반영하고 데이터 유출 위험을 줄입니다. DeepResearch Arena를 자동으로 구축하기 위해, 우리는 세미나 기록에서 연구 가치가 있는 영감을 추출하는 다중 에이전트 계층적 작업 생성(MAHTG) 시스템을 제안합니다. MAHTG 시스템은 연구 가치가 있는 영감을 고품질 연구 작업으로 변환하여 연구 작업 수립의 추적 가능성을 보장하면서 노이즈를 필터링합니다. MAHTG 시스템을 통해, 우리는 문학, 역사, 과학 등 12개 학문 분야에 걸친 200개 이상의 학술 세미나에서 10,000개 이상의 고품질 연구 작업으로 DeepResearch Arena를 큐레이션했습니다. 우리의 광범위한 평가는 DeepResearch Arena가 현재 최첨단 에이전트들에게 상당한 도전을 제시하며, 다양한 모델 간에 명확한 성능 격차가 관찰됨을 보여줍니다.
대규모 언어 모델(LLMs)은 다양한 작업에서 강력한 성능을 보이지만, 종종 인지적 관성(cognitive inertia)을 보이며, 지도 미세 조정(supervised fine-tuning, SFT) 중 학습된 표준화된 패턴과 충돌하는 지시를 따르는 데 어려움을 겪습니다. 이러한 한계를 평가하기 위해, 우리는 모델의 반직관적 능력(Counter-intuitive Ability)을 측정하는 벤치마크인 Inverse IFEval을 제안합니다. 이 벤치마크는 훈련으로 인한 편향을 무시하고 적대적 지시를 따르는 모델의 능력을 평가합니다. Inverse IFEval은 질문 수정(Question Correction), 의도적 텍스트 결함(Intentional Textual Flaws), 주석 없는 코드(Code without Comments), 반사실적 답변(Counterfactual Answering) 등 8가지 유형의 도전 과제를 도입합니다. 인간 참여 파이프라인을 통해, 우리는 23개 도메인에 걸쳐 1012개의 고품질 중국어 및 영어 질문으로 구성된 데이터셋을 구축하고, 최적화된 LLM-as-a-Judge 프레임워크 하에서 평가했습니다. 기존 주요 LLMs에 대한 실험은 우리가 제안한 Inverse IFEval 벤치마크의 필요성을 입증합니다. 우리의 연구 결과는 향후 정렬(alignment) 노력이 유창성과 사실적 정확성뿐만 아니라 비전통적 맥락에서의 적응성도 고려해야 함을 강조합니다. 우리는 Inverse IFEval이 인지적 관성을 완화하고, 좁은 패턴에 대한 과적합을 줄이며, 궁극적으로 다양한 예측 불가능한 실제 시나리오에서 LLMs의 지시 따르기 신뢰성을 향상시키는 방법 개발을 위한 진단 도구 및 기반으로 활용되기를 바랍니다.
생성 모델링에서 근본적인 딜레마가 지속되고 있습니다: 반복적 확산 모델은 뛰어난 정확도를 달성하지만 상당한 계산 비용이 발생하며, 효율적인 소수 단계 대안은 엄격한 품질 상한에 제약을 받습니다. 생성 단계와 출력 품질 간의 이러한 갈등은 극소 역학(PF-ODEs)이나 직접적인 종단점 예측에만 초점을 맞춘 제한적인 훈련 목표에서 비롯됩니다. 우리는 이 문제를 해결하기 위해 임의의 유한 시간 간격에 걸쳐 상태 전이를 분석적으로 정의하는 정확한 연속 시간 역학 방정식을 도입합니다. 이는 새로운 생성 패러다임인 전이 모델(Transition Models, TiM)로 이어지며, TiM은 임의의 단계 전이에 적응하여 단일 도약부터 더 많은 단계를 통한 세밀한 정제까지 생성 궤적을 원활하게 탐색합니다. 865M 매개변수만을 가지고도 TiM은 모든 평가된 단계 수에서 SD3.5(8B 매개변수) 및 FLUX.1(12B 매개변수)과 같은 선두 모델을 능가하는 최첨단 성능을 달성합니다. 중요한 것은, 이전의 소수 단계 생성기와 달리 TiM은 샘플링 예산이 증가함에 따라 단조로운 품질 개선을 보여줍니다. 또한, 우리의 기본 해상도 전략을 사용할 때 TiM은 최대 4096x4096 해상도에서도 탁월한 정확도를 제공합니다.
장편 비디오 이해는 장기간의 시간적 의존성과 다중 이벤트로 특징지어져 여전히 도전적인 과제로 남아 있습니다. 기존 방법들은 종종 정적 추론이나 외부 시각-언어 모델(VLMs)에 의존하는데, 이는 복잡성과 종단간 학습의 부재로 인한 차선의 성능 문제를 겪습니다. 본 논문에서는 반복적인 주요 비디오 세그먼트 선택과 질문 이해를 가능하게 하는 강화된 다중 턴 추론 프레임워크인 Video-MTR을 제안합니다. 기존의 단일 턴에서 예측을 생성하는 전통적인 비디오 추론 파이프라인과 달리, Video-MTR은 이전에 처리된 세그먼트와 현재 질문에 대한 진화하는 이해를 바탕으로 점진적으로 비디오 세그먼트를 선택하며 다중 턴에서 추론을 수행합니다. 이 반복적인 프로세스는 비디오에 대한 더 정교하고 문맥을 고려한 분석을 가능하게 합니다. 중간 추론 과정을 보장하기 위해, 우리는 답변 정확도를 기반으로 한 궤적 수준 보상과 프레임-질문 관련성을 강조하는 턴 수준 보상을 결합한 새로운 게이트 이중 수준 보상 시스템을 도입했습니다. 이 시스템은 비디오 세그먼트 선택과 질문 이해를 최적화하며, 외부 VLMs의 필요성을 없애고 종단간 학습을 가능하게 합니다. VideoMME, MLVU, EgoSchema와 같은 벤치마크에서의 광범위한 실험을 통해 Video-MTR이 정확도와 효율성 모두에서 기존 방법들을 능가하며, 장편 비디오 이해 분야의 최신 기술을 발전시킴을 입증했습니다.
NER Retriever를 소개합니다. 이는 특정 유형이 사전에 제공되지 않고, 사용자 정의 유형 설명을 통해 해당 유형의 개체를 언급하는 문서를 검색하는 Named Entity Recognition(NER)의 변형인 임시 명명 개체 검색을 위한 제로샷 검색 프레임워크입니다. 고정된 스키마나 미세 조정된 모델에 의존하는 대신, 우리의 방법은 대규모 언어 모델(LLM)의 내부 표현을 기반으로 하여 개체 언급과 사용자가 제공한 개방형 유형 설명을 공유된 의미 공간에 임베딩합니다. 특히 중간층 트랜스포머 블록의 값 벡터와 같은 내부 표현이 일반적으로 사용되는 최상층 임베딩보다 세분화된 유형 정보를 더 효과적으로 인코딩함을 보여줍니다. 이러한 표현을 개선하기 위해, 우리는 유형 호환 개체를 정렬하면서 관련 없는 유형을 분리하는 경량 대조 투영 네트워크를 학습합니다. 결과적으로 생성된 개체 임베딩은 컴팩트하고 유형 인식이 가능하며, 최근접 이웃 검색에 적합합니다. 세 가지 벤치마크에서 평가된 NER Retriever는 어휘적 및 밀집 문장 수준 검색 기준선을 크게 능가합니다. 우리의 연구 결과는 LLM 내에서의 표현 선택에 대한 실증적 지원을 제공하며, 확장 가능한 스키마 없는 개체 검색을 위한 실용적인 해결책을 보여줍니다. NER Retriever 코드베이스는 https://github.com/ShacharOr100/ner_retriever에서 공개적으로 이용 가능합니다.
플로우 기반 3D 생성 모델은 일반적으로 추론 과정에서 수십 번의 샘플링 단계를 필요로 합니다. 비록 Consistency Models (CMs)와 같은 소수 단계 증류 방법이 2D 확산 모델의 가속화에서 상당한 진전을 이루었지만, 더 복잡한 3D 생성 작업에서는 여전히 탐구가 부족한 상태입니다. 본 연구에서는 소수 단계 3D 플로우 증류를 위한 새로운 프레임워크인 MDT-dist를 제안합니다. 우리의 접근 방식은 사전 훈련된 모델을 Marginal-Data Transport를 학습하도록 증류하는 주요 목표를 기반으로 합니다. 이 목표를 직접 학습하려면 속도 필드를 통합해야 하지만, 이 적분은 구현하기 어렵습니다. 따라서 우리는 최적화 가능한 두 가지 목표인 Velocity Matching (VM)과 Velocity Distillation (VD)을 제안하여 최적화 대상을 각각 속도와 분포 수준으로 동등하게 변환합니다. Velocity Matching (VM)은 학생과 교사 모델 간의 속도 필드를 안정적으로 일치시키도록 학습하지만, 필연적으로 편향된 그래디언트 추정치를 제공합니다. Velocity Distillation (VD)은 학습된 속도 필드를 활용하여 확률 밀도 증류를 수행함으로써 최적화 과정을 더욱 강화합니다. 선구적인 3D 생성 프레임워크인 TRELLIS에서 평가한 결과, 우리의 방법은 각 플로우 트랜스포머의 샘플링 단계를 25에서 1 또는 2로 줄여, A800에서 0.68초(1단계 x 2)와 0.94초(2단계 x 2)의 지연 시간과 각각 9.0배 및 6.5배의 속도 향상을 달성하면서도 높은 시각적 및 기하학적 충실도를 유지합니다. 광범위한 실험을 통해 우리의 방법이 기존 CM 증류 방법을 크게 능가하며, TRELLIS가 소수 단계 3D 생성에서 우수한 성능을 달성할 수 있음을 입증했습니다.
우리는 주어진 참조 이미지에서 대상 초상화로 얼굴 속성 전이를 제로샷 방식으로 수행하여 초상화 애니메이션 비디오를 생성하는 최초의 방법인 Durian을 소개합니다. 프레임 간에 고품질이고 공간적으로 일관된 속성 전이를 가능하게 하기 위해, 우리는 초상화와 속성 이미지 모두에서 공간적 특징을 디퓨전 모델의 노이즈 제거 과정에 주입하는 이중 참조 네트워크를 도입했습니다. 모델은 자기 재구성 방식을 사용하여 학습되며, 동일한 초상화 비디오에서 두 프레임을 샘플링합니다: 하나는 속성 참조로, 다른 하나는 대상 초상화로 처리되며, 나머지 프레임은 이러한 입력과 해당 마스크를 조건으로 재구성됩니다. 다양한 공간 범위의 속성 전이를 지원하기 위해, 우리는 키포인트 조건 이미지 생성을 사용한 마스크 확장 전략을 제안합니다. 또한, 속성과 초상화 이미지에 공간적 및 외관 수준의 변형을 추가하여 둘 간의 위치 불일치에 대한 견고성을 향상시킵니다. 이러한 전략들은 명시적인 삼중항 감독 없이 학습되었음에도 불구하고, 모델이 다양한 속성과 실제 참조 조합에 효과적으로 일반화할 수 있도록 합니다. Durian은 속성 전이를 통한 초상화 애니메이션에서 최첨단 성능을 달성하며, 특히 이중 참조 설계는 추가 학습 없이 단일 생성 과정에서 다중 속성 구성을 가능하게 합니다.
컴퓨터 지원 설계(CAD) 생성 모델링은 산업 응용 분야에서 상당한 혁신을 주도하고 있습니다. 최근 연구들은 점군(point cloud), 메쉬(mesh), 텍스트 설명 등 다양한 입력으로부터 솔리드 모델을 생성하는 데 있어 놀라운 진전을 보여주었습니다. 그러나 이러한 방법들은 전통적인 산업 워크플로우와 근본적으로 차이가 있습니다. 전통적인 워크플로우는 2D 엔지니어링 도면으로부터 시작됩니다. 이러한 2D 벡터 도면으로부터 파라메트릭 CAD 모델을 자동으로 생성하는 것은 엔지니어링 설계에서 중요한 단계임에도 불구하고 아직 충분히 탐구되지 않았습니다. 이 격차를 해결하기 위해, 우리의 핵심 통찰은 CAD 생성을 시퀀스-투-시퀀스 학습 문제로 재구성하는 것입니다. 여기서 벡터 도면 기본 요소(primitive)가 파라메트릭 CAD 연산의 생성을 직접적으로 정보 제공하며, 변환 과정 전반에 걸쳐 기하학적 정밀도와 설계 의도를 보존합니다. 우리는 Drawing2CAD라는 프레임워크를 제안하며, 이는 세 가지 주요 기술 구성 요소를 포함합니다: 정확한 기하학적 정보를 보존하는 네트워크 친화적인 벡터 기본 요소 표현, 명령 유형과 파라미터 생성을 분리하면서 정확한 대응을 유지하는 듀얼 디코더 트랜스포머 아키텍처, 그리고 CAD 파라미터의 내재적 유연성을 수용하는 소프트 타겟 분포 손실 함수입니다. Drawing2CAD를 훈련하고 평가하기 위해, 우리는 CAD-VGDrawing라는 엔지니어링 도면과 파라메트릭 CAD 모델의 짝을 이루는 데이터셋을 생성하고, 우리 방법의 효과를 입증하기 위해 철저한 실험을 수행합니다. 코드와 데이터셋은 https://github.com/lllssc/Drawing2CAD에서 확인할 수 있습니다.
강력한 오픈소스 대규모 언어 모델(LLMs)의 성공은 특정 작업과 도메인에 맞춰 조정된 사후 훈련 모델들의 방대한 컬렉션을 커뮤니티가 생성할 수 있게 하였습니다. 그러나 일관되지 않은 메타데이터와 비구조화된 저장소로 인해 이러한 모델들을 탐색하고 이해하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 기본 모델 대비 내부 활성화의 변화를 측정하여 미세 조정된 모델을 벡터 임베딩으로 표현하는 방법인 델타 활성화(Delta Activations)를 소개합니다. 이 표현 방식은 도메인과 작업별로 효과적인 클러스터링을 가능하게 하여 모델 환경의 구조를 드러냅니다. 델타 활성화는 또한 몇 가지 바람직한 특성을 보여줍니다: 미세 조정 설정에 걸쳐 강건하며, 미세 조정 데이터셋이 혼합될 때 가산적 특성을 나타냅니다. 추가적으로, 델타 활성화가 소수 샷 미세 조정을 통해 작업을 임베딩할 수 있음을 보여주고, 모델 선택 및 병합에 대한 활용 가능성을 탐구합니다. 델타 활성화가 공개적으로 이용 가능한 모델의 재사용 실무를 촉진할 수 있기를 바랍니다. 코드는 https://github.com/OscarXZQ/delta_activations에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 유해한 지시를 따를 수 있어, 그 인상적인 능력에도 불구하고 심각한 안전 문제를 제기합니다. 최근 연구는 LLM의 내부 표현에서 악성 입력과 양성 입력의 분리 가능성을 연구하기 위해 프로빙(probing) 기반 접근법을 활용했으며, 연구자들은 이러한 프로빙 방법을 안전 탐지에 사용할 것을 제안했습니다. 우리는 이러한 패러다임을 체계적으로 재검토합니다. 분포 외(out-of-distribution) 성능이 낮다는 점에 동기를 받아, 프로브가 의미론적 유해성보다는 피상적인 패턴을 학습한다는 가설을 세웠습니다. 통제된 실험을 통해 이 가설을 확인하고 학습된 특정 패턴, 즉 지시적 패턴과 트리거 단어를 식별했습니다. 우리의 조사는 체계적인 접근 방식을 따르며, 단순한 n-gram 방법의 비교 가능한 성능을 보여주는 것부터 의미론적으로 정제된 데이터셋을 사용한 통제된 실험, 패턴 의존성에 대한 상세한 분석까지 진행됩니다. 이러한 결과는 현재의 프로빙 기반 접근법에 대한 잘못된 안전감을 드러내며, 모델과 평가 프로토콜을 재설계할 필요성을 강조합니다. 우리는 이 방향으로 책임감 있는 추가 연구를 제안하기 위해 더 많은 논의를 제공합니다. 이 프로젝트는 https://github.com/WangCheng0116/Why-Probe-Fails에서 오픈소스로 공개되었습니다.