HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

14 papers found

PerceptionDLM: 다중 모드 확산 언어 모델을 이용한 병렬 영역 인식
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Jun 17

ByYueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong

다중 모드 대규모 언어 모델(MLLM)은 시각적 이해 작업에서 놀라운 진전을 이루었다. 그러나 기존의 대부분 MLLM은 자기회귀 생성에 의존하기 때문에 여러 영역에 대한 캡셔닝이 필요한 지각 작업에서 효율성이 제한된다. 본 연구에서는 효율적인 병렬 영역 인식을 위해 최적화된 다중 모드 확산 언어 모델인 PerceptionDLM을 제안한다. 오픈소스 확산 MLLM 중 최고 성능을 달성한 강력한 기본 기반 모델인 PerceptionDLM-Base를 기반으로, 우리의 아키텍처는 확산 언어 모델(DLM)의 병렬 디코딩 특성을 완전히 활용한다. 구체적으로, 효율적인 프롬프팅과 구조화된 어텐션 마스킹을 도입하여 여러 마스킹된 영역을 동시에 인식할 수 있게 함으로써, 모델이 시퀀스 수준과 토큰 수준 모두에서 영역 설명을 병렬로 생성할 수 있도록 한다. 이 설계는 영역을 순차적으로 처리하는 기존 접근 방식에 비해 추론 효율성을 크게 향상시킨다. DLM의 시각적 인식 능력에 대한 병렬성 특성을 체계적으로 평가하기 위해, DLC-Bench를 확장하여 이미지당 여러 영역 마스크를 포함하는 새로운 병렬 상세 지역화 캡셔닝 벤치마크(ParaDLC-Bench)를 구축하였으며, 이를 통해 캡션 품질과 추론 효율성을 함께 평가할 수 있다. 실험 결과, PerceptionDLM은 영역 캡셔닝에서 경쟁력 있는 성능을 유지하면서도 다중 영역 인식 작업에서 상당한 속도 향상을 달성함을 보여준다. 본 연구 결과는 효율적이고 병렬적인 시각적 인식을 위한 다중 모드 확산 언어 모델의 잠재력을 강조한다. 우리가 아는 한, 확산 언어 모델의 장점을 활용하여 병렬 영역 캡션 및 인식을 달성한 최초의 사례이다. 코드, 모델 및 데이터셋이 공개되었다.

MemSlides: 개인화된 슬라이드 생성과 다중 턴 로컬 수정을 위한 계층적 메모리 기반 에이전트 프레임워크
MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

Jun 15

ByYe Jin, Yangyang Xu, Jun Zhu, Yibo Yang

개인화된 프레젠테이션 생성을 위해서는 현재 프롬프트나 템플릿에 조건화하는 것 이상이 필요하다. 에이전트는 작업 전반에 걸쳐 안정적인 사용자 선호도를 유지하고, 다중 턴 수정 중에 새로 도입된 선호도와 제약 조건을 보존하며, 국소적 편집을 신뢰성 있게 수행해야 한다. 우리는 개인화된 프레젠테이션 에이전트를 위한 계층적 메모리 프레임워크인 MemSlides를 제안한다. 이 프레임워크는 장기 메모리와 작업 메모리를 분리하고, 장기 메모리를 다시 사용자 프로필 메모리와 도구 메모리로 세분화한다. 사용자 프로필 메모리는 0차 개인화를 위한 의도 조건화 프로필을 저장하고, 작업 메모리는 수정 라운드 간 활성 선호도와 세션 제약 조건을 전달하며, 도구 메모리는 신뢰할 수 있는 국소적 편집을 위한 재사용 가능한 실행 경험을 저장한다. MemSlides는 이 메모리 설계를 범위가 지정된 슬라이드-국소 수정과 결합하여, 대상 업데이트가 전체 덱을 반복적으로 재생성하는 대신 가장 작은 영향 영역에 작용하도록 한다. 통제된 실험에서 사용자 프로필 메모리는 다중 페르소나, 다중 의도 프로필 뱅크에서 페르소나 정렬 판단을 개선하고, 도구 메모리 주입은 진단적 짝짓기 쌍 설정에서 폐쇄 루프 수정 동작을 개선하며, 정성적 사례는 작업 메모리가 선호도를 전달하는 능력을 보여준다. 종합해 보면, 이러한 결과는 프레젠테이션 저작에서 효과적인 개인화가 지속적 사용자 프로필, 세션 수준 작업 메모리, 그리고 생성 및 국소적 수정에 걸친 재사용 가능한 실행 경험을 분리하는 데 달려 있음을 시사한다.

GateMem: 다중 주체 공유 메모리 에이전트에서의 메모리 거버넌스 벤치마킹
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

Jun 17

ByZhe Ren, Yibo Yang, Yimeng Chen, Zijun Zhao, Benshuo Fu, Zhihao Shu, Bingjie Zhang, Yangyang Xu, Dandan Guo, Shuicheng Yan

LLM 에이전트를 위한 메모리 벤치마크는 대부분 단일 사용자 설정을 가정하여, 병원, 직장, 캠퍼스 및 가정에서의 공유 어시스턴트에 대한 연구는 미흡한 실정이다. 이러한 배포 환경에서는 여러 주체가 공통 메모리 풀에 기록하고 다양한 역할, 범위 및 관계에 따라 이를 질의하므로, 메모리 품질은 단순한 회상뿐만 아니라 거버넌스도 필요하다. 우리는 다중 주체 공유 메모리 에이전트를 위한 벤치마크인 GateMem을 소개한다. GateMem은 상태 업데이트를 수반하는 정당한 장기 요청에 대한 유틸리티, 맥락적 권한 경계를 넘나드는 접근 제어, 그리고 명시적 삭제 요청 이후 에이전트가 직면하는 능동적 망각을 함께 평가한다. 이는 의료, 사무, 교육 및 가정 영역을 포괄하며, 장문의 다자간 에피소드, 점진적 메모리 주입, 은닉 검사 지점, 구조화된 판단, 그리고 유출 대상 주석을 포함한다. 다양한 기준 모델 및 백본 모델에 걸쳐, 어떤 방법도 강력한 유틸리티, 견고한 접근 제어, 그리고 신뢰할 수 있는 망각을 동시에 달성하지 못한다. 긴 맥락 프롬프팅은 높은 토큰 비용으로 최상의 거버넌스 점수를 산출하는 경우가 많지만, 검색 기반 및 외부 메모리 방법은 비용을 절감하면서도 권한이 없거나 삭제된 정보를 여전히 유출한다. 이러한 결과는 현재의 메모리 에이전트가 신뢰할 수 있는 공유 기관 배포에 아직 크게 미치지 못함을 보여준다.

다중 회차 반영적 마스킹이 마스크 확산 모델에서 추론을 유발한다
Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

Jun 15

ByYanming Zhang, Yihan Bian, Jingyuan Qi, Yuguang Yao, Lifu Huang, Tianyi Zhou

자기회귀(AR) 모델에서의 추론은 종종 사고 연쇄 추론과 반성을 통해 수행되지만, 이전 출력물의 개선은 여전히 완전한 순차적 생성에 의존하며, 이는 국소적 편집만 필요한 경우에도 마찬가지이다. 반면, 마스크 확산 모델(MDM)의 마스킹 메커니즘은 이전 출력물에 대한 명시적 국소 편집을 자연스럽게 지원하여, 이전 답변을 폐기하고 처음부터 다시 생성하는 대신 선택적 개선을 가능하게 한다. 이러한 특성은 인간이 반복적인 국소 개선을 통해 오류를 수정하는 방식과 더욱 밀접하게 일치하지만, 기존 MDM은 다중 턴 마스킹 및 잡음 제거를 지원하지 않는다. 본 연구에서는 경량 사후 훈련을 통해 MDM의 본질적 추론 능력을 이끌어내는 **반사적 마스킹(RM)**을 제안한다. RM은 네이티브 테스트 시간 스케일링을 제공하며, MDM이 진화하는 맥락에 기반하여 이전 출력물을 반복적으로 재검토하고 수정한다. AR 추론에서의 이전 턴으로부터의 통찰을 활용하기 위해, **히스토리 참조**라는 매개변수 없는 메커니즘을 추가로 도입하여 수정 과정에서 중간 잡음 제거 상태를 활용한다. 본 접근법은 아키텍처 변경이 필요 없으며 기존 MDM에 쉽게 적용 가능하다. 텍스트 생성, 스도쿠, 이미지 편집 등 다양한 작업과 모달리티에 걸쳐 반사적 마스킹은 표준 마스킹 기반 베이스라인을 일관되게 능가하며 강력한 일반성을 입증함으로써, RM을 MDM에서의 추론을 위한 기본 프리미티브로 자리매김한다.

MCompassRAG: 문단 수준 검색을 위한 의미적 나침반으로서의 주제 메타데이터
MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

Jun 16

ByAmirhossein Abaskohi, Raymond Li, Gaetano Cimino, Peter West, Giuseppe Carenini, Issam H. Laradji

검색 증강 생성(RAG) 시스템은 문서가 어떻게 청크(chunk)로 분할되고 검색되는지에 크게 의존한다. 세밀한 청크는 검색 정밀도를 향상시킬 수 있지만 검색 공간을 확장하여 지연 시간과 비용을 증가시키고, 큰 청크는 후보 수를 줄이지만 각 청크의 표현이 여러 주제를 혼합하고 더 많은 의미적 잡음을 유발하므로 밀집 유사도의 신뢰성이 낮아진다. 이러한 절충은 크고 이질적인 말뭉치에서 검색이 빠르고 정밀해야 하는 심층 연구 과제에서 특히 제한적이다. 우리는 MCompassRAG를 소개한다. 이는 주제 수준의 신호를 관련 증거를 선택하기 위한 의미적 나침반으로 사용하는 메타데이터 기반 검색 프레임워크이다. MCompassRAG는 질의와 잡음이 있는 청크 임베딩 간의 코사인 유사도에만 의존하는 대신, 동일한 임베딩 공간에서 청크 표현을 주제 메타데이터로 강화하고 LLM-교사 증류(LLM-teacher distillation)를 통해 경량 검색기를 훈련시킨다. 추론 시 MCompassRAG는 추가적인 LLM 호출 없이 주제 인식 검색을 수행하여 효율성과 증거 품질을 모두 개선한다. 여섯 가지 복잡한 검색 벤치마크에서 MCompassRAG는 가장 강력한 효율적 RAG 기준선보다 5배 이상 낮은 지연 시간으로 정보 효율성(Information Efficiency, IE)을 평균 8.24% 향상시킨다. 코드는 https://github.com/AmirAbaskohi/MCompassRAG에서 확인할 수 있다.

SproutRAG: 점진적 임베딩을 활용한 어텐션 기반 트리 탐색 기법의 장문 문서 RAG
SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

Jun 16

ByAmirhossein Abaskohi, Issam H. Laradji, Peter West, Giuseppe Carenini

검색 증강 생성(RAG) 시스템은 검색의 세분성과 맥락적 일관성 사이에서 균형을 맞춰야 하는데, 기존 방법들은 LLM 기반 청킹, 단일 수준 컨텍스트 확장, 또는 계층적 요약을 통해 이 문제를 해결한다. 이러한 접근 방식은 인덱싱 또는 검색 과정에서 비용이 많이 드는 LLM 호출을 필요로 하거나, 컨텍스트 집계를 단일 세분성 수준으로 제한하거나, 요약을 통해 정보 손실을 초래한다는 단점이 있다. 본 논문에서는 SproutRAG를 제안한다. 이는 어텐션 기반 계층적 RAG 프레임워크로, 문장 수준 청크를 점진적으로 더 크면서도 의미적으로 일관된 단위로 구성하고, 학습된 문장 간 어텐션을 활용하여 이진 청킹 트리를 구축함으로써 위의 균형 문제를 해결한다. 외부 LLM, 고정된 컨텍스트 확장, 또는 손실이 있는 요약에 의존하는 기존 접근 방식과 달리, SproutRAG는 문서의 의미 구조를 가장 잘 포착하는 어텐션 헤드와 층을 학습하여 추가적인 LLM 호출이나 압축된 요약 없이 다중 세분성 검색을 가능하게 한다. 검색 시 SproutRAG는 계층적 빔 서치를 사용하여 여러 세분성 수준에서 후보를 검색함으로써, 평면적 검색을 넘어 다중 문장 관련성을 포착한다. 프레임워크는 임베딩과 트리 구조를 모두 개선하는 통합 목적 함수를 통해 종단간 학습된다. 과학, 법률, 개방형 도메인을 포괄하는 네 가지 벤치마크에 대한 실험 결과, SproutRAG가 가장 강력한 기준선 대비 정보 효율성(IE)을 평균 6.1% 향상시키는 것으로 나타났다. 코드는 https://github.com/AmirAbaskohi/SproutRAG에서 확인할 수 있다.

BrainG3N: 제어 가능한 3D 뇌 MRI 생성을 위한 이중 목적 토크나이저
BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation

Jun 17

ByMax Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

3차원 뇌 MRI는 임상 신경학 및 신경종양학에서 핵심적인 역할을 하며, 생성 모델을 통해 과소 대표 코호트를 보강하고, 질병 궤적을 시뮬레이션하며, 프라이버시를 보호하는 데이터 공유를 지원할 수 있다. 잠재 확산은 영상 데이터를 모델링하기 위한 대표적인 해결책이었지만, 토크나이저에 두 가지 상충되는 요구를 부과한다: 인코더 임베딩은 하위 작업이 활용하는 임상 정보를 유지해야 하며, 디코더는 해부학적으로 정확한 볼륨을 재구성해야 한다. 기존의 재구성 중심 토크나이저는 첫 번째 요구를 희생하면서 두 번째 요구를 달성한다. 이를 해결하기 위해, 우리는 인코더와 디코더를 분리한 완전한 체적 마스크 오토인코더(MAE) 기반 토크나이저를 3D 뇌 MRI 잠재 확산을 위해 도입한다: 고정된 3D MAE 인코더는 임상적으로 유용한 임베딩을 생성하고, 전용 CNN 디코더는 해당 임베딩의 선형 투영으로부터 복셀을 재구성한다. 우리는 4개 모달리티, 10개 질병 범주, 200개 이상의 획득 사이트에 걸친 18개 공개 코호트의 35,309개 볼륨으로 인코더를 사전 훈련하고, 두 가지 설정에서 그 이중 유용성을 입증한다. 첫째, 23개 작업 선형 프로빙 벤치마크에서 인코더는 23개 작업 중 21개에서 최신 모델(예: BrainIAC, BrainSegFounder 및 MedicalNet)을 능가하거나 일치한다. 둘째, 이러한 임상적으로 유용한 임베딩에 대해 훈련된 조건부 확산 트랜스포머(DiT)는 6개 변수에 걸친 조건부 생성과 환자 특정 종단 예측을 모두 지원한다. 함께 이러한 결과는 하위 임상 작업과 제어 가능한 생성 모두에 적합한 단일 3D 뇌 MRI 임베딩 공간을 확립한다.

GeneralVLA-2: 로봇 계획을 위한 기하학적 인식 재구성 및 제어된 메모리
GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

Jun 16

ByHaoyu Wang, Guoqing Ma, Zeyu Zhang, Yandong Guo, Boxin Shi, Hao Tang

범용 비전-언어-행동 시스템은 신뢰할 수 있는 로봇 궤적을 계획하기 위해 객체 중심 3D 증거와 재사용 가능한 조작 경험이 필요하다. GeneralVLA는 언어 및 RGB-D 관측을 3D 말단 효과기 경로로 변환하는 계층적 인터페이스를 제공하지만, 두 가지 병목 현상이 남아 있다. 첫째, 단안 SAM3D 스타일 객체 재구성은 자세와 보이지 않는 기하를 환각할 수 있는 반면, 조작은 보정된 다중 시점 관측이 가능할 때 안정적인 객체 형상의 이점을 얻는다. 둘째, 기존 KnowledgeBank는 주로 의미적으로 유사한 스니펫을 검색하고 새로운 지식을 추가하는 방식으로, 메모리 품질, 충돌, 신뢰도 및 기하학적 관련성을 제어하기 어렵게 만든다. 첫 번째 과제를 해결하기 위해, 우리는 입력 시점 마스크로 외부 기하 단서를 검증하고, 소프트 비주얼-헐 지원을 적용하며, 축별 정제를 수행하고, 외관을 유지하면서 기하만 융합하는 기하 사전 정보 기반 MV-SAM3D 재구성 브랜치인 GeoFuse-MV3D를 도입한다. 두 번째 과제를 해결하기 위해, 우리는 KnowledgeBank를 명시적 품질, 신뢰도, 생애주기, 검증기 및 충돌 메타데이터와 함께 정밀도 지향 검색을 갖춘 관리형 장기 메모리 시스템으로 업그레이드한다. 마지막으로, 우리는 재구성 브랜치를 GSO-30에서, 메모리 모듈을 Terminal-Bench 2.0 및 SWE-Bench Verified에서 평가한다; GeoFuse-MV3D는 MV-SAM3D 기준선 대비 CD와 LPIPS를 각각 2.20% 및 2.02% 감소시키고 PSNR과 SSIM을 각각 2.36% 및 1.03% 증가시키며, KnowledgeBank는 ReasoningBank 대비 Terminal-Bench SR에서 4.53%, SWE-Bench 해결률에서 3.73% 개선하고 AS를 각각 4.95% 및 5.65% 감소시킨다. 코드: https://github.com/AIGeeksGroup/GeneralVLA-2. 웹사이트: https://aigeeksgroup.github.io/GeneralVLA-2.

WorldLines: 장기적 상태 기반 체화된 에이전트의 벤치마킹 및 모델링
WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

Jun 17

ByYehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen

실제 가정에서 장시간 인간을 지원하기 위해 임베디드 에이전트는 사용자 루틴, 세계 상태, 과거 상호작용을 기억해야 한다. 기존 장기 기억 벤치마크는 주로 언어 중심의 검색 및 질의응답을 평가하는 반면, 임베디드 벤치마크는 동적 환경에서 장기 기억 사용을 테스트하지 않고 주로 단기 작업 실행에 초점을 맞춘다. 우리는 장기적 임베디드 가정 지원을 위한 프로젝트 기반 벤치마크인 WorldLines를 소개한다. 이는 대화, 행동, 실행 피드백, 객체 및 기기 상태 변화를 포함한 시간적으로 확장된 가정 추적을 구축하고, 이를 메모리 QA 및 임베디드 태스크 계획을 위한 증거 연결 샘플로 변환한다. 또한 우리는 상태 인식 결정을 위해 가시성 인식 메모리와 행동 고유 상태 흔적을 유지하는 관찰자 기반 메모리 프레임워크인 ObsMem을 제안한다. 실험은 부분 관측 가능성, 덮어쓰여진 세계 상태, 장기 기억을 임베디드 계획으로 변환하는 데 지속적인 도전 과제를 드러내는 반면, ObsMem은 이 설정에 대해 더 강력한 참조 아키텍처를 제공한다.

SpatialAvatar-0: 다단계 재구성을 통한 고품질 4D 헤드 아바타
SpatialAvatar-0: High-Quality 4D Head Avatar with Multi-Stage Reconstruction

Jun 14

ByYiran Wang, Zeyu Zhang, Yuanming Li, Ziming Wang, Yang Zhao

고품질 4D 헤드 아바타는 원격현장감, AR/VR, 그리고 디지털 휴먼 상호작용의 핵심 요소이다. 3D 가우시안 스플래팅(3DGS)이 지배적인 표현 방식으로 부상하였으며, 일반화 가능한 피드포워드 예측기와 개인별 정제기의 두 가지 상호보완적 접근법이 병렬적으로 성숙하고 있다. 그러나 기존 피드포워드 예측기는 단일 데이터셋 계열에서 훈련되고 소스 개수가 고정되어 있어, 해당 도메인의 편향을 상속받는다. 개인별 정제기는 30만~60만 회 반복이 필요하며, 적응형 밀집화를 사용하여 상위 가우시안 배치를 파괴함으로써 두 접근법이 종단 간 표현을 공유하지 못하게 한다. 두 접근법을 연결하기 위해, 우리는 FLAME 메시에 결합된 공유 가우시안 표현 기반의 SpatialAvatar-0을 제안한다: 매개변수 없는 K-소스 평균 풀링을 갖춘 피드포워드 생성기와, 단안 시계열에서 다중 시점 공간으로의 2단계 스케줄을 통해 정체성 사전이 더 작은 다중 시점 세트로 붕괴되는 것을 방지한다. 또한, FLAME 결합과 가우시안 개수를 고정하고 밀집화를 세 가지 구성요소로 이루어진 스파이크 방지 정규화로 대체하는, 10K 반복의 레이아웃 보존 개인별 정제 루프를 도입한다. VFHQ/HDTF 교차 도메인 제로샷에서, 우리는 어느 테스트 도메인에서도 훈련하지 않았음에도 불구하고 인도메인 선두주자인 GAGAvatar를 PSNR +1.5 dB로 능가하며, SplattingAvatar 단안 벤치마크에서는 모든 보고된 지표에서 선두를 차지하여 30만 반복의 GeoAvatar를 PSNR +1.3 dB로 능가하고, 일반적인 최첨단 기준선 대비 최대 60배 짧은 개인별 스케줄을 달성한다. 웹사이트: https://spatialwalk.github.io/SpatialAvatar-0.

웹 규모 LLM 사전 학습 데이터에서의 내러티브 콘텐츠 특성 분석
Characterizing Narrative Content in Web-scale LLM Pretraining Data

Jun 17

ByTeagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak

웹 규모 LLM 사전 학습 코퍼스의 서사적 구성은 서사가 인간 의사소통의 근본적인 양식임에도 불구하고 아직까지 거의 탐구되지 않은 분야이다. 본 연구는 3조 개의 토큰으로 구성된 오픈 사전 학습 코퍼스인 Dolma를 대상으로 서사적 특징에 대한 최초의 세밀한 분석을 제시한다. 서사 이론을 바탕으로, 세 가지 핵심 서사 요소(행위 주체, 배경, 사건)를 11개의 해석 가능한 차원으로 구현하는 프레임워크를 설계하였다. 다양한 400개 구절을 샘플링하여 주석을 단 후, 세밀한 서사 예측을 위한 RoBERTa 기반 모델인 NarraBERT를 미세 조정하고 검증하였다. NarraBERT를 300만 개의 구절에 적용하여 새로운 데이터셋인 NarraDolma를 구축하였다. 연구 결과, (i) 서사 구조는 극도로 이질적인 데이터 전반에 걸쳐 대규모로 측정 가능하며, (ii) 웹 텍스트의 기저에는 연속적이고 다차원적인 서사 구조가 존재하고, (iii) 서사 특성은 사전 학습 출처와 주제에 따라 불균등하게 분포하며, 현재의 큐레이션 관행은 이를 측정하거나 고려하지 않음을 발견하였다. 본 연구에서 제시하는 프레임워크, 데이터셋, 분석은 LLM 사전 학습 데이터에서 서사 특성이 어떻게 분포하는지 이해하고, 데이터 구성이 서사 추론 과제에 미치는 영향을 연구하기 위한 기초를 제공한다. NarraDolma와 NarraBERT를 공개한다.

StylisticBias: 소수의 인간 시각적 단서가 MLLM의 대부분의 사회적 편향을 주도한다
StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

Jun 18

ByShaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner

멀티모달 대규모 언어 모델(MLLM)은 개인적·사회적으로 중요한 맥락에 점점 더 많이 배치되고 있지만, 이러한 모델이 사람을 판단하는 방식을 형성하는 시각적 단서는 여전히 제대로 이해되지 않고 있다. 기존 연구는 종종 서로 다른 개인(또는 집단)을 비교하여 외모 효과와 정체성 차이를 분리하기 어렵게 만든다. 본 연구에서는 MLLM의 속성 수준 사회적 편향을 평가하기 위한 통제된 벤치마크인 StylisticBias를 소개한다. 500개의 사실적인 기준 얼굴을 생성하고, 얼굴당 약 50개의 단일 속성 변형을 만들어 약 25,000개의 이미지를 제작했다. 이 설계는 정체성을 고정하고 한 번에 하나의 시각적 속성만 변경함으로써, 특정 단서가 모델 판단을 어떻게 변화시키는지 측정할 수 있게 한다. 25개의 이항 사회적 판단 시나리오에 걸쳐 여섯 개의 MLLM을 평가했다. 연령과 체형이 정체성 수준 효과를 지배하는 반면, 패션 스타일 및 기타 시각적 단서가 가장 큰 속성 수준 변화를 유발한다는 것을 발견했다. 또한 약 15개의 속성이 전체 변동의 거의 80%를 설명하며, 편향이 소수의 시각적 단서에 집중되어 있음을 보여준다. 민감도는 외모와 의미적으로 정렬된 판단, 특히 사회경제적 및 스타일 관련 판단에서 가장 강하게 나타난다. StylisticBias를 멀티모달 모델의 세분화된 편향 평가를 위한 벤치마크로 공개한다. 코드 및 데이터셋: https://github.com/timo-cavelius/StylisticBias 및 https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.

예시를 작업 지침으로 증류: 실제 B2B 대화를 위한 향상된 인컨텍스트 학습
Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

Jun 14

ByGuy Rotman, Adi Kopilov, Danit Berger Zalmanson, Omri Allouche

맥락 내 학습(In-context learning, ICL)은 저자원 분류에서 표준적인 방법이지만, 전문 분야에서의 효과성은 아직 충분히 탐구되지 않았다. 본 연구에서는 여러 개의 소수 샷 예제를 결합함에 따라 맥락 길이가 증가할 때 전통적인 ICL이 상당한 한계를 겪는, 의미적으로 복잡한 다자간 B2B 대화를 분류하는 과제를 다룬다. 실제 B2B 대화에서 추출된 핵심 영업 개념을 대상으로 하는 다섯 가지 분류 과제를 포함하는 Call Playbook 데이터셋을 소개한다. 성능과 실용성 간의 격차를 해소하기 위해, 장황한 예제를 구조화된 분류 기준과 정밀한 과제 설명으로 구성된 간결하고 해석 가능한 표현으로 압축하는 새로운 지식 추출 방법을 제안한다. 본 접근법은 전통적인 ICL 대비 토큰 사용량을 99% 감소시키고 매크로 평균 AUC를 최대 7% 향상시킨다. 특히, 고급 토큰 압축 기준선이 맥락 증가 시 F1 점수 9포인트 이상 하락하는 반면, 본 프레임워크는 맥락 증가에도 강건함을 유지한다. 중요하게도, 본 프레임워크는 분류 로직의 직접적인 개선을 가능하게 하여 실제 NLP 애플리케이션에서 투명성, 효율성 및 사용자 상호작용에 대한 중요한 요구를 해결한다.

언제, 어디서, 어떻게: 표형 자기 지도 학습을 위한 적응형 비닝
When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning

Jun 18

ByDaehwan Kim, Haejun Chung, Ikbeom Jang

의료용 표 형식 데이터는 임상 연구에서 광범위하게 사용되지만, 표에 대한 심층 학습은 아직 충분히 탐구되지 않았다. 이는 구조화된 임상 변수가 표 형식으로 일상적으로 제공됨에도 불구하고 신뢰할 수 있는 레이블을 얻기 위해 종종 고비용의 전문가 판정이 필요하기 때문이다. 자기 지도 학습은 이러한 레이블이 없는 표를 활용할 수 있으며, 최근의 구간화 기반 사전 과제는 유망한 귀납적 편향을 제공하지만, 기존 목적 함수는 단일 전역 분위수 이산화를 고정하고 특징에 무관한 지도를 적용한다. 본 논문에서는 훈련 적응형 이산화 사전 과제인 적응형 구간화를 제안하며, 이는 특징별 조대-세밀 커리큘럼을 통해 이산화와 학습을 결합한다. 신경망의 스펙트럼 편향과 커리큘럼 학습 원리에 동기를 부여받은 본 방법은 고원 감지 시 특징별로 이산화를 점진적으로 세분화하고, 표현 인식 분할을 선택하여 값 공간 집중도와 표현 공간 일관성을 동시에 개선한다. 이질성 인식 목적 함수는 범주형 재구성과 수치형 특징에 대한 순서형 지도를 통합하며, 통합 평가 프로토콜 하에서 공개 의료용 표 형식 데이터셋에 대한 실험은 데이터셋별 이산화 튜닝 없이 선형 프로빙과 미세 조정에서 일관된 성능 향상을 보여준다. 또한, 이 덜 탐구된 영역에서 재현 가능한 발전을 지원하기 위해 표준화된 프로토콜을 갖춘 의료용 표 형식 자기 지도 학습 벤치마크를 도입한다. 본 코드는 https://github.com/labhai/Adaptive-Binning에서 확인할 수 있다.

PerceptionDLM: 다중 모드 확산 언어 모델을 이용한 병렬 영역 인식
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Jun 17

ByYueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong