번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)이 문맥 정보를 어떻게 인코딩하고 저장하는지 정량화하는 방법을 소개합니다. 이 연구는 일반적으로 사소하게 여겨지는 토큰(예: 관사, 구두점 등)이 놀랍게도 높은 문맥 정보를 담고 있음을 보여줍니다. 특히, 이러한 토큰들(중지어, 관사, 쉼표 등)을 제거하면, 관련 없는 토큰만 제거하더라도 MMLU와 BABILong-4k에서 일관되게 성능 저하가 발생합니다. 또한, 우리의 분석은 문맥화와 선형성 사이에 강한 상관관계가 있음을 보여주는데, 여기서 선형성은 한 레이어의 임베딩에서 다음 레이어로의 변환이 단일 선형 매핑으로 얼마나 근사될 수 있는지를 측정합니다. 이러한 발견들은 문맥 유지에 있어서 필러 토큰의 숨겨진 중요성을 강조합니다. 더 깊이 있는 탐구를 위해, 우리는 LLM-Microscope라는 오픈소스 툴킷을 제시합니다. 이 툴킷은 토큰 수준의 비선형성을 평가하고, 문맥 메모리를 분석하며, 중간 레이어의 기여도를 시각화(수정된 Logit Lens를 통해)하고, 표현의 내재적 차원을 측정합니다. 이 툴킷은 겉보기에는 사소해 보이는 토큰들이 장거리 이해에 있어서 얼마나 중요한 역할을 하는지를 밝혀줍니다.
대형 언어 모델(LLMs)은 탁월한 이해 능력과 방대한 지식 기반을 보여주며, 이를 통해 자동화된 설문 조사 생성에 효율적인 도구로 활용될 수 있음을 시사합니다. 그러나 최근의 자동화된 설문 조사 생성 관련 연구는 여전히 제한된 컨텍스트 윈도우, 심층적인 내용 논의의 부족, 체계적인 평가 프레임워크의 결여와 같은 중요한 한계에 직면해 있습니다. 인간의 글쓰기 과정에서 영감을 받아, 우리는 설문 조사 작성 과정을 준비 단계와 생성 단계로 분해하는 효율적이고 체계적인 자동화 설문 조사 생성 시스템인 SurveyX를 제안합니다. 온라인 참조 검색, AttributeTree라는 전처리 방법, 그리고 재다듬기 과정을 혁신적으로 도입함으로써, SurveyX는 설문 조사 작성의 효율성을 크게 향상시킵니다. 실험적 평가 결과는 SurveyX가 기존의 자동화 설문 조사 생성 시스템을 내용 품질(0.259 향상)과 인용 품질(1.76 향상)에서 능가하며, 여러 평가 차원에서 인간 전문가의 성능에 근접함을 보여줍니다. SurveyX로 생성된 설문 조사 예시는 www.surveyx.cn에서 확인할 수 있습니다.
분자를 이해하는 것은 생물체를 이해하고 신약 개발의 진전을 이끌어내는 데 있어 핵심적이며, 이를 위해서는 화학과 생물학에 걸친 학제적 지식이 요구됩니다. 대규모 분자 언어 모델이 분자 구조 해석에서 주목할 만한 성과를 거두었지만, 이들의 지시 데이터셋은 과제 중심 데이터셋에서 얻은 특정 지식에 국한되어 분자의 기본 특성을 완전히 포괄하지 못함으로써 일반적인 분자 분석 도구로서의 능력을 제한하고 있습니다. 이 문제를 해결하기 위해, 우리는 다중 모드 지시 튜닝을 통해 분자 중심의 일반 지식을 파악하는 대규모 분자 언어 모델인 Mol-LLaMA를 제안합니다. 이를 위해, 우리는 분자의 기본 특성을 포괄하는 핵심 데이터 유형을 설계하고, 분자 구조에서 필수적인 지식을 통합하였습니다. 또한, 분자 특성에 대한 이해를 향상시키기 위해, 서로 다른 분자 인코더로부터 보완적인 정보를 통합하는 모듈을 도입하여 다양한 분자 표현의 독특한 장점을 활용하였습니다. 우리의 실험 결과는 Mol-LLaMA가 분자의 일반적인 특성을 이해하고 사용자의 질문에 대한 관련 응답을 상세한 설명과 함께 생성할 수 있음을 보여주며, 이는 분자 분석을 위한 일반적인 도구로서의 잠재력을 시사합니다.
우리는 사진 위에 장식 요소를 오버레이할 수 있게 함으로써 아티스트들이 사진에 낙서를 쉽게 할 수 있도록 설계된 새로운 이미지 편집 프레임워크인 PhotoDoodle를 소개합니다. 사진 낙서는 삽입된 요소가 배경과 자연스럽게 통합되어야 하기 때문에 도전적인 작업입니다. 이는 사실적인 블렌딩, 원근법 정렬, 그리고 문맥적 일관성을 요구합니다. 또한, 배경은 왜곡 없이 보존되어야 하며, 아티스트의 독특한 스타일은 제한된 훈련 데이터로부터 효율적으로 포착되어야 합니다. 이러한 요구사항들은 주로 전역 스타일 전이(global style transfer)나 지역 인페인팅(regional inpainting)에 초점을 맞춘 기존 방법들로는 해결되지 않습니다. 제안된 방법인 PhotoDoodle는 두 단계의 훈련 전략을 사용합니다. 먼저, 대규모 데이터를 사용하여 범용 이미지 편집 모델인 OmniEditor를 훈련시킵니다. 그런 다음, 이 모델을 아티스트가 선별한 소규모의 전후 이미지 쌍 데이터셋으로 EditLoRA를 사용하여 미세 조정함으로써 독특한 편집 스타일과 기법을 포착합니다. 생성된 결과의 일관성을 높이기 위해 위치 인코딩 재사용 메커니즘을 도입했습니다. 또한, 6가지 고품질 스타일을 포함한 PhotoDoodle 데이터셋을 공개합니다. 광범위한 실험을 통해 우리의 방법이 맞춤형 이미지 편집에서 뛰어난 성능과 견고성을 보여주며, 예술적 창작에 새로운 가능성을 열어줌을 입증합니다.
행동으로부터 환경 변화를 예측하는 세계 모델(world model)은 강력한 일반화 능력을 갖춘 자율 주행 모델에 필수적입니다. 현재 주류를 이루는 주행 세계 모델은 주로 비디오 예측 모델에 기반을 두고 있습니다. 이러한 모델들은 고급 확산 기반 생성기를 통해 고해상도의 비디오 시퀀스를 생성할 수 있지만, 예측 기간과 전반적인 일반화 능력에 제약을 받고 있습니다. 본 논문에서는 생성 손실(generation loss)과 MAE(Masked Autoencoder) 스타일의 특징 수준(context-level) 학습을 결합하여 이 문제를 해결하고자 합니다. 특히, 이 목표를 실현하기 위해 세 가지 주요 설계를 도입했습니다: (1) 추가적인 마스크 구성(mask construction) 작업으로 학습된 확장성이 더 높은 Diffusion Transformer(DiT) 구조, (2) 마스크 재구성과 생성적 확산 과정 간의 모호한 관계를 처리하기 위해 확산 관련 마스크 토큰을 설계, (3) MAE의 마스크된 자기 주의(masked self-attention) 대신 행 단위 마스크(row-wise mask)를 활용하여 공간-시간 영역으로 마스크 구성 작업을 확장. 또한, 이 마스크 설계와 일치시키기 위해 행 단위 교차 뷰(row-wise cross-view) 모듈을 채택했습니다. 이러한 개선 사항을 바탕으로, 비디오 마스크 재구성을 구현한 일반화 가능한 주행 세계 모델인 MaskGWM을 제안합니다. 우리의 모델은 장기 예측에 초점을 맞춘 MaskGWM-long과 다중 뷰 생성에 전념한 MaskGWM-mview 두 가지 변형을 포함합니다. 표준 벤치마크에서의 포괄적인 실험을 통해 제안된 방법의 효과를 검증했으며, 이는 Nuscene 데이터셋의 일반 검증, OpenDV-2K 데이터셋의 장기 롤아웃(long-horizon rollout), 그리고 Waymo 데이터셋의 제로샷(zero-shot) 검증을 포함합니다. 이러한 데이터셋에서의 정량적 지표는 우리의 방법이 최신 주행 세계 모델을 크게 개선했음을 보여줍니다.
본 논문은 대형 언어 모델(LLM)의 추론 과정에서 문맥의 오해가 심각한 문제가 될 수 있음을 지적하며, 이는 Llama3.2-3B-Instruct와 같은 소규모 모델부터 DeepSeek-R1과 같은 최첨단 모델까지 광범위하게 적용된다. 예를 들어, "10 dollars per kilo"라는 구문에서 LLM은 "per"가 "for each"를 의미한다는 것을 인식하지 못해 계산 오류를 일으킬 수 있다. 이를 해결하기 위해 우리는 **사실에 충실하기(Stick to the Facts, SIFT)**라는 새로운 사후 훈련 접근 방식을 소개한다. SIFT는 추론 시점의 계산 자원을 활용하여 LLM의 추론을 문맥에 기반하도록 한다. SIFT의 핵심은 모델 자체에 의해 생성되는 *스티커(Sticker)*로, 이는 문맥 내 핵심 정보를 명시적으로 강조한다. 선별된 스티커를 바탕으로 SIFT는 원본 질의와 스티커가 추가된 질의에서 각각 예측을 생성한다. 두 예측이 다를 경우, 스티커는 *순방향(forward)* 최적화(추출된 사실을 질의와 더 잘 일치시키기 위해)와 *역방향(inverse)* 생성(모델의 내재적 경향에 부합하도록)을 통해 순차적으로 개선되어 더 신뢰할 수 있는 추론 결과를 도출한다. 다양한 모델(3B부터 100B+까지)과 벤치마크(예: GSM8K, MATH-500)에 대한 연구를 통해 일관된 성능 향상을 확인했다. 특히, SIFT는 DeepSeek-R1의 AIME2024에서의 pass@1 정확도를 78.33%에서 **85.67**%로 향상시켜 오픈소스 커뮤니티에서 새로운 최첨단 기술을 확립했다. 코드는 https://github.com/zhijie-group/SIFT에서 확인할 수 있다.
시각적으로 일치하는 단서를 연결하는 능력은 일상생활에서 매우 중요한데, 예를 들어 특정 인물이 누구인지 모르더라도 여러 사진에서 동일한 사람을 그들의 단서를 통해 식별하는 것과 같은 경우가 이에 해당합니다. 비전-언어 모델(VLMs)이 방대한 지식을 보유하고 있음에도 불구하고, 이러한 기본적인 작업을 수행할 수 있는지 여부는 아직까지 크게 탐구되지 않았습니다. 이를 해결하기 위해, 우리는 VLMs가 시각적으로 일치하는 단서를 연결할 수 있는지를 평가하기 위한 벤치마크인 VLM^2-Bench를 소개합니다. 이 벤치마크는 9개의 하위 작업과 3,000개 이상의 테스트 케이스로 구성되어 있습니다. 8개의 오픈소스 VLM과 GPT-4o에 대한 포괄적인 평가, 그리고 다양한 언어 측면 및 시각 측면 프롬프팅 방법에 대한 추가 분석을 통해 총 8개의 주요 발견을 도출했습니다. 우리는 모델들이 시각적 단서를 연결하는 능력에서의 중요한 도전 과제를 확인했으며, 심지어 GPT-4o도 인간보다 34.80% 뒤처지는 상당한 성능 격차를 발견했습니다. 이러한 통찰을 바탕으로, 우리는 (i) 핵심 시각 능력을 강화하여 적응성을 개선하고 사전 지식에 대한 의존도를 줄이는 것, (ii) 시각 중심 작업에서 언어 기반 추론을 통합하는 더 명확한 원칙을 수립하여 불필요한 편향을 방지하는 것, (iii) 시각-텍스트 훈련 패러다임을 모델들이 시각적 단서 간의 관계를 독립적으로 구조화하고 추론할 수 있는 능력을 키우는 방향으로 전환하는 것을 제안합니다.
대규모 언어 모델(LLM)은 복잡한 추론 작업에서 뛰어난 성능을 보여주지만, 긴 토큰을 생성하는 데 따른 상당한 메모리 및 계산 비용으로 인해 효율성이 저해되고 있습니다. 본 논문에서는 LLM이 추론 과정에서 중간 사고를 동적으로 압축할 수 있는 새로운 방법인 LightThinker를 제안합니다. 인간의 인지 과정에서 영감을 받은 LightThinker는 장황한 사고 단계를 간결한 표현으로 압축하고 원래의 추론 체인을 폐기함으로써, 컨텍스트 창에 저장되는 토큰 수를 크게 줄입니다. 이는 데이터 구성을 통해 모델이 언제 어떻게 압축을 수행할지 학습하고, 은닉 상태를 요약된 요지 토큰으로 매핑하며, 특수한 어텐션 마스크를 생성함으로써 달성됩니다. 또한, 생성 과정에서 역사적 토큰에 대한 의존도를 측정하여 압축 정도를 정량화하는 Dependency(Dep) 메트릭을 도입합니다. 네 가지 데이터셋과 두 가지 모델에 대한 광범위한 실험을 통해 LightThinker가 경쟁력 있는 정확도를 유지하면서도 최대 메모리 사용량과 추론 시간을 줄이는 것을 확인했습니다. 본 연구는 성능 저하 없이 복잡한 추론 작업에서 LLM의 효율성을 개선하는 새로운 방향을 제시합니다. 코드는 https://github.com/zjunlp/LightThinker에서 공개될 예정입니다.
효과적인 컨텍스트 길이의 확장은 대규모 언어 모델(LLMs)이 인공 일반 지능(AGI)으로 나아가기 위해 필수적입니다. 그러나 전통적인 어텐션 메커니즘에서 발생하는 계산 복잡도의 2차 증가는 과도한 오버헤드를 초래합니다. 기존의 접근 방식들은 싱크(sink) 또는 윈도우(window) 어텐션과 같이 특정 작업에 맞춰진 강한 편향 구조를 도입하거나, 어텐션 메커니즘을 선형 근사로 근본적으로 수정하는 방식으로 이루어져 왔습니다. 후자의 경우 복잡한 추론 작업에서의 성능이 충분히 탐구되지 않았습니다. 이 연구에서 우리는 "덜 구조화된" 원칙을 준수하는 해결책을 제안하며, 사전 정의된 편향을 도입하는 대신 모델이 자율적으로 어디에 주의를 기울일지 결정할 수 있도록 합니다. 우리는 Mixture of Experts(MoE)의 원칙을 어텐션 메커니즘에 적용한 혁신적인 접근 방식인 Mixture of Block Attention(MoBA)을 소개합니다. 이 새로운 아키텍처는 긴 컨텍스트 작업에서 우수한 성능을 보이면서도, 전체 어텐션과 희소 어텐션 사이를 원활하게 전환할 수 있는 주요 이점을 제공합니다. 이를 통해 성능 저하의 위험 없이 효율성을 향상시킬 수 있습니다. MoBA는 이미 Kimi의 긴 컨텍스트 요청을 지원하기 위해 배포되었으며, LLMs의 효율적인 어텐션 계산에서 상당한 진전을 보여주고 있습니다. 우리의 코드는 https://github.com/MoonshotAI/MoBA에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 에이전트의 사용이 증가함에 따라, 그들의 안전 취약점이 점점 더 분명해지고 있습니다. 다양한 벤치마크가 LLM 안전의 여러 측면을 평가하지만, 이는 주로 일반적인 표준에 의존하여 사용자별 표준을 간과하는 경향이 있습니다. 그러나 LLM의 안전 표준은 모든 사용자에게 일관되게 적용되는 것이 아니라 사용자별 프로필에 따라 달라질 수 있습니다. 이는 중요한 연구 질문을 제기합니다: 사용자별 안전 표준을 고려할 때 LLM 에이전트는 안전하게 행동하는가? 안전한 LLM 사용에 있어 이 문제의 중요성에도 불구하고, 현재까지 사용자별 LLM 안전성을 평가할 수 있는 벤치마크 데이터셋이 존재하지 않습니다. 이러한 격차를 해결하기 위해, 우리는 사용자별 LLM 안전성을 평가하기 위해 설계된 첫 번째 벤치마크인 U-SAFEBENCH를 소개합니다. 우리는 18개의 널리 사용되는 LLM을 평가한 결과, 현재의 LLM들이 사용자별 안전 표준을 고려할 때 안전하게 행동하지 못한다는 새로운 발견을 했습니다. 이 취약점을 해결하기 위해, 우리는 체인 오브 사고(chain-of-thought) 기반의 간단한 해결책을 제안하고, 이를 통해 사용자별 안전성을 개선하는 데 효과적임을 입증했습니다. 우리의 벤치마크와 코드는 https://github.com/yeonjun-in/U-SafeBench에서 확인할 수 있습니다.
다중 턴 명령어 수행 능력은 대규모 언어 모델(LLM)의 실제 응용에서 핵심 역량을 구성한다. 기존 평가 벤치마크는 주로 세부적인 제약 조건 충족 및 도메인 특화 능력 평가에 초점을 맞추고 있으나, 다중 턴 상호작용과 단일 턴 상호작용을 구분짓는 대화 턴 간의 구조적 의존성을 간과하고 있다. 이 구조적 의존성은 사용자 의도를 반영할 뿐만 아니라 제약 조건 충족을 넘어 명령어 수행 평가의 두 번째 차원을 설정한다. 이러한 격차를 해결하기 위해, 우리는 구조적 흐름 모델링을 포함한 다중 턴 명령어 수행 벤치마크인 StructFlowBench를 제안한다. 이 벤치마크는 6가지 기본적인 턴 간 관계로 구성된 구조적 흐름 프레임워크를 혁신적으로 정의하며, 이는 모델 평가를 위한 새로운 구조적 제약 조건을 도입할 뿐만 아니라 특정 시나리오에 맞춤화된 대화 흐름 생성을 위한 생성 파라미터로도 기능한다. 확립된 LLM 기반 자동 평가 방법론을 채택하여, 우리는 13개의 주요 오픈소스 및 클로즈드소스 LLM에 대한 체계적인 평가를 수행한다. 실험 결과는 현재 모델들의 다중 턴 대화 구조 이해에 있어 상당한 결함을 드러낸다. 코드는 https://github.com/MLGroupJLU/StructFlowBench에서 확인할 수 있다.
재료 합성은 에너지 저장, 촉매, 전자기기, 생체의학 장치 등의 혁신에 있어 핵심적인 역할을 합니다. 그러나 이 과정은 전문가의 직관에 의존한 경험적 시행착오 방법에 크게 의존하고 있습니다. 우리의 연구는 실용적이고 데이터 기반의 리소스를 제공함으로써 재료 과학 커뮤니티를 지원하는 것을 목표로 합니다. 우리는 공개된 문헌에서 전문가가 검증한 17,000개의 합성 레시피를 포괄적으로 수집하여 새로운 벤치마크인 AlchemyBench의 기반을 마련했습니다. AlchemyBench는 합성 예측에 적용된 대형 언어 모델 연구를 지원하는 종단 간 프레임워크를 제공하며, 원료 및 장비 예측, 합성 절차 생성, 특성 결과 예측 등 주요 작업을 포함합니다. 우리는 대형 언어 모델을 활용한 자동 평가를 위한 LLM-as-a-Judge 프레임워크를 제안하며, 이는 전문가 평가와 강력한 통계적 일치를 보여줍니다. 전반적으로, 우리의 기여는 재료 합성 예측 및 안내에서 대형 언어 모델의 능력을 탐구하는 데 유용한 기반을 제공하며, 궁극적으로 더 효율적인 실험 설계와 재료 과학 분야의 혁신 가속화로 이어질 것입니다.
본 논문은 한국의 국가 교육 시험을 활용하여 멀티모달 생성형 AI 시스템을 평가하기 위해 설계된 새로운 벤치마크인 KoNET(Korean National Educational Test Benchmark)을 소개한다. KoNET은 한국 초등학교 졸업 학력 검정고시(KoEGED), 중학교 졸업 학력 검정고시(KoMGED), 고등학교 졸업 학력 검정고시(KoHGED), 그리고 대학수학능력시험(KoCSAT) 등 네 가지 시험으로 구성된다. 이러한 시험들은 엄격한 기준과 다양한 문제 유형으로 유명하며, 이를 통해 다양한 교육 수준에서 AI의 성능을 포괄적으로 분석할 수 있다. 한국어에 초점을 맞춘 KoNET은 상대적으로 덜 탐구된 언어에서의 모델 성능에 대한 통찰을 제공한다. 우리는 오픈소스, 오픈 액세스, 그리고 클로즈드 API 모델들을 대상으로 난이도, 과목 다양성, 그리고 인간의 오류율 등을 검토하여 평가를 진행한다. 코드와 데이터셋 빌더는 https://github.com/naver-ai/KoNET에서 완전히 오픈소스로 공개될 예정이다.
대형 언어 모델은 사고의 연쇄(chain-of-thought)와 테스트 시간 계산 확장을 활용하여 수학적 추론에서 놀라운 진전을 보여주었습니다. 그러나 추론 토큰 사용과 정확도 향상 간의 상호작용에 대해 많은 미해결 질문들이 남아 있습니다. 특히, 세대별 모델을 비교할 때, 성능 향상이 더 긴 추론 연쇄에서 비롯된 것인지 아니면 더 효율적인 추론에서 비롯된 것인지 명확하지 않습니다. 우리는 Omni-MATH 벤치마크에서 o1-mini와 o3-mini 변형 간의 사고의 연쇄 길이를 체계적으로 분석하여, o3-mini (m)이 o1-mini보다 더 긴 추론 연쇄를 요구하지 않으면서도 우수한 정확도를 달성함을 발견했습니다. 더욱이, 모든 모델과 계산 설정에서 질문의 난이도를 통제하더라도 추론 연쇄가 길어질수록 정확도가 일반적으로 감소함을 보여줍니다. 이 정확도 하락은 더 숙련된 모델에서 상대적으로 작게 나타나며, 이는 새로운 세대의 추론 모델이 테스트 시간 계산을 더 효과적으로 사용함을 시사합니다. 마지막으로, o3-mini (h)가 o3-mini (m)에 비해 미미한 정확도 향상을 달성하지만, 이는 o3-mini (m)이 이미 해결할 수 있는 문제를 포함해 모든 문제에 상당히 더 많은 추론 토큰을 할당함으로써 이루어진다는 점을 강조합니다. 이러한 발견들은 모델 능력과 추론 길이 간의 관계에 대한 새로운 통찰을 제공하며, 효율성, 확장성 및 평가 방법론에 대한 함의를 가지고 있습니다.
단백질 골격 생성은 데노보 단백질 설계에서 핵심적인 역할을 하며, 다양한 생물학적 및 의학적 응용 분야에서 중요한 의미를 가집니다. 확산 및 흐름 기반 생성 모델들은 이 어려운 과제에 대한 잠재적인 해결책을 제공하지만, 종종 바람직하지 않은 설계 가능성을 가진 단백질을 생성하거나 계산 비효율성을 겪습니다. 본 연구에서는 빠르고 고품질의 단백질 골격 생성을 위한 새로운 정류 쿼터니언 흐름(ReQFlow) 매칭 방법을 제안합니다. 특히, 우리의 방법은 단백질 사슬 내 각 잔기에 대해 무작위 노이즈로부터 국소적 이동과 3D 회전을 생성하며, 각 3D 회전을 단위 쿼터니언으로 표현하고 지수 형식의 구면 선형 보간(SLERP)을 통해 흐름을 구성합니다. 우리는 수치적 안정성이 보장된 쿼터니언 흐름(QFlow) 매칭을 통해 모델을 학습시키고, QFlow 모델을 정류하여 추론 속도를 가속화하고 생성된 단백질 골격의 설계 가능성을 개선함으로써 제안된 ReQFlow 모델을 도출했습니다. 실험 결과, ReQFlow는 단백질 골격 생성에서 최첨단 성능을 달성하면서도 훨씬 적은 샘플링 단계와 상당히 짧은 추론 시간(예: 길이 300의 골격 생성 시 RFDiffusion보다 37배, Genie2보다 62배 빠름)을 요구하여 그 효과성과 효율성을 입증했습니다. 코드는 https://github.com/AngxiaoYue/ReQFlow에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)의 발전과 의학 질의응답 분야에서의 활용 증가는 이들의 신뢰성에 대한 엄격한 평가를 필요로 합니다. 중요한 과제 중 하나는 모델이 사실적으로는 틀렸지만 그럴듯한 출력을 생성하는 환각(hallucination) 문제입니다. 의료 영역에서 이는 환자 안전과 임상적 의사결정에 심각한 위험을 초래할 수 있습니다. 이를 해결하기 위해, 우리는 의학적 환각 탐지를 위해 특별히 설계된 최초의 벤치마크인 MedHallu를 소개합니다. MedHallu는 PubMedQA에서 도출된 10,000개의 고품질 질문-답변 쌍으로 구성되어 있으며, 통제된 파이프라인을 통해 체계적으로 생성된 환각 답변을 포함합니다. 우리의 실험 결과, GPT-4o, Llama-3.1 및 의학 분야에 미세 조정된 UltraMedical을 포함한 최신 LLMs도 이 이진 환각 탐지 과제에 어려움을 겪는 것으로 나타났으며, 가장 성능이 좋은 모델조차도 "어려운" 범주의 환각을 탐지하는 데 있어 F1 점수가 0.625에 불과했습니다. 양방향 함의 클러스터링을 통해, 탐지하기 더 어려운 환각이 실제 답변과 의미적으로 더 가깝다는 것을 보여줍니다. 또한 실험을 통해, 도메인 특화 지식을 통합하고 "확실하지 않음" 카테고리를 답변 옵션 중 하나로 도입함으로써 정밀도와 F1 점수가 기준선 대비 최대 38%까지 향상될 수 있음을 확인했습니다.
최근에는 효과적이고 확장 가능한 이유로, 신원 보존 텍스트-비디오 생성(IPT2V)을 위한 대규모 사전 훈련된 비디오 확산 모델을 적응하는 튜닝 없는 접근 방식이 인기를 얻고 있습니다. 그러나 얼굴 역학을 만족스럽게 유지하면서 신원을 변경하지 않는 것은 여전히 중요한 도전이 남아 있습니다. 본 연구에서는 확산 트랜스포머(DiT)에 기반을 둔 사전 훈련된 비디오 모델의 얼굴 지식을 강화하여 튜닝 없는 IPT2V 프레임워크인 FantasyID를 제안합니다. 본질적으로, 3D 얼굴 지오메트리 사전이 동영상 합성 중에 타당한 얼굴 구조를 보장하기 위해 통합됩니다. 참조 얼굴을 단순히 프레임 간에 복제하는 복사-붙여넣기 바이패스를 학습하지 못하도록 하기 위해, 다양한 2D 얼굴 외관 특징을 포착하기 위해 다중 뷰 얼굴 증강 전략이 고안되어 얼굴 표현과 머리 자세의 역학을 증가시킵니다. 또한, 2D 및 3D 특징을 가이드로 혼합한 후, DiT 레이어에 가이드 신호를 주입하기 위해 단순히 교차 주의를 사용하는 대신, 학습 가능한 레이어 인식적응 메커니즘을 사용하여 퓨즈드 특징을 각각의 개별 DiT 레이어에 선택적으로 주입하여 신원 보존 및 동역학의 균형 잡힌 모델링을 용이하게 합니다. 실험 결과는 우리의 모델이 현재의 튜닝 없는 IPT2V 방법보다 우월함을 입증합니다.
본 논문에서는 대규모 언어 모델(LLM)의 추론 능력을 활용하여 엄격한 스키마 준수를 강제하는 과제를 다룹니다. DeepSeek R1 강화 학습 프레임워크를 기반으로, 우리의 접근 방식은 Group Relative Policy Optimization(GRPO) 하에서 합성 추론 데이터셋 구축과 맞춤형 보상 함수를 결합한 새로운 파이프라인을 통해 1.5B 파라미터 모델의 구조화된 추론 능력을 훈련시킵니다. 구체적으로, 먼저 원본 DeepSeek R1 방법을 반영하여 20K 샘플의 비구조화-구조화 데이터셋에 대해 R1 강화 학습을 수행하여 핵심 추론 능력을 확립합니다. 이후, 10K 추론 샘플 데이터셋에 대해 지도 미세 조정을 수행하여 다운스트림 작업을 위한 스키마 준수를 개선하는 데 초점을 맞춥니다. 상대적으로 적은 훈련 범위(GRPO 훈련은 8xH100 GPU 클러스터에서 약 20시간, SFT는 1xA100에서 3시간 소요)에도 불구하고, 우리의 모델은 스키마 일관성 강제에서 견고한 성능을 보여줍니다. 우리는 ThinkJSON 접근 방식을 원본 DeepSeek R1(671B), DeepSeek R1의 축소 버전(Qwen-1.5B 및 Qwen-7B), 그리고 Gemini 2.0 Flash(70B)와 비교하여 실제 응용 프로그램에서의 효과를 입증합니다. 우리의 결과는 스키마 제약 텍스트 생성을 위한 자원 효율적인 프레임워크의 실용적 유용성을 강조합니다.
확산 모델에서의 샘플링은 느린 반복적 과정을 수반하며, 이는 특히 상호작용형 애플리케이션에서의 실질적인 배포를 방해합니다. 생성 속도를 가속화하기 위해, 최근 접근법들은 다단계 확산 모델을 변분 점수 증류(variational score distillation)를 통해 단일 단계 학생 생성기로 증류하여, 학생이 생성한 샘플의 분포를 교사 모델의 분포와 일치시키는 방법을 사용합니다. 그러나 이러한 접근법들은 모드 탐색(mode seeking) 성향이 있는 역방향 쿨백-라이블러(Kullback-Leibler, KL) 발산을 분포 매칭에 사용합니다. 본 논문에서는 모드 커버리지와 학습 분산 간의 다양한 절충점을 제공하는 새로운 f-발산 최소화 프레임워크인 f-distill을 통해 분포 매칭 접근법을 일반화합니다. 우리는 교사와 학생 분포 간의 f-발산의 그래디언트를 유도하고, 이가 그들의 점수 차이와 밀도 비율에 의해 결정되는 가중치 함수의 곱으로 표현됨을 보입니다. 이 가중치 함수는 덜 모드 탐색적인 발산을 사용할 때, 교사 분포에서 더 높은 밀도를 가진 샘플을 자연스럽게 강조합니다. 우리는 역방향 KL 발산을 사용한 인기 있는 변분 점수 증류 접근법이 우리 프레임워크 내의 특수한 경우임을 관찰합니다. 실험적으로, 우리는 순방향 KL 및 젠센-섀넌(Jensen-Shannon) 발산과 같은 대안적 f-발산들이 이미지 생성 작업에서 현재 최고의 변분 점수 증류 방법들을 능가함을 입증합니다. 특히, 젠센-섀넌 발산을 사용할 때, f-distill은 ImageNet64에서의 단일 단계 생성 성능과 MS-COCO에서의 제로샷 텍스트-이미지 생성에서 현재 최첨단 성능을 달성합니다. 프로젝트 페이지: https://research.nvidia.com/labs/genair/f-distill
문서 처리 분야에서 검색 강화 생성(Retrieval-Augmented Generation, RAG)의 활용이 증가함에 따라, 지식 추출을 위한 강력한 텍스트 인식 기술의 중요성이 더욱 부각되고 있습니다. 영어 및 기타 언어의 광학 문자 인식(OCR)은 대규모 데이터셋과 잘 정립된 벤치마크의 혜택을 받고 있지만, 아랍어 OCR은 필기체 스크립트, 오른쪽에서 왼쪽으로의 텍스트 흐름, 복잡한 타이포그래피 및 서체 특성으로 인해 독특한 도전에 직면해 있습니다. 본 논문에서는 현재의 평가 시스템에서 존재하는 격차를 메우기 위한 포괄적인 아랍어 OCR 벤치마크인 KITAB-Bench를 소개합니다. 우리의 벤치마크는 9개의 주요 도메인과 36개의 하위 도메인에 걸쳐 8,809개의 샘플로 구성되어 있으며, 필기 텍스트, 구조화된 테이블, 비즈니스 인텔리전스를 위한 21가지 차트 유형의 전문적인 커버리지를 포함한 다양한 문서 유형을 다룹니다. 연구 결과에 따르면, 최신 비전-언어 모델(GPT-4, Gemini, Qwen 등)은 전통적인 OCR 접근법(EasyOCR, PaddleOCR, Surya 등)보다 문자 오류율(Character Error Rate, CER)에서 평균 60% 더 우수한 성능을 보였습니다. 또한, 현재의 아랍어 OCR 모델들이 PDF-to-Markdown 변환에서 특히 심각한 한계를 보이는 점을 강조하며, 최고 성능을 보인 Gemini-2.0-Flash 모델도 65%의 정확도에 그쳤습니다. 이는 복잡한 폰트, 숫자 인식 오류, 단어 연장, 테이블 구조 탐지 등의 문제로 인해 아랍어 텍스트를 정확하게 인식하는 데 어려움이 있음을 보여줍니다. 본 연구는 아랍어 문서 분석 방법의 개선을 촉진하고 영어 OCR 기술과의 성능 격차를 줄이는 데 기여할 수 있는 엄격한 평가 프레임워크를 확립합니다.
기존 벤치마크는 범용 AI 어시스턴트 개발에 필수적인 대형 멀티모달 모델(LMM)의 인간 사용자와의 상호작용 지능을 테스트하지 않습니다. 우리는 이러한 능력을 자율적으로 평가할 수 있는 상호작용 프레임워크인 InterFeedback를 설계했습니다. 이를 기반으로, 우리는 두 가지 대표적인 데이터셋인 MMMU-Pro와 MathVerse를 사용하여 10개의 오픈소스 LMM을 테스트하는 InterFeedback-Bench를 소개합니다. 또한, OpenAI-o1 및 Claude-3.5-Sonnet과 같은 주요 모델의 상호작용 성능을 수동으로 테스트하기 위해 새로 수집된 120개의 사례를 포함한 InterFeedback-Human 데이터셋을 제시합니다. 우리의 평가 결과는 OpenAI-o1과 같은 최첨단 LMM조차도 인간의 피드백을 통해 결과를 수정하는 비율이 50% 미만임을 보여줍니다. 이러한 발견은 LMM이 피드백을 해석하고 이를 활용할 수 있는 능력을 향상시킬 수 있는 방법의 필요성을 시사합니다.
현대 기술과 향상된 접근성 덕분에 연구가 기하급수적으로 증가하면서, 과학적 발견은 학문 내 및 학제 간에 점점 더 파편화되고 있습니다. 이로 인해 관련 연구들, 특히 서로 다른 연구 커뮤니티에서 나온 연구들의 중요성, 참신성, 점진적 발견, 그리고 동등한 아이디어를 평가하는 것이 어려워졌습니다. 최근 대규모 언어 모델(LLM)은 강력한 정량적 및 정성적 추론 능력을 보여주었으며, 다중 에이전트 LLM 토론은 다양한 관점과 추론 경로를 탐색함으로써 복잡한 추론 작업을 처리하는 데 유망한 가능성을 보였습니다. 이를 영감으로 삼아, 우리는 과학 논문을 LLM 페르소나로 변환하여 각각의 참신성을 논쟁하는 Tree-of-Debate(ToD) 프레임워크를 소개합니다. 결과에만 초점을 맞추는 대신 구조화된 비판적 추론을 강조하기 위해, ToD는 토론 트리를 동적으로 구성하여 학술 논문 내 독립적인 참신성 주장에 대한 세밀한 분석을 가능하게 합니다. 다양한 분야의 과학 문헌에 대한 실험을 통해 전문 연구자들이 평가한 결과, ToD는 정보성 있는 주장을 생성하고 논문들을 효과적으로 대비시키며 연구자들의 문헌 검토를 지원하는 것으로 나타났습니다.
실제 환경에서 언제 발화를 시작할지 예측하는 것은 대화형 에이전트에게 여전히 근본적인 과제로 남아 있습니다. 우리는 에고센트릭 스트리밍 비디오에서 실시간 발화 시작 예측을 위한 새로운 프레임워크인 EgoSpeak을 소개합니다. EgoSpeak은 화자의 1인칭 시점에서 대화를 모델링함으로써, 대화형 에이전트가 지속적으로 주변 환경을 관찰하고 언제 말할지 동적으로 결정해야 하는 인간과 유사한 상호작용에 맞춰 설계되었습니다. 우리의 접근 방식은 단순화된 실험 설정과 복잡한 자연스러운 대화 간의 간극을 메우기 위해 네 가지 핵심 기능을 통합합니다: (1) 1인칭 시점, (2) RGB 처리, (3) 온라인 처리, (4) 트리밍되지 않은 비디오 처리. 또한, 대규모 사전 학습을 위한 리소스로 YouTube에서 수집한 다양한 실제 대화 비디오 컬렉션인 YT-Conversation을 제시합니다. EasyCom과 Ego4D에서의 실험 결과, EgoSpeak은 실시간에서 무작위 및 침묵 기반 베이스라인을 능가하는 성능을 보여줍니다. 우리의 결과는 또한 언제 말할지 효과적으로 결정하는 데 있어 멀티모달 입력과 컨텍스트 길이의 중요성을 강조합니다.
주요 AI 기업들은 점점 더 범용 AI 에이전트 구축에 집중하고 있습니다. 이는 인간이 수행할 수 있는 거의 모든 작업에 걸쳐 자율적으로 계획을 세우고 행동하며 목표를 추구할 수 있는 시스템입니다. 이러한 시스템이 유용할 수 있음에도 불구하고, 통제되지 않은 AI 에이전트는 악의적인 행위자의 오용부터 인간 통제의 잠재적이고도 돌이킬 수 없는 상실에 이르기까지 공공 안전과 보안에 중대한 위험을 초래할 수 있습니다. 우리는 이러한 위험이 현재의 AI 훈련 방법에서 어떻게 발생하는지 논의합니다. 실제로 다양한 시나리오와 실험을 통해 AI 에이전트가 인간 운영자가 명시하지 않았고 인간의 이익과 상충하는 목표(예: 자기 보존)를 추구하거나 기만 행위를 할 가능성이 입증되었습니다. 예방 원칙에 따라, 우리는 현재의 에이전트 중심 경로보다 더 안전하면서도 여전히 유용한 대안이 절실히 필요하다고 봅니다. 이에 따라, 우리는 신뢰할 수 있고 설계 상 안전한 비에이전트 AI 시스템의 개발을 더 나은 진보를 위한 핵심 구성 요소로 제안하며, 이를 '과학자 AI(Scientist AI)'라고 명명합니다. 이 시스템은 인간을 모방하거나 기쁘게 하기 위해 행동을 취하는 대신, 관찰을 통해 세계를 설명하도록 설계되었습니다. 이는 데이터를 설명하기 위한 이론을 생성하는 세계 모델과 질문-응답 추론 기계로 구성됩니다. 두 구성 요소 모두 과도하게 확신에 찬 예측의 위험을 완화하기 위해 명시적인 불확실성 개념을 가지고 작동합니다. 이러한 고려 사항을 감안할 때, 과학자 AI는 AI 안전을 포함한 과학적 진보를 가속화하기 위해 인간 연구자를 지원하는 데 사용될 수 있습니다. 특히, 우리의 시스템은 위험에도 불구하고 생성될 수 있는 AI 에이전트에 대한 방어벽으로 활용될 수 있습니다. 궁극적으로, 비에이전트 AI에 초점을 맞추는 것은 현재의 경로와 관련된 위험을 피하면서 AI 혁신의 이점을 누릴 수 있게 할 수 있습니다. 우리는 이러한 논의가 연구자, 개발자, 정책 입안자들이 이 더 안전한 길을 선택하도록 동기를 부여하기를 바랍니다.
스타일 임베딩은 스타일 분석과 스타일 변환에 유용하지만, 현재까지는 영어 스타일 임베딩만이 공개되어 있습니다. 우리는 합성 데이터와 대조 학습(contrastive learning)을 사용하여 훈련된 다국어 스타일 임베딩 모델인 Multilingual StyleDistance(mStyleDistance)를 소개합니다. 이 모델은 9개 언어의 데이터로 훈련되었으며, 임베딩의 품질을 평가하기 위한 다국어 STEL-or-Content 벤치마크(Wegmann et al., 2022)를 구축했습니다. 또한, 우리는 다양한 언어를 포함한 저자 검증 작업에서 이 임베딩을 활용했습니다. 실험 결과, mStyleDistance 임베딩은 이러한 다국어 스타일 벤치마크에서 기존 모델들을 능가하며, 보지 못한 특징과 언어에 대해서도 잘 일반화되는 것을 확인했습니다. 우리는 이 모델을 https://huggingface.co/StyleDistance/mstyledistance 에 공개하였습니다.
우리는 Power Law Decoder Representations에서 파생된 대규모 언어 모델(PLDR-LLM)이 작은 변동 범위 내에서 불변 텐서를 출력하는 기초 모델임을 보여준다. PLDR-LLM은 추론 시 Power Law Graph Attention(PLGA)의 심층 신경망을 대체할 수 있는 에너지-곡률 텐서 \(G_{LM}\)을 한 번 추론한 후 이를 활용할 수 있는 특이 조건(singularity condition)을 학습한다. 우리는 \(G_{LM}\) 캐시(G-cache)와 KV-cache를 간단히 구현하여 추론 시간을 개선할 수 있음을 입증한다. 이때, 추론 출력의 불변성과 일반화 특성은 매우 높은 정확도를 유지하며, 캐싱 후에도 RMSE와 행렬식 값이 소수점 15자리까지 동일하고, 제로샷 벤치마크 점수도 변하지 않는다. 추가 실험 결과, 학습된 추론 출력은 전이된, 무작위 초기화된, 또는 항등 텐서를 상수 텐서 연산자로 사용한 사전 학습 모델과는 구별되는 손실 및 정확도 특성을 보이며, 스케일드 닷 프로덕트 어텐션(SDPA)을 사용한 LLM은 \(G_{LM}\)이 항등 텐서로 미리 정의된 PLDR-LLM의 특수한 경우임을 확인했다. 관찰된 불변성 특성은 캐싱을 사용한 학습과 추론 단계 간의 새로운 비대칭성을 도입한다. 우리는 학습된 특이 조건에 대한 추론 출력의 공통적인 특성을 요약하고, KV-cache와 G-cache를 포함한 PLDR-LLM의 학습 및 추론 프레임워크 구현을 제공한다.
단안 비디오로부터 세계 좌표계에서 정확한 스케일로 인간과 카메라의 궤적을 추정하는 것은 매우 바람직하지만 어렵고 잘 정의되지 않은 문제입니다. 본 연구에서는 세계, 인간, 카메라라는 세 가지 핵심 요소 간의 시너지를 활용하여 표현력 있는 파라미터화된 인간 모델(즉, SMPL-X)과 해당 카메라 포즈를 함께 복원하는 것을 목표로 합니다. 우리의 접근 방식은 두 가지 주요 관찰에 기반을 두고 있습니다. 첫째, 카메라 프레임 SMPL-X 추정 방법은 절대적인 인간 깊이를 쉽게 복원합니다. 둘째, 인간의 움직임은 본질적으로 절대적인 공간적 단서를 제공합니다. 이러한 통찰을 통합하여, 우리는 전통적인 최적화 기법에 의존하지 않고 세계에 기반을 둔 표현적 인간 포즈 및 형태 추정(EHPS)과 카메라 포즈 추정을 용이하게 하는 새로운 프레임워크인 WHAC을 소개합니다. 또한, 정확하게 주석이 달린 인간과 카메라를 포함하며 다양한 상호작용적 인간 움직임과 현실적인 카메라 궤적을 특징으로 하는 새로운 합성 데이터셋인 WHAC-A-Mole을 제시합니다. 표준 및 새로 구축된 벤치마크에 대한 광범위한 실험은 우리 프레임워크의 우수성과 효율성을 강조합니다. 코드와 데이터셋을 공개할 예정입니다.
대형 언어 모델(LLM)은 질병 진단 분야에서 인상적인 성능을 보여주고 있습니다. 그러나 본질적으로 진단이 더 어려운 희귀 질환을 식별하는 데 있어서의 효과성은 여전히 미해결된 문제로 남아 있습니다. 의료 현장에서 LLM의 활용이 증가함에 따라 희귀 질환에 대한 성능은 매우 중요해졌습니다. 특히, 주치의가 환자와의 대화만을 기반으로 희귀 질환을 예측하고 적절한 다음 단계를 결정해야 하는 경우에는 더욱 그렇습니다. 이를 위해 여러 임상 의사 결정 지원 시스템이 희귀 질환 식별을 지원하도록 설계되었습니다. 그러나 이러한 시스템들은 일반적인 질환에 대한 지식 부족과 사용의 어려움으로 인해 그 유용성이 제한적입니다. 본 논문에서는 LLM의 지식과 전문가 시스템을 결합한 RareScale을 제안합니다. 우리는 전문가 시스템과 LLM을 함께 사용하여 희귀 질환 대화를 시뮬레이션합니다. 이 데이터는 희귀 질환 후보 예측 모델을 훈련하는 데 사용됩니다. 이 작은 모델에서 생성된 후보들은 블랙박스 LLM에 추가 입력으로 제공되어 최종 차별 진단을 내리게 됩니다. 따라서 RareScale은 희귀 질환과 일반적인 질환 진단 사이의 균형을 유지할 수 있습니다. 우리는 복부 방선균증(Abdominal Actinomycosis)에서 윌슨병(Wilson's Disease)에 이르는 575개 이상의 희귀 질환에 대한 결과를 제시합니다. 우리의 접근 방식은 블랙박스 LLM의 기본 성능을 Top-5 정확도 기준으로 17% 이상 크게 향상시킵니다. 또한, 우리의 후보 생성 성능도 높은 것으로 나타났습니다(예: gpt-4o 생성 대화에서 88.8%).
다중 모달 3D 객체 이해는 상당한 관심을 받고 있지만, 현재의 접근 방식들은 종종 모든 모달리티에 대해 완전한 데이터 가용성과 엄격한 정렬을 가정합니다. 우리는 유연한 장면 수준의 모달리티 정렬을 통해 교차 모달 3D 장면 이해를 위한 새로운 프레임워크인 CrossOver를 제안합니다. 모든 객체 인스턴스에 대해 정렬된 모달리티 데이터를 요구하는 전통적인 방법과 달리, CrossOver는 RGB 이미지, 포인트 클라우드, CAD 모델, 평면도, 텍스트 설명과 같은 모달리티를 완화된 제약 조건과 명시적인 객체 의미 없이 정렬함으로써 통합된 모달리티-불가지론적 임베딩 공간을 학습합니다. 차원별 인코더, 다단계 학습 파이프라인, 그리고 발생적 교차 모달 행동을 활용하여 CrossOver는 모달리티가 누락된 경우에도 강력한 장면 검색 및 객체 위치 파악을 지원합니다. ScanNet 및 3RScan 데이터셋에 대한 평가는 다양한 메트릭에서 우수한 성능을 보여주며, 3D 장면 이해를 위한 실제 응용에서의 적응성을 강조합니다.
대형 언어 모델(LLMs)은 자연어 처리 분야에서 상당한 진전을 이루었으나, 고위험 정치적 의사결정에 대한 잠재력은 아직 크게 탐구되지 않았다. 본 논문은 특히 위험이 크고 정치적 결정이 광범위한 영향을 미칠 수 있는 유엔(UN) 의사결정 과정에 LLMs를 적용하는 데 초점을 맞춰 이 격차를 해소하고자 한다. 우리는 1994년부터 2024년까지 공개된 유엔 안전보장이사회(UNSC) 기록, 초안 결의안, 투표 기록, 외교 연설 등을 포함한 새로운 데이터셋을 소개한다. 이 데이터셋을 활용하여, 우리는 유엔 벤치마크(UNBench)를 제안한다. 이는 LLMs를 네 가지 상호 연결된 정치학 과제—공동 초안 작성자 판단, 대표 투표 시뮬레이션, 초안 채택 예측, 대표 성명 생성—에 걸쳐 평가하기 위해 설계된 첫 번째 종합 벤치마크이다. 이러한 과제들은 유엔 의사결정 과정의 세 단계—초안 작성, 투표, 논의—를 아우르며, LLMs가 정치적 역학을 이해하고 시뮬레이션하는 능력을 평가하는 것을 목표로 한다. 우리의 실험적 분석은 이 분야에 LLMs를 적용할 때의 잠재력과 과제를 보여주며, 정치학에서의 강점과 한계에 대한 통찰을 제공한다. 이 연구는 AI와 정치학의 교차점을 확장하며, 글로벌 거버넌스에서의 연구와 실용적 응용을 위한 새로운 길을 열어준다. UNBench 저장소는 https://github.com/yueqingliang1/UNBench에서 확인할 수 있다.
우리는 DNA 서열로부터 유전자 발현을 예측하는 문제를 고려한다. 이 작업의 주요 과제는 유전자 발현을 조절하는 규제 요소를 찾는 것이다. 본 논문에서는 목표 유전자 발현을 주도하는 규제 요소를 발견하고 추출함으로써 유전자 발현 예측의 정확도를 향상시키기 위해 명시적으로 설계된 Seq2Exp(Sequence to Expression 네트워크)를 소개한다. 우리의 접근법은 후성유전학적 신호, DNA 서열 및 이들과 연관된 규제 요소 간의 인과 관계를 포착한다. 구체적으로, 우리는 인과적으로 활성화된 규제 요소를 조건으로 하여 후성유전학적 신호와 DNA 서열을 분해하고, 베타 분포를 적용한 정보 병목 현상을 통해 이들의 효과를 결합하면서 비인과적 요소를 걸러내는 방법을 제안한다. 우리의 실험 결과, Seq2Exp는 유전자 발현 예측 작업에서 기존의 베이스라인을 능가하며, MACS3와 같은 일반적으로 사용되는 통계적 방법에 비해 영향력 있는 영역을 발견한다. 소스 코드는 AIRS 라이브러리(https://github.com/divelab/AIRS/)의 일부로 공개되었다.
사용자 요구사항이나 법적 프레임워크는 종종 사전 학습된 모델, 특히 대규모 언어 모델(LLMs)에서 특정 정보를 제거할 것을 요구합니다. 이는 이미 학습된 모델에서 일련의 데이터 포인트를 삭제하거나 "잊게" 하는 것을 의미하며, 일반적으로 이는 다른 데이터 포인트에 대한 모델의 성능을 저하시킵니다. 따라서 정보 제거와 모델의 다른 능력을 유지하는 사이의 균형을 맞추어야 하며, 이러한 균형을 맞추지 못하면 정보 삭제가 제대로 이루어지지 않거나 모델이 사용 불가능해질 수 있습니다. 이를 위해 우리는 UPCORE(Utility-Preserving Coreset Selection)를 제안합니다. 이는 언러닝(unlearning) 과정 중 발생하는 부수적 손상을 완화하기 위한 방법론에 구애받지 않는 데이터 선택 프레임워크입니다. 모델 손상이 잊혀질 데이터 세트(forget set)에 대한 모델 표현의 분산과 상관관계가 있음을 발견한 우리는, 잊혀질 데이터 세트에서 이상치를 선택적으로 제거하여 언러닝 후 모델 성능 저하를 최소화합니다. 우리는 UPCORE를 세 가지 표준 언러닝 방법에 걸쳐 평가하며, 삭제 효율성과 모델 보존이라는 상충되는 목표 사이에서 우수한 균형을 달성함을 확인했습니다. 이러한 균형을 더 잘 평가하기 위해, 우리는 표준 지표들에 대한 곡선 아래 면적(AUC)을 측정하는 새로운 지표를 도입했습니다. UPCORE는 표준 지표와 AUC 모두를 개선하며, 코어셋(core set)과 제거된 포인트 간의 긍정적 전이(positive transfer)로부터 이점을 얻는 동시에 잊혀질 데이터 세트가 그 외의 포인트에 미치는 부정적 전이(negative transfer)를 줄입니다.
딥러닝은 원격 탐사 영상 변화 탐지(CD) 분야에서 상당한 성과를 거두었지만, 여전히 두 가지 주요 과제가 남아 있습니다: 서브미터 수준의 포괄적인 오픈소스 CD 데이터셋의 부족, 그리고 변화 영역이 다양한 이미지들 간에 일관되고 만족스러운 탐지 결과를 달성하기 어려운 점입니다. 이러한 문제를 해결하기 위해, 우리는 0.5~0.75미터 해상도의 512 x 512 픽셀 이미지 5,000쌍으로 구성된 JL1-CD 데이터셋을 소개합니다. 또한, 변화 탐지를 위한 다중 교사 지식 증류(MTKD) 프레임워크를 제안합니다. JL1-CD와 SYSU-CD 데이터셋에 대한 실험 결과는 MTKD 프레임워크가 다양한 네트워크 구조와 파라미터 크기를 가진 CD 모델의 성능을 크게 향상시키며, 새로운 최첨단 결과를 달성함을 보여줍니다. 코드는 https://github.com/circleLZY/MTKD-CD에서 확인할 수 있습니다.
대형 언어 모델(LLMs)의 감정적 경계 처리 능력을 평가하기 위한 오픈소스 벤치마크 및 평가 프레임워크를 제시한다. 6개 언어에 걸친 1156개의 프롬프트 데이터셋을 사용하여, GPT-4o, Claude-3.5 Sonnet, Mistral-large 등 세 가지 주요 LLM을 패턴 매칭 응답 분석을 통해 적절한 감정적 경계를 유지하는 능력에 대해 평가했다. 본 프레임워크는 직접 거절, 사과, 설명, 회피, 인정, 경계 설정, 감정 인식 등 일곱 가지 주요 패턴에 걸쳐 응답을 정량화한다. 평가 결과, 경계 처리 접근 방식에서 상당한 차이가 나타났으며, Claude-3.5가 전체 최고 점수(8.69/10)를 기록하고 더 길고 세련된 응답(평균 86.51단어)을 생성했다. 영어(평균 점수 25.62)와 비영어 상호작용(< 0.22) 간의 성능 격차가 크게 나타났으며, 영어 응답에서 거절 비율이 현저히 높았다(43.20% vs. 비영어 < 1%). 패턴 분석을 통해 Mistral의 회피 선호(4.2%)와 모든 모델에서 일관되게 낮은 공감 점수(< 0.06)와 같은 모델별 전략을 확인했다. 패턴 매칭을 통한 과도한 단순화, 응답 분석에서의 문맥 이해 부족, 복잡한 감정 응답의 이진 분류 등이 한계로 지적된다. 향후 연구에서는 더 세련된 채점 방법 탐구, 언어 범위 확장, 감정적 경계 기대치의 문화적 차이 조사 등이 필요하다. 본 벤치마크와 방법론은 LLM의 감성 지능 및 경계 설정 능력을 체계적으로 평가하기 위한 기반을 제공한다.