AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

SpreadsheetLLM: 대규모 언어 모델을 위한 스프레드시트 인코딩
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Jul 12

ByYuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang

139

스프레드시트는 광범위한 2차원 그리드, 다양한 레이아웃, 그리고 다양한 서식 옵션으로 인해 대규모 언어 모델(LLMs)에게 상당한 도전 과제를 제시합니다. 이에 대응하여, 우리는 SpreadsheetLLM을 소개하며, 스프레드시트에서 LLMs의 강력한 이해와 추론 능력을 발휘하고 최적화하기 위한 효율적인 인코딩 방법을 선구적으로 제안합니다. 초기에는 셀 주소, 값, 그리고 서식을 포함한 기본적인 직렬화 접근 방식을 제안했습니다. 그러나 이 접근 방식은 LLMs의 토큰 제약으로 인해 대부분의 응용 프로그램에서 실용적이지 못했습니다. 이 문제를 해결하기 위해, 우리는 SheetCompressor라는 혁신적인 인코딩 프레임워크를 개발했습니다. 이 프레임워크는 구조적 앵커 기반 압축, 역인덱스 변환, 그리고 데이터-서식 인식 집계라는 세 가지 모듈로 구성됩니다. 이는 스프레드시트 테이블 탐지 작업에서 성능을 크게 향상시켜, GPT4의 인컨텍스트 학습 설정에서 기본 접근 방식보다 25.6% 더 나은 성능을 보였습니다. 또한, SheetCompressor로 미세 조정된 LLM은 평균 25배의 압축 비율을 달성하면서도 최첨단 78.9% F1 점수를 기록하여, 기존 최고 모델을 12.3% 앞섰습니다. 마지막으로, 우리는 스프레드시트 이해를 위한 다운스트림 작업을 위해 Chain of Spreadsheet를 제안하고, 새로운 그리고 까다로운 스프레드시트 QA 작업에서 이를 검증했습니다. 우리는 스프레드시트의 내재된 레이아웃과 구조를 체계적으로 활용하여, SpreadsheetLLM이 다양한 스프레드시트 작업에서 매우 효과적임을 입증했습니다.

무한 컨텍스트 LLM을 위한 인간형 에피소드 메모리
Human-like Episodic Memory for Infinite Context LLMs

Jul 12

ByZafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

대규모 언어 모델(LLM)은 놀라운 능력을 보여주었지만, 여전히 광범위한 문맥을 처리하는 데 어려움을 겪으며, 긴 시퀀스에 걸쳐 일관성과 정확성을 유지하는 능력이 제한적입니다. 반면, 인간의 뇌는 평생에 걸친 광대한 시간 규모에서 에피소드적 경험을 조직하고 검색하는 데 탁월합니다. 본 연구에서는 인간의 에피소드 기억과 사건 인지의 핵심 요소를 LLM에 통합한 새로운 접근법인 EM-LLM을 소개합니다. 이를 통해 LLM이 실질적으로 무한한 문맥 길이를 효과적으로 처리하면서도 계산 효율성을 유지할 수 있게 합니다. EM-LLM은 베이지안 서프라이즈와 그래프 이론적 경계 정제를 결합하여 온라인 방식으로 토큰 시퀀스를 일관된 에피소드 사건으로 조직합니다. 필요할 때, 이러한 사건들은 유사성 기반 및 시간적 연속성 검색을 결합한 두 단계의 메모리 프로세스를 통해 검색되며, 이는 관련 정보에 대한 효율적이고 인간과 유사한 접근을 가능하게 합니다. LongBench 데이터셋에 대한 실험은 EM-LLM의 우수한 성능을 입증하며, 다양한 작업에서 최신 기술인 InfLLM 모델을 능가하며 전반적으로 4.3%의 상대적 개선을 보였고, 특히 PassageRetrieval 작업에서는 33%의 개선을 달성했습니다. 또한, 우리의 분석은 EM-LLM의 사건 분할과 인간이 인지하는 사건 간의 강한 상관관계를 보여주며, 이 인공 시스템과 생물학적 대응체 간의 다리를 제시합니다. 이 연구는 확장된 문맥 처리에서 LLM의 능력을 발전시킬 뿐만 아니라, 인간 기억 메커니즘을 탐구하기 위한 계산적 프레임워크를 제공하며, AI와 인지 과학 간의 학제간 연구를 위한 새로운 길을 열어줍니다.

Toto: 관측 가능성을 위한 시계열 최적화 트랜스포머
Toto: Time Series Optimized Transformer for Observability

Jul 10

ByBen Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal

이 기술 보고서는 Datadog에서 개발한 시계열 예측을 위한 최신 기술인 Time Series Optimized Transformer for Observability(Toto)를 소개합니다. 이 모델은 전력 및 기상과 같은 다양한 분야에서 일반화된 시계열 벤치마크의 최신 기술을 발전시킨 것뿐만 아니라, 관측 가능성(observability) 메트릭에 특화된 최초의 범용 시계열 예측 기반 모델(foundation model)입니다. Toto는 현재 공개된 모든 시계열 기반 모델 중 가장 큰 규모인 1조 개의 시계열 데이터 포인트로 학습되었습니다. 공개된 시계열 데이터셋 외에도, Toto 학습 데이터의 75%는 Datadog 플랫폼에서 수집된 완전히 익명화된 수치 메트릭 데이터 포인트로 구성됩니다. 실험 결과, Toto는 관측 가능성 데이터에서 기존 시계열 기반 모델들을 능가하는 성능을 보였습니다. 또한 범용 예측 작업에서도 뛰어난 성과를 거두며, 여러 공개 벤치마크 데이터셋에서 최첨단 제로샷(zero-shot) 성능을 달성했습니다.

MUSCLE: 호환 가능한 대형 언어 모델 진화를 위한 모델 업데이트 전략
MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Jul 12

ByJessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari

대형 언어 모델(LLMs)은 성능 향상을 위해 데이터나 아키텍처 변경으로 인해 자주 업데이트됩니다. 모델을 업데이트할 때 개발자들은 종종 전반적인 성능 지표를 높이는 데 초점을 맞추며, 이전 모델 버전과의 호환성에는 상대적으로 덜 주의를 기울입니다. 그러나 사용자들은 상호작용하는 특정 머신러닝 모델의 기능과 능력에 대한 정신적 모델을 구축합니다. 매 업데이트마다 이 정신적 모델을 적응시켜야 하는데, 이는 사용자에게 부담이 되며 불만족으로 이어질 수 있습니다. 실제로, 미세 조정된 다운스트림 작업 어댑터는 사전 학습된 LLM 기본 모델에 의존합니다. 이러한 기본 모델이 업데이트되면, 사용자에게 노출되는 다운스트림 작업 모델은 인스턴스 회귀(instance regression) 또는 부정적 반전(negative flips)을 경험합니다. 이전에는 정확했던 인스턴스들이 이제는 잘못 예측되는 현상이 발생합니다. 이는 다운스트림 작업 훈련 절차가 동일하게 유지되더라도 발생합니다. 우리의 연구는 두 가지 방식으로 사용자에게 원활한 모델 업데이트를 제공하는 것을 목표로 합니다. 첫째, 이전 모델 버전과의 호환성 개념을 위한 평가 지표를 제공합니다. 이는 생성 작업에 특화되어 있지만 판별 작업에도 적용 가능합니다. 다양한 작업과 모델 업데이트에서 모델 버전 간의 회귀와 불일치를 관찰합니다. 둘째, 모델 업데이트에서 불일치를 최소화하기 위한 훈련 전략을 제안합니다. 이는 작업 미세 조정 언어 모델을 강화할 수 있는 호환성 모델의 훈련을 포함합니다. Llama 1에서 Llama 2로의 업데이트에서 부정적 반전(이전 모델 버전에서는 정확했지만 새 모델에서는 잘못된 경우)을 최대 40%까지 줄였습니다.

모델 수술: 간단한 파라미터 편집을 통해 LLM의 행동 조절하기
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Jul 11

ByHuanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang

대규모 언어 모델(LLM)은 강력한 과제 이해 및 문제 해결 능력을 보여주며 범용 어시스턴트로서의 큰 잠재력을 입증했습니다. LLM을 AI 어시스턴트로 배포하기 위해서는 이러한 모델이 비독성성과 탈옥(jailbreak) 시도에 대한 내성과 같은 바람직한 행동 특성을 보이는 것이 중요합니다. 현재 독성 제거나 탈옥 방지를 위한 방법은 일반적으로 지도 미세 조정(SFT) 또는 인간 피드백을 통한 강화 학습(RLHF)을 포함하며, 이는 상당한 계산 비용을 통해 수십억 개의 매개변수를 경사 하강법으로 미세 조정해야 합니다. 더욱이, SFT와 RLHF를 통해 수정된 모델은 사전 학습된 모델에서 벗어날 수 있으며, 이는 LLM의 기본 기능 저하로 이어질 가능성이 있습니다. 본 논문에서는 놀랍게도 소수의 매개변수를 직접 편집하는 것이 LLM의 특정 행동, 예를 들어 독성 제거 및 탈옥에 대한 저항성을 효과적으로 조절할 수 있음을 관찰했습니다. 구체적으로, 우리가 피하고자 하는 행동에 대해, LLM의 은닉 상태 공간 내에서 이진 행동 레이블을 분류하기 위해 행동 탐침(behavior probe)이라 명명한 선형 분류기를 사용합니다. 이 탐침을 활용하여, 우리는 목표 행동에 상당한 영향을 미치는 LLM 매개변수의 중요한 부분집합을 식별하는 알고리즘을 소개합니다. 그런 다음 선택된 매개변수를 행동 탐침 방향으로 이동시켜 직접 편집합니다. 이러한 직접 매개변수 편집 방법은 추론 수준의 계산 자원만을 필요로 합니다. 실험 결과, 대표적인 독성 제거 작업에서 우리의 접근 방식은 RealToxicityPrompts 데이터셋에서 최대 90.0%, ToxiGen에서 49.2%의 독성 감소를 달성하면서도 상식, 질문 응답, 수학과 같은 LLM의 일반적인 기능을 유지했습니다. 우리의 코드는 https://github.com/lucywang720/model-surgery에서 확인할 수 있습니다.

H2O-Danube3 기술 보고서
H2O-Danube3 Technical Report

Jul 12

ByPascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati

H2O-Danube3 시리즈를 소개합니다. 이는 6T 토큰으로 학습된 H2O-Danube3-4B와 4T 토큰으로 학습된 H2O-Danube3-500M으로 구성된 소형 언어 모델입니다. 우리의 모델은 주로 영어 토큰으로 구성된 고품질 웹 데이터를 세 단계에 걸쳐 다양한 데이터 조합으로 사전 학습한 후, 최종적으로 채팅 버전을 위한 지도 튜닝을 거쳤습니다. 이 모델들은 다양한 학술, 채팅 및 파인튜닝 벤치마크에서 매우 경쟁력 있는 성능을 보여줍니다. 컴팩트한 아키텍처 덕분에 H2O-Danube3는 현대 스마트폰에서도 효율적으로 실행될 수 있어, 모바일 기기에서도 로컬 추론과 빠른 처리 능력을 가능하게 합니다. 우리는 모든 모델을 Apache 2.0 라이선스 하에 공개하여, 더 넓은 대중에게 경제적으로 LLM을 민주화하고자 합니다.

GAVEL: 진화와 언어 모델을 통한 게임 생성
GAVEL: Generating Games Via Evolution and Language Models

Jul 12

ByGraham Todd, Alexander Padula, Matthew Stephenson, Éric Piette, Dennis J. N. J. Soemers, Julian Togelius

새롭고 흥미로운 게임을 자동으로 생성하는 것은 복잡한 작업입니다. 이 작업의 주요 과제로는 게임 규칙을 계산적으로 처리 가능한 형태로 표현하는 것, 대부분의 이러한 표현 방식 하에서 잠재적인 게임들의 방대한 공간을 탐색하는 것, 그리고 이전에 본 적 없는 게임들의 독창성과 품질을 정확하게 평가하는 것 등이 있습니다. 자동화된 게임 생성에 관한 기존 연구는 주로 비교적 제한된 규칙 표현 방식에 초점을 맞추고 도메인 특화적인 휴리스틱에 의존해 왔습니다. 본 연구에서는 비교적 광범위한 Ludii 게임 설명 언어를 사용하여 새로운 게임을 생성하는 방법을 탐구합니다. Ludii는 다양한 스타일과 플레이 방식을 가진 1,000개 이상의 보드 게임 규칙을 인코딩합니다. 우리는 대규모 언어 모델과 진화 연산의 최근 발전에서 영감을 얻어, 코드로 표현된 게임과 메커니즘을 지능적으로 변형하고 재조합하는 모델을 훈련시켰습니다. 우리의 접근 방식이 새로운 흥미로운 게임을 생성할 수 있으며, 특히 Ludii 데이터셋에 포함된 기존 게임들이 다루지 못한 규칙 공간의 영역에서도 게임을 생성할 수 있음을 정량적 및 정성적으로 입증했습니다. 생성된 게임 샘플은 Ludii 포털을 통해 온라인에서 플레이할 수 있습니다.

Transformer 레이어를 화가로 비유하기
Transformer Layers as Painters

Jul 12

ByQi Sun, Marc Pickett, Aakash Kumar Nain, Llion Jones

대규모 언어 모델에서 거의 보편적으로 채택되고 있음에도 불구하고, 트랜스포머의 내부 작동 방식은 잘 이해되지 않고 있습니다. 우리는 사전 학습된 트랜스포머의 각 계층에서 정보를 제거하거나 재구성하는 것이 미치는 영향을 더 잘 이해하는 것을 목표로 합니다. 이러한 이해는 기존 모델을 더 잘 활용하는 데 도움을 줄 뿐만 아니라 새로운 변종을 만들기 위한 아키텍처 개선에도 기여할 수 있습니다. 우리는 고정된(frozen) 모델에 대한 일련의 실험적 연구를 통해, 사전 학습된 트랜스포머의 하위 계층과 최종 계층이 중간 계층과 다르지만, 중간 계층은 놀라울 정도로 균일성을 보인다는 것을 보여줍니다. 또한, 특정 문제 유형은 계층을 건너뛰거나, 학습된 순서와 다르게 계층을 실행하거나, 계층을 병렬로 실행하는 데 대해 강건성을 보인다는 것을 추가로 보여줍니다. 우리의 관찰은 고정된 사전 학습 모델도 계층을 건너뛰거나 병렬로 실행함으로써 정확도와 지연 시간(latency) 사이에서 유연하게 균형을 맞출 수 있음을 시사합니다.

StyleSplat: 가우시안 스플래팅을 활용한 3D 객체 스타일 변환
StyleSplat: 3D Object Style Transfer with Gaussian Splatting

Jul 12

BySahil Jain, Avik Kuthiala, Prabhdeep Singh Sethi, Prakanshul Saxena

최근 레이디언스 필드(radiance fields)의 발전으로 고품질 3D 자산과 장면을 생성하는 새로운 가능성이 열렸습니다. 스타일 전환은 이러한 3D 자산에 다양한 예술적 스타일을 적용하여 창의적인 표현을 변형할 수 있습니다. 그러나 기존 기술은 종종 느리거나 특정 객체에 대한 스타일 전환을 지역화하지 못하는 한계가 있습니다. 우리는 참조 스타일 이미지로부터 3D 가우시안으로 표현된 장면 내 3D 객체를 스타일화하는 경량화된 방법인 StyleSplat을 소개합니다. 우리의 접근 방식은 먼저 3D 가우시안 스플래팅을 사용하여 장면의 사실적인 표현을 학습하는 동시에 개별 3D 객체를 분할합니다. 그런 다음, 최근접 이웃 특징 매칭 손실을 사용하여 선택된 객체의 가우시안을 미세 조정하고, 그들의 구면 조화 계수를 스타일 이미지와 일치시켜 일관성과 시각적 매력을 보장합니다. StyleSplat은 빠르고 사용자 정의 가능한 스타일 전환과 장면 내 여러 객체의 지역화된 스타일화를 가능하게 하며, 각 객체에 다른 스타일을 적용할 수 있습니다. 우리는 다양한 3D 장면과 스타일에서의 효과를 입증하며, 3D 생성에서 향상된 제어와 사용자 정의를 보여줍니다.

SPIQA: 과학 논문에 대한 멀티모달 질의응답을 위한 데이터셋
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Jul 12

ByShraman Pramanick, Rama Chellappa, Subhashini Venugopalan

긴 과학 연구 논문 내에서 질문에 대한 답을 찾는 것은 독자들이 신속하게 궁금증을 해결할 수 있도록 돕는 중요한 연구 분야입니다. 그러나 기존의 과학 논문 기반 질의응답(QA) 데이터셋은 규모가 제한적이며 텍스트 콘텐츠에만 초점을 맞추고 있습니다. 이러한 한계를 해결하기 위해, 우리는 다양한 컴퓨터 과학 분야의 과학 연구 논문 내 복잡한 그림과 표를 해석하기 위해 특별히 설계된 첫 번째 대규모 QA 데이터셋인 SPIQA(Scientific Paper Image Question Answering)를 소개합니다. 다중모달 대형 언어 모델(MLLMs)의 광범위한 전문성과 그림 이해 능력을 활용하여, 우리는 자동 및 수동 큐레이션을 통해 데이터셋을 구축했습니다. 우리는 다양한 플롯, 차트, 표, 개략도 및 결과 시각화를 포함하는 다중 이미지 기반 정보 탐색 작업을 설계했습니다. SPIQA는 훈련, 검증 및 세 가지 다른 평가 분할로 나뉜 270K개의 질문으로 구성됩니다. 12개의 주요 기초 모델을 통한 광범위한 실험을 통해, 우리는 현재 다중모달 시스템이 연구 논문의 미묘한 측면을 이해하는 능력을 평가합니다. 또한, 우리는 세분화된 단계별 평가를 가능하게 하고 모델 성능을 향상시키는 문맥 내 검색을 포함한 Chain-of-Thought(CoT) 평가 전략을 제안합니다. 우리는 추가 텍스트 정보를 통한 성능 향상의 상한선을 더 탐구하며, 이는 미래 연구에 대한 유망한 잠재력을 강조하고 과학 문헌과의 상호작용 방식을 혁신할 데이터셋의 영향을 보여줍니다.

긴 문맥 추론을 위한 프롬프트 압축 방법 특성화
Characterizing Prompt Compression Methods for Long Context Inference

Jul 11

BySiddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami

긴 문맥 추론은 시스템 수준에서 증가된 계산 및 메모리 요구 사항과 더불어, 긴 문맥에 대한 추론 능력이라는 정확도 측면에서도 도전 과제를 제시합니다. 최근에는 문맥 길이를 줄이기 위해 프롬프트를 압축하는 여러 방법이 제안되었습니다. 그러나 이러한 다양한 방법들을 표준화된 분석을 통해 여러 작업에 걸쳐 비교한 연구는 거의 이루어지지 않았습니다. 이로 인해 상충되는 결과가 나타나고 있습니다. 이를 해결하기 위해, 본 연구에서는 다양한 프롬프트 압축 방법에 대한 포괄적인 특성 분석과 평가를 수행합니다. 특히, 추출적 압축, 요약 기반의 추상적 압축, 그리고 토큰 제거 방법을 분석합니다. 놀랍게도, 추출적 압축이 종종 다른 모든 접근법을 능가하며, 최대 10배의 압축률을 달성하면서도 정확도 저하가 최소화되는 것으로 나타났습니다. 흥미롭게도, 최근 여러 주장에도 불구하고, 토큰 제거 방법은 종종 추출적 압축에 뒤처지는 것으로 확인되었습니다. 요약 작업에서는 미미한 개선만이 관찰되었습니다.

직접적 선호 최적화를 위한 새로운 요구사항
New Desiderata for Direct Preference Optimization

Jul 12

ByXiangkun Hu, Tong He, David Wipf

과거의 대형 언어 모델들은 일반적으로 인간의 선호도와 모델 응답을 더 잘 맞추기 위해 인간 피드백을 활용한 강화 학습(RLHF)의 어떤 형태에 의존해 왔습니다. 그러나 이러한 RLHF 파이프라인을 구현할 때 자주 관찰되는 불안정성 때문에, 최근에는 별도의 RL 보상 모델을 학습할 필요를 피하기 위해 다양한 재매개변수화 기법이 도입되었습니다. 대신, 인간의 선호도를 직접 미세 조정하는 것은 단일 폐쇄형 훈련 목적 함수의 최소화를 통해 달성되며, 이 과정은 원래 직접 선호 최적화(DPO)라고 불렸고 이후 여러 주목할 만한 후속 연구들이 이어졌습니다. 특정 실제 환경에서는 효과적이지만, 우리는 기존 DPO 방법들이 사전 훈련된 참조 모델과 인간 선호도의 경험적 측정치 사이를 보간하는 능력, 그리고 저품질 및 고품질 응답을 규제하고 제약을 처리하는 방식에서 피할 수 없는 절충점을 강조하는 새로운 평가 기준을 제시합니다. 이러한 통찰은 이러한 한계를 완화할 수 있는 대체 DPO 유사 손실 함수를 고안하도록 동기를 부여합니다. 실험 결과는 우리의 분석에서 주목할 만한 측면들을 뒷받침합니다.

Speech Slytherin: 음성 분리, 인식 및 합성을 위한 Mamba의 성능과 효율성 평가
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

Jul 13

ByXilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani

음성 처리에서 Mamba가 트랜스포머보다 더 나은 대안이라고 결론짓기에는 아직 이르다. 이를 확인하기 위해, Mamba와 트랜스포머를 여러 음성 관련 작업에서 성능과 효율성 측면에서 비교해야 한다. 이러한 결론을 도출하기 위해, 우리는 세 가지 작업에 대한 세 가지 모델을 제안하고 평가한다: 음성 분리를 위한 Mamba-TasNet, 음성 인식을 위한 ConMamba, 그리고 음성 합성을 위한 VALL-M. 이들을 유사한 크기의 트랜스포머 모델(Sepformer, Conformer, VALL-E)과 성능, 메모리, 속도 측면에서 비교한다. 우리의 Mamba 또는 Mamba-트랜스포머 하이브리드 모델은 트랜스포머 대비 동등하거나 더 높은 성능을 보인다. 또한, 음성 토큰의 해상도와 반비례하는 임계 길이 이상의 음성에 대해 메모리와 속도 측면에서 트랜스포머보다 더 효율적이다. 분리를 위한 Mamba가 가장 효율적이며, 인식을 위한 Mamba가 가장 덜 효율적이다. 더 나아가, Mamba는 임계 길이 미만의 짧은 음성에 대해 트랜스포머보다 더 효율적이지 않으며, 두 입력 간의 교차 또는 마스크 어텐션과 같은 텍스트와 음성의 공동 모델링이 필요한 모델에서는 성능이 더 나쁘다는 것을 보여준다. 따라서, Mamba와 트랜스포머 중 어느 것이 우수한지는 특정 문제와 모델에 따라 달라진다고 주장한다. 코드는 https://github.com/xi-j/Mamba-TasNet와 https://github.com/xi-j/Mamba-ASR에서 확인할 수 있다.

TCAN: 확산 모델을 활용한 시간적 일관성을 갖춘 포즈 지도 기반 인간 이미지 애니메이션
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

Jul 12

ByJeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo

포즈 기반 인간 이미지 애니메이션 확산 모델은 현실적인 인간 비디오 합성에서 뛰어난 능력을 보여주고 있습니다. 이전 접근법들이 유망한 결과를 달성했음에도 불구하고, 시간적으로 일관된 애니메이션을 달성하고 기성 포즈 탐지기의 견고성을 보장하는 데에는 여전히 과제가 남아 있습니다. 본 논문에서는 오류가 있는 포즈에 대해 견고하며 시간적으로 일관된 포즈 기반 인간 이미지 애니메이션 방법인 TCAN을 제안합니다. 이전 방법들과 달리, 우리는 미세 조정 없이 사전 학습된 ControlNet을 활용하여 수많은 포즈-이미지-캡션 쌍으로부터 얻은 방대한 사전 지식을 활용합니다. ControlNet을 동결 상태로 유지하기 위해, 우리는 UNet 레이어에 LoRA를 적용하여 포즈와 외형 특징 간의 잠재 공간을 정렬할 수 있도록 합니다. 또한, ControlNet에 추가적인 시간적 레이어를 도입함으로써 포즈 탐지기의 이상치에 대한 견고성을 강화했습니다. 시간 축에 대한 어텐션 맵 분석을 통해, 우리는 포즈 정보를 활용한 새로운 온도 맵을 설계하여 더 정적인 배경을 가능하게 했습니다. 다양한 실험을 통해 제안된 방법이 치비와 같은 다양한 포즈를 포함한 비디오 합성 작업에서 유망한 결과를 달성할 수 있음을 입증했습니다. 프로젝트 페이지: https://eccv2024tcan.github.io/

검색 강화 이미지 캡션 생성을 위한 검색 견고성 이해
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

Jun 4

ByWenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

이미지 캡셔닝을 위한 검색 강화 모델의 최근 발전은 관련 캡션을 검색함으로써 효율적이고 경량화된 모델이 강력한 도메인 전이 능력을 갖출 수 있다는 이점을 강조합니다. 이러한 모델들은 검색 강화의 성공을 입증하지만, 실제로 검색 모델은 여전히 완벽과는 거리가 있습니다: 검색된 정보가 때로는 모델을 오도하여 잘못된 생성과 더 나쁜 성능을 초래할 수 있습니다. 본 논문에서는 검색 강화 캡셔닝 모델인 SmallCap의 견고성을 분석합니다. 우리의 분석에 따르면, 이 모델은 검색된 캡션의 대다수에 나타나는 토큰에 민감하며, 입력 속성 분석은 이러한 토큰들이 생성된 출력에 복사될 가능성이 높음을 보여줍니다. 이러한 발견을 바탕으로, 우리는 더 다양한 집단에서 검색된 캡션을 샘플링하여 모델을 훈련할 것을 제안합니다. 이는 모델이 다수 토큰을 복사하는 것을 학습할 가능성을 줄이고, 도메인 내 및 도메인 간 성능을 모두 개선합니다.

안전하지 않다고 느낄 때는 거부하라: 분리형 거부 훈련을 통한 대형 언어 모델의 안전성 향상
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Jul 12

ByYouliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

본 연구는 대규모 언어 모델(LLM)의 안전 조정(safety tuning) 실무에서 중요한 간극을 해소하기 위해, 안전 조정 데이터 내에 존재하는 거부 위치 편향(refusal position bias)을 식별하고 이를 해결함으로써 모델이 안전하지 않은 콘텐츠 생성을 적절히 거부하는 능력을 저해하는 문제를 다룹니다. 우리는 LLM이 유해한 프롬프트에 대해 응답의 어느 위치에서도 이를 거부할 수 있도록 하는 새로운 접근법인 디커플드 거부 훈련(Decoupled Refusal Training, DeRTa)을 제안하며, 이를 통해 모델의 안전성을 크게 향상시킵니다. DeRTa는 두 가지 새로운 구성 요소를 포함합니다: (1) 유해 응답 접두사를 활용한 최대우도추정(Maximum Likelihood Estimation, MLE)은 안전한 응답의 시작 부분에 유해한 응답의 일부를 추가함으로써 모델이 안전하지 않은 콘텐츠를 인식하고 회피하도록 훈련시키며, (2) 강화 전환 최적화(Reinforced Transition Optimization, RTO)는 모델이 유해한 응답 시퀀스 전반에 걸쳐 잠재적 위험에서 안전 거부로 일관되게 전환할 수 있는 능력을 갖추도록 합니다. LLaMA3 및 Mistral 모델 계열을 사용하여 6가지 공격 시나리오에서 수행한 실험 평가 결과, 우리의 방법은 성능 저하 없이 모델 안전성을 개선할 뿐만 아니라 GPT-4와 같은 잘 알려진 모델을 능가하는 공격 방어 능력을 보여줍니다. 특히, 우리의 접근법은 GPT-4와 LLaMA3-70B-Instruct를 탈옥(jailbreak)시킨 최신 고급 공격 방법(예: CodeAttack)에도 성공적으로 방어합니다. 우리의 코드와 데이터는 https://github.com/RobustNLP/DeRTa에서 확인할 수 있습니다.

RRM: 방사광(Radiance) 기반 재질 추출을 활용한 재조명 가능 에셋
RRM: Relightable assets using Radiance guided Material extraction

Jul 8

ByDiego Gomez, Julien Philip, Adrien Kaiser, Élie Michel

임의의 조명 조건에서 NeRF(Neural Radiance Fields)를 합성하는 것은 최근 몇 년 동안 중요한 문제로 부각되었습니다. 최근 연구들은 물리 기반 파라미터를 추출하여 이를 임의의 조명 하에서 렌더링하는 방식으로 이 문제를 해결하려고 시도했지만, 처리할 수 있는 장면의 범위가 제한적이며 특히 반사가 강한 장면을 제대로 다루지 못하는 한계가 있었습니다. 우리는 RRM이라는 방법을 제안합니다. 이 방법은 고반사성 물체가 존재하는 장면에서도 재질, 기하학적 구조, 환경 조명을 추출할 수 있습니다. 우리의 방법은 물리 기반 파라미터를 제공하는 물리적 인식을 갖춘 radiance field 표현과 라플라시안 피라미드(Laplacian Pyramid) 기반의 표현력 있는 환경 조명 구조로 구성됩니다. 우리는 제안한 방법이 파라미터 추출 작업에서 최신 기술을 능가하며, 표면 장면에서 고품질의 재조명 및 새로운 시점 합성을 가능하게 한다는 것을 입증합니다.