HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

6 papers found

주의력 재고: 트랜스포머의 어텐션 레이어 대안으로서 얕은 피드포워드 신경망 탐구
Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers

Nov 17

ByVukasin Bozic, Danilo Dordervic, Daniele Coppola, Joseph Thommes

본 연구는 시퀀스-투-시퀀스 작업을 위한 최신 아키텍처인 원본 Transformer 모델의 어텐션 메커니즘 동작을 모방하기 위해 표준 얕은 피드포워드 네트워크를 사용하는 방법의 효과를 분석합니다. 우리는 Transformer의 어텐션 메커니즘의 핵심 요소를 단순한 피드포워드 네트워크로 대체하고, 지식 증류를 통해 원본 구성 요소를 사용하여 이를 학습시켰습니다. IWSLT2017 데이터셋에서 수행한 실험을 통해, 이러한 "어텐션 없는 Transformer"가 원본 아키텍처의 성능에 필적할 수 있는 능력을 보여줍니다. 엄격한 제거 연구와 다양한 대체 네트워크 유형 및 크기에 대한 실험을 통해, 우리는 이 접근법의 타당성을 뒷받침하는 통찰을 제공합니다. 이는 얕은 피드포워드 네트워크가 어텐션 메커니즘을 모방하는 데 있어 적응력이 있음을 밝힐 뿐만 아니라, 시퀀스-투-시퀀스 작업을 위한 복잡한 아키텍처를 간소화할 수 있는 잠재력을 강조합니다.

MetaDreamer: 기하학과 텍스처 분리를 통한 효율적인 텍스트-3D 생성
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture

Nov 16

ByLincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu

3D 객체 합성을 위한 생성 모델은 2D 확산 모델에서 추출된 사전 지식을 통합함으로써 상당한 발전을 이루었습니다. 그러나 기존 3D 합성 프레임워크 내에서 다중 뷰 기하학적 불일치와 느린 생성 속도와 같은 문제점이 여전히 존재합니다. 이는 두 가지 요인에 기인합니다: 첫째, 최적화 과정에서 풍부한 기하학적 사전 지식의 부족, 둘째, 전통적인 3D 생성 방법에서 기하학과 텍스처 간의 얽힘 문제입니다. 이에 대응하여, 우리는 풍부한 2D 및 3D 사전 지식을 활용하는 두 단계 최적화 접근법인 MetaDreammer를 소개합니다. 첫 번째 단계에서는 다중 뷰 일관성과 3D 객체의 정확성을 보장하기 위해 기하학적 표현을 최적화하는 데 중점을 둡니다. 두 번째 단계에서는 기하학을 미세 조정하고 텍스처를 최적화하여 더욱 정교한 3D 객체를 생성합니다. 두 단계에서 각각 2D 및 3D 사전 지식을 활용함으로써, 우리는 기하학과 텍스처 간의 상호 의존성을 효과적으로 완화합니다. MetaDreamer는 각 단계에 대해 명확한 최적화 목표를 설정함으로써 3D 생성 과정에서 상당한 시간을 절약합니다. 결과적으로, MetaDreamer는 텍스트 프롬프트를 기반으로 20분 이내에 고품질의 3D 객체를 생성할 수 있으며, 우리가 아는 한 가장 효율적인 텍스트-투-3D 생성 방법입니다. 또한, 우리는 3D 생성의 제어 가능성을 향상시키기 위해 이미지 제어를 도입했습니다. 광범위한 실험 결과는 우리의 방법이 매우 효율적일 뿐만 아니라 현재 최첨단 3D 생성 기술의 최고 수준의 품질을 달성함을 확인시켜 줍니다.

SelfEval: 생성 모델의 판별적 특성을 활용한 평가 기법
SelfEval: Leveraging the discriminative nature of generative models for evaluation

Nov 17

BySai Saketh Rambhatla, Ishan Misra

본 연구에서는 텍스트-이미지 생성 모델이 '역전'될 수 있음을 보여주며, 이를 통해 모델 자체의 텍스트-이미지 이해 능력을 완전히 자동화된 방식으로 평가할 수 있음을 입증합니다. 우리의 방법인 SelfEval은 생성 모델을 사용하여 텍스트 프롬프트가 주어졌을 때 실제 이미지의 가능성을 계산함으로써, 생성 모델을 판별 작업에 직접 적용할 수 있게 합니다. SelfEval을 통해, 우리는 멀티모달 텍스트-이미지 판별 모델 평가를 위해 만들어진 표준 데이터셋을 재활용하여 생성 모델을 세밀하게 평가합니다: 속성 결합, 색상 인식, 개수 세기, 형태 인식, 공간 이해 등의 성능을 평가합니다. 우리가 아는 한, SelfEval은 여러 모델과 벤치마크에 걸쳐 텍스트 충실도를 측정하는 데 있어 인간 평가와 높은 일치도를 보이는 최초의 자동화된 지표입니다. 또한, SelfEval은 Winoground 이미지 점수와 같은 도전적인 작업에서 생성 모델을 평가할 수 있게 하며, 이때 생성 모델이 판별 모델과 경쟁력 있는 성능을 보임을 입증합니다. 우리는 DrawBench와 같은 벤치마크에서 텍스트 충실도를 측정하는 데 있어 CLIP 점수와 같은 표준 자동화 지표의 심각한 단점을 보여주고, SelfEval이 이러한 문제를 어떻게 우회하는지도 보여줍니다. 우리는 SelfEval이 확산 모델에 대한 쉽고 신뢰할 수 있는 자동화 평가를 가능하게 하길 바랍니다.

I&S-ViT: 사후 학습 ViT 양자화의 한계를 넘기 위한 포괄적이고 안정적인 방법
I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization

Nov 16

ByYunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji

비전 트랜스포머(ViTs)의 확장 가능한 성능에도 불구하고, 높은 계산 비용(학습 및 추론)으로 인해 산업적 응용에서의 입지가 약화되고 있습니다. 사후 학습 양자화(PTQ)는 소량의 데이터셋으로 ViTs를 조정하고 저비트 형식으로 실행하여 비용 문제를 잘 해결하지만, 불행히도 더 낮은 비트에서는 더 큰 성능 저하를 초래합니다. 본 논문에서는 ViTs의 PTQ를 포괄적이고 안정적인 방식으로 규제하는 새로운 방법인 I&S-ViT를 소개합니다. I&S-ViT는 먼저 ViTs의 PTQ에서 두 가지 문제를 식별합니다: (1) 소프트맥스 이후 활성화에 널리 사용되는 log2 양자화기의 비효율성; (2) 레이어 정규화 이후 활성화에 대한 거친 양자화 단위에서의 거칠고 증폭된 손실 경관. 그런 다음, I&S-ViT는 이러한 문제를 해결하기 위해 다음을 도입합니다: (1) 포괄적인 도메인 표현과 정확한 분포 근사를 달성하기 위해 시프트 메커니즘과 균일 양자화를 결합한 새로운 시프트-균일-log2 양자화기(SULQ); (2) 채널별 및 레이어별 양자화의 장점을 통합하여 안정적인 학습을 가능하게 하는 3단계 부드러운 최적화 전략(SOS). 다양한 비전 작업에 걸친 포괄적인 평가는 I&S-ViT가 기존 ViTs PTQ 방법들, 특히 저비트 시나리오에서 우수함을 입증합니다. 예를 들어, I&S-ViT는 3비트 ViT-B의 성능을 인상적인 50.68% 향상시킵니다.

ToolTalk: 대화형 환경에서의 도구 사용 평가
ToolTalk: Evaluating Tool-Usage in a Conversational Setting

Nov 15

ByNicholas Farn, Richard Shin

대규모 언어 모델(LLMs)은 추론 및 의사 결정 능력에서 엄청난 발전을 보여주며 사용자와 자연스러운 대화를 나눌 수 있습니다. 최근 많은 연구에서는 LLM 기반 어시스턴트를 외부 도구와 연계하여 비공개 정보나 최신 정보에 접근하고 사용자를 대신해 작업을 수행할 수 있도록 하는 데 초점을 맞추고 있습니다. 이러한 어시스턴트의 성능을 더 정확히 측정하기 위해, 본 논문은 다이얼로그를 통해 지정된 다단계 도구 사용이 필요한 복잡한 사용자 의도를 포함한 벤치마크인 ToolTalk을 소개합니다. ToolTalk은 7개의 플러그인으로 그룹화된 28개의 도구를 포함하며, 각 도구의 완전한 시뮬레이션 구현을 제공하여 실행 피드백에 의존하는 어시스턴트의 완전 자동화된 평가를 가능하게 합니다. 또한 ToolTalk은 정보 참조나 검색을 위한 도구뿐만 아니라 외부 세계에 영향을 미치는 도구를 강조합니다. ToolTalk에서 GPT-3.5와 GPT-4를 평가한 결과, 각각 26%와 50%의 성공률을 보였습니다. 오류 분석을 통해 세 가지 주요 범주를 도출하고 향후 개선 방향을 제안합니다. ToolTalk은 https://github.com/microsoft/ToolTalk에서 공개되었습니다.

언어 교정을 통한 로봇 조작을 위한 일반화 가능한 지식의 추출 및 검색
Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections

Nov 17

ByLihan Zha, Yuchen Cui, Li-Heng Lin, Minae Kwon, Montserrat Gonzalez Arenas, Andy Zeng, Fei Xia, Dorsa Sadigh

오늘날의 로봇 정책은 새로운 환경에 일반화해야 하는 과제에 직면했을 때 성능이 저조한 모습을 보입니다. 인간의 수정 피드백은 이러한 일반화를 가능하게 하는 중요한 지침 형태입니다. 그러나 온라인 인간 수정에 적응하고 이를 학습하는 것은 사소한 일이 아닙니다: 로봇은 시간이 지남에 따라 인간의 피드백을 기억하여 새로운 설정에서 적절한 정보를 검색하고 개입률을 줄여야 할 뿐만 아니라, 고수준의 인간 선호도에 대한 임의의 수정부터 저수준의 스킬 매개변수 조정에 이르기까지 다양한 피드백에 응답할 수 있어야 합니다. 본 연구에서는 임의 형태의 언어 피드백에 응답하고, 수정에서 일반화 가능한 지식을 추출하며, 텍스트 및 시각적 유사성을 기반으로 관련된 과거 경험을 검색하여 새로운 설정에서의 성능을 개선할 수 있는 대형 언어 모델(LLM) 기반 시스템인 DROC(Distillation and Retrieval of Online Corrections)를 제시합니다. DROC는 고수준 작업 계획과 저수준 스킬 기본 요소 모두에서의 실패를 해결하는 일련의 온라인 언어 수정에 응답할 수 있습니다. 우리는 DROC가 온라인 수정 시퀀스에서 관련 정보를 지식 기반에 효과적으로 추출하고, 새로운 작업 또는 객체 인스턴스가 있는 설정에서 해당 지식을 검색함을 보여줍니다. DROC는 LLM을 통해 직접 로봇 코드를 생성하는 다른 기술보다 첫 번째 라운드에서 필요한 총 수정 횟수의 절반만 사용하며, 두 번의 반복 후에는 거의 또는 전혀 수정이 필요하지 않습니다. 추가 결과, 비디오, 프롬프트 및 코드는 https://sites.google.com/stanford.edu/droc에서 확인할 수 있습니다.

언어 교정을 통한 로봇 조작을 위한 일반화 가능한 지식의 추출 및 검색
Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections

Nov 17

ByLihan Zha, Yuchen Cui, Li-Heng Lin, Minae Kwon, Montserrat Gonzalez Arenas, Andy Zeng, Fei Xia, Dorsa Sadigh