'papers' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록papers (10)

yeon's

huggingface 활용하기

Transformer 관련 모델들 Transformer : 2017년 6월 GPT : 2018년 6월, 최초의 pretrained transformer 모델로 각 task에 맞게 finetuning해서 사용할 수 있도록 했다. BERT : 2018년 10월, 똑같이 pretrained된 모델로 gpt와 비슷한 크기로 만들어 비교하며 성능이 뛰어남을 보였다. GPT-2 : 2019년 2월 DistillBERT : 2019년 10월, 메모리 소비를 40% 줄이고, 속도를 60% 높이고, BERT의 97% 성능을 유지했다. BART, T5 : 2019년 10월, 트랜스포머 모델과 동일한 아키텍처를 사용한 pretrained 모델 GPT-3 : 2020년 5월, 미세 조정 없이 다양한 task가 가능한 zero..

papers/자연어 2023. 3. 30. 17:38

[Paper] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 리뷰

NLP모델은 이전까지는 특정 태스크와 무관하게 일반적인 언어의 특성을 학습하는 방향으로 발전해왔다. 이와 다르게 GPT와 BERT는 방대한 corpus로 사전학습(pre-training)후 사용자가 특정 태스크에 맞춰 미세조정(fine-tuning)하는 방법을 사용해 언어모델을 발전시켰다. 1. Introduction 자연어처리 성능을 향상시키는 pre-trained 언어 모델에는 2가지의 down-stream task가 있다. - feature-based apporach 대표적으로 ELMo가 있다. 특정 task에 맞는 구조를 기반으로 하여, 추가적으로 pre-trained representation 특성을 더한다. "uses task-specific architectures that include t..

papers/자연어 2023. 2. 10. 14:27

언어모델 디코딩 전략 - 텍스트 생성 방법

언어 모델에서 텍스트를 생성할 때 보통 단어 단위로 예측한다. 다음 단어를 예측하고, 예측된 단어 시퀀스를 통합해서 또 다음 단어를 예측하는 형태로 진행된다. 이렇게 텍스트를 생성하는 방법에는 몇 가지가 존재한다. pre-trained 된 GPT-2를 로딩해서 각 방법에 따라 텍스트를 생성해보겠다. tknizer = GPT2Tokenizer.from_pretrained("gpt2") model = GPT2LMHeadModel.from_pretrained("gpt2") 1. Greedy Search 방법: 현재 시점에서 최대 확률을 갖는 다음 단어를 선택 한계 : 확률이 제일 높은 것만 선택하기 때문에 단조롭다. 인풋이 같으면 같은 문장을 생성해내고, 독특한 문장을 생성해낼 수 없다. 다음 단어 하나만 예..

papers/자연어 2023. 2. 9. 04:36

임베딩

자연어를 임베딩으로 표현하는 방식은 크게 2가지로 나뉜다. 1. 학습을 하지 않는 카운트 기반의 임베딩 TF-IDF와 같은 distributional representation이다. TF (Term-Frequency) : 문서빈도 해당 단어가 문장에 등장하는 횟수로 단어들의 one-hot vector로 표현한다. 단, sklearn의 CountVectorizer 클래스는 한 단어로 이루어진 단어는 무시한다. from sklearn.feature_extraction.text import CountVectorizer import matplotlib.pyplot as plt import seaborn as sns text = ["I am a student","I'm going to the laboratory"..

papers/자연어 2023. 2. 7. 23:23

BLEU score 파이썬 코드

문장을 단어별로 번역했을때는 문맥이 무시되는 등 제대로 된 번역을 할 수 없다. 따라서 사람이 번역할 때 문장의 의미에 대한 cognitive representation을 수행한다. 그리고 어떤 사람이 번역했냐에 따라 다른 스타일로 번역이 될 것이다. 따라서 번역의 정답을 reference라 부르고 이 정답은 다양하게 나올 수 있다. 그리고 기계가 번역한 것은 candidate라 한다. 기계 번역은 BLEU(Bilingual Evaluation Understudy Score)로 평가를 한다. nltk 라이브러리의 sentence_bleu를 통해 여러 reference와 비교하여 쉽게 사용할 수 있다. from nltk.translate.bleu_score import sentence_bleu from n..

papers/자연어 2023. 2. 6. 00:36

WMT dataset 전처리

Transformer big model이 WMT dataset으로 영-독 번역과 영-불어 번역 테스크를 진행하여 BLEU score에서 높은 점수를 보여 SOTA를 달성했다. WMT 2014 English-German dataset : 28.4 BLEU WMT 2014 English-French dataset : 41.8 BLEU 많은 기계번역 테스크에서 이 데이터셋이 활용되기 때문에 WMT dataset을 활용할 수 있게 전처리를 해본다. 우선 전처리는 불용어, 숫자제거, 대문자를 소문자로 바꾸는 단계를 1단계로 한다. 2단계로는 빈도수가 너무 적으면 제외한 단어 사전을 만들어 처리한다. 전처리 1단계 import pickle from pickle import dump import re import s..

papers/자연어 2023. 2. 5. 22:58

[Paper] Attention Is All You Need(NIPS, 2017)

2017년 NIPS에서 발표된 Attention Is All You Need는 구글이 낸 논문으로 이를 기반으로 Bert, GPT, VIT 등 자연어뿐만 아니라 이미지에도 적용되는 모델들이 나왔다. 대학원 첫 세미나로 이 논문을 발표하게 됐는데 논문을 직접 깊게 읽어보고 파고들어보니까 이 전에 책으로 공부했을때 보다 새롭게 다가오는 느낌이다. Transformer가 나오기 전에는 번역 같은 sequence transduction를 수행하기 위해 RNN기반의 recurrent 모델을 주로 사용하였다. Recurrent 모델과 attention 매커니즘 함께 활용하여 인코더와 디코더로 연결한 모델이 best performing이었다고 논문에서는 말한다. Model Architecture 전체적인 Encode..

papers/자연어 2023. 2. 5. 02:16

[이미지] openCV 도형그려넣기

1. 빈 화면 생성 import numpy as np import matplotlib.pyplot as plt %matplotlib inline import cv2 blank_img = np.zeros(shape=(512,512,3),dtype=np.int16) # 빈 이미지 생성 plt.imshow(blank_img) 2. 도형 생성 rectangle circle line putText : 왼쪽 아래 모서리를 지정해줌 thickness = -1 : 도형 안쪽을 채운다는 의미이다. cv2.rectangle(blank_img,pt1=(200,200),pt2=(300,300),color=(0,255,0),thickness=10) # 어떤 이미지에 그릴지, top left, bottom right, green..

papers/이미지 2023. 1. 29. 03:02

이전 Prev 1 2 Next 다음

목록papers (10)

yeon's

티스토리툴바