본문 바로가기
AI

궁금한 ChatGPT 이야기 - 검색의 시대는 끝났다

by 머니 해빗 2023. 3. 27.

궁금한 ChatGPT 이야기 - 검색의 시대는 끝났다.png
0.46MB

1. ChatGPT는 언제 출현했나?

2022년 11월 ChatGPT라는 소프트웨어를 발표한 이후로 우리 모두는 충격에 빠졌습니다.

사실 2022년 11월 ChatGPT는 3.5 버전이고 GPT1, GPT2나 GPT3도 그전에 있었지만 부자연스러운 어투였습니다.

ChatGPT3.5는 언어 지도를 만든 후, 나이지리아, 파키스탄등 제3세계 국가들에서 수천 명의 사람들을 동원해서 문장을 읽고 좋은지 나쁜지 판단을 하도록, 즉 AI에게 Feedback을 주었습니다. 인간에 의해 강화 학습을 한 결과 사람이 사용하는 문장이나 어투와 같이  생성하며 대화할 수 있게 된 것입니다. 

그리고 2023년 3월 ChatGPT4가 나오면서 그야말로 대화형 AI의 시대가 왔고, '미래에는 딥러닝이 아니면 뒤쳐진다'가 가설이 아닌 명제가 되었습니다.

 

2. 누가 시작했나?

구글 프레임스 바스바니라는 인도 출신 과학자가 트랜스 포머라는 새로운 알고리즘을 제안하면서, 인간처럼 대화형 AI가 시작되었습니다. 트랜스포머 알고리즘의 핵심은 수십만 수백만 단위의 데이터 정도를 넘어서 수천억 또는 조단이 단위의 데이터를 학습할 수 있는 능력입니다.  이 트랜스포머 알고리즘 기술을 자연어 처리에 사용하면서 쳇 GPT 같은 대화형 AI모델이 가능해지기 시작합니다.

 

3. 언어 학습을 어떻게 시켰나?

지금까지 대화형 AI가 없었던 이유는 언어 처리가 어려웠기 때문입니다. 언어는 문법이라는게 존재하고 두 번째 언어는 순서가 있기 때문에 그런 것들을 학습시키는 게 어려웠습니다.  우리가 말을 할 때 '첫 단어, 두 번째, 세 번째, 네 번째' 이 단어를 끝까지 들어야 문장의 맥락이 이해가 됩니다. 특히 문장이 길어지면 길어질수록 기계가 기억해야 될게 점점 늘어나기 때문에  계속 잊어 먹고, 결국 문장을 이해하는 것이 불가능했습니다.  10년 동안 그런데 바스바니가 그 제안한 트랜스포머 엘고리즘에서는 문장의 순서를 배제시켰습니다. 순서를 다 빼고 집중 엘고리듬이라는 걸 사용합니다. 수천억 단위의 학습 데이터를 사용하고 인터넷에 있는 모든 문장을 학습을 하는 겁니다. 여기서 학습이라는 건 인터넷에 있는 모든 글에서 단어와 단어 문장과 문장의 확률 관계를 미리 학습을 한다는 말입니다. 

 

4. 구글에서 개발한 트랜스포머 언어 학습의 예

사람들이 자주 사용하는 문장을 학습한 결과 "대한민국 대통령은..."이라고 시작되면 "ㅇㅇㅇ이다" 라고 문장을 끝내는 경우의 수가 많다는 것을 학습한 것입니다. 혹은 "조금 있다 우리는 점심을..."라는 문장은 "먹을거다 "라고 끝날 확률이 많다는 것을 알고 있는 것입니다. 이런 식으로 단어들 간에는 확률적인 관계를 학습한 것이지요. 구글에서 개발한 트랜스포머는 수천억개 단어와 문장 사이에 확률적인 관계를 동시에 학습할 수 있는 병렬 프로세스가 가능한 알고리즘입니다.

 

5. GPT(generative pre-trained transformer)란 무엇인가?

 gpt는 디지털 세상에 있는 모든 글을 사전 학습하고, 인간 언어 (인간이 만들어낸 모든 문장)의 확률적인 지도를 만든 것이라 말할 수 있습니다. 수천억 개 단위의 단어와 문장 사이의 확률적인 분포만 계산해서 그 숫자를 가지고 인류가 만들어낸 모든 글의 지도를 하나 그려 놓는 겁니다. 우리가 운전을 할 때도 내비게이션이 있으면 a에서 b로 간다 입력을 하면 길을 찾아 주는 것처럼,  언어의 내비게이션이라고 생각하시면 됩니다.

 

 

6.ChatGPT 이후 검색 기반인 구글은 어떻게 될까?

구글 ceo가 한 한 달 전에 회사 내부에서 "코드 레드: 98년 창업 이후에 처음으로 회사가 망할 수 있는 위기에 처했다"라는 이야기를 했다고 합니다 

재작년에 구글 팀이 트랜스포머를 사용해서 대화하는 AI 람다를 개발했지만 끝까지 공개를 안 했습니다. 우선 첫 번째 이유는 구글의 핵심 비즈니스는 90% 넘게 광고입니다.  사람들이 질문을 했을 때 비슷한 질문을 한 사람들은 어떤 홈페이지를 방문했는지 그 확률분포를 가지고 있는 것입니다. 우리가 질문을 하면 그에 맞는 링크를 찾아주고, 우리는  링크에 들어가서 내용을 우리가 확인을 해야 됩니다. 덕분에 검색의 시대에는 클릭을 많이 해야 돼요. 자주 방문하는 사이트들에 기업들 광고들이 붙고,  우리의 성향을 분석해서 추천 알고리즘을 돌리고 광고를 띄울 수 있는 거죠. 덕분에 90% 이상이 광고 매출입니다

ChatGPT 같은 녀석이 대답을 해준다면 클릭할 필요가 없으니, 클릭 숫자가 10분의 1로 줄어들고, 광고주는 떨어지고 매출이 아주 추락할 거라는 예측 덕분에 람다를 공개를 안 했습니다.

2021년에 기술을 다 개발하고 나서도 광고 비지니스를 유지하기 위해 공개하지 않았지만, 오픈 AI가 11월 30일 2022년 공개를 하자 어쩔 수 없이 올해 2월 6일 공개했던 Bard는 LaMDA를 기반으로 한 언어 모델입니다. 그리고 검색엔진에서 힘을 못 펴던 Bing도 NewBing으로 대화형 챗봇 기능을 탑재하게 되었습니다.

 

국내 카카오브레인에서도 한국어 특화 AI모델 KoGPT를 활용하여 이 반열에 참여하고 있습니다.

중국 최대 검색 엔진 기업인 Baidu(바이두) 역시 Chat GPT와 유사한 AI 챗봇 ‘어니봇(Ernie Bot)’을 공개할 예정입니다.

 

마치 전 세계가 대화형 AI 서비스를 향해 경주해가고 있는 모습입니다.

 

댓글