인터넷 사용 이후 인류 사회를 가장 큰 폭으로 변화시킬 것으로 예측되는 챗GPT가 지난 3월 15일 새 버전을 발표했습니다. 기존의 GPT 버전인 3.5에서 GPT4로 향상된 겁니다. 기존 챗GPT가 우리 삶에 어떤 변화를 일으키기 시작했는지에 관해서는 일전에 소개한 바 있습니다.
출처 - 미디어오늘
생성형 AI 챗GPT 열풍을 보는 우리의 시각 : https://ideas0419.com/1365 |
3월 15일 오픈AI는 기존 버전인 3.5의 기능을 발전시켜 활용 범위를 넓힌 대규모 AI 언어 모델(LLM)인 GPT4를 선보였습니다. GPT3.5가 문자만 인식했다면 GPT4는 음성과 사진 등 복합적인 시각 정보를 이해하고 정보를 생성할 수 있습니다. 처리할 수 있는 단어의 수가 8배 늘어 약 2만 5000개의 단어를 기억할 수 있고, 사실성 평가에서 40% 높은 점수를 받는 등 정확도 면에서 월등히 향상됐습니다. 영어가 아닌 다른 언어의 이해 능력 또한 크게 향상된 반면 비윤리적인 발언과 같은 문제점은 줄어들었다고 하죠.
출처 - 동아일보
개발사인 오픈AI는 활용 범위가 확대됐을 뿐 아니라 기존 능력이 향상됐다는 점을 강조했습니다. 지난 포스트에서 챗GPT가 미국 의사 시험과 변호사 시험에 합격했다고 알려드린 바 있습니다. GTP3.5 버전에서는 합격하긴 했지만 미국 변호사 시험에서 하위 10%의 점수를 받았습니다. 하지만 이번 GPT4 버전부터는 같은 시험에서 상위 10% 수준의 합격 성적을 받았다고 합니다. 오픈AI 측은 GPT가 재밌는 장난감에서 실질적인 업무 도구로 전환될 수 있다고 강조했습니다. 오픈AI뿐 아니라 내로라하는 IT기업은 앞다퉈 AI 경쟁을 이어가고 있습니다. GPT4가 발표된 날 구글은 G메일, 구글 독스 등 구글의 기존 제품에 AI를 적용하겠다고 발표했습니다. 챗GPT에 공격적인 투자와 도입을 해온 마이크로소프트도 워드, 엑셀, 파워포인트처럼 기업 업무에 필수적인 제품들에 AI를 적용하겠다고 발표했습니다. 챗GPT에 대항해 성급히 AI모델인 바드를 발표했다고 체면을 구긴 구글은 절치부심 중이고 마이크로포스트는 챗GPT를 등에 업고 자사 검색엔진 빙과 윈도우 제품군에 적극적으로 도입하기 시작했습니다. 이 밖에도 카카오, 네이버 등 국내 기업들도 경쟁에 뛰어들기 시작했습니다.
출처 - 이투데이
이처럼 활용 범위가 넓어지면서 GPT, 나아가 AI 모델 전체가 불러올 위험성을 우려하는 목소리도 커지고 있습니다. 지난 포스트에서 소개해드렸던 '대동여지도 연금술사들의 폭동' 같은 황당한 답변이 대표적이겠죠. 생성형 AI 모델의 원래 취지를 생각하면 그릇된 답변은 AI의 잘못이라기보다 쓰는 사람이 쓰임새를 잘못 선택했기 때문으로 보는 편이 맞을 겁니다. 생성형 AI는 말을 그럴 듯하게 하며 확률적으로 적절한 표현을 만드는 것이 목표이지 검색엔진처럼 검증된 정보를 제공하는 게 목적이 아니기 때문입니다. 사람도 얘기를 나누다 보면 착각하기도 하고 잘못된 정보에 기반해 거짓 정보를 얘기하는 경우가 적지 않습니다. 사람이 읽은 책이나 기사가 애초 잘못된 정보였다면 이런 경향성은 더 늘어나겠죠.
출처 - Hugging Face
생성형 AI는 딥러닝을 기반으로 '추론'해 확률적으로 답변을 '예측'해서 내놓는 구조입니다. 그렇기 때문에 정보 검색을 대체한다기보다는 무언가를 만들거나 생각의 단초를 얻는 데 유용합니다. 하지만 개발 취지가 어찌 됐든 세상은 챗GPT에 과도한 기대를 하고 있고 이에 따라 신뢰도 높은 정보를 제공하는 일 역시 중요해졌습니다. AI가 가짜뉴스나 불분명한 정보를 대량으로 학습했을 경우 틀린 정보를 광범위하게 퍼뜨릴 우려가 있는 만큼 조심해야 할 이유는 분명합니다. GPT4에게 어떤 한국 데이터를 학습했는지 물으면 한국의 주요 언론사를 나열할 뿐만 아니라 DC인사이드나 일간베스트 같은 커뮤니티를 언급한다고 하죠. 이와 같은 사이트를 레퍼런스로 하는 답변을 한국어 사용자인 우리가 곧이곧대로 받아들일 수 있을까요?
출처 - 조선일보
아울러 이런 학습에 문제로 떠오르는 건 저작권 문제입니다. 인터넷 커뮤니티나 SNS는 저작권의 회색지대에 가깝습니다. 챗GPT는 저작권이 따로 있는 기사의 사진이나 영상, 개인정보나 저작권이 있는 창작물을 '학습'했을 가능성이 큰데, 정확히 어떤 데이터를 얼마나 참고해 학습했는지와 관련해서는 공개되지 않기 때문에 논란의 소지가 있습니다. 그래서 우리나라를 포함한 세계 각국이 저작권 관련 소송이 제기되거나 AI 시대에 맞춰 저작권법의 개정이 필요한지 검토를 시작하기도 했습니다. 개인 정보 역시 마찬가지입니다. 전 세계의 입력 데이터를 바탕으로 학습하는 특성상 기밀이 유지되어야 하는 정보가 답변의 내용으로 유포될 우려가 있습니다. 이런 점 때문에 미국 아마존 같은 대기업과 JP모건, 뱅크오브아메리카, 도이체방크 등 금융 기관은 대화형 AI 이용을 금지하거나 제한하고 있죠.
출처 - SBS
유발 하라리와 일런 머스크 등 AI에 대해 지속적으로 발언하던 이들은 AI의 위험성을 지적하며 AI 사용을 늦추면서 통제 방법을 찾아야 한다고 주장합니다. 유발 하라리, 트리스탄 해리스, 아자 라스킨은 《뉴욕타임스》 공동기고문에서 "AI의 언어 습득은 AI가 문명의 운영 체제를 해킹하고 조작할 수 있게 됐음을 뜻한다"고 밝혔습니다. GPT4 이상의 AI 시스템을 도입할 때는 인간이 제어할 수 있을 정도로 속도 조절을 하지 않으면 오히려 인류 사회의 주도권이 인간에서 AI로 넘어갈 수 있고, 심지어 넘어갔다는 사실조차 모르게 될 수 있다는 겁니다. 도널드 트럼프가 대통령 후보로 나왔을 당시 미국 대선 판도는 지금의 AI와 비교하자면 초보적인 수준의 가짜뉴스에 영향을 받았습니다. 그렇다면 AI 모델이 인류 문명에 도입될 경우 2028년 미국 대선은 어쩌면 사람이 주도하지 않는 선거가 될 수도 있겠죠. 민주주의는 곧 대화이고 대화는 언어에 의존하는데 이 언어를 AI가 장악한 미래라면 인류의 시스템이 인간의 뜻대로 제어되지 않을 수도 있는 점을 우려합니다. 이 때문에 학자들은 (어떤 의미에서) AI가 인류를 장악하기 전에 시간을 벌어야 한다고 주장합니다. 챗GPT의 오픈AI CEO인 샘 앨트먼조차 GPT4 발표 공식 인터뷰에서 "이 AI 모델들이 대규모 허위 정보에 사용될 수 있다는 것이 특히 걱정된다"고 밝힌 바 있습니다.
출처 - 타임
한편 사람들이 열광하는 챗GPT의 성장 이면에 심각한 노동 착취가 있었다는 사실이 알려졌습니다. 오픈AI가 챗GPT의 윤리적 기준을 높이기 위해 케냐 노동자를 시급 2달러 이하로 고용해 데이터세트에 사용되는 방대한 텍스트에서 유해 콘텐츠를 필터링하는 작업을 실시하고 있었다는 보도가 나왔기 때문입니다. AI가 바른 답변을 하게 하는 목적을 위해 혐오와 학대, 편견으로 점철된 표현을 사람이 정신적 피해를 감수하며 분류하고 있었다니 아이러니한 일 아닌가요? 사실 이런 식으로 저임금 노동자를 갈아 넣어 서비스하는 것은 대규모 IT기업들의 공공연한 비밀이었습니다.
출처 - T Times
첨단 기술에 열광하기에 앞서 기후위기 시대에 AI 모델이 어느 정도의 전기를 소모하고 탄소를 배출하는지에 관해 의문을 던지는 것도 중요합니다. 비트코인 등 암호화폐를 유지하기 위해 국가급 전기를 소모하고 탄소를 발생시키고 있다는 사실을 알려드린 바 있습니다. (환경오염을 넘어 생존을 위협하는 비트코인, 그냥 둬도 괜찮은가? 참조) 2021년 발표된 논문을 보면 챗GPT3 버전의 거대언어모델 학습 과정에서 미국 120개 가정이 10년간 쓸 전력을 소비했다는 내용이 있습니다. 같은 해 구글 AI 윤리팀이 참여한 논문에서도 AI 언어모델의 전력 소모량이 지구온난화에 영향을 미칠 정도라고 밝힌 바 있습니다.
출처 - KBS
생성형 AI의 학습 능력과 발전 속도를 보면 암 퇴치에 기여하거나 신약 발견에 도움을 주거나 기후위기와 에너지 위기 국면에서 해법을 고안하고 개발하는 데 도움을 줄 잠재력이 충분합니다. 하지만 앞서 말씀드린 문제점도 아울러 인식해야 하지 않을까요? 유발 하라리의 말대로 AI가 인류 전체에 도움을 줄 잠재력이 있지만, 문명의 기반 자체가 무너진다면 AI의 혜택이 아무리 크다 한들 소용없을 테니까요.
댓글