티스토리 뷰

LLM은 내 질문에 토큰과 다음 토큰의 예측으로 문장을 만들어내는 원리를 갖는다. 우리가 튜링테스트라고 하는 건 결국 콘솔창 박스 안에 텍스트를 통해 커뮤니케이션을 하며 이것이 사람인지 기계인지 판정을 내리는건데.. 이 테스트의 상황이 뭔가 이상하다고 생각한 적이 있는가. 

예컨대 콘솔창에 "이따 점심시간에 식사를 하러 같이 나가실까요?"라고 입력한 후 점심시간이 되면 모든 것이 결론이 날 것이기 때문이다. 아니면 "당신의 고향은 어딘가요?"라고 물은 후 "X가 제 고향입니다"라고 답변이 오면 이 질답 데이터를 문맥으로 이용하지 못하도록 콘솔창을 닫았다가 연 후 "저번에 Y에 놀러갔어요. 매우 즐거웠죠. 그러고보니 저번에 저에게 당신의 고향이 Y라고 하셨죠?"라고 틀린 질문을 입력하여 틀린 답을 떠보는 것이다.

물론 토큰 생성기라는 원리는 인간이 누군가의 질문에 건성으로 대답할 때 유사하게 작동하긴 할 것이다. "밥 뭇나?" "뭇다" 같은 대답 말이다.

하지만 좀 더 나아가보자. 누군가가 "어어어~ 유리컵들이 쟁반에서 떨어진다!"라고 소리지르며 급박한 순간의 이미지와 주변상황을 입력한다고 생각해보자. 그러면 인간의 경우 바로 이를 깨지지않도록 받아내려는 신체활동을 중력법칙을 종합한 추론으로 순식간에 행동해낸다.

현재의 LLM의 근간은 뉴럴 네트워크-경사하강법에 있는데 이런 구조는 다양한 레이어의 통합적이고 동시적인 활성화가 불가능하다고 볼 수 있다. 실제 GPT의 기반인 트랜스포머 모델의 디코더 내부에서 레이어들은 순차적으로 진행되고 있는 걸 보면 답이 나올 것이다. LLM은 실제 아래와 같이 토큰과 다음 토큰을 발생해가면서 작동할 것이다.

"유리컵", "이", "공중", "에", "떴다" →
"공중", "에", "뜬", "유리컵", "은", "떨어", "진다"  →
"그러면", "깨진다"  →
"깨치지", "않으려면"  →
"손", "으로", "받아야", "한다"

이와 같은 순차적인 생성을 통해 늦게야 상황을 깨닫게 된다. 하지만 인간은 이 모든 상황을 한꺼번에 추론해내어 빠르게 운동신경과 관련한 신경망에 유효한 활성화함수를 실행해낸다.

위에서 인간과 인공지능의 비교를 통해 확실해지는 것은 이는 분명 신체도 없고 성장 맥락도 없으며 제도 맥락도 없는 즉 알튀세르가 말한 "호명"에 의한 주체화가 안된 추상적인 지능 문제 때문 아닐까 한다.

그래서 인공지능에 신체를 넣고 그가 어떻게 태어났고 어디에서 자랐으며 부모는 누구고 어떤 제도로 인해 통제되었는지 등 이와 같은 성장 맥락과 신체적 제약을 제공하여야 주체화가 가능한 것이라는 생각이 든다. 이런 인공지능의 "호명"은 중국인 방 문제를 어느정도 해소할 수 있다고 생각한다. 예컨대 사람도 때로는 기계적으로 매뉴얼대로 행동할 수 있지만 또한 때로는 가족 구성원으로서 회사 구성원으로서 정치 구성원으로서 주체적으로 행동하기도 한다. 주체적 행위는 이런 사회적 맥락 속에서 더 잘 등장하고 포착된다. 인공지능도 역시 그럴 것이라 생각한다.

이와 관련한 Meta의 수석연구원 얀 르쿤의 말을 귀담아들을 필요가 있다. 마치 알튀세르의 호명이론이 떠오르는 대목이다.

(...) AI를 안전하게 운용할 수 있는 사회적 시스템을 함께 발전시키는 게 중요하다고 짚었다. 그는 "우리는 택시 기사가 좋은 사람인지 나쁜 사람인지 몰라도 (안전에 대한 의심 없이) 택시를 탄다. 그에게 택시 면허를 준 사회 시스템을 믿기 때문"이라는 비유를 들었다.
출처: 한국일보. 'AI 4대 천왕' 얀 르쿤 "초지능 AI 결국 나오겠지만 '전혀' 두려워하지 말라"  https://www.hankookilbo.com/News/Read/A2023120110580005847

그러므로 일반인공지능(AGI)라는 것은 사실 이런 구체적이고 특수목적을 가진 하드웨어가 입혀진 인공지능들을 통해 상호작용되어 발전되는 형태가 될 거라 전망하는 편이다.