가고 싶은디..

뭐 한마디로 표현하자면, 생물학과 통계학,전산학의 오묘한 만남이라고 해야하나요? 밑에 글처럼 그렇게 거창한 학문은 아니에요.

생물정보학(bioinformatics)이란?

최근 생물학의 발전은 새로운 실험 기법의 발달, 및 HTS(High Throughput Screening, 대량분석기술) 기술의 발전으로 인하여 엄청난 데이타, 정보들을 쏟아내고 있다. 최근 관심을 끌고 있는 Genome project 역시 생명체의 청사진이라고 할 수 있는 유전체 서열정보들을 대량으로 밝혀내고 있으며, DNA chip 이라고 불리우는 실험방법 역시 HTS기술의 하나로서 방대한 양의 데이타들을 실험자에게 제공하며, Proteomics라는 분야 역시 마찬가지이다.

자, 이제 이러한 많은 데이타, 정보들을 가지고 있는 우리들에게 무엇이 필요하겠는가? 효과적인 방법으로 이들 데이타들을 다루고 분석하여, 인간생활에 도움이 될 수 있는 일, 즉 질병의 근원을 밝히고, 이해하여, 치료법을 연구하는 일등을 해야한다. 생명현상이란 것이 그리 간단한 것이 아니여서, 이러한 방대한 데이타들을 사용하고, 효과적으로 분석해야 하는 일이 꼭 필요한 것이다. 이때 컴퓨터, 즉 전산학이라 불리우는 분야가 많은 수단을 제공하며, 뿐만아니라, 수학, 통계학등의 다른 분야와의 접목이 필수 불가결하게 되었다.

이러한 분야를 통틀어 생물정보학이라는 용어로 사용되고 있으며, 생명현상을 다루는 전산학/수학/통계학적인 것들이라는 의미로 쓰여지고 있다. 생물정보학은 크게 데이타를 얻기위한 전산학적 도구, 데이타를 관리하기 위한 전산학적 도구, 데이타를 분석하기 위한 전산학적 도구를 제공한다.

생물정보학은 역사적으로 볼 때, Frederic Sanger에 의해 단백질 서열결정 방법(이 발명으로 1958년 노벨 화학상 수상)이 개발된 이후인 1960대부터 시작되었다고 할 수 있다. “MDQNNSLPPYAQGLASPQGAMTPGIPIFSPMMPYGTGLTPQPIQ” 와 같은 단백질 서열을 얻어내었다고 할 때 이것은 사람의 눈으로 다루기 어려운 형태이고, 따라서 이 서열정보를 전산학적이고 수학적인 방법으로 분석하고자 하는 개념에서 출발했다고 할 수 있을 것이다. 이후, DNA염기서열 결정법이 개발되고, 폭발적으로 서열정보들이 늘어나게 된 계기로 인해 이들 서열정보를 효과적으로 다루고자 하는 노력들이 계속된 것이다.

이러한 서열정보 이외에 중요한 것은 단백질의 3차원적인 구조이다. 단백질은 생명현상의 기본이 되는 기능을 수행하는 장치이고, 이 기능은 3차원적인 구조에서 유래한 것이며, 그 3차원적인 구조는 서열에서 유래한 것이기때문에 이것을 정확하게 예측하고자 하는 분야 역시 생물정보학의 중요한 분야이다. 이 분야는 단백질의 3차원적인 형태를 상호 비교하는 것, 주어진 단백질에 들어맞는 작은 유기화합물을 디자인 해내는 것, 주어진 두 개의 단백질이 입체적으로 어떻게 상호작용을 하는지를 알아내는 것, 단백질이 이러한 여러 가지 상호작용을 할 때 어떤 동적인 변화가 일어나는지 등 매우 다양한 문제들을 동시에 연구해야 한다.

최근 인간게놈지도작성을 했다고 이야기 되고 있듯이 Genome project 및 유전체학이라고 불리우는 분야에서도 생물정보학의 역할은 중요하다. 그 방대한 서열정보를 놓고, 어떠한 기능을 할것인가 유추할 수 있는 기초가 되는 분야로서 Genome project 전반에 걸쳐 컴퓨터의 역할이 중요할 뿐아니라, 이후, 서열정보들을 해석하고자 할때도 생물정보학적 도구가 필요하다. 최근 인간유전자가 3만여개 내외일것이라고 예측하는 것 역시 gene finding problem이라고 불리워지는 유전자예측 알고리즘을 사용하여 예측한 것이다.

또한 최근에 많이 들어보았을 DNA chip, Proteomics 역시 생물정보학의 도움을 필요로 한다. 중요한것은 HTS라는 기술이 “global”한 개념으로 기존의 동일한 목적, 즉 생물체 내부의 분자적인 메커니즘 규명을 위해 사용되던 방법들은, 주로 하나 또는 몇 개의 RNA나 단백질을 추적하는 식인 것에 반해, HTS적인 방법에서는 대상이 되는 세포나 조직 속에 들어 있는 “모든” RNA나 단백질을 추적해보는 것인 점이 바로 본질적인 차이이다. 이렇게 전체를 한번에 보려고 하는 시도에는 당연히 복잡한 수학, 대용량의 데이타 처리, 통계적 처리가 필요하게 되며 이 과정에 생물정보학은 큰 역할을 수행한다.

마지막으로 생물정보학에서 다루고자 하는 데이타들이 워낙 복잡하다는 문제가 있다. 생명현상이 그렇듯이 이들 데이타는 쉽게 구분될 수 있는 성질의 것들이 아니며, 각각 복잡한 상호작용, 관계를 맺고 있다. 서열정보, 구조정보, HTS실험정보, 병세정보가 쉽게 연결될 수 없으며, 이들은 더욱 복잡한 상호연결관계를 요구한다. 이러한 생물학적 정보의 특징은 전산학 분야에서도 새로운 도전으로 받아들여지고 있으며, 통계학 분야 역시 마찬가지이고, 최근 수학이론인 카오스, 프랙탈 등의 복잡성이론들까지 가세하여 이 문제들을 해결하려고 하고 있다. 그 복잡하다는 생명현상을 컴퓨터안에서 구현하려고 하는 일이 쉽게 실현되겠느냐마는, 이러한 성격이 수학자들에게는 커다란 도전으로 받아들여지고 있는 것이다.

이상 소개하다 싶이, 생물정보학은 현대의 최신의 과학들의 융합이며, 이제 막 시작단계인 학문분야로서 그 발전가능성, 실용성은 무한하다고 할 수 있을 것이다. 혹자는 생물정보학을 20세기초반의 양자역학의 시대에 비유하는 사람도 있다. 무언가 고전역학의 개념을 흔들 수 있는 것이 있긴 한데, 보어나 아인슈타인같은 사람은 아직 나타나지 않은 시대라고 한다. 그만큼 학문적으로도 할일이 많은 분야라고 할 수 있을 것이다. 최근 생물정보학 전문인력이 부족하다고 말들이 많은 이유중의 하나가 생물학전문가이면서, 전산학 통계학전문가인 사람이 드물기 때문이다. 국내에서도 이러한 생물정보학의 특징을 이해하고 제대로 된 기초지식을 가진 생물정보학 인력양성이 시급할 것이다.