生物信息學作為一門新興的交叉學科在自然科學中占有特殊的地位,它是生物學、遺傳學、生物化學、計算機科學、數學、統計學等學科的融合。生物信息學是建立在數據的整合和分析的基礎上的。海量信息的分類檢索和有效整合已成為加速生命科學發展的必要條件,海量數據使得分支學科之間的信息重新整合成為必要和可能。目前為止,互聯網上的與生物相關的公共數據庫的數目已達到了500多個,而且還在進一步增長。這些數據庫都是為了不同的目的而建立起來的,根據數據庫里包含的數據可分為核酸數據庫和蛋白質數據庫,還有些是針對特異物種的,而有些則是整合性的數據庫。
在生物信息學的研究中,一個非常重要的概念是直系同源(ortholog),它是指在兩個或兩個以上的物種中的某個基因由同一個共同的祖先通過物種形成的進化過程而來,通常也叫做直系同源基因。大多數情況下,直系同源指的是蛋白質,一般情況下,所有的直系同源基因或蛋白質具有同樣的功能。因此,在同一直系同源族中,若其中的一個基因或蛋白質的功能已知的話,則其他基因或蛋白質的功能可根據已知的基因或蛋白質的功能進行注釋。也就是說,同一個直系同源族里基因或蛋白質的功能是可以在不同的物種之間轉移的。與直系同源族相對的是旁系同源,它是指在一個基因組中,通過復制而來的相關基因或蛋白質。通常情況下,直系同源的基因或蛋白質在進化過程中保持相同的功能,而旁系同源的基因或蛋白質在進化中產生新的功能。直系同源是生物信息學中對新發現的基因進行功能注釋的重要手段。對于一組高度同源的基因,它們之間的關系要么是直系同源或者是旁系同源,但對于一個物種中的某個基因,在另一個物種中可能對應著超過一個以上的直系同源。那么,怎樣判斷一個基因組中具高度同源性的基因哪些屬于直系同源,哪些屬于旁系同源呢?最簡單的方法是用來自兩個物種的同源蛋白質或基因序列進行序列比對(BLAST)。用A物種的蛋白質或基因針對B物種的基因組進行BLAST時,得到的同源序列E值最小,而用B物種中此蛋白質或基因序列再反過來對A物種進行BLAST時,所得到的E值同樣最小,則此時我們稱這一對基因和蛋白質為直系同源。更深入的研究直系同源的方法可參照Nuclear Acid Research 2005年的相關文章。在研究物種的進化過程中,建立進化樹所使用的蛋白質序列一定要是來源于直系同源,否則,所產生的進化樹的結果將不準確。