【佳學基因檢測】基因解碼如何使用eQTL指標提高腫瘤基因檢測的正確性?
人體基因是如何解碼的?佳學基因核心技術人員不小心泄密了
基因表達數(shù)量性狀位點(expression quantitative trait locus, eQTL)是佳學基因基因解碼系列技術中的一個指標。采用佳學基因采用一套完整的技術指標解讀基因序列變化影響人體生理功能方式、位置、組織、器官并確定影響發(fā)生的時間和影響程度。
用于基因密碼破譯的基因表達數(shù)量性狀狀位點是一類能夠影響基因表達量的遺傳位點、基因變異序列。這一部分富有特殊含義的基因序列大部分都是單核苷酸多態(tài)性即SNP的形式出現(xiàn),具有一定的生物學意義。佳學基因不斷積累、豐富、優(yōu)化基因表達數(shù)量性狀位點數(shù)據(jù)庫,形式和規(guī)模類似于eQTL數(shù)據(jù)庫是GTEx,如今已更新到第八版了。
基因序列調控基因表達從而影響人體疾病表征的方式主要有兩類,也就是eQTL主要分為兩類:(1)順式eQTL(cis-eQTL):它主要是指與所調控基因相距較近的eQTL,一般多位于所調控基因的上下游1Mb區(qū)域;(2)反式eQTL(trans-eQTL):與cis-eQTL恰恰相反,反式是指距離所調控基因位置比較遠的eQTL,有時候距離甚至超過5Mb。因此,對于eQTL作用方式的基因解碼,需要考慮兩點,SNP和基因表達水平的關聯(lián)度以及SNP與基因的距離。 佳學基因從事大量eQTL數(shù)據(jù)庫的開發(fā),可以直接利多種來源的數(shù)據(jù)庫研究SNP調控的基因,這里的經(jīng)典代是就是GTEx數(shù)據(jù)庫。
基因解碼過程中,如何利用自己的數(shù)據(jù)計算并確定相關eQTL。 利用原始數(shù)據(jù)做eQTL分析,佳學基因至少需要三個文件,先進個是樣本信息文件,該文件包含樣本的年齡,性別和種族等等;第二個是基因表達量文件,它表示的是每個基因在每個樣本中的表達含量;第三個是基因型數(shù)據(jù),也即每個樣本的基因型數(shù)據(jù)。 在進行分析前,每一個數(shù)據(jù)還應當有嚴格的數(shù)據(jù)格式: 先進個是樣本信息文件,除開先進列,其它列都代表不同的樣本,每一行代表的是樣本的表型信息。 第三個是基因型數(shù)據(jù),同樣地,除開先進列,其它列都代表不同的樣本,每一行代表的是不同的基因型(SNP),一般基因型數(shù)據(jù)用0,1,2這三個數(shù)字編碼,代表的是效應等位基因劑量。舉個簡單的例子,SNP1的等位基因分別是A和C,如果我們以A為效應等位基因,那么基因型AA的劑量便是2,AC為1,CC為0。 有了這些數(shù)據(jù),我們就可以簡單分析SNP和基因表達量的關系了 其數(shù)學模型如下: gene1 ~ snp1 + sex + age + error_term 這里gene1(因變量)一般就是一個基因的表達量,snp1(自變量)就是一個SNP的基因型,兩者擬合,矯正相關干擾項(如sex和age等),error_term是指回歸模型的誤差項。 如果想?yún)^(qū)分順式還是反式eQTL,這時候就需要結合基因與SNP的位置信息了。
(責任編輯:佳學基因)