我打算做一個(gè)RNA-seq項(xiàng)目,研究一株細(xì)菌在兩個(gè)環(huán)境條件下的表達(dá)差異。現(xiàn)在,我打算確定生物學(xué)重復(fù)的個(gè)數(shù),以便可以得到統(tǒng)計(jì)學(xué)上有意義的結(jié)果。我打算每個(gè)環(huán)境的樣本設(shè)置兩個(gè)生物學(xué)重復(fù),而不打算測(cè)更多重復(fù)。請(qǐng)問,兩個(gè)重復(fù)的設(shè)置是否合理?
1.如果是我的話,我會(huì)選擇設(shè)置三個(gè)生物學(xué)重復(fù)。要知道兩個(gè)生物學(xué)重復(fù)意味著雙倍的工作量但沒有雙倍的效果。如果做兩個(gè)生物學(xué)重復(fù),你會(huì)引入無法校正的噪音。如果兩個(gè)重復(fù)結(jié)果一樣,那能說明問題,但如果不一樣,你就解釋不了了。如果樣品制備不是非常難,經(jīng)費(fèi)不是非常有限,我建議還是設(shè)置3個(gè)生物學(xué)重復(fù)吧。
2.這是個(gè)有意思的問題,從統(tǒng)計(jì)學(xué)的角度來說
排除生物學(xué)意義,從統(tǒng)計(jì)學(xué)的角度來說,不同的統(tǒng)計(jì)方法,對(duì)生物學(xué)重復(fù)的個(gè)數(shù)的要求并不相同。
如果使用T檢驗(yàn),你應(yīng)該設(shè)置盡可能多的生物學(xué)重復(fù),建議至少3個(gè)重復(fù)。當(dāng)然T檢驗(yàn)的方法,在RNA-seq的差異分析里不是很合理。因?yàn)镽NA-seq的誤差分布,并不符合正態(tài)分布。
如果你選擇的統(tǒng)計(jì)模型是Fisher 精Que檢驗(yàn)類的統(tǒng)計(jì)模型(包括超幾何分布或泊松分布),即使沒有生物重復(fù)也是可以進(jìn)行統(tǒng)計(jì)的。當(dāng)然,沒有生物學(xué)重復(fù)只是在統(tǒng)計(jì)學(xué)上可行,但實(shí)際上無算估算生物差異或?qū)嶒?yàn)誤差帶來的系統(tǒng)誤差。所以,這樣的策略現(xiàn)在發(fā)表論文的話,可能會(huì)被質(zhì)疑的。
如果你選擇一些軟件,例如Deseq這樣的軟件,一般也要求2個(gè)以上的生物學(xué)重復(fù)。
這個(gè)是非常有意思的問題,我提供的建議非常有限,期望其他人有更好的回答。
“虎式坦克”的回答不錯(cuò)。關(guān)于生物學(xué)重復(fù)與統(tǒng)計(jì)的關(guān)系,我補(bǔ)充一下。在我們的測(cè)序樣本中,每一個(gè)基因表達(dá)量的方差包含兩個(gè)方面的內(nèi)容:
1)處理方差,就是我們的實(shí)驗(yàn)處理導(dǎo)致的差異,這些差異當(dāng)然就是我們關(guān)注的;
2)誤差方差,就是與我們實(shí)驗(yàn)處理無關(guān)的差異,例如,生物個(gè)體間的差異,實(shí)驗(yàn)技術(shù)不穩(wěn)定導(dǎo)致的偏差等。誤差方差并非我們關(guān)注的,但這些差異會(huì)引入假陽性。
所以生物學(xué)重復(fù)的價(jià)值在于幫助我們估算誤差方差的大小,從而我們可以從總體方差中剔除誤差方差的影響。
以上的內(nèi)容,就是生物統(tǒng)計(jì)學(xué)中“方差分析”所講的內(nèi)容。其實(shí)RNA-seq差異分析的主體思路和方差分析基本相同,只是把誤差分布的假設(shè)從方差分析的正態(tài)分布,替換為了其他更合理的分布,例如負(fù)二項(xiàng)分布。 那么,生物學(xué)重復(fù)在這里的意義就是用于計(jì)算誤差方差的大小。因?yàn)樯飳W(xué)重復(fù)間不存在處理效應(yīng),任何差異都屬于誤差方差的范疇。
但還需要補(bǔ)充一點(diǎn),由于我們大部分二代測(cè)序只有2~3個(gè)生物學(xué)重復(fù)。這么少的重復(fù)數(shù),正確預(yù)估每個(gè)基因誤差方差其實(shí)是不夠的(也就是單個(gè)基因的方差估計(jì)很不穩(wěn)定)。所以,一般的差異表達(dá)分析軟件(例如,Deseq,edgerR)使用了一個(gè)代償?shù)姆椒ā_@個(gè)方法假設(shè):對(duì)于表達(dá)量相似的基因,其誤差方差也應(yīng)該是相似的。所以在Deseq里面,會(huì)使用所有基因的方差獲得擬合曲線,來獲得不同表達(dá)量的基因的期望方差(如下圖)。在重復(fù)數(shù)比較少的情況下,擬合得到的期望方差理論上會(huì)比單個(gè)基因的估算更準(zhǔn)。
回答完統(tǒng)計(jì)學(xué)角度的問題,我們?cè)購纳飳W(xué)試驗(yàn)設(shè)計(jì)的角度來考慮重復(fù)數(shù)設(shè)置的問題。我們一般會(huì)建議老師測(cè)3個(gè)生物學(xué)重復(fù),除了統(tǒng)計(jì)角度的考慮,還有考慮試驗(yàn)的意外因素。如果測(cè)兩個(gè)重復(fù),而其中一個(gè)樣本發(fā)現(xiàn)有問題而需要被剔除,就會(huì)導(dǎo)致這組數(shù)據(jù)將非常不可信。但如果我們有三個(gè)重復(fù),剔除一個(gè)樣本后,依然留有兩個(gè)樣本,保證這組數(shù)據(jù)依然是有重復(fù)的。
我認(rèn)為從統(tǒng)計(jì)的角度,4個(gè)重復(fù)是理想的。當(dāng)然,從費(fèi)用的角度來說,目前依然是太貴了。隨著測(cè)序價(jià)格不斷下降,重復(fù)的設(shè)置應(yīng)該會(huì)慢慢提高的。