ヒト組織全体の異常なスプライシング予測
Sep 02, 2023
Nature Genetics volume 55、pages 861–870 (2023)この記事を引用
13,000 アクセス
1 引用
174 オルトメトリック
メトリクスの詳細
異常なスプライシングは遺伝性疾患の主な原因ですが、トランスクリプトームでの直接検出は、皮膚や体液などの臨床的にアクセス可能な組織に限定されています。 DNA ベースの機械学習モデルは、スプライシングに影響を与える稀な変異を優先することができますが、組織固有の異常なスプライシングを予測する性能は未評価のままです。 ここでは、Genotype-Tissue Expression (GTEx) データセットから、49 のヒト組織における 880 万を超える稀な変異体にまたがる異常スプライシング ベンチマーク データセットを生成しました。 20% の再現率で、最先端の DNA ベースのモデルは最大 12% の精度を達成します。 組織特異的なスプライス部位の使用をトランスクリプトーム全体でマッピングおよび定量化し、アイソフォーム競合をモデル化することにより、同じ再現率で精度が 3 倍向上しました。 臨床的にアクセス可能な組織の RNA シーケンス データをモデル AbSplice に統合することで、精度が 60% に達しました。 2 つの独立したコホートで再現されたこれらの結果は、非コーディング機能喪失型バリアントの同定、および遺伝子診断の設計と分析に大きく貢献します。
コーディング領域外の機能を予測するのは難しいため、非コーディング機能喪失 DNA バリアントの同定は、全ゲノム解釈の大きなボトルネックとなっています 1。 スプライシングを変化させるバリアントは、機能的に重要なタンパク質ドメインのフレームシフトやアブレーションを誘発するなどして、RNA アイソフォームの大幅な変化を引き起こす可能性があるため、非コード機能喪失バリアントの重要なクラスに相当します。 変異体がスプライシング アイソフォームの選択を大きく変える場合、機能的な RNA アイソフォームの残存量が大幅に減少し、遺伝子の機能が失われる可能性があります。 特に希少疾患の診断や腫瘍学では、バリアントの解釈にスプライシングが関連しているため、バリアントがスプライシングに影響を与えるかどうかを予測するアルゴリズムが開発されています 2、3、4、5、6、7、8、9。 しかし、つい最近になって、異常なスプライシング現象、つまりスプライスアイソフォームの使用量のまれに大きな変化がヒト組織で発生することが指摘されている10、11、12。 観察された異常なスプライシング事象の原因となる稀な変異の候補を事後的に優先順位付けする方法が提案されているが12、前方の問題、つまり、稀な変異の中でどのものが異常なスプライシングを引き起こすかを予測するという問題は解決されていない。
今回、我々は、まれな変異が特定のヒト組織における異常なスプライシングに関連するかどうかを予測するモデルの確立に着手した。 まず、利用できるのは DNA だけであると仮定し、その後、臨床的にアクセス可能な組織 (CAT) の相補的 RNA シーケンス (RNA-seq) データをさらに検討しました (図 1)。
私たちは、まれな変異体が 49 のヒト組織にわたる異常なスプライシングに関連するかどうかを予測することに着手しました。 a, 我々は、最近公開された異常スプライシング Caller10 を使用して GTEx サンプルを処理することにより、異常スプライシングの包括的なベンチマークを確立しました。これに基づいて、入力 DNA 配列、およびオプションで CAT の RNA-seq データを入力として使用できる予測因子を評価および開発できます。 b. ベンチマークでは、現在使用されている DNA のみに基づくアルゴリズムのパフォーマンスが中程度であること、これらのモデルをこの研究で開発した組織特異的スプライシングの定量的マップである SpliceMap と統合すると大幅なパフォーマンスの向上、異常の直接的な測定も含めるとさらなる向上が明らかになりました。アクセス可能な組織の接合。
私たちは、49 の組織と 946 人の個人にわたる Genotype-Tissue Expression (GTEx) データセットの 16,213 の RNA-seq サンプルに対して、異常スプライシング コーラー FRASER (Find RAre Splicing Events in RNA-seq)10 を使用してベンチマークを作成しました。 他のスプライシング外れ値検出方法 11,12 と比較して、FRASER は常に配列ベースの予測因子と最も高い一致を示したため、その後の評価に使用されました (拡張データ図 1)。 すべての個体について、少なくとも 1 つの希少なバリアント (ゲノム集約データベース (gnomAD)13 に基づくマイナー アレル頻度 (MAF) が 0.1% 未満であり、GTEx 全体で 2 人以下の個体で見つかった) を保有するすべてのタンパク質をコードする遺伝子を考慮し、設定しました。この遺伝子が異常にスプライシングされている場合、どの組織に存在するかを予測します。 我々は、それがトランスクリプトーム全体の有意なスプライシング外れ値と呼ばれ、十分な振幅(差分スプライスイン率(Ψ)が0.3より大きい)である場合、サンプル内で異常にスプライシングされる遺伝子を定義しました。方法、および拡張データ図1を参照してください。別のカットオフを使用した結果については)。 以前の研究では、GTEx RNA-seq サンプルにおける異常なスプライシング事象の 75% が組織間で複製されないことが報告されており 10,12 、したがって、技術的なアーチファクトまたは遺伝的に引き起こされていない異常なスプライシングを反映している可能性があります。 私たちは、最も近い稀な変異体までの距離に関して、同じ個人の組織全体で複製されたスプライシング外れ値の濃縮度を定量化し、それらは最大 250 塩基対 (bp) の距離まで濃縮されることを発見しました (拡張データ図 2)。 したがって、まれな変異体は、異常にスプライスされたスプライス部位に関連するイントロンの境界から 250 bp 未満離れていることも必要でした (方法と拡張データ図 3)。 このフィルターは、複製された異常イベントのフィルター処理と同様の結果をもたらしましたが、個人ごとに 1 つのサンプルを持つ独立したコホートにも適用できるという追加の利点があります (拡張データ図 4)。
0.8, MMSplice score > 2 (absolute score) and an AbSplice-DNA score > 0.2 in at least one tissue. Asterisks mark significance levels of two-sided Fisher tests of AbSplice-DNA compared with SpliceAI (*<0.05, **<10−4, ***<10−8). NS, not significant./p> 0.3) and then by significance level. This simple method yielded a markedly increased precision compared with the DNA-based models, up to nearly 40% recall (Fig. 5c and Extended Data Fig. 10a). However, RNA-based predictions remain limited to those splice sites expressed and spliced in the CAT. Therefore, we next trained models integrating AbSplice-DNA features together with RNA-seq-based features from CATs, including differential splicing amplitude estimates to leverage the splicing scaling law and the SpliceMaps (Methods). These models, which we call AbSplice-RNA, outperformed all other models (Fig. 5c and Extended Data Fig. 10a). We found that using fibroblasts only led to the same performance as using all CATs, reaching around 60% precision at 20% recall and amounting to a twofold improvement over AbSplice-DNA (Fig. 5c and Extended Data Fig. 10b). Those improvements were consistent across target tissues (Fig. 5d). As expected, AbSplice-RNA outperformed AbSplice-DNA for genes expressed in CATs and remained on par with it otherwise (Extended Data Fig. 10c). Altogether, these results establish a formal way to integrate direct measurements of aberrant splicing along with sequence-based models to predict aberrant splicing in a tissue of interest./p> 0.3). The same filters were applied to the splicing efficiency metrics./p> 0.3) lower than the remaining genes, and further ranked genes within each of these two groups by increasing P value./p> 0.3, FDR < 0.05, 126,308 aberrant events) b, Filter 2: same as a, but restricting to genes that are aberrantly spliced in at least two different tissues from the same individual (32,886 aberrant events). c, Filter 3: same as a, but restricting to genes that have a rare variant within 250 bp of the splice sites (22,766 aberrant events). While the results are best with Filter 3, the relative improvements in terms of precision at the same recall between the methods is the same as with Filter 2. In particular, having restricted to variants 250 bp away from any detected split read boundary (Filter 3) did not bias our analysis for the splice-site centric method MMSplice over SpliceAI. d, After applying Filter 3, outliers were stratified into ‘replicated’ (14,030 aberrant events), that is appearing in at least two different tissues of the same individual, and ‘not replicated’ (8,736 aberrant events). All models showed a significantly higher performance for aberrant splicing events replicated in two or more samples compared to those reported in a single sample only./p> 0.3) across tissues./p> 1 (transcript per million). AbSplice-RNA improves for genes expressed in fibroblasts and remains on par with AbSplice-DNA for genes not expressed in fibroblasts./p>