SMART-Seq mRNA Long Readは、微量サンプルからロングリードシーケンス用のcDNAを合成するキットで、特に微量サンプルからの全トランスクリプトーム解析に適しています。10 pg~100 ngのtotal RNA(RIN>8)、または1~1,000個のインタクトな細胞から、Oligo dTプライマーを用いて完全長cDNAを合成し、続いてバーコードプライマーを用いてcDNA増幅することにより、最大96個のバーコード付きcDNAを合成できます。その後、Oxford Nanopore Technologies(ONT)社のプラットフォームでアダプターライゲーション、ライブラリー調製を行い、ロングリードシーケンスを実施します。一連の操作により、平均リード長約2 kb(N50)、8 kbを超える完全長転写産物の検出が可能です。
cDNA合成、バーコード付加、濃縮、バーコード付きcDNAのプールを含む一連の操作は1日半で完了し、本製品のワークフローは自動化、小型化にも適しています。本製品によって取得されたデータはタカラバイオが提供する
プロトコールと
ファイルを用いて簡単にデマルチプレックスでき、ONT社のDoradoベースコーラーで使用することができます。
本製品のcDNA合成にはSMART(Switching Mechanism At 5’End of RNA Template)法を用いており、高い効率で完全長cDNA合成が可能です。転写産物の全長情報を効率的に取得することができ、転写産物アイソフォーム、遺伝子融合、点変異などの分析を可能にします。さらに、SMART法は感度と再現性が非常に高いため、サンプルのインプット量が少ない場合でも、他の方法に比べて、より多くの遺伝子を識別できます。本製品を用いることで、高い再現性、均一なカバレッジ、およびGCリッチ転写産物の正確な検出が可能です。
図1.ワークフロー
total RNA、または細胞からSMART-Seq LR Oligo-dTプライマーとMMLV由来の逆転写酵素(SMARTScribe Reverse Transcriptase)を用いて逆転写反応を行う。
各mRNAの5’末端まで逆転写が進むと5’末端への塩基のテ―リングが起こり、そこにSMART-Seq LR TSOがアニーリングして鋳型スイッチングにより5’末端にSMART-Seq LR TSOを鋳型とした配列が付加される。
SMART-Seq LR Index Plateに含まれるプライマーを用いた1回目のPCRによってバーコードを付加したcDNAが増幅される。
2回目のPCRによってバーコード付加されたcDNAが濃縮される。
サンプルをプールし、ONT社のLigation Sequencing Kit V14(Cat. No. SQK-LSK114)を用いて末端処理、シーケンスアダプター付加を行い、シーケンスを実施する。シーケンス後は、ONT社のGuppyを使用してベースコール、デマルチプレックスを行い、Cutadapt、Minimap2、SAMtools、Bedtools、Salmon等を用いて解析する。
図2.SMART-Seq mRNA Long Readで合成されたバーコード付きcDNAのサイズ分布
SMART-Seq mRNA Long Readを用いて10 pgまたは10 ngマウス脳total RNA(n=8)からcDNAを合成し、Agilent High Sensitivity DNA Kitを用いて2100 Bioanalyzer(Agilent Technologies)でcDNAのサイズ分布を測定した。
パネルA:バーコード付加cDNAをプールして、ONT社のLigation Sequencing Kit V14を用いてライブラリーを調製し、MinION Flow Cellで72時間シーケンスした。Guppyを用いてベースコール、デマルチプレックスし、MS-Excelを用いてリード長の分布をプロットした。
パネルB、C:10 pg(パネル B)および 10 ng(パネル C)のマウス脳total RNAの代表的なサンプルのリード長分布を示した。
図3. SMART-Seq mRNA Long Readによって調製されたライブラリーのリード分布と感度
SMART-Seq mRNA Long Readを用いて10 pgまたは10 ngのマウス脳total RNAからcDNAを合成し、ライブラリーを調製した。シーケンス後、ONT社のGuppyを用いてベースコール、デマルチプレックスし、それぞれのバーコードあたり400,000リードにダウンサンプリングした。
パネルA:ライブラリーのリード分布。いずれのインプット量でも一貫して優れた結果が得られた(10 ngの場合はn=8、10 pgの場合はn=7)。
パネルB、C:遺伝子および転写産物の検出感度を評価するためにダウンサンプリングして比較した。いずれの条件(10 pg、10 ng)も飽和状態まではシーケンスされていないが、リード深度全体にわたって高感度に遺伝子(Gene)と転写産物(Transcript)が検出された。
図4. SMART-Seq mRNA Long Readの再現性
SMART-Seq mRNA Long Readを用いて10 ngマウス脳total RNAの96個のレプリケートサンプルからcDNAを合成した。96サンプル全てのバーコード付きcDNAをプールしてライブラリーを調製しシーケンスを実施した結果、高い再現性が確認された。
図5. SMART-Seq mRNA Long Readのカバレッジ
SMART-Seq mRNA Long Readを用いて10 pgまたは10 ngのマウス脳total RNAからcDNAを合成し、ライブラリー調製、シーケンスを行った。n=8の平均値を用いて遺伝子全体のカバレッジを評価した結果、10 pgというごく少量のインプット量でも高いカバレッジが得られた。
図6. 細胞サンプルからのロングリードシーケンス
SMART-Seq mRNA Long Readを用いて、シングルセル、または1,000個のK562細胞からcDNAを合成し、ライブラリー調製、シーケンスを実施した。Guppyを使用してベースコール、デマルチプレックスし、バーコードあたり300,000リードにダウンサンプリングした。
パネル A:平均遺伝子数(シングルセルはn=8、1,000個の細胞はn=2)
パネル B:ピアソン相関(シングルセルn=8の遺伝子マトリックスから算出)
パネル C:シングルセルのダウンサンプリング分析(リード深度あたりの遺伝子数、転写産物数を表示)
図7. 完全長アイソフォームと遺伝子融合の検出
SMART-Seq mRNA Long Readのワークフローに従って10 pgマウス脳total RNA、またはK562細胞のシングルセルからcDNA合成し、ライブラリー調製、シーケンスを実施した。ONT社のGuppyを用いてベースコール、デマルチプレックスし、Minimap2を用いてアライメントを実施した。
パネル A、B:10 pgマウス脳total RNAから検出された Snap25(パネル A)とNbr1(パネルB)のアイソフォーム、IVGで可視化
パネル C:K562細胞のシングルセルから検出されたNUP214::XKR3 遺伝子融合、IVGで可視化
図8. SMART-Seq mRNA Long Readワークフローの自動化および小型化の検討
10 ngマウス脳total RNAの96個のレプリケート、およびシングルセルをサンプルとして、SMART-Seq mRNA Long Readのワークフローの自動化、および小型化を検討した。一方はベンチトップ上のマニュアル操作によって標準液量でcDNA合成を実施し、もう一方は自動化装置mosquito HV(SPT Labtech社)を用いて1/8の反応液量でcDNA合成を実施した。それぞれ96サンプル全てのバーコード付きcDNAをプールしてライブラリーを調製し、 72時間シーケンスした。ONT社のGuppyを用いてベースコール、デマルチプレックスし、Minimap2を用いてアラインメントした。
パネル A:mosquito HV 液体ハンドラー
パネル B:Salmonで評価した遺伝子数(マウス脳total RNA)
パネル C:マニュアル操作で合成したcDNAとmosquito HVで自動化、小型化して合成したcDNAの比較(シングルセル)
図9. mRNA Reference配列を用いた性能評価(測定濃度)
ERCC(External RNA Control Consortium)定量化コントロールとLong SIRV mRNA standardの両方を含む SIRV-Set 4(Lexogen社)をmRNA reference standardとして用い、SMART-Seq mRNA Long Readの性能を評価した。10 ngのマウス脳RNAにSIRV-Set 4をリードの約5%を占める量となる様にスパイクしてcDNAを合成し、ライブラリーを調製した。ONT社のMinIONでシーケンスし、Restranderツールを使用してFASTQデータのリード-ストランド補正を行い、minimap2で整列させてERCCスタンダードの理論濃度に対して測定濃度をプロットした。
図10. mRNA reference standardを用いた性能評価(IGVプロット)
ERCC(External RNA Control Consortium)定量化コントロールとLong SIRV mRNA standardの両方を含むSIRV-Set 4(Lexogen社)をmRNA reference standardとして用い、SMART-Seq mRNA Long Readの性能を評価した。10 ngのマウス脳RNAにSIRV-Set 4をリードの約5%を占める量となる様にスパイクしてcDNAを合成し、ライブラリー調製した。ONT社のMinIONでシーケンスし、Restranderツールを使用してFASTQデータのリード-ストランド補正を行い、minimap2で整列させた。
ERCCおよびSIRVアイソフォームセットに含まれる1 kb、4 kb、6 kb、8 kbのデータについてIGVプロットを示した。赤色のリードはプラス鎖リード、青色は非常に稀なマイナス鎖リード、小さな紫色または赤色のマークはONTシーケンスで一般的に見られる小さなインデル/変異を示している。なお、予想されるmRNA配列の少なくとも90%をカバーするリードを全長として定義した。
図11. SMART-Seq mRNA Long Readで合成したcDNAの完全性と方向性
Spike-In RNA Variant(SIRV)コントロール(600~2,492 bp)を用い、高い確率で転写産物(Transcript)全長を含むと考えられる全長cDNAの検出を行った。また、SIRVsuiteを用いてSIRV-spike-inに含まれる全てのアイソフォームの方向性を識別し可視化した。
パネル A:完全長cDNAのカバレッジ分析
パネル B:SIRVsuiteで可視化されたSIRV-spike-inの鎖方向の識別結果