遺伝子情報やアミノ酸、タンパク質などの配列情報は日々蓄積されています。ここでは塩基配列には限定せず、様々な用途に使用される公共データベース、検索システム、バイオリソースについてまとめています。
この記事の内容
文献を検索する

Semantic ScholarはAIを活用した科学的な文献探索ツール。引用数や影響度での文献ソートやPDFの有無でのフィルタリング検索も可能。Chromeの拡張機能を使うと簡単に論文検索が実施できる。
リファレンスデータを用意する

Ensembleはゲノム解読された真核生物を対象に自動アノテーションを行い、データベースとして公開。相同性検索やデータのダウンロードなども可能

GenbankはNIH遺伝子配列データベース。2ヶ月ごとのリリースはftpサイトから入手可能

Fishbaseは、魚類に関する情報を包括的に収集しているデータベース

BOLD(Barcode of Life Data)は真核生物の遺伝子データに形態情報や分布データなどを組み合わせたデータベースリポジトリ

MitoFishは魚類のミトコンドリアゲノム情報を検索可能なデータベース。サイト内でBLASTが可能

NCBIは遺伝子関連の各種データベースに対する検索が可能な検索システム

China National GeneBank DataBase (CNGBdb)は中国の遺伝子データバンク。NCBI同様、各種データベースに対する検索が可能

GTDBはBacteriaとArchaeaに属する生物の分類情報を提供するゲノム分類データベース。分類法は普遍的なSingle copy-proteinsから推定した系統推定

SILVAは細菌、古細菌、真核生物について16S/18S, 23S/28S rRNA配列の包括的かつキュレーションデータベースを提供

RDPはリボソームデータベースプロジェクトの略称。細菌、古細菌の16s rRNA、真菌の28s rRNAシーケンスのデータベースと分析ツールを提供

GreengenesはGTDBでも適用されているような系統学的分類法により精選された、細菌、古細菌の16s rRNAシーケンスのデータベース。Greengenes2が2022年に論文が公開されている
QIIME2 format GG2 : https://github.com/biocore/q2-greengenes2/
NGSの登録データを利用する

DRAはシーケンスの生データとアライメント情報のアーカイブサイト

DDBJはアノテーションが付与されたゲノム、遺伝子、転写産物の塩基配列データベース

Korean Nucleotide Archive (KoNA)は韓国のハイスループットシーケンスデータのアーカイブサイト
Paper : https://www.biorxiv.org/content/10.1101/2023.07.27.550450v1

CNSAは中国ののハイスループットシーケンスデータのアーカイブサイト
塩基配列に関する情報を検索する

GGGenome(ゲゲゲノム)は様々な生物種のゲノムや転写産物情報を高速に検索することのできるツール
GitHub : https://github.com/meso-cacase/GGGenome

GGRNAは遺伝子をGoogleのように検索できるサイト。NCBI RefSeq の transcript を全文検索可能
GitHub : https://github.com/meso-cacase/GGRNA
対象生物の遺伝子関連情報を探す

MicrobeDBはゲノム情報を中心に遺伝子や系統、環境など様々なデータが統合されているwebサイト。

OrthoDBはオルソログ情報に関するデータベースサイト

BioCYCは生物固有のPathway/Genome Databasesで、生物のゲノムと代謝パスウェイ情報を提供

Plant GARDENは植物のゲノムポータルデータベースサイト
Paper : https://doi.org/10.1186/s12870-023-04392-8
細菌の薬剤耐性関連データベース

CARD(Comprehensive Antibiotic Resistance Database)は抗菌剤耐性遺伝子やタンパク質及び表現型に関する包括的なデータベース。
Paper : https://academic.oup.com/nar/article/51/D1/D690/6764414?login=false

VFDB(virulence factor database)は細菌性病原体の病原性因子に関するデータベース。
Paper : https://academic.oup.com/nar/article/50/D1/D912/6446532

ResFinderは細菌の DNA 配列全体または一部における、獲得遺伝子の同定や、抗菌薬耐性を媒介する染色体変異を検出をサポートするwebツール & データベース
Paper : https://www.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000748

MEGAResは手作業でキュレーションされたおおよそ9,000の抗菌耐性遺伝子の配列データを持つデータベース
Paper : https://academic.oup.com/nar/article/51/D1/D744/6830666
デモデータを探す

PacBioのシーケンサーを使って各分析メニューで生成されたデータをまとめたサイト
LINK:https://www.pacb.com/connect/datasets/
PacBio HiFi Shotgun Metagenomics Datasets
PacBio HiFiシーケンスで生成された、一般公開されているショットガンメタゲノミクスデータセットの情報がまとめられたサイト。SRA-toolkitを使用して配列取得することで利用することができます。
アダプターシーケンスの情報を探す

Illuminaシーケンサーのアダプター配列に関する情報がまとめられたサイト
LINK:https://jp.support.illumina.com/downloads/illumina-adapter-sequences-document-1000000002694.html