首页 投顾 > 正文

单细胞实战(1)数据下载-数据读取-seurat对象创建

这篇文章我们将介绍从geo数据库下载单细胞测序数据后,多种数据格式多样本情况下,如何读取数据并创建seurat对象。本文主要结构:一、数据下载二、数据读取与seurat对象创建

单样本情况下各种格式数据的读取,读取后seurat对象的创建


(资料图片仅供参考)

多样本情况下各种格式数据的读取,读取后seurat对象的创建、合并

一、数据下载大家自行去GEO官网(/gds)搜索下载自己想要的单细胞测序数据。本文后面会提供数据用于示例代码测试。

GEO数据库上提供的单细胞测序数据常见格式主要有以下几种:

10x Genomics格式:这是一种由10x Genomics公司开发的专用文件格式,它包含三个子文件:、和。这三个文件可以用于存储单细胞测序数据的细胞条形码、基因特征和稀疏表达矩阵 。

h5格式:这是一种用于存储大规模数据的二进制文件格式,它可以包含多种数据类型,如矩阵、表格、图像等。

压缩文本矩阵(TXT或CSV的GZ文件):压缩文本矩阵可以用于存储单细胞测序数据的表达矩阵或元数据,它可以减少文件的大小和传输时间 。

h5ad格式:它专门用于存储和分享单细胞表达数据,它使用Anndata库来创建和读取。h5ad格式可以与cellxgene或Seurat等工具兼容,进行单细胞数据的可视化和分析 。

h5seurat格式:这是一种基于h5格式的文件格式,它专门用于存储和分析多模态单细胞和空间分辨率表达实验,如CITE-seq或10X Visium等技术。h5seurat格式可以与SeuratDisk等工具兼容,进行单细胞数据的读写 。

R数据文件(RDS/RDATA文件):以R语言的数据文件格式存储表达式矩阵,需要R软件直接读取。

二、数据读取与seurat对象创建样本单样本情况下每种格式的数据读取与seurat对象创建演示:10x Genomics格式:演示数据的下载:/geo/query/

文件下载后解压,并修改名称,存放路径如下图:

读取文件并创建对象的代码参考:

h5格式:演示数据的下载:/geo/query/

下载后解压,存放路径如图

读取文件并创建对象的代码参考:

压缩文本矩阵(TXT或CSV的GZ文件):这两种文件建议先手动加压到本地查看一下文件内容格式。CSV压缩GZ格式演示数据的下载:/geo/query/

下载后文件的存放路径

CSV压缩GZ格式示例代码:

txt压缩GZ格式示例代码:

h5ad格式:

下载测试文件:/s/ngs3p8n2i8y33hj/

R数据文件(RDS/RDATA文件)

多样本

多样本情况下我们主要关注10x Genomics格式和压缩文本矩阵(TXT或CSV的GZ文件)

10x Genomics格式多样本读取与对象创建:测试数据下载:/geo/query/

示例代码:

h5格式多样本数据读入与对象创建:测试数据下载:/geo/query/

下载后将数据解压:

压缩文本矩阵(TXT或CSV的GZ文件)多样本:下载测试文件:/geo/query/下载三个数据演示一下代码

下载后解压:

示例代码:

大家可以使用fread()等更高效的函数代替文中的()函数,但是要注意读取后数据格式是否准确。

参考链接:/p/5b26d7bc37b7参考链接:/s/M15kWdH8eDONfakNhY-enA

关键词:

最近更新

关于本站 管理团队 版权申明 网站地图 联系合作 招聘信息

Copyright © 2005-2023 创投网 - www.xunjk.com All rights reserved
联系我们:39 60 29 14 2@qq.com
皖ICP备2022009963号-3