关于我们

心心相联 · 川流不息

告别“试错式”湿实验!用单细胞数据快速找到逆转疾病状态的关键基因?这份指南请收好


是否希望在湿实验之前,基于单细胞转录组数据快速筛选潜在关键调控基因?是否想借助基础模型与虚拟扰动分析技术,预测特定基因扰动后可能引起的细胞状态变化?那么可以了解一下基于 Geneformer 的虚拟基因扰动分析(In Silico Perturbation)。


本文将主要介绍:

1. 虚拟基因扰动分析的基本概念与主流技术路线

2. Geneformer 的核心原理与模型特点

3. Geneformer 虚拟扰动分析的输入输出形式,以及常见下游可视化与结果解析方法

4. Geneformer 在疾病机制研究、候选靶点筛选及细胞状态调控分析中的应用案例


PART.01虚拟基因扰动分析简介

在传统生物学研究中,要验证一个基因的功能,往往需要通过 CRISPR 基因编辑、RNA 干扰等湿实验手段,耗时数月甚至数年才能得到结果。而人类基因组有超过 2 万个基因,基因间的组合调控更是呈指数级增长 —— 仅单基因和双基因扰动的组合就超过 2 亿种,更不用说不同细胞类型、不同疾病状态下的差异了。这使得 "逐个验证" 的传统研究模式在面对复杂疾病时显得力不从心。

虚拟基因扰动分析正是为解决这一瓶颈而生的革命性技术。它通过计算模型在计算机中模拟基因功能的变化(敲除、抑制、过表达或突变),预测其对细胞状态、分子网络乃至整个生物系统的影响,从而在湿实验前系统性地预筛关键调控基因,为生物学发现和药物靶点筛选提供高效的假设生成与指导。


虚拟基因扰动的核心优势

与传统实验方法相比,虚拟扰动具有不可替代的优势:

高效低成本:无需昂贵的试剂和漫长的实验周期,几天内即可完成上万个基因的系统性筛选

无伦理限制:可以模拟任何基因在任何细胞类型中的扰动效应,包括那些实验上难以操作或具有伦理风险的基因

系统性:能够全面评估每个基因扰动对整个转录组和细胞状态的影响,而不仅仅是少数几个标记基因

可重复性:计算结果完全可重复,不受实验批次、操作手法等因素的干扰

预测性:可以预测未被实验验证过的基因功能和调控关系,发现全新的生物学机制


虚拟基因扰动能做什么?

虚拟扰动分析已经成为现代生物学研究的重要工具,广泛应用于:

疾病治疗靶点筛选:识别那些扰动后能将疾病细胞状态逆转至健康状态的关键基因

基因功能注释:预测未知基因的生物学功能和调控网络

药物作用机制解析:模拟药物靶点的扰动效应,揭示药物的作用通路和潜在副作用

细胞重编程研究:预测能将一种细胞类型转化为另一种细胞类型的关键转录因子组合

疾病机制研究:解析基因突变如何通过分子网络导致疾病表型


虚拟基因扰动的发展历程

虚拟基因扰动技术的发展大致经历了三个阶段:

基于基因调控网络的方法

• 核心思想:将细胞抽象为基因调控网络(GRN),通过网络拓扑分析预测基因扰动的传播效应

• 代表方法:基于贝叶斯网络、布尔网络、微分方程的模型

• 局限性:依赖高质量的基因互作数据,难以捕捉细胞异质性和非线性调控关系

基于深度学习的方法

• 随着单细胞测序技术的成熟,研究者开始利用深度学习模型直接从单细胞转录组数据中学习基因调控规律

• 代表工具:scGen(2019,变分自编码器 + 潜空间向量运算)、trVAE(2020,条件变分自编码器)、CPA(2021,组合扰动自编码器)、GEARS(2022,图增强基因激活与抑制模拟器)

• 优势:能够捕捉复杂的非线性调控关系,支持单细胞分辨率的预测

• 局限性:通常需要在特定数据集上重新训练,泛化能力有限

基于基础大模型的方法

• 核心突破:利用在数千万甚至数亿个单细胞转录组上预训练的基础大模型,获得对基因调控网络的通用理解

• 代表工具:Geneformer(2023)、scGPT(2023)、scFoundation(2024)

• 优势:小样本即可实现精准预测,支持跨组织、跨细胞类型的泛化,能够捕捉更复杂的基因互作模式


目前主流的虚拟基因扰动方法

当前虚拟基因扰动领域主要有三大技术路线:

目前虚拟基因扰动(virtual gene perturbation / in silico perturbation)主要可分为三类技术路线:


基于基因调控网络(GRN)的网络扰动方法

• 原理:
 先从单细胞数据中推断基因调控网络(Gene Regulatory Network, GRN),再通过删除、抑制或修改目标基因相关的调控边,模拟基因敲除或表达变化对下游网络状态的影响。

• 代表工具:
scTenifoldKnk、GenKI、CellOracle

• 特点:
 可解释性较强,能够显式展示基因间的调控关系,并适合分析关键转录因子及细胞命运转换;但预测效果高度依赖 GRN 推断质量,对于复杂的非线性调控和远程间接效应建模能力有限。


基于变分自编码器(VAE)的潜空间建模方法

• 原理:
 利用变分自编码器(VAE)将高维基因表达数据映射到低维潜空间,并学习扰动前后的状态变化规律,再据此预测未观测扰动条件下的细胞表达状态。

• 代表工具:
scGen、trVAE、CPA

• 特点:
 计算效率较高,能够预测组合扰动及条件迁移;其中部分模型会将扰动近似表示为潜空间中的方向变化或向量偏移。但模型通常依赖训练数据分布,对于未见过的细胞类型、稀有状态或分布外(OOD)扰动的泛化能力仍存在限制。


基于 Transformer 基础模型的大模型方法

• 原理:
 将单细胞转录组视为“基因表达序列”,利用 Transformer 的注意力机制学习基因间复杂的共表达模式与上下文依赖关系,并通过大规模预训练实现扰动预测、细胞状态建模和跨数据集迁移。

• 代表工具:
Geneformer、scGPT、scFoundation


特点:
 具有较强的表示学习能力,能够捕捉复杂的非线性调控关系及长程基因依赖;在大规模预训练后,对小样本任务具有一定迁移能力,并在部分任务中展现出零样本或少样本预测潜力。但目前该类模型的可解释性、跨平台稳定性以及真实生物因果关系建模能力仍存在争议。


在上述方法中,Geneformer 因其大规模预训练策略和较强的迁移学习能力,成为当前单细胞虚拟基因扰动领域备受关注的基础模型之一。该模型基于数千万级人类单细胞转录组数据(后续版本扩展至近亿级细胞)进行预训练,通过 Transformer 架构学习基因表达之间的上下文依赖关系及潜在调控模式,从而获得对细胞状态和基因调控特征的通用表示能力。

在此基础上,Geneformer 能够在特定细胞背景下推断基因扰动后可能产生的转录组变化,并已被用于候选调控因子识别、疾病相关基因优先级排序以及潜在治疗靶点筛选等任务。相较于传统模型,其在小样本场景、跨数据集迁移以及复杂基因互作建模方面展现出一定优势,但其预测结果仍主要依赖统计关联与表达模式学习,尚不能完全等同于真实生物学因果验证。


PART.02Geneformer工具原理介绍

Geneformer是一种基于Transformer架构的单细胞转录组基础模型,通过在大规模单细胞数据上预训练,获得对基因调控网络的深度理解,进而通过虚拟扰动(In Silico Perturbation)模块在特定细胞背景下敲除或激活某个基因,并量化其对整体细胞状态的影响。通过优先排序那些能逆转疾病状态至健康状态的基因扰动,研究者可高效筛选候选治疗靶

核心思想:将每个细胞的基因表达谱视为一段"基因语句",通过Transformer的注意力机制学习基因间的调控关系。在虚拟扰动中,通过从基因序列中删除目标基因的token,利用预训练模型的嵌入空间计算扰动前后细胞状态的变化,从而量化基因敲除效应。

关键创新:用海量正常细胞数据预训练,小样本即可精准预测基因调控与疾病机制,大幅降低传统研究对数据量的要求;采用掩码基因预测(Masked Gene Modeling)任务学习基因互作规则;通过嵌入空间中的余弦相似度变化量化扰动效应,而非依赖传统的网络拓扑分析。

适用场景:对已有scRNA-seq数据,在特定细胞背景下虚拟敲除或激活指定的单个基因/多个基因,筛选能逆转疾病状态至健康状态的候选基因。

工作流程:Geneformer从原始单细胞转录组数据开始,经过Rank value encoding编码、Transformer编码器处理、掩码基因预测预训练,获得编码基因调控知识的模型权重。后续可选择零样本推理直接提取基因/细胞嵌入与注意力权重,或针对特定任务进行微调训练,或通过虚拟扰动模拟基因敲除/过表达并预测细胞状态转变。最终基于扰动效应评分对候选靶点进行优先级排序,结合多组学数据与实验验证确认治疗靶点。


训练数据规模

初始版(2023):Genecorpus-30M,约 3000万个人类正常单细胞转录组(多组织、多细胞类型)

扩展版(2024):训练数据提升至 9500万~1亿 单细胞,模型能力更强

数据来源:CELLxGENE等公共数据库,排除肿瘤/突变细胞,专注正常基因调控网络

模型架构:基于 BERT/Transformer 双向注意力机制

主流版本:6层/12层Transformer,参数从10M~300M+不等

输入处理:将每个细胞的高表达基因(通常top 2048)按表达量排序,作为"基因序列"输入模型,类似NLP中的句子

预训练任务:掩码基因预测(Masked Gene Modeling)——随机遮挡部分基因表达,让模型根据上下文预测,从而学到基因互作规则。


PART.03 Geneformer工具输入输出介绍


3.1 输入要求

该工具对输入数据的要求如下:

数据格式:h5ad格式文件(可从Seurat对象转换而来),包含基因表达矩阵和细胞注释信息

基因标识:需要将Gene Symbol转换为Ensembl ID,因为模型使用Ensembl ID作为基因词汇表

数据预处理:分析流程会自动进行tokenization,将每个细胞的基因按表达量排序,转换为模型可识别的token序列(.dataset文件)

细胞注释:需要提供细胞分组信息(如疾病组vs正常组),用于定义状态转换分析的起始状态和目标状态


3.2 输出结果

Geneformer虚拟扰动分析的输出是一张结果表格(ISP.csv),其中包含以下关键列:



列名

含义

解读

Gene

基因token(模型内部的整数ID

模型内部用于计算的标识

Gene_name

基因名称

可读的基因符号名

Ensembl_ID

基因的Ensembl ID

标准化的基因标识符

Shift_to_goal_end

从起始状态向目标终点状态的余弦shift

正值=推向goal(如正常状态),负值=推离goal。数值越大,该基因扰动效应越强

Goal_end_vs_random_pval

Wilcoxon检验P

扰动给定基因与随机基因相比,向目标终点状态偏移的统计显著性

Goal_end_FDR

BH多重检验校正值

控制假阳性率,FDR < 0.05视为显著

N_Detections

成功扰动的细胞数量

数值越大,结果越可靠

Sig

显著性标记

FDR < 0.05时为1,否则为0


3.3 下游可视化和分析


3.3.1 正向扰动&反向扰动基因TOP20

筛选结果表格中的关键信息做柱状图可视化:

图片解释:

• X轴:Shift_to_goal_end值(基因扰动后细胞状态向目标状态的偏移程度)

• Y轴:基因名

• 红色柱:正向基因(Pushes → Goal),敲除后推动细胞向目标状态(如正常)移动

• 蓝色柱:负向基因(Pushes → Away from Goal),敲除后推离目标状态

• 柱子长度:代表Shift值大小,越长表示影响越大

解读要点:

• 快速识别:排名靠前的基因受扰动影响最大

• 治疗靶点:红色组(正向基因)是优先关注的潜在治疗靶点,敲除它们可推动细胞回归正常状态

• 后续验证:建议对Top基因进行实验验证(qPCR、Western Blot等)

• 文献查证:结合已发表文献验证这些调控关系的已知性

判断标准不是"shift大于某个绝对阈值",而是:

• 排名是否靠前

• 统计显著性是否过关(FDR < 0.05)

• 一致性是否好(N_Detections足够大)


3.3.2  GO/KEGG富集分析


 正向扰动的GO BP富集分析结果

图片说明

• 左侧趋势线:各基因模块在不同细胞类型/疾病状态中的平均表达趋势(Z-score标准化),反映该模块的表达模式差异

• 基因名:选取偏移程度较高的基因进行标注,查看在不同基因模块中的分布情况

• 主热图:Z-score标准化的基因表达矩阵,红色=高表达(+2),蓝色=低表达(-2),白色=均值(0)

• 顶部色条:不同细胞类型/疾病状态分类标识

• 右侧数字:各聚类包含的基因数量

• 右侧注释:各聚类的KEGG富集结果,按显著性排序


解读要点

• 核心区域:聚焦红色高表达区域(Z-score > 1),这类基因在特定细胞类型/状态中特异性激活,是定义该类群分子特征的关键

• 聚类功能:每个聚类的GO注释揭示该模块的主导生物学功能,如C1的脂质代谢稳态、C4的免疫调控、C5的器官发育等

• 基因数量:聚类规模反映该功能模块的复杂程度,基因数越多提示该功能涉及的调控网络越复杂

• 细胞类型/状态关联:通过热图列向颜色分布,可识别特定功能模块主导的细胞类型或疾病状态

• 生物学意义:通过对比不同聚类的GO富集结果,可识别驱动细胞类型/状态差异的核心生物学过程,为机制研究提供线索

• 结果验证:建议结合GO通路分析和功能实验验证,确认功能模块的生物学意义

 正向扰动的KEGG富集分析结果

图片说明

• 左侧趋势线:各基因模块在不同细胞类型/疾病状态中的平均表达趋势(Z-score标准化),反映该模块的表达模式差异

• 基因名:选取偏移程度较高的基因进行标注,查看在不同基因模块中的分布情况

• 主热图:Z-score标准化的基因表达矩阵,红色=高表达(+2),蓝色=低表达(-2),白色=均值(0)

• 顶部色条:不同细胞类型/疾病状态分类标识

• 右侧数字:各聚类包含的基因数量

• 右侧注释:各聚类的KEGG富集结果,按显著性排序


解读要点

• 核心区域:聚焦红色高表达区域(Z-score > 1),这类基因在特定细胞类型/状态中特异性激活,是定义该类群分子特征的关键

• 聚类功能:每个聚类的富集注释反映该基因模块的核心生物学功能,如C4的免疫调控、C1的代谢调控、C3/C2的细胞增殖等

• 基因数量:聚类规模反映该功能模块的复杂程度,基因数越多提示该功能涉及的调控网络越复杂

• 细胞类型/状态关联:通过热图列向颜色分布,可识别特定功能模块主导的细胞类型或疾病状态

• 生物学意义:显著富集的条目反映细胞异质性的功能基础,为后续靶点筛选提供方向(如代谢调控模块可作为干预靶点)

• 结果验证:建议结合KEGG通路分析和功能实验验证,确认功能模块的生物学意义


PART.04应用场景与案例

图片4.1 典型应用场景



4.2 实际案例


文献一(癌症 + 免疫微环境)

Lin, Hong et al. "Glioma-intrinsic SLC1A3 hijacks the vascular niche to establish an immunosuppressive microenvironment." Frontiers in Immunology vol. 17 (2026): 1824726. doi:10.3389/fimmu.2026.1824726

实验设计:对胶质瘤进行多组学重分析,结合单细胞转录组数据,系统性地解析肿瘤微环境(TME)中的细胞通讯和免疫抑制机制。

Geneformer的应用方式:利用Geneformer 进行虚拟扰动分析,并将其与 interactome推断相结合,解码肿瘤微环境中的细胞间通讯网络。通过虚拟基因敲除模拟特定基因(如SLC1A3)的功能缺失,观察其对肿瘤微环境中免疫细胞状态和细胞间通讯的影响。

主要结果:

• 多组学分析鉴定了胶质瘤中广泛的分子改变

• SLC1A3在胶质瘤内在表达,通过劫持血管微环境(vascular niche)建立免疫抑制性微环境

• Geneformer的虚拟扰动分析揭示了SLC1A3对TME通讯网络的关键调控作用

• 为胶质瘤免疫治疗提供了新的潜在靶点



文献二(癌症 + 治疗靶点发现)

Xia, P., Shuang, S., Fu, D. et al. Large-scale single-cell analysis and in silico perturbation reveal dynamic evolution of HCC: from initiation to therapeutic targeting. npj Precis. Onc. 10, 100 (2026). https://doi.org/10.1038/s41698-026-01307-2

实验设计:整合了正常肝脏、原发性肿瘤、门静脉癌栓(PVTT)和转移性淋巴结(MLN)的单细胞转录组样本,结合空间转录组数据,系统解析肝细胞癌(HCC)进展中的细胞生态系统。

Geneformer的应用方式: 使用 Geneformer 进行虚拟扰动分析,在三组细胞状态转换中模拟基因敲除:

1. 免疫抑制性巨噬细胞 Macro-SPP1 → 抗肿瘤巨噬细胞 Macro-CXCL9

2. 恶性肝细胞→ 正常肝细胞

3. 促血管生成内皮细胞 Endo-ESM1 → 保护性内皮细胞 Endo-EDNRB

通过交叉对比三组虚拟敲除的结果,筛选出共享的关键依赖基因。

主要结果:

• 鉴定出HSP90B1为三组细胞状态转换中的汇聚性依赖基因(convergent dependency)

• HSP90B1的癌症细胞必需性(DepMap CRISPR数据验证)、HCC中过表达、在耐药肿瘤中富集、与不良生存相关

• 内皮细胞-成纤维细胞通过ECM和血管生成信号在肿瘤进展中加剧互作

• 空间映射揭示了TGFβ富集的基质微环境与恶性表型的空间关联


文献三(肺部疾病 + 癌症靶点)

Jiang, Zhantao et al. "Therapeutic targets in lung diseases identified through single-cell analysis and mendelian randomization." Heart & Lung vol. 74 (2025): 211-223. doi:10.1016/j.hrtlng.2025.07.015