追问|中国科学家开发的工具实现对数百万个细胞“入户调查”
· 长期看,“原创工程化平台+开放协作”将是中国走向重大通用技术诞生的必由之路。
每个细胞就像一座微型城市,有自己的“城市政策”(基因)、“工厂”(蛋白合成)和“地理规划”(组织结构)。要想真正理解一块组织、一种疾病,甚至一个生命的成长过程,我们不仅要知道这些城市里发生了什么,还要知道它们是如何排列、交流、协作的。

李晶昀 AI图
在对生命进行“城市调查”的过程中,科学家们也经历了从“航拍”到“入户普查”的跨越,能够通过基因测序等技术获得更多、更细致的信息。然而,主流的单细胞测序技术还存在着通量、成本、细胞大小限制和捕获偏好性等挑战。
8月22日,《科学》杂志发表了由华大生命科学研究院牵头建设的基因组多维解析技术全国重点实验室等机构合作完成的最新研究,介绍了一种全新的单细胞多组学技术 Stereo-cell,它可在一次实验中无偏、高通量地捕获从百到百万级的细胞,既能分析转录组(RNA),又能结合蛋白、细胞形态和位置等多模态信息,甚至适用于超大细胞和特殊形态的微结构。这一平台的核心是中国自主研发的“DNA纳米球(DNB)阵列芯片”,有望为生命科学研究、疾病诊断和药物开发提供新的基础工具。
科学家究竟是如何同时对数百万个细胞进行“入户调查”的?中国自主研发的“DNB”纳米球是如何工作的?如何看待中国基础科研工具的发展?为了回答这些问题,澎湃科技采访了论文共同第一作者、华大生命科学研究院副研究员刘畅。
【对话】
澎湃科技:能否为我们形象解释一下什么是单细胞测序技术?主流的技术路径都有哪些?它们主要解决了哪些问题,又存在哪些限制?
刘畅(论文共同第一作者、华大生命科学研究院副研究员): 我们可以做一个简单的类比来解释:一个组织或器官就像一篮子混合了多种水果,比如苹果、香蕉和橙子。过去的常规测序技术(bulk-seq)好比是把这一篮子水果全部丢进榨汁机,打成一杯混合果汁。我们能品尝到这杯果汁的整体风味,检测出它的平均甜度,但无法知道其中具体有哪几种水果,更不知道苹果和橙子各自的味道。
而单细胞测序技术,则是让我们有能力去单独品尝每一种水果的口味和甜度,并且能清晰地知道这篮水果里包含了哪几类,每一类的数量是多少。对应到生物学上,常规测序只能检测一个组织样本中所有基因的平均表达水平,而单细胞测序则能检测到每一个细胞的基因表达情况,从而精确解读组织内不同细胞的异质性。正因如此,这项技术对理解发育、疾病和免疫等过程至关重要,也是“人类细胞图谱计划”的核心支撑技术。
得到分散的单细胞后,关键一步就是为每个细胞内的遗传物质(如RNA)做好标记和准备,使其能被测序仪读取,这个过程我们称之为“文库构建”。围绕这一步,科学家们开发了多种方法,主要分为四个技术方向:
第一种是基于单管的方法,也是最早的技术。顾名思义,就是把单个细胞小心翼翼地放进独立的离心管里进行操作。它能获得非常完整的基因信息,但通量极低,操作繁琐,成本高昂。
第二种是基于多孔板的技术,通过自动化设备将细胞分选到微小的孔板中。这比单管法有进步,但本质上还是“一个萝卜一个坑”,实验通量和工作量的改善有限。
第三种是革命性的基于微流控的技术,这也是目前最主流的方法之一。它利用精密的微管道,将单个细胞和带有独特分子标签的微珠包裹在一个个微小的油滴里。这样,同一个细胞的遗传物质就会被标记上相同的“身份证”,后续我们就可以把所有细胞的物质混合处理,大大简化了流程,将通量提升到万级细胞。但这类方法有时会“挑食”,对特别大或形态不规则的细胞不太友好。
第四种是基于联合标签的技术,为了追求更高的通量。它通过多轮的混合、标记、再分组,像编密码一样为每个细胞核生成一个极其复杂的组合标签,理论上可以达到百万甚至更高的通量。但它的操作流程非常繁琐,且容易在过程中丢失细胞,限制了其广泛应用。
澎湃科技:从华大之前研发的Stereo-seq到现在的Stereo-cell,其核心部件DNB阵列芯片让人感觉非常神奇。能否给我们讲讲这个想法是怎么形成的?这些组件具体是如何工作的?
刘畅:这个想法的核心灵感来源于华大自主研发的高通量测序平台,其关键就是“DNA纳米球(DNB)测序”技术。在测序时,我们会将待测的DNA片段通过一种叫做“滚环扩增”的技术,在芯片表面复制成数亿个致密的、大小仅为纳米级的DNA小球(DNB),然后再原位读取它们的序列。
那进一步地技术研发过程中,我们就想能不能用这些神奇的DNA纳米球做一些其他技术方向的拓展。比如设计这个小球能够带上一些独特的信息,能够帮助定位其在芯片上的位置。简单类比一下,假如你想给你家里的每一本书(细胞)都贴上一个独一无二的地址标签,但普通的纸质标签太小、信息量太少。DNA是一种天然的能够携带大量信息的材料,于是我们用DNA设计了一个包含书架号、层号、位置号的数字编码,然后用一台特殊的“复印机”,把这个编码复制粘贴了上千次,形成一条极长的DNA细线。跟细胞核里的DNA类似,这条线会自动蜷缩成一个纳米小球,这个小球就成了你这本书的专属“地址球”。对它们进行测序就可以获得位置信息。
既然可以在芯片上原位读取序列,那是否也能在芯片上原位“捕获”序列呢?于是,Stereo-seq(空间组学技术)诞生了。我们改造了芯片,让平整的硅基芯片上阵列化地排布着DNB,每个DNB上都附着着大量带有“地址编码(空间坐标条码CID)”和“分子条码(UMI)”的探针。当我们把组织切片铺在芯片上时,组织细胞释放的RNA就会被这些探针原位捕获,因为每个探针都自带地址,我们就实现了在保留空间位置信息的前提下进行测序。
Stereo-cell则是这个思路的自然延伸和创新。既然芯片能捕获组织切片的RNA,那能不能直接用来捕获悬浮的单个细胞呢?答案是肯定的。我们无需复杂的微流控设备或油滴,只需将单细胞悬液滴在平整的芯片上,细胞会依靠静电吸附均匀地“坐”在芯片表面。随后,细胞内的转录本被原位释放,并被下方的DNB探针捕获、建库和测序。
因为细胞是铺在平面上的,我们可以先用显微镜给它们拍一张“集体照”。通过这张照片,结合后续的测序数据,算法可以精确地定位每个细胞、分割出它的边界,并把那些靠得太近或者重叠的“双细胞”剔除掉。我们还可以结合免疫荧光染色,在测序前就看到某些关键蛋白在细胞上的分布。最终,我们能在一张芯片上,同步获得从几百到上百万个细胞的转录组信息、蛋白表位信息和细胞形态位置信息,实现真正意义上的高通量、多模态单细胞分析。
澎湃科技:Stereo-cell有哪些优势?
刘畅:它的优势非常突出,首先是超宽通量范围,一次实验可以处理从几百个珍稀细胞到上百万个细胞的样本,灵活度极高。
其次是无偏好性捕获。因为它没有物理筛选的管道,所以对细胞大小和形态不“挑食”。我们在论文中展示了它能成功捕获含有多个细胞核的巨大骨骼肌纤维,以及直径上百微米的卵母细胞,这是传统方法难以做到的。
另外,它天然兼容成像技术,可以轻松整合免疫荧光(看蛋白)和抗体条码(CITE-seq),在一次实验中获得基因、蛋白、形态三个维度的数据。
最后,我们可以直接在DNB芯片上培养细胞,进行药物处理或诱导分化,实现对细胞动态变化过程的“快照”式测序。
澎湃科技:它能取代液滴等传统单细胞测序的方法吗?
刘畅:我们认为Stereo-cell与液滴等传统方法是互补关系,而非完全取代。液滴法在常规的高通量转录组分析上已经非常成熟和普及。而Stereo-cell则在多模态分析、空间定位、超大细胞/微结构研究、液基样本(如血液、体液)检测以及动态过程研究上,展现了独特的、不可替代的优势。科学家可以根据自己的研究问题,选择最合适的工具。
澎湃科技:任何技术都不是完美的,论文中也提到了RNA侧向扩散等潜在问题。这些问题对数据准确性的影响有多大?在您看来该技术还有哪些提升空间?
刘畅:我们系统地评估了RNA侧向扩散的问题。简单来说,就是细胞内的RNA分子在被芯片探针捕获时,可能会向周围“漂移”一小段距离。我们的数据显示,这个距离是存在的,大约在5微米。
但这是否会影响数据的准确性呢?我们通过人-鼠细胞混合实验发现,在控制得当的细胞铺板密度下,细胞间的平均距离远大于这个扩散距离。最终,一个细胞错误地捕获到旁边细胞(来自另一物种)的RNA比例,峰值仅为2.7%左右。再加上我们利用成像技术可以识别并剔除那些靠得太近的细胞,所以这种扩散对单个细胞内基因准确定量的影响,被控制在了一个非常低且可接受的水平。
至于提升空间,我们认为主要有几方面,首先是流程优化与成本。目前大尺寸芯片的制造和数据分析流程还比较复杂,未来需要持续优化,推进自动化,让它变得更成本友好、更易于普及。
另外,极低细胞输入会影响性能。在处理非常稀少的细胞样本时(比如一张芯片只放200个细胞),文库的复杂度会下降,影响数据质量。未来可以通过优化测序深度、改进生化反应体系等策略来改善。
目前我们主要实现了转录组和部分蛋白的检测,未来希望能够整合更多的组学信息,并在更大尺寸的芯片上实现一体化、自动化的成像方案。
澎湃科技:假如现在资源和样本都不是问题,您最想用Stereo-cell去研究什么?期望解开什么谜题?
刘畅:三类方向最令我们兴奋。首先是生命发育与生殖,可以研究人/模式生物卵母细胞—早期胚胎的时空调控网络;
其次是肿瘤与免疫,如循环肿瘤细胞/免疫细胞在治疗前后的稀有亚群动态;
最后是组织修复与纤维化,如肌纤维/微血管/间充质等微结构的多尺度重建与药物扰动图谱。
这三者都需要高通量+多模态+空间/时间分辨的综合能力,Stereo-cell天然契合。
澎湃科技:很多底层的科学研究工具仍然被国外垄断。您如何看待目前国内对于研究工具的创新趋势?有哪些长处和短板?中国会诞生像基因编辑、冷冻电镜等重要发明吗?
刘畅:趋势上,从跟跑到并跑乃至部分领跑已可见端倪,包括高密度DNB芯片/设备链条、空间-单细胞一体化平台等均已取得实质性进展。
短板在于生态与标准、从原型到量产、从实验室到产业级稳定性、从点技术到体系化配套(试剂、软件、质控、培训),仍需时间与耐心。长期看,“原创工程化平台+开放协作”将是中国走向重大通用技术诞生的必由之路。
澎湃科技:如今,生物学研究越来越依赖于这样复杂而精密的工程技术。对于那些对生命科学充满热情,但可能对编程、工程感到些许畏惧的年轻学生,您有什么建议?
刘畅:我的建议是,首先从问题出发,而非技术。永远让你想解答的那个生物学问题来驱动你选择和学习工具,而不是为了用一个炫酷的技术而去找问题。
其次,学会“看懂”数据,而非必须“创造”算法。对于大多数生物学家来说,掌握基础的统计学知识和数据可视化能力,能够熟练使用标准化的分析流程就足够了。把更专业的算法开发交给专业的合作伙伴。
拥抱合作。现代科学,尤其是前沿领域,一定是团队协作的成果。主动和工程师、数据科学家交朋友,学会清晰地描述你的问题和需求,把复杂的大问题拆解成可以合作解决的小模块。
最后,坚持科学研究的基本准则:可复现、可共享。养成良好的实验记录、版本管理和数据伦理习惯,这是成为一名优秀科学家的基础。
总而言之,科学从来都是团队运动。对新技术保持好奇心和学习的耐心,同时专注于自己热爱的生物学问题,你一定能走得更远。