Swarm 作为以太坊 Web 3.0 堆栈中的分布式存储和通信服务,旨在提供一个去中心化的、抗审查的、自我维持的存储和通信基础设施,虽然 Swarm 现已独立发展,但其客户端源码依然是 Go 语言在分布式系统领域的一个极佳学习案例。
本文将基于 Swarm 的 Go 语言客户端(主要是 ethersphere/bee 仓库),深入剖析其源码结构、核心模块以及数据流转逻辑,帮助开发者理解去中心化存储引擎的底层实现。
源码结构概览
Swarm 客户端(代号 Bee)的源码结构非常清晰,遵循了 Go 语言的标准工程实践,在根目录下,最核心的逻辑通常分布在以下几个目录中:
-
/pkg: 这是客户端的心脏,包含了所有的核心逻辑,不依赖外部主程序(如main.go)。/pkg/api: HTTP 和 WebSocket API 的实现,负责处理外部请求(如上传文件、检索文件)。/pkg/storage: 本地存储引擎的实现,负责数据在磁盘上的持久化(包括 Chunk 的索引和存储)。/pkg/p2p: 基于libp2p的网络层实现,负责节点发现、流复用和加密通信。/pkg/pusher/puller: 负责内容同步的协议实现,确保数据在网络中冗余备份。/pkg/swarm: 定义了核心的数据结构,如地址、Chunk(数据块)等。
-
/cmd: 包含编译后的可执行文件入口,最常用的就是/cmd/bee。
核心数据结构与对象
在阅读源码时,首先需要理解几个贯穿全局的关键数据结构。
Chunk (数据块)
Swarm 不会直接存储大文件,而是将其切分为固定大小的 Chunk(通常为 4KB),在源码中,Chunk 是最基础的存储单元。
// 伪代码示例,展示核心概念
type Chunk interface {
Address() Address // 数据的 Swarming 地址(通常是哈希值)
Data() []byte // 实际的二进制数据
PinCounter() uint64 // 钉住计数,防止垃圾回收
}
Swarm Address (地址系统)
Swarm 使用一种基于内容的寻址方式,源码中大量使用了 bmt (Binary Merkle Tree) 哈希算法来计算 Chunk 的地址,这意味着地址不仅是数据的索引,也是数据的完整性证明。
关键模块源码深度解析
API 层:数据的入口 (/pkg/api)
当你向 Swarm 节点上传一个文件时,请求首先进入 API 层。
- 路由注册:源码中使用了
go-chi等路由库来处理 RESTful 请求。 - 切分逻辑:API 接收到文件流后,会调用
splitter将文件切割成 Chunk。 - Pipeline (管道):这是 Bee 源码中非常精妙的设计,切分后的 Chunk 不会直接存盘,而是进入一个处理管道,管道中可以串联多个“处理器”,
- Store: 存储到本地数据库。
- Forward: 转发给网络中的其他节点。
- Encrypt: 进行加密(如果是加密上传)。
网络层:Kademlia 与转发 (/pkg/p2p & /pkg/kademlia)
Swarm 使用 Kademlia DHT 协议的变体来进行节点寻址。
- 节点发现:源码中的
kademlia包负责维护“邻居表”,它会根据距离(异或距离)将网络中的其他节点分类。 - 流协议:基于
libp2p,Swarm 定义了自己的协议字符串(如/swarm/feed/1.0.0),源码中通过StreamHandler处理入站连接,通过NewStream发起出站请求。 - 转发机制:如果节点 A 请求的数据不在本地,它会根据 Kad 算法找到距离该数据最近的节点 B,并转发请求,这种递归查找逻辑在
p2p层的








