node_modules 与包管理器
身为前端开发的我们应该每天都会接触 node_modules
,但对于 node_modules
的认知是否充分?也许因为包管理器的存在,平时只需要一个 install
命令,可能就不会去过多关注 node_mdouels
本身。
简单而言,node_modules
是为 Node 设计存放依赖的文件夹。一直到今天,node_modules
能满足很多场景的使用,但同时也存在不少缺陷。
从一个常见的版本冲突场景开始切入主题,查看以下依赖关系:
当出现这种情况时,node_modules 下的文件结构是如何组织的?
如果 X
是像 react 这种不支持多版本共存的,可以进行前置的报错、警告以避免多版本同时存在的情况,进而通过项目内指定唯一版本的方式来避免多版本的问题。
但更多地、 X
会是像 lodash 这类支持多版本共存的模块,那此时如何保证应用在运行时、依赖能加载到他们正确版本的子依赖?
NPM 处理多版本依赖的方式
npm 通过 Node 加载模块的路径查找算法和 node_modules 的目录结构来配合解决这个问题。
Node 的模块(非内置模块)加载(require)算法会遵循以下两点:
- 优先从同级的 node_modules 寻找依赖
- 递归向上从父级的 node_modules 中寻找依赖
有如下文件:
// ~/desk/projects/demo/a.js
const _ = require('lodash');
那么应用在运行时,将会按如下顺序去寻找 lodash:
- ~/desk/projects/demo/node_modules/lodash
- ~/desk/projects/node_modules/lodash
- ~/desk/node_modules/lodash
- ~/node_modules/lodash
- /node_modules/lodash
nest mode
利用 require 会先在同级 node_module 里查找依赖的特性,能想到一个很简单的方式,直接在 node_module 维护模块需要的拓扑图即可:
APP - node_modules
├── A
│ └── node_modules
│ └── X@1.0
├── B
│ └── node_modules
│ └── X@2.0
应用在运行时,A
会就近加载 X@1.0
,B
就近加载 X@2.0
,依赖加载的准确性自然地得到了保证。
但如果此时新增一个依赖了 X@2.0
的 C
模块,node_modules 就会变成下面这样:
APP - node_modules
├── A
│ └── node_modules
│ └── X@1.0
├── B
│ └── node_modules
│ └── X@2.0
├── C
│ └── node_modules
│ └── X@2.0
虽然依赖加载的版本正确性能得到保障,但其中显然是存在着问题:
- X@2.0 被重复安装了两次
- X@2.0 会执行两次,X@2.0 的 require 缓存会有两份
flat mode
flat mode
可以认为是基于 nest mode
的一种优化,同时也是当前 npm 采用的方式。该模式同样利用到向上递归查找依赖的特性,不过区别是会将一些公共依赖提升到项目顶层的 node_modules:
# nest mode - npm v2
APP - node_modules
├── A
│ └── node_modules
│ └── X@1.0
└── B
│ └── node_modules
│ └── X@1.0
├── C
│ └── node_modules
│ └── X@2.0
# ││
# ││
# \/
# flat mode - npm v3
APP - node_modules
├── X@1.0
├── A
├── B
└── C
└── node_modules
└── X@2.0
观察两种文件结构,flat
之后 X@1.0
被提升安装到了顶层,A
、B
目录下不会再安装 X@1.0
的依赖,并且:
- A、B 都能就近加载到 X@1.0 - (经历一次向上查找)
- C 就近加载到 X@2.0 - (直接同级加载)
这样一来保证正确性的同时,也一定程度上减少了依赖重复的问题。
但这依旧不能完全解决依赖重复的问题,下面的场景无论把 X@1.0
提升或是将 X@2.0
提升都会导致另一个版本出现重复。
当项目的依赖增多的时候,node_modules 下可以有成千上万个文件,除了 node_modules 的体积会被诟病;因为 Node 寻找依赖的特性,会需要遍历大量的文件才能找到正确版本的依赖,性能也会受到影响;此外,大量的依赖导致包管理器在 install 阶段所经历的 I\O 消耗和时间消耗也成了一个新的问题。
这时候就要上一张黑洞图:
哪有什么岁月静好,不过是有人替你负重前行!
新的问题 - 隐式依赖
flat mode 相比 nest mode 节省了很多的空间,然而也带来了一个隐式依赖的问题。
比如在实际项目中,我们知道 muya
是依赖了 muya-core
的,所以会直接在项目中使用如下的代码:
import { createOSSPostTool } from '@qunhe/muya-core';
我们能直接使用 muya-core
还不用去管理它的版本,表面上看起来很方便,但问题也出在“不用去管理它”。
- 首先,是因为
flat mode
提升了模块@qunhe/muya-core
,因此可以直接在项目中使用 muya-core; - 接着假设 muya 的一次升级弃用了
@qunhe/muya-core
改用了@qunhe/muya-core2
,那么当我们在某次升级 muya 之后,node_modules 之中实际上已经不存在@qunhe/muya-core
,此时我们项目本身就会出现错误了。
所以,推荐的做法是将直接用到的依赖都应该明确在 package.json
中定义,而且这样做了之后,对于编辑器(比如 vscode)的提示也会有优化作用。
Yarn v1 的处理方式
早期的时候,yarn 与 npm 的区别是比较大的,当时的 npm 不够完善,缺少很多特性,yarn 的出现弥补了这些缺失。
而现在可能是因为 yarn 或其他优秀包管理器的刺激,npm 已经不断完善了起来,比如 npm7 也能支持 workspaces,甚至做到了对 yarn.lock 的支持。
yarn 同样使用 flat mode
来组织 node_modules 下的依赖文件,优先提升依赖,只有当子依赖的版本和 root 的冲突的时候,才不进行提升的操作。
yarn 有一种更为激进的模式,即 --flat 模式,该模式下 node_modules 里的各个 package 只允许一个版本的存在,当出现版本冲突的时候,需要选择指定一个版本(即通过指定在 resolution 里,强控版本),但这在大型项目中显然行不通,因为第三方库里存在大量的版本冲突问题(仅 webpack 内就存在 160 + 个版本冲突)。
lock 文件的作用
问题:项目中用到的大部分依赖往往都有子依赖,而项目的 package.json 只能管理项目的直接依赖,并不能保证协作时所有依赖的一致性,如何去做到一致性?
不仅要处理好本地 node_modules 的文件组织,包管理器还得保证持续迭代和协同工作时依赖版本的一致性,于是有了 lock 文件。
yarn 和 npm 在初次安装之后都会生成一个 lock 文件,包含所有依赖的版本信息,这样他人根据 lock 文件就能复现出当前 node_modules 的状态。
不过细节上 yarn.lock 与 package-lock.json 还是有一些区别:
- yarn.lock 只记录了依赖的版本情况
- package-lock.json 记录了依赖的版本情况,还会记录依赖的拓扑结构
yarn.lock
:
# THIS IS AN AUTOGENERATED FILE. DO NOT EDIT THIS FILE DIRECTLY.
# yarn lockfile v1
"@ant-design/colors@^3.1.0":
version "3.2.2"
resolved "https://registry.npm.taobao.org/@ant-design/colors/download/@ant-design/colors-3.2.2.tgz#5ad43d619e911f3488ebac303d606e66a8423903"
integrity sha1-WtQ9YZ6RHzSI66wwPWBuZqhCOQM=
dependencies:
tinycolor2 "^1.4.1"
"@ant-design/create-react-context@^0.2.4":
version "0.2.4"
resolved "https://registry.npm.taobao.org/@ant-design/create-react-context/download/@ant-design/create-react-context-0.2.4.tgz#0fe9adad030350c0c9bb296dd6dcf5a8a36bd425"
integrity sha1-D+mtrQMDUMDJuylt1tz1qKNr1CU=
dependencies:
gud "^1.0.0"
warning "^4.0.3"
"@ant-design/icons-react@~2.0.1":
version "2.0.1"
resolved "https://registry.npm.taobao.org/@ant-design/icons-react/download/@ant-design/icons-react-2.0.1.tgz#17a2513571ab317aca2927e58cea25dd31e536fb"
integrity sha1-F6JRNXGrMXrKKSfljOol3THlNvs=
dependencies:
"@ant-design/colors" "^3.1.0"
babel-runtime "^6.26.0"
package-lock.json
:
{
"name": "design-zone",
"version": "1.0.0",
"lockfileVersion": 1,
"requires": true,
"dependencies": {
"@ant-design/colors": {
"version": "3.2.2",
"resolved": "https://registry.npm.taobao.org/@ant-design/colors/download/@ant-design/colors-3.2.2.tgz",
"integrity": "sha1-WtQ9YZ6RHzSI66wwPWBuZqhCOQM=",
"requires": {
"tinycolor2": "^1.4.1"
}
},
"@ant-design/create-react-context": {
"version": "0.2.5",
"resolved": "https://registry.npm.taobao.org/@ant-design/create-react-context/download/@ant-design/create-react-context-0.2.5.tgz",
"integrity": "sha1-9fWpFjtHcgl3EoNzl60w4i55+Fg=",
"requires": {
"gud": "^1.0.0",
"warning": "^4.0.3"
}
}
}
}
此外,在使用 yarn 的过程中发现会不经意间引入版本重复的问题,随手打开了一个项目的 lock 文件发现了下面这种看起来有点不合“逻辑”的描述片段:
"lodash@>=3.5 <5", lodash@^4.0.0, lodash@^4.0.1, lodash@^4.16.5, lodash@^4.17.10, lodash@^4.17.11, lodash@^4.17.13, lodash@^4.17.14, lodash@^4.17.15, lodash@^4.17.4, lodash@^4.17.5, lodash@^4.2.0, lodash@^4.3.0, lodash@~4.17.10, lodash@~4.17.4:
version "4.17.15"
resolved "https://registry.npm.taobao.org/lodash/download/lodash-4.17.15.tgz#b447f6670a0455bbfeedd11392eff330ea097548"
integrity sha1-tEf2ZwoEVbv+7dETku/zMOoJdUg=
lodash@^4.17.19:
version "4.17.19"
resolved "https://registry.npm.taobao.org/lodash/download/lodash-4.17.19.tgz#e48ddedbe30b3321783c5b4301fbd353bc1e4a4b"
integrity sha1-5I3e2+MLMyF4PFtDAfvTU7weSks=
观察 lodash 的版本描述,应该都是符合语义化版本规范的,为何在项目中还会存在两个不同的版本?
实际上这种情况一般是随着项目的迭代、依赖的增加而不经意间引入的,比如下面的场景:
- 项目初始化的时候,各种兼容的版本号(lodash@>=3.5 <5", lodash@^4.0.0, lodash@^4.0.1...)指向了目前最新的 lodash@4.17.15,安装完毕后锁定了 lodash@1.17.15
- 一段迭代之后,引入了新模块 X,X 依赖了 lodash@^4.17.19,此时指向了最新的 lodash@4.17.19,X 的安装导致了新的 lodash@4.17.19 的引入,从而导致了重复
此时将 lock 文件中 lodash 相关的两段描述删除、再重新执行安装即可,此时 lodash 版本为 4.17.20,同时去除了重复:
"lodash@>=3.5 <5", lodash@^4.0.0, lodash@^4.0.1, lodash@^4.16.5, lodash@^4.17.10, lodash@^4.17.11, lodash@^4.17.13, lodash@^4.17.14, lodash@^4.17.15, lodash@^4.17.19, lodash@^4.17.4, lodash@^4.17.5, lodash@^4.2.0, lodash@^4.3.0, lodash@~4.17.10, lodash@~4.17.4:
version "4.17.20"
resolved "https://registry.npm.taobao.org/lodash/download/lodash-4.17.20.tgz#b44a9b6297bcb698f1c51a3545a2b3b368d59c52"
integrity sha1-tEqbYpe8tpjxxRo1RaKzs2jVnFI=
当然,更推荐借助 yarn-deduplicate
工具来自动进行去重操作,例 npx yarn-deduplicate yarn.lock
。
monorepo 模式与隐式依赖
monorepo 模式目前也用得越来越多,我个人也很喜欢这种模式,而且我还喜欢将各个子包的依赖描述都定义在根 package.json 中,因为这样在各个 package 中可以自由、方便地使用依赖,但这实际上是一个误区行为。
在 monorepo 模式中,无论是 lerna 还是 yarn 工作机制的核心都是:
- 将所有 package 的依赖都尽量以 flat 模式安装到根级别的 node_modules 里,即 hoist,以避免各个 package 重复安装第三方依赖;将有冲突的依赖,安装在各自 package 的 node_modules 里,以解决依赖的版本冲突问题。
- 将各个 package 都软链到根级别的 node_modules 里,这样各个 package 利用 Node 的递归查找机制,可以导入其他 package,不需要自己进行手动的 link。
- 将各个 package 里 node_modules 的 bin 软链到 root level 的 node_modules 里,保证每个 package 的 npm script 能正常运行。
但是
- packageA 可以轻松的导入 packageB,即使没有在 packageA 里声明 packageB 为其依赖,甚者 packageA 可以轻松地导入 packageB 的第三方依赖,类似上述的误区行为。
因为这样一来,实际上将是隐式依赖的问题加剧放大了,所以使用的时候还是需要稍加注意。
下一代 yarn 已经到来
初衷是想重点介绍本节的内容,但在准备过程中发现《node_modules 困境》 一文对 node_modules 相关的描写挺全面的,遂进行了一些二次整理和结合,同时压缩了这一节。
代号:berry
Berry
是 Yarn 2 的代号,同时也是Yarn 2 仓库的名称。
yarn 2 有一个理念,表示 yarn 虽作为一个包管理器,但 yarn 本身也是项目的依赖之一,yarn 认为 yarn 作为项目的第一个依赖,也应该被锁定。因此,yarn 2 及更高版本通过项目内安装的形式达到按项目进行管理的目的。
只需在已经使用 yarn 1 的项目内,进行本地升级,即可将某个项目的 yarn 升级至新版:
$ yarn set version berry
接下来就可以开始体验 yarn 的新特性了。
Plug'n'Play 解决了什么?
当然,提到 yarn 2,我觉得 pnp 才应该是首要关注的一大特性,这是 yarn 对 node_modules 做出的一次重大变革。
实际上 pnp 的功能早在 18 年 9 月份就被提出并实现了,但在 yarn 2 中算是正式出道吧,因为 yarn 2 默认使用 pnp 模式。
根据前文可以发现,Node 寻找模块实际上效率不高,而大量的依赖导致包管理器在安装依赖的时候也会有大量工作,对于 yarn 在 install 大体会经历四个阶段:
- 将依赖包的版本区间解析为某个具体的版本号
- 下载对应版本依赖的 tar 包到本地离线镜像
- 将依赖从离线镜像解压到本地缓存
- 将依赖从缓存拷贝到当前目录的 node_modules 目录
其中第 4 步涉及大量的文件 I/O,导致安装依赖时效率不高(尤其是在 CI 环境,每次都是重新安装全部依赖)。
pnp 就是为了解决这些问而出现的新特性:既然 Node 查找的方式低效,为什么不直接告诉 Node 文件在哪里呢?Node 所要做的仅仅只是从一个地方加载文件;同时 Node 不需要再自行寻找 node_modules 了,那么也无需为了模拟拓扑结构而重复拷贝依赖了。
在开启 pnp 的情况下,在安装之后 yarn 会生成一个 .pnp.js
文件,而 node_modules 不会再有了,取而代之的是一个 .yarn/cache
目录,作为依赖的存放位置。
.pnp.js
包含了两个映射表,可概括成以下信息:
- 当前项目依赖树中包含了哪些依赖包的哪些版本
- 这些依赖包是如何互相关联的
- 这些依赖包在文件系统中的具体位置
.pnp.js
还包含一个 resolver
来告诉 Node 如何加载依赖。总之,使用了 pnp 可以预计是可以获得这些收益的:
- 取代 node_modules:
- 所有依赖都平铺在
cache
目录下,解决了重复依赖重复安装的问题 - 所有依赖都以压缩包(zip)的形式存放,大大减少了文件数量和体积
- 无需在文件系统上处理拓扑结构,只需生成一个
.pnp.js
文件,也减少了时间消耗 - 提高模块 Node 加载模块的效率,yarn 直接定位模块、告知 Node 模块的文件路径
- 若还开启了全局缓存,可以实现本机所有项目的模块统一一份缓存,项目中甚至也不会再有
.yarn/cache
(终于能做的像 gradle 或是 rust 的依赖管理了)
开启 pnp 后的安装结果:
.
├── .pnp.js
├── .yarn
│ ├── cache
│ │ ├── @ant-design-colors-npm-3.2.2-71aac486be-b42a2e5422.zip
│ │ ├── @ant-design-create-react-context-npm-0.2.5-7998e8d912-d86c381caf.zip
│ │ ├── @ant-design-css-animation-npm-1.7.3-f3d18e5bbb-2d0e5c0a61.zip
│ │ ├── @ant-design-icons-npm-2.1.1-c472b7964a-8e3682f594.zip
│ │ ├── @ant-design-icons-react-npm-2.0.1-d1619b6de4-12eedf6ecd.zip
│ │ ├── @babel-code-frame-npm-7.0.0-beta.44-de6de9a17f-58b214c926.zip
│ │ ├── @babel-code-frame-npm-7.12.11-b0730d1d28-033d3fb3bf.zip
│ │ ├── @babel-compat-data-npm-7.12.7-79f7d2298d-96e60c267b.zip
│ │ ├── @babel-core-npm-7.12.10-6f71cf4941-4d7b892764.zip
│ │ ├── @babel-generator-npm-7.0.0-beta.44-2d4de4045e-9c2e655e61.zip
│ │ ├── @babel-generator-npm-7.12.11-d1390772ed-eb76477ff8.zip
│ │ ├── @babel-helper-annotate-as-pure-npm-7.12.10-c32669dae2-d237f38b6a.zip
│
├── .yarnrc.yml
├── package.json
└── yarn.lock
最直观上的感受就是体积和文件数量上的变化(感觉终于不会再是黑洞了):
另一点因为 yarn 2 使用 zip 的形式保存依赖,依赖体积上有了很大的改善,使用版本管理工具直接管理依赖成为了一种现实易行的方式,berry cache 就是采用这种形式。
这样一来能带来新的改善:
- 更好的开发体验
- 每次使用 git pull, git checkout 等命令更新完代码之后无需再使用 yarn install 进行依赖的安装,同时能避免因为更新代码却忘了安装而导致的错误
- 更快、更简单、更稳定的 CI 部署
- CI 配置无需再关注依赖安装部分的配置
- 由于每次部署代码的时候,yarn install 占用的时间都是一个大头,去掉这个步骤后部署速度将会有一定提升
不过,pnp 不是能直接使用的,需要各种工具进行支持,好消息是目前为止,社区的大部分工具都能直接支持 pnp 了,可以在官方文档看到现在的支持情况。
yarn 2 还有不少新特性和改善,如配置文件和 lock 文件使用标准 yml 格式,自带对 lock 文件中的依赖去重、支持 yarn 插件、更好的 workspaces 支持、新的模块协议等等,但本篇到此结束、不过多扩展了。
参考资料: