Git 大文件存储 (LFS)：高效管理大型二进制文件

Git 最初设计用于管理源代码等文本文件，对于大型二进制文件（如图像、视频、数据集或编译后的二进制文件）的处理效率较低。当仓库中包含大量大型二进制文件时，会导致以下问题：

仓库体积急剧膨胀
克隆和拉取操作变得缓慢
分支和合并操作性能下降

Git Large File Storage (LFS) 是一个 Git 扩展，专门解决这些问题，使 Git 能够高效地处理大型文件。

Git LFS 的工作原理

Git LFS 通过以下方式改变 Git 处理大文件的方式：

指针文件替换：在 Git 仓库中，大文件被替换为小型指针文件，指向实际内容
单独存储：实际的文件内容存储在 LFS 服务器上
按需下载：只有在需要时才下载文件内容，而不是在克隆时下载所有历史版本
增量传输：只传输文件的变化部分，而不是整个文件

Git LFS 架构：将大文件存储在单独的 LFS 服务器上，仓库中只保留指针

安装 Git LFS

在使用 Git LFS 前，需要先安装它：

Windows

# 使用 Chocolatey
choco install git-lfs

# 或下载安装程序
# https://github.com/git-lfs/git-lfs/releases

macOS

# 使用 Homebrew
brew install git-lfs

Linux

# Debian/Ubuntu
sudo apt-get install git-lfs

# Fedora
sudo dnf install git-lfs

# RHEL/CentOS
sudo yum install git-lfs

安装后，需要在全局设置中启用 Git LFS：

git lfs install

配置 Git LFS

1. 在仓库中初始化 LFS

在每个需要使用 LFS 的仓库中，需要初始化 LFS：

cd your-repository
git lfs install

2. 指定要跟踪的文件类型

使用 git lfs track 命令指定哪些文件应该由 LFS 管理：

# 跟踪所有 PSD 文件
git lfs track "*.psd"

# 跟踪所有 PDF 文件
git lfs track "*.pdf"

# 跟踪特定目录中的大文件
git lfs track "assets/videos/**/*"

# 跟踪超过特定大小的文件（需要额外配置）

这些跟踪配置会保存在 .gitattributes 文件中，应该将此文件提交到仓库：

git add .gitattributes
git commit -m "Configure Git LFS tracking"

.gitattributes 文件内容示例：

*.psd filter=lfs diff=lfs merge=lfs -text
*.pdf filter=lfs diff=lfs merge=lfs -text
assets/videos/**/* filter=lfs diff=lfs merge=lfs -text

使用 Git LFS

一旦配置完成，Git LFS 的使用对开发者来说几乎是透明的。

添加和提交大文件

# 添加大文件（与普通 Git 操作相同）
git add design.psd
git commit -m "Add design file"
git push origin main

Git LFS 会自动：

将大文件内容上传到 LFS 存储
在 Git 仓库中存储指针文件
将指针文件提交到 Git 历史

克隆包含 LFS 文件的仓库

git clone https://github.com/example/repo.git

默认情况下，Git LFS 会：

下载最新版本的 LFS 文件
不下载历史版本的 LFS 文件（节省带宽和空间）

拉取 LFS 文件

git pull

这会更新 LFS 指针文件，并下载当前检出版本所需的 LFS 文件内容。

查看 LFS 状态

# 列出当前跟踪的 LFS 文件模式
git lfs track

# 列出当前 LFS 管理的文件
git lfs ls-files

获取特定 LFS 文件

如果你需要获取特定的 LFS 文件（例如，历史版本）：

# 获取所有 LFS 文件
git lfs fetch --all

# 获取特定分支的 LFS 文件
git lfs fetch --recent origin main

# 检出特定文件的历史版本
git checkout HEAD~10 -- path/to/large-file.psd

高级 LFS 功能

文件锁定

在多人协作编辑二进制文件时，合并冲突可能难以解决。Git LFS 提供文件锁定功能，防止多人同时编辑同一文件：

# 锁定文件
git lfs lock assets/design.psd

# 查看当前锁定的文件
git lfs locks

# 解锁文件
git lfs unlock assets/design.psd

# 强制解锁（管理员使用）
git lfs unlock --force assets/design.psd

迁移现有仓库到 LFS

如果你有一个包含大文件的现有仓库，可以使用 git lfs migrate 命令将其转换为使用 LFS：

# 分析仓库中的大文件
git lfs migrate info --everything --above=10MB

# 将所有超过 10MB 的 PSD 文件转换为 LFS
git lfs migrate import --include="*.psd" --above=10MB --everything

注意：迁移会重写历史，需要所有协作者重新克隆仓库。

自定义 LFS 端点

如果你使用自托管的 Git 服务器或自定义 LFS 服务器：

# 为特定仓库设置 LFS 端点
git config lfs.url "https://lfs-server.example.com/project/lfs"

# 为特定远程设置 LFS 端点
git config lfs.https://github.com/example/repo.git/info/lfs.url "https://lfs-server.example.com/project/lfs"

LFS 存储管理

清理本地 LFS 缓存

LFS 文件会缓存在本地，随着时间推移可能占用大量空间：

# 清理未使用的 LFS 文件
git lfs prune

服务器端存储考虑

使用 Git LFS 需要考虑服务器端存储：

GitHub：提供有限的免费 LFS 存储和带宽，超出限制需付费
GitLab：自托管版本可配置 LFS 存储位置和限制
自托管服务器：需要配置 LFS 服务器和存储后端

最佳实践

何时使用 Git LFS

适合使用 LFS 的文件：
- 大型二进制资源（图像、视频、音频）
- 数据集和模型文件
- 编译后的二进制文件
- 不需要合并的文档（PDF、PSD）
不适合使用 LFS 的文件：
- 源代码和文本文件
- 配置文件
- 小型二进制文件（小于 1MB）

LFS 使用策略

明确跟踪规则：只将真正需要的大文件类型添加到 LFS 跟踪
提前配置：在添加大文件前配置 LFS，避免后期迁移
团队培训：确保所有团队成员了解 LFS 的使用方法
监控存储使用：定期检查 LFS 存储使用情况，避免超出限制
考虑替代方案：对于极大的文件（GB 级别），考虑使用专门的资源管理系统

常见问题解决

“Smudge error”：通常是因为 LFS 服务器连接问题
```
git lfs fetch --all
git checkout -- path/to/file
```
推送失败：可能是 LFS 存储限制或权限问题
```
# 检查 LFS 端点配置
git lfs env
```

文件意外提交到 Git 而非 LFS：

# 将文件转移到 LFS
git rm --cached path/to/large-file
git lfs track "path/to/large-file"
git add path/to/large-file
git commit -m "Move file to LFS"

Git LFS 的替代方案

如果 Git LFS 不适合你的需求，可以考虑以下替代方案：

Git Annex：更灵活的大文件管理解决方案，支持多种后端存储
Git Submodules：将大文件放在单独的仓库中
外部资源管理：使用专门的资源管理系统，如 Artifactory、Amazon S3 等
Git 稀疏检出：只检出仓库的部分内容（不解决历史膨胀问题）

Git LFS 为在 Git 中管理大型二进制文件提供了一个优雅的解决方案，使团队能够在保持 Git 工作流的同时，高效地处理各种资源文件。通过正确配置和使用 Git LFS，你可以显著减小仓库大小，提高克隆和拉取操作的速度，同时保持对大文件版本历史的完整跟踪。

​Git 大文件存储 (LFS)：高效管理大型二进制文件

​Git LFS 的工作原理

​安装 Git LFS

​Windows

​macOS

​Linux

​配置 Git LFS

​1. 在仓库中初始化 LFS

​2. 指定要跟踪的文件类型

​使用 Git LFS

​添加和提交大文件

​克隆包含 LFS 文件的仓库

​拉取 LFS 文件

​查看 LFS 状态

​获取特定 LFS 文件

​高级 LFS 功能

​文件锁定

​迁移现有仓库到 LFS

​自定义 LFS 端点

​LFS 存储管理

​清理本地 LFS 缓存

​服务器端存储考虑

​最佳实践

​何时使用 Git LFS

​LFS 使用策略

​常见问题解决

​Git LFS 的替代方案