
课程介绍
你将学到
- 掌握AI场景存储架构设计
- 掌握分布式存储故障处理技术
- 掌握AI+存储深度对接方案
- 掌握企业级监控系统搭建
- 掌握 Ceph 企业级部署技巧
- 积累 AI+存储项目开发经验
课程简介
AI 算力狂飙,存储成为新战场。大模型训练需求年增10倍,80%企业面临存储架构与AI脱节瓶颈——数据加载慢、扩容难等问题。市场急需”懂AI的存储工程师”,岗位薪资涨幅达25%+,具备 AI 场景经验者年薪超50万。本课程聚焦 Ceph 技术与 AI 大模型训练场景融合,结合 JuiceFS 加速、DeepSeek 实战,PB级存储架构设计、高并发优化、生产级故障恢复技能,助你快速成为”存储+AI”复合型工程师,抢占AI时代高薪赛道。
试看链接 https://pan.baidu.com/s/1Hec4Mx89pO6FARbk_oHB_w?pwd=3x5g
相关推荐
程序员AI量化理财体系课
扣子AI智能体工作流(完结)
AI大模型微调企业项目实战课(完结)
课程目录
第1章 AI+Ceph分布式存储工程实战–课程导学
1-1 AI+Ceph 分布式存储工程实战–课程导学
第2章 AI时代的数据基石
2-1 AI发展的核心要素:数据、算力与算法的协同演进
2-2 分布式存储:大模型时代的必备基础设施
2-3 六大优势解读:为何分布式存储是AI人才必争之地
2-4 技术红利前瞻:早期布局存储技术的个人与企业机遇
2-5 技术全景扫描:AI分布式存储体系全解析
2-6 从本地到云:存储演进与分布式存储的本质
2-7 存储类型解析:分布式存储的多元应用场景
2-8 未来趋势:AI与存储的深度融合与协同进化
2-9 主流大模型盘点:国内外AI存储需求对比分析
第3章 搭建生产级分布式存储集群环境准备
3-1 集群架构设计:从规划到部署的全局视角
3-2 初探Ceph:开源分布式存储系统的核心架构
3-3 硬件选型与配置:构建高可靠存储节点的关键要素
3-4 操作系统与环境配置:打造稳定的集群运行基石
3-5 内部Yum源搭建:实现规模化高效部署
3-6 Ansible自动化运维:批量配置与管理的利器
3-7 Chrony时间同步:保障分布式系统一致性的守护者
3-8 节点安全加固:基础防护与访问控制策略
3-9 本章回顾:环境准备的关键要点总结
第4章 从零打造你的分布式存储集群
4-1 生产级集群部署:从规划到上线的全流程
4-2 Monitor部署与集群初始化
4-3 MGR深度解析:集群监控与管理的智能中枢
4-4 OSD批量部署:标准化硬盘初始化实战 (一)
4-5 OSD批量部署:标准化硬盘初始化实战 (二)
4-6 副本存储池设计:为AI小文件训练优化性能 (一)
4-7 副本存储池设计:为AI小文件训练优化性能 (二)
4-8 EC纠删码存储池设计:大文件存储的经济高效方案
4-9 PG动态调优实战:实现存储池的智能负载均衡
4-10 CRUSH地图定制:掌握数据分布与故障域的设计艺术
4-11 本章回顾:集群部署核心技能总结
第5章 分布式存储集群中的对象存储
5-1 对象存储架构解析:数据访问模式与设计原则
5-2 Ceph RGW:开源S3兼容存储的实现之道
5-3 存储池功能划分:策略化数据管理(一)
5-4 存储池功能划分:策略化数据管理(二)
5-5 多RGW高可用部署:构建弹性对象存储门户(一)
5-6 多RGW高可用部署:构建弹性对象存储门户(二)
5-7 生命周期策略实战:智能数据清理与归档
5-8 GC机制与空间优化:垃圾回收原理与配置
5-9 元数据管理模式:Index与Indexless的优劣对比
5-10 功能验证实战:使用s3cmd全面测试对象存储
5-11 压力测试实战:CosBench揭示系统性能边界(一)
5-12 压力测试实战:CosBench揭示系统性能边界(二)
5-13 Python对接实战:开发面向DeepSeek的对象存储测试工具
5-14 Go语言实战:高性能测试与数据清理程序开发(一)
5-15 Go语言实战:高性能测试与数据清理程序开发(二)
5-16 AI训练对接实战:PyTorch直接读写对象存储数据
5-17 JuiceFS加速实战:为AI训练构建缓存加速层
5-18 本章回顾:对象存储核心能力与AI集成总结
第6章 分布式存储集群中的块存储
6-1 块存储核心引擎解析:性能优化与架构设计
6-2 Ceph RBD深度解读:云计算的存储底层逻辑
6-3 存储池优化实战:数据与元数据分离架构
6-4 快照功能实战:实现块设备的高效数据保护
6-5 快速克隆实战:秒级复制TB级数据的奥秘
6-6 性能测试实战:FIO与VDBench工具深度使用
6-7 AI训练场景实战:K8s集群与块存储无缝对接(一)
6-8 AI训练场景实战:K8s集群与块存储无缝对接(二)
6-9 本章回顾:块存储在企业与AI场景中的应用总结
第7章 实现PB级别的分布式文件存储
7-1 文件系统架构解析:共享存储与高性能访问
7-2 CephFS机制揭秘:突破容量与性能瓶颈的设计
7-3 分层存储实战:数据与元数据分离的高级配置
7-4 业务挂载与优化实战:参数调优与性能提升
7-5 JuiceFS vs CephFS:AI训练场景下的存储选型
7-6 企业级文件系统对比:CephFS、NFS、Samba全解析
7-7 AI训练直连实战:PyTorch与分布式文件系统无缝集成
7-8 本章回顾:PB级文件存储架构与AI适配总结
第8章 分布式集群的监控搭建和管理运维
8-1 可观测性设计:监控体系构建的原则与方法
8-2 监控告警体系搭建实战:从原理到实现
8-3 Prometheus部署实战:云原生时序数据存储方案
8-4 Grafana可视化实战:打造业务监控全景看板
8-5 节点监控实战:Node Exporter部署与数据采集 (一)
8-6 节点监控实战:Node Exporter部署与数据采集(二)
8-7 业务监控实战:MGR模块数据导出与分析
8-8 集群指标采集实战:Ceph Exporter集成与配置
8-9 告警通知实战:Alertmanager多通道告警策略
8-10 自定义监控实战:Shell脚本采集与推送指标
8-11 本章回顾:分布式存储监控体系全栈总结
第9章 分布式存储系统集群调优
9-1 性能分析方法论:从监控到调优的系统路径
9-2 调优必要性分析:理解系统软硬件性能边界
9-3 网络调优实战:万兆环境下的传输优化策略(一)
9-4 网络调优实战:万兆环境下的传输优化策略(二)
9-5 系统稳定性调优:内核参数与资源限制优化(一)
9-6 系统稳定性调优:内核参数与资源限制优化(二)
9-7 OSD参数调优实战:性能与稳定的平衡艺术
9-8 数据安全调优:Scrub机制原理与参数建议
9-9 本章回顾:集群性能优化关键点总结
第10章 生产级分布式存储集群中常见的故障问题处理及排查
10-1 故障处理工程实践:方法论与应急流程
10-2 告警响应策略:从告警到处置的标准化路径
10-3 磁盘故障处理:OSD坏盘替换与数据重建
10-4 服务中断应急:Monitor宕机恢复方案
10-5 网络变更规划:集群IP迁移与配置更新
10-6 存储资源规划:集群扩容与缩容操作指南
10-7 多盘损坏应急:超越副本容忍度的数据恢复
10-8 写入过载处理:OSD Full状态应急与预防
10-9 高级调试手法:Ceph源码编译与机制探析
10-10 数据恢复:操作系统重装后的OSD快速恢复(一)
10-11 数据恢复:操作系统重装后的OSD快速恢复(二)
10-12 故障排查经验集:常见问题分类与处理思路
10-13 本章回顾:故障处理与运维实战能力总结
第11章 DeepSeek推理大模型在分布式集群的应用
11-1 DeepSeek大模型解析:推理架构与运行原理
11-2 私有化AI助手部署实战:5分钟快速安装指南
11-3 专属知识库构建实战:基于分布式存储的模型微调
11-4 AI运维系统实战:打造智能日志分析与异常检测平台
11-5 智能磁盘预警实战:训练基于大模型的故障预测系统
11-6 本章回顾:存储与AI融合创新的未来展望
第12章 AI+Ceph分布式存储工程实战–课程总结
12-1 AI+Ceph分布式存储工程实战–课程总结



