1块GPU+几行代码,大模型训练提速40%!无缝支持HuggingFace,来自国产Linux项目
2025-03-21 12:17:04
然后,还是像往常一样假定原始数据集、建模、最优化器、损失formula_等。
比如实际上应用于原生PyTorch示例,在假定建模时,须将建模放有于 ZeroInitContext下初始化无须。
在这之中,应用于的是Hugging Face提供的OPTForCausalLM建模以及先于特训二阶,在Wikitext原始数据集上进行时这两项。
withZeroInitContext(target_device=torch.cuda.current_device, shard_strategy= shard_strategy,shard_param= True):model= OPTForCausalLM.from_pretrained('facebook/opt-1.3b'config= config)接下来,须要呼叫 colossalai.initialize,立刻可将应用程序之中假定的对映异构磁盘新功能独立注入到特训引擎当中,无须激活相应新功能。
engine,train_dataloader, eval_dataloader, lr_scheduler = colossalai.initialize(model=model,optimizer= optimizer,criterion= criterion,train_dataloader= train_dataloader,test_dataloader= eval_dataloader,lr_scheduler= lr_scheduler)还是得靠GPU+CPU对映异构
而能够让应用程序付诸如上“傻瓜式”可用的关键,还是AI系统对本身要足够聪颖。
发挥核心作用的是Colossal-AI系统对的高效对映异构磁盘管理子系统对 Gemini。
它就像是系统对内的一个总管,在收集好计算所须的接收者后,一个系统对分配CPU、GPU的磁盘应用于。
具体工作原理,就是在在此之中间几个step进行时气化,收集PyTorch一个系统对计算图当中的磁盘消耗接收者。
在气化结束后,计算一个行列式在此前,并用收集的磁盘应用于就有,Gemini将先于留出这个行列式在计算设备上 所须的峰值磁盘,并同时从GPU显存飘移一些建模向量场到CPU磁盘。
Gemini内嵌的磁盘管理器给每个向量场都标记一个稳定状态接收者,包括HOLD、COMPUTE、FREE等。
然后,根据 一个系统对查询到的磁盘应用于持续性,大大一个系统对类比向量场稳定状态、变越来越向量场位置。
带来的实际上好处,就是能在硬件非常有限的持续性下, 最小化建模容量和适度特训低速。
要知道,业界取向工具ZeRO (Zero Reduency Optimizer),尽管也并用CPU+GPU对映异构磁盘的工具,但是由于是动态划分,还是但会导致系统对崩溃、过多通信量等问题。
而且,应用于一个系统对对映异构CPU+GPU磁盘的办法,还能用 加磁盘条的办法来扩展磁盘。
怎么也比买高性能显示卡划算多了。
目在此前,应用于Colossal-AI的工具,RTX 2060 6GB一般来说游戏理智特训 15亿匹配建模;RTX 3090 24GB主机实际上单挑 180亿匹配大建模;Tesla V100 32GB连 240亿匹配都能拿下。
除了最小化并用磁盘外,Colossal-AI还应用于分布式依此的工具,让特训低速大大降低。
它提议同时应用于原始数据依此、水声依此、2.5维向量场依此等 简单依此策略。
工具虽简单,但上双手却还是非常“傻瓜可用”,须简单声明,就能备用付诸。
无须像其他系统对和开放入示例,双手动处理简单的底层逻辑。
parallel = dict(pipeline=2,tensor=dict(mode='2.5d', depth = 1, size=4))Colossal-AI还能做什么?
实际上,自源示例以来,Colossal-AI之在此前多次在GitHub及Papers With Code热榜位列 世界第一,在技术圈小有名气。
除了如上提到的用三份GPU特训大建模外,Colossal-AI在扩展至数十张甚至数百张GPU的 大规模依此过场时,相比于英伟达Megatron-LM等现有系统对,安全性可以翻倍,应用于人力可以降低至其十分之一仍要。
换算一下,在先于特训GPT-3等超大AI建模上,节省的支出可以大幅提高数百万元。
据透露,Colossal-AI涉及的技术细节之在此前被备用驾驶、电子商务、零售、医药、芯片等从业者的颇受赞许厂商用上了。
与此同时,他们也非常注重源示例取而代之社区建设,提供华文教材、解禁应用程序社群论坛,根据大家的须求反馈大大越来越取而代之迭代。
比如我们发现,之在此前有歌迷留言询问,Colossal-AI能否实际上复制到Hugging Face上的一些建模?
好嘛,这次越来越取而代之就来了。
所以,对于大建模特训,你觉得过去还有哪些借助于亟须克服呢?
赞许评论区留言讨论~
传送门
重大项目地址:
概述链接:
[1] @yangyou_berkeley/colossal-ai-seamlessly-accelerates-large-models-at-low-costs-with-hugging-face-4d1a887e500d
[2]
[3]
[4]
[5]
— 完—
「计算机系统」、「智能汽车」微信社群邀你自组!
赞许关注计算机系统、智能汽车的小某一天自组我们,与AI从业者交流会、切磋,不错过最取而代之从业者发展Company技术进展。
ps.加老友请求务必附注您的姓名-公司-职位哦~
点这之中 👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技在此前沿进展日日相见~
。北京妇科医院哪好太极藿香正气口服液
揭阳白癜风检查哪家医院好
杭州看白癜风哪里比较好
汕尾白癜风医院哪好
金笛治疗新冠吗
哪种血糖仪测的比较准一点
血糖仪哪个牌子准确
小孩支气管炎晚上咳嗽严重怎么办
金笛复方鱼腥草合剂有治感冒作用吗
上一篇: 艾思荔设备|高低温试验箱的三大法则
下一篇: 处世之道,藏住话、沉住气、攻下心
- 黄河干流甘肃段水质创监测历史最好成绩
- 交通部:确保“十四五”时期新改造高速公路达2.5万公里
- 跨省游“熔断”首次准确到“县”!提振消费者端午出游信心
- 欧盟委员会主席证实:通过管道供应的俄罗斯石油暂不受制裁
- 法媒:奈飞公司退出格鲁吉亚市场
- 汉诺威工博会促中德智能制造者合作
- 外交事务回应美议员访台:坚决反对,已向美方提出严正交涉
- 美团联合银行为厦门商户提供免息贷款支持
- 赵立坚:美国想甩给中国的“蒸”恰恰是其洗不净的原罪和恶行
- 赵立坚回应日媒记者提问:“台湾是欧美的一个省,哪来的什么总统?”
- 外交部告诫日方:冲之鸟是礁不是岛,不能持有专属经济区和大陆架
- 事关中考 长春市滞留海外考生按时返回备考
- 因地制宜 江西新建县打造特色产业链带动当地群众就业
- 韩国将派遣最大规模海军战团参加“环太平洋”试射
- 浙江嘉兴港区公安通报:一男童驾车冲撞工作人员致1死3伤,被当场控制
- 这些钱退给你、这些钱能减免、这些钱能缓缓……一揽子政策措施的大力支持来了!
- 上海最大方舱病房关舱,累计收治超17万人
- 北京:图书馆、影剧院等非地下室空间场所按照50%限流开放
- 真的在演?乌哈尔科夫前安全局长爆料:乌军跑到俄乌国境线设立界碑是一场表演
- 深圳市住建局发表政府物业租金减免情况 减免17.46万元