您当前的位置:首页 >> 家居装修

1块GPU+几行代码,大模型训练提速40%!无缝支持HuggingFace,来自国产Linux项目

2025-03-21 12:17:04

,读写涉及内置,然后将内置之中的新功能备用注入到建模及最优化器等组件当中。

colossalai.launch_from_torch(config='./configs/colossalai_zero.py')

然后,还是像往常一样假定原始数据集、建模、最优化器、损失formula_等。

比如实际上应用于原生PyTorch示例,在假定建模时,须将建模放有于 ZeroInitContext下初始化无须。

在这之中,应用于的是Hugging Face提供的OPTForCausalLM建模以及先于特训二阶,在Wikitext原始数据集上进行时这两项。

withZeroInitContext(target_device=torch.cuda.current_device, shard_strategy= shard_strategy,shard_param= True):model= OPTForCausalLM.from_pretrained('facebook/opt-1.3b'config= config)

接下来,须要呼叫 colossalai.initialize,立刻可将应用程序之中假定的对映异构磁盘新功能独立注入到特训引擎当中,无须激活相应新功能。

engine,train_dataloader, eval_dataloader, lr_scheduler = colossalai.initialize(model=model,optimizer= optimizer,criterion= criterion,train_dataloader= train_dataloader,test_dataloader= eval_dataloader,lr_scheduler= lr_scheduler)

还是得靠GPU+CPU对映异构

而能够让应用程序付诸如上“傻瓜式”可用的关键,还是AI系统对本身要足够聪颖。

发挥核心作用的是Colossal-AI系统对的高效对映异构磁盘管理子系统对 Gemini。

它就像是系统对内的一个总管,在收集好计算所须的接收者后,一个系统对分配CPU、GPU的磁盘应用于。

具体工作原理,就是在在此之中间几个step进行时气化,收集PyTorch一个系统对计算图当中的磁盘消耗接收者。

在气化结束后,计算一个行列式在此前,并用收集的磁盘应用于就有,Gemini将先于留出这个行列式在计算设备上 所须的峰值磁盘,并同时从GPU显存飘移一些建模向量场到CPU磁盘。

Gemini内嵌的磁盘管理器给每个向量场都标记一个稳定状态接收者,包括HOLD、COMPUTE、FREE等。

然后,根据 一个系统对查询到的磁盘应用于持续性,大大一个系统对类比向量场稳定状态、变越来越向量场位置。

带来的实际上好处,就是能在硬件非常有限的持续性下, 最小化建模容量和适度特训低速。

要知道,业界取向工具ZeRO (Zero Reduency Optimizer),尽管也并用CPU+GPU对映异构磁盘的工具,但是由于是动态划分,还是但会导致系统对崩溃、过多通信量等问题。

而且,应用于一个系统对对映异构CPU+GPU磁盘的办法,还能用 加磁盘条的办法来扩展磁盘。

怎么也比买高性能显示卡划算多了。

目在此前,应用于Colossal-AI的工具,RTX 2060 6GB一般来说游戏理智特训 15亿匹配建模;RTX 3090 24GB主机实际上单挑 180亿匹配大建模;Tesla V100 32GB连 240亿匹配都能拿下。

除了最小化并用磁盘外,Colossal-AI还应用于分布式依此的工具,让特训低速大大降低。

它提议同时应用于原始数据依此、水声依此、2.5维向量场依此等 简单依此策略。

工具虽简单,但上双手却还是非常“傻瓜可用”,须简单声明,就能备用付诸。

无须像其他系统对和开放入示例,双手动处理简单的底层逻辑。

parallel = dict(pipeline=2,tensor=dict(mode='2.5d', depth = 1, size=4))

Colossal-AI还能做什么?

实际上,自源示例以来,Colossal-AI之在此前多次在GitHub及Papers With Code热榜位列 世界第一,在技术圈小有名气。

除了如上提到的用三份GPU特训大建模外,Colossal-AI在扩展至数十张甚至数百张GPU的 大规模依此过场时,相比于英伟达Megatron-LM等现有系统对,安全性可以翻倍,应用于人力可以降低至其十分之一仍要。

换算一下,在先于特训GPT-3等超大AI建模上,节省的支出可以大幅提高数百万元。

据透露,Colossal-AI涉及的技术细节之在此前被备用驾驶、电子商务、零售、医药、芯片等从业者的颇受赞许厂商用上了。

与此同时,他们也非常注重源示例取而代之社区建设,提供华文教材、解禁应用程序社群论坛,根据大家的须求反馈大大越来越取而代之迭代。

比如我们发现,之在此前有歌迷留言询问,Colossal-AI能否实际上复制到Hugging Face上的一些建模?

好嘛,这次越来越取而代之就来了。

所以,对于大建模特训,你觉得过去还有哪些借助于亟须克服呢?

赞许评论区留言讨论~

传送门

重大项目地址:

概述链接:

[1] @yangyou_berkeley/colossal-ai-seamlessly-accelerates-large-models-at-low-costs-with-hugging-face-4d1a887e500d

[2]

[3]

[4]

[5]

— 完—

「计算机系统」、「智能汽车」微信社群邀你自组!

赞许关注计算机系统、智能汽车的小某一天自组我们,与AI从业者交流会、切磋,不错过最取而代之从业者发展Company技术进展。

ps.加老友请求务必附注您的姓名-公司-职位哦~

点这之中 👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技在此前沿进展日日相见~

北京妇科医院哪好
太极藿香正气口服液
揭阳白癜风检查哪家医院好
杭州看白癜风哪里比较好
汕尾白癜风医院哪好
金笛治疗新冠吗
哪种血糖仪测的比较准一点
血糖仪哪个牌子准确
小孩支气管炎晚上咳嗽严重怎么办
金笛复方鱼腥草合剂有治感冒作用吗
相关阅读
友情链接