现货库存,2小时发货,提供寄样和解决方案
热搜关键词:
在PC上运行人工智能(AI)模型面临的一个主要挑战是模型的庞大尺寸。特别是对于大型语言模型(LLMs),其参数数量可能达到数十亿乃至数万亿,这要求大量的存储空间和内存资源来存储和加载模型。例如,美光的内部实验显示,一个拥有700亿个参数且采用4位精度的Llama2模型(一种广泛应用于自然语言生成的LLM)需要约42GB的内存来加载并执行推理任务,其输出速度为每秒1.4个Token。然而,普通PC通常无法提供如此大量的内存资源。这一矛盾揭示了一个核心问题,同时也为AI PC的未来发展指明了方向。
未来的模型分化
未来的AI模型很可能会出现分化,以适应不同规模的硬件资源。700亿参数级别的大型模型可能更适合于内存和存储空间充裕的高级系统,用于运行经过精细微调并针对特定对话用例优化的应用程序,比如聊天补全等。同时,这类大型模型也可能被用于本地设备上的个人助手。另一方面,参数数量少于100亿的较小模型则更适合于主流设备,因为它们只需增加大约2GB的内存即可实现诸如文本补全、列表完成和分类等语言处理任务。
内存的重要性
不同大小的AI模型需要相应的内存容量支撑,尤其是在PC环境中。除了内存容量外,内存的带宽和能效也是至关重要的因素。随着PC(特别是移动设备)从DDR向LPDDR内存的过渡,带宽和能效得到了显著提升。例如,LPDDR5X在活跃使用期间的功耗比DDR5降低了44%-54%,而在自刷新模式下的功耗降低了86%。同时,LPDDR5的带宽达到了6.4Gb/s,高于DDR5的4.8Gb/s。如果AI技术能在PC上迅速普及,LPDDR5的普及率也会随之加快。此外,将一部分处理任务直接在内存中完成的研究和开发工作也在进行中,这有望进一步提高能源效率。
存储中的处理技术
另一个重要议题是:AI模型的最佳运行环境在哪里?当模型尺寸相对较大时,是否有可能减少对内存的依赖,将部分模型放置在存储设备中?如果可行,就需要提高存储带宽以满足模型数据的频繁交换需求。这可能促使Gen5 PCIe存储设备在主流PC中的普及,或是加速Gen6 PCIe存储设备的发展。
最近,苹果公司发表了一篇关于此话题的论文,题目为“闪存中的LLM:在有限内存中进行高效的大型语言模型推理”。该论文提出了一种在可用DRAM容量不足的设备上运行大型语言模型的方法。作者建议将模型参数存储在闪存中,并按需将其加载至DRAM中。此外,论文还介绍了一系列优化数据传输量以及提高读取吞吐量的方法,以显著提升推理速度。在论文中,评估不同闪存加载策略的主要指标是延迟,分为三个部分:从闪存加载数据的I/O成本、使用新加载数据时的内存管理开销以及推理操作的计算成本。总的来说,这篇论文提供了一种解决方案,即通过将模型参数存储在闪存中并在需要时加载至DRAM中,解决了“如何有效运行超出可用DRAM容量的LLM”的难题。