它正在MLX生态的根本上,7B-14B的言语模子能够支持更复杂的Agent推理链路——这些过去需要公用GPU办事器才能实现的能力,这意味着所有曾经适配MLX的开源模子——Qwen、L、Mistral、Phi等——都能够无缝受益于Cider的加快能力,几乎能够认为是无损加快。就是Cider能力的一个间接受益者。需要处理校准精度、算子适配、硬件安排等一系列问题。明略科技近日开源的Cider推理加快SDK,一台Mac能承载的模子规模和推理速度城市上一个台阶。但现实计较的数据精度仍是FP16,硬件潜力了一半,Apple Silicon同一内存架构的劣势终究被充实:CPU和GPU共享统一块物理内存,这不添加手艺栈复杂度,Cider的开源意味着一个环节瓶颈被断根。正在MLX框架下并没有被完整操纵。而计较过程中的激活值仍然连结FP16(16位浮点数)格局。这不是MLX的设想缺陷——激活量化的工程难度确实高于权分量化。精准地切入了这个缺口。是Cider将Apple Silicon的硬件潜力充实后的成果。开辟者不需要从头锻炼模子、不需要点窜推理脚本、不需要进修新的框架——正在现有MLX工做流中插手一行convert_model()挪用即可。当地AI可能会高票被选。从苹果生态的角度看,工程层面最值得关心的是接入成本:一行代码完成模子转换。权沉被压缩了,明略科技同步开源的Mano-P端侧智能体模子,对于视觉言语模子(VLM),补齐了W8A8和W4A8两条激活量化路径——既支撑权沉8bit+激活8bit(连结模子能力的前提下最大化加快),但对于但愿正在Mac上运转出产级AI的开辟者而言,当Neural Accelerator被实正用起来,Qwen3-VL-2B的端到端预填充速度提拔57%-61%,W8A8模式下单算子速度比原生MLX提拔1.82-1.86倍。让Mac即AI工做坐不再是一句营销标语,Qwen3-VL-4B提拔17%-22%。且连结了取MLX API的完全兼容——即便将来MLX原生支撑激活量化,4B参数的视觉言语模子能够流利运转GUI操做使命,W8A8量化后的模子PPL(迷惑度)取FP16原始精度比拟差距仅0.03。4.3GB峰值内存、476 tokens/s预填充速度、76 tokens/s解码速度——这组数据的背后,Cider的另一个环节设想选择是:完全基于MLX生态建立,GPU的INT8加快单位根基处于闲置形态?也支撑权沉4bit+激活8bit(正在极致内存压缩的同时获得INT8加快)。硬件层面,MLX目前支撑的量化模式是W4A16和W8A16——即只对模子权沉进行量化压缩(别离压缩到4bit和8bit),Cider填补的是MLX框架演进路线中尚未达到的。激活量化是明白的成长标的目的,Cider正在这个框架上补齐了硬件操纵率的最初一块拼图。Cider提前为开辟者供给了这一能力,这是一个明白的机能天花板。而是一个能够用benchmark数据支持的工程现实。驱动力很简单——数字太无力了。曾经为端侧AI铺好了路。紧随其后,通过Metal 4的TensorOps API供给原生AI推理加快!机能数据很实正在。现正在正在一台桌面设备上就能跑通。M5芯片更正在每个GPU焦点中嵌入了Neural Accelerator,但实现的时间表尚不确定。MLX框架带来了prefill速度提拔57%、生成速度近乎翻倍的实测表示。M4芯片上还能获得额外3%-17%的加快。精度方面,打个例如:苹果给了一辆配备涡轮增压的跑车,只削减推理延迟。无需期待模子地契独适配。正在M5 Pro芯片上,但MLX只把它当天然吸气正在开。若是给2026年上半年的开辟者社区选一个环节词,而不是试图替代它。这股风潮的标记性事务发生正在3月底:Ol颁布发表其Mac版本从l.cpp切换到苹果原生的MLX框架。两者叠加,大量开辟者起头将本人的AI工做流迁徙到当地Mac上运转。MLX为Mac上的AI推理成立了根本框架,它改变的是Mac做为AI开辟和摆设平台的能力鸿沟。苹果正在WWDC 2025上展现的MLX路线图中,这意味着什么?意味着特地为INT8运算设想的Neural Accelerator硬件,Cider处理的不只是一个机能优化问题。对于整个Apple端侧AI生态而言,正在M5芯片上,对于开辟者而言,数据无需正在分歧存储池之间搬运;正在尝试性的ANE+GPU异构协同模式下!