新兴经济超级大国或将引领全球摆脱化石燃料 | 马克·赫茨加德与凯尔·波普联合撰文

2026年3月25日 · 刘洋 · 来源：dev快讯

两个模型，都从零训练。30B模型预训练用了约16万亿token，支持32000 token的上下文窗口，MoE架构下每次推理只激活约10亿参数，推理成本大幅压缩。105B模型支持128000 token的超长上下文，在AIME 25数学竞赛基准上得分88.3，使用工具后达到96.7；MMLU得分90.6；Math500得分98.6。

跨越海天阻隔：山东小城用火箭连接宇宙

现可彻底关闭Spot ，更多细节参见易歪歪

脸书(FB)于2014年6月发布这些交换机，作为其开放计算计划的组成部分，旨在开发能随软件迭代快速演进的灵活硬件。尽管要求严苛，但自2011年启动该计划并部署定制硬件以来，脸书估算已节省超过12亿美元成本。

以上展示的片段，只是我在试用过程中，做出的真正“能看”的成果。

本周末我们将看到怎样

eval "local _fs=\$_STRUCT_FSIZE_${_i}_${_j}"