ChatGLM2-6B介绍
介绍
ChatGLM2-6B 是 ChatGLM-6B 的第二代版本,一款强大的自然语言处理模型,具有许多出色的特性,同时引入了新特性,使其成为一款卓越的开源中英双语对话模型。
开源地址是:https://github.com/THUDM/ChatGLM2-6B
主要特点
ChatGLM2-6B 提供了以下引人注目的特点:
更强大的性能:ChatGLM2-6B 的基座模型经过了全面的升级,采用了 GLM 的混合目标函数。它经过了大规模的中英标识符预训练和人类偏好对齐训练。相比于初代模型,ChatGLM2-6B 在多个数据集上的性能得到了大幅度提升,包括 MMLU(+23%)、CEval(+33%)、GSM8K(+571%)、BBH(+60%)等。在同尺寸的开源模型中,它表现出强大的竞争力。
更长的上下文:采用 FlashAttention 技术,ChatGLM2-6B 将上下文长度(Context Length)从 ChatGLM-6B 的 2K 扩展到了 32K。此外,在对话阶段,使用 8K 的上下文长度进行训练。ChatGLM2-6B-32K 模型在 LongBench 的测试中显示出较明显的竞争优势。
更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 实现了更高效的推理速度和更低的显存占用。在官方的模型实现下,推理速度相比初代提高了 42%。在 INT4 量化下,6G 显存支持的对话长度从 1K 提升到了 8K。
更开放的协议:ChatGLM2-6B 的权重对学术研究完全开放,而且在填写问卷并进行登记后,也允许免费商业使用。
这些令人印象深刻的新特性使 ChatGLM2-6B 成为了一款多用途的自然语言处理工具,适用于各种应用领域。


赞赏是不耍流氓的鼓励