马斯克开源Grok:3140亿个巨大参数,免费可商用,真格局!

2024-03-21 03:09:19 Eyf_com

当地时间3月17日,马斯克宣布Grok-1开源。开源遵照Apache2.0协议,所有用户都可以自由地使用、修改和分发,无论是个人还是商业用途都可以。开源几小时后,在GitHub上就已经获得了大量好评星标。


据官网介绍,Grok-1拥有3140亿参数,是迄今全球参数量最大的开源大语言模型。相比之下,Meta公司旗下的开源模型Llama 2参数规模为70亿到700亿,而OpenAI的GPT-3.5参数规模为1750亿。


马斯克曾是OpenAI的早期资助者和联合创始人,由于与奥特曼就AI安全意见不一,2018年马斯克离开OpenAI,他也成了OpenAI最高调的批评者之一。此前,马斯克对OpenAI、奥特曼提起诉讼,称该公司违背了最初对公共开源通用人工智能的承诺。在诉讼中,马斯克要求OpenAI恢复开源。《纽约时报》报道称,所谓的开源,也就是通过将代码开放给所有人查看和使用。但OpenAI则指出马斯克是在捏造事实,目的是“促进他自己的商业利益”。


OpenAI和马斯克Grok的文章主题可以是“马斯克旗下公司开发的全球最大模型Grok-1已于17日开源”。


快递管理系统_物流管理系统_Eyf软件服务商


Grok-1

This repository contains JAX example code for loading and running the Grok-1 open-weights model.

Make sure to download the checkpoint and place the ckpt-0 directory in checkpoints - see Downloading the weights

Then, run

pip install -r requirements.txt
python run.py

to test the code.

The script loads the checkpoint and samples from the model on a test input.

Due to the large size of the model (314B parameters), a machine with enough GPU memory is required to test the model with the example code. The implementation of the MoE layer in this repository is not efficient. The implementation was chosen to avoid the need for custom kernels to validate the correctness of the model.

Model Specifications

Grok-1 is currently designed with the following specifications:

  • Parameters: 314B

  • Architecture: Mixture of 8 Experts (MoE)

  • Experts Utilization: 2 experts used per token

  • Layers: 64

  • Attention Heads: 48 for queries, 8 for keys/values

  • Embedding Size: 6,144

  • Tokenization: SentencePiece tokenizer with 131,072 tokens

  • Additional Features:

    • Rotary embeddings (RoPE)

    • Supports activation sharding and 8-bit quantization

  • Maximum Sequence Length (context): 8,192 tokens

快递管理系统_物流管理系统_Eyf软件服务商




Powered by 半字节科技 ©2016-2025 粤ICP备2024331913号