
Photo by author
# Introduction
LPU. یہ چپس خاص طور پر لینگویج ماڈل کے اندازہ کے لیے ڈیزائن کی گئی تھیں اور رفتار کے ارد گرد توقعات کو فوری طور پر تبدیل کر دیا گیا تھا۔ At that time, the mean of the responses to the GPT-4 was average. 25 tokens per second. Groq showed the speed of the over. 150 tokens per second, Demonstrating that real-time AI interaction was finally possible.
اس تبدیلی نے ثابت کیا کہ تیز تر اندازہ نہ صرف زیادہ GPUs استعمال کرنے کے بارے میں تھا۔ بہتر سلکان ڈیزائن یا آپٹمائزڈ سافٹ ویئر کارکردگی کو ڈرامائی طور پر بہتر بنا سکتا ہے۔ اس کے بعد سے، بہت سی دوسری کمپنیاں خلا میں داخل ہو چکی ہیں، ٹوکن جنریشن کی رفتار کو مزید آگے بڑھا رہی ہیں۔ Some providers now provide thousands of tokens per second on open source models. These improvements are changing how people use large language models. جوابات کے لیے منٹوں کا انتظار کرنے کے بجائے، ڈویلپر اب ایسی ایپلی کیشنز بنا سکتے ہیں جو فوری اور انٹرایکٹو محسوس کریں۔
# 1. Cerebras
Cerebras Stands for raw throughput by using a very different hardware approach. GPUs کے جھرمٹ کے بجائے، Cerebras اپنے Wafer-Scale Engine پر ماڈل چلاتا ہے، جو ایک مکمل سلکان ویفر کو ایک چپ کے طور پر استعمال کرتا ہے۔ یہ مواصلات کی بہت سی رکاوٹوں کو دور کرتا ہے اور بہت زیادہ میموری بینڈوڈتھ کے ساتھ بڑے پیمانے پر متوازی حساب کی اجازت دیتا ہے۔ The result is extremely fast token generation while keeping initial token latency low.
Examples of performance highlights include:
- 3,115 tokens per second with ~0.28s first token on gpt-oss-120B (High)
- 2,782 tokens per second on gpt-oss-120B (low) with first token of ~0.29
- 1,669 tokens per second on GLM-4.7 with ~0.24s first token
- Llama 3.3 2,041 tokens per second on 70B ~0.31s with first token
What to note: Cerebras is clearly faster. کچھ معاملات میں، جیسا کہ GLM-4.7، قیمتوں کا تعین سست فراہم کنندگان سے زیادہ ہو سکتا ہے، لیکن تھرو پٹ پر مبنی استعمال کے معاملات میں، کارکردگی کے فوائد لاگت سے کہیں زیادہ ہو سکتے ہیں۔
# 2. Grok
Grok اس کے جوابات حقیقی استعمال میں کتنی تیزی سے محسوس ہوتے ہیں اس کے لیے جانا جاتا ہے۔ Its strength is not only token throughput, but extremely short time to first token. یہ Groq کے کسٹم لینگویج پروسیسنگ یونٹ کے ذریعے حاصل کیا جاتا ہے، جو تعییناتی عمل درآمد کے لیے ڈیزائن کیا گیا ہے اور GPU سسٹمز میں عام شیڈولنگ اوور ہیڈ سے گریز کرتا ہے۔ As a result, responses start pouring in almost immediately.
Examples of performance highlights include:
- 935 tokens per second on gpt-oss-20B (high) ~0.17s with first token
- 914 tokens per second on gpt-oss-20B (low) with ~0.17s first token
- 467 tokens per second on gpt-oss-120B (high) ~0.17s with first token
- 463 tokens per second on gpt-oss-120B (low) with ~0.16s first token
- Llama 3.3 ~0.19s on 70B with first token 346 tokens per second
When it’s a good choice: Groq excels in use cases where fast response times are critical. یہاں تک کہ جب دوسرے فراہم کنندگان اعلیٰ چوٹی کے تھرو پٹ کی پیشکش کرتے ہیں، Groq مستقل طور پر زیادہ ذمہ دار اور تیز صارف کا تجربہ فراہم کرتا ہے۔
# 3. Samba Nova
Examples of performance highlights include:
- 689 tokens per second on Llama 4 Maverick with first token of ~0.80s
- 611 tokens per second on gpt-oss-120B (high) with ~0.46s first token
- 608 tokens per second on gpt-oss-120B (low) with ~0.76s first token
- Llama 3.3 ~0.44s on 70B with first token 365 tokens per second
When it’s a good choice:
# 4. Fireworks AI
Examples of performance highlights include:
- 851 tokens per second on gpt-oss-120B (low) with ~0.30s first token
- 791 tokens per second with ~0.30s first token on gpt-oss-120B (High)
- 422 tokens per second on GLM-4.7 with ~0.47 first token
- 359 tokens per second on GLM-4.7 with ~0.45s non-reconciling with first token
When it’s a good choice:
# 5. Beeston
Examples of performance highlights include:
- 385 tokens per second with first token of ~0.59 on GLM 4.7
- 369 tokens per second on GLM 4.7 with first token of ~0.69 irrational
- 242 tokens per second on gpt-oss-120B (higher).
- 246 tokens per second on gpt-oss-120B (low).
When it’s a good choice: If GLM 4.7 performance matters most, Baseten deserves attention. اس ڈیٹاسیٹ میں، یہ اس ماڈل پر Fireworks کے بالکل پیچھے ہے اور بہت سے دوسرے فراہم کنندگان سے بہت آگے ہے، یہاں تک کہ اگر یہ بڑے GPT OSS ماڈلز پر سب سے اوپر مقابلہ نہیں کرتا ہے۔
# Comparison of Superfast LLM API Providers
| The provider | Basic strength | Peak Throughput (TPS) | First token time | Best use case |
|---|---|---|---|---|
| Cerebras | Extreme throughput on very large models | Up to 3,115 TPS (gpt-oss-120B). | ~0.24–0.31 sec | High-KPS endpoints, long generations, throughput-driven workloads |
| Grok | Answers to the fastest feeling | Up to 935 TPS (gpt-oss-20B) | ~0.16–0.19 sec | Interactive chat, agents, copilots, real-time system |
| Samba Nova | High throughput for Lama family models | Up to 689 TPS (Llama 4 Maverick) | ~0.44–0.80s | LAMA family deployments with stable, high throughput |
| Fireworks | Constant speed in larger models | ~0.30–0.47 sec | Teams running multiple model families in production. | |
| Beeston | Strong GLM-4.7 performance | to 385 TPS (GLM-4.7). | ~0.59–0.69 sec | GLM focused deployments |
Abid Ali Awan (@1abidaliawan) is a certified data scientist professional who loves building machine learning models. فی الحال، وہ مشین لرننگ اور ڈیٹا سائنس ٹیکنالوجیز پر مواد کی تخلیق اور تکنیکی بلاگ لکھنے پر توجہ دے رہے ہیں۔ Abid holds a Master’s degree in Technology Management and a Bachelor’s degree in Telecommunication Engineering. His vision is to create an AI product using graph neural networks for students struggling with mental illness.