Blog
Karty NVIDIA do AI - Ada Lovelace i Blackwell w praktyce

NVIDIA Ada Lovelace i Blackwell w zastosowaniach AI – praktyczny dobór GPU
W projektach opartych o duże modele językowe (LLM) kluczowe znaczenie ma nie teoretyczna moc obliczeniowa GPU, lecz przewidywalna przepustowość generacji oraz stabilność pracy w konkretnym scenariuszu. W artykule pokazujemy, jak dobierać karty NVIDIA do AI w oparciu o metrykę TPS, rozmiar modelu oraz skalę wdrożenia - od prostych chatbotów po środowiska enterprise.
Kontekst sprzętowy

W dalszej części artykułu architektury Ada Lovelace oraz Blackwell analizujemy nie przez pryzmat marketingowych benchmarków, lecz realnych scenariuszy inference: liczby użytkowników, rozmiaru modelu oraz docelowego TPS.
1) TPS (tokens/s): praktyczna metryka przepustowości LLM
W środowisku produkcyjnym metryki teoretyczne nie przekładają się bezpośrednio na doświadczenie użytkownika. Dla LLM najprostszy i najbardziej zrozumiały wskaźnik to TPS.
| Poziom | TPS | TPM | Typowy efekt |
|---|---|---|---|
| Ograniczona płynność | 5 TPS | 300 tokenów/min | odczuwalne opóźnienie w generowaniu |
| Komfortowa praca | 20 TPS | 1 200 tokenów/min | stabilna generacja w większości zastosowań |
| Wysoka przepustowość | 100 TPS | 6 000 tokenów/min | możliwość obsługi większej liczby sesji |
Uwagi metodologiczne: TPS zależy od modelu, kwantyzacji, długości kontekstu, silnika inference oraz profilu równoległości (multi-session / batch).
2) 7B / 13B / 70B - co oznacza rozmiar modelu
Oznaczenia 7B/13B/70B wskazują liczbę parametrów modelu: 1B = 1 miliard parametrów. Większa liczba parametrów zwykle zwiększa jakość odpowiedzi i zdolność do wnioskowania, ale podnosi wymagania względem VRAM i przepustowości GPU.
| Klasa | Parametry | Typowe zastosowania | Typowy cel TPS |
|---|---|---|---|
| Modele 7–8B | 7–8 mld | chatboty, RAG, Q&A, podsumowania | 50–100+ TPS |
| Modele 13B | 13 mld | firmowe AI, dokumenty, dłuższe odpowiedzi | 40–70 TPS |
| Modele 70B | 70 mld | zaawansowane analizy, agenci AI, zadania eksperckie | 15–25 TPS |
3) Odniesienie do ChatGPT - skala modeli
Dla porównania: GPT-3 miał ok. 175B parametrów. W przypadku GPT-4 i nowszych OpenAI nie publikuje oficjalnej liczby parametrów, a dostępne szacunki są rozbieżne. Wnioskiem praktycznym jest to, że usługi klasy ChatGPT działają w środowisku hiperskalowym i są optymalizowane pod równoległość oraz wykorzystanie wielu GPU.
| Poziom | Parametry | Wniosek dla infrastruktury |
|---|---|---|
| 7-13B | 7-13 mld | najczęściej wystarczające do firmowych wdrożeń (RAG/chatboty) |
| 70B | 70 mld | wymaga mocnego GPU i dyscypliny w doborze kontekstu/kwantyzacji |
| GPT-3 | ~175 mld | skala chmurowa; zwykle nie jest celem dla pojedynczego GPU |
| GPT-4 / nowsze | nieujawnione | hiperskala + optymalizacje; porównania 1:1 z on-prem są nieadekwatne |
4) Mapowanie wymagań: scenariusz → model → docelowy TPS
Chatbot / RAG dla działu lub aplikacji
- Model: 7-8B
- Cel: stabilna generacja, niska latencja
- Docelowo: 50-100+ TPS (pojedyncza sesja)
Firmowe AI (bardziej złożone odpowiedzi, dokumenty)
- Model: 13B
- Cel: lepsza jakość odpowiedzi przy przewidywalnym TPS
- Docelowo: 40-70 TPS
Zaawansowane analizy i zadania eksperckie
- Model: 70B
- Cel: jakość i wnioskowanie; kompromis między kosztem a przepustowością
- Docelowo: 15-25 TPS
Enterprise: równoległość + długi kontekst
- Model: 70B+ lub multi-session
- Cel: stabilny TPS pod obciążeniem, długi kontekst (np. 32k)
- Docelowo: 30+ TPS na model + zapas na równoległość
5) Porównanie TPS: RTX 6000 Ada vs RTX PRO 6000 Blackwell
Poniżej orientacyjne zakresy TPS dla typowych scenariuszy inference. Wartości służą do wstępnego sizingu i doboru klasy GPU.
| Scenariusz | RTX 6000 Ada | RTX PRO 6000 Blackwell | Interpretacja |
|---|---|---|---|
| LLM 7–8B (FP16/FP8) | 90-120 TPS ≈ 5 400-7 200 TPM | 180-220 TPS ≈ 10 800-13 200 TPM | wyższa przepustowość i większy margines na równoległość |
| LLM 13B (FP16/FP8) | 45-65 TPS ≈ 2 700-3 900 TPM | 95-120 TPS ≈ 5 700-7 200 TPM | stabilna obsługa firmowych workloadów, lepszy zapas |
| LLM 70B (INT8 / 4-bit) | 15-20 TPS ≈ 900-1 200 TPM | 30-40 TPS ≈ 1 800-2 400 TPM | Blackwell ogranicza spadki TPS przy większym obciążeniu |
| Długi kontekst (32k) | 8-12 TPS ≈ 480-720 TPM | 18-25 TPS ≈ 1 080-1 500 TPM | krytyczne w analizie dużych dokumentów (prawo/finanse) |
Dlaczego w produkcyjnym AI nie porównujemy kart GeForce z kartami RTX / RTX PRO
W kontekście wdrożeń AI często pojawia się pytanie: „po co przepłacać za karty profesjonalne, skoro są tańsze karty konsumenckie?” To pytanie wynika z błędnego założenia, że są to rozwiązania zamienne. W praktyce karty konsumenckie i profesjonalne rozwiązują różne problemy.
Karty RTX / RTX PRO są projektowane z myślą o ciągłej pracy, przewidywalnym obciążeniu i środowisku produkcyjnym, gdzie liczy się stabilny TPS, możliwość obsługi wielu sesji równoległych oraz uruchamianie większych modeli i dłuższego kontekstu bez kompromisów. W AI to właśnie te parametry decydują o użyteczności rozwiązania.
- VRAM i skala modeli: większe modele (np. 13B/70B), długi kontekst i wielosesyjność szybko ujawniają ograniczenia klas konsumenckich.
- Praca 24/7: obciążenia inference mają charakter ciągły; w produkcji istotna jest stabilność i przewidywalność, nie tylko „peak performance”.
- Funkcje klasy enterprise: wirtualizacja GPU, zoptymalizowane sterowniki, profile i scenariusze wieloużytkownikowe są fundamentem wdrożeń usługowych.
- Skalowanie bez degradacji: przy wzroście liczby użytkowników, kontekstu i złożoności zapytań kluczowe jest utrzymanie stabilnego TPS.
Karty konsumenckie nie są tańszą alternatywą dla GPU pod AI w produkcji - są rozwiązaniem do innego profilu zastosowań. W projektach AI dobór sprzętu należy opierać o model, docelowy TPS oraz wymagania SLA. Dlatego w środowiskach produkcyjnych naturalnym wyborem są karty RTX 6000 (Ada Lovelace) oraz RTX PRO 6000 (Blackwell).
Uwaga: powyższe dotyczy projektów produkcyjnych i wielosesyjnych. Dobór GPU zawsze powinien wynikać z docelowego workloadu, profilu ruchu oraz wymagań SLA.
6) Rekomendacje doboru – na podstawie przeznaczenia
Rekomendacja: Ada Lovelace (RTX 6000 Ada) - gdy liczy się koszt/TPS
- Workload: chatboty, RAG, firmowe AI na 7–13B, oraz 70B w ograniczonej skali.
- Priorytet: wysoka efektywność kosztowa, przewidywalny TPS w standardowych scenariuszach.
Rekomendacja: Blackwell (RTX PRO 6000 Blackwell) - gdy liczy się skala i SLA
- Workload: 70B+ w środowisku wielosesyjnym, długi kontekst, wymagania enterprise.
- Priorytet: większa przepustowość, stabilność pod obciążeniem, margines na równoległość.
Dobór GPU do AI w ESUS IT
Dobieramy konfiguracje GPU pod konkretny model, kontekst, liczbę sesji i docelowy TPS/SLA. W razie potrzeby przygotowujemy sizing oraz rekomendację architektury (Ada/Blackwell).
Uwagi metodologiczne: Zakresy TPS mają charakter orientacyjny. Wyniki zależą od modelu, kwantyzacji, kontekstu, silnika inference, parametrów równoległości oraz konfiguracji platformy (sterowniki, CPU/RAM, limity mocy i chłodzenie).
© ESUS IT • Materiał edukacyjny: GPU dla AI






