Strategia · 6 min
SLM vs LLM in Produzione: Perché la Specializzazione Batte la Scala nei Sistemi AI B2B
SLM vs LLM in produzione: scopri come calcolare il break-even point, ridurre i costi di inferenza e fare fine-tuning di Small Language Models nel B2B.
La scelta tra Large Language Models (LLM) generalisti via API e Small Language Models (SLM) specializzati in-house diventa inevitabile quando entri in produzione B2B a volumi significativi. Il punto di rottura economico si situa tipicamente intorno ai 50-100K token mensili processati: al di sotto, le API pay-per-token rimangono efficienti; al di sopra, il Total Cost of Ownership (TCO) di un SLM self-hosted su GPU dedicate diventa inferiore. Ma il valore della specializzazione va oltre il semplice arbitraggio dei costi — include latenza prevedibile, compliance normativa, e controllo completo sul ciclo di vita dei dati aziendali.
SLM vs LLM: Quando conviene abbandonare le API generaliste nel B2B?
Il dilemma Build vs Buy nel 2024 non e piu una domanda binaria. La ricerca di Hugging Face ha documentato come la specializzazione — cioè l'addestramento mirato di modelli piu piccoli su dati di dominio — batte la pura scala per quasi tutti i compiti industriali pratici. Un LLM da 70 miliardi di parametri via API genera risposte "mediamente valide" su 100 task diversi; un SLM da 8 miliardi fine-tuned sulla tua ontologia specifica genera risposte "ottimali" su quel singolo task.
Il break-even point economico emerge quando confronti:
- Opzione A (API): GPT-4 Turbo a 0.03$ per 1K token di input, con picchi di 0.06$ per output. Su 10 milioni di token/mese: ~3000$ in fatture.
- Opzione B (SLM self-hosted): Un modello 8B su NVIDIA L4 (24GB VRAM, ~0.35$/ora on-demand su cloud) processa circa 150-200 token/s in batch inference. 10 milioni di token richiedono ~14-16 ore di GPU, per un costo mensile di ~150-200$, piu overhead infrastrutturale (~300-500$).
A questo volume, il self-hosting costa 1/5 rispetto alle API. Ma esiste un secondo ordine di benefici:
- Latenza controllata: Un SLM in-house raggiunge Time To First Token (TTFT) sotto i 100ms; via API sei a 500-2000ms per rete + coda server.
- Nessun vendor lock-in: I pesi rimangono tua proprietà. Se domani OpenAI cambia pricing o API contract, non sei esposto.
- Privacy dei dati: I token non escono dal tuo datacenter.
Come calcolare e ridurre i costi di inferenza LLM in produzione a volume
L'economia dell'inferenza a scala non e lineare. Ogni decisione architetturale impatta il TCO mensile in modo sproporzionato.
Il costo nascosto delle API generaliste si manifesta in tre forme:
-
Token overhead: Prompt engineering generico richiede contesto piu verboso per ottenere la stessa qualita di una risposta specializzata. Un SLM fine-tuned su 2000 esempi di ticket customer service comprende implicitamente il tuo formato e richiede prompt piu brevi (~50 token vs 300 token con GPT-4). Su scala, questo e un moltiplicatore di costo.
-
Latency penalities: Se il tuo use case e un batch job notturno, la latenza non importa. Se e una API che risponde a query user real-time, ogni 200ms di latenza aggiuntiva aumenta il bounce rate. Questo non ha un costo diretto in token, ma ha un costo di business.
-
Re-evaluation drift: Ogni mese OpenAI aggiorna i suoi modelli "invisibilmente". I tuoi test e benchmark rimangono validi, ma l'output puo divergere lentamente. Un SLM in-house rimane deterministico fino a quando tu non la ritrai.

Intersezione linee astratte per break-even point
Calcolo pratico del TCO mensile:
Supponiamo: 5 milioni di token/mese, inference batch ogni notte, SLA di latenza non critico.
- GPU on-demand: NVIDIA L4 su AWS = 0.35$/ora. Carico: 5M token ÷ 170 token/s = ~8.2 ore/mese = $2.87.
- Networking + storage: ~$100/mese.
- DevOps + monitoring: ~$200/mese (stipendio parte-time del tuo ML engineer).
- Fine-tuning annuale (ammortizzato): 1-2 GPU-week/anno = ~$300/anno = $25/mese.
- TCO totale: ~$330/mese.
Con GPT-4 a 0.03$/1K input token: 5M ÷ 1000 × 0.03 = $150/mese di sola API, piu il 30% di overhead per retry/logging = ~$195. Ma questo numero non scala linearmente — a 20M token/mese, il self-hosting rimane a ~$1200 (piu GPU), mentre GPT-4 sale a ~$800. Il break-even reale dipende dalla tua curva di crescita e dal costo opportunita del tuo tempo di engineering.
Ottimizzazione della latenza introduce trade-off hardware:
| Configurazione | Token/sec | TTFT | Costo/mese |
|---|---|---|---|
| L4 (24GB) | 170 | 120ms | $280 |
| A10 (24GB) | 250 | 80ms | $420 |
| A100 (80GB) | 600 | 40ms | $1200 |
Scegli la riga in base al tuo SLA. Se il latency budget per una richiesta user e 500ms total, e la rete consuma 100ms, l'SLM deve fare il suo lavoro in 400ms; una L4 e sufficiente. Se il budget e 100ms, servir un A10.
Fine-tuning SLM: architettura e deploy di modelli specializzati open source
Il fine-tuning inizia con la scelta del modello base. Tre opzioni dominano oggi:
- Llama 3 8B: 8B parametri, 8K context window, addestrato su 15 trilioni di token. Buona base per iniettare conoscenza di dominio. E il "cavallo di battaglia" per il 70% dei nostri progetti.
- Mistral v0.3 7B: Piu compatto, 32K context, routing consapevole (MoE su versioni piu grandi). Leggermente inferiore in comprensione vs Llama su compiti di ragionamento, ma piu veloce in inferenza.
- Phi-3 mini 3.8B: Estremo opposto della scala. Addestrato su dati sintetici ad alta qualita, occupa solo 3.8GB. Se il tuo use case e semplice (classificazione, extraction), spesso basta.
La scelta dipende da:
- Dimensione del dataset di fine-tuning: <1K esempi? Phi-3 suffice. >5K? Llama 3. >50K? Valuta anche i 13B, se l'infrastruttura lo supporta.
- Latency requirement: Phi-3 → 50ms. Llama 8B → 120ms. Misura sempre in produzione con batch reali.
- Budget GPU: Phi-3 allena su una L4 in ~2 ore per epoch. Llama 8B in ~6 ore.
Una volta scelto il modello, il fine-tuning efficiente si fa con LoRA (Low-Rank Adaptation) o QLoRA (Quantized LoRA):
- LoRA: Allena solo matrici di rango basso (tipicamente rango 8-16) aggiunte ai layer attention e feedforward. Riduce i parametri trainabili da 8B a ~67M (0.8% del modello). Memory requirement: ~24GB per Llama 8B su precisione full (bfloat16).
- QLoRA: Quantizza il modello base a 4-bit e allena solo su LoRA. Memory requirement: ~6GB per Llama 8B. Trade-off: convergenza leggermente piu lenta (20-30% epoch in piu), ma il costo GPU cala da $200/epoch a $50/epoch.
# Pseudo-codice LoRA fine-tuning con HuggingFace Transformers
from peft import get_peft_model, LoraConfig, TaskType
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
model_id = "meta-llama/Llama-2-8b-hf"
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True)
lora_config = LoraConfig(
task_type=TaskType.CAUSAL_LM,
r=8,
lora_alpha=32,
lora_dropout=0.1,
target_modules=["q_proj", "v_proj"], # attention layers
)
model = get_peft_model(model, lora_config)
# 2000 esempi di (prompt, completion) nel dataset
training_args = TrainingArguments(
output_dir="./lora_output",
num_train_epochs=3,
per_device_train_batch_size=16, # ridotto grazie a LoRA
learning_rate=2e-4,
)
trainer = Trainer(model=model, args=training_args, train_dataset=dataset)
trainer.train()
Deploy in produzione richiede un inference engine ottimizzato. Non usare transformers.pipeline() in produzione — e troppo lento. Usa:
- vLLM: Inference server specializzato con paged attention, batch rewriting dinamico, continuous batching. Riduce latency di 3-5x vs transformers nativo.
- Text Generation Inference (TGI) di Hugging Face: Scritto in Rust, GPU-accelerated, buon supporto per quantizzazione (AWQ, GPTQ, bfloat16).
Un stack di deployment tipico:
# docker-compose per inference SLM
version: '3'
services:
vllm-server:
image: vllm/vllm-openai:latest
environment:
MODEL_NAME: "meta-llama/Llama-2-8b-instruct-hf"
TENSOR_PARALLEL_SIZE: 1
GPU_MEMORY_UTILIZATION: 0.9
ports:
- "8000:8000"
gpus:
- device: 0
capabilities: [compute, utility]
volumes:
- ./models:/root/.cache/huggingface/hub # cache modelli
Questo server espone un'API /v1/completions compatibile con OpenAI. Il throughput tipico: 150-200 request/sec su L4 con batch size 32-64.
L'integrazione dei dati aziendali avviene in tre momenti:
- Pre-training di contesto (opzionale): Se hai 100GB di documenti proprietari, training da zero e overkill. Continua il pre-training del modello base su 1-2 epoch sui tuoi dati accelera convergenza in fine-tuning.
- Fine-tuning supervisionato (obbligatorio): 500-2000 coppie (prompt, expected_output) raccolte da casi reali o sintesi di procedure interne.
- RAG (Retrieval-Augmented Generation) (raccomandato): Il modello non "memorizza" il 100% della tua knowledge base. Invece, per ogni query, recupera i documenti rilevanti da un vector store e li mette in context. Un SLM 8B con RAG spesso batte un LLM generico senza RAG.
Procurement AI e AI Act: la governance di mantenere i pesi in-house
Qui il calcolo economico si estende oltre il solo costo computazionale. La complianza normativa e la data governance diventano fattori decisivi.
L'AI Act europeo (in vigore dal 2025 per i provider, 2026 per gli adopter) introduce obblighi specifici su:
- Tracciabilità dei dati di training: Se il modello e fornito via API esterna, la responsabilita di auditability ricade formalmente sul provider. Se gestisci il modello in-house, la responsabilita e tutt pienamente tua — ma hai il controllo totale.
- Nessun bias ingiustificato: Un LLM generico e addestrato su miliardi di token internet, quindi rispecchia biases sistemici. Un SLM fine-tuned su tuoi dati aziendali riflette le tue scelte di selezione dati e puoi correggere proattivamente.
- Diritto di contestazione: Se un sistema AI nega un prestito o un'assunzione basato su un modello, l'interessato ha diritto a spiegazioni. Con un SLM in-house, puoi registrare esattamente quali dati di training hanno influito sulla decisione (tramite attention analysis). Con una API remota, sei opaco.

Nodi geometrici protetti per governance in-house
L'implicazione pratica sulla sicurezza dei dati e ancora piu diretta:
- Dati industriali sensibili: Se il tuo use case e anomaly detection su dati SCADA di impianti, controllati farmaceutici, formulazioni proprietarie, l'invio di questi dati a server terzi introduce un rischio di conformita GDPR/HIPAA/industria-specifico non negligibile. Anche se il provider promette crittografia, il fatto che i token transiti per reti pubbliche e sufficiente a triggare audit di compliance.
- Vendor lock-in mitigato: Le API cambiano. ChatGPT Plus costa $20/mese oggi, domani potrebbe costare $50. I modelli vengono deprecati. Un SLM che possiedi rimane usabile indefinitamente, anche se il provider originale chiude shop.
- Ciclo di vita prevedibile: In produzione, devi essere in grado di rollback a una versione precedente del modello se una release introduce regressioni. Con API, non hai controllo. Con SLM self-hosted, ogni versione e nel tuo git repo.
Le aziende B2B "mature" — banche, pharma, automotive — ormai considerano il self-hosting non come un'opzione ma come un requirement architetturale. Il costo di sviluppo di un SLM specializzato e rapidamente ammortizzato dal valore della compliance e della riduzione del rischio.
Dalla POC alla produzione: architetture AI scalabili con Jungletech
La transizione dalla Proof of Concept al sistema in produzione introduce una frattura spesso sottovalutata.
Una
