LLM Kompressions-Demonstration

Quantisierung

Mathematische Grundlagen

Quantisierungsformel:

Q(w) = clip(round((w - w_min)/s), 0, 2^b-1)

w_rec = Q(w) × s + w_min

w = Original weight
s = Scale factor = (w_max - w_min) / (2^b - 1)
b = Bit precision
w_min, w_max = Weight range bounds

Live Berechnung:

Scale: 0.266667

Range: [-2, 2]

Levels: 16

Fehleranalyse:

MSE = E[(w - ŵ)²]

SQNR = 6.02b + 1.76 dB

ŵ = Dequantized weight
SQNR = Signal-to-Quantization-Noise Ratio

Aktuelle Fehler:

MSE: 0.0041

SQNR: 25.84 dB

Max Error: ±0.03125

Methode auswählen

AWQ

AQLM

QuIP#

SLIM

Bit-Präzision: 4 bit

1 4 8

Interaktive Demonstration

Input Weight (Float32):

Quantisiert:

Rekonstruiert:

1.2500

Absoluter Fehler: 0.0153

Relativer Fehler: 1.24%

Live-Metriken

Kompression

2.3%

Accuracy Loss

Gewichtsverteilung

32bit

Original

4bit

Quantisiert

Quantisierungs-Algorithmus

1. Scale Berechnung: s = 4.0/15 = 0.267

2. Normalisierung: w/s = 1.235/0.267 = 4.6

3. Rundung: round(4.6) = 5

4. Rekonstruktion: 5 × 0.267 = 1.335

LLM Kompressions-Demonstration

Neural Network Architektur

Architektur

Gewichts-Statistiken

Gewichtsverteilung

Quantisierung

Mathematische Grundlagen

Quantisierungsformel:

Fehleranalyse:

Interaktive Demonstration

Live-Metriken

Gewichtsverteilung

Quantisierungs-Algorithmus

Pruning

Salienz-Metriken & Algorithmen

Wichtigkeitsmetriken:

Optimierungsziel:

Pruning-Ergebnis

Neuron Pruning Visualization

Knowledge Distillation

Distillation-Mathematik

Loss-Funktion:

Soft Targets (Temperatur-Skalierung):

Hyperparameter

Transfer-Qualität

Wissenstransfer

Distillation-Algorithmus

Mixture of Experts: Conditional Activation

MoE Architecture

Deterministisches Gating:

Load Balancing & Entropie:

Routing Strategy:

Load Balancing:

Expert Routing Visualization

Leistungsvergleich

Kompression vs. Genauigkeit

Speicherbedarf

Inferenzgeschwindigkeit

Technik-Vergleich