Live-Visualisierung von Pruning, Quantisierung, Distillation und Mixture of Experts Techniken zur Kompression von LLM-Gewichten
Basierend auf Tests mit LLaMA-2-7B auf einer NVIDIA A100 GPU
Methode | Technik | Bit-Präzision | Reduktion (%) | Accuracy Loss (%) | Speedup |
---|