vLLM

Production inference engine hiệu suất cao — PagedAttention, throughput gấp 2-4× so với baseline

Engine serving LLM cho production. Công nghệ PagedAttention giúp tối ưu GPU memory, đạt throughput gấp 2-4× so với FasterTransformer/Orca. Hỗ trợ continuous batching, tensor parallelism, speculativ...