Why Fine-Grained Resource Quotas are the Future of Cost-Effective Serverless AI Inference