Перейти к содержанию

Выбор ресурсов

Подберите конфигурацию пода исходя из требований вашей задачи.

Выбор правильной конфигурации — ключевой шаг для эффективной работы. Это руководство поможет оценить потребности вашего проекта и подобрать подходящие ресурсы.

Анализ задачи

Прежде чем выбирать под, определите, что именно вы будете запускать:

  • Обучение моделей — требует мощного GPU с большим объёмом VRAM и высокой пропускной способностью памяти.
  • Инференс (генерация) — менее ресурсоёмок, часто достаточно среднего GPU.
  • Обработка данных — нагружает CPU и RAM больше, чем GPU.
  • Рендеринг — нуждается как в мощном GPU, так и в быстром хранилище.

Для ML-моделей изучите документацию модели на Hugging Face или откройте файл config.json — там обычно указаны минимальные требования к памяти.

Инструменты для оценки ресурсов

  • Hugging Face Model Memory Calculator — оценка памяти для трансформеров.
  • Can it run LLM — проверка совместимости железа с конкретной языковой моделью.
  • VRAM Estimator — приблизительный расчёт необходимого объёма VRAM.

Ключевые параметры

GPU

GPU — основа производительности для большинства ML-задач. На что обратить внимание:

  • Архитектура — большинство ML-фреймворков (PyTorch, TensorFlow) работают только с NVIDIA CUDA. Более новые архитектуры (Ampere, Ada Lovelace, Hopper) быстрее на задачах с fp16/bf16 и имеют тензорные ядра.
  • Количество CUDA-ядер и тензорных ядер — определяет скорость вычислений.
  • Пропускная способность памяти — критична при работе с большими батчами.

Для инференса часто достаточно GPU среднего класса. Для обучения больших моделей нужны топовые варианты.

VRAM

VRAM — видеопамять GPU. Нехватка VRAM приводит к ошибке CUDA out of memory и полной остановке работы.

Правило для LLM: ~2 ГБ VRAM на каждый миллиард параметров модели при загрузке в fp16.

Размер модели Минимальный VRAM
7B параметров ~14 ГБ
13B параметров ~26 ГБ
34B параметров ~68 ГБ
70B параметров ~140 ГБ (multi-GPU)

При обучении (fine-tuning) потребность в VRAM выше — дополнительно нужна память для градиентов и оптимизатора. Методы вроде LoRA или QLoRA позволяют существенно снизить требования.

CPU и RAM

Для большинства GPU-задач CPU и RAM не являются узким местом, но учитывайте:

  • Предобработка данных и загрузка датасетов — CPU/RAM интенсивны.
  • Рекомендуется минимум 2× объём VRAM в системной RAM для комфортной работы.

Хранилище

Учитывайте суммарный объём:

  • исходные данные и датасеты
  • веса моделей (LLM-модели могут весить десятки ГБ)
  • промежуточные файлы и чекпоинты
  • результаты и выгрузки

Данные во временном хранилище пода удаляются при его остановке.

Баланс производительности и стоимости

  1. Начинайте с меньшего — для разработки и тестирования достаточно бюджетного GPU. Переходите на более мощный только когда это реально нужно.

  2. Оцените время работы — краткие задачи (генерация, инференс) выгоднее запускать на мощном GPU на короткое время, чем держать слабый под несколько часов.

  3. Multi-GPU — если задача поддерживает параллелизм (DDP, tensor parallelism), несколько GPU могут сократить время обучения линейно.

Следующие шаги

Быстрый старт Работа с файлами