понедельник, 3 августа 2020 г.

Тест-драйв HYPERPC PRO T7 STUDIO. Взгляд на платформу NVIDIA STUDIO в действии

Коллеги и друзья я рад приветствовать вас в очередном большом обзоре новинок компьютерного оборудования. В прошлом году я активно тестировал ноутбуки созданные на основе инициативы и платформы NVIDIA STUDIO, и ориентированные на широкий круг пользователей. Я протестировал два ноутбука от MSI (см. ссылки в конце публикации) и продемонстрировал возможности платформы NVIDIA STUDIO.
В этом году специалисты CG-индустрии и проектирования много говорят о Blender и AI, а также ML, но, я же как всегда в поиске интересных решений и способов применить возможности нового оборудования, такого как процессоры Intel Core 10-го поколения, и NVIDIA TITAN RTX. Оказалось, что с помощью таких систем можно решать самые разнообразные вычислительные задачи в параллельно.

Итак, мы в M&E и области проектирования всегда испытываем определенные трудности при нехватке вычислительной мощности рабочих станций. Но в то же время, хотим приобретать компьютеры, которые будут стоять на рабочем месте не один год и выполнять самые разнообразные задачи, «привет дженералистам!»* :).
В новейшем тестировании и практической оценке решения и демонстрации возможностей NVIDIA STUDIO я постарался собрать максимум информации о десятом поколении процессоров Intel Core i9 и GPU линейки TITAN RTX и изучить возможности технологии NVIDIA NVLink.
Сразу замечу, что каждое из приложений по своему использует возможности CPU и GPU, а также может поддерживать и не поддерживать режим NVIDIA SLI, и в частности NVLink, а это может потребовать создания глобальных конфигураций системы под определенные задачи.
* - Дженералист (Generalist) - в индустрии M&E является специалистом широкого профиля, способным решать самые разнообразные задачи за короткое время. - прим. автора.

Характеристики протестированной рабочей станции HYPERPC PRO T7 STUDIO

В прошлом году мне довелось протестировать превосходные ноутбуки на основе платформы NVIDIA STUDIO, данные обзоры были с интересом встречены профессиональными пользователями. Зимой 2020 года, компания NVIDIA объявила о расширении платформы NVIDIA STUDIO и на десктопные системы. Идея заключается в том, чтобы создавать сбалансированные рабочие станции с применением единого многофункционального драйвера — STUDIO DRIVER, который содержит не только обширные настройки и шаблоны для игровых приложений, но и реализует поддержку профессиональных приложений и графических ускорителей линейки NVIDIA Quadro, а пользователям GPU линейки GeForce становятся доступны новые возможности, ранее доступные только в линейке GPU NVIDIA Quadro. Мне же, как профессиональному пользователю, было интересно взглянуть и протестировать современные приложения на современном оборудовании с поддержкой многих передовых технологий, и сравнить, как изменилась производительность нового процессора по сравнению с CPU предыдущих поколений и даже с CPU от AMD. При этом, я планирую обновлять свою рабочую станцию, и я непременно рискнул предоставленной мне возможностью протестировать современный компьютер.

Рис. 00. Фотография пришедшего ко мне на тест-драйв компьютера
В свежем обзоре я рассматриваю новинку этого лета, а именно высокопроизводительную рабочую станцию HYPERPC PRO T7 от компании HYPERPC, в кастомной конфигурации.
Для вашего удобства я подготовил список всех ключевых характеристик протестированной мною рабочей станции:
Как я писал в ранних обзорах, ключевыми для платформы NVIDIA STUDIO являются нескольких правил, обеспечивающих высокую производительность в работе. По своей сути, мы увеличиваем размер системы из мобильного форм-фактора до размеров полноценной рабочей станции, с возможностью более гибкой кастомизации. А формат настольного ПК для этого подходит лучше всего.
Для моего тестирования была подготовлена модификация компьютера с двумя GPU NVIDIA TITAN RTX, поставляемых с 24 Гб графической памяти, и созданных на основе чипа TU102 на базе архитектуры NVIDIA Turing.
В качестве платформы была выбрана материнская плата ASUS WS X299 SAGE, созданная на основе чипсета X299 и поддерживающая процессоры Intel Core 10-го поколения. Для работы с большими массивами данных, я попросил укомплектовать компьютер 128 Гб ОЗУ, что позволило протестировать приложения с ИИ, а также протестировать визуализацию комплексных моделей и сцен.
Сердцем всей системы является процессор Intel Core i9-10940X. Процессоры 10-го поколения стали доступны совсем недавно и пока в основном доступны среди компаний производителей компьютерного оборудования. Так как плата поддерживает установку двух и более GPU, для тестов разработчики системы предложили установить два GPU NVIDIA TITAN RTX объединенные мостом NVLink. Чтобы протестировать производительность системы в различных задачах и приложениях, требовательным к системной памяти и памяти GPU. Это особенно актуально в задачах обработки видео и композитинга ,где могут быть активно использовать возможности GPU для ускорения вычислений и хранения кэша данных.
Перед тем, как я поделюсь результатами тестирования я и подробнее опишу ключевые особенности каждого из протестированных компонентов, я хочу сделать небольшое отступление и описать процессы и задачи, которые используют определенные компоненты системы (CPU, GPU, SSD, HDD). Одним из важных моментов является тестирование совокупности компонентов системы, когда в вычислениях активно участвуют и CPU и GPU, а также дополнительное оборудование, обеспечивающее ускорение вычислений в специализированных задачах, например обработка звука, или оцифровка видеосигнала.

Взаимодействие в различных процессах

Одним из проблемных мест многих обзоров является то, что все тесты выполняются с учетом того, что нагрузка производится на определенный элемент компьютерной системы, например на процессор или видеокарту. Но когда мы работаем, программа задействует практически все компоненты системы, например считывает данные с жесткого диска или SSD-накопителя, а также может обратиться к сетевому хранилищу. Затем они загружаются в системную память и далее их визуализацию выполняет графический ускоритель, и вот здесь, важность обработки данных и последовательности операций, выполняемых внутри приложений, возрастает.
Опираясь на личный опыт, я стараюсь не использовать параллельно и CPU и GPU, и считаю особой расточительностью отдавать память GPU, даже если её объем составляет 11 или даже 24 Гб, под хранение кэша страниц веб-браузера. А вот использовать GPU как инструмент для кэширования данных в процессе анимации, визуализации и композитинга, гораздо выгоднее.
Каждое приложение обладает определенным набором инструментов, классические приложения зачастую большинство вычислений выполняют с помощью CPU, а GPU выполняет визуализацию изображения в окне проекции или на экране. Т.е. когда мы выполняем действие, чтобы GPU отобразил изображение, необходимо, чтобы CPU предварительно выполнил вычисление. Это хорошо заметно в играх, когда манипулируя персонажем, анимация и дополнительные трансформации рассчитывается CPU, а GPU формирует кадр, и это все должно происходить в 1/60 секунды и даже быстрее. Но в играх по сути мы работаем с кэшем, заранее подготовленными наборами операций и анимации, а если говорить про создание моделей, их анимацию и визуализацию, здесь процесс изменяется и CPU может быстро не обработать данные, из-за чего мы видим снижение производительности. Такие приложения как Autodesk Maya обладают внутренними  инструментами для профилирования и оптимизации сцены. Технические специалисты могут заранее продумать, какие задачи будут выполняться на CPU, а какие на GPU, или они будут выполнены параллельно.
Чтобы система корректно справлялась с поставленными задачами, и были минимальные задержки, необходимо подбирать компоненты, которые способны быстро выполнять как последовательные, так и параллельные вычисления. А для этого необходима надежная и высокоскоростная передача данных между CPU и GPU, за что обычно отвечает шина PCI-E и системная шина, отвечающая за передачу данных из системной памяти в CPU и обратно.
Рассмотрим три примера возможных рабочих процессов, в которых пользователь выполняет определенные операции, но задействует различные инструменты, разработанные для выполнения на CPU, GPU или в гибридном режиме (CPU/GPU).

Рис. 1. Рабочий процесс взаимодействия операций выполняемых пользователем и оборудования
В приведенном на рисунке 1 примере вы можете видеть единый рабочий процесс, состоящий из нескольких операций, например создание модели с применением различных инструментов программы, которые разработаны для выполнения на CPU, а какие-то на GPU. В большинстве процессов мы создаем контент используя CPU. Выполняя действие в программе, процессор выполняет вычисления и затем передавая обновленные данные алгоритму визуализации, визуализирует с помощью GPU. В иных случаях GPU может быть как со-ускоритель вычислений, и формировать не только визуальный результат, но и выполнять соответствующий расчет.

Рис. 2. Рабочий процесс в котором использованы три подхода к выполнению операций
Второй возможный сценарий выполнения операций, это применение инструментов с различными функциями и возможностями аппаратного ускорения. Так мы можем простые операции, переложить на плечи CPU, в то же время, массивные параллельные вычисления, можно передать GPU. Это хорошо видно в процессе работы с видео-контентом и его кодированием/декодированием. В ряде задач, например в процессе гибридного рендеринга или процессе дополнительных вычислений при изменении модели, могут быть применены как CPU, так и GPU. Например внесены изменения в лопатки турбореактивного двигателя, сами лопатки и их форму перестроить не сложно, а вот обработать модель, изучить потоки воздуха и завихрения, расчет может быть переложен на плечи GPU, или в гибридном режиме.

Рис. 3. Рабочий процесс в котором использован гибридный подход к вычислениям
Наиболее оптимальным, но не всегда реализуемым постоянно, является гибридный процесс, когда используются возможности CPU и GPU и правильно скомбинированы инструменты для работы. На рисунке 3 приведен пример подобного процесса, когда операции пользователя выполняются и на CPU и на GPU, но постоянно. Такой подход хорошо используется специалистами по компьютерной визуализации и цифровому композитингу. Это позволяет постоянно использовать возможности всей системы в целом, а не отдавать все ресурсы одной  задаче.
Использование многопроцессорных, многопоточных архитектур позволяет создавать сложные рабочие конвейеры для достижения максимальной производительности в работе. Использование возможностей виртуализации значительно расширяет границы по созданию комплексных вычислительных систем в рамках одной рабочей станции. Но потребует дополнительного финансирования, так как аппаратное ускорение виртуальных сред пока доступно только в решениях NVIDIA Quadro и NVIDIA Tesla.
Процессы могут быть разнообразны и многие из них реализуемы в большинстве программных решений, доступных на рынке. Зная возможности инструментария приложения пользователь может активно использовать возможности аппаратного обеспечения, что я и постараюсь продемонстрировать в данной статье на нескольких примерах, а также возможности драйвера NVIDIA STUDIO.
Современные решения от ASUS и NVIDIA могут быть сконфигурированы под решение целого ряда задач. Когда одни задачи, требуют меньшего энергопотребления, а когда большего, и для каждой из них может быть создан свой профиль.

Обзор и тестирование компонентов системы NVIDIA STUDIO

И вот мы подобрались к самому вкусному — тестированию и оценке каждой компоненты системы созданной на основе концепции платформы NVIDIA STUDIO. В этом обзорном тестировании я провел тесты современного CPU и GPU, а также систем хранения данных. Начну свой обзор с CPU Intel Core i9-10940X.

Процессор Intel Core i9-10940X

В основе первоначальной идеи платформы NVIDIA STUDIO лежали мобильные  процессоры Intel Core 7-го и 9-го поколений. В связи  с расширением возможностей и областей применения платформы NVIDIA STUDIO, а также расширения функционала драйверов, а также позиционирование на область настольных компьютеров. В 2020 году Intel выпустила десятое поколение процессоров Intel Core. Все процессоры десятого поколения начинаются с цифры 10. Наиболее выигрышные с точки зрения функционала и возможностей для оверклокинга являются процессоры Core серии X. Для тестирования мне потребовалось даже подождать, пока на рынке появятся процессоры Core i9 десятого поколения. Возможность даже небольшой корректировки частоты процессора или каких-то определенных параметров материнской платы, может помочь оптимизировать производительность системы в целом.
В предоставленной мне на тест-драйв системе специалисты из HYPERPC установили процессор Intel Core i9-10940X с техническими характеристиками которого вы могли познакомиться выше в приведенном списке.
Процессор Core i9-10940X относится к архитектуре Cascade Lake, являющейся результатом оптимизации архитектуры Skylake и ее 14 нанометрового процесса производства. Одним из важных нововведений является оптимизация энергопотребления и тепловыделения. Также разработчики добавили поддержку модулей памяти на основе 3D XPoint. Также в новую архитектуру были добавлены инструкции Deep Learning Boost и уменьшены риски связанные с аппаратными уязвимостями Meltdown и Spectre.

Рис. 4. Информация о процессоре Intel Core i9-10940X в утилите CPU-Z
Помимо оптимизации энергопотребления и тепловыделения разработчики ставили перед собой задачу повысить производительность вычислений. Так, тестируемый мною образец содержит 14 ядер/28-потоков, работает на частоте 3.3 GHz, а благодаря технологии Turbo Boost 2.0 частота процессора может быть увеличена до 4.6 GHz для одного ядра, и до 4.1 GHz для всех ядер. При использовании Turbo Boost 3.0, частота процессора может быть повышена до 4.8 GHz, что в ряде вычислительных задач позволяет значительно нарастить производительность. Новый процессор обладает кэшем третьего уровня (L3 cache) объемом 19.25 Mb, и поддерживает 4 канала памяти, с максимальной пропускной способностью в 94GB/s, стандарта DDR4-2933.
За последние годы я протестировал несколько моделей процессоров разных поколений и от нескольких производителей. Это позволит нам проследить за изменением производительности в вычислениях оптимизированной архитектуры Intel Cascade Lake.
Я всегда провожу тестирование с помощью наборов профессиональных синтетических тестов от SPEC охватывающих большинство задач, выполняемых с помощью современных высокопроизводительных компьютеров. Также я провожу тестирование с помощью практических приложений, таких как Autodesk Maya, Blender, DaVinci Resolve и других.
Конечно, результат напрямую зависит от поддержки функционала новой архитектуры и её возможностей. Обычно, для оптимизации программного обеспечения под новую архитектуру  требуется от полугода до года. Также необходимо помнить и понимать, что разработчики могут реализовать определенные инструменты, разработанные с учетом возможностей новой архитектуры процессора которые могут быть недоступны в системах построенных на предыдущем поколении процессоров. Это особенно актуально в свете многофункциональной и очень развитой архитектуры современных графических ускорителей от NVIDIA.
В процессе тестирования я выделяю несколько областей и тестирую CPU с помощью синтетических и практических тестов и сверяюсь с ранее собранными данными.
В новом тестировании я постарался провести сравнение производительности нескольких поколений CPU от Intel и сравнил с ранними тестами CPU от AMD. Хочется сказать сразу, что процессор от Intel 10-го поколения меня порадовал, также как в свое время меня впечатлили решения от AMD на основе архитектуры ZEN. Я же сейчас опираюсь на свою оценку на основе свежего тестирования с применением современного программного обеспечения, разработанного в последние пару лет, с учетом поддержки всех необходимых инструкций процессора и API.
Давайте взглянем на результаты тестирования процессора Intel Core i9-10940X.

Результаты тестов CPU в SPECwpc 3

Набор тестов от SPEC давно стал для меня важным инструментом в подготовке обзоров и тестировании оборудования. Его разработкой занимаются не первый год и он включает в себя множество разнообразных тестов, которые опираются на реальные приложения и алгоритмы. Поэтому, с его помощью можно хорошо протестировать систему в самых разнообразных нагрузках.

Рис. 5. Результаты теста SPECwpc M&E CPU
Тест SPEC M&E используется для определения производительности CPU в визуализации трехмерной графики, кодировании/декодировании видео. В основе теста лежит измерение времени затрачиваемого на визуализацию растрового изображения с помощью Blender и LuxRender. Также, тест включает в себя измерение скорости кодирования видео с помощью приложения Handbrake с понижением разрешения из формата 4K и кодирования с помощью кодеков H.265 и H.264. Как видно из приведенной на рисунке 5 диаграммы, новый процессор от Intel не уступает своему предшественнику, а в ряде задач превосходит его и своего конкурента в лице AMD Ryzen Threadripper 2950X, протестированного мною ранее. Если выбирать процессор для выполнения визуализации и кодированию/декодированию видео, согласно тестам SPECwpc я рекомендую присмотреться к новому процессору от Intel.

Рис. 6. Результаты теста SPECwpc Product Development CPU
В области разработки продуктов, новый процессор от Intel также показал хороший результат. Не считая странного снижения производительности в тесте Viewperf, связанного с SolidWorks  (Sw-03). Если присмотреться к производительности CPU от AMD, то он лидирует в тестах, связанных с вычислениями с плавающей точкой. Так, процессор AMD показывает наибольшую производительность в тестах CalculiX и Rodinia (CFD). А тест WPCcfd, являющийся решателем XiFoam для сгорания OpenFOAM, и используется для решения проблемы сжигаемого предварительно смешанного / частично предварительно смешанного горения с моделированием турбулентности.

Рис. 7. Результаты теста SPECwpc Life Sciences CPU
В группе тестов Life Sciences новый процессор Intel показал очень хороший результат, незначительно уступая процессору Threadripper 2950X. Здесь процессор от AMD за счет большего количества вычислительных ядер и потоков показывают результат лучше.

Рис. 8. Результаты теста SPECwpc Financial Services CPU
В задачах связанных с вычислениями алгоритмов в финансовых операциях, процессор Intel Core i9-10940X показывает хороший результат в тесте с алгоритмом Monte Carlo, но также из-за меньшего количества ядер, уступает процессору AMD. Конечно, увеличение или достижение равного с AMD результата можно получить с помощью замены процессора на старшую модель, например Core i9-10980X.

Рис. 9. Результаты теста SPECwpc General Operations CPU
В задачах работы с Python и 7-Zip, новинка от Intel показывает свое превосходство. Учитывая тот факт, что процессор AMD более производителен с точки зрения технических характеристик, обновленная архитектура Intel и оптимизация программного обеспечения дают серьезное повышение производительности.

Рис. 10. Результаты теста SPECwpc Energy CPU
В таких требовательным к вычислительным мощностям областям, как геология и энергетика, в наборе тестов от SPEC новый процессор от Intel также показал себя с хорошей стороны. Значительно уступив в двух тестах своему младшему коллеге и представителю конкурента. Самый наихудший результат, в данном тесте Core i9-10940X показал в тесте SRMP, который выполняет вычисления в области обработки сейсмических данных.

Результаты тестирования в Autodesk Maya 2020 и MtoA 4

Пакет Autdoesk Maya и ядро визуализации SolidAngle Arnold активно используют возможности CPU и GPU для выполнения разнообразных вычислений. Отличительной особенностью Maya является поддержка возможностей для использования памяти GPU для кэширования данных сцены, а если в рабочей станции используется большой объем памяти, то аниматоры получают возможность активно использовать инструментарий Playback Cache, а при создании кэша анимации, использовать возможности многопоточных CPU и GPU. Помимо этого, специалисты по Look Development, работающих с ядром визуализации Arnold Renderer могут использовать возможности таких CPU как Core i9-10940X и GPU NVIDIA TITAN RTX для увеличения производительности в работе с комплексными моделями, содержащими высококачественные текстурные карты в высоком разрешении и детализацией, а также моментально вносить изменения в модель и сцену в целом, визуализируя изображение за несколько минут, или даже секунд. В данном тестировании я покажу вам, как работает Maya и Arnold Renderer (MtoA 4) на многопроцессорных и многопоточных системах.

Рис. 11. Пример модели, используемой для теста скорости визуализации 3D сцены
Autodesk Maya по праву считается одним из лидирующих приложений, активно использующим множество технологий. Как результат активной совместной работы Autodesk и NVIDIA, стала реализация мощной системы кэширования данных в виде Playback Cache и поддержка вычислений на GPU ряда требовательных к производительности вычислений деформеров. Ядро Viewport 2.0 также разработано с применением возможностей API OpenGL и DirectX, и поддерживает язык программирования шейдеров GLSL и расширения от NVIDIA (доступно в Maya SDK).
Начиная с Maya 2020, приложение получило поддержку новейшего формата данных - USD (Universal Scene Description), и специального графического ядра Hydra. Это внутренняя разработка PIXAR Animation Studios, опубликованная в открытом доступе. Данные технологии легли в основу платформы NVIDIA Omniverse.

Рис. 12. Результаты тестирования скорости визуализации сцены NVIDIA SOL с помощью CPU
Одним из ключевых продуктов компании Autodesk, поддерживающим NVIDIA RTX и для которого оптимизируются драйверы NVIDIA STUDIO является ядро визуализации SolidAngle Arnold 6. На рисунке 12 приведена диаграмма, сравнивающая производительность различных компонент компьютерных систем. как видите, графические ускорители на основе GPU NVIDIA Turing. В протестированной мною рабочей станции HYPERPC PRO 7T STUDIO установлены два GPU NVIDIA TITAN RTX, объединенных мостом NVLink. Данная конфигурация позволила использовать вычислительные возможности двух GPU для ускорения вычислений в процессе визуализации. На визуализацию представленной на рисунке 11 сцены им потребовалось 99 секунд. Это наилучший показатель из протестированных мною GPU и систем в целом. Также хочется отметить, что Arnold Renderer превосходно поддерживает NVLink и позволяет использовать возможности передачи данных между GPU на максимальной скорости. Все тесты с двумя GPU, представленными в данной статье с системами визуализации выполнены с поддержкой NVlink.

Результаты тестирования в Blender 2.8

Пакет компьютерной графики и анимации Blender давно вызывает большие дискуссии в профессиональном сообществе. Ему уделяется много внимания среди пользователей. На текущий момент развития, в Blender доступны два мощных инструмента — ядро визуализации Cycles, и ядро аппаратной визуализации EEVEE. Ядро EEVEE как раз наделал много шума, и сразу был тепло встречен пользователями. Его ключевым преимуществом является поддержка высококачественной аппаратной визуализации, выполняемой с помощью GPU, при этом, такие графические ускорители как NVIDIA TITAN RTX могут быть использованы для создания высококачественного образа, с высококачественными текстурами и сложными эффектами для затенения. Для работы с визуализацией с помощью EEVEE, наличие объемов графической памяти более 16 Гб становится крайне желательным, так как вывод изображения на дисплеи с большим разрешением и подготовка текстурных карт в разрешениях 4K и 8K требуют загрузки данных в память GPU.

Рис. 13. Сцена из проекта Grossbery, используемая для замера скорости визуализации кадра

Рис. 14. Сравнение производительности различных моделей и поколений процессоров в Blender Cycles Engine
Скорость визуализации трехмерных сцен наглядно демонстрирует развитие производительности центральных процессоров последних поколений. Классические ядра визуализации, такие как V-Ray, RenderMan, Arnold и др. ориентированы на разработчиков ПО, расширяющих их функционал, при всей привлекательности GPU, на CPU выполняется большинство задач, при этом, персонализированные разработки вести выгоднее на CPU, и только затем портировать решение на GPU. Классические алгоритмы Path Tracing и Monte Carlo превосходно работают на GPU, но вот решения на основе Bucket Rendering зачастую реализуются только на CPU, за рядом исключений.
Я уже не первый год активно тестирую производительность CPU с помощью тестов визуализации с помощью Cycles Renderer и вижу, как развиваются CPU и сам пакет Blender в плане производительности. Диаграмма на рисунке 14 наглядно показывает прирост производительности в современных CPU в последние 3 — 4 поколения.
Как основу можно взять моего старого верного помощника — Intel Xeon E3-1240 v2, который  у меня используется как опорная точка. Также, в текущем тестировании я сравнил результаты тестов из своих предыдущих исследований, посвященных процессорам AMD Ryzen Threadripper первого и второго поколений. Согласно приведенной диаграмме, новейшее поколение процессоров Intel показывает очень хороший результат в производительности визуализации трехмерной графики. Оптимизация ядра Blender Cycles, выполненная разработчиками, также сказывается на результатах тестирования. Отмечу, что Cycles становится production ready решением, и уже получил независимую редакцию, в виде standalone приложения.
На диаграмме отчетливо видно, как Intel Core i9-10940X даже при базовых характеристиках и без разгона показывает хорошую производительность. Это особенно хорошо заметно в визуализации сложной комплексной сцены с процедурными эффектами из проекта Grossbery. Ближе к нему подходит процессор 7-го поколения Core i9-7900X, протестированный мною около двух лет назад в тестах процессоров AMD Ryzen Threadripper. Если же сравнить с Threadripper, то Core i9-10940X показал высокую производительность в визуализации именно сложных процедурных эффектов, наподобие формирования травы, меха и волос.

Взгляд на Autodesk Fusion 360 и многопоточные вычисления

Пакет Fusion 360 от Autodesk является одним из самых динамично развиваемых САПР на рынке решений для машиностроения, 3D-печати, генеративного дизайна и анализа комплексных моделей. Его возможности как локального приложения, выполняемого на персональном компьютере пользователя, значительно расширены с помощью облачного сервиса Fusion 360.

Рис. 15. Модуль CAM во Fusion 360 использует для вычислений многопоточные CPU и GPU для интерактивной визуализации процесса создания детали
Fusion 360 превосходно подходит под концепцию платформы NVIDIA STUDIO и может быть использован на таких рабочих станциях как T7 STUDIO от HYPERPC. Приложение использует возможности нескольких GPU для ускорения вычислений и визуализации модели, активно использует многопоточные процессоры для выполнения моделирования CAM и CFD.
Применение многопоточных процессоров, таких как Intel Core i9-10940X превосходно подходит для моделирования сложной геометрии. Этот момент важно учитывать при выборе рабочей станции, так как история создания модели, может достаточно долго вычисляться, особенно в комплексных сборках и высокодетализированных элементах.

Результат теста в RealFlow 10

Моделирование жидкостей и сложных динамических эффектов всегда являлось ресурсоемкой задачей, особенно когда речь заходит о моделировании сложных и реалистичных сцен, в которых взаимодействуют множество объектов моделируемая среда (вода, гель, газ и т. п.).
В своей работе я обычно использую пакет RealFlow 10, обладающий большим функционалом и на основе математического ядра которого разработан инструментарий входящий в поставку пакета Dassault Systemes Simulia, носящий имя XFLOW.
Пакет RealFlow поддерживает вычисления не только на CPU, но также активно развивает ускорение с помощью GPU. И такие решения как NVIDIA TITAN RTX, помогают специалистам по моделированию жидкостей и динамических эффектов быстро решать производственные задачи. На рисунке 16 приведен пример модели всплывающей подводной лодки из демонстрационного проекта RF10, для эксперимента я создал модель продолжительностью 64 кадра, которые процессор смоделировал за 139 минут.

Рис. 16. Модель всплывающей подводной лодки в RealFlow 10. Моделирование эффекта с помощью Core i9 10940X заняло 139 минут
Во время тестирования процессора AMD Ryzen Threadripper 2950X данный тест был пройден за 176 минут. Большая производительность Core i9-10940X объясняется оптимизацией самой архитектуры процессора, бОльшим количеством ядер и потоков, а также оптимизацией ядра Hybrido, используемого в RF10 для моделирования динамических эффектов. В разделе посвященном NVIDIA STUDIO я GPU NVIDIA TITAN RTX я продемонстрирую пример вычислений с помощью ядра Dyverso, доступного в RF10 и поддерживающего NVIDIA CUDA.

Результат теста в ПК ЛИРА 10

Программный комплекс ЛИРА 10 является лидирующим инструментом среди специалистов выполняющих расчеты конструкций зданий и сооружений. Я специально обратился к разработчикам и попросил предоставить мне на короткий период лицензию для тестирования HYPERPC PRO T7 STUDIO. Также разработчики предоставили модель футбольного стадиона города Ростов-на-Дону, оригинальный расчет которой потребовал 72 часа, что по современным меркам очень долго.

Рис. 16.Б. ПК ЛИРА 10 позволяет выполнять анализ конструкций зданий и сооружений высокого уровня детализации за очень короткое время и с высокой точностью
Объект: Футбольный стадион в г. Ростов-на-Дону
Разработчики проекта: НИЛ НиСС МГСУ, ЦНИИПромзданий
Авторы расчетной модели: Мкртычев О.В., Дорожинский В.Б., Бунов А.А., Колесников А.В.
Используя процессор 10-го поколения Intel Core i9-10940X и SSD-накопитель Samsung SSD 970 EVO Plus расчет данной модели в ПК ЛИРА 10.10 занял всего 3,5 часа. Причем особенностью процесса является создание записи данных объемом около 19Гб, что на SSD M.2 выполняется во много раз быстрее в сравнении с HDD. А полный объем всех данных, расчета составил 40 Гб.
Если вы являетесь специалистом по расчетам, и используете такие приложения как ЛИРА 10, я рекомендую присмотреться к выбору рабочей станции с многоядерными CPU и SSD накопителями M.2, на подобии рассмотренного в данном обзоре экземпляре HYPERPC PRO T7 STUDIO, что существенно ускоряет процесс вычислений и подготовки отчетов и сдачи документации на экспертизу.
Презентационное видео подготовленное автором для компании ЛИРА-Софт посвященное возможностям ПК ЛИРА 10. Данное видео было создано с применением технологии NVIDIA RTX, V-Ray for Maya, DaVinci Resolve и NUKE.

Накопители данных

Одним из ключевых элементов каждой системы на основе платформы и концепции NVIDIA STUDIO является высокоскоростной NVMe SSD накопитель подключенный посредством шины PCE-E. Скорость шины PCI-Express 3.0 превосходит стандартный SATA 6Гбит/сек, что позволяет активно использовать данные накопители в работе с видео в формате 4K, 6K и 8K. Также применение накопителей SSD актуально при работе с кэширование данных, например в процессе вычислений динамических эффектов (пример из RealFlow 10), и при работе с алгоритмами машинного обучения, искусственного интеллекта и в процессе исследования данных. Рабочая станция HYPERPC PRO T7 STUDIO, присланная мне на тест-драйв укомплектована 2Tb SSD M.2 от Samsung и 10Tb HDD от Seagate.

Рис. 17. Сравнение производительности SSD-накопителя Samsung SSD 970 EVO Plus и HDD-накопителя Seagate IronWolf
Высокая производительность SSD-накопителя позволяет достичь высокой скорости в чтении и записи данных, особенно временных данных, таких как наборы данных для обучения или кэш частиц динамической модели.
Как видно из теста DiskMark, SSD накопитель Samsung может работать на скорости более 3000 MB/sec. В то время как классический HDD, показывает скромные 248 MB/sec. На рисунке 18 приведен пример трех тестов, выполненных с помощью DaVinci Resolve и демонстрирующих возможности скоростных характеристик SSD накопителя для сборки видео в форматах 4K и преобразовании 4K в DCI (2048х1080).

Рис. 18. Сравнение скорости сборки видео в DaVinci Resolve при чтении данных с SSD-накопителя Samsung SSD 970 EVO Plus и HDD-накопителя Seagate Iron Wolf
Важный момент заключается в том, что SSD-накопитель и классический HDD незначительно влияют на скорость сборки видео, состоящего из данных, записанных в RAW форматах или находящихся в формате QuickTime. Это единый файл занимающий определенную область на диске. Но когда необходимо работать с секвенциями статичных кадров, например в 32-bit формате OpenEXR с компрессией ZIP, тогда, каждый кадр будет представлен как отдельная единица, которую необходимо прочитать, декодировать и загрузить в оперативную память. А если файл объемом около около 97 Mb, то классические жесткие диски значительно уступают в производительности SSD накопителям. Я всегда рекомендую использовать SSD накопители для кэширования данных и для работы над текущими проектами, что позволяет ускорить рабочий процесс в монтаже видео и при создании визуальных эффектов на этапе композитинга.

Материнская плата ASUS WS X299 SAGE

В основе систем RTX STUDIO от HYPERPC лежат высокопроизводительные и многофункциональные материнские платы ASUS. В предоставленной мне на тест-драйв модели HYPERPC PRO T7 STUDIO использована материнская плата для рабочих станций ASUS WS X299 SAGE, созданная на основе чипсета Intel X299. Данная материнская плата превосходно подходит для создания рабочих станций с несколькими GPU и с процессорами Intel Core серии X. Она предоставляет поддержку технологий NVIDIA 4-Way SLI и AMD 4-Way CrossFireX. Наличие семи портов PCI-E позволяет создавать конфигурации содержащие до семи устройств с высокой скоростью предачи данных. А это позволяет разрабатывать системы для таких задач, как фотореалистичная высококачественная визуализация, обработка комплексных моделей и обработка данных, включая машинное обучение.

Рис. 19. Материнская плата ASUS WS X299 SAGE использованная в протестированной конфигурации
Если рассматривать накопители M.2 как основу для всей дисковой подсистемы, которая будет использована в работе, то данная материнская плата превосходно справляется с данной задачей. Так, можно у HYPERPC можно заказать конфигурацию с двумя дисками M.2, или двумя дисками U.2. Помимо этого, благодаря сервису апгрейда компьютеров, можно улучшить конфигурацию системы, не лишая гарантии.
Очень интересным моментом применения семи PCI-Express портов является возможность создания сверх-высокоскоростных RAID-массивов. Эта возможность актуальна при работе с обработкой данных, машинным обучением и при работе с большим количеством файлов малого объема.
Если же вы работаете с видео, то наличие восьми портов SATA позволяет создавать большие хранилища данных и организовывать их в RAID-массив, что существенно помогает в хранении больших объемов видео и фотографий, используемых в работе над мультимедиа-контентом.
Чипсет Intel X299 предоставляет возможность использовать восемь портов USB 3.1 Gen 1, четыре порта USB 2.0. А за счет контроллера ASMedia материнская плата поддерживает три порта USB 3.1 Gen 2, а также порты USB 3 Type-A и USB Type-C.
За обработку звука отвечает семиканальный контроллер Realtek ALCS1220A. Как и другие контроллеры от Realtek поддерживает функции DTS Connect, DTS Headphone:X и Audio Amplifier.
Во всех решениях ASUS реализовано многофункциональное приложение ASUS AI Suite 3. Данное приложение позволяет производить настройку аппаратных компонентов системы и создавать профили конфигураций под различные задачи. Это становится особенно удобно при использовании комплектующих с разгонным потенциалом, таких какие были использованные в протестированном мною решении от HYPERPC.

Рис. 20. Реализовать возможности для разгона системы помогает утилита AI Suite 3 От ASUS
С помощью утилиты ASUS AI Suite вы можете настраивать напряжение, изменять частоты процессора и оперативной памяти, конфигурировать кулеры, установленные в системе и создавать профили индивидуально под конкретное приложение. Именно за счет такого функционала, такие компании как HYPERPC и специалисты, кто собирают высокопроизводительные игровые компьютеры выбирают, решения от ASUS.

Возможности платформы NVIDIA STUDIO с NVIDIA TITAN RTX

Мы подошли к самому интересному, - к тестированию двух высокопроизводительных графических ускорителей NVIDIA TITAN RTX. По своей концепции платформа NVIDIA STUDIO объединяет оборудование, API, SDK, и программное обеспечение, но нацеленная на применение профессиональными пользователями мобильных и настольных компьютеров. Платформа NVIDIA STUDIO предоставляет ряд требований, которые должны быть соблюдены разработчиками мобильных и настольных компьютеров для полноценного соответствия идеям компании NVIDIA и разработчиков ПО.

Рис. 21
Покупая новый компьютер, с маркером NVIDIA RTX STUDIO, вы получите сбалансированный по производительности и функционалу продукт, который будет решать поставленные перед вами задачи с минимизацией временных издержек на подготовку оборудования и ПО для работы.
Компания NVIDIA совместно со своими партнерами, производителями компьютерного оборудования, давно создает уникальные решения, оптимизированные для профессиональных игроков, и профессиональных дизайнеров, разработчиков, занимающихся разработкой приложений с применением CUDA и решений библиотек с возможностями искусственного-интеллекта.

Почему была создана платформа?

К созданию новой платформы и концепции компанию NVIDIA подстегнули три фактора. Первый — огромное количество on-line ресурсов в сети Интернет, второе -огромный массив данных, загружаемый в формате видео, только на один YouTube в минуту загружается около 400 часов видео (по данным за 2019 год) и третий, это более 5 миллионов приложений для устройств с Android и IOS. Все это достояние человечества и информационного мира, становится возможным только благодаря развитию оборудования, творческого потенциала создателей и возможностей программного обеспечения.
Но существующие на данный момент времени решения, были разработаны с учетом предыдущих идей и требований к производственным процессам, присущим в первую очередь стационарным компьютерам и рабочим станциям. Но современное поколение создателей медиа и графики, ориентируются на мобильность и высокую скорость работы, как с ПО, так и самого оборудования.

Доступные для художников инструменты с GPU-ускорением

За последнее десятилетие сформировался определенный набор инструментов обеспеченных стабильной поддержкой возможностей современных GPU и CPU, а также специальных модулей расширения (панели управления, платы ввода/вывода и обработки видео и др.). Для создания платформы NVIDIA STUDIO, разработчики выделили 5 ключевых направлений, а в каждом из них представлено по несколько приложений.
Наиболее активным и всеобъемлющим в плане применения технологий с активным использованием GPU является направление 3D и MOTION GRAPHICS. Это и неудивительно, так как трехмерная графика, анимация и фотореалистичная визуализация, требующие высокой производительности при работе в режиме реального времени. То практически все наиболее популярные и рас пространные приложения, обладают поддержкой ускорения вычислений с помощью GPU.

Рис. 22
Следующее направление — VIDEO EDITING. Здесь стоит отметить важную основу, для такого акцента внимания на данную область. На популярные сервисы видео-хостингов загружается очень много контента, который необходимо смонтировать и подготовить за короткие сроки, при этом, уже давно пришла эра 4K форматов, и далеко не за горами, следующий этап — 8K, но для работы с данными форматами, необходимо не только съемочное оборудование, но и системы хранения, и высокопроизводительные рабочие станции. Особое внимание уделяется повышению производительности в работе с видео в формате RAW (RED, ARRI, BlackMagick, Canon), и его подготовки на ранних этапах, еще на съемочной площадке. Здесь, ускорение вычислений с помощью GPU, кодирование и декодирование видео, высокопроизводительные SSD накопители, а также достаточный объем оперативной памяти (для CPU и GPU), предоставляют высокий потенциал для повышения скорости работы как операторов, так и монтажеров, и специалистов по визуальным эффектам.
Из личного опыта могу сказать, что выполняя съемки для эффектов, мы работаем с форматом 4K, и зачастую, нам хочется получать удачные дубли еще на этапе съемок, и заранее отправляя данные о пути к файлам и их временным меткам, сразу передавать на монтаж в DaVinci Resolve.Во время съемок мы заранее просматриваем материал, полученный с камеры, и необходимо быстро воспроизводить видео, что ранее было доступно только при наличии MacBook Pro или тяжеловесной рабочей станции PC.
В направлении PHOTOGRAPHY всего два ключевых приложения, компания Adobe активно продвигает свои решения для фотографов и обеспечивает их удобными инструментами. И такие приложения как Photoshop CC и Lightroom CC, уже давно обладают поддержкой ускорения с помощью GPU. Но помимо решений от Adobe, есть множество хороших инструментов от сторонних разработчиков, которые также используют возможности графических процессоров для обеспечения высокой производительности фотографов и дизайнеров.
Графический дизайн (GRAPHIC DESIGN) является пожалуй одним из самых динамичных и мобильных направлений в творчестве современных художников и дизайнеров. Особенно актуально это при работе над графическим оформлением видео или при разработке дизайна.
И самое наиболее активное и развивающееся направление в современных медиа — on-line трансляции и прямые эфиры. Глобальная сеть Интернет и развитие мобильных технологий, а также развитие современных медиа, сделали направление BROADCASTING как никогда, требовательным к производительным многофункциональным мобильным рабочим станциям с высокой производительность в компактном корпусе.

Выбор независимых художников

Новая концепция и платформа NVIDIA STUDIO ориентируется на независимых разработчиков контента. Для этого, были проанализированы потребности среди независимых художников и дизайнеров, кому может быть полезна равномерная уравновешенная производительность, но по приемлемой цене, при этом, закрывающая необходимость в мобильности устройства. 

Рис. 23
Независимые дизайнеры и художники используют ноутбуки и бюджетные рабочие станции для создания видео, обработки фотографий, публикаций в социальных сетях и медиа, и для удаленной работы над средними и крупными проектами (фрилансеры на аутсорсе). Все три группы были расположены между ключевыми группами — запись, и производство в промышленных масштабах (студии и компании).

Помимо распределения по категориям пользователей и выполняемым ими задачам, при работке NVIDIA STUDIO была учтена потребность пользователей в производительности и ключевые компоненты, которые пользователи желают обновить в своих компьютерах или ноутбуках.
Согласно проведенным опросам и исследованиям, пользователи зачастую желают обновить GPU, и увеличить объем оперативной памяти. И здесь есть большая доля правды, так как обновление данных компонентов, может значительно повысить производительность в задачах и приложениях, активно использующих вычисления на GPU и требовательных к объему ОЗУ.

ВВЕДЕНИЕ В КОНЦЕПЦИЮ ПЛАТФОРМЫ NVIDIA STUDIO

В первую очередь NVIDIA разработали концепцию платформы, которую могут реализовать производители компьютерной техники, опираясь на выбор определенных правил и компонентов систем.
В основе лежат графические ускорители на основе архитектуры NVIDIA Turing, практически, платформа NVIDIA STUDIO ознаменовала выход мобильных решений на основе GeForce RTX и Quadro RTX, предоставив возможность использовать трассировку луча и другие технологии, в мобильных устройствах. Также это первые мобильные устройства в конфигурациях которых можно выбрать GPU с объемом графической памяти равным 16 Гб и выше. Также стоит отметить, что все мобильные системы, разрабатываемые под платформу NVIDIA STUDIO, будут обладать концепцией MAX-Q Design, обеспечивающей реализации тонкого и легкого устройства, с высокой производительностью. 

Рис. 24
Рассмотрим основные направления и технологии, реализуемые в новых решениях.
В первую очередь — NVIDIA RTX, представленная в 2018 году архитектура Turing позволяет выполнять трассировку луча в режиме реального времени, выполнять вычисления для работы алгоритмов использующих возможности ИИ, и выводить высококачественное видео в высоком разрешении с большой частотой кадров.
NVIDIA Studio Stack и платформа NVIDIA RTX
Ключевыми компонентами стэка NVIDIA STUDIO являются форматы представления и передачи данных (MDL и USD), графические API (OpenGL, DirectX и Vulkan) и API для трассировки луча (OptiX, DXR и Vulkan), а также обширный набор библиотек и возможностей относящихся к платформе NVIDIA RTX Platform.

Рис. 25
Наиболее актуальными на текущий момент развития и применения в приложениях являются рассмотренные ниже компоненты стека NVIDIA STUDIO.

Ускорение трассировки луча и алгоритмов ИИ

Это пожалуй одна из самых интересных особенностей архитектуры Turing, так как увеличить скорость трассировки лучей удалось только за счет активного использования многоядерных процессоров и алгоритмов прогрессивной визуализации. Здесь, возможности GPU по ускорению вычислений общего назначения показали себя лучше всего. Но вычислять трассировку лучей в режиме реального времени удалось только в последние пару лет, когда такие API, как DirectX и OpenGL/Vulkan, смогли получить необходимые функции и элементы, благодаря которым, стали возможны вычисления трассировки лучей в режиме реального времени.
С анонсом архитектуры Turing были представлены решения для визуализации поддерживающие вычисления с помощью NVIDIA OptiX, DXR и VKray. В частности, системы визуализации Autodesk Arnold, Autodesk VRED, Chaos Group V-Ray, Unreal Engine и многие другие, уже предоставляют своим пользователям возможности, ускорения вычислений трассировки лучей в режиме реального времени с помощью ядер RT cores.

Рис. 26
Помимо этого, фотографы и специалисты по обработке изображений, использующие Photoshop Lightroom, получили возможность использовать алгоритмы ИИ для улучшения качества фотоснимков. Компания BlackMagick активно развивает новейшую версию DaVinci Resolve 16 Studio, с их новым ядром DaVinci Neural Engine, в котором активно используются алгоритмы ИИ. А Resolve 16.2 получил обновление и расширение функционала с поддержкой ИИ. В данной статье я активно продемонстрировал скорость работы Neural Engine на двух NVIDIA TITAN RTX.
Конечно, реализация новой концепции, в первую очередь нацелена на интеграцию в рабочие процессы, в которых активно используется множество приложений, особенно в таких случаях, когда их используют независимые художники и дизайнеры, у которых высока необходимость применения нескольких приложений.

Рис. 27
Я однажды сам столкнулся с тем, что в последних версиях Maya, возросло потребление графической памяти, зачастую это приводит к некоторому снижению производительности, это особенно ощущается на GPU с памятью меньше 6 Гб.  Поэтому я обновил свой графический ускоритель приобретя NVIDIA GeForce RTX 2080 SUPER. Но такие решения, как протестированная мною рабочая станция HYPERPC PRO 7T STUDIO показывают более высокую производительность в обработке видео во время монтажа с применением алгоритмов ИИ и при работе с комплексными моделями, что во многом объясняет применение GPU с 24 Гб ОЗУ.

Рис. 28

NVIDIA GeForce RTX Studio, NVIDIA TITAN RTX и NVIDIA Quadro RTX Studio

Разработчики платформы NVIDIA STUDIO не стали значительно изменять своим идеям из предыдущих поколений. Графические ускорители GeForce в первую очередь предназначены для развлечений и разработки игровых приложений, а также для большинства задач, связанных с разработкой 3D моделей и анимации. Но если ваши задачи, затрагивают интенсивное использование графической памяти, необходимость в продолжительной поддержке оборудования, сертификацию от производителей (особенно актуально при работе с гос. организациями и в крупных компаниях), гибком управлении IT-Инфраструктурой, и аппаратной обработке видео, включая захват и вывод на множество дисплеев, то здесь, по прежнему остается выбор за профессиональными GPU линейки Quadro.
Хочу заметить, что необходимость в акцентировании внимания на том, что графические ядра приложений, таких как 3ds max, Maya и т. п. оптимизированы под Quadro, уже давно ушла в историю, сейчас, графические ядра приложений, компании Autodesk и многих других вендоров, сбалансированы функционально, и дают высокую производительность как на GeForce, так и на Quadro. Здесь, нужно делать выбор именно в контексте деталей и определенных задач, которые вы будете выполнять с помощью мобильной или настольной рабочей станции и выбранного для нее GPU. О возможных процессах и применения GPU как ускорителя вычислений я писал в самом начале статьи.
При выборе компьютера оптимизированного для платформы NVIDIA STUDIO вам также становится доступна возможность выбора GPU оснащенного 24+ Гб графической памяти, что очень актуально при работе с такими ядрами визуализации как Octane Renderer, V-Ray RT GPU, RedShift и другие, а также при загрузке и отображении текстур с высоким разрешением (8K, 12K) и при применении эффектов затенения (Ambient Occlusion, MSAA, Lighting и т. п.).
Итак, к опорным системным требованиям NVIDIA STUDIO, разработчики отнесли представленные в таблице ниже компоненты
Помимо современных процессоров и GPU, а также требований к наличию большого объема ОЗУ и SSD-накопителей. Конечно, если выбирать дисплей с разрешением 4K, для визуализации большого массива пикселей, потребуется более производительный GPU. Для этого стоит присмотреть к GPU с объемами памяти от 8 Гб, это на самом деле оптимальный старт для работы с 4K дисплеями и в то же время, для обработки 3D пространства в редакторах компьютерной графики.
Линейка мобильных GPU линейки Quadro пополнилась новыми моделями. Модели Quadro RTX 3000, Quadro RTX 4000 и Quadro RTX 5000 предоставляю все возможности и функции, заявленные разработчиками в спецификациях к NVIDIA STUDIO. А вот новые модели, Quadro T1000 и Quadro T2000, являются представителями начального и среднего классов, и ограничены в ряде функций, например в трассировке лучей и поддержке виртуальной реальности.

Единый драйвер для NVIDIA STUDIO GPU`s

Теперь, что для GeForce, что для Quadro GPU, вы можете загрузить и использовать единый драйвер NVIDIA STUDIO. Однако, хочу заметить, что вы вправе загрузить оригинальные драйверы, которые оптимизированы как для работы с GeForce, так и с Quadro. Если у вас Quadro и вам важен функционал корпоративного уровня, то следует загружать драйвер Quadro, а для работы с игровыми приложениями и для разработки контента в игровых движках, на подобии Unreal Engine или Unity, на GPU линейки GeForce, можно выбрать родной драйвер GeForce.
Помимо входящей в состав драйвера оптимизации под различные приложения и GPU, в NVIDIA STUDIO Stack также включен NVIDIA STUDIO SDK который предлагает SDK и API для ускорения трассировки лучей, визуализации, редактирования и обработки видео, векторной 2D анимации и многого другого. Разработчики приложений также могут добавлять в свои разработки функции искусственного интеллекта, такие как супер медленное движение или автоматические метки, с помощью платформы AI в CUDA-X; являющегося отраслевым стан

Результат тестирования в практических и синтетических тестах

Во время тест-драйва рабочей станции HYPERPC PRO 7T STUDIO я сравнил производительность двух графических ускорителей NVIDIA TITAN RTX объединенных мостом NVLink, который помогает значительно увеличить производительность в работе систем визуализации и алгоритмов машинного обучения и ИИ.дартом для развития искусственного интеллекта.


Рис. 29. Информация о GPU NVIDIA TITAN RTX установленных в системе тестируемой HYPERPC PRO 7T STUDIO
Чтобы понимать, как определять производительность GPU, необходимо помнить, что производительность определяется в решении определенной задачи, насколько быстрее она будет выполнена в сравнении с предыдущим поколением GPU или конкурирующим решением.
Во время тест-драйва я протестировал GPU с помощью тестов SPECwpc 3 и практических приложений. В частности, превосходный результат показал движок EEVEE, входящий в пакет Blender. Данный движок очень быстро выполнял аппаратную визуализацию практически в режиме реального времени.

Результат тестирования NVIDIA TITAN RTX с помощью SPECwpc и SPECviewperf

Первый тест затрагивает производительность в вычислениях на GPU. В тесте использованы приложения LuxRender, CAFFE и FAH. В то время как LuxRender может раздобыть как на CPU так и на GPU, тесты посвященные машинному обучению и обработке данных, полностью зависят от GPU.

Рис. 30. Результат тестов SPECwpc GPU Compute
В то время, как тестовую сцену LuxRender визуализировал с практически идентичным CPU результатом, алгоритмы полностью зависимые от GPU, не выполнялись на CPU. В качестве API был выбран OpenCL, как универсальный для CPU Intel и GPU NVIDIA.
Но так как в моем распоряжении была рабочая станция с двумя GPU, я непременно протестировал её возможности с помощью теста SPECviewperf в режиме без SLI, и активным режимом SLI и сравнил результаты тестов из моих прошлых обзоров. Данный тест показал хорошую производительность графических ускорителей TITAN RTX как в режиме без SLI, так и в режиме SLI.

Рис. 31. Результаты теста SPEC Viewperf 13 для нескольких систем и моделей GPU
Но как показало тестирование, в режиме SLI классические OpenGL приложения, такие как САПР и приложения M&E могут обладать немного меньшей производительностью. Но, плюсом таких решений является возможность более оптимально и рационально использовать графическую память в моделях с текстурами, освещением и эффектами затенения.
Хочется заметить, что современные САПР приложения, такие как Autodesk Fusion 360 поддерживают multi-gpu системы, и активно используют возможности всех GPU, объединенных мостом SLI (NVlink).
Синтетические тесты показывают только определенные сценарии, заранее проработанные их создателями.
В практических приложениях рабочий процесс значительно отличается и неравномерен. Далее, я приведу результаты тестов в ряде практических приложений и решении определенных задач, требовательных к высокопроизводительным компонентам системы.

Моделирование жидкостей в RealFlow 10 с применением GPU

Реализованное в RF10 ядро Dyverso поддерживает вычисление на CPU, на GPU поддреживающих OpenCL и GPU с поддержкой CUDA. При этом, разработчики реализовали систему так, что если у вас используется GPU от NVIDIA, то для него автоматически становится доступен алгоритм на CUDA. Стоит отметить, что RF10 поддерживает вычисления только на одном GPU. Поэтому, в multi-gpu системах, вы можете выделить один из GPU, который может выполнять вычисления на CUDA.

Рис. 32. Результат теста RF Dyverso в расчете 780 кадров анимации карамели
Пакет RF10 является хорошим примером применения возможностей GPU и архитектуры CUDA для ускорения вычислений сложных физических моделей. На основе ядра RF10 создан пакет XFlow, входящий в поставку SIMULIA, он также поддерживает вычисления на GPU. Если вы занимаетесь расчетами физических моделей, и планируете использовать GPU, я рекомендую присмотреться к связке решений от NVIDIA и NexLimit для получения высокопроизводительных комбинаций оборудования и ПО.
Визуализация в Blender 2.8
Буквально ворвавшийся на рынок компьютерной графики и получивший массу грантов от крупнейших вендоров, включая NVIDIA, пакет Blender, стал активно использовать возможности библиотек NVIDIA CUDA и NVIDIA OptiX. Реализация поддержки возможностей CUDA и OptiX сразу же определила его в качестве одного из самых важных решений, поддерживающих платформу NVIDIA STUDIO.
Для меня Blender остается отличным инструментом для тестирования производительности оборудования в задачах визуализации изображений.
На рисунке 33 приведена диаграмма в которой собраны результаты тестов вычислений на GPU нескольких сцен.

Рис. 33. Результат визуализации трех сцен в пакете Blender
Как видно из приведенного графа, чем производительнее система, тем меньше времени требуется на визуализацию изображения. Неоспоримым лидером сегодняшнего теста оказалась система от HYPERPC с двумя GPU NVIDIA TITAN RTX и при визуализации сцены с применением ядра Blender Cycles, использующим API OptiX. Это наименьшее время, которое потребовалось ядру для визуализации сцен. Для большой и комплексной сцены с множеством элементов меха и волос, потребовалось всего 132 секунды на кадр, что говорит о высочайшей производительности двух GPU TITAN RTX, работающих в паре и использующих возможности RTX cores и библиотеки NVIDIA OptiX.

Инструменты Autodesk Maya с поддержкой GPU-ускорения

Вернемся еще раз к Maya. Данный пакет является отличным примером решения, активно использующего все возможности платформы NVIDIA STUDIO. Это не только визуализация изображений, но также использует возможности NVIDIA CUDA и OpenCL для вычислений деформаций и расчета каждого ключа анимации, и возможности API Direct3D для кэширования данных анимации. Эта прогрессивная технология развивается уже несколько лет и используется аниматорами для более быстрой работы над анимацией сложных моделей.

Рис. 33.B. Инструментарий Cached Playback доступный в Maya 2020 позволяет создавать кэш анимации модели и достигать большей производительности при воспроизведении анимации
Наличие двух GPU NVIDIA TITAN RTX позволяет распределить устройства для выполнения определенных задач, например указать GPU, память которого необходимо использовать при создании кэша анимации. Также, данный принцип можно использовать совместно с инструментарием GPU Cache, который позволяет использовать GPU для кэширования данных сцены.

Рис. 33.C. Инструментарий GPU Cache позволяет создавать кэш данных сцены, например геометрию модели Bifrost, в памяти GPU
Например, применение инструментария GPU Cache в Maya существенно ускоряет воспроизведение анимации сложной геометрии. Например процедурное-сгенерированных моделей, например с помощью Maya Bifrost.
Ряд тестов с моделями жидкостей, созданных с помощью Bifrost показал высокую производительность рабочей станции HYPERPC PRO 7T STUDIO и GPU NVIDIA TITAN RTX в работе с закешированными данными анимации.

Визуализация изображений с помощью Chaos Group V-Ray

Ядро визуализации V-Ray интегрировано практически во все популярные 3D и CAD приложения. Пользователи 3ds max, Maya, Houdini, Revit, Rhino, Unreal Engine и других приложений, используют возможности для создания высококачественных образов. Даже я использую V-Ray как основное ядро визуализации, иногда переходя на Arnold, для решения специфических задач. Что выделяет V-Ray и связывает его с экосистемой NVIDIA и платформой NVIDIA STUDIO?
Поддержка NVIDIA CUDA - ядро V-Ray является одним из первых решений активно использующих возможности GPU для ускорения процесса визуализации. Также, V-Ray поддерживает аппаратные шейдеры, созданные с помощью языка GLSL.
Поддержка NVIDIA MDL - разработчики шейдеров материалов и текстур могут использовать возможности языка описания материалов NVIDIA MDL, активно развиваемый сообществом и поддерживаемым системой визуализации NVIDIA iRay. В процессе работы с V-Ray вы можете использовать библиотеку NVIDIA vMaterials, содержащую обширную библиотеку процедурных материалов и текстур, разработанных с помощью NVIDIA MDL.
Поддержка NVIDIA OptiX - ядро визуализации V-Ray стало одним из первых решений, активно внедрившим поддержку NVIDIA RTX и NVIDIA OptiX. Плюсом внедрения OptiX является поддержка высококачественного алгоритма устранения шума с помощью NVIDIA AI Denoiser. Данный подход позволяет значительно быстрее создавать предварительные тесты визуализации с применением Maya Playblast.
Я дополнил свою библиотеку измерений и тестов центральных и графических процессоров производимых с помощью теста V-Ray Benchmark.

Рис. 34. Результат тестов CPU с помощью V-Ray Benchmark
В процессе тестов процессор Intel Coe i9-10940X показал превосходство над всеми протестированными ранее процессорами. В процессе работы над одним из проектов, я провел несколько тестов с комплексной сценой, которая требует большого объема ОЗУ и оперирует большими данными (Рис. 36) о чем я расскажу ниже.

Рис. 35. Результат тестов GPU с помощью V-Ray Benchmark
Мне довелось протестировать несколько GPU на различных системах. Использованные в графической станции HYPEREPC PRO T7 STUDIO графические ускорители NVIDIA TITAN RTX на данный момент показали наиболее производительный результат в тесте, набрав 369 mpaths в тесте с одним GPU и 728 mpaths в режиме с двумя GPU.

Рис. 36. Пример комплексной модели, созданной в Maya и визуализируемой с помощью V-Ray for Maya
В процессе работы я использую V-Ray RT GPU для разработки материалов, так как GPU позволяет выполнять данные операции гораздо быстрее, в сравнении с CPU. Во время тест-драйва HYPERPC PRO T7 STUDIO я протестировал возможности GPU NVIDIA TITAN RTX в процессе разработки образа и материалов для комплексной модели.
Как и проведенные мною тесты с помощью V-Ray Benchmark, в результате тестов на модели, представленной на рисунке 36, GPU NVIDIA TITAN RTX позволили выполнять предварительную визуализацию гораздо быстрее, даже в сравнении с использованной в моей предыдущей рабочей станции NVIDIA GeForce RTX 20870 SUPER.
Повысить производительность также можно с помощью обновления оборудования, о чем я расскажу в следующем разделе.

Практические тесты в DaVinсi Resolve 16.2

Безоговорочным лидером в применении возможностей GPU для ускорения вычислений является пакет Resolve. Это обусловлено его архитектурой и модулем коррекции цвета. Обработка и коррекция цвета является достаточно требовательной к вычислительным ресурсам задачей. И внедрение поддержки GPU в данный процесс активно способствовал увеличению производительности вычислений в процессе обработки кадров.
Ниже приведены результаты тестов набора секвенций в DaVinci Resolve, использованных мною в процессе написания предыдущих статей, посвященных NVIDIA STUDIO.

Рис. 37. Скорость сборки видео в DaVinci Resolve с применением GPU NVIDIA и CPU Intel

Рис. 38. Скорость сборки видео в DaVinci Resolve с применением алгоритма масштабирования на GPU NVIDIA

Рис. 40. Скорость сборки видео в DaVinci Resolve с применением алгоритма ИИ для замедления и увеличения скорости видео
Производительность GPU NVIDIA TITAN RTX которые установлены в HYPERPC PRO T7 STUDIO наглядно представлена диаграммами на рисунках 37 - 40. За счет применения алгоритмов на основе ИИ, выполнение масштабирования видео, изменение его скорости и реконструкция деталей, выполняются за считанные секунды. Выполнение коррекции цвета и работа с масками, также выполняются значительно быстрее, особенно в сравнении с CPU.
Применение решений на основе платформы NVIDIA STUDIO показывают высокую производительность в работе над сложнейшими проектами. Когда выполняются объединение 3D анимации, композитинга, процесса монтажа и визуализации, Но можно еще повысить производительность системы, выполнив подбор компонентов которые будут обладать большей производительностью. Все задачи, которые я рассмотрел в текущей статье, хорошо поддаются оптимизации и повышению производительности с помощью выбора более производительного CPU и GPU.

Autodesk Revit

Пакет Revit компании Autdoesk по праву считается всемирно признанным решением для архитекторов, конструкторов и дизайнеров, создающих потрясающие архитектурные проекты. В отличие от представленных выше приложений, у Revit принцип работы значительно отличается, но по сути, также формируется трехмерная модель, с заданными определенными свойствами каждой компоненты. Но сложные и комплексные модели, от CPU требуют большой вычислительной мощности, а также больших объемов оперативной памяти. А вот отображение модели, визуализация теней, затенение различными материалами, применение текстурных карт диффузного цвета и рельефности, а также высокое качество сглаживания линий и геометрии, может быть реализовано только с помощью высокопроизводительного GPU.

Рис. 41. Модель в Autodesk Revit, визуализируемая в режиме реалистичного затенения в видовом окне на рабочей станции HYPERPC PRO T7
Отличительной особенностью графического ядра Revit является применение API DeirectX. Это обусловлено тесной интеграцией с платформой Microsoft Windows, широким диапазоном поддерживаемого оборудования и драйверов, а также поддержкой современных графических технологий, которые могут быть использованы в будущих версиях Revit для достижения высококачественной и реалистичной визуализации. В большинстве вычислительных задач, Revit использует CPU, но за счет грамотной разработки графического ядра, Revit активно использует возможности современных GPU. Например, последние версии Revit поддерживают работу на нескольких GPU, объединенных мостом SLI (NVLink), это превосходно сказывается на производительности в навигации и визуализации модели в виртуальном пространстве вида. Наиболее активно GPU используется при выборе режима реалистичной визуализации, отображении теней, эффекта Ambient Occlusion, отображения текстур и освещения.

Рис. 42. Возможности графического ядра Revit опираются на API DirectX и могут использовать вычислительные возможности двух GPU NVIDIA TITAN RTX в режиме SLI
Такие графические ускорители как NVIDIA TITAN RTX позволяют работать с комплексными моделями и использовать высококачественные текстурные карты для затенения в окнах панелей. Все это становится доступным благодаря использованию самого производительного GPU архитектуры NVIDIA Turing и 24 Гб графической памяти.
Также, применение multi-gpu системы позволяет использовать возможности таких ядер визуализации, поддерживаемых Revit, как V-Ray и Enscape. О V-Ray я подробно рассказал выше, а Enscape позволяет выполнять визуализацию хорошего качества в режиме реального времени и близка к визуализации с помощью Unreal Engine или Revit Live.
Ядро визуализации изображений. Интегрированное в Revit также поддерживает многопоточные вычисления, но для этого использует возможности CPU. Такие процессоры как Intel Core i9-10940X показали превосходный результат в тесте с визуализацией комплексной модели.

Рис. 43. Процесс визуализации сцены с помощью ядра визуализации, интегрированного в Revit
Чтобы максимально полно использовать возможности системы на подобии PRO T7, я дам несколько рекомендаций.
Используйте инструменты, поддерживающие многопоточные вычисления, например анализ модели, визуализация, пакетная печать и др.
Используйте возможности аппаратного ускорения графики в видовых окнах. Не бойтесь использовать высококачественные текстурные карты, объема графической памяти таких GPU как NVIDIA TITAN RTX достаточно, чтобы работать с большим количеством текстур высокого качества. Используйте GPU-Accelerated ядро визуализации, например V-Ray for Revit, это позволяет выполнять визуализацию гораздо быстрее в сравнении со стандартным инструментом визуализации, и в то же время, получить более качественный результат. Разработайте рабочий процесс на основе нескольких инструментов, на рынке плотно закрепилась связка Revit+3dsMax+Corona Renderer и Revit+3dsMax+V-Ray, а также используйте интерактивные движки, такие как Enscape, Lumion, Unreal Engine, Revit Live. Графические ускорители NVIDIA предоставляют все возможности для создания динамичного контента и красивых презентаций, и VR. Например, Unreal Engine превосходно подходит для моделирования VR-миров и поддерживает технологии платформы VR Works от NVIDIA прямо из коробки.

Интерактивная визуализация с Autodesk VRED

Машиностроительная область и область презентационных визуализацией, давно использует интерактивные системы визуализации. Легендарный инструмент многих промышленных дизайнеров и специалистов по моделированию пространства — Autodesk VRED активно использует возможности нескольких технологий NVIDIA для формирования высококачественных образов.
В последних релизах VRED, появилось множество интересных решений, в частности поддержка виртуальной реальности и трассировка луча в режиме реального времени на GPU.
Компьютеры на основе платформы NVIDIA STUDIO превосходно подходят для работы с VRED и его возможностями, как в области визуализации, так и вычислений. За счет активной поддержки многопоточных вычислений, VRED полностью может задействовать возможности таких процессоров как рассмотренный в данной статьей Intel Core i9-10940X, а также все возможности по визуализации, предоставляемых NVIDIA OptiX и даже NVIDIA AI Denoiser.
Дизайнерам нет необходимости ожидать когда закончится визуализация в высоком разрешении, при использовании возможностей GPU NVIDIA TITAN RTX становится возможным применять высококачественное сглаживание геометрии и линий, а также алгоритмы трассировки луча, что во много раз увеличивает реализм формируемого образа.

Линейки компьютеров HYPERPC PRO STUDIO

Одно из важнейших преимуществ современной компьютерной техники - масштабируемость и расширяемость функционально. Решения HYPERPC PRO выстраиваются в виде трех вертикальных линеек, каждую можно конфигурировать под определенные задачи и приложения. Это удобно, так как легче сделать первоначальный выбор и впоследствии обновить комплектующие и увеличить производительность системы в целом. Рассмотрим вкратце линейку компьютеров HYPERPC PRO.
HYPERPC PRO G - младший представитель линейки компьютеров для профессиональных пользователей. В компьютерах линейки PRO G используются процессоры Intel Core i7 и Intel Core i9 10-го поколения, и графические ускорители линейки NVIDIA GeForce RTX. Максимальный объем ОЗУ составляет 128 Гб (зависит от CPU). Вы можете выбрать базовую конфигурацию на основе CPU Intel Core i7 и GPU NVIDIA GeForce RTX 2060 SUPER, и при повышении требований к вычислительной мощности компьютера, заменить компоненты на CPU Intel Core i9 и GPU NVIDIA GeForce RTX 2080 Ti.
HYPERPC PRO Q - старший представитель линейки компьютеров для высокопроизводительных вычислений опирающийся на применение GPU NVIDIA Quadro RTX и ориентированный на применение в решении сложнейших инженерных задач и использующий возможности решений корпоративного уровня. С помощью рабочих станций линейки Q можно решать не только задачи связанные с проектирование и визулизацией, но и развертывать системы виртуализации и работать в области обработки данных (Data Science), где может потребоваться GPU с объемом памяти в 24 и 48 Гб. Компьютеры линейки PRO Q могут быть сконфигурированы с применением CPU Intel Core i9 и GPU NVIDIA Quadro RTX 4000 с возможностью расширения конфигурации с помощью NVIDIA Quadro RTX 8000. В рабочую станцию может быть установлено до 128 Гб ОЗУ (в зависимости от CPU).
HYPERPC PRO T - линейка компьютеров специально разработанная как баланс между линейками PRO G и PRO Q. Я протестировал модель PRO T7, которая была сконфигурирована с двумя GPU NVIDIA TITAN RTX, что позволило оценить производительность графического чипа TU102 в полной мере. Компьютеры линейки PRO T могут быть сконфигурированы с применением процессоров Intel Core i9 10-го поколения, и в каждый компьютер, может быть установлено до четырех GPU NVIDIA TITAN RTX, что позволяет создавать сверх-производительные системы, ориентированные для работы с большим массивом данных. Также, компьютер может быть сконфигурирован до 128 Гб ОЗУ.
Компьютеры линеек PRO Q и PRO T могут быть собраны на основе платформы AMD. В данной конфигурации используются процессоры AMD Ryzen Threadripper. Существенным плюсом данной платформы является доступность установки оперативной памяти до 256 Гб и поддержка шины PCI-Express 4, что дает основу для обновления на GPU следующего поколения.

Матрица поддержки технологий NVIDIA и стека NVIDIA STUDIO в приложениях

Для общего охвата поддерживаемых и реализованных из стека NVIDIA STUDIO технологий я создал специальную таблицу «Матрица поддержки технологий NVIDIA и стека NVIDIA STUDIO в приложениях». Эта матрица была специально разработана для участвовавших в данном тестировании приложений, я ее сохранил в формате PDF и вы самостоятельно можете загрузить её к себе на компьютер и узнать, какие технологии NVIDIA и используемые в стеке NVIDIA STUDIO, поддерживаются выбранным вами приложением.

Рис. 44. Технологии NVIDIA используемые в прикладных приложениях, поддерживаемых в стеке NVIDIA STUDIO
Если присмотреться к представленным в матрице приложениям, практически каждое из них поддерживает технологии NVIDIA CUDA и NVIDIA OptiX. Это нам прекрасно показывает, как обширно проникли в наши инструменты решения, разработанные специалистами NVIDIA и насколько серьезно проникли технологии вычислений на GPU в область дизайна и проектирования.
Многие приложения уже сейчас развивают поддержку других технологий и в ближайших версиях мы получим ряд новых возможностей основанных как на машинном обучении, так и на высокой производительности оборудования следующего поколения.

Загрузить матрицу поддержки технологий NVIDIA>>

Благодарности

Благодарю компании HYPERPC и NVIDIA за предоставленное для тестирования и обзора оборудование и информационную поддержку в технических вопросах.
Обзоры ноутбуков MSI на основе платформы NVIDIA STUDIO
На портале RENDER.RU в прошлом году я открыл серию публикаций посвященных платформе и стеку NVIDIA STUDIO. В моем распоряжении оказались два ноутбука компании MSI:
Дополнительные материалы для изучения

Комментариев нет: