Обзор Intel Xeon E5 v4: тестирование Broadwell-EP с высокими нагрузками на сервер

Xeon e5 2680 v4

Xeon e5 2680 v4 — один из наиболее интересных 14-ядерников на архитектуре Broadwell. Процессор отлично подойдет для рабочих ПК, но при этом может неплохо показать себя и в качестве игрового решения.

Ближайшие по производительности аналоги из прошлого поколения — Xeon e5 2678 v3 (с анлоком турбо-буста) и Xeon e5 2697 v3 в стоке. Стоит отметить, что по соотношению ценапроизводительность, Xeon e5 2680 v4 пока уступает прошлому поколению.

Характеристики

Модель Xeon e5 2680 v4
Тех.процесс 14 nm
Ядер 14
Потоков 28
Максимальная частота оперативной памяти DDR4: 2400 Мгц
Базовая частота 2400 MHz
Максимальная частота в Turbo Boost 3300 MHz (1-2 ядра) 3100 MHz (3 ядра) 3000 MHz (4 ядра) 2900 MHz (5-14 ядер)
AVX Offset -1
Кэш L3 35 Mb
TDP 120 W
Макс. температура крышки процессора 86°C
Множитель заблокирован
Примерная стоимость $20 — $35

По сравнению с Xeon e5 2680 v3, архитектура Broadwell-E привнесла небольшие и вполне ожидаемые улучшения:

  • Выросло количество ядер, а с ними и объём L3 кэша
  • Увеличилась производительность (+5-10% на равных частотах), а также улучшилась работа контроллера памяти, который теперь может работать с DDR4 на частоте 2400 Мгц и поддерживает до 1.5 Тб ram
  • Снизилось энергопотребление и тепловыделение благодаря новой архитектуре и техпроцессу
  • Появилась поддержка некоторых новых инструкций, в том числе Intel TSX, деактивированных в Haswell по причине обнаруженных в ядре аппаратных ошибок
  • Теперь при выполнении AVX-инструкций частота снижается только у тех ядер, которые непосредственно заняты AVX-вычислениями, что положительно сказалось на быстродействии.

Возможность разгона

К сожалению, в большинстве случаев придется довольствоваться стоковой производительностью.

Поскольку в четвертом поколении Intel закрыла баг, благодаря которому был возможен хак турбо-буста на процессорах Haswell, единственной возможностью разгона остается поднятие шины. Однако этот способ доступен далеко не на всех материнских платах (все известные на данный момент китайские модели управлять шиной не умеют). Но даже владельцы подходящих брендовых плат могут рассчитывать только на дополнительные 3-5% производительности, которые едва ли изменят общую картину.

2680v4_fsb_overclock-300x280

Пример небольшого разгона шиной на брендовой плате

Охлаждение

SNOWMAN-6-4-Pin-PWM-RGB-300x300

Для отвода тепла понадобится башенный кулер с 3-4 теплотрубками. Если планируются длительные высокие нагрузки — лучше отдать предпочтение наиболее массивным моделям. Не стоит забывать и про продуваемость корпуса, играющую достаточно важную роль. Из моделей, доступных на aliexpress, оптимальным вариантом считается Snowman MT4, но можно брать сразу и шеститрубочную модель, стоящую почти столько же.

Проверенные модели из местных магазинов

  • PCcooler GI-X3 V2
  • ID-COOLING SE-224-XT
  • PCcooler GI-X4 v2
  • Deepcool GAMMAXX S40
  • Zalman CNPS10X Optima II
  • Ice Hammer IH-4800
  • ID-COOLING SE-226-XT
  • Thermalright Macho
  • Deepcool NEPTWIN V2

Перед покупкой массивного кулера лучше заранее убедиться, что он поместится в корпус. Также стоит учитывать, что у некоторых моделей материнских плат слоты для оперативной памяти расположены достаточно близко к сокету, что также может вызвать проблемы при установке крупных систем охлаждения.

Производительность и тесты

Несмотря на все преимущества новой архитектуры, в целом результаты синтетических тестов не могут похвастаться большим отрывом от процессоров прошлого поколения с активированным хаком турбо-буста. К явным плюсам Broadwell можно отнести более низкое энергопотребление и тепловыделение.

2680v4_cinebench_r15_r20_r23-300x85

Результаты Cinebench r15, r20 и r23

2680v4_nix_tests-300x131

Результаты тестов от магазина Nix

2680_v4_cpu-z_bench-300x286

2680_v4_passmark-300x148

2680_v4_corona_bench-300x127

Средний результат в Corona 1.3 около 01:33 для однопроцессорной системы и около 00:49 для двухпроцессорной

Игровая производительность

Игровая производительность модели очень близка к Xeon e5 2678 v3 с анлоком ТБ. Процессор обеспечивает комфортный геймплей во всех требовательных играх, особенно хорошо показывая себя в проектах, оптимизированных под многопоточную производительность.

Бенчмарки и игровые тесты в сравнении с Xeon e5 2678 v3 и Ryzen 5 5600X:

Отключение Hyper-Threading позволяет немного поднять производительность, но в большинстве игр прирост составит не больше 5-10%.

В пару к Xeon e5 2680 v4 можно ставить достаточно мощные видеокарты, вплоть до nvidia RTX 3070, AMD RX 6800 XT и схожих по производительности.

Ревизии

Помимо финальной версии, имеющей код S-spec SR2N7, известно еще как минимум о нескольких предрелизных версиях, относящейся к более ранним степпингам. Эти версии могут иметь значимые отличия от релизной. При покупке рекомендуется запросить у продавца скриншот cpu-z или HwInfo, где будет виден Stepping.

Степпинг Код S-spec
L0 QHV7
? QHVA
B0 (?) QHVB
B0 QK92
M0 SR2N7

Где купить

Продается E5 2680 v4 на ebay и aliexpress. Проверенные продавцы на али:

  • Huananzhi X99-F8 + Xeon e5 2680 v4 + 32 Gb DDR4
  • Huananzhi X99-F8 + Xeon e5 2680 v4 + 64 Gb DDR4 ECC
  • Huananzhi X99-F8D + 2*Xeon e5 2680 v4 + 128 Gb DDR4 ECC
  • Tanbassh
  • Vaseky
  • Veineda
  • Модули Samsung (подороже)
  • Модули Kllisre (подешевле)

Поделиться «Xeon e5 2680 v4»

Xeon E5 v4 SKU и цены

Xeon_678x452-326x230

Xeon_678x452-326x230

На момент публикации у нас нет точных цен на Xeon E5 v4. Но в целом цены примерно на 1-2% выше, чем у сопоставимого Xeon E5 v3.

V4vsV3Estimated-performance1_575px

Intel Xeon E5 v4 SKU
Ядра / Потоки TDP Базовая тактовая частота Цена
E5-2699 v4 22/44 145W 2.2GHz $ 4115
E5-2698 v4 20/40 135W 2.2GHz $ 3228
E5-2697A v4 16/32 145W 2.6GHz $ 2891
E5-2697 v4 18/36 145W 2.3GHz $ 2702
E5-2695 v4 18/36 120W 2.1GHz $ 2424
E5-2690 v4 14/28 135W 2.6GHz $ 2090
E5-2687W v4 12/24 160W 3.0GHz $ 2141
E5-2683 v4 16/32 120W 2.1GHz $ 1846
E5-2680 v4 14/28 120W 2,4 $ 1745
E5-2667 v4 8/16 135W 3.2GHz $ 2057
E5-2660 v4 14/28 105W 2.0GHz $ 1445
E5-2650L v4 14/28 65W 1.7GHz $ 1329
E5-2650 v4 12/24 105W 2.2GHz $ 1166
E5-2643 v4 6/12 135W 3.4GHz $ 1552
E5-2640 v4 10/20 90W 2,4 $ 939
E5-2637 v4 4/8 135W 3,5 ГГц $ 996
E5-2630 v4 10/20 85W 2.2GHz $ 667
E5-2630L v4 10/20 55W 1.8GHz $ 612
E5-2623 v4 4/8 85W 2.6GHz $ 444
E5-2620 v4 8/16 85W 2.1GHz $ 417
E5-2609 v4 8/8 85W 1.7GHz $ 306
E5-2603 v4 6/6 85W 1.7GHz $ 213

Между тем собственные оценки производительности Intel не совсем впечатляют. Их оценки основаны на почти идеально масштабируемых тестах SPECrate, и даже эти достижения «идеального мира» просто скромны, на самом деле почти не вдохновляют. Мы уже говорили об этом: этот рынок остро нуждается в конкуренции, если мы хотим, чтобы новое поколение принесло более захватывающие улучшения в показателях производительности на доллар.

Конфигурация и методология тестирования

Все наши тесты проводились на Ubuntu Server 14.04 LTS. Правда, некоторым нашим читателям это может показаться старым дистрибутивом, но предприятия предпочитают стабильность и поддержку новейшему программному обеспечению. Мы обновили этот дистрибутив до последней версии (14.04.4), которая предоставляет нам более обширную поддержку оборудования.

Чтобы сделать вещи более интересными, мы протестировали 4 различных SKU и включили Xeon E5 v3 предыдущего поколения, Xeon E5-2697v2 (High End Ivy Bridge EP) и E5-2690 (High End Sandy Bridge EP). Мы даже включили Xeon X5680 для сравнения. Xeon E5-2695 v4 интересно сравнить с Xeon E5-2699 v3, так как он имеет такое же количество ядер и более или менее одинаковую скорость. Таким образом, мы могли бы количественно оценить улучшение, которое ядро ​​Broadwell предлагает по сравнению с ядром Haswell.

Читать далее  Процессор AMD Athlon X4 870K

И последнее, но не менее важное: мы хотим отметить, как графики производительности имеют цветовую кодировку. Оранжевый – это последнее поколение (v4), темно-синий – предыдущее (v3), а светло-синий – это поколение, которое (возможно) должен заменить текущий (v4) (Xeon E5 v1).

Сервер Intel Xeon E5 – S2600WT (корпус 2U)

ЦПУ Два процессора Intel Xeon E5-2699v4 (2,2 ГГц, 22c, 55 МБ L3, 145 Вт)
Два процессора Intel Xeon E5-2695v4 (2,1 ГГц, 18c, 45 МБ L3, 145 Вт)
Два процессора Intel Xeon E5-2699v3 (2,3 ГГц, 18c, 45 МБ) L3, 145 Вт)
Два процессора Intel Xeon E5-2695v3 (2,3 ГГц, 14c, 35 МБ L3, 120 Вт)
Два процессора Intel Xeon E5-2667v3 (3,2 ГГц, 8c, 20 МБ L3, 135 Вт)
баран 128 ГБ (8×16 ГБ) Kingston DDR-2400
Внутренние Диски 2x Intel SSD3500 400 ГБ
Материнская плата Серверная системная плата Intel Wildcat Pass
Набор микросхем Intel Wellsburg B0
Версия BIOS 1/28/2016
PSU Delta Electronics 750 Вт DPS-750XB A (80+ платина)

Типичные настройки BIOS можно увидеть ниже.

V4_CPUbios_575px

SuperMicro 6027R-73DARF (шасси 2U)

ЦПУ Два процессора Intel Xeon E5-2697 v2 (2,7 ГГц, 12c, 30 МБ, L3, 130 Вт)
Два процессора Intel Xeon E5-2690 (2,9 ГГц, 8c, 20 МБ, L3, 135 Вт)
баран 128 ГБ (8×16 ГБ) Samsung на частоте 1866 МГц
Внутренние Диски 2x Intel SSD3500 400 ГБ
Материнская плата SuperMicro X9DRD-7LN4F
Набор микросхем Intel C602J
Версия BIOS R 3.0a (6 декабря 2013 г.)
PSU Supermicro 740W PWS-741P-1R (80+ платина)

Все C-состояния включены в обоих BIOS.

Другие заметки

Оба сервера питаются от стандартной европейской линии электропередачи 230 В (макс. 16 А). Температура воздуха в помещении контролируется и поддерживается на уровне 23 ° C нашими кондиционерами Airwell CRAC.

Одноядерная целочисленная производительность с SPEC CPU2006

В прошлых обзорах серверов я использовал сжатие и декомпрессию LZMA (7-zip) для оценки однопоточной производительности. Но я хорошо знал, что, хотя это был приличный целочисленный тест, он также дал очень близорукий взгляд на процесс. Заметив, что мои коллеги использовали SPEC CPU2006, и после обсуждения этого вопроса с несколькими людьми, я понял, что использование SPEC CPU2006 было намного лучшим способом оценки производительности одного ядра. Хотя SPEC CPU2006 в большей степени ориентирован на высокопроизводительные вычисления и рабочие станции, он содержит множество целочисленных рабочих нагрузок.

Я также хотел, чтобы настройки были как можно более “нормальными”. Поэтому я использовал:

  • 64-битный gcc: наиболее используемый компилятор в linux, хороший универсальный компилятор, который не пытается «сломать» тесты (libquantum …)
  • gcc версия 4.8.4: 4.8.x существует уже давно, очень зрелая версия
  • -O2 -fno-strict-aliasing: стандартные настройки компилятора, которые используют многие разработчики
  • Запустите 2 копии и привяжите их к первому ядру

Конечная цель состоит в том, чтобы измерить производительность в не «агрессивно оптимизированных» приложениях, где по какой-то причине, как это часто бывает, «многопоточная недружественная» задача заставляет нас ждать. Поскольку мы хотим сравнить эти числа с другими архитектурами, такими как IBM POWER 8, мы решили использовать все доступные потоки на одном ядре. В случае Intel это означает, что поверх него работают один физический и два одновременно работающих потока.

Мы включили Opteron 6376 по ностальгическим причинам. Мы показываем результаты двух потоков, работающих поверх одного модуля с двумя «целочисленными ядрами».

субтест Xeon E5-2690 Opteron 6376 Xeon E5-2697v2 Xeon E5-2667 v3 Xeon E5-2699 v3 Xeon E5-2699 v4
400.perlbench 41,1 29,3 37,6 42,6 39,9 +36,6
401.bzip2 33,4 24,1 30,1 33,1 29,9 25,3
403.gcc 40,2 26,7 38,9 42,4 36,4 33,3
429.mcf 45,1 31,7 46,8 46,4 41,6 43,9
445.gobmk 36,4 +25,5 33,2 34,9 31,7 27,7
456.hmmer 30,4 26,1 27,6 31 27,1 28,4
458.sjeng 35,2 24,7 32,8 35,2 30,5 28,3
462.libquantum 74,9 39,9 79,3 84,4 62,2 67,3
464.h264ref 51,7 34,2 48,1 52,1 45,2 40,7
471.omnetpp +24,5 25,3 26,8 29,4 26,6 29,9
473.astar 28,2 20,7 26,1 27,9 24 23,6
483.xalancbmk 41,5 28,2 41,4 48,2 42,4 41,8

Если вы не привыкли видеть эти цифры, это не говорит вам слишком много. Поскольку Sandy Bridge EP (Xeon E5 v1) около 4 лет, серверы на базе этого процессора будут заменены более новыми. Таким образом, Sandy Bridge является нашей рекомендацией, и производительность Sandy Bridge считается 100%.

субтест Тип приложения Xeon E5-2690 Opteron 6376 Xeon E5-2697v2 Xeon E5-2667 v3 Xeon E5-2699 v3 Xeon E5-2699 v4
400.perlbench Спам-фильтр 100% 71% 91% 104% 97% 89%
401.bzip2 компрессия 100% 72% 90% 99% 90% 76%
403.gcc составление 100% 66% 97% 105% 91% 83%
429.mcf Планирование транспортного средства 100% 70% 104% 103% 92% 97%
445.gobmk ИИ игры 100% 70% 91% 96% 87% 76%
456.hmmer Последовательность белка анализы 100% 86% 91% 102% 89% 93%
458.sjeng шахматы 100% 70% 93% 100% 87% 80%
462.libquantum Квантовый сим 100% 53% 106% 113% 83% 90%
464.h264ref Кодирование видео 100% 66% 93% 101% 87% 79%
471.omnetpp Сеть сим 100% 103% 109% 120% 110% 122%
473.astar Найти путь 100% 73% 93% 99% 85% 84%
483.xalancbmk Обработка XML 100% 68% 100% 116% 102% 101%

Многие умные люди потратили недели, если не месяцы, на анализ SPEC CPU2006, поэтому мы не будем притворяться, что можем предложить вам полную картину через несколько дней. Если вам нужен подробный анализ компиляторов и CPU 2006, я рекомендую очень подробную статью SPEC CPU 2006 meister Andreas Stiller в февральском выпуске C’T (немецкий компьютерный журнал).

Нам нужно гораздо больше данных профилирования, чем мы могли бы собрать за последние недели. Но для того, что мы можем сделать, мы начнем с самого важного параметра: clockspeed.

Одна из самых важных вещей, которую нужно осознать, заключается в том, что – особенно с плохо загруженными рабочими нагрузками – эти массивные многоядерные процессоры почти никогда не работают на заявленной тактовой скорости.

  • Xeon E5-2690 может работать на частоте 3,3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,8 ГГц
  • Xeon E5-2697 v2 может работать на частоте 3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,5 ГГц
  • Xeon E5-2699 v3 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
  • Xeon E5-2667 v3 3,2 ГГц – это специализированная высокочастотная модель. Он может работать на частоте 3,4 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц.
  • Xeon E5-2699 v4 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц

Так что это уже многое объясняет. В отличие от многих эталонных приложений, SPEC CPU2006 работает в течение длительного времени (от 5 до 15 минут на тест), и наше первое впечатление состоит в том, что части HCC не могут поддерживать все свои ядра при максимальном турбо-ускорении. В противном случае нет причин, по которым Xeon E5-2699 v3 или v4 будет работать хуже, чем Xeon E5-2667 v3: оба могут работать на частоте 3,6 ГГц, когда активно одно ядро.

Читать далее  Процессор AMD FX-8320E

Симулятор сети с низким IPC и интенсивным использованием памяти omnetppp, похоже, является единственным тестом, который работает значительно лучше на новых ядрах (Haswell, Broadwell) по сравнению с Sandy Bridge. Похоже, что это единственный тест, в котором чипы с большим количеством ядер (E5-2699 v4, E5-2699 v3) продолжают превосходить Sandy Bridge. Мы могли бы точно определить причину, проводя тестирование с различными скоростями памяти и каналами. E5-2699 v4 может предложить самую высокую производительность благодаря большему кэш-памяти L3 (55 МБ) и более высокой скорости DIMM (DDR4-2400) по сравнению с Sandy Bridge (20 МБ, DDR3-1600). В противном случае, когда мы сохраняем более или менее постоянную тактовую частоту, глядя на Xeon E5-2667v3 и Xeon E5-2690, мы получаем разницу скорости в 1-5% и только подтесты с интенсивным использованием памяти (omnetpp, Libquantum) и xalancbmk ( низкий IPC, ветвление интенсивно) показывают более высокие улучшения.

Как только мы протестируем оба топовых SKU с помощью «-Ofast» (более агрессивная настройка компилятора), результаты немного изменятся:

субтест Тип приложения Xeon E5-2699 v4 против Xeon E5-2690 (-Ofast) Xeon E5-2699 v4 против Xeon E5-2690 (-O2)
400.perlbench Спам-фильтр 111% 89%
401.bzip2 компрессия 94% 76%
403.gcc составление 95% 83%
429.mcf Планирование транспортного средства 114% 97%
445.gobmk ИИ игры 90% 76%
456.hmmer Последовательность белка анализы 106% 93%
458.sjeng шахматы 93% 80%
462.libquantum Квантовый сим 101% 90%
464.h264ref Кодирование видео 89% 79%
471.omnetpp Сеть сим 132% 122%
473.astar Найти путь 98% 84%
483.xalancbmk Обработка XML 105% 101%

Переключение с -O2 на -Ofast повышает абсолютную производительность Broadwell-EP более чем на 19%. Между тем относительное преимущество в производительности по сравнению с Xeon E5-2690 составляет в среднем 3%. В результате недостаток тактовой частоты последнего Xeon сводится на нет увеличением IPC. Очевидно, что последнее поколение Xeons выигрывает от агрессивных оптимизаций больше, чем предыдущие. Это неудивительно, конечно, но интересно, что новейшие Xeon нуждаются в большей оптимизации, чтобы «держать линию» в производительности одного ядра.

Пока мы можем сделать вывод, что если вы обновите Xeon E5-2xxx v1 до аналогичной модели v4, ваш однопоточный целочисленный код не будет работать быстрее без перекомпиляции и оптимизации. Усовершенствования процесса были использованы главным образом для добавления большего количества ядер в одном и том же диапазоне энергопотребления, в то время как Intel также продала несколько скоростных бинов, чтобы добавить еще больше ядер в топовые модели. В результате одноядерная целочисленная производительность в основном держит линию, не более того. Единственным исключением являются приложения с интенсивным использованием памяти, которые получают выгоду от каждого растущего L3-кэша и более быстрой технологии DRAM.

Одноядерная целочисленная производительность с SPEC CPU2006

В прошлых обзорах серверов я использовал сжатие и декомпрессию LZMA (7-zip) для оценки однопоточной производительности. Но я хорошо знал, что, хотя это был приличный целочисленный тест, он также дал очень близорукий взгляд на процесс. Заметив, что мои коллеги использовали SPEC CPU2006, и после обсуждения этого вопроса с несколькими людьми, я понял, что использование SPEC CPU2006 было намного лучшим способом оценки производительности одного ядра. Хотя SPEC CPU2006 в большей степени ориентирован на высокопроизводительные вычисления и рабочие станции, он содержит множество целочисленных рабочих нагрузок.

Я также хотел, чтобы настройки были как можно более “нормальными”. Поэтому я использовал:

  • 64-битный gcc: наиболее используемый компилятор в linux, хороший универсальный компилятор, который не пытается «сломать» тесты (libquantum …)
  • gcc версия 4.8.4: 4.8.x существует уже давно, очень зрелая версия
  • -O2 -fno-strict-aliasing: стандартные настройки компилятора, которые используют многие разработчики
  • Запустите 2 копии и привяжите их к первому ядру

Конечная цель состоит в том, чтобы измерить производительность в не «агрессивно оптимизированных» приложениях, где по какой-то причине, как это часто бывает, «многопоточная недружественная» задача заставляет нас ждать. Поскольку мы хотим сравнить эти числа с другими архитектурами, такими как IBM POWER 8, мы решили использовать все доступные потоки на одном ядре. В случае Intel это означает, что поверх него работают один физический и два одновременно работающих потока.

Мы включили Opteron 6376 по ностальгическим причинам. Мы показываем результаты двух потоков, работающих поверх одного модуля с двумя «целочисленными ядрами».

субтест Xeon E5-2690 Opteron 6376 Xeon E5-2697v2 Xeon E5-2667 v3 Xeon E5-2699 v3 Xeon E5-2699 v4
400.perlbench 41,1 29,3 37,6 42,6 39,9 +36,6
401.bzip2 33,4 24,1 30,1 33,1 29,9 25,3
403.gcc 40,2 26,7 38,9 42,4 36,4 33,3
429.mcf 45,1 31,7 46,8 46,4 41,6 43,9
445.gobmk 36,4 +25,5 33,2 34,9 31,7 27,7
456.hmmer 30,4 26,1 27,6 31 27,1 28,4
458.sjeng 35,2 24,7 32,8 35,2 30,5 28,3
462.libquantum 74,9 39,9 79,3 84,4 62,2 67,3
464.h264ref 51,7 34,2 48,1 52,1 45,2 40,7
471.omnetpp +24,5 25,3 26,8 29,4 26,6 29,9
473.astar 28,2 20,7 26,1 27,9 24 23,6
483.xalancbmk 41,5 28,2 41,4 48,2 42,4 41,8

Если вы не привыкли видеть эти цифры, это не говорит вам слишком много. Поскольку Sandy Bridge EP (Xeon E5 v1) около 4 лет, серверы на базе этого процессора будут заменены более новыми. Таким образом, Sandy Bridge является нашей рекомендацией, и производительность Sandy Bridge считается 100%.

субтест Тип приложения Xeon E5-2690 Opteron 6376 Xeon E5-2697v2 Xeon E5-2667 v3 Xeon E5-2699 v3 Xeon E5-2699 v4
400.perlbench Спам-фильтр 100% 71% 91% 104% 97% 89%
401.bzip2 компрессия 100% 72% 90% 99% 90% 76%
403.gcc составление 100% 66% 97% 105% 91% 83%
429.mcf Планирование транспортного средства 100% 70% 104% 103% 92% 97%
445.gobmk ИИ игры 100% 70% 91% 96% 87% 76%
456.hmmer Последовательность белка анализы 100% 86% 91% 102% 89% 93%
458.sjeng шахматы 100% 70% 93% 100% 87% 80%
462.libquantum Квантовый сим 100% 53% 106% 113% 83% 90%
464.h264ref Кодирование видео 100% 66% 93% 101% 87% 79%
471.omnetpp Сеть сим 100% 103% 109% 120% 110% 122%
473.astar Найти путь 100% 73% 93% 99% 85% 84%
483.xalancbmk Обработка XML 100% 68% 100% 116% 102% 101%

Многие умные люди потратили недели, если не месяцы, на анализ SPEC CPU2006, поэтому мы не будем притворяться, что можем предложить вам полную картину через несколько дней. Если вам нужен подробный анализ компиляторов и CPU 2006, я рекомендую очень подробную статью SPEC CPU 2006 meister Andreas Stiller в февральском выпуске C’T (немецкий компьютерный журнал).

Нам нужно гораздо больше данных профилирования, чем мы могли бы собрать за последние недели. Но для того, что мы можем сделать, мы начнем с самого важного параметра: clockspeed.

Одна из самых важных вещей, которую нужно осознать, заключается в том, что – особенно с плохо загруженными рабочими нагрузками – эти массивные многоядерные процессоры почти никогда не работают на заявленной тактовой скорости.

  • Xeon E5-2690 может работать на частоте 3,3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,8 ГГц
  • Xeon E5-2697 v2 может работать на частоте 3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,5 ГГц
  • Xeon E5-2699 v3 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
  • Xeon E5-2667 v3 3,2 ГГц – это специализированная высокочастотная модель. Он может работать на частоте 3,4 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц.
  • Xeon E5-2699 v4 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
Читать далее  Обзор и тестирование процессора Intel Celeron N3060

Так что это уже многое объясняет. В отличие от многих эталонных приложений, SPEC CPU2006 работает в течение длительного времени (от 5 до 15 минут на тест), и наше первое впечатление состоит в том, что части HCC не могут поддерживать все свои ядра при максимальном турбо-ускорении. В противном случае нет причин, по которым Xeon E5-2699 v3 или v4 будет работать хуже, чем Xeon E5-2667 v3: оба могут работать на частоте 3,6 ГГц, когда активно одно ядро.

Симулятор сети с низким IPC и интенсивным использованием памяти omnetppp, похоже, является единственным тестом, который работает значительно лучше на новых ядрах (Haswell, Broadwell) по сравнению с Sandy Bridge. Похоже, что это единственный тест, в котором чипы с большим количеством ядер (E5-2699 v4, E5-2699 v3) продолжают превосходить Sandy Bridge. Мы могли бы точно определить причину, проводя тестирование с различными скоростями памяти и каналами. E5-2699 v4 может предложить самую высокую производительность благодаря большему кэш-памяти L3 (55 МБ) и более высокой скорости DIMM (DDR4-2400) по сравнению с Sandy Bridge (20 МБ, DDR3-1600). В противном случае, когда мы сохраняем более или менее постоянную тактовую частоту, глядя на Xeon E5-2667v3 и Xeon E5-2690, мы получаем разницу скорости в 1-5% и только подтесты с интенсивным использованием памяти (omnetpp, Libquantum) и xalancbmk ( низкий IPC, ветвление интенсивно) показывают более высокие улучшения.

Как только мы протестируем оба топовых SKU с помощью «-Ofast» (более агрессивная настройка компилятора), результаты немного изменятся:

субтест Тип приложения Xeon E5-2699 v4 против Xeon E5-2690 (-Ofast) Xeon E5-2699 v4 против Xeon E5-2690 (-O2)
400.perlbench Спам-фильтр 111% 89%
401.bzip2 компрессия 94% 76%
403.gcc составление 95% 83%
429.mcf Планирование транспортного средства 114% 97%
445.gobmk ИИ игры 90% 76%
456.hmmer Последовательность белка анализы 106% 93%
458.sjeng шахматы 93% 80%
462.libquantum Квантовый сим 101% 90%
464.h264ref Кодирование видео 89% 79%
471.omnetpp Сеть сим 132% 122%
473.astar Найти путь 98% 84%
483.xalancbmk Обработка XML 105% 101%

Переключение с -O2 на -Ofast повышает абсолютную производительность Broadwell-EP более чем на 19%. Между тем относительное преимущество в производительности по сравнению с Xeon E5-2690 составляет в среднем 3%. В результате недостаток тактовой частоты последнего Xeon сводится на нет увеличением IPC. Очевидно, что последнее поколение Xeons выигрывает от агрессивных оптимизаций больше, чем предыдущие. Это неудивительно, конечно, но интересно, что новейшие Xeon нуждаются в большей оптимизации, чтобы «держать линию» в производительности одного ядра.

Пока мы можем сделать вывод, что если вы обновите Xeon E5-2xxx v1 до аналогичной модели v4, ваш однопоточный целочисленный код не будет работать быстрее без перекомпиляции и оптимизации. Усовершенствования процесса были использованы главным образом для добавления большего количества ядер в одном и том же диапазоне энергопотребления, в то время как Intel также продала несколько скоростных бинов, чтобы добавить еще больше ядер в топовые модели. В результате одноядерная целочисленная производительность в основном держит линию, не более того. Единственным исключением являются приложения с интенсивным использованием памяти, которые получают выгоду от каждого растущего L3-кэша и более быстрой технологии DRAM.

Многопоточная целочисленная производительность

Хотя сжатие и декомпрессия сами по себе не являются эталонными тестами (по крайней мере, в отношении серверов), все больше и больше серверов должны выполнять эти задачи как часть большей роли (например, сжатие базы данных, оптимизация веб-сайта).

67413c

67413d

Это два приложения, которые действительно выигрывают от философии Intel, согласно которой «как можно меньше ядер с низким энергопотреблением в одном кристалле, сохраняя при этом линейную однопоточную производительность». Лучший Xeon E5 версии 4 не менее чем в 2,6 раза быстрее, чем Xeon E5 версии 1.

Заключительные мысли

Из-за ограниченного количества времени, которое мы должны были проводить с новыми Broadwell-EP Xeons в преддверии сегодняшнего эмбарго, мы потратили большую часть нашего времени на наших новых критериях. Однако мы также быстро проверили мощность. Похоже, что и мощность холостого хода, и нагрузка при полной загрузке с плавающей запятой немного уменьшились, но нам необходимо выполнить более тщательную проверку, чтобы дополнительно подтвердить и охарактеризовать это.

Между тем, учитывая то, что было замечательным предложением Xeon E5-2650L v3, очень жаль, что Intel не включила такой низкий SKU в наши образцы для обзора. Xeon E5-2699 v4 – это надежный продукт, но он не работает в домашних условиях. Либо это просто сбой нашей текущей настройки (прошивки?), Но кажется, что новые Xeon E3 v4s не достигают тех же турбо скоростей, что и наши Xeon E5 v3s. В результате однопоточная производительность (иногда) немного ниже, и новому процессору требуется больше ядер, чтобы превзойти предыдущее.

Мы заметили это главным образом в приложениях HPC, где новый Xeon – немного смешанный пакет. Тем не менее, учитывая, что от 72 до 88 потоков – это много для многих интересных приложений (Spark, базы данных SQL …), безусловно, есть место для процессоров, которые жертвуют большим количеством ядер для более высокой однопоточной производительности (без преувеличения). Мы застряли на частоте 3,6 ГГц слишком долго.

С учетом вышесказанного, нет никаких сомнений в том, что Xeon E5-2699 v4 обеспечивает одно приложение, которое наиболее важно: виртуализация.

v4Refresh_575px

Хотя мы еще не проводили всесторонних испытаний на основе гипервизора, мы почти уверены, что дополнительные ядра и меньшие задержки VMexit обеспечат хорошую производительность этого ЦП в виртуализированных средах. Технология директора ресурсов Intel и множество улучшений (объявленных прерываний), которые помогают гипервизору лучше выполнять задачи с интенсивным вводом-выводом, являются очень привлекательными функциями.

Хотя это немного, по сравнению с Xeon E5 v3s на базе Haswell-EP, производительность также выросла примерно на 20% в ключевых приложениях, таких как базы данных и приложения ERP. И хотя в некоторых случаях мы можем жаловаться всем, что хотим, на небольшое снижение производительности в однопоточном режиме, но дело в том, что Intel увеличила производительность в этих ключевых приложениях в 2–2,7 раза за четыре года, сохраняя при этом энергопотребление. более или менее то же самое. Другими словами, обновление этих серверов Sandy Bridge-EP окупится. И для многих предприятий это то, что имеет значение.

Источник https://xeon-e5450.ru/socket-2011-3/e5-2600-v4/xeon-e5-2680-v4/

Источник https://771xeon.ru/obzor-intel-xeon-e5-v4-testirovanie-broadwell-ep-s-vysokimi-nagruzkami-na-server/

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *