From the blog

NVIDIA Tesla V100 Benchmark Results on Rescale

Rescale just added NVIDIA’s newest, most advanced GPU, the Tesla V100, to the ScaleX platform. This is NVIDIA’s first GPU based on the latest Volta architecture. Starting November 13, 2017, all platform users are able to select the V100s as part of the ScaleX standard batch workflow.

Optimized for Deep Learning
Rescale’s V100-powered systems come with 1, 4, or 8 V100 GPUs, all connected with 300GB/s NVLink interconnect. The V100 Volta architecture is optimized for deep learning workloads with deep learning-tuned, half-precision Tensor Cores. These systems can train deep learning models more than 2x faster than previous generation P100 systems as shown in these Caffe2 ResNet50 trainer benchmark results:
Rescale_Caffe2 Resnet50 chart
(Synthetic data, per GPU batch size of 64)

TensorFlow, with CUDA 9, achieves similar results with 8 V100s outperforming 8 P100s by 40% on TensorFlow’s convolutional neural network benchmarks on all 3 network architectures tested.

Rescale_tensorflow cnn benchmarks graph

(Synthetic data, per GPU batch size of 64)

Start Using V100 GPUs Today!

To get you started running NVIDIA V100s today, below are a couple sample jobs you can clone and run to test our new hardware. For instructions on how to clone a job, click here. You will of course need a Rescale account to do so—you can sign up for one here.

Caffe2 ResNet50 Trainer benchmark
Caffe2 is one of the first deep learning frameworks to integrate support for new Tensor Cores and take full advantage of half-precision floating point arithmetic in the Volta architecture. Run the same Caffe2 benchmarks shown above yourself on Rescale.
Click here to clone the Caffe2 ResNet50 4 x V100 job.

TensorFlow InceptionV3 benchmark

TensorFlow is also known for providing high-performance model training. Run the same TensorFlow CNN benchmarks shown above on Rescale V100s to compare the results yourself.
Click here to clone the InceptionV3 4 x V100 job.

Deep Learning Kickstart Program

As part of a joint promotion with our hardware partner, SkyScale, apply to be in the Deep Learning Kickstart Program. The program awards $1,000-5,000 in Rescale hardware credits for GPU use to approved applicants. All Rescale users representing a company are eligible to apply. Users in the program will be able to run on systems with NVLinked P100 or V100 GPUs.

Related articles

Rescale's Product Roadmap for 2018 - Part Two

We recently shared with you part 1 of our roadmap, covering new and improved features in the areas of cloud robustness, application software, and licensing. This blog post will go over the rest of our 2018 product roadmap, covering development […]

read more »

複数ジョブ実行時の時間と経費を節約する新機能:Persistent Clusters (永続クラスター)

RescaleのRahul Vergheseが、2017年1月19日に記載したBlog記事の翻訳です。 元記事はIntroducing Persistent Clusters: a New Feature to Save Time & Money with Multiple Jobsをご覧ください。 Rescaleは、最新のデプロイメントで新機能のPersistent Clusters (以下、「永続クラスター」:マニュアルで起動/削除可能なクラスター)をリリースしました。この機能を有効にすることで、複数のインスタンスを起動してクラスタを構築し、シャットダウン(訳注:Rescaleシステムではシャットダウン後インスタンスは削除されます)することなく、Rescaleワークフロー(Web UI)を使用して複数のジョブを順番に同じクラスターへ投入できます。以前は、各ジョブ毎にクラスターが稼働し、ジョブの完了後は自動的にシャットダウンされるため、複数の小さなジョブを実行すると遅延が発生する可能性がありました。この新しい機能により、繰り返し処理の高速化が可能になります。これは、テストや同じハードウェア構成を必要とする複数のジョブに特に便利です。 時間とお金を節約 一般に、各クラスターがスピンアップしてシャットダウンするまでには数分かかります。永続的クラスターを有効にしておくと、クラスターに追加する各ジョブの時間とコストを節約できます。 なぜ? 標準のクラスターは、ジョブが完了すると自動的にシャットダウンし、後続のジョブも同じように起動してシャットダウンするため、別々のクラスターとしてそれぞれ課金されます。(訳注:通常、たとえ10分の計算であっても1時間分の課金となるため、10分で完了する連続する2つのジョブを実行した場合、2時間分が課金されます)一方で、永続クラスターを使用すると、クラスターはすぐに次のジョブの実行に使用できるようになるため、ジョブ間で別のクラスターをシャットダウンして起動させる時間を無駄にしません。それによって、同様のジョブを多数立ち上げるユーザーにとって、時間とコストを大幅に節約することになります。(訳注:上記の例だとちょうど10分の計算を待ち時間なく2つ連続的に実施できることになり、1時間分の課金で収まることになります。)

read more »