EUの実施する個人データ保護法に基づき、私たちはあなたの個人データを保護し、個人データに関する情報を提供することに努めています。 「全てを受け入れる」をクリックすると、当ウェブサイト上でのご利用体験の向上、ウェブサイトのパフォーマンスや利用状況の分析の支援、関連するマーケティングコンテンツの提供のために、Cookieを設置することに同意したものとみなされます。Cookieの設定を管理するには、下部のリンクをクリックしてください。「確認」をクリックすると、現在の設定に同意したものとみなされます。
AIを用いた1Uサーバーの多熱源放熱ファン省エネ実現における可能性の研究
■研究の背景
技術の発展に伴い、保存、伝送、計算が必要なデータはますます膨大になってきています。これらの放熱は、主に各キャビネット内の複数のサーバーから発生するため、効果的な放熱がない場合、システムがオーバーヒートしやすくなり、正常な動作ができなくなります。このことからデータセンタに対するサーバ性能の安定性、高速演算における信頼性、情報伝送の安全性、および全体的なコストに関連するエネルギー損失から、サーバシステムの依存性および複雑性が増大していることが分かります。
2014年の米国データセンターの電力使用量[1]によると、エネルギー損失の40%はサーバーから発生する熱の冷却に使われており、冷却システムのエネルギー消費量の削減はエネルギーを効率的に使用するだけでなく、エネルギーコストの大幅な削減につながるため、近年重要な研究課題となっています。これは、データセンターが今後、サーバーの性能とエネルギーコスト削減の必要性を両立させる必要があることを示しています。
■研究方法
1.深層強化学習
このアルゴリズムは、環境と代理人が繰り返し相互作用し、それぞれの相互作用を記録してデータベースに蓄積するマルコフ型意思決定プロセスに基づいています。評価用ニューラルネットワークは損失勾配ごとに一度パラメータを更新しますが、目標用ニューラルネットワークは計算ごとにゆっくり更新するだけで、評価用ニューラルネットワークに比べて固定的な基準点とみなすことができ、評価用ニューラルネットワークがより安定した計算の収束を達成するのに貢献します。最後に、アクターニューラルネットワークのパラメータを更新し、アクターニューラルネットワークを最適化してエージェントが様々な状況での意思決定に適した動作点を見出すのに役立てることができます。
代理人と環境とのインタラクションにおいて、システムの内部状態を把握するために、代理人はいくつかのポインタパラメータを通じてサーバの現在の状態を把握する必要があります。本研究での作用値は、出力作用として現在のファン回転数のデューティサイクルです。
報酬値は代理人と環境との相互作用の後に生成され、相互作用の結果に基づいて行動のメリットを評価するとともに、評論家ニューラルネットワークの学習のための重要な基準となり、代理人の最終的な行動方向性に影響を与えます。熱伝達率はファンで駆動される流量の影響を受け、ファン法則ではファンの回転数がシステムの消費電力に影響を与える重要な要因であり、エネルギー消費の最も重要な指標であることがわかります。最後に、有効温度差はファン回転速度の影響を受けるが、本研究では熱源温度を正常運行範囲内に制御し、部品の過熱損傷を避ける前提でサーバーの省エネ空間を向上させ、奨励値によって代理人に動作を評価させます。
2.サーバー過渡環境シミュレーション
(図1:実際のサーバー構成)
図1は、複雑な構成と狭い空間を持つ市販のサーバーを示しています。この研究ではまず、サーバーの入口と出口の流路が単一で、外部の流れ場による追加の圧力差がないと仮定し、サーバーの熱伝達モデルを単純化しています。ラジエーターの冷却挙動はラジエーター前面に流入する空気のみに依存し、周囲のバイパスでの冷却効果を無視し、最終的にラジエーターを流れる空気は周囲のバイパスに漏れることはありません。
上記の仮定に加え、サーバー内の熱源モジュールの分布を流れ方向によって異なる列に分け、各列を直列につないで上流と下流の流れを形成し、下流の入口は上流の出口の流体特性を継承して列の間に並列するヒートシンクは複数の並列流路を形成すると仮定することで、サーバー内の熱源の分布パターンを単純化しました。上記のヒートシンクの分布の仮定を用いると、サーバー内の空間は複数の仮想的な流路に切り分けられ、一つの流路には一つのヒートシンクしか存在できず、バイパス現象のための流路の全断面をヒートシンクが占有できない幾何学構成となります。この幾何学モデルは、ランナー側面の輪郭の違いを無視することでJonsson [2]のものと近しいため、圧力損失とニッセンス数の経験式でヒートシンクの性能を表現することができます。
■初歩結果
初期の統一制御モデルが完成し、今回モデルに適用した1Uサーバ環境構成パラメータの範囲を以下の表1に、その後のシミュレーションのためのサーバ環境パラメータと構成の模式図を図1に示します。
Compare the results of traditional switch control methods and algorithm control.
制御アルゴリズムはエネルギー効率の向上に有効でしたが、エネルギー効率にはまだ改善の余地があります。図4は、ファンを1つずつしか変えない場合の結果です。最初のうちは温度に対するフィードバックがすぐに得られませんが、後半になると温度制御が安定し、起伏幅も緩やかです。 図5はファンをゾーンに分け、各ゾーンに複数のファンを配置したものです。温度制御の面ではこの方が即効性がありますが、同時に一度に多くのファンを交換するため、全体の流量が増え、温度の振動が激しくなり、省エネ効果は相対的に劣ることになります。
■結論
モデル学習に大量のデータを利用することで、サーバーの構成設計にかかる時間的コストを削減できます。また、さまざまな稼働状況に応じてより適切な動作をさせることで、サーバーの消費電力を削減することもできます。 今回の研究の結果、このアルゴリズムにより、熱源が過熱しないように温度を制御し、最大有効温度差で放熱できることがわかりました。
■参考文献
[1] 2020, "How Much Energy Do Data Centers Really Use?," Energy Innovation: Policy and Technology LLC. https://energyinnovation.org/2020/03/17/how-much-energy-do-data-centers-really-use/
[2] H. Jonsson and B. Moshfegh., 2001, "Modeling of the thermal and hydraulic performance of plate fin, strip fin, and pin fin heat sinks-influence of flow bypass," IEEE TRANSACTIONS ON COMPONENTS AND PACKAGING TECHNOLOGIES, VOL. 24, NO. 2, JUNE 2001, pp. 142-149.
文字編輯 高柏科技團隊
作者
王啟川教授