有时,运作 Nginx、PHP-CGI(php-fpm) Web服务的 Linux 网络服务器,忽然系统软件负荷升高,应用 top 指令查询,许多 php-cgi 过程 CPU 利用率贴近100%。之后,我根据追踪发觉,这类状况的出現,跟 PHP 的 file_get_contents() 涵数拥有紧密的关联。(
北京市网站建设)
大、中小型网址中,根据 HTTP 协议书的 API 插口启用,是家常饭。PHP 程序猿们喜爱应用简易方便快捷的 file_get_contents("http://example.com/") 涵数,来获得一个 URL 的回到內容,可是,假如 http://example.com/ 这一网址回应迟缓,file_get_contents() 便会一直卡在那里,不容易请求超时。
我们知道,在 php.ini 中,有一个主要参数 max_execution_time 能够设定 PHP 脚本制作的较大实行時间,可是,在 php-cgi(php-fpm) 中,该主要参数不容易见效。真实可以操纵 PHP 脚本制作较大实行時间的是 php-fpm.conf 环境变量中的下列主要参数:
- The timeout (in seconds) for serving a single request after which the worker process will be terminated
- Should be used when 'max_execution_time' ini option does not stop script execution for some reason
- '0s' means 'off'
- <value name="request_terminate_timeout">0s</value>
初始值为 0 秒,换句话说,PHP 脚本制作会一直实行下来。那样,当全部的 php-cgi 过程都卡在 file_get_contents() 涵数时,这台 Nginx PHP 的 WebServer 早已没法再解决新的 PHP 要求了,Nginx 将给客户回到“502 Bad Gateway”。改动该主要参数,设定一个 PHP 脚本制作较大实行时间必需的,可是,不能根除。比如改为 30s,假如产生 file_get_contents() 获得网页页面比较慢的状况,这就代表着 150 个 php-cgi 过程,每秒只有解决 5 个要求,WebServer 一样难以防止“502 Bad Gateway”。
要保证彻底消除,只有让 PHP 程序猿们改正立即应用 file_get_contents("http://example.com/") 的习惯性,只是略微改动一下,加个请求超时時间,用下列方法来完成 HTTP GET 要求。如果感觉不便,能够自主将下列编码封裝成一个涵数。
- <?php
- $ctx = stream_context_create(array(
- 'http' => array(
- 'timeout' => 1 //设定一个请求超时時间,企业为秒
- )
- )
- );
- file_get_contents("http://example.com/", 0, $ctx);
- ?>
自然,造成 php-cgi 过程 CPU 100% 的缘故不仅有这一种,那麼,如何明确是 file_get_contents() 涵数造成的呢?
最先,应用 top 指令查询 CPU 利用率较高的 php-cgi 过程。
- top - 10:34:18 up 724 days, 21:01, 3 users, load average: 17.86, 11.16, 7.69
- Tasks: 561 total, 15 running, 546 sleeping, 0 stopped, 0 zombie
- Cpu(s): 5.9%us, 4.2%sy, 0.0%ni, 89.4%id, 0.2%wa, 0.0%hi, 0.2%si, 0.0%st
- Mem: 8100996k total, 4320108k used, 3780889k free, 772572k buffers
- Swap: 8193108k total, 50778k used, 8142332m free, 412088k cached
- PID USER PR NI VIRT RES SHR S %CPU %MEM TIME COMMAND
- 10747 www 18 0 360m 22m 12m R 100.6 0.3 0:02.60 php-cgi
- 10709 www 16 0 358m 28m 17m R 96.8 0.4 0:11.34 php-cgi
- 10745 www 18 0 360m 24m 14m R 94.8 0.3 0:39.51 php-cgi
- 10707 www 18 0 360m 25m 14m S 77.4 0.3 0:33.48 php-cgi
- 10782 www 20 0 360m 26m 15m R 75.5 0.3 0:10.93 php-cgi
- 10708 www 25 0 360m
22m 12m R 69.7 0.3 0:45.16 php-cgi
- 10683 www 25 0 361m 28m 15m R 54.2 0.4 0:32.65 php-cgi
- 10711 www 25 0 360m 25m 15m R 52.2 0.3 0:44.25 php-cgi
- 10688 www 25 0 358m 25m 15m R 38.7 0.3 0:10.44 php-cgi
- 10719 www 25 0 360m 26m 16m R 7.7 0.3 0:40.59 php-cgi
找在其中一个 CPU 100% 的 php-cgi 过程的 PID,用下列指令追踪一下:
- strace -p 10747
假如屏幕上显示:
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
- select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
- poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
那麼,就可以明确是 file_get_contents() 造成的
难题了。