PHP有趣的细节:二进制安全

在看PHP手册的时候,经常看到一句话”该函数是二进制安全的”。

二进制安全是什么?

先看一段代码:

<?php
$string1 = "Hello"; 
$string2 = "Hello\0Hello"; 
echo strcoll($string1, $string2); /*返回0, 由于是非二进制安全,误判为相等 */
echo strcmp($string1, $string2);  /*返回<0,不相等*/
?>

这是为什么呢?PHP是基于C实现的,PHP代码都会被zend引擎编译成opcode,最终作为C语言去执行。 而对于c语言‘\0’是字符串的结束符,它读到’\0’就会默认字符读取已经结束,从而抛掉后面的字符串。

main(){  
    char ab[] = "Hello";  
    char ac[] = "Hello\0Hello";  
    strcmp(ab, ac); /*返回0, 由于是非二进制安全,误判为相等 */
 }

有一个二进制安全的定义,我挺喜欢的:

程序不会对其中的数据做任何限制、过滤、或者假设 —— 数据在写入时是什么样的, 它被读取时就是什么样。

PHP是如何实现二进制安全的?

那么,既然PHP是基于C实现的,C 字符串类型不是二进制安全的,PHP又是如何实现的呢?这就是数据结构的功劳了。 PHP的内核中,是如此定义字符串类型的

struct{
	char *val;
	int len;
} str;

val是指向字符串内存的指针,len表示该字符串的长度,无论是否遇到“\0”字符,C都按照len长度读取该字符串。