在Java虚拟机规范的描述中,除了程序计数器外,虚拟机内存的其他几个运行时区域都有发生OutOfMemoryError(下文称OOM)异常的可能。本节探究主要基于jdk1.8的内存结构。
1. Java堆溢出
Java堆用于存储对象实例,只要不断地创建对象,并且保证GC Roots到对象之间有可达路径来避免垃圾回收机制清除这些对象,那么在对象数量到达最大堆的容量限制后就会产生内存溢出异常。
import java.util.ArrayList;import java.util.List;/** * Java堆内存溢出异常测试 ** -Xms20m -Xmx20m -XX:HeapDumpOnOutOfMemoryError */public class HeapOOM { static class OOMObject { } public static void main(String[] args) { List
list = new ArrayList (); while (true) { list.add(new OOMObject()); } }}
通过配置VM参数限制Java堆的大小为20MB,不可扩展(将堆的最小值-Xms参数与最大值-Xmx参数设置为一样即可避免堆自动扩展),通过参数-XX:+HeapDumpOnOutOfMemoryError可以让虚拟机在出现内存溢出异常时Dump出当前的内存堆转储快照以便事后进行分析。
执行结果如下,Java堆内存的OOM异常是实际应用中常见的内存溢出异常情况。当出现Java堆内存溢出时,异常堆栈信息“java.lang.OutOfMemoryError”会跟着进一步提示“Java heap space”。
要解决这个区域的异常,一般的手段是先通过内存映像分析工具(如Eclipse Memory Analyzer)对Dump出来的堆转储快照(在项目目录下)进行分析,重点是确认内存中的对象是否是必要的,也就是要先分清楚到底是出现了内存泄漏(Memory Leak)还是内存溢出(Memory Overflow)。
分析过程如下:
1. 通过mat打开快照文件,选择运行内存泄漏嫌疑报告
通过报告上面的饼图,可以清晰地看到一个可疑对象消耗了系统 96% 的内存。
在饼图的下方有对这个可疑对象的进一步描述。可以看到内存是由 java.lang.Object[]的数组实例消耗的,system class loader 负责这个对象的加载。通过描述可以了解到一些线索,比如是哪个类占用了绝大多数的内存,它属于哪个组件等等。
因此需要分析问题的原因,为什么一个 Object[]会占据了系统 99% 的内存?谁阻止了垃圾回收机制对它的回收?
回顾下 JAVA 的内存回收机制,内存空间中垃圾回收的工作由垃圾回收器 (Garbage Collector,GC) 完成的,它的核心思想是:对虚拟机可用内存空间,即堆空间中的对象进行识别,如果对象正在被引用,那么称其为存活对象,反之,如果对象不再被引用,则为垃圾对象,可以回收其占据的空间,用于再分配。
在垃圾回收机制中有一组元素被称为根元素集合,它们是一组被虚拟机直接引用的对象,比如,正在运行的线程对象,系统调用栈里面的对象以及被 system class loader 所加载的那些对象。堆空间中的每个对象都是由一个根元素为起点被层层调用的。因此,一个对象还被某一个存活的根元素所引用,就会被认为是存活对象,不能被回收,进行内存释放。因此,可以通过分析一个对象到根元素的引用路径来分析为什么该对象不能被顺利回收。如果说一个对象已经不被任何程序逻辑所需要但是还存在被根元素引用的情况,可以说这里存在内存泄露。
2. 具体分析点击“Details ”链接,查看对可疑对象 的详细分析报告。
查看下从 GC 根元素到内存消耗聚集点的最短路径,在Shortest Paths To the Accumulation Point(GC root到聚集点的最短路径,就是持有可能泄漏内存对象的最近一层)的列表中,可以追溯到问题代码的类树的结构,并找到自己代码中的类。 在列表中,有两列Shallow Heap和Retained Heap。Shallow Heap指的是就是对象本身占用内存的大小,不包含对其他对象的引用,也就是对象头加成员变量(不是成员变量的值)的总和。Retained Heap指的是该对象自己的Shallow Heap,加上从该对象能直接或间接访问到对象的Shallow Heap之和。换句话说,Retained Heap是该对象被GC之后所能回收到内存的总和。
可以很清楚的看到整个引用链,内存聚集点是一个拥有大量对象的集合。
接下来,再继续看看,这个对象集合里到底存放了什么,为什么会消耗掉如此多的内存。在Accumulated Objects in Dominator Tree列表中,可以查看创建的大量的对象的聚集详情,即完整的reference chain 。
在这张图上,我们可以清楚的看到,这个对象集合中保存了大量 OOMObject对象的引用,就是它导致的泄露。
如果确定为内存泄露,可进一步通过工具查看泄露对象到GC Roots的引用链。于是就能找到泄露对象是通过怎样的路径与GC Roots相关联并导致垃圾收集器无法自动回收它们的。掌握了泄露对象的类型信息及GC Roots引用链的信息,就可以比较准确地定位出泄露代码的位置。
如果不存在泄露,换句话说,就是内存中的对象确实都还必须存活着,那就应当检查虚拟机的堆参数(-Xmx与-Xms),与机器物理内存对比看是否还可以调大,从代码上检查是否存在某些对象生命周期过长、持有状态时间过长的情况,尝试减少程序运行期的内存消耗。
2. 虚拟机栈和本地方法栈溢出
由于在HotSpot虚拟机中并不区分虚拟机栈和本地方法栈,因此,对于HotSpot来说,虽然-Xoss参数(设置本地方法栈大小)存在,但实际上是无效的,栈容量只由-Xss参数设定。关于虚拟机栈和本地方法栈,在Java虚拟机规范中描述了两种异常:
- 如果线程请求的栈深度大于虚拟机所允许的最大深度,将抛出StackOverflowError异常。
- 如果虚拟机在扩展栈时无法申请到足够的内存空间,则抛出OutOfMemoryError异常。
这里把异常分成两种情况,看似更加严谨,但却存在着一些互相重叠的地方:当栈空间无法继续分配时,到底是内存太小,还是已使用的栈空间太大,其本质上只是对同一件事情的两种描述而已。
定义大量的本地变量,增大此方法帧中本地变量表的长度或者设置-Xss参数减少栈内存容量,这两种操作都会抛出StackOverflowError异常。
/** * 虚拟机栈SOF测试 ** -Xss128k */public class JavaVMStackSOF { private int stackLength = 1; public void stackLeak(){ stackLength++; stackLeak(); } public static void main(String[] args) throws Throwable{ JavaVMStackSOF oom = new JavaVMStackSOF(); try { oom.stackLeak(); }catch (Throwable e){ System.out.println("stack length :"+oom.stackLength); throw e; } }}
运行结果如下,抛出StackOverflowError异常时输出的堆栈深度相应缩小。
所以,如果在单线程的情况下,无论是栈帧太大还是虚拟机栈容量太小,当内存无法再分配的时候,虚拟机抛出的是StackOverflowError异常。
如果在多线程下,不断地建立线程可能会产生OutOfMemoryError异常。
/** * 创建线程导致内存溢出异常 注意:windows平台下执行可能会导致系统卡死 * -Xss2M */public class JavaVMStackOOM { private void dontStop(){ while(true){} } public void stackLeakByThread(){ while(true){ Thread thread = new Thread(new Runnable() { @Override public void run() { dontStop(); } }); thread.start(); } } public static void main(String[] args) { JavaVMStackOOM oom = new JavaVMStackOOM(); oom.stackLeakByThread(); }}
运行结果如下:
Exception in thread"main"java.lang.OutOfMemoryError:unable to create new native thread
上面代码导致OOM的原因不难理解,操作系统分配给每个进程的内存是有限制的,譬如32位的Windows限制为2GB。虚拟机提供了参数来控制Java堆和方法区的这两部分内存的最大值。剩余的内存为2GB(操作系统限制)减去Xmx(最大堆容量),再减去MaxPermSize(最大方法区容量),程序计数器消耗内存很小,可以忽略掉。如果虚拟机进程本身耗费的内存不计算在内,剩下的内存就由虚拟机栈和本地方法栈“瓜分”了。每个线程分配到的栈容量越大,可以建立的线程数量自然就越少,建立线程时就越容易把剩下的内存耗尽;64位的Windows限制为8TB,理论上是可以创建很多线程的,但是,谁的机器内存有8TB??所以,在其他系统如Linux,创建多线程时,尽管未达到进程的内存限制,往往也会达到机器的最大内存,导致OOM。
在开发多线程的应用时特别注意,出现StackOverflowError异常时有错误堆栈可以阅读,相对来说,比较容易找到问题的所在。而且,如果使用虚拟机默认参数,栈深度在大多数情况下(因为每个方法压入栈的帧大小并不是一样的,所以只能说在大多数情况下)达到1000~2000完全没有问题,对于正常的方法调用(包括递归),这个深度应该完全够用了。但是,如果是建立过多线程导致的内存溢出,在不能减少线程数或者更换64位虚拟机的情况下,就只能通过减少最大堆和减少栈容量来换取更多的线程。
3. 方法区和运行时常量池溢出
String.intern()是一个Native方法,它的作用是:如果字符串常量池中已经包含一个等于此String对象的字符串,则返回代表池中这个字符串的String对象;否则,将此String对象包含的字符串添加到常量池中,并且返回此String对象的引用。
import java.util.ArrayList;import java.util.List;/** * 运行时常量池导致的内存溢出异常*/public class RuntimeConstantPoolOOM { public static void main(String[] args) { //使用List保持常量池引用,避免Full GC回收常量池行为 Listlist = new ArrayList (); //10M的PermSize在integer范围内足够产生OOM int i = 0; while (true){ list.add(String.valueOf(i++).intern()); } }}
在JDK 1.6及之前的版本中,由于常量池分配在永久代内,我们可以通过-XX:PermSize和-XX:MaxPermSize限制方法区(HotSpot虚拟机中的永久代)大小,从而间接限制其中常量池的容量。
JDK 1.6通过设置VM参数设置永久代大小 -XX:PermSize=10M -XX:MaxPermSize=10M,运行结果如下:
报错信息为永久代溢出,说明JDK1.6时运行时常量池在永久代。
JDK 1.7设置VM参数 -Xmx20m -Xms20m -XX:-UseGCOverheadLimit,这里的-XX:-UseGCOverheadLimit是关闭GC占用时间过长时会报的异常,然后限制堆的大小 -Xmx20m -Xms20m 。
报错信息为堆内存溢出,原因是增加的常量都放到了堆中,所以限制堆内存以后,不断增加常量,导致堆内存溢出。说明JDK1.7时运行时常量池在堆中。
在JDK1.8中测试,设置VM参数 -Xmx20m -Xms20m -XX:-UseGCOverheadLimit,结果和JDK1.7相同。
补充一点:如果在上面的JDK 1.7或者JDK1.8中不通过VM参数 -XX:-UseGCOverheadLimit关闭GC占用时间过长时报的异常,即只设置VM参数 -Xmx20m -Xms20m ,执行结果如下:
并行/并发回收器在GC回收时间过长时会抛出OutOfMemroyError。过长的定义是,超过98%的时间用来做GC并且回收了不到2%的堆内存。用来避免内存过小造成应用不能正常工作。
由此可证明,在JDK1.2 ~ JDK6的实现中,HotSpot使用永久代实现方法区,从JDK7开始Oracle HotSpot开始移除永久代,JDK7中符号表被移动到Native Heap中,字符串常量和类引用被移动到Java Heap中。在JDK8中,字符串常量依然在堆中,“永久代”完全被元空间(Meatspace)所取代。
运行如下一段代码测试String.intern()的返回引用
public class InternMethodTest { public static void main(String[] args) { String str1=new StringBuilder("引用").append("测试").toString(); System.out.println(str1.intern()==str1); String str2=new StringBuilder("ja").append("va").toString(); System.out.println(str2.intern()==str2); }}
这段代码在JDK 1.6中运行,会得到两个false,而在JDK 1.7中运行,会得到一个true和一个false。产生差异的原因是:在JDK 1.6中,intern()方法会把首次遇到的字符串实例复制到永久代中,返回的也是永久代中这个字符串实例的引用,而由StringBuilder创建的字符串实例在Java堆上,所以必然不是同一个引用,将返回false。而JDK 1.7(以及部分其他虚拟机,例如JRockit)的intern()实现不会再复制实例,只是在常量池中记录首次出现的实例引用,因此intern()返回的引用和由StringBuilder创建的那个字符串实例是同一个。对str2比较返回false是因为“java”这个字符串在执行StringBuilder.toString()之前已经出现过,字符串常量池中已经有它的引用了,不符合“首次出现”的原则,而“计算机软件”这个字符串则是首次出现的,因此返回true。
方法区用于存放Class的相关信息,如类名、访问修饰符、常量池、字段描述、方法描述等。对于这些区域的测试,基本的思路是运行时产生大量的类去填满方法区,直到溢出。
方法区溢出也是一种常见的内存溢出异常,一个类要被垃圾收集器回收掉,判定条件是比较苛刻的。在经常动态生成大量Class的应用中,需要特别注意类的回收状况。这类场景除了上面提到的程序使用了CGLib字节码增强和动态语言之外,常见的还有:大量JSP或动态产生JSP文件的应用(JSP第一次运行时需要编译为Java类)、基于OSGi的应用(即使是同一个类文件,被不同的加载器加载也会视为不同的类)等。
4. 本机直接内存溢出
DirectMemory容量可通过-XX:MaxDirectMemorySize指定,如果不指定,则默认与Java堆最大值(-Xmx指定)一样,下面代码越过了DirectByteBuffer类,直接通过反射获取Unsafe实例进行内存分配(Unsafe类的getUnsafe()方法限制了只有引导类加载器才会返回实例,也就是设计者希望只有rt.jar中的类才能使用Unsafe的功能)。因为,虽然使用DirectByteBuffer分配内存也会抛出内存溢出异常,但它抛出异常时并没有真正向操作系统申请分配内存,而是通过计算得知内存无法分配,于是手动抛出异常,真正申请分配内存的方法是unsafe.allocateMemory()。
import sun.misc.Unsafe;import java.lang.reflect.Field;/** * 使用unsafe分配本机内存 * -Xmx20M -XX:MaxDirectMemorySize=10M*/public class DirectMemoryOOM { private static final int _1MB = 1024 * 1024; public static void main(String[] args) throws Exception { Field unsafeField = Unsafe.class.getDeclaredFields()[0]; unsafeField.setAccessible(true); Unsafe unsafe = (Unsafe) unsafeField.get(null); while (true) { unsafe.allocateMemory(_1MB); } }}
上面代码运行结果如下:
由DirectMemory导致的内存溢出,一个明显的特征是在Heap Dump文件中不会看见明显的异常,如果读者发现OOM之后Dump文件很小,而程序中又直接或间接使用了NIO,那就可以考虑检查一下是不是这方面的原因。