<div dir="ltr">Here's another way to look at it:  We have a failure to communicate with an agent process. That's probably a subprocess.  It probably died with some serious error, a hotspot crash or OOM.  Probably the agent process printed something helpful to stderr before it terminated.  What happened to that output?  The failure is probably related to whatever test it was supposed to be running at the time, so I'd want that information in e.g. the jtr file.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Aug 14, 2019 at 12:28 AM Martin Buchholz <<a href="mailto:martinrb@google.com">martinrb@google.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Aug 13, 2019 at 11:49 PM Alan Bateman <<a href="mailto:Alan.Bateman@oracle.com" target="_blank">Alan.Bateman@oracle.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On 13/08/2019 23:39, Martin Buchholz wrote:<br>
> We continue to see rare "Agent communication error" problems when <br>
> running jtreg tests.<br>
> We believe something has gone wrong in the JDK under test, but we <br>
> never get any details.<br>
> The failure is correlated with running specific tests, and specific JDKs.<br>
> Anecdotally, it appears to be more common with fastdebug JDKs.<br>
><br>
> A sample snippet:<br>
><br>
> TEST RESULT: Error. Agent communication error: <br>
> java.net.SocketException: Broken pipe (Write failed); check console <br>
> log for any additional details<br>
Are the agent VMs crashing? Maybe the fastdebug builds are hitting <br>
asserts earlier than the crash with product bits. Have you looked at <br>
hs_err logs or core files on the systems?<br></blockquote><div><br></div><div>It's not so easy for us to get hs_err log files; we only get jtreg stdout/stderr.</div><div>While we could/should improve our infrastructure ...</div><div>jtreg provides helpful diagnostics in other cases, e.g. thread dump on test timeout, so it would be good to be helpful even when communication with the agent breaks down.  Maybe jtreg should use one of those VM flags to get agent VMs to send failure data to stderr?</div><div> </div></div></div>
</blockquote></div>